Corpus Italiano

English Italiano

Partenariato

Il progetto è una realizzazione comune di:

Università di Bologna - Sergio Scalise con Claudia Borghetti e Francesca Masini (responsabile dell'unità di ricerca nel periodo 2012-2013)
CNR Pisa - Vito Pirrelli con Alessandro Lenci e Felice Dell'Orletta
Accademia Europea di Bolzano - Andrea Abel con Chris Culy, Henrik Dittmann e Verena Lyding
Università di Trento - Marco Baroni con Marco Brunello, Sara Castagnoli e Egon Stemle

Coordinamento

I partner si sono suddivisi le seguenti attività:

[costituzione del corpus]: La raccolta dei testi del corpus è avvenuta all'Università di Trento tramite bootstrapping dal web di testi contrassegnati da un tipo di licenza non restrittiva. I testi sono successivamente stati privati dei tag html e di altre formattazioni o informazioni per la navigazione (per maggiori informazioni consultare la sezione costituzione del corpus).
[annotazione del corpus]: L'annotazione linguistica del corpus prevede una combinazione di procedure automatiche e manuali. Le informazioni annotate manualmente sono utilizzate per affinare le metodologie e gli strumenti della linguistica computazionale per l'annotazione dei corpora (per maggiori informazioni consultare la sezione costituzione del corpus). L'annotazione manuale di parte dei testi del corpus e la valutazione dei sistemi di analisi sono affidate ai ricercatori dell'Università di Bologna, dell'Università di Trento e del CNR di Pisa. Gli strumenti vengono sviluppati, adattati e utilizzati dal CNR di Pisa.
[interfaccia del corpus]: Il corpus è messo a disposizione degli utenti gratuitamente attraverso un'interfaccia online. La creazione di un'interfaccia complessa per apprendenti e ricercatori è un compito svolto presso l'Accademia Europea di Bolzano.