English   Italiano

Descrizione del corpus

Il corpus PAISÀ è un'ampia collezione di testi in lingua italiana tratti dal web (ca. 380 000 documenti per ca. 250 milioni di token) protetti da licenze creative commons (attribuzione - condividi allo stesso modo e attribuzione - condividi allo stesso modo - non commerciale e raccolti nell'ambito dell'omonimo progetto.

I documenti presenti nel corpus PAISA sono stati selezionati utilizzando due criteri. Il primo, ispirato al progetto WaCky prevede che si identifichino le url dei documenti da scaricare effettuando ricerche per combinazioni casuali di parole su un motore di ricerca (nel nostro caso, Yahoo!. Per PAISA, le parole utilizzate sono state tratte dal Vocabolario di Base della Lingua Italiana, organizzate in una lista di 50.000 coppie. La ricerca è stata limitata a pagine in lingua italiana con licenza Creative Commons di tipo CC-Attribuzione, CC-Attribuzione-Condividi allo stesso modo, CC-Attribuzione-Non commerciale, o CC-Attribuzione-Non commerciale-Condividi allo stesso modo. Una volta ottenuta la lista di url, si è proceduto con l'eliminazione di pagine erroneamente riconducibili alle licenze CC, individuate sulla base di una black list di siti realizzata manualmente durante la realizzazione di precedenti e sperimentali versioni del corpus, nonché allo scaricamento e alla ripulitura dei documenti con il sistema KrdWrd.

Una seconda componente del corpus PAISA comprende documenti provenienti dalle versioni italiane di alcuni dei progetti web di Wikimedia Foundation ¬ Wikipedia, Wikinews, Wikisource, Wikibooks, Wikiversity, Wikivoyage. In questo caso, si sono utilizzati i dump ufficiali rilasciati da Wikimedia Foundation, estraendo il testo con il Wikipedia Extractor.

Una volta ottenuti tutti i materiali, si è effettuata una scrematura sull'intera collezione allo scopo di eliminare i documenti vuoti o con quantità di testo inferiori alle 150 parole.

Il corpus contiene in totale circa 380.000 documenti da circa 1.000 siti distinti per un totale di circa 250 milioni di parole. Circa 260.000 documenti provengono dal Wikipedia, circa 5.600 da altri progetti Wikimedia Foundation. Circa 9.300 documenti provengono da Indymedia, e si stima che circa 65.000 documenti provengano da blog.

I documenti sono delimitati nel corpus da un elemento XML "text" con attributi "id" (un valore numerico distinto assegnato a ciascun documento ) e "url", che riporta l'url da cui il documento è stato scaricato.

Per avere informazioni più dettagliate sul processo di costituzione del corpus consultare la sezione costituzione del corpus. Per maggiori informazioni sul contributo dei singoli partner, vedere la sezione partenariato.

L'accesso online al corpus avviene attraverso un'interfaccia dedicata. Inoltre, è possibile scaricare l'intero corpus in diverse versioni.


Scarica il corpus PAISÀ et le liste di frequenza

Il corpus PAISÀ è messo a disposizione dal progetto PAISÀ (www.corpusitaliano.it) attraverso una licenza creative commons attribuzione - condividi allo stesso modo - non commerciale.

Si tratta di una collezione di testi web raccolti nel settembre/ottobre 2010, puliti e annotati con informazioni di tipo linguistico. I diritti dei testi web rimangono presso i proprietari degli indirizzi URL che a loro volta li hanno messi a disposizione attraverso licenze creative commons attribuzione - condividi allo stesso modo e attribuzione - condividi allo stesso modo - non commerciale.

I file di frequenza forniscono liste semplici dei lemmi trovati nell’intero corpus Paisà, assieme al relativo numero di occorrenze (formato LEMMA; FREQUENZA). I lemmi sono elencati in ordine discendente di frequenza. La lista ridotta contiene solo lemmi che si compongono di lettere e dei seguenti tre segni: .-'

Per citare il corpus:

Lyding, V. / Stemle, E. / Borghetti, C. / Brunello, M. / Castagnoli, S. / Dell'Orletta, F. / Dittmann, H. / Lenci, A. / Pirrelli, V. (2014): "The PAISÀ Corpus of Italian Web Texts" In: Proceedings of the 9th Web as Corpus Workshop (WaC-9), Association for Computational Linguistics, Gothenburg, Sweden, April 2014. pp. 36-43. [link to article]


Formato dei dati

I dati distribuiti sono conformi alle seguenti caratteristiche:

Campo 1IDNumeratore dei token, riparte da 1 per ogni nuova frase
Campo 2FORMForma flessa (di un lemma) o simbolo di interpunzione
Campo 3LEMMALemma
Campo 4CPOSTAGIndicazione generica della parte del discorso
Campo 5POSTAGIndicazione specifica della parte del discorso
Campo 6FEATSCaratteristiche morfosintattiche
Campo 7HEADHEAD Testa del token, rappresentata da un numero identificativo o da uno zero ('0'), se assente
Campo 8DEPRELRelazione di dipendenza che lega il token alla propria testa, indicata quale 'ROOT' quando il valore del campo HEAD è zero (cfr. tagset delle dipendenze per informazioni più precise)
Campo 9non utilizzato
Campo 10non utilizzato

I tagset morfosintattici e delle dipendenze utilizzati sono stati sviluppati congiuntamente dall’Istituto di Linguistica Computazionale "Antonio Zampolli" (ILC-CNR) e dall’Università di Pisa all’interno del progetto TANL (Text Analytics and Natural Language processing). Sono inoltre stati utilizzati per l’annotazione delle dipendenze nel corpus ISST-TANL.

Di seguito si riporta un esempio di annotazione:

IDFORMLEMMACPOSTAGPOSTAGFEATSHEADDEPREL
1GliilRRDnum=p|gen=m2det
2statistatiSSnum=p|gen=m4subj
3membrimembroSSnum=p|gen=m2mod
4provvedonoprovvedereVVnum=p|per=3|mod=i|ten=p0ROOT
5affinchéaffinchéCCS_4mod
6ililRRDnum=s|gen=m7det
7gestoregestoreSSnum=s|gen=m9subj_pass
8siaessereVVAnum=s|per=3|mod=c|ten=p9aux
9obbligatoobbligareVVnum=s|mod=p|gen=m5sub
10aaEE_9arg
11trasmetteretrasmettereVVmod=f10prep
12all'aEEAnum=s|gen=n11comp_ind
13autoritàautoritàSSnum=n|gen=f12prep
14competentecompetenteAAnum=s|gen=n13mod
15unaunaRRInum=s|gen=f16det
16notificanotificaSSnum=s|gen=f11obj
17entroentroEE_11comp_temp
18iilRRDnum=p|gen=m20det
19seguentiseguenteAAnum=p|gen=n20mod
20terminitermineSSnum=p|gen=m17prep
21..FFS_4punc