English   Italiano

Introduzione alla consultazione del corpus PAISÀ

L'interfaccia consente di accedere online al corpus PAISÀ, una collezione di circa 380.000 testi web in italiano. Il corpus può essere consultato sia per reperire singole frasi campione che interi documenti. I risultati delle ricerche possono essere scaricati o consultati online. In particolare, l'analisi delle relazioni di dipendenza sintattica (come ad esempio le relazioni di soggetto o oggetto) è visualizzabile tramite il sistema interattivo Extended Linguistic Dependency Diagrams (xLDD).

L'interfaccia costituisce uno strumento semplice e allo stesso tempo potente per consultare il corpus. Essa è concepita per utenti con necessità diverse in termini di usabilità e di efficacia delle ricerche. Ciò è possibile grazie a quattro diverse modalità di accesso:

Indice delle pagine di aiuto:

  1. Ricerca Semplice
    1. Selezionare un (sotto)corpus
    2. Esempi di ricerche
    3. Visualizzare i risultati
    4. Esportare i dati
  2. Ricerca Avanzata
    1. Ricerca per forme flesse, lemmi e parti del discorso (POS)
    2. Ricerca tramite espressioni regolari
    3. Ricerca per combinazioni di parole
    4. Ricerca per relazioni di dipendenza
    5. Presentazione dei risultati
  3. Ricerca CQP
    1. Esempi di ricerche usando il linguaggio CQP
    2. Personalizzare le impostazioni di visualizzazione
    3. Sottocorpora
    4. Esempi di ricerche complesse
    5. Limiti della ricerca con il linguaggio CQP
  4. Filtri
    1. Criteri di filtraggio
    2. Lista dei documenti
    3. Sottocorpora rinominati
    4. Nuvole di parole
  5. In generale
    1. Esportare i dati in formati diversi
    2. Usare la visualizzazione delle dipendenze
      1. Relazioni di dipendenza
      2. Il tagset
      3. Opzioni di visualizzazione di forme e lemmi
      4. Opzioni di visualizzazione delle parti del discorso
      5. Parti del discorso: il tagset (oppure anche qui)
    3. Criteri di "leggibilità" delle frasi
      1. Vocabolario avanzato
      2. Rapporto type-token
      3. Indice Gulpease
    4. La composizione e l'annotazione del corpus