Analisi grammaticale del testo

L'analisi grammaticale del testo è l'associazione di una parte del discorso a ogni parola di una frase. Consente di stabile le relazioni tra le parole di una frase, quelle adiacenti e quelle contenute all'interno di una stessa proposizione.

Le parti del discorso

Le principali parti del discorso sono le seguenti:

  1. aggettivo
  2. articolo
  3. avverbio
  4. congiunzione
  5. interiezione
  6. preposizione
  7. pronome
  8. sostantivo
  9. verbo

Part of Speech Tagging ( POS )

Il Part of Speech Tagging ( POS ) è un metodo per analizzare grammaticalmente un testo in modo automatico, tramite un software o un algoritmo informatico, e agevolare la comprensione dell'informazione.

E' un metodo utilizzato nell'Information Retrieval ( IR ), nel Text Mining e nell'intelligenza artificiale.

L'analisi grammaticale automatica del testo

Il testo viene dapprima suddiviso in frasi e proposizioni. Le proposizioni sono, a sua volta, trasformate in vettori sequenziali di parole.

Ogni singola parola viene confrontata con una base dati esterna, in cui sono contenuti i possibili termini del discorso.

Cos'è un termine?

Un termine è un insieme di parole ( token ) o di radici ( stem ). Gli elementi dell'insieme possono essere ordinati o meno.

  • Gruppo ordinato. Le parole sono suddivise in base alla funzione che svolgono in una frase. Ad esempio, sostantivo o aggettivo. In questo caso, l'ordine dei token nell'elenco veicola un'informazione aggiuntiva. In alternativa, si può usare un tag grammaticale ( es. /V, /N, ecc. ).
    esempio di termine
  • Gruppo non ordinato. Le parole sono contenute nella lista del termine senza alcuna indicazione aggiuntiva sulla loro funzione e senza alcun ordine particolare.
    gruppo di token e radici senza un ordine particolare

Nota. L'etichettatura è più difficile nel caso dei titoli, in quanto sono spesso sintetici o stringati e quasi privi di una struttura grammaticale o, comunque, usano una struttura differente rispetto a quella di una frase normale.

L'etichettatura o tagging delle parole

La gestione dei token consente l'etichettatura ( tagging ) delle parole contenute in una frase o delle principali parti o frammenti del discorso ( part of speech ).

esempio di tagging

Una volta associata a ogni parola o segmento del testo una possibile funzione lessicale, è più facile risalire alla struttura grammaticale del testo.

Come etichettare le parole

Il tag può essere aggiunto alla fine della parola dopo un simbolo separatore ( es. slash / ) sotto forma di lettera maiuscola.

  1. /ADJ = aggettivo
  2. /A = articolo
  3. /ADV = avverbio
  4. /CNJ = congiunzione
  5. /UH = interiezione
  6. /P = preposizione
  7. /PRO = pronome
  8. /N = sostantivo
  9. /V = verbo

Esempio. La frase "il cane abbaia" può essere riscritta nella seguente forma "il/A cane/N abbaia/V".

Il tagging può anche essere più specifico. Ad esempio, è possibile specificare il tipo di verbo aggiungendo un'ulteriore lettera al tag ( es. /VD ) oppure un nuovo tag ( es. /MOD ):

  1. /VD = passato
  2. /VG = participio presente
  3. /VN = participio passato
  4. /MOD = verbo modale

In alternativa, l'etichettatura del testo può essere effettuata tramite le meta-informazioni del linguaggio XML ( eXtensible Markup Language ) o di qualsiasi altro linguaggio di web semantico.

Nota. Un altro problema riguarda le parole isolate nel testo, quelle poste tra parentesi o negli elenchi puntati. In questi casi, è più difficile risalire alla loro funzione grammaticale all'interno del testo.

 


 

Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

FacebookTwitterLinkedinLinkedin
knowledge base
  1. L'analisi automatica del testo
  2. La disambiguazione delle forme grafiche
  3. La riduzione delle parole con iniziale maiuscola
  4. L'analisi lessicometrica
  5. L'analisi lessicale del testo
  6. L'analisi grammaticale
  7. L'analisi dei segmenti
  8. La lessicazione
  9. L'analisi delle specificità
  10. L'indice di significatività del segmento
  11. Le occorrenze
  12. L'ampiezza lessicale
  13. La dimensione del testo
  14. Gli hapax