Analisi sintattica

L'analizzatore sintattico ( o Parser ) è un processo di strutturazione di una frase.

Come funziona l'analisi sintattica?

L'analisi sintattica assegna alla frase in input una struttura che prende in considerazione le singole unità del discorso e le relazioni tra loro.

A ciascuna unità linguistica ( sintagma ) viene assegnata un'etichetta grammaticale.

un esempio di parser

La struttura sintagmatica può essere rappresentata sotto forma di albero.

l'albero dell'analisi sintattica

A cosa serve l'analisi sintattica? E' una delle prime fasi nel text mining ed e utile nell'elaborazione del linguaggio naturale ( NLP ) da parte di un algoritmo.

Le categorie POS

1] WORD

Nell'analisi sintattica ogni parola ( word ) è associata a una categoria grammaticale POS ( parts of speech ).

Cosa sono le parole? Le parole ( Words ) sono le unità più piccole della lingua ad avere un proprio significato. A ciascuna Word viene assegnato un tag specifico per indicare la sua categoria sintattica. Nell'analisi sintattica le words sono le foglie ossia i nodi più bassi dell'albero gerarchico. Ad esempio, i termini "the", "black", "cat" sono tre word distinte.

Le principali categorie POS sono le seguenti:

  • Noun (N). E' un nome. In genere indica un oggetto ( es. libro ) o un'entità vivente ( es. cane ) o non vivente ( es. sicurezza ). E' associato al tag N e ci sono diverse sottocategorie.
    • NN = nomi singolari
    • NNP = nomi propri singolari
    • NNS = nomi propri plurali
  • Verb (V). E' un verbo. I verbi indicano un'azione ( es. camminare ) oppure uno stato ( es. essere ). Possono essere ausiliari, riflessivi, transitivi o intransitivi, ecc. E' associato al tag V.
  • Adjective (ADJ). E' un aggettivo. Sono parole che descrivono o qualificano altre parole. Ad esempio, una "bella" casa, un "buon" libro, ecc. Nell'analisi POS sono associate al simbolo ADJ.
  • Adverb (ADV). E' un avverbio. Sono parole che modificano l'intensità o il senso di altre parole, come sostantivi, aggettivi o verbi. Nell'analisi POS sono associate al simbolo ADV.

2] PHRASE

I gruppi di parole possono formare una phrase.

Una delle parole delle altre è più importante delle altre ( keyword ).

Cos'è una phrase? Nell'analisi sintattica inglese la phrase è un gruppo di parole senza un soggetto o senza un verbo. Nel discorso è un'unità grammaticale di base. In un albero gerarchico sono i nodi superiori (genitori) alle parole. Ad esempio “the black cat” è una phrase.

In alcuni casi una phrase potrebbe essere composta soltanto da una singola word.

Un esempio pratico

esempio di gruppi phrase

Le principali categorie sintattiche di un gruppo phrase sono le seguenti:

  • Noun Phrase (NP). E' un gruppo di parole in cui il sostantivo è la parola chiave. In genere sono il soggetto o l'oggetto di un verbo. Ad esempio "the black cat".

    Nota. La forma generale di un gruppo NP è [DET][ADJ] N [PP] ossa articolo DET, aggettivo ADJ, nome N, preposizione PP. Gli elementi tra parentesi quadre sono opzionali. Ecco un albero sintattico di una frase sostantiva.
    la forma generale NP

  • Verb Phrase (VP). E' un gruppo di parole in cui il verbi è la parola chiave. In genere sono il soggetto o l'oggetto di un verbo. Ad esempio, la parola "hunts" è anche un gruppo lessicale VP.

    Nota. La struttura generale di una frase verbale è V | MD [VP] [NP] [PP] [ADJP] [ADVP]. Dove è un verbo (V) o un verbo modale/ausiliario (MD), seguiti opzionalmente da un'altra frase verbale (VP) o nominale (NP), da una frase preposizionale (PP), aggettivale (ADJP) o avverbiale (ADVP). Tutti gli elementi tra parentesi quadre sono opzionali. Ecco un esempio di albero sintattico.
    l'albero sintattico di una frase verbale ( esempio )

  • Adjective phrase (ADJP). E' un gruppo di parole in cui l'aggettivo è la parola chiave. In genere descrive o qualifica un nome o pronome. Ad esempio, nella frase "The train is so fast" il gruppo "so fast" ( così veloce ) è classificato ADJP.
  • Adverb phrase (ADVP). E' un gruppo di parole in cui l'avverbio è la parola chiave. In genere descrive l'azione. Ad esempio, nella frase "You arrived too late" il gruppo "too late" ( troppo tardi ) è classificato ADVP.
  • Conjunction (CONJ). Sono le congiunzioni ossia le parti del discorso che uniscono due o più parole o frasi (S) tra loro.
    esempio di CONJ
  • Prepositional phrase (PP). E' un gruppo di parole in cui la preposizione è la parola chiave. Ad esempio, nella frase "He's gone over the top" la parola "over" è un gruppo PP perché definisce il significato del gruppo "the top" che segue.

    Nota. La frase PP è generalmente seguita da una frase nominale NP. Quindi, la forma generale è PREP[NP]. Dove PREP è la preposizione.
    la forma generale PP

3] CLAUSES

Le phrases possono formare una clause ( proposizione ).

Cos'è una clause? E' una combinazione di phrases, composta da un soggetto, un verbo e un oggetto. Qualche volta il soggetto può anche mancare.

Un esempio pratico

un esempio di clause

Spesso nel discorso sono presenti più clauses. Una di queste è la proposizione principale e indipendente ( main clause ) mentre le altre sono subordinate ( dependent clause ).

Nota. Una proposizione subordinata è una clause che non avrebbe senso compiuto perché dipende dalla principale. Ad esempio, in questo testo "the white cat hunts the black mouse that escapes" sono presenti due clauses. La principale è "the white cat hunts the black mouse", quella subordinata è "that escapes".

La proposizioni sono legate anche ad altre clauses del discorso tramite congiunzioni subordinate.

Le principali forme o tipologie di clauses sono le seguenti:

  • Dichiarative. Sono affermazioni neutre e prive di tono.
  • Esclamative. Sono esclamazioni. In genere terminano con il punto esclamativo (!).
  • Interrogative. Sono domande e terminano con un punto interrogativo (?).
  • Imperative. Sono affermazioni che implicano un ordine o un comando.
  • Relative. Sono proposizioni subordinate e dipendono da un'altra proposizione ( main clause ).

La grammatica, la struttura e le relazioni

Una volta individuate le componenti del discorso, la grammatica consente di risalire al significato della frase ( semantica ).

Cos'è la grammatica? La grammatica è un insieme di regole di sintassi della lingua.

La grammatica della lingua permette di riconoscere la struttura della frase tramite la posizione e l'ordine delle parole.

Gran parte delle lingue sono basate sul modello Subject-Verb-Object (SVO).

Inoltre, la struttura mette a fuoco le relazioni di dipendenza tra le parole, perché in una proposizione tutte le parole sono in relazione con le altre.

Esempio. Gli aggettivi e gli articoli con i sostantivi, il verbo con l'oggetto e il soggetto, ecc.

Analizzando le relazioni si comprende subito che alcune parole sono più importanti di altre.

In particolar modo, il verbo.

Il verbo è la radice della frase.

Il verbo è la parte della frase più importante perché tutte le altre parole vi sono direttamente o indirettamente collegate.

Per questo motivo in un albero sintattico il verbo occupa la parte più alta ossia la radice.

l'albero dell'analisi sintattica

Le relazioni di dipendenza

Le principali relazioni di dipendenza della lingua inglese sono le seguenti:

  • acl ( clausal modifier of noun )
    E una relazione che modifica un nome.
    esempio di relazione ACL
  • acomp ( adjective complement )
    E' la relazione tra il verbo e l'aggettivo complemento.
    il tag di dipendenza ACOMP
  • advcl: adverbial clause modifier
  • advmod: adverbial modifier
  • amod ( adjectival modifier )
    Un aggettivo che modifica il significato di un sostantivo.
    esempio relazione AMOD
  • appos: appositional modifier
  • aux ( auxiliary )
    Il verbo ausiliare precede il verbo principale della frase.
    il verbo ausiliare
  • case: case marking
  • cc ( coordinating conjunction )
    Precede una congiunzione coordinata ( es. and, or, but, ecc. ).
    il tag di dipendenza CC
  • ccomp: clausal complement
  • clf: classifier
  • compound: compound
  • conj ( conjunct )
    E' una relazione di congiunzione tra parole ( es. "and" , "or", ecc. ).
    esempio di relazione CONJ
  • cop: copula
  • csubj: clausal subject
  • dep: unspecified dependency
  • det ( determiner )
    L'articolo precede i nomi e i sostantivi in una frase.
    un esempio di relazione DET
  • discourse: discourse element
  • dislocated: dislocated elements
  • expl: expletive
  • fixed: fixed multiword expression
  • flat: flat multiword expression
  • goeswith: goes with
  • iobj: indirect object
  • list: list
  • mark: marker
  • nmod: nominal modifier
  • nsubj ( nominal subject )
    E' il soggetto in una clause ed è in relazione con il verbo.
    la dipendenza NSUBJ
  • nummod: numeric modifier
  • obj: object
  • obl: oblique nominal
  • orphan: orphan
  • parataxis: parataxis
  • punct: punctuation
  • reparandum: overridden disfluency
  • root: root
  • vocative: vocative
  • xcomp: open clausal complement

Nota. Per vedere le applicazioni possibili delle relazioni sintattiche nella lingua italiana consiglio la lettura dello studio Universal Stanford Dependencies.

 


 

Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

FacebookTwitterLinkedinLinkedin
knowledge base

Il text mining