Il linguaggio naturale
Il linguaggio naturale ( natural language o NL ) è una forma di comunicazione sviluppata dagli uomini nel corso del tempo.
E' un linguaggio usato nella comunicazione tra persone che condividono la stessa lingua.
Cos'è una lingua? Secondo la linguistica, una lingua è un sistema di comunicazione composto dal lessico, la fonologia, la grammatica ( sintassi, morfologia ) e la pragmatica.
Le lingue umane possono essere veicolate tramite vari mezzi di comunicazione: orale, scritta o simbolica.
L'ambiguità del linguaggio naturale
Il linguaggio naturale è ambiguo perché ogni parola può avere diversi significati in base al contesto.
Esempio
In questa frase ogni parola ha un duplice significato.
La vecchia porta la sbarra
E' una "vecchia signora" a portare la sbarra oppure è una "vecchia porta" che sbarra qualcosa?
Entrambe le interpretazioni sono grammaticalmente corrette.
La differenza tra il linguaggio naturale e i linguaggi di programmazione
Il linguaggio naturale si distingue dal linguaggio di programmazione per computer, perché non è creato artificialmente.
Una lingua nasce, evolve e cambia in modo naturale nel corso del tempo
Sono le stesse persone ad apportare continuamente modifiche al linguaggio che, una volta accettate da tutti, entrano a far parte della lingua.
Inoltre, una lingua naturale (es. inglese, italiano, francese, ecc.) segue molte regole flessibili.
Viceversa, un linguaggio di programmazione ( es. python, c, java, ecc. ) è un linguaggio formale con poche regole ma molto rigide.
Per questa ragione le informazioni presenti nel linguaggio naturale sono difficili da elaborare in modo automatico.
Esempio. Un testo scritto segue le regole di sintassi, grammatica e semantica di una lingua. Tuttavia, è un dato non strutturato. Lo stesso vale per un discorso.
L'elaborazione del linguaggio naturale
Per trasformare un documento in linguaggio naturale in un dato strutturato si utilizzano le tecniche di Natural Language Processing ( NLP ).
- Text Mining. Trova le informazioni rilevanti in un testo o documento. Può avere diversi scopi ( statistici, governativi, intelligence, machine learning, ecc. ).
- Text Analytics. E' la branca del text mining che analizza i documenti testuali di un'azienda per trovare informazioni rilevanti tramite le attività di business intelligence.