Semantic Textual Similarity
Semantic Textual Similarity è un algoritmo di apprendimento basato sulla somiglianza testuale semantica delle risposte, utile per comprendere il linguaggio naturale in una conversazione.
Un algoritmo del genere è stato brevettato da Google per capire l'intento degli utenti e rispondere alle loro domande, quando digitano una query sul search engine. Non è detto che sia anche utilizzato dal motore di ricerca... ma prima o poi potrebbe farlo.
L'algoritmo ha diverse applicazioni pratiche nella semantic search, nel machine learning, nell'intelligenza artificiale e nel text mining.
Come funziona l'algoritmo
L'algoritmo impara a comprendere le domande studiando le risposte.
E' un modello di previsione della risposta che codifica le frasi delle conversazioni.
Poi le associa per individuare uno stesso intento.
Un esempio pratico
Faccio un esempio pratico tratto dal brevetto stesso di Google.
La risposta "Ho X anni" segue sia la domanda "Quanti anni hai?" e sia la domanda "Qual è la tua età?"
In questo caso le due domande hanno lo stesso intento ( sapere l'età ) e la risposta è simile.
Il significato della conversazione è lo stesso.
Gli aspetti critici dell'algoritmo
In alcuni casi, una risposta simile segue domande con intento molto diverso.
Quindi la somiglianza semantica della risposta è soltanto un indizio.
Inoltre, l'efficacia dell'algoritmo si riduce drasticamente quando le domande sono brevi.
Nota. L'algoritmo riesce a comprendere meglio l'intento quando le domande sono molto lunghe, quando sono composte da molti termini.
Un commento finale
Per concludere questo appunto voglio aggiungere un commento personale.
Il brevetto di Google sull'algoritmo di Semantic Textual Similarity è particolarmente interessante per gli sviluppi che potrebbe avere in futuro.
Nel 2017 il search engine ha mostrato un evidente interesse per il progetto online Quora.
Questo mi fa pensare che voglia costruire un database di domande e risposte in linguaggio naturale.
Nota. Del resto le applicazioni sarebbero molteplici. Potrebbe migliorare le ricerche conversazionali, le ricerche vocali del Google Voice Assistant, i risultati di ricerca del search engine ...ma non solo.