Le forme verbali in un motore di ricerca semantico
Dammi pure del tu... sono un motore di ricerca. Nei motori di ricerca più evoluti la grammatica è già un fattore determinante degli algoritmi. Non sto parlando dei motori semantici, al momento non esistono, ma di quelli più evoluti in questo settore ( es. Google ). Recentemente ho avuto l'impressione che Google sappia distinguere la coniugazione dei verbi nelle frasi. È molto semplice da realizzarsi... è sufficiente avere le tabelle di tutte le coniugazioni dei verbi e confrontare le parole in un testo. Se in una frase prevalgono di più i termini in un certo tempo verbale e in una determinata persona ( prima persona singolare, seconda persona singolare, ecc. ), l'algoritmo può stimare la forma verbale utilizzata in una pagina, senza dover necessariamente capire cosa è scritto nel testo. Perché un motore di ricerca dovrebbe usare queste informazioni? Le persone dei verbi non influiscono sul contenuto di una pagina. È infatti possibile comunicare un medesimo concetto sia utilizzando i verbi in prima persona che in seconda o terza persona, singolare o plurale. La persona e il numero del verbo ha però importanza se il motore di ricerca utilizza delle euristiche.
Cosa sono le euristiche?
Nell'intelligenza artificiale le euristiche sono regole che permettono all'agente razionale di giungere a una determinata conclusione a partire dalla combinazione di alcuni eventi, senza dover elaborare l'intera situazione ambientale. Ad esempio, se ci sono molte nuvole ad ovest, al 70% domani piove. L'agente assume il rischio di pioggia al 70% senza analizzare altri fattori, risparmiando tempo e risorse. Analizzando le condizioni ambientali complete ( es. direzione dei venti, umidità, ecc. ) potrebbe giungere a una previsione migliore ma dovrebbe spendere molte risorse per ottenere i dati e per svolgere il ragionamento inferenziale.
Capire la natura di un fonte informativa dalle forme verbali
Un motore di ricerca potrebbe comportarsi allo stesso modo. La persona del verbo consente all'algoritmo di capire se il testo è un commento, un articolo di approfondimento, una news, una descrizione, una pubblicità, ecc. Ad esempio, la prima persona singolare ( io ) è molto utilizzata nei blog. La seconda persona singolare ( tu ) si trova frequentemente nelle guide del tipo "come fare" e nelle pubblicità. La terza persona singolare ( egli/esso ) è la forma di comunicazione tipica delle news e delle descrizioni informali ( es. enciclopedie ). La prima persona plurale ( noi ) la utilizzano le aziende nella descrizione dei propri prodotti. La seconda persona plurale ( voi ) è simile alla seconda persona singolare, è poco utilizzata in Italia ma ha grande importanza nei paesi anglosassoni dove i pronomi tu e voi sono accomunati dal medesimo termine "you". Infine, la terza persona plurale è utilizzata in contesti vari ( news, politica, divulgazione, ecc. ) ma poco nei blog e nei siti aziendali.
Il motore di ricerca potrebbe associare alle varie fonti di informazione ( blog, magazine, corporate site, educational, ecc. ) un peso differente a seconda delle keyword e del contesto di riferimento. Ad esempio, nelle guide "come fare" (how-to) il motore di ricerca potrebbe decidere di avvantaggiare i blog. A parità di keyword ( topics ) un blog si posiziona meglio in alcune ricerche, perché risponde direttamente alle esigenze e alle domande degli utenti. Viceversa, sulle ricerche di attualità o economiche il motore di ricerca potrebbe considerare più attendibili le fonti news ( magazine, giornali, ecc. ). Nelle ricerche su un prodotto commerciale, invece, i siti aziendali ( corporate ) sono quelli più vicini alle esigenze degli utenti poiché gli consentono di acquistare il prodotto. E così via.
Si tratta di euristiche e, come tali, sono soggette a sbagliarsi. Ad esempio, un blog potrebbe descrivere un argomento didattivo o una news nella prima persona verbale in modo più completo e meglio di un magazine o di un'enciclopedia online. D'altra parte, un blog potrebbe anche essere scritto nella prima persona plurale. È abbastanza raro ma potrebbe accadere... e sarebbe sbagliato considerarlo al pari di un sito aziendale. Inoltre, le news e i contenuti didattici utilizzano prevalentemente la stessa persona verbale. Come fare a distinguirli? È possibile migliorare l'euristica associandogli altre informazioni sul testo. Ad esempio, è possibile considerare anche la lunghezza del testo. Un testo accademico è quasi sempre lungo. Viceversa, una news è di medio-breve dimensione.
Pur essendo costruite a partire da un'analisti statistica ed empirica oggettiva dei dati, le euristiche nascono da considerazioni iniziali soggettive. In conclusione, l'euristica delle forme verbali ha il pregio di far risparmiare il tempo di elaborazione agli algoritmi di un motore di ricerca e, in molti casi, restituiscono rapidamente un risultato con un buon rapporto costo/beneficio. Si tratta però di un metodo di analisi imperfetto, poco intelligente, poiché l'algoritmo non comprende il vero significato del testo. In un euristica l'algortmo si limita a stimare la qualità dell'intero testo a partire dalla combinazione delle keyword con alcuni elementi grammaticali.A volte funziona... a volte no. 17 / 06 / 2014