Algoritmo della freschezza dei contenuti
L'algoritmo sulla freschezza dei contenuti ( Freshness Content Update ) è utilizzato dai search engine nella selezione delle risorse, quando il bisogno dell'utente ha rilevanza recente nel tempo.
La freschezza dei contenuti vs contenuti vecchi
Il principale compito di un search engine è soddisfare la domanda dell'utente con delle risposte rilevanti e utili.
Quando un motore di ricerca riceve una query, estrapola una classifica delle risorse indicizzate per comporre la pagina dei risultati di ricerca da restituire all'utente.
In passato, il search engine selezionava le risorse indicizzate su quei termini senza considerare la data di pubblicazione e la data di aggiornamento delle stesse.
Si verificava però un problema, dietro la query dell'utente potrebbe celarsi o meno un bisogno di informazioni recenti ( freshness content ).
Non sempre i contenuti più freschi sono più efficaci. Tuttavia, in alcuni casi la data di aggiornamento e di pubblicazione di un contenuto è un'informazione di grande importanza per selezionare le risorse giuste.
Esempio. Se un utente digita la query "Alan Turing", molto probabilmente sta facendo una ricerca scolastica e una pagina didattica autorevole soddisfa la sua esigenza anche se è datata e non è aggiornata da tanto tempo. Viceversa, quando l'utente "programmi tv" è molto probabile che voglia dei risultati aggiornati recentemente. Lo stesso accade quando l'utente sta cercando una news. In questi ultimi casi, la data di aggiornamento è indispensabile.
In un processo IR ( Information Retrieval ) è importante conoscere la natura della query e del bisogno dell'utente, per stabilire il grado di importanza della data di aggiornamento nella selezione delle risorse.
In questo caso l'analisi semantica dei termini è poco utile. Un utente potrebbe digitare la stessa query, usando le stesse parole chiave, ma avere esigenze diverse.
Esempio. L'utente digita "intelligenza artificiale" per cercare una news che ha sentito in tv. Non ha bisogno di una pagina didattica, sta cercando una notizia recente, né sta cercando la recensione del vecchio film. In questo caso, l'analisi semantica dei termini ( intelligenza artificiale ) non ci fornisce nessuna informazione sulla reale esigenza dell'utente.
Come funziona l'algoritmo Freshness
Il funzionamento dell'algoritmo Freshness descritto qui di seguito prende come spunto quello brevettato da Google.
Nota. Il fatto che sia brevettato non è detto che sia anche utilizzato. Inoltre, se anche lo fosse rappresenterebbe comunque una componente del motore di ricerca tra numerosi filtri, personalizzazioni e fattori di ranking.
Nel processo Freshness Based Ranking di Google l'algoritmo analizza le occorrenze digitate nella query dell'utente per verificare se sono di interesse recente.
Come si analizza l'interesse temporale dell'utente dietro la query?
L'algoritmo di Google analizza la frequenza delle occorrenze della query sulle seguenti fonti online entro un periodo di tempo recente:
- Risorse online
le pubblicazioni e gli aggiornamenti nei siti web
le pubblicazioni nella pagine news
le condivisioni sui social network - Query degli utenti
le query di ricerca notizia
le query di ricerca notizie vs ricerca web - Il click-through sulle Serp
I click utente sui risultati nelle serp news
I click utente sulle serp news vs serp web
I dati sono confrontati con dei percentili statistici per stimare il valore di freschezza delle occorrenze digitate dall'utente nella query e stabilire se si tratta di un bisogno di informazioni recenti oppure meno.
Se il valore di freschezza è elevato, la data di aggiornamento delle risorse assume importanza e i risultati naturali sono corretti inserendo all'interno della serp delle risorse fresche ( freshness content ).
Nelle occorrenze si verificano valori di freschezza diversi a seconda della fonte ( news, social network, search engine, blog ). Pertanto, la distribuzione delle fonti nella pagina dei risultati di ricerca è influenzata anche da questo aspetto.
Esempio. Se gli utenti digitano abitualmente la parola "inflazione" per cercare una news, il risultato di ricerca sarà prevalentemente composto da risultati news e, quindi, più aggiornati degli altri. Lo spazio a disposizione per le risorse didattiche è, invece, molto limitato.