Web semantico: introduzione e significato

Negli ultimi anni si parla sempre più frequentemente di web semantico, o semantic web, ma pochi sanno effettivamente di cosa si tratta.Si parla di motori di ricerca e algoritmi semantici, di tecniche Seo e di pagine web semanticamente ottimizzate per posizionarsi ai primi posti sui motori di ricerca. Proviamo a fare chiarezza e approfondiamo i termini "semantica" e "web".

  • Cosa significa semantica? La semantica è lo studio del significato delle cose. Io posso scrivere una frase ma, per diverse ragioni, potrebbe essere interpretata in modo diverso. Il significato potrebbe essere poco chiaro o sibillino. Inoltre, una stessa parola potrebbe avere diversi significati. Ad esempio, se scrivo "penna" a cosa mi sto riferendo? Questa parola può indicare oggetti differenti.
  • Cosa è il web? Il Web è l'utilizzo dell'ipertesto tramite la rete internet. Venne inventato alla fine degli anni '80 da Tim Berners-Lee per semplificare la navigazione tra le risorse disponibili in rete. Per passare da una risorsa all'altra è sufficiente cliccare sul link che le collega. Prima del Web le risorse erano consultabili tramite una riga di comandi.

Da queste definizioni possiamo dedurre un primo significato:

Il web semantico è tutto ciò che ci consente di comunicare dei significati tramite il web, in modo chiaro e senza fraintendimenti

Come vedremo, questo obiettivo non è così facile come sembra. Nei prossimi paragrafi riassumiamo le principali tappe della storia del web semantico negli ultimi trent'anni. Il web semantico non nasce oggi e uno dei primi a parlarne fu Tim Berners-Lee alla fine degli anni Ottanta.

Tim Berners-Lee è il padre del World Wide Web ( WWW ), di quello che oggi chiamiamo comunte "web", e del linguaggio HTML. Tim Berners-Lee Considerava il web semantico come un insieme di documenti, collegati tra loro tramite dei link ipertestuali, dove ciascun documento è associato a dei metadati.

A cosa servono i metadati? È semplice, un metadato non fa altro che aggiungere delle informazioni aggiuntive al documento. Queste informazioni consentono di catalogare meglio la risorsa in un archivio, o nell'intero web, e rendere più facile l'operazione di ricerca e di elaborazione. Così nacque il linguaggio HTML.

Il linguaggio HTML

Il linguaggio HTML offre una prima risposta alla costruzione del web semantico. Tim Berners-Lee sviluppa un codice di markup in grado di aggiungere metainformazioni e metadati ai documenti testuali, aggiungendo delle relazioni ipertestuali tra i documenti. Sono le comuni pagine web che visualizziamo ogni volta che navighiamo su internet.

Ad esempio, questa pagina html contiene un testo che spiega cos'è il web semantico. Il linguaggio HTML ci consente di associargli dei metadati tramite il tag title, meta description e meta keyword. Il tag <title> associa un titolo alla risorsa, il meta description una breve descrizione e il meta keyword un elenco di parole chiave.

Un esempio di codice sorgente di un documento HTML. Al suo interno si possono vedere i metadati.

Anche i collegamenti ipertestuali sono metadati. Un link è la relazione tra due documenti e può veicolare delle informazioni tramite l'attributo title del tag <A> oppure tramite il testo di ancoraggio ( anchor text ), il testo attivo, ossia tramite la parola/frase linkata.

Questo era il concetto di semantic web agli inizi degli anni Novanta. È un pò vecchiotto e non consente di rappresentare bene la conoscenza. L'Html è comunque una buona base di partenza per comprendere l'evoluzione del semantico. Successivamente, dopo la diffusione del web e dell'Html, nacquero altri metalinguaggi più potenti che cercarono di migliorare l'uso dei metadati. Uno di questi è il linguaggio XML.

Il linguaggio XML

Il linguaggio XML permette di descrivere le informazioni aggiuntive in modo più dettagliato. L'XML è molto più potente rispetto all'HTML. Questo linguaggio ci permette di definire delle proprietà e assegnare a queste ultime dei valori. Ad esempio, in un file XML contenente l'elenco dei libri di una biblioteca, possiamo creare la proprietà "data di pubblicazione" e assegnare l'anno di pubblicazione per ciascun libro. Possiamo definire qualsiasi proprietà ci interessi, non si cono campi predefiniti.

esempio di file XML e di strutturazione dei dati

Uno dei limiti del linguaggio XML è la scarsa applicazione in una rete distribuita come il web. Per definire le proprietà ogni autore può scegliere il nome che vuole, non esistono standard. Ogni documento viene redatto per rispondere a uno scopo differente e ogni sviluppatore può scegliere le denominazioni che preferisce per strutturare le proprietà del file. Anche se una proprietà avesse lo stesso nome, non è poi detto che riguardi la stessa informazione o la stessa persona.

Ad esempio, nel file della biblioteca, io potrei utilizzare il nome "data" per definire la proprietà della data di pubblicazione del libro, ma altri potrebbero utilizzare nomi diversi come "data di pubblicazione" o "date", ecc. Questi nomi sono associati alla stessa informazione su file differenti. Come fare a capire che si tratta della stessa informazione? Non essendoci uno standard nella definizione dei nomi, con l'xml non è possibile.

Un altro limite del linguaggio Xml è l'assenza di un meccanismo di relazione tra documenti differenti. L'Xml è soprattutto un linguaggio descrittivo, molto utile su una singola risorsa, ma non offre la possibilità di creare dei collegamenti ipertestuali ( link ) come il linguaggio Html.

Per risolvere tutti questi problemi è necessario sviluppare un nuovo linguaggio che sia descrittivo come l'Xml ma anche versatile come l'Html. Inoltre, è necessario definire uno standard accettato da tutti nella definizione delle caratteristiche. Una prima soluzione arriva dal linguaggio RDF.

Il linguaggio RDF

Cos'è il linguaggio RDF? È uno standard definito dal W3C per superare i problemi che abbiamo sintetizzato nei paragrafi precedenti. La sigla significa Resource Description Framework ( RDF ). In questo linguaggio sia le proprietà che le relazioni sono completamente standardizzate.

Il linguaggio RDF utilizza la logica dei predicati del primo ordine che permette di assegnare un'informazione tramite la forma soggetto, predicato, oggetto ( valore ). In questo modo è possibile associare a un indirizzo URL una serie di informazioni aggiuntive che possono essere interpretate ed elaborate, senza alcun dubbio o incertezza, da parte di tutti.

un esempio di logica del primo ordine con soggetto, predicato e oggetto ( tripla )

Ad esempio, negli Stati Uniti esistono diverse città con il nome Springfield. Pur avendo lo stesso nome, si tratta di luoghi diversi. Per superare questo problema possiamo considerare le città come risorse o entità diverse. In questo modo, il nome identifica soltanto una proprietà della risorsa e non la risorsa stessa. La risorsa è indicata generalmente con un indirizzo URI di una base di conoscenza comune o di un sito web pubblico riconosciuto da tutti come lo standard di riferimento.

un esempio di struttura dei dati in una rappresentazione RDF

Questa rappresentazione può sembrare difficile a prima vista. Fortunatamente è soltanto un modo per esprimere il predicato. Possiamo scrivere lo stesso concetto utilizzando la notazione N3 dove il soggetto, il predicato e l'oggetto sono collocati sulla stessa riga. La lettura dei dati diventa più intuitiva.

un esempio di rappresentazione N3 ( tripla ) e di linguaggio RDF

In conclusione, il linguaggio RDF ci permette di rappresentare la conoscenza in modo molto più efficace rispetto all'HTML e al XML. Unisce la potenza descrittiva del linguaggio XML alla flessibilità del linguaggio HTML. Inoltre, si basa su uno standard di riferimento comune, tutti usano la stessa base di conoscenza, che evita qualsiasi fraintendimento sul significato delle informazioni.

Il linguaggio RDF è soltanto una parte del web semantico

In questa pagina dovresti aver compreso cosa è il web semantico e a cosa serve. Il web semantico è tutto ciò che permette di associare un significato alle risorse. Nel corso del tempo sono state seguite diverse strade, prima l'HTML, poi l'XML e, infine l'RDF. Oltre al linguaggio RDF esistono anche altri metalinguaggi. Il linguaggio RDF è soltanto uno strato del web semantico ma, per il momento, preferisco fermarmi qui. Di questo ne parleremo più avanti.

 


 

Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

Il web semantico è un concetto abbastanza difficile da spiegare. È un concetto talmente ampio che soltanto l'idea di provare a spiegarlo in poche parole mi mette paura. Ricordo di aver letto qualcosa sulla semantica informatica nel lontano 1993, su un testo universitario, quando il web era appena nato e veramente in pochi lo utilizzavano. Il web semantico si potrebbe definire come il tentativo di associare un significato alle risorse disponibili su una rete di computer . A quei tempi era più un sogno che un tentativo... si utilizzano computer con 256 kb di memoria RAM. Per comprendere il web semantico è necessario fare un'ampia premessa e ricordare l'evoluzione del web negli anni '90. Fin dagli inizi l'universo web è stato caratterizzato da un insieme di risorse ( documenti ipertestuali, immagini, file pdf, ecc. ) collegati tra loro collegati da link ( collegamenti ipertestuali ). Sul link ha costruito la sua fortuna Google nel lontano 1998, creando il migliore motore di ricerca sulla piazza. Chi non è giovane e, come me, ha superato gli "anta" potrà facilmente ricordarsi dei motori di ricerca prima dell'arrivo di Google. Nel 1997 le directory erano già in una fase di decadenza. Pur essendo state utili durante i primi anni del Web ( 1992-1996 ) per guidare i primi "internauti" ( così venivano chiamati gli utenti ) tra le risorse in rete, nel 1997-1998 le directory erano diventate poco usabili per l'utente finale, a causa dell'esplosione del web e dell'impossibilità dei redattori umani di censire ogni nuova risorsa. Inoltre, le directory si limitavano a censire soltanto le home pagine dei siti web, lasciando all'utente finale il compito di cercarsi la risorsa ( pagina web ) all'interno del sito web. Per compensare questo handicap nacquero i primi motori di ricerca e Google non fu il primo ad inventarsene uno. Bastava digitare una chiave di ricerca per vedere a video dei risultati. Era comunque un bel vantaggio rispetto alla ricerca per categoria delle directory. Tuttavia, la qualità dei risultati dei primi motori di ricerca era molto bassa. Per compensare questo aspetto comparvero anche i primi metamotori della storia. I metamotori erano dei semplici aggregatori dei risultati provenienti da altri motori di ricerca. L'utente ( internauta ) poteva interrogare il metamotore con una parola chiave e ottenere le liste dei risultati su 3-4 motori di ricerca. I risultati restavano, comunque, di scarsa qualità. I primi motori di ricerca utilizzavano prevalentemente i tag META ( description e keywords ) del codice html delle pagine e si esponevano allo spamindex in modo impressionanti. Era talmente facile ingannarli che, a raccontarlo ora, viene da ridere. L'arrivo di Google nel 1998 fu rivoluzionario. L'idea era molto semplice. Se una risorsa è linkata da un'altra risorsa, allora è utile. Se una risorsa che parla dell'argomento X linka un'altra risorsa, allora anche quest'ultima parla dell'argomento X. Se la risorsa che linka è importante, cede una parte della sua importanza alla risorsa linkata. È il famoso concetto della link popularity. Questo semplice algoritmo di ricerca consentiva di ottenere dei risultati di ricerca di qualità superiore e Google si impose come leader in questo caso. A questa idea contribuì anche il lavoro del matematico italiano Massimo Marchiori a cui si deve il concetto di algoritmo Hyper Search. Nel corso degli anni successivi l'algoritmo di Google divenne sempre più complesso, il primo e semplice page rank degli albori era diventato già obsoleto nel 1999. Tuttavia, il motore di ricerca rimase sempre basato sul concetto di collegamento ipertestuale e sull'analisi dei contenuti delle pagine web. I meta tag description e keyword persero di significato, venendo sostituiti con altri meta tag ( es. title, h1, ecc. ). In conclusione, per molti anni seguenti il web continuò a perfezionarsi soltanto con continue innovazioni incrementali, eliminando lo spam più evidente sulle SERP, ma nulla di più. Nel corso degli anni duemila nacque il settore SEO, i primi smanettoni dei meta tag degli anni '90 si evolvero professionalmente o lasciarono il posto a uno studio più scientifico. In questi anni comparve il web due punto zero ( web 2.0 ) dei blog, delle community online e dei social network. Il web cessò di essere suddiviso tra produttori di contenuti ( webmaster, editori ) e utenti. Anche gli utenti privi di conoscenze informatiche iniziarono a pubblicare contenuti. Ciò nonostante, i motori di ricerca continuarono a basarsi sullo schema del contenuto ottimizzato e del collegamento ipertestuale. Il web semantico è, forse, la prima rivoluzione radicale, degna di attenzione, dopo l'introduzione del page rank del 1998. Gli algoritmi semantici consentono di risalire al senso delle frasi e al significato di una pagina web e delle query di ricerca degli utenti. Non è più sufficiente dare un senso al collegamento ipertestuale con l'anchor text e/o con le sole parole chiave nel testo di due pagine. È necessario che le due pagine abbiano un significato simile, affrontino lo stesso tema in modo complementare o, perlomeno, non siano la mera ripetizione o rielaborazione dello stesso significato con parole diverse. Ad esempio un algoritmo non semantico può riconoscere ed eliminare i contenuti simili o uguali ( copia e incolla ). Un algoritmo semantico riesce a riconoscere anche i contenuti rielaborati con altre parole. In futuro sarà, quindi, possibile sradicare la diffusa pratica SEO del copia, rielabora, ottimizza, linka e incolla. Se quindi ho già scritto una pagina con "come fare una pagina web", è del tutto inutile ( se non dannoso ) creare altri duplicati del tipo "come scrivere una pagina html", "come realizzare una pagina su internet", ecc. Il significato di base è sempre lo stesso e l'algoritmo semantico se ne accorge.

esempio di semantica applicata ai motori di ricerca

Due risorse potrebbero essere legate tra loro anche in assenza di un collegamento ipertestuale. Strano ma vero. Ad esempio, se una pagina su un sito X ha lo stesso contenuto semantico della pagina sul sito Y e quest'ultima è già presente nelle SERP, la pagina del sito X potrebbe non essere considerata dall'algoritmo poiché non aggiunge nuove informazioni alla ricrca. In altri termini, pur essendo scritta con una sintassi differente e residente su un sito diverso, la pagina del sito X avrebbe poche possibilità di entrare nelle SERP se è già presente la pagina del sito Y. Mi fermo qui, il web semantico è molto di più rispetto a quello da me scritto. Senza la semantica informatica non potremmo nemmeno parlare di intelligenza artificiale e nemmeno di deficienza artificiale... Per quanto riguarda la semantica web posso soltanto concludere dicendo che il web semantico è una rappresentazione della conoscenza tramite un linguaggio informatico, tale da poter essere elaborato da un algoritmo, che analizza il significato di una risorsa indipendentemente dalla sintassi, dal linguaggio e dalle parole usate dallo scrivente. 11 / 08 / 2013

PS Google ha già introdotto un algoritmo semantico? Probabilmente si, ma in modo parziale e in forma ibrida. Deve cercare di integrarlo con la sua architettura di ricerca ancora oggi basata sul link. Dietro l'eccessiva enfasi mediatica di Google Penguin e dell'update web antispam 2.0 del 2013, secondo me, c'è molto di più. Basta guardare le SERP per accorgersene. Come qualsiasi innovazione radicale, anche gli algoritmi semantici inizialmente sono pieni di difetti. Col passare del tempo miglioreranno, così come è già accaduto per la link popularity più di quindici anni fa che, prima o poi, andrà in soffitta. Tutto cambia e tutto evolve. Magari non oggi e né domani, ma il cammino è quello. Al centro degli algoritmi di ricerca semantica sarà il contenuto e non il link. Del resto in un web semantico al 100% tutti i link sono necessariamente naturali... poiché è di scarsa utilità avere link artificiali.

FacebookTwitterLinkedinLinkedin
knowledge base