Le caratteristiche dei descrittori del database

L'assegnazione dei descrittori ai documenti è un aspetto cruciale dell'indicizzazione in un sistema IRS. I descrittori devono descrivere il contenuto informativo del documento in modo efficace, devono essere pertinenti e rilevanti.

Cos'è l'indicizzazione

L'indicizzazione è un processo di classificazione dei documenti di un corpus. A ogni documento viene assegnato un descrittore ( indice, chiave o key ) per descriverne in modo sintetico il suo contenuto, l'argomento trattato, il campo di pertinenza e di rilevanza.

esempio di utilizzo dei descrittori in un database

Quando un utente effettua un'interrogazione ( query ) il sistema cerca le risorse più rilevanti direttamente nella colonna dell'indice dei descrittori e non nel testo dei documenti. In questo modo il processo di searching è molto più veloce ed efficace.

A ogni documento può essere associato un numero variabile di descrittori. Non esiste un numero ideale. E' preferibile selezionare un numero ottimale di descrittori, né pochi, né troppi.

  1. Troppi descrittori aumentano la complessità della base dati.
  2. Pochi descrittori riducono l'efficacia e l'utilità del sistema IRS.

La pertinenza del descrittore

Un documento è pertinente con un tema se parla di quell'argomento. La pertinenza è un aspetto oggettivo dell'informazione, è facilmente identificabile e può essere gestita in modo organico.

Esempio. Un testo di medicina è facilmente individuabile analizzando le co-occorrenze.

Tuttavia, la pertinenza non è sufficiente a garantire un sistema IRS di qualità, in grado di soddisfare le esigenze informative degli utenti. E' necessario considerare anche la rilevanza dei descrittori.

La rilevanza del descrittore

La rilevanza è un aspetto prettamente soggettivo del descrittore e dipende dalla capacità del sistema di soddisfare il bisogno informativo dell'utente che digita la query.

Esempio. Quando un utente interroga il sistema digitando la query "rimedi per il raffreddore" non vuole ottenere un trattato di medicina ma soltanto qualche consiglio pratico. Entrambi sono pertinenti ma soltanto il secondo caso è rilevante per l'utente.

L'assegnazione dei descrittori secondo la rilevanza è molto più efficace ma anche più complessa, poiché richiede ex-ante l'esatta conoscenza dei bisogni e dell'esigenza dell'utente che digiterà la query.

Il sistema IRS deve saper distinguere tra i documenti rilevanti e non rilevanti in base alla query dell'utente, in una moltitudine di documenti pertinenti.

Il criterio di ordinamento della posting list

Quando un utente digita la query, il sistema IR seleziona le risorse che hanno in comune lo stesso descrittore dell'interrogazione. Le risorse estrapolate dalla base dati compongono una lista detta posting list.

I documenti nella posting list ìsono tutti equivalenti l'uno con l'altro. Per stabilire un ordine di visualizzazione è necessario adottare un criterio di ranking.

Esempio. Possono essere ordinati prendendo in considerazione altri descrittori aggiuntivi oppure altri fattori, come il grado di autorevolezza e di importanza della fonte di origine.

L'esaustività dei descrittori nella base dati

I descrittori devono consentire un'indicizzazione esaustiva del contenuto informativo di tutta la base dati. E' un aspetto fondamentale della qualità dei descrittori e dell'intero sistema IRS.

Questa caratteristica dei descrittori viene misurata col numero dei descrittori associati a ciascun documento.

esaustività dei descrittori nel database

Quanto più ampio è il numero dei descrittori di un documento, tanto più è possibile rispondere alle query degli utenti e coprire ogni aspetto della conoscenza.

Esempio. Nella tabella precedente il documento n.2 ha quattro descrittori associati ( 1, 2, 3 e k-1 ). L'informazione è rappresentata in modo esaustivo. Viceversa, il documento n.1 ha soltanto un descrittore sulla sua riga ( 1 ). In quest'ultimo caso l'informazione non è esaustiva poiché un descrittore non è sufficiente a descrivere in modo completo il contenuto informativo di un documento.

La specificità dei descrittori

La specificità è la capacità del descrittore di differenziare e discriminare dei documenti diversi in relazione al loro contenuto informativo.

La specificità di un descrittore viene normalmente misurata col numero dei documenti a cui è associato un descrittore.

specificità dei descrittori nel database

Quanto minore è il numero di documenti a cui è associato un descrittore, tanto più il descrittore è specifico ed è maggiore la capacità del sistema IR di estrapolare un numero di documenti specifici su quel particolare topic, tema o argomento.

Esempio. Il decrittore 3 ( colonna k=3 ) è presente in cinque documenti differenti ( n=1,2,3, ... , n ). In questo caso il descrittore è poco specifico perché seleziona quasi tutti i documenti del corpus. Viceversa il descrittore k compare soltanto in un documento ( n=3 ) quindi è fortemente specifico.

I descrittori specifici sono efficaci quando sono assegnati a pochi documenti e non a molti. Poiché consentono di selezionare una quantità inferiore di documenti tramite una query.

Se un descrittore è presente in tutti i documenti diventa inutile. Potrebbe trattarsi di una parola comune o di una stop-word.

Per aumentare la specificità del sistema IRS occorre aggiungere più descrittori ( K ) nel processo di indicizzazione, non limitarsi a quelli generici e scendere di più nel dettaglio con chiavi e sottochiavi di grado inferiore.

Nota. Va però considerato che l'aggiunta di altri descrittori nell'indice implica un aumento della complessità spaziale e temporale dell'intero sistema di Information Retrieval. Inoltre, un livello eccessivo di specificità potrebbe aumentare il rischio del posting list vuoto, ossia non selezionare nessun documento in risposta a una query.

E' quindi necessario valutare con attenzione ogni singolo descrittore, scegliendo per l'indicizzazione soltanto quelli a rilevanza elevata.

Il rischio del posting list vuoto

Quando un database è caratterizzato da scarsa esaustività e da eccessiva specificità, aumenta il rischio che una query non selezioni nessun record dalla base dati. Si rischia, pertanto, di non offrire alcuna risposta alla query dell'utente.

Per risolvere questo problema si occorre predisporre una procedura secondaria di selezione da eseguire di default soltanto quando l'interrogazione primaria non restituisce nessun risultato specifico per una query ( posting list vuota ).

Esempio. Si può considerare una selezione secondaria più ampia che sostituisca al descrittore della query originaria un altro descrittore di categoria o semanticamente vicino e più ampio. La posting list secondaria fornisce sicuramente dei risultati meno rilevanti per l'utente ma, perlomeno, l'utente ha ottenuto una risposta.

L'ordinamento dei risultati e il criterio di ranking

Quando una query restituisce un insieme di risultati, questi sono tutti equivalenti. Questo non è un problema se la posting list contiene pochi risultati specifici. E' invece un problema se l'interrogazione ha selezionato un'enorme quantità di record.

E' necessario disporli in un elenco secondo un ordine decrecente di rilevanza per consentire all'utente di visionare prima quelli più rilevanti, quelli in grado di soddisfare il suo bisogno informativo, e poi tutti gli altri.

Per stabilire quest'ordine occorre definire un criterio di ordinamento mediante punteggio ( criterio di ranking ). A ciascun documento della posting-list viene associato un valore numerico e, infine, la lista viene ordinata in base a quest'ultimo.

Esempio. I record della posting list possono essere ordinati in base alla frequenza assoluta o relativa del descrittore in ogni documento, in base alla presenza di co-descrittori nel testo , ecc. Nel seguente esempio la query ha estratto i documenti contenenti il descrittore k=3 e poi li ha ordinati in base alla frequenza del decrittore all'interno del documento.
il criterio di ranking della posting list
Nel documeno n=2 il descrittore compare tre volte, è quindi il primo risultato della postling list, e così via.

 


 

Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

FacebookTwitterLinkedinLinkedin
knowledge base
  1. Information Retrieval ( IR )
  2. I descrittori
  3. Le caratteristiche dei descrittori