L'algoritmo della raccolta informazioni

Un agente razionale decide sulla base della sua conoscenza dello stato corrente della situazione (E) e degli obiettivi da raggiungere (O).

il modello decisionale di un agente razionale

Tuttavia, l'agente non può avere una visione completa dell'ambiente operativo. Non ha tutte le informazioni.

Per superare il limite dell'informazione imperfetta, prima di decidere l'agente razionale deve raccogliere altre informazioni e aggiungerle alla sua base di conoscenza.

La raccolta delle informazioni

Come funziona l'algoritmo
Lo pseudocodice dell'algoritmo

Come funziona l'algoritmo

La raccolta delle informazioni da parte dell'agente razionale si basa sul seguente processo:

raccogliere altre informazioni prima di decidere
selezionare quali sono le informazioni più utili da raccogliere
interrompere la raccolta quando non è più razionale o conveniente cercare altre info.

Il valore delle informazioni aggiuntive

Le informazioni aggiuntive E_knon hanno tutte lo stesso valore ( VPI ). Alcune sono più utili di altre e vanno raccolte prima.

Non c'è però un ordine assoluto di importanza perché tutto dipende da ciò che l'agente razionale conosce già (E).

il valore dell'informazione aggiuntiva

Quindi il valore delle informazioni è relativo.

Nota. La funzione EU calcola l'utilità attesa della decisione α in base alle informazioni disponibili ( E oppure E+E_k). Va sottolineato che l'agente stima l'utilità attesa da informazioni E_k che ancora non conosce. Pertanto, si tratta di un modello probabilistico di valutazione basato sulla credenza ossia su qualcosa che l'agente attende da quell'informazione ma di cui non è certo. Per un approfondimento sulla valutazione delle informazioni da aggiungere.

Il costo dell'informazione

L'agente deve anche considerare il costo dell'informazione.

Nessuna informazione aggiuntiva è gratuita.

il costo dell'informazione

La selezione delle informazioni da raccogliere

Le informazioni aggiuntive E_k da raccogliere devono essere ordinate in base al valore VPI e al costo

L'informazione aggiuntiva che apporta una maggiore utilità al netto del costo, deve essere raccolta prima delle altre.

Nota. Quando la sottrazione restituisce un valore negativo, l'algoritmo della raccolta informazioni conclude l'esecuzione e l'agente razionale prende la decisione finale.

La raccolta dell'informazione

Una volta trovata l'informazione aggiuntiva migliore, l'algoritmo procede alla raccolta dell'informazione E_k.

Poi l'algoritmo ricominicia una nuova iterazione per valutare le altre informazioni ancora da aggiungere.

Il ricalcolo delle VPI. Dopo aver aggiunto l'informazione E_k, i valori VPI delle altre informazioni ancora da raccogliere devono essere ricalcolati perché l'informazione corrente dell'agente razionale è aumentata da E a E+E_k. Ad esempio, se l'informazione appena aggiunta E_k era particolarmente importante potrebbe aver ridotto sensibilmente il VPI di tutte le altre. Ora le altre informazioni potrebbero essere diventate inutili o ridondanti ( già note ).
un esempio di informazioni aggiuntive ridondanti
In conclusione, il valore delle informazioni aggiuntive non è additivo.

VPI(E₁,E₂) < VPI(E₁) + VPI(E₂)

Ad esempio, l'agente ha una conoscenza corrente E e deve acquisire due nuove informazioni E₁ e E₂. Se decide di acquisire prima E₁ e poi E₂, il valore dell'informazione VPI(E₁) è maggiore di VPI(E₂). E viceversa.

VPI(E₁) > VPI(E₁)

Da questo si deduce anche che l'ordine di acquisizione delle informazioni aggiuntive ( es E₁, E₂ oppure E₂, E₁ ) non modifica il valore dell'informazione complessiva VPI.

VPI(E,E₁) + VPI(E₂) = VPI(E,E₂) + VPI(E₁)

Tuttavia, se la raccolta dell'informazione implica un costo C in termini di risorse ( memoria ) e tempo, l'ordine di acquisizione dei dati impatta comunque sull'efficienza dell'algoritmo. Per capire questo concetto analizzo un altro caso pratico.
esempio
In questo caso se l'agente raccoglie prima E₁ poi diventa inutile raccogliere anche E₂ perché è diventata un'informazione già nota. L'acquisizione dei dati dura soltanto un ciclo e il costo è uguale a C. Viceversa, se raccoglie prima E₂, poi deve acquisire anche E₁, l'acquisizione dei dati richiede due iterazioni e il costo è uguale a 2C. Pertanto, la sequenza di acquisizione E₂E₁ è più lunga, costosa e meno efficiente della sequenza E₁E₂.

In questo modo l'agente evita di raccogliere le informazioni irrilevanti.

Lo pseudocodice dell'algoritmo

In sintesi lo pseudocodice dell'algoritmo è il seguente:

leggi conoscenza disponibile E
k = valore che massimizza VPI(E_k)-Costo(E_k)
if VPI(E_k)>Costo(E_k)
then richiedi(E_k)
ricomincia
else decidi

FAQ

Il valore di una nuova informazione può essere negativo?
No, dal punto di vista dell'utilità un'informazione aggiuntiva E_k potrebbe rivelarsi al massimo inutile. Il valore aggiunto VPI è comunque maggiore o uguale a zero.

Nota. Tuttavia, se l'utilità attesa iniziale (EU) dell'informazione è stata sopravvalutata, a causa di una credenza sbagliata, l'agente potrebbe aver speso troppo per ottenerla. In questo caso, l'agente subisce un danno in termini di costo opportunità, perché avrebbe potuto usare le meglio le risorse a disposizione. In particolar modo, se opera in condizioni di scarsità delle risorse.