L'algoritmo della raccolta informazioni
Un agente razionale decide sulla base della sua conoscenza dello stato corrente della situazione (E) e degli obiettivi da raggiungere (O).
Tuttavia, l'agente non può avere una visione completa dell'ambiente operativo. Non ha tutte le informazioni.
Per superare il limite dell'informazione imperfetta, prima di decidere l'agente razionale deve raccogliere altre informazioni e aggiungerle alla sua base di conoscenza.
Come funziona l'algoritmo
La raccolta delle informazioni da parte dell'agente razionale si basa sul seguente processo:
- raccogliere altre informazioni prima di decidere
- selezionare quali sono le informazioni più utili da raccogliere
- interrompere la raccolta quando non è più razionale o conveniente cercare altre info.
Il valore delle informazioni aggiuntive
Le informazioni aggiuntive Ek non hanno tutte lo stesso valore ( VPI ). Alcune sono più utili di altre e vanno raccolte prima.
Non c'è però un ordine assoluto di importanza perché tutto dipende da ciò che l'agente razionale conosce già (E).
Quindi il valore delle informazioni è relativo.
Nota. La funzione EU calcola l'utilità attesa della decisione α in base alle informazioni disponibili ( E oppure E+Ek). Va sottolineato che l'agente stima l'utilità attesa da informazioni Ek che ancora non conosce. Pertanto, si tratta di un modello probabilistico di valutazione basato sulla credenza ossia su qualcosa che l'agente attende da quell'informazione ma di cui non è certo. Per un approfondimento sulla valutazione delle informazioni da aggiungere.
Il costo dell'informazione
L'agente deve anche considerare il costo dell'informazione.
Nessuna informazione aggiuntiva è gratuita.
La selezione delle informazioni da raccogliere
Le informazioni aggiuntive Ek da raccogliere devono essere ordinate in base al valore VPI e al costo
L'informazione aggiuntiva che apporta una maggiore utilità al netto del costo, deve essere raccolta prima delle altre.
Nota. Quando la sottrazione restituisce un valore negativo, l'algoritmo della raccolta informazioni conclude l'esecuzione e l'agente razionale prende la decisione finale.
La raccolta dell'informazione
Una volta trovata l'informazione aggiuntiva migliore, l'algoritmo procede alla raccolta dell'informazione Ek.
Poi l'algoritmo ricominicia una nuova iterazione per valutare le altre informazioni ancora da aggiungere.
Il ricalcolo delle VPI. Dopo aver aggiunto l'informazione Ek, i valori VPI delle altre informazioni ancora da raccogliere devono essere ricalcolati perché l'informazione corrente dell'agente razionale è aumentata da E a E+Ek. Ad esempio, se l'informazione appena aggiunta Ek era particolarmente importante potrebbe aver ridotto sensibilmente il VPI di tutte le altre. Ora le altre informazioni potrebbero essere diventate inutili o ridondanti ( già note ).
In conclusione, il valore delle informazioni aggiuntive non è additivo.
VPI(E1,E2) < VPI(E1) + VPI(E2)
Ad esempio, l'agente ha una conoscenza corrente E e deve acquisire due nuove informazioni E1 e E2. Se decide di acquisire prima E1 e poi E2, il valore dell'informazione VPI(E1) è maggiore di VPI(E2). E viceversa.
VPI(E1) > VPI(E1)
Da questo si deduce anche che l'ordine di acquisizione delle informazioni aggiuntive ( es E1, E2 oppure E2, E1 ) non modifica il valore dell'informazione complessiva VPI.
VPI(E,E1) + VPI(E2) = VPI(E,E2) + VPI(E1)
Tuttavia, se la raccolta dell'informazione implica un costo C in termini di risorse ( memoria ) e tempo, l'ordine di acquisizione dei dati impatta comunque sull'efficienza dell'algoritmo. Per capire questo concetto analizzo un altro caso pratico.
In questo caso se l'agente raccoglie prima E1 poi diventa inutile raccogliere anche E2 perché è diventata un'informazione già nota. L'acquisizione dei dati dura soltanto un ciclo e il costo è uguale a C. Viceversa, se raccoglie prima E2, poi deve acquisire anche E1, l'acquisizione dei dati richiede due iterazioni e il costo è uguale a 2C. Pertanto, la sequenza di acquisizione E2E1 è più lunga, costosa e meno efficiente della sequenza E1E2.
In questo modo l'agente evita di raccogliere le informazioni irrilevanti.
Lo pseudocodice dell'algoritmo
In sintesi lo pseudocodice dell'algoritmo è il seguente:
leggi conoscenza disponibile E
k = valore che massimizza VPI(Ek)-Costo(Ek)
if VPI(Ek)>Costo(Ek)
then richiedi(Ek)
ricomincia
else decidi
FAQ
- Il valore di una nuova informazione può essere negativo?
No, dal punto di vista dell'utilità un'informazione aggiuntiva Ek potrebbe rivelarsi al massimo inutile. Il valore aggiunto VPI è comunque maggiore o uguale a zero.
Nota. Tuttavia, se l'utilità attesa iniziale (EU) dell'informazione è stata sopravvalutata, a causa di una credenza sbagliata, l'agente potrebbe aver speso troppo per ottenerla. In questo caso, l'agente subisce un danno in termini di costo opportunità, perché avrebbe potuto usare le meglio le risorse a disposizione. In particolar modo, se opera in condizioni di scarsità delle risorse.