Algoritmo MDP con ricompensa media

L'algoritmo con ricompensa media usa un metodo alternativo per il computo della ricompensa nel processo decisionale di Markov ( MDP ). Il premio di ogni stato è determinato dalla media tra la ricompensa dello stato corrente e quello successivo.

Qual è la differenza tra ricompensa additiva e ricompensa media? Nel metodo con ricompensa additiva, i premi sono determinati dalla ricompensa ottenuta nello stato successivo a quello corrente.

    Un esempio pratico

    In un modello stocastico, l'agente esegue correttamente al 90% i comandi ma ha un margine di errore del 10% di sbandare a destra o a sinistra.

    Per ogni azione sacrifica -0.1 utilità ( costo dell'azione ).

    l'ambiente operativo dell'agente

    Inizialmente l'agente si trova nella casella A2.

    Raggiungendo la casella C2 otterrebbe un premio +1.

    Tuttava, c'è anche il rischio di cadere nella casella C3 e subire una perdita di utilità -10.

    Cosa dovrebbe muoversi l'agente?

    Nello stato corrente B2 l'agente ha una ricompensa pari a zero.

    Spostandosi in una qualunque delle caselle vicine, subisce una perdita di -0.1 di utilità.

    Pertanto, qualunque sia la direzione intrapresa (B1,B2,B3) per avvicinarsi al traguardo, ottiene una ricompensa media di -0.05 di utilità.

    il metodo della ricompensa media sulla casella B2

    Nota. In questo caso le ricompense medie sono tutte uguali nelle caselle successive (B1,B2,B3) del cammino. All'atto pratico, l'agente dovrebbe scegliere la ricompensa media più alta.

    L'agente può anche decidere di restare fermo in B2.

    Così facendo non subisce alcuna perdita di utilità, perché la ricompensa media dello stato corrente e quello futuro è uguale a zero.

    la ricompensa media se resta fermo in B1

    In questo caso, secondo l'algoritmo della ricompensa media, all'agente conviene non muoversi dalla casella B2.



    Per scrivere un commento

    knowledge base

    Libri di approfondimento

    Il ragionamento artificiale