Il problema dei dati mancanti negli alberi decisionali

Uno dei problemi degli albero decisionali sono i dati mancanti. Può infatti accadere che in alcuni esempi manchino dei valori su alcuni attributi.

Perché? A volte la rilevazione dei dati non è completa perché i dati non erano rilevabili, a causa di errori, oppure troppo costosi da ottenere.

In mancanza di dati l'albero decisionale perde la sua completezza e l'agente razionale non riesce a calcolare la via migliore da prendere.

Un esempio pratico

Nella seguente tabella degli esempi, nel quinto esempio manca il dato sull'attributo X3.

nel 5° esempio manca un dato

Nel nodo dove mancano i dati si presenta un vuoto, il ramo è spezzato.

Quindi, l'albero decisionale non potrebbe essere calcolato.

Nota. L'algoritmo potrebbe decidere di eliminare il 5° esempio per concentrarsi sugli altri. Tuttavia, questa semplice soluzione potrebbe essere peggiore del problema stesso, perché se i dati mancanti fossero molti, la tabella di training si ridurrebbe soltanto a pochi esempi.

    Quali sono le soluzioni del problema?

    Per risolvere questo problema si utilizzano alcuni escamotage:

    1. Si ipotizza che l'attributo abbia tutti i possibili valori.
      in sostituzione del dato mancante ho inserito entrambi i possibili valori
    2. La probabilità di ogni valore è calcolata in base alla frequenza media rilevata sugli altri esempi sullo stesso attributo.
      il calcolo della probabilità dei valori stimati dell'attributo

    Nota. Assegnare la stessa probabilità a tutti i valori è sicuramente più economico, ma è anche un metodo altamente fuorviante perché alcuni casi rari avrebbero la stessa probabilità dei casi più frequenti.

    In questo modo l'algoritmo di classificazione può ricostruire i rami mancanti dell'albero decisionale in modo razionale.

     


     

    Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

    FacebookTwitterLinkedinLinkedin
    knowledge base

    Libri di approfondimento

    Decision tree

    Esempi