Il problema dei dati mancanti negli alberi decisionali
Uno dei problemi degli albero decisionali sono i dati mancanti. Può infatti accadere che in alcuni esempi manchino dei valori su alcuni attributi.
Perché? A volte la rilevazione dei dati non è completa perché i dati non erano rilevabili, a causa di errori, oppure troppo costosi da ottenere.
In mancanza di dati l'albero decisionale perde la sua completezza e l'agente razionale non riesce a calcolare la via migliore da prendere.
Un esempio pratico
Nella seguente tabella degli esempi, nel quinto esempio manca il dato sull'attributo X3.
Nel nodo dove mancano i dati si presenta un vuoto, il ramo è spezzato.
Quindi, l'albero decisionale non potrebbe essere calcolato.
Nota. L'algoritmo potrebbe decidere di eliminare il 5° esempio per concentrarsi sugli altri. Tuttavia, questa semplice soluzione potrebbe essere peggiore del problema stesso, perché se i dati mancanti fossero molti, la tabella di training si ridurrebbe soltanto a pochi esempi.
Quali sono le soluzioni del problema?
Per risolvere questo problema si utilizzano alcuni escamotage:
- Si ipotizza che l'attributo abbia tutti i possibili valori.
- La probabilità di ogni valore è calcolata in base alla frequenza media rilevata sugli altri esempi sullo stesso attributo.
Nota. Assegnare la stessa probabilità a tutti i valori è sicuramente più economico, ma è anche un metodo altamente fuorviante perché alcuni casi rari avrebbero la stessa probabilità dei casi più frequenti.
In questo modo l'algoritmo di classificazione può ricostruire i rami mancanti dell'albero decisionale in modo razionale.