La potatura chi quadro

La potatura X2 (chi quadro) è una tecnica utilizzata nel machine learning induttivo, per eliminare gli attributi irrilevanti nel processo di costruzione dell'albero decisionale e ridurre il rischio di overfitting.

Cos'è l'overfitting? E' una situazione di sovradattamento dovuta alla presenza di variabili irrilevanti rispetto alla decisione da analizzare. Ad esempio, qual è la probabilità di prendere un buon voto a un esame? Una variabile rilevante sono le ore di studio. Una variabile irrilevante è il giorno della settimana o il colore della camicia.

Quando la macchina analizza l'insieme degli esempi non sa distinguere tra le variabili rilevanti e irrilevanti. Quindi, le prende in considerazione tutte.

C'è il rischio di costruire alberi decisionali completi, molto profondi, ma inutili.

Esempio. Un decision tree per decidere se presentarsi o meno a un esame, costruito a partire dall'attributo del colore della camicia, è oggettivamente completo ma anche inefficiente e inefficace.

    Come eliminare gli attributi irrilevanti?

    In genere, quando si analizza un gran numero di esperimenti, un attributo irrilevante è associato al 50% sia alle decisioni finali (Y) positive che negative.

    Esempio

    E' meglio fare un esame universitario di lunedì o di martedì? L'esito dell'esame cambia? E' un esempio pratico di variabile irrilevante.

    esempio di ipotesi nulla

    Nota. Se una variabile X è irrilevante rispetto alla variabile booleana Y, la probabilità distribuzione di Y rispetto a X tenderà a ripartirsi al 50% tra il si e il no entro un margine di errore del 5%.

    E' quindi possibile trovare gli attributi irrilevanti confrontando gli attributi con l'ipotesi nulla precedente.

    Quanto più un attributo X si discosta dall'ipotesi nulla, tanto più è rilevante rispetto a Y.

    Esempio

    Le ore di studio sono una variabile rilevante per l'esito di un esame universitario.

    un esempio di ipotesi rilevante

    Come trovare gli attributi irrilevanti?

    Un metodo per trovare gli attributi irrilevanti consiste nel calcolare la deviazione rispetto all'ipotesi nulla tramite la potatura chi quadro.

    Nel caso semplificato delle variabili booleane lo scostamento di un attributo è calcolabile con la seguente formula.

    la potatura chi quadro

    La formula somma il quadrato delle differenze tra il numero dei casi positivi e negativi di ogni nodo (i) dell'attributo rispetto al numero atteso in caso di ipotesi nulla.

    Se la deviazione totale D tende a zero, l'attributo è molto vicino all'ipotesi nulla ed è irrilevante.

     


     

    Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

    FacebookTwitterLinkedinLinkedin
    knowledge base

    Libri di approfondimento

    Machine Learning (ML)