Come gestire i dati mancanti nel dataset

Uno dei problemi più frequenti nel machine learning è la qualità dei dati. In particolar modo, la presenza di dati mancanti negli esempi di training.

Un dataset è composto da numerosi esempi.

un esempio di dataset con dati mancanti

Ogni record (riga) è un esempio di addestramento ed è suddiviso in più campi (colonne).

Le colonne indicano le caratteristiche (feature) prese in considerazione.

Se in un esempio manca il dato di una feature, l'intero processo di addestramento potrebbe risentirne.

Ci sono due strade possibili:

Eliminare dal dataset i record incompleti, quelli con dati mancanti in fase di pre-addestramento. Si riduce un po' la dimensione del datase ma, in compenso, si acquista in qualità dei dati. E' la via preferibile.
Sostituire i dati mancanti con altri dati. La sostituzione può essere basata su diverse tecniche. La sostituzione non riduce la dimensione dei dati. In compenso, il dataset diventa meno realistico e la sintesi dei dati rischia di sporcarlo ulteriormente.

Metodi di imputazione. Esistono diversi metodi di imputazione tra cui scegliere. Ad esempio, posso sostituire un dato numerico mancante con la media della feature oppure, in modo più ragionato, con la media della feature in esempi simili (multivariate imputer).

E così via.