La pre-elaborazione dei dati

Nel machine learning la pre-elaborazione ( o pre-processing ) è la fase in cui preparo e organizzo i dati, prima di avviare l'algoritmo di apprendimento.

A cosa serve? Avviare il processo di machine learning su dati grezzi, implica il rischi di prolungare l'apprendimento automatico su dati ridondanti. Analizzare i dati prima dell'elaborazione riduce la complessità computazionale.

In particolar modo, nella fase di pre-processing analizzo il dataset per individuare eventuali correlazioni nei dati.

Le informazioni correlate
La normalizzazione dei dati

Le informazioni correlate

Può capitare che alcune caratteristiche del dataset abbiano un'elevata correlazione.

In questi casi è inutile elaborare entrambi gli attributi. Sono informazioni ridondanti.

Gli attributi correlati possono essere indicati come unica variabile nel dataset, senza alcuna perdita di informazione.

Questo mi permette di ridurre la dimensione dei dati nel dataset e la complessità computazionale dell'algoritmo.

Perché migliora la complessità? L'algoritmo di apprendimento impiega meno tempo (complessità temporale) e impegna meno memoria (complessità spaziale) perché deve analizzare un volume di dati inferiore.

La normalizzazione dei dati

Per trovare le informazioni ridondanti è utile normalizzare i dati in una scala comune da 0 a 1.

In alternativa, posso convertire i dati in una distribuzione normale con media uguale a zero e varianza uguale a 1.

In queste due forme statistiche alternative, i dati hanno una forma omogenea, indipendente dall'unità di misura, ed è più facile individuare le correlazioni nei big data.