La riduzione in scala
Spesso gli algoritmi di machine learning elaborano i dataset dopo un'opportuna riduzione di scala.
Cos'è la riduzione di scala
E' un processo di pre-elaborazione che avviene prima della fase di addestramento del modello.
La standardizzazione
Uno dei metodi della riduzione di scala è la standardizzazione.
Si stima la media del campione e la deviazione standard per ogni dimensione delle caratteristiche dei dati nell'insieme di training.
Poi si sostituisce ogni campione con il rapporto tra la differenza del valore con la media (x-μ) e la devianza standard (σ).
La standardizzazione trasforma la serie di dati in una distribuzione normale standard.
Una distribuzione normale ha la media uguale a zero e la devianza standard pari a 1.
Pertanto, i valori della serie sono compresi tra -1 e +1.
A cosa serve nel machine learning? I dataset standardizzati consentono all'algoritmo di addestramento di raggiungere livelli di accuratezza superiori a parità di altri fattori. Inoltre, i dati standardizzati sono statisticamente confrontabili tra loro.