Test set

Un insieme di test ( test set ) è una lista di casi utili per verificare a posteriori l'affidabilità di un sistema esperto o di un'intelligenza artificiale, dopo il processo di apprendimento induttivo.

Nota. Nel machine learning l'insieme di test è anche conosciuto come testing dataset. E' un metodo di verifica ex post e non va confuso con altre tecniche di valutazione ex ante della predizione.

Come funziona l'insieme di test

L'insieme di test è composto da vettori X che caratterizzano lo stato delle n variabili ambientali { x1, x2, ... , xn }.

A ogni vettore X è associata la variabile decisionale Y, ossia la decisione migliore possibile secondo gli esperti in materia.

un esempio di insieme di testing

La differenza tra training set e test set. L'insieme di test ha la stessa struttura dell'insieme di addestramento ( training set ) ma dati differenti. Nell'insieme di addestramento i dati sono inseriti dal supervisore o dalla macchina stessa osservando i feed-back con l'ambiente esterno. Nell'insieme di test, invece, i dati sono inseriti da esperti in materia.

Gli n vettori sono sottoposti alla macchina come variabili di input.

La macchina elabora una risposta R in base alla sua base di conoscenza e/o albero decisionale.

Una volta ottenuta, si confronta la risposta R della macchina con la migliore decisione Y prevista dagli esperti.

il funzionamento del test set

Se la decisione della macchina coincide con quella degli esperti (Y=R) la macchina supera il test.

In caso contrario, non lo passa.

Nota. Prima di giungere a una valutazione complessiva della qualità della predizione, la macchina deve essere sottoposta a più casi prelevati da diversi insiemi di test. Quanto più sono originali i set test, tanto più è efficace la valutazione.

La prestazione dell'algoritmo decisionale

L'insieme di test consente di misurare le performance dell'algoritmo.

Un indicatore di qualità è il rapporto tra le risposte corrette (RC) e il numero di test a cui la macchina viene sottoposta (NT).

la misurazione della performance della macchina

La curva di apprendimento

La macchina migliora l'apprendimento nel corso del tempo.

Quando l'indicatore di qualità Q è basso, il processo di addestramento continua.

L'insieme di training viene esteso con nuovi esempi per addestrare ulteriormente la macchina.

il processo di apprendimento tramite feed-back

La retroazione migliora progressivamente la capacità predittiva dell'algoritmo fino a raggiungere dei livelli soddisfacenti.

Il processo continuo di miglioramento assume la forma di una curva concava verso il basso detta curva di apprendimento.

la curva di apprendimento nel machine learning

Il rischio di peeking

L'insieme di test può influenzare il processo di machine learning.

I progettisti potrebbero sviluppare l'addestramento sui casi del set test, per ottenere subito dei risultati di qualità elevata nella fase di testing.

Questo rischio è detto peeking.

il peeking inquina il dataset di training della macchina

La macchina viene potenziata per rispondere correttamente agli esempi previsti dal test.

Tuttavia, pur avendo una buona prestazione sugli esempi del test set, non è detto che abbia una capacità predittiva generale sulla materia.

Come evitare il rischio di peeking?

L'insieme di test dovrebbe essere originale e preparato ad hoc per ogni fase di test.

In questo modo, la fase di training non verrebbe influenzata dall'insieme di test.



Per scrivere un commento

knowledge base

Decision tree