Dove trovare i dataset

Per esercitarsi nel machine learning è molto utile disporre di dataset pubblici già pronti. Sul web si possono trovare diverse risorse open-data. Personalmente utilizzo spesso il Machine Learning Repository dell'UCI

l'home page del machine learning repository

Un esempio pratico

Per trovare il dataset del modello Iris, un esempio classico del machine learning, clicco su Iris.

Si trova nella scheda dei dataset più popolari, sulla destra dello schermo.

l'home page del machine learning repository

Nota. Per cercare qualsiasi altro dataset, basta digitare sul link View All Dataset in alto a destra. Poi scorrere l'elenco dei dataset disponibili per cercare quello che più interessa.

Nella pagina seguente sono descritte le principali caratteristiche e gli attributi del dataset Iris.

Per scaricare questo dataset clicco sul link Data Folder vicino alla voce download.

Si trova in alto, sotto il titolo Iris Data Set.

la pagina descrittiva del data set

Nota. Scorrendo la pagina si possono trovare anche link ai papers che utilizzano questo dataset. Sono informazioni molto utili per lavorare sui dataset più complessi.

La pagina seguente visualizza il contenuto della directory con i file data.

Clicco su Iris.data per visualizzare il dataset.

cliccare su Iris Data

Sullo schermo viene visualizzato il contenuto del file.

Ogni riga è un esempio dell'insieme di training con gli attributi separati da una virgola.

la visualizzazione del dataset

A questo punto posso scaricare il file sul PC e usarlo su TensorFlow o qualsiasi altro programma di machine learning.

Nota. Se il dataset è molto grande, scarico direttamente senza visualizzarlo. In alternativa, posso anche usare il dataset online senza scaricarlo, utilizzando il suo indirizzo URL ( es. https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data ) come riferimento nel programma python.


 
Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

FacebookTwitterLinkedinLinkedin
knowledge base

Libri di approfondimento

Tensor Flow