Come fare un grafico a dispersione con Python
Per disegnare un grafico a dispersione (scatter plot) con il linguaggio python utilizzo il metodo scatterplot() della libreria seaborn.
Cos'è un diagramma a dispersione? E' un tipo di grafico usato in statistica per rappresentare la dispersione di due variabili di un set di dati sul piano cartesiano. L'asse orizzontale è associato a una variabile e l'asse verticale all'altra variabile. In questo modo, i dati sono visualizzati sotto forma di punti.
Un esempio pratico
Carico in memoria le librerie che mi serivanno.
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
Se le librerie non sono presenti in Python, è necessario installarle.
Poi carico in memoria un dataset di esempio dalla libreria seaborn tramite il metodo load_dataset() e lo salvo nella variabile tips.
tips=sns.load_dataset("tips")
Il dataset contiene diversi dati che possono essere usati per scopi didattici.
Ogni colonna è una variabile statistica (o feature).
Nota. In questo esempio uso un dataset già pronto per semplicità. In alternativa, posso caricare nella variabile qualsiasi file csv presente sul computer.
Scelgo di rappresentare sul diagramma a dispersione i dati relativi alle colonne "tip" e "total_bill".
Per farlo uso il metodo scatterplot() di seaborn.
sns.scatterplot(x="tip", y="total_bill", data=tips);
Nei parametri x e y indico quali dati usare sugli assi cartesiani.
Nel parametro data specifico la variabile dove si trovano i dati.
Infine, visualizzo il grafico sullo schermo con la funzione plt.show() di matplotlib.
plt.show()
L'interprete python elabora i dati, costruisce e rappresenta il grafico.
In questo modo ho realizzato un diagramma a dispersione.
E così via.