Come disegnare il grafico delle frequenze del testo con NLTK

Per disegnare il grafico delle frequenze del testo con python posso utilizzare la libreria NLTK ( Natural Language Toolkit ).

Cos'è il grafico delle frequenze? Il grafico delle frequenze calcola e visualizza il numero di volte che ogni parola ( occorrenza ) è ripetuta in un testo.

Apro Python e Importo in memoria la libreria NLTK.

Ovviamente la libreria deve essere già installata sul computer.

import nltk

Poi assegno il corpus del testo a una variabile.

testo = "la linguista computazionale è la scienza per elaborare la lingua naturale con il computer"

Trasformo la stringa di testo in un vettore (array) in cui ogni elemento è una parola del testo.

Per farlo applico il metodo split di python alla variabile testo.

testo=testo.split()

Per una verifica visualizzo il contenuto dell'array con l'istruzione print.

print (testo)

Sullo schermo dovrebbe comparire il testo dentro un array.

['la', 'linguista', 'computazione', 'è', 'la', 'scienza', 'per', 'elaborare', 'la', 'lingua', 'naturale', 'con', 'il', 'computer']

A questo punto posso calcolare le frequenze con la funzione FreqDist() della libreria NLTK

frequenza=nltk.FreqDist(testo)

Per visualizzare il grafico delle frequenze uso la funzione plot().

frequenze.plot()

Il risultato finale è il seguente:

il grafico delle frequenze disegnato da PLOT()

Esempio. Nell'esempio precedente la parola "la" è presente tre volte nel testo, è quella con frequenza maggiore, mentre le altre parole appaiono soltanto una volta.

 


 

Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

FacebookTwitterLinkedinLinkedin
knowledge base

Natural Language Toolkit

FAQ / Esempi