Analisi del testo in Python | Un introduzione

Analisi del testo in Python | Un introduzione

In questo blog, discuteremo dell'analisi del testo in Python per la creazione di dati costruiti dal contenuto del testo. Questo ti aiuterà ad analizzare grandi quantità di dati e a dedicare meno tempo a lavorare su determinate attività. Acquisirai anche conoscenze su textblob che si occupano di attività di elaborazione del linguaggio naturale.

L'analisi del testo è il processo di analisi dei testi utilizzando codici per processi automatizzati di produzione e raggruppamento di dati di testo.

Prima di procedere, potrebbe essere necessario installare la libreria che utilizzeremo in questo tutorial.

Sommario

Implementazione dell'analisi del testo in Python

Iniziamo importando textblob . Ricordati di documentare quello che stai facendo con l'uso dei commenti.

Analisi del testo in Python |  Un introduzione

Eseguendo il codice sopra, ora abbiamo accesso alla libreria textblob . Il prossimo passo che faremo è creare una frase che useremo per i nostri esempi. Lo faremo memorizzando una frase in una variabile chiamata frase .

Ricordati di racchiudere la frase che vuoi aggiungere tra virgolette.

Analisi del testo in Python |  Un introduzione

Il textblob è una grande libreria in cui possiamo creare un blob e utilizzare alcune delle sue funzioni per la nostra analisi del testo in Python .

Analisi del testo in Python |  Un introduzione

Nella creazione del blob, iniziamo creando una variabile e nominandola blob . In questa variabile, dobbiamo aggiungere TextBlob che è la libreria che stiamo usando.

All'interno delle parentesi, utilizzeremo la variabile frase che contiene la frase che abbiamo creato in precedenza. Prendi nota che puoi scegliere di digitare manualmente la frase stessa all'interno delle parentesi per questa parte.

Per verificare cosa fa questa variabile blob , puoi semplicemente inizializzarla digitando il nome della variabile e premendo i tasti Maiusc + Invio. L'output dovrebbe essere simile all'esempio seguente.

Analisi del testo in Python |  Un introduzione

Come puoi vedere dal risultato, la frase che abbiamo memorizzato nella variabile frase è ora contenuta da TextBlob .

Tokenizzazione dei dati di testo in Python

Se desideri rimuovere alcune parole in una frase, possiamo separare ciascuna di queste parole in singole parti in un elenco. Con questa data frase, ciò che faremo è simbolizzarli o separare ogni parola e inserirla in un elenco.

Per fare ciò, utilizzeremo la variabile blob e utilizzeremo la funzione tokenize . Quindi lo memorizzeremo in una variabile denominata words .

Analisi del testo in Python |  Un introduzione

Inizializziamo le parole variabile nello stesso modo in cui abbiamo inizializzato la variabile blob per vedere cosa c'è nell'elenco tokenizzato .

Analisi del testo in Python |  Un introduzione

Come puoi vedere, ciascuna delle parole e persino i segni di punteggiatura sono ora separati in un elenco. Ecco come funziona la funzione tokenize .

Ora che abbiamo un elenco di parole, possiamo quindi eseguire un'altra funzione da esso. Creiamo un altro elenco di parole che non vogliamo siano incluse nel nostro elenco come punteggiatura e articoli. Per eseguire questo passaggio, fare riferimento allo screenshot seguente.

Analisi del testo in Python |  Un introduzione

Nel creare l'elenco delle parole non significative, abbiamo utilizzato parentesi per racchiudere l'elenco delle parole non significative. Quindi ciascuna delle parole di arresto è racchiusa tra virgolette singole e ciascuna è separata da una virgola. Abbiamo memorizzato l'elenco nella variabile stop_words .

Da qui, eseguiremo una comprensione dell'elenco per rimuovere le parole necessarie per condurre l'analisi del testo in Python . Ciò include la pulizia delle frasi, la tokenizzazione e il confronto di elenchi diversi. Confronteremo ora questi due elenchi e creeremo un nuovo elenco di clean_tokens .

Analisi del testo in Python |  Un introduzione

Nel codice presentato sopra, abbiamo utilizzato un segnaposto che è w per rappresentare un elemento . Quello che stiamo cercando di fare in questa parte è ottenere l'elemento nella variabile words se l'elemento non esiste nella variabile stop_words . Se stiamo per inizializzare clean_tokens , questo sarà il risultato.

Analisi del testo in Python |  Un introduzione

In questo processo, siamo in grado di ripulire i nostri token inserendo un processo di rimozione di token non necessari come punteggiatura e articoli. Per questo motivo, nella nostra lista sono rimaste solo le parole essenziali.

Unire i token per formare una frase in Python

Ora che abbiamo separato i token puliti , proviamo a metterli tutti insieme in una frase. Per fare ciò, dobbiamo utilizzare la funzione .join . Controlla l'esempio qui sotto come riferimento.

Analisi del testo in Python |  Un introduzione

Nell'esempio sopra, abbiamo creato una variabile chiamata clean_sentence per contenere i nostri token puliti che verranno combinati in una frase. Puoi anche notare che abbiamo aggiunto uno spazio racchiuso tra virgolette doppie e la funzione .join . All'interno dei parametri, abbiamo incluso la variabile clean_tokens .

Questo sarà l'output se inizializziamo la variabile clean_sentence .

Analisi del testo in Python |  Un introduzione

È evidente che la frase non sembra corretta perché abbiamo rimosso gli articoli e la punteggiatura in precedenza.

Dopo aver creato clean_sentence , proviamo a creare un nuovo blob di testo contenente la clean_sentence che abbiamo appena creato. Quindi lo memorizzeremo in una nuova variabile clean_blob .

Analisi del testo in Python |  Un introduzione

Dissezione di un blob di testo per parti del discorso utilizzando la funzione .tags

Da questo blob di analisi, possiamo usare i pezzi di questo blob per verificare la presenza di parti del discorso o apportare ulteriori modifiche. Proviamo a controllare le parti del discorso di ogni parola nel nostro nuovo textblob .

Analisi del testo in Python |  Un introduzione

Per controllare le parti del discorso in un textblob, dovresti usare la funzione .tags . L'ho fatto utilizzando la nostra variabile clean_blob e subito dopo ho aggiunto la funzione .tags .

Se ricevi un messaggio di errore durante l'inizializzazione della funzione .tags , leggi e segui i passaggi per correggere l'errore. In questo caso, ecco come appare.

Analisi del testo in Python |  Un introduzione

Se scorri verso il basso alla fine di questo messaggio di errore, vedrai i dati necessari per la funzione che stai tentando di utilizzare.

Analisi del testo in Python |  Un introduzione

Una volta trovato il codice che dobbiamo inizializzare per scaricare i dati necessari, basta copiare il codice e quindi aprire Anaconda Prompt utilizzando Windows Search .

Analisi del testo in Python |  Un introduzione

Utilizzando Anaconda Prompt , proveremo a correggere l'errore che abbiamo ricevuto durante l'inizializzazione della funzione .tags . Ora incolliamo il codice che abbiamo copiato dal messaggio di errore in precedenza ed eseguiamolo premendo Invio .

Analisi del testo in Python |  Un introduzione

Al termine, prova a eseguire nuovamente la funzione .tags e verifica se funziona.

Analisi del testo in Python |  Un introduzione

Dopo aver eseguito nuovamente il codice, possiamo vedere che l'errore è stato corretto e abbiamo ricevuto un risultato che contiene ogni parola del nuovo blob di testo insieme ai tag o alle parti del discorso.

Se non hai idea di cosa significhino questi tag , puoi semplicemente visitare il sito Web di textblob per verificare cosa rappresentano questi tag. 

Utilizzo della funzione ngrams per l'analisi del testo in Python

Passiamo a un altro esempio, che riguarda l'ottenimento degli ngrams . La funzione ngrams viene utilizzata per cercare parole che si vedono spesso insieme in una frase o in un documento. Ad esempio, iniziamo creando un nuovo blob di testo e memorizzandolo nella variabile blob3 .

Analisi del testo in Python |  Un introduzione

Successivamente, utilizziamo la funzione ngrams nella variabile blob3 per controllare alcune combinazioni di parole.

Analisi del testo in Python |  Un introduzione

Per impostazione predefinita, se non hai specificato un valore nei parametri, verranno visualizzati trigrammi o combinazioni di 3 parole. Ma se vogliamo vedere combinazioni di 2 parole dalla frase, possiamo impostare 2 nei parametri come nell'esempio qui sotto.

Analisi del testo in Python |  Un introduzione

Proviamo questa volta con una frase più lunga. In questo esempio, ho appena copiato un testo più lungo da una recensione di un film. Puoi usare qualsiasi frase tu voglia per questa parte.

Analisi del testo in Python |  Un introduzione

Come ultimo esempio, proviamo a utilizzare ngrams ancora una volta con una frase più informativa.

Analisi del testo in Python |  Un introduzione

Con tutti questi esempi, possiamo eseguire più analisi del testo in Python in base ai risultati che stiamo ottenendo con la funzione ngrams .


Python II per utenti LuckyTemplates: nuovo corso nella piattaforma on demand
Come caricare set di dati di esempio in Python
utilizzando Python in LuckyTemplates | Set di dati e funzione di stringa

Conclusione

Per riassumere, hai imparato a conoscere le diverse funzioni che puoi utilizzare per eseguire l'analisi del testo in Python.

Queste sono la funzione .tokenize per separare le parole in una frase, la funzione .join per combinare parole tokenizzate, la funzione .tags per controllare le parti del discorso delle parole e la funzione ngrams per visualizzare la combinazione di parole.

Inoltre, hai imparato a correggere errori come quello che abbiamo fatto nella funzione .tags usando Anaconda Prompt . Hai anche imparato come importare, creare un blob di testo e utilizzare questa libreria per eseguire l'analisi del testo in Python .

Ti auguro il meglio,

Gaellim


Cosè il sé in Python: esempi del mondo reale

Cosè il sé in Python: esempi del mondo reale

Cos'è il sé in Python: esempi del mondo reale

Come salvare e caricare un file RDS in R

Come salvare e caricare un file RDS in R

Imparerai come salvare e caricare oggetti da un file .rds in R. Questo blog tratterà anche come importare oggetti da R a LuckyTemplates.

Rivisitazione dei primi N giorni lavorativi: una soluzione per il linguaggio di codifica DAX

Rivisitazione dei primi N giorni lavorativi: una soluzione per il linguaggio di codifica DAX

In questa esercitazione sul linguaggio di codifica DAX, scopri come usare la funzione GENERATE e come modificare dinamicamente il titolo di una misura.

Mostra approfondimenti utilizzando la tecnica di visualizzazione dinamica multi-thread in LuckyTemplates

Mostra approfondimenti utilizzando la tecnica di visualizzazione dinamica multi-thread in LuckyTemplates

Questo tutorial illustrerà come utilizzare la tecnica di visualizzazione dinamica multi-thread per creare approfondimenti dalle visualizzazioni di dati dinamici nei report.

Introduzione al filtraggio del contesto in LuckyTemplates

Introduzione al filtraggio del contesto in LuckyTemplates

In questo articolo, esaminerò il contesto del filtro. Il contesto del filtro è uno degli argomenti principali che qualsiasi utente di LuckyTemplates dovrebbe inizialmente conoscere.

I migliori suggerimenti per lutilizzo delle app nel servizio online LuckyTemplates

I migliori suggerimenti per lutilizzo delle app nel servizio online LuckyTemplates

Voglio mostrare come il servizio online di LuckyTemplates Apps può aiutare nella gestione di diversi report e approfondimenti generati da varie fonti.

Analizza le variazioni del margine di profitto nel tempo: analisi con LuckyTemplates e DAX

Analizza le variazioni del margine di profitto nel tempo: analisi con LuckyTemplates e DAX

Scopri come elaborare le modifiche al margine di profitto utilizzando tecniche come la ramificazione delle misure e la combinazione di formule DAX in LuckyTemplates.

Idee di materializzazione per cache di dati in DAX Studio

Idee di materializzazione per cache di dati in DAX Studio

Questo tutorial discuterà delle idee di materializzazione delle cache di dati e di come influiscono sulle prestazioni dei DAX nel fornire risultati.

Reporting aziendale tramite LuckyTemplates

Reporting aziendale tramite LuckyTemplates

Se finora utilizzi ancora Excel, questo è il momento migliore per iniziare a utilizzare LuckyTemplates per le tue esigenze di reportistica aziendale.

Che cosè il gateway LuckyTemplates? Tutto quello che devi sapere

Che cosè il gateway LuckyTemplates? Tutto quello che devi sapere

Che cos'è il gateway LuckyTemplates? Tutto quello che devi sapere