Analisi del testo usando Python: come identificare parti del discorso

Analisi del testo usando Python: come identificare parti del discorso

In questo blog, ti mostreremo come eseguire l'analisi del testo utilizzando Python per identificare parti del discorso nei dati di testo all'interno di LuckyTemplates. Tratteremo i passaggi per l'utilizzo di Python per l'analisi del testo e forniremo esempi e suggerimenti per aiutarti a iniziare con i tuoi progetti di analisi del testo. Puoi guardare il video completo di questo tutorial in fondo a questo blog.

Sommario

Dati di origine

In questo tutorial, utilizzeremo una nuvola di parole pronta all'uso contenente i testi che valuteremo. Questo è mostrato sul lato sinistro dell'immagine qui sotto. Sul lato destro abbiamo i filtri per identificare le diverse parti del discorso, ad esempio aggettivi o verbi. 

Analisi del testo usando Python: come identificare parti del discorso

Possiamo filtrare le parole che sono avverbi, sostantivi, diversi tipi di sostantivi o verbi e basi verbali. Questo è molto utile quando si crea una campagna di marketing e si cercano parole nelle recensioni dei clienti. 

Iniziamo aprendo il nostro editor di Power Query

Nei nostri dati di origine, abbiamo colonne per ID, età, titolo e testo della recensione. Ci concentreremo sulla colonna Review Text e la analizzeremo per eseguire la nostra analisi del testo. Ci sono anche altre categorie che possono essere utili nella nostra analisi.

Analisi del testo usando Python: come identificare parti del discorso

Analisi del testo usando Python

Cominciamo con i dati normali che abbiamo introdotto. La prima cosa che faremo è filtrare le righe perché abbiamo molti dati e quando eseguiamo l'analisi del testo, ci vuole tempo. 

Per filtrare i nostri dati, prendi le prime 50 righe per rendere l'analisi del testo un po' più veloce. 

Analisi del testo usando Python: come identificare parti del discorso

Una volta filtrato, vai a Trasforma ed esegui lo script Python . Codificheremo tutto qui perché non c'è molto codice. 

Analisi del testo usando Python: come identificare parti del discorso

Importazione dei pacchetti

Introduciamo due pacchetti per la nostra analisi del testo Python usando il nostro editor di script Python . "Importeremo i panda come pd" , la nostra libreria di manipolazione dei dati da salvare come variabile pd. E poi " from text blob " , importeremo TextBlob" con la maiuscola tra le parole. 

Possiamo sempre documentare ciò che stiamo facendo inserendo una stringa di documento. Scriviamo #portare le librerie essenziali sopra i nostri pacchetti.

Analisi del testo usando Python: come identificare parti del discorso

Rinominare la variabile

Nella prima riga del nostro script, c'è questa riga fornita da LuckyTemplates che dice che # 'dataset' contiene i dati di input per questo script. Questa riga dice che i nostri dati sono chiamati set di dati. 

Quindi cambiamolo perché ci vuole troppo tempo per scrivere "set di dati". Digita #change la variabile del set di dati e df = set di dati nella riga successiva.

Analisi del testo usando Python: come identificare parti del discorso

Ora è più breve scrivere la nostra variabile. 

Fare l'analisi del testo

Procediamo con la nostra analisi del testo. Ricordiamo che i nostri testi di recensione sono in una colonna con singole celle. Questa configurazione non ci è molto utile perché vogliamo che tutti i testi siano insieme in modo da poter eseguire un'analisi su di essi. 

Tuttavia, non vogliamo che vengano uniti senza uno spazio, quindi iniziamo il nostro codice con uno spazio all'interno di una doppia virgoletta .  

Quindi aggiungiamo .join e isoliamo la nostra colonna di testo della recensione utilizzando la nostra variabile df , che contiene il set di dati. Digita "Rivedi testo" inserito all'interno di una notazione tra parentesi che isola la colonna. 

Questo codice unirà tutto, ma dobbiamo salvarlo, quindi creiamo una variabile chiamata parole.

Analisi del testo usando Python: come identificare parti del discorso

Una volta che abbiamo tutte le parole insieme, possiamo quindi utilizzare il nostro blob di testo per iniziare ad analizzare le parole. 

La prima cosa da fare è creare le nostre parti del discorso usando la variabile blob di cui abbiamo bisogno per passare le parole a un blob di testo. Useremo quel blob di testo e passeremo il testo, che sono le nostre parole . Questo è digitato come blob = TextBlob(parole).

Ora che abbiamo quel blob, lo prenderemo e creeremo la nostra variabile parts_of_speech usando blob.tags . I tag saranno le abbreviazioni per ciascuna delle parti del discorso. 

Quello che faremo dopo è salvarlo come frame di dati usando Pandas che abbiamo introdotto. Chiamiamolo i nostri dati che è uguale a pd.DataFrame e stiamo inserendo il nostro parts_of_speech

Analisi del testo usando Python: come identificare parti del discorso

Facciamo clic su OK per eseguire il nostro codice. Dopo aver eseguito il nostro codice, dovremmo ottenere una tabella delle nostre variabili. Abbiamo il set di dati o i nostri dati originali. Abbiamo anche i nostri dati e il file df

Analisi del testo usando Python: come identificare parti del discorso

Se non hai ottenuto i risultati desiderati, ti mostreremo i diversi modi per evitare alcuni errori che potresti ottenere nel codice.

Correzione del codice per l'analisi del testo in Python

A volte, potremmo aver bisogno di essere molto espliciti nel cambiare il formato del testo che ci interessa. 

Possiamo farlo chiamando la nostra variabile df , isolando 'Review Text ' posto all'interno di una notazione tra parentesi, e quindi cambiando il tipo in stringhe usando .astype('str') . Quindi salva nuovamente questo nella variabile df

Analisi del testo usando Python: come identificare parti del discorso

Fare clic su OK per eseguire nuovamente il codice. Dovremmo ottenere gli stessi risultati di prima.

Ora, vogliamo aprire i nostri dati , l'ultima variabile che abbiamo inserito per vedere come appare. 

Analisi del testo usando Python: come identificare parti del discorso

Dovremmo avere tutte le nostre parole suddivise in parti del discorso. Non abbiamo ancora dato un nome alle nostre colonne, ma possiamo farlo facilmente. 

Analisi del testo usando Python: come identificare parti del discorso

Nella vecchia versione di questa stessa analisi del testo, ho chiamato la prima colonna come Word e la seconda come Abbreviation

Analisi del testo usando Python: come identificare parti del discorso

Nella query Parti del discorso , introduciamo le parole effettive che sono per queste abbreviazioni e le colleghiamo tutte insieme.

Analisi del testo usando Python: come identificare parti del discorso

Ora chiudiamo e applichiamo

Analisi del testo usando Python: come identificare parti del discorso

I passaggi che abbiamo fatto ci hanno permesso di filtrare le diverse parti del discorso che abbiamo identificato utilizzando un semplice codice Python . Ci offre questo elemento visivo in LuckyTemplates in cui possiamo facilmente filtrare il nostro testo in base alle parti della categoria del discorso in cui rientrano. 

Analisi del testo usando Python: come identificare parti del discorso


Analisi del testo in Python | Un'introduzione
Funzioni definite dall'utente di Python | Una panoramica
dell'elenco Python e del ciclo for in LuckyTemplates

Conclusione

In qualità di analista di dati , potresti incontrare la necessità di estrarre approfondimenti e significato da grandi quantità di dati di testo non strutturati. Quello che hai imparato è un approccio utile alla comprensione dei dati di testo attraverso l'analisi del testo.

Ora puoi facilmente suddividere il testo in unità più piccole come parole e frasi, quindi analizzare queste unità per modelli e relazioni. Puoi raggiungere tutti questi obiettivi utilizzando l'analisi del testo in Python e LuckyTemplates. 

Ti auguro il meglio,


Cosè il sé in Python: esempi del mondo reale

Cosè il sé in Python: esempi del mondo reale

Cos'è il sé in Python: esempi del mondo reale

Come salvare e caricare un file RDS in R

Come salvare e caricare un file RDS in R

Imparerai come salvare e caricare oggetti da un file .rds in R. Questo blog tratterà anche come importare oggetti da R a LuckyTemplates.

Rivisitazione dei primi N giorni lavorativi: una soluzione per il linguaggio di codifica DAX

Rivisitazione dei primi N giorni lavorativi: una soluzione per il linguaggio di codifica DAX

In questa esercitazione sul linguaggio di codifica DAX, scopri come usare la funzione GENERATE e come modificare dinamicamente il titolo di una misura.

Mostra approfondimenti utilizzando la tecnica di visualizzazione dinamica multi-thread in LuckyTemplates

Mostra approfondimenti utilizzando la tecnica di visualizzazione dinamica multi-thread in LuckyTemplates

Questo tutorial illustrerà come utilizzare la tecnica di visualizzazione dinamica multi-thread per creare approfondimenti dalle visualizzazioni di dati dinamici nei report.

Introduzione al filtraggio del contesto in LuckyTemplates

Introduzione al filtraggio del contesto in LuckyTemplates

In questo articolo, esaminerò il contesto del filtro. Il contesto del filtro è uno degli argomenti principali che qualsiasi utente di LuckyTemplates dovrebbe inizialmente conoscere.

I migliori suggerimenti per lutilizzo delle app nel servizio online LuckyTemplates

I migliori suggerimenti per lutilizzo delle app nel servizio online LuckyTemplates

Voglio mostrare come il servizio online di LuckyTemplates Apps può aiutare nella gestione di diversi report e approfondimenti generati da varie fonti.

Analizza le variazioni del margine di profitto nel tempo: analisi con LuckyTemplates e DAX

Analizza le variazioni del margine di profitto nel tempo: analisi con LuckyTemplates e DAX

Scopri come elaborare le modifiche al margine di profitto utilizzando tecniche come la ramificazione delle misure e la combinazione di formule DAX in LuckyTemplates.

Idee di materializzazione per cache di dati in DAX Studio

Idee di materializzazione per cache di dati in DAX Studio

Questo tutorial discuterà delle idee di materializzazione delle cache di dati e di come influiscono sulle prestazioni dei DAX nel fornire risultati.

Reporting aziendale tramite LuckyTemplates

Reporting aziendale tramite LuckyTemplates

Se finora utilizzi ancora Excel, questo è il momento migliore per iniziare a utilizzare LuckyTemplates per le tue esigenze di reportistica aziendale.

Che cosè il gateway LuckyTemplates? Tutto quello che devi sapere

Che cosè il gateway LuckyTemplates? Tutto quello che devi sapere

Che cos'è il gateway LuckyTemplates? Tutto quello che devi sapere