Analisi del testo usando Python: come identificare parti del discorso

In questo blog, ti mostreremo come eseguire l'analisi del testo utilizzando Python per identificare parti del discorso nei dati di testo all'interno di LuckyTemplates. Tratteremo i passaggi per l'utilizzo di Python per l'analisi del testo e forniremo esempi e suggerimenti per aiutarti a iniziare con i tuoi progetti di analisi del testo. Puoi guardare il video completo di questo tutorial in fondo a questo blog.

Sommario

Dati di origine
Analisi del testo usando Python
Correzione del codice per l'analisi del testo in Python
Conclusione

Dati di origine

In questo tutorial, utilizzeremo una nuvola di parole pronta all'uso contenente i testi che valuteremo. Questo è mostrato sul lato sinistro dell'immagine qui sotto. Sul lato destro abbiamo i filtri per identificare le diverse parti del discorso, ad esempio aggettivi o verbi.

Analisi del testo usando Python: come identificare parti del discorso

Possiamo filtrare le parole che sono avverbi, sostantivi, diversi tipi di sostantivi o verbi e basi verbali. Questo è molto utile quando si crea una campagna di marketing e si cercano parole nelle recensioni dei clienti.

Iniziamo aprendo il nostro editor di Power Query .

Nei nostri dati di origine, abbiamo colonne per ID, età, titolo e testo della recensione. Ci concentreremo sulla colonna Review Text e la analizzeremo per eseguire la nostra analisi del testo. Ci sono anche altre categorie che possono essere utili nella nostra analisi.

Analisi del testo usando Python: come identificare parti del discorso

Analisi del testo usando Python

Cominciamo con i dati normali che abbiamo introdotto. La prima cosa che faremo è filtrare le righe perché abbiamo molti dati e quando eseguiamo l'analisi del testo, ci vuole tempo.

Per filtrare i nostri dati, prendi le prime 50 righe per rendere l'analisi del testo un po' più veloce.

Analisi del testo usando Python: come identificare parti del discorso

Una volta filtrato, vai a Trasforma ed esegui lo script Python . Codificheremo tutto qui perché non c'è molto codice.

Analisi del testo usando Python: come identificare parti del discorso

Importazione dei pacchetti

Introduciamo due pacchetti per la nostra analisi del testo Python usando il nostro editor di script Python . "Importeremo i panda come pd" , la nostra libreria di manipolazione dei dati da salvare come variabile pd. E poi " from text blob " , importeremo TextBlob" con la maiuscola tra le parole.

Possiamo sempre documentare ciò che stiamo facendo inserendo una stringa di documento. Scriviamo #portare le librerie essenziali sopra i nostri pacchetti.

Analisi del testo usando Python: come identificare parti del discorso

Rinominare la variabile

Nella prima riga del nostro script, c'è questa riga fornita da LuckyTemplates che dice che # 'dataset' contiene i dati di input per questo script. Questa riga dice che i nostri dati sono chiamati set di dati.

Quindi cambiamolo perché ci vuole troppo tempo per scrivere "set di dati". Digita #change la variabile del set di dati e df = set di dati nella riga successiva.

Analisi del testo usando Python: come identificare parti del discorso

Ora è più breve scrivere la nostra variabile.

Fare l'analisi del testo

Procediamo con la nostra analisi del testo. Ricordiamo che i nostri testi di recensione sono in una colonna con singole celle. Questa configurazione non ci è molto utile perché vogliamo che tutti i testi siano insieme in modo da poter eseguire un'analisi su di essi.

Tuttavia, non vogliamo che vengano uniti senza uno spazio, quindi iniziamo il nostro codice con uno spazio all'interno di una doppia virgoletta .

Quindi aggiungiamo .join e isoliamo la nostra colonna di testo della recensione utilizzando la nostra variabile df , che contiene il set di dati. Digita "Rivedi testo" inserito all'interno di una notazione tra parentesi che isola la colonna.

Questo codice unirà tutto, ma dobbiamo salvarlo, quindi creiamo una variabile chiamata parole.

Analisi del testo usando Python: come identificare parti del discorso

Una volta che abbiamo tutte le parole insieme, possiamo quindi utilizzare il nostro blob di testo per iniziare ad analizzare le parole.

La prima cosa da fare è creare le nostre parti del discorso usando la variabile blob di cui abbiamo bisogno per passare le parole a un blob di testo. Useremo quel blob di testo e passeremo il testo, che sono le nostre parole . Questo è digitato come blob = TextBlob(parole).

Ora che abbiamo quel blob, lo prenderemo e creeremo la nostra variabile parts_of_speech usando blob.tags . I tag saranno le abbreviazioni per ciascuna delle parti del discorso.

Quello che faremo dopo è salvarlo come frame di dati usando Pandas che abbiamo introdotto. Chiamiamolo i nostri dati che è uguale a pd.DataFrame e stiamo inserendo il nostro parts_of_speech .

Analisi del testo usando Python: come identificare parti del discorso

Facciamo clic su OK per eseguire il nostro codice. Dopo aver eseguito il nostro codice, dovremmo ottenere una tabella delle nostre variabili. Abbiamo il set di dati o i nostri dati originali. Abbiamo anche i nostri dati e il file df .

Analisi del testo usando Python: come identificare parti del discorso

Se non hai ottenuto i risultati desiderati, ti mostreremo i diversi modi per evitare alcuni errori che potresti ottenere nel codice.

Correzione del codice per l'analisi del testo in Python

A volte, potremmo aver bisogno di essere molto espliciti nel cambiare il formato del testo che ci interessa.

Possiamo farlo chiamando la nostra variabile df , isolando 'Review Text ' posto all'interno di una notazione tra parentesi, e quindi cambiando il tipo in stringhe usando .astype('str') . Quindi salva nuovamente questo nella variabile df .

Analisi del testo usando Python: come identificare parti del discorso

Fare clic su OK per eseguire nuovamente il codice. Dovremmo ottenere gli stessi risultati di prima.

Ora, vogliamo aprire i nostri dati , l'ultima variabile che abbiamo inserito per vedere come appare.

Analisi del testo usando Python: come identificare parti del discorso

Dovremmo avere tutte le nostre parole suddivise in parti del discorso. Non abbiamo ancora dato un nome alle nostre colonne, ma possiamo farlo facilmente.

Analisi del testo usando Python: come identificare parti del discorso

Nella vecchia versione di questa stessa analisi del testo, ho chiamato la prima colonna come Word e la seconda come Abbreviation .

Analisi del testo usando Python: come identificare parti del discorso

Nella query Parti del discorso , introduciamo le parole effettive che sono per queste abbreviazioni e le colleghiamo tutte insieme.

Analisi del testo usando Python: come identificare parti del discorso

Ora chiudiamo e applichiamo .

Analisi del testo usando Python: come identificare parti del discorso

I passaggi che abbiamo fatto ci hanno permesso di filtrare le diverse parti del discorso che abbiamo identificato utilizzando un semplice codice Python . Ci offre questo elemento visivo in LuckyTemplates in cui possiamo facilmente filtrare il nostro testo in base alle parti della categoria del discorso in cui rientrano.

Analisi del testo usando Python: come identificare parti del discorso

Analisi del testo in Python | Un'introduzione
Funzioni definite dall'utente di Python | Una panoramica
dell'elenco Python e del ciclo for in LuckyTemplates

Conclusione

In qualità di analista di dati , potresti incontrare la necessità di estrarre approfondimenti e significato da grandi quantità di dati di testo non strutturati. Quello che hai imparato è un approccio utile alla comprensione dei dati di testo attraverso l'analisi del testo.

Ora puoi facilmente suddividere il testo in unità più piccole come parole e frasi, quindi analizzare queste unità per modelli e relazioni. Puoi raggiungere tutti questi obiettivi utilizzando l'analisi del testo in Python e LuckyTemplates.

Ti auguro il meglio,

Lascia un commento

Power Automate si applica a ogni azione nei flussi di lavoro

Scopri l

Tecniche di modellazione dei dati per organizzare le misure DAX

Tecniche di modellazione dei dati per organizzare meglio le misure DAX per un flusso di lavoro più efficiente.

Filtro Power Apps: cosè e come si usa?

Scopri come utilizzare la funzione di filtro in Power Apps e come incorporarla nelle formule esistenti all

Come commentare più righe in Python: una guida semplice e veloce

Connettori Power Automate: numero, testo e data e ora

Acquisisci familiarità con i connettori Power Automate per la manipolazione di numeri, testo e date/ore.

Budget Vs Actual Vs Last Year - Suggerimenti per la rendicontazione finanziaria

Ora, è molto facile studiare il budget rispetto all

Come salvare e caricare un file RDS in R

Imparerai come salvare e caricare oggetti da un file .rds in R. Questo articolo tratta anche come importare oggetti da R a LuckyTemplates.

Che cosè Power Query e M Language: una panoramica dettagliata

Scopri tutto su Power Query e il linguaggio M per la trasformazione e la preparazione dei dati nel desktop di LuckyTemplates.

Cosè il sé in Python: esempi del mondo reale

Cos'è il sé in Python: esempi del mondo reale

Rivisitazione dei primi N giorni lavorativi: una soluzione per il linguaggio di codifica DAX

In questa esercitazione sul linguaggio di codifica DAX, scopri come usare la funzione GENERATE e come modificare dinamicamente il titolo di una misura.