Cosè il sé in Python: esempi del mondo reale
Cos'è il sé in Python: esempi del mondo reale
In questo blog, ti mostreremo come eseguire l'analisi del testo utilizzando Python per identificare parti del discorso nei dati di testo all'interno di LuckyTemplates. Tratteremo i passaggi per l'utilizzo di Python per l'analisi del testo e forniremo esempi e suggerimenti per aiutarti a iniziare con i tuoi progetti di analisi del testo. Puoi guardare il video completo di questo tutorial in fondo a questo blog.
Sommario
Dati di origine
In questo tutorial, utilizzeremo una nuvola di parole pronta all'uso contenente i testi che valuteremo. Questo è mostrato sul lato sinistro dell'immagine qui sotto. Sul lato destro abbiamo i filtri per identificare le diverse parti del discorso, ad esempio aggettivi o verbi.
Possiamo filtrare le parole che sono avverbi, sostantivi, diversi tipi di sostantivi o verbi e basi verbali. Questo è molto utile quando si crea una campagna di marketing e si cercano parole nelle recensioni dei clienti.
Iniziamo aprendo il nostro editor di Power Query .
Nei nostri dati di origine, abbiamo colonne per ID, età, titolo e testo della recensione. Ci concentreremo sulla colonna Review Text e la analizzeremo per eseguire la nostra analisi del testo. Ci sono anche altre categorie che possono essere utili nella nostra analisi.
Analisi del testo usando Python
Cominciamo con i dati normali che abbiamo introdotto. La prima cosa che faremo è filtrare le righe perché abbiamo molti dati e quando eseguiamo l'analisi del testo, ci vuole tempo.
Per filtrare i nostri dati, prendi le prime 50 righe per rendere l'analisi del testo un po' più veloce.
Una volta filtrato, vai a Trasforma ed esegui lo script Python . Codificheremo tutto qui perché non c'è molto codice.
Importazione dei pacchetti
Introduciamo due pacchetti per la nostra analisi del testo Python usando il nostro editor di script Python . "Importeremo i panda come pd" , la nostra libreria di manipolazione dei dati da salvare come variabile pd. E poi " from text blob " , importeremo TextBlob" con la maiuscola tra le parole.
Possiamo sempre documentare ciò che stiamo facendo inserendo una stringa di documento. Scriviamo #portare le librerie essenziali sopra i nostri pacchetti.
Rinominare la variabile
Nella prima riga del nostro script, c'è questa riga fornita da LuckyTemplates che dice che # 'dataset' contiene i dati di input per questo script. Questa riga dice che i nostri dati sono chiamati set di dati.
Quindi cambiamolo perché ci vuole troppo tempo per scrivere "set di dati". Digita #change la variabile del set di dati e df = set di dati nella riga successiva.
Ora è più breve scrivere la nostra variabile.
Fare l'analisi del testo
Procediamo con la nostra analisi del testo. Ricordiamo che i nostri testi di recensione sono in una colonna con singole celle. Questa configurazione non ci è molto utile perché vogliamo che tutti i testi siano insieme in modo da poter eseguire un'analisi su di essi.
Tuttavia, non vogliamo che vengano uniti senza uno spazio, quindi iniziamo il nostro codice con uno spazio all'interno di una doppia virgoletta .
Quindi aggiungiamo .join e isoliamo la nostra colonna di testo della recensione utilizzando la nostra variabile df , che contiene il set di dati. Digita "Rivedi testo" inserito all'interno di una notazione tra parentesi che isola la colonna.
Questo codice unirà tutto, ma dobbiamo salvarlo, quindi creiamo una variabile chiamata parole.
Una volta che abbiamo tutte le parole insieme, possiamo quindi utilizzare il nostro blob di testo per iniziare ad analizzare le parole.
La prima cosa da fare è creare le nostre parti del discorso usando la variabile blob di cui abbiamo bisogno per passare le parole a un blob di testo. Useremo quel blob di testo e passeremo il testo, che sono le nostre parole . Questo è digitato come blob = TextBlob(parole).
Ora che abbiamo quel blob, lo prenderemo e creeremo la nostra variabile parts_of_speech usando blob.tags . I tag saranno le abbreviazioni per ciascuna delle parti del discorso.
Quello che faremo dopo è salvarlo come frame di dati usando Pandas che abbiamo introdotto. Chiamiamolo i nostri dati che è uguale a pd.DataFrame e stiamo inserendo il nostro parts_of_speech .
Facciamo clic su OK per eseguire il nostro codice. Dopo aver eseguito il nostro codice, dovremmo ottenere una tabella delle nostre variabili. Abbiamo il set di dati o i nostri dati originali. Abbiamo anche i nostri dati e il file df .
Se non hai ottenuto i risultati desiderati, ti mostreremo i diversi modi per evitare alcuni errori che potresti ottenere nel codice.
Correzione del codice per l'analisi del testo in Python
A volte, potremmo aver bisogno di essere molto espliciti nel cambiare il formato del testo che ci interessa.
Possiamo farlo chiamando la nostra variabile df , isolando 'Review Text ' posto all'interno di una notazione tra parentesi, e quindi cambiando il tipo in stringhe usando .astype('str') . Quindi salva nuovamente questo nella variabile df .
Fare clic su OK per eseguire nuovamente il codice. Dovremmo ottenere gli stessi risultati di prima.
Ora, vogliamo aprire i nostri dati , l'ultima variabile che abbiamo inserito per vedere come appare.
Dovremmo avere tutte le nostre parole suddivise in parti del discorso. Non abbiamo ancora dato un nome alle nostre colonne, ma possiamo farlo facilmente.
Nella vecchia versione di questa stessa analisi del testo, ho chiamato la prima colonna come Word e la seconda come Abbreviation .
Nella query Parti del discorso , introduciamo le parole effettive che sono per queste abbreviazioni e le colleghiamo tutte insieme.
Ora chiudiamo e applichiamo .
I passaggi che abbiamo fatto ci hanno permesso di filtrare le diverse parti del discorso che abbiamo identificato utilizzando un semplice codice Python . Ci offre questo elemento visivo in LuckyTemplates in cui possiamo facilmente filtrare il nostro testo in base alle parti della categoria del discorso in cui rientrano.
Analisi del testo in Python | Un'introduzione
Funzioni definite dall'utente di Python | Una panoramica
dell'elenco Python e del ciclo for in LuckyTemplates
Conclusione
In qualità di analista di dati , potresti incontrare la necessità di estrarre approfondimenti e significato da grandi quantità di dati di testo non strutturati. Quello che hai imparato è un approccio utile alla comprensione dei dati di testo attraverso l'analisi del testo.
Ora puoi facilmente suddividere il testo in unità più piccole come parole e frasi, quindi analizzare queste unità per modelli e relazioni. Puoi raggiungere tutti questi obiettivi utilizzando l'analisi del testo in Python e LuckyTemplates.
Ti auguro il meglio,
Cos'è il sé in Python: esempi del mondo reale
Imparerai come salvare e caricare oggetti da un file .rds in R. Questo blog tratterà anche come importare oggetti da R a LuckyTemplates.
In questa esercitazione sul linguaggio di codifica DAX, scopri come usare la funzione GENERATE e come modificare dinamicamente il titolo di una misura.
Questo tutorial illustrerà come utilizzare la tecnica di visualizzazione dinamica multi-thread per creare approfondimenti dalle visualizzazioni di dati dinamici nei report.
In questo articolo, esaminerò il contesto del filtro. Il contesto del filtro è uno degli argomenti principali che qualsiasi utente di LuckyTemplates dovrebbe inizialmente conoscere.
Voglio mostrare come il servizio online di LuckyTemplates Apps può aiutare nella gestione di diversi report e approfondimenti generati da varie fonti.
Scopri come elaborare le modifiche al margine di profitto utilizzando tecniche come la ramificazione delle misure e la combinazione di formule DAX in LuckyTemplates.
Questo tutorial discuterà delle idee di materializzazione delle cache di dati e di come influiscono sulle prestazioni dei DAX nel fornire risultati.
Se finora utilizzi ancora Excel, questo è il momento migliore per iniziare a utilizzare LuckyTemplates per le tue esigenze di reportistica aziendale.
Che cos'è il gateway LuckyTemplates? Tutto quello che devi sapere