Cosè il sé in Python: esempi del mondo reale
Cos'è il sé in Python: esempi del mondo reale
In questo blog, discuteremo dell'analisi del testo in Python per la creazione di dati costruiti dal contenuto del testo. Questo ti aiuterà ad analizzare grandi quantità di dati e a dedicare meno tempo a lavorare su determinate attività. Acquisirai anche conoscenze su textblob che si occupano di attività di elaborazione del linguaggio naturale.
L'analisi del testo è il processo di analisi dei testi utilizzando codici per processi automatizzati di produzione e raggruppamento di dati di testo.
Prima di procedere, potrebbe essere necessario installare la libreria che utilizzeremo in questo tutorial.
Sommario
Implementazione dell'analisi del testo in Python
Iniziamo importando textblob . Ricordati di documentare quello che stai facendo con l'uso dei commenti.
Eseguendo il codice sopra, ora abbiamo accesso alla libreria textblob . Il prossimo passo che faremo è creare una frase che useremo per i nostri esempi. Lo faremo memorizzando una frase in una variabile chiamata frase .
Ricordati di racchiudere la frase che vuoi aggiungere tra virgolette.
Il textblob è una grande libreria in cui possiamo creare un blob e utilizzare alcune delle sue funzioni per la nostra analisi del testo in Python .
Nella creazione del blob, iniziamo creando una variabile e nominandola blob . In questa variabile, dobbiamo aggiungere TextBlob che è la libreria che stiamo usando.
All'interno delle parentesi, utilizzeremo la variabile frase che contiene la frase che abbiamo creato in precedenza. Prendi nota che puoi scegliere di digitare manualmente la frase stessa all'interno delle parentesi per questa parte.
Per verificare cosa fa questa variabile blob , puoi semplicemente inizializzarla digitando il nome della variabile e premendo i tasti Maiusc + Invio. L'output dovrebbe essere simile all'esempio seguente.
Come puoi vedere dal risultato, la frase che abbiamo memorizzato nella variabile frase è ora contenuta da TextBlob .
Tokenizzazione dei dati di testo in Python
Se desideri rimuovere alcune parole in una frase, possiamo separare ciascuna di queste parole in singole parti in un elenco. Con questa data frase, ciò che faremo è simbolizzarli o separare ogni parola e inserirla in un elenco.
Per fare ciò, utilizzeremo la variabile blob e utilizzeremo la funzione tokenize . Quindi lo memorizzeremo in una variabile denominata words .
Inizializziamo le parole variabile nello stesso modo in cui abbiamo inizializzato la variabile blob per vedere cosa c'è nell'elenco tokenizzato .
Come puoi vedere, ciascuna delle parole e persino i segni di punteggiatura sono ora separati in un elenco. Ecco come funziona la funzione tokenize .
Ora che abbiamo un elenco di parole, possiamo quindi eseguire un'altra funzione da esso. Creiamo un altro elenco di parole che non vogliamo siano incluse nel nostro elenco come punteggiatura e articoli. Per eseguire questo passaggio, fare riferimento allo screenshot seguente.
Nel creare l'elenco delle parole non significative, abbiamo utilizzato parentesi per racchiudere l'elenco delle parole non significative. Quindi ciascuna delle parole di arresto è racchiusa tra virgolette singole e ciascuna è separata da una virgola. Abbiamo memorizzato l'elenco nella variabile stop_words .
Da qui, eseguiremo una comprensione dell'elenco per rimuovere le parole necessarie per condurre l'analisi del testo in Python . Ciò include la pulizia delle frasi, la tokenizzazione e il confronto di elenchi diversi. Confronteremo ora questi due elenchi e creeremo un nuovo elenco di clean_tokens .
Nel codice presentato sopra, abbiamo utilizzato un segnaposto che è w per rappresentare un elemento . Quello che stiamo cercando di fare in questa parte è ottenere l'elemento nella variabile words se l'elemento non esiste nella variabile stop_words . Se stiamo per inizializzare clean_tokens , questo sarà il risultato.
In questo processo, siamo in grado di ripulire i nostri token inserendo un processo di rimozione di token non necessari come punteggiatura e articoli. Per questo motivo, nella nostra lista sono rimaste solo le parole essenziali.
Unire i token per formare una frase in Python
Ora che abbiamo separato i token puliti , proviamo a metterli tutti insieme in una frase. Per fare ciò, dobbiamo utilizzare la funzione .join . Controlla l'esempio qui sotto come riferimento.
Nell'esempio sopra, abbiamo creato una variabile chiamata clean_sentence per contenere i nostri token puliti che verranno combinati in una frase. Puoi anche notare che abbiamo aggiunto uno spazio racchiuso tra virgolette doppie e la funzione .join . All'interno dei parametri, abbiamo incluso la variabile clean_tokens .
Questo sarà l'output se inizializziamo la variabile clean_sentence .
È evidente che la frase non sembra corretta perché abbiamo rimosso gli articoli e la punteggiatura in precedenza.
Dopo aver creato clean_sentence , proviamo a creare un nuovo blob di testo contenente la clean_sentence che abbiamo appena creato. Quindi lo memorizzeremo in una nuova variabile clean_blob .
Dissezione di un blob di testo per parti del discorso utilizzando la funzione .tags
Da questo blob di analisi, possiamo usare i pezzi di questo blob per verificare la presenza di parti del discorso o apportare ulteriori modifiche. Proviamo a controllare le parti del discorso di ogni parola nel nostro nuovo textblob .
Per controllare le parti del discorso in un textblob, dovresti usare la funzione .tags . L'ho fatto utilizzando la nostra variabile clean_blob e subito dopo ho aggiunto la funzione .tags .
Se ricevi un messaggio di errore durante l'inizializzazione della funzione .tags , leggi e segui i passaggi per correggere l'errore. In questo caso, ecco come appare.
Se scorri verso il basso alla fine di questo messaggio di errore, vedrai i dati necessari per la funzione che stai tentando di utilizzare.
Una volta trovato il codice che dobbiamo inizializzare per scaricare i dati necessari, basta copiare il codice e quindi aprire Anaconda Prompt utilizzando Windows Search .
Utilizzando Anaconda Prompt , proveremo a correggere l'errore che abbiamo ricevuto durante l'inizializzazione della funzione .tags . Ora incolliamo il codice che abbiamo copiato dal messaggio di errore in precedenza ed eseguiamolo premendo Invio .
Al termine, prova a eseguire nuovamente la funzione .tags e verifica se funziona.
Dopo aver eseguito nuovamente il codice, possiamo vedere che l'errore è stato corretto e abbiamo ricevuto un risultato che contiene ogni parola del nuovo blob di testo insieme ai tag o alle parti del discorso.
Se non hai idea di cosa significhino questi tag , puoi semplicemente visitare il sito Web di textblob per verificare cosa rappresentano questi tag.
Utilizzo della funzione ngrams per l'analisi del testo in Python
Passiamo a un altro esempio, che riguarda l'ottenimento degli ngrams . La funzione ngrams viene utilizzata per cercare parole che si vedono spesso insieme in una frase o in un documento. Ad esempio, iniziamo creando un nuovo blob di testo e memorizzandolo nella variabile blob3 .
Successivamente, utilizziamo la funzione ngrams nella variabile blob3 per controllare alcune combinazioni di parole.
Per impostazione predefinita, se non hai specificato un valore nei parametri, verranno visualizzati trigrammi o combinazioni di 3 parole. Ma se vogliamo vedere combinazioni di 2 parole dalla frase, possiamo impostare 2 nei parametri come nell'esempio qui sotto.
Proviamo questa volta con una frase più lunga. In questo esempio, ho appena copiato un testo più lungo da una recensione di un film. Puoi usare qualsiasi frase tu voglia per questa parte.
Come ultimo esempio, proviamo a utilizzare ngrams ancora una volta con una frase più informativa.
Con tutti questi esempi, possiamo eseguire più analisi del testo in Python in base ai risultati che stiamo ottenendo con la funzione ngrams .
Python II per utenti LuckyTemplates: nuovo corso nella piattaforma on demand
Come caricare set di dati di esempio in Python
utilizzando Python in LuckyTemplates | Set di dati e funzione di stringa
Conclusione
Per riassumere, hai imparato a conoscere le diverse funzioni che puoi utilizzare per eseguire l'analisi del testo in Python.
Queste sono la funzione .tokenize per separare le parole in una frase, la funzione .join per combinare parole tokenizzate, la funzione .tags per controllare le parti del discorso delle parole e la funzione ngrams per visualizzare la combinazione di parole.
Inoltre, hai imparato a correggere errori come quello che abbiamo fatto nella funzione .tags usando Anaconda Prompt . Hai anche imparato come importare, creare un blob di testo e utilizzare questa libreria per eseguire l'analisi del testo in Python .
Ti auguro il meglio,
Gaellim
Cos'è il sé in Python: esempi del mondo reale
Imparerai come salvare e caricare oggetti da un file .rds in R. Questo blog tratterà anche come importare oggetti da R a LuckyTemplates.
In questa esercitazione sul linguaggio di codifica DAX, scopri come usare la funzione GENERATE e come modificare dinamicamente il titolo di una misura.
Questo tutorial illustrerà come utilizzare la tecnica di visualizzazione dinamica multi-thread per creare approfondimenti dalle visualizzazioni di dati dinamici nei report.
In questo articolo, esaminerò il contesto del filtro. Il contesto del filtro è uno degli argomenti principali che qualsiasi utente di LuckyTemplates dovrebbe inizialmente conoscere.
Voglio mostrare come il servizio online di LuckyTemplates Apps può aiutare nella gestione di diversi report e approfondimenti generati da varie fonti.
Scopri come elaborare le modifiche al margine di profitto utilizzando tecniche come la ramificazione delle misure e la combinazione di formule DAX in LuckyTemplates.
Questo tutorial discuterà delle idee di materializzazione delle cache di dati e di come influiscono sulle prestazioni dei DAX nel fornire risultati.
Se finora utilizzi ancora Excel, questo è il momento migliore per iniziare a utilizzare LuckyTemplates per le tue esigenze di reportistica aziendale.
Che cos'è il gateway LuckyTemplates? Tutto quello che devi sapere