Analiza textului în Python | O introducere

În acest blog, vom discuta despre analiza textului în Python pentru a crea date construite din conținut text. Acest lucru vă va ajuta să analizați cantități mari de date și să consumați mai puțin timp în lucrul la anumite sarcini. De asemenea, veți dobândi cunoștințe despre textblob care se ocupă de sarcinile de procesare a limbajului natural.

Analiza textului este procesul de analiză a textelor prin utilizarea codurilor pentru procesele automate de producere și grupare a datelor text.

Înainte de a continua, poate fi necesar să instalați biblioteca pe care o vom folosi în acest tutorial.

Cuprins

Implementarea analizei textului în Python
Tokenizarea datelor text în Python
Unirea jetoanelor pentru a forma o propoziție în Python
- Disecarea unui textblob pentru părți de vorbire folosind funcția .tags
- Utilizarea funcției ngrams pentru analiza textului în Python
Concluzie

Implementarea analizei textului în Python

Să începem prin a importa textblob . Nu uitați să documentați ceea ce faceți folosind comentarii.

Analiza textului în Python | O introducere

Prin rularea codului de mai sus, acum avem acces la biblioteca textblob . Următorul pas pe care îl vom face este să creăm o propoziție pe care o vom folosi pentru exemplele noastre. Vom face acest lucru prin stocarea unei propoziții într-o variabilă numită propoziție .

Nu uitați să atașați propoziția pe care doriți să o adăugați cu ghilimele duble.

Analiza textului în Python | O introducere

Textblob este o bibliotecă grozavă în care putem crea un blob și putem folosi unele dintre funcțiile sale pentru analiza textului nostru în Python .

Analiza textului în Python | O introducere

În crearea blob-ului, începem prin a crea o variabilă și a-i numi blob . În această variabilă, trebuie să adăugăm TextBlob , care este biblioteca pe care o folosim.

În paranteze, vom folosi variabila propoziție care conține propoziția pe care am creat-o mai devreme. Rețineți că puteți opta pentru introducerea manuală a propoziției în interiorul parantezei pentru această parte.

Pentru a verifica ce face această variabilă blob , o puteți inițializa pur și simplu introducând numele variabilei și apăsând tastele Shift + Enter. Ieșirea ar trebui să fie similară cu exemplul de mai jos.

Analiza textului în Python | O introducere

După cum puteți vedea din rezultat, propoziția pe care am stocat-o în variabila propoziție este acum conținută de TextBlob .

Tokenizarea datelor text în Python

Dacă doriți să eliminați unele cuvinte dintr-o propoziție, putem separa fiecare dintre aceste cuvinte în părți individuale într-o listă. Cu această propoziție dată, ceea ce vom face este să le tokenizăm sau să separăm fiecare cuvânt și să-l punem într-o listă.

Pentru a face acest lucru, vom folosi variabila blob și vom folosi funcția tokenize . Apoi îl vom stoca într-o variabilă numită cuvinte .

Analiza textului în Python | O introducere

Să inițializam variabila cuvinte în același mod în care am făcut-o la inițializarea variabilei blob pentru a vedea ce este în lista tokenizată .

Analiza textului în Python | O introducere

După cum puteți vedea, fiecare dintre cuvinte și chiar semnele de punctuație sunt acum separate într-o listă. Acesta este modul în care funcționează funcția tokenize .

Acum că avem o listă de cuvinte, putem executa o altă funcție din ea. Să creăm o altă listă de cuvinte pe care nu dorim să fie incluse în lista noastră, cum ar fi semnele de punctuație și articolele. Pentru a efectua acest pas, consultați captura de ecran de mai jos.

Analiza textului în Python | O introducere

La crearea listei de cuvinte oprite, am folosit paranteze pentru a include lista de cuvinte oprite. Apoi fiecare dintre cuvintele oprite este închis cu ghilimele simple și fiecare este separat prin virgulă. Am stocat lista în variabila stop_words .

De aici, vom efectua o listă de înțelegere pentru a elimina cuvintele care sunt necesare pentru efectuarea analizei textului în Python . Aceasta include curățarea propozițiilor, tokenizarea și compararea diferitelor liste. Acum vom compara aceste două liste și vom crea o nouă listă de clean_tokens .

Analiza textului în Python | O introducere

În codul prezentat mai sus, am folosit un substituent care este w pentru a reprezenta un element . Ceea ce încercăm să facem în această parte este să obținem elementul în variabila cuvinte dacă elementul nu există în variabila stop_words . Dacă vom inițializa clean_tokens , acesta va fi rezultatul.

Analiza textului în Python | O introducere

În acest proces, putem să ne curățăm jetoanele prin introducerea unui proces de eliminare a jetoanelor inutile, cum ar fi semnele de punctuație și articolele. Din acest motiv, avem doar cuvintele esențiale rămase pe lista noastră.

Unirea jetoanelor pentru a forma o propoziție în Python

Acum că am separat jetoanele curate , să încercăm să le punem într-o singură propoziție. Pentru a face asta, trebuie să folosim funcția .join . Verificați exemplul de mai jos pentru referință.

Analiza textului în Python | O introducere

În exemplul de mai sus, am creat o variabilă numită clean_sentence pentru a păstra jetoanele noastre curate care vor fi combinate într-o propoziție. De asemenea, puteți observa că am adăugat un spațiu închis de ghilimele duble și funcția .join . În cadrul parametrilor, am inclus variabila clean_tokens .

Aceasta va fi rezultatul dacă inițializam variabila clean_sentence .

Analiza textului în Python | O introducere

În mod remarcabil, propoziția nu arată corect, deoarece am eliminat articolele și semnele de punctuație mai devreme.

După crearea clean_sentence , să încercăm să creăm un nou textblob care să conțină clean_sentence pe care tocmai l-am creat. Apoi îl vom stoca într-o nouă variabilă clean_blob .

Analiza textului în Python | O introducere

Disecarea unui textblob pentru părți de vorbire folosind funcția .tags

Din acest blob de analiză, putem folosi bucățile acestui blob pentru a verifica părțile de vorbire sau pentru a face și mai multe modificări. Să încercăm să verificăm părțile de vorbire ale fiecărui cuvânt din noul nostru textblob .

Analiza textului în Python | O introducere

Pentru a verifica părțile de vorbire dintr-un textblob, ar trebui să utilizați funcția .tags . Am făcut acest lucru utilizând variabila noastră clean_blob , apoi am adăugat funcția .tags imediat după.

Dacă primiți vreodată un mesaj de eroare la inițializarea funcției .tags , citiți și urmați pașii pentru a remedia eroarea. În acest caz, așa arată.

Analiza textului în Python | O introducere

Dacă derulați în jos la sfârșitul acestui mesaj de eroare, veți vedea datele necesare de care aveți nevoie pentru funcția pe care încercați să o utilizați.

Analiza textului în Python | O introducere

Odată ce găsim codul pe care trebuie să-l inițializam pentru a descărca datele necesare, doar copiați codul și apoi deschideți Anaconda Prompt folosind Căutare Windows .

Analiza textului în Python | O introducere

Folosind Anaconda Prompt , vom încerca să remediem eroarea pe care am primit-o la inițializarea funcției .tags . Acum lipim codul pe care l-am copiat din mesajul de eroare anterior și îl vom rula apăsând Enter .

Analiza textului în Python | O introducere

După ce ați terminat, încercați să rulați din nou funcția .tags și vedeți dacă funcționează.

Analiza textului în Python | O introducere

La rularea codului din nou, putem vedea că eroarea este remediată și am primit un rezultat care conține fiecare cuvânt din noul textblob împreună cu etichetele sau părțile de vorbire.

Dacă nu aveți idee ce înseamnă aceste etichete , puteți accesa pur și simplu site-ul textblob pentru a verifica ce reprezintă aceste etichete.

Utilizarea funcției ngrams pentru analiza textului în Python

Să trecem la un alt exemplu, care este despre obținerea ngramelor . Funcția ngrams este folosită pentru a căuta cuvinte care sunt frecvent văzute împreună într-o propoziție sau document. De exemplu, să începem prin a crea un nou textblob și să-l stocăm în variabila blob3 .

Analiza textului în Python | O introducere

După aceea, să folosim funcția ngrams din variabila blob3 pentru a verifica unele combinații de cuvinte.

Analiza textului în Python | O introducere

În mod implicit, dacă nu ați specificat o valoare în parametri, va afișa trigrame sau combinații de 3 cuvinte. Dar dacă vrem să vedem combinații de 2 cuvinte din propoziție, putem seta 2 în parametri ca în exemplul de mai jos.

Analiza textului în Python | O introducere

Să încercăm de data aceasta cu o propoziție mai lungă. În acest exemplu, tocmai am copiat un text mai lung dintr-o recenzie de film. Puteți folosi orice propoziție doriți pentru această parte.

Analiza textului în Python | O introducere

Ca exemplu final, să încercăm să mai folosim ngrams o dată cu o propoziție mai informativă.

Analiza textului în Python | O introducere

Cu toate aceste exemple, putem efectua mai multe analize de text în Python pe baza rezultatelor pe care le obținem cu funcția ngrams .

Python II pentru utilizatorii LuckyTemplates – Curs nou în platforma la cerere
Cum se încarcă seturi de date eșantion în Python
folosind Python în LuckyTemplates | Set de date și funcție șir

Concluzie

Pentru a rezuma, ați învățat despre diferitele funcții pe care le puteți utiliza pentru efectuarea analizei textului în Python.

Acestea sunt funcția .tokenize pentru separarea cuvintelor într-o propoziție, funcția .join pentru combinarea cuvintelor tokenizate, funcția .tags pentru verificarea părților de vorbire ale cuvintelor și funcția ngrams pentru vizualizarea combinației de cuvinte.

În plus, ați învățat cum să remediați erori precum ceea ce am făcut în funcția .tags folosind Anaconda Prompt . De asemenea, ați învățat cum să importați, să creați un textblob și să utilizați această bibliotecă pentru a efectua analize de text în Python .

Toate cele bune,

Gaellim

Lasă un comentariu

Ce este Sinele în Python: Exemple din lumea reală

Ce este Sinele în Python: Exemple din lumea reală

Ce este Sinele în Python: Exemple din lumea reală

Cum să salvați și să încărcați un fișier RDS în R

Cum să salvați și să încărcați un fișier RDS în R

Veți învăța cum să salvați și să încărcați obiecte dintr-un fișier .rds în R. Acest blog va trata, de asemenea, cum să importați obiecte din R în LuckyTemplates.

Primele N zile lucrătoare revizuite – O soluție de limbaj de codare DAX

Primele N zile lucrătoare revizuite – O soluție de limbaj de codare DAX

În acest tutorial despre limbajul de codare DAX, aflați cum să utilizați funcția GENERATE și cum să schimbați în mod dinamic titlul unei măsuri.

Prezentați perspective utilizând tehnica vizuală dinamică cu mai multe fire în LuckyTemplates

Prezentați perspective utilizând tehnica vizuală dinamică cu mai multe fire în LuckyTemplates

Acest tutorial va acoperi cum să utilizați tehnica Multi Threaded Dynamic Visuals pentru a crea informații din vizualizările dinamice de date din rapoartele dvs.

Cele mai bune sfaturi pentru utilizarea aplicațiilor din serviciul online LuckyTemplates

Cele mai bune sfaturi pentru utilizarea aplicațiilor din serviciul online LuckyTemplates

Vreau să arăt cum serviciul online LuckyTemplates Apps poate ajuta la gestionarea diferitelor rapoarte și informații generate din diverse surse.

Introducere la filtrarea contextului în LuckyTemplates

Introducere la filtrarea contextului în LuckyTemplates

În acest articol, voi trece prin contextul filtrului. Contextul de filtrare este unul dintre subiectele majore despre care orice utilizator LuckyTemplates ar trebui să învețe inițial.

Analizați modificările marjei de profit ore suplimentare – Analytics cu LuckyTemplates și DAX

Analizați modificările marjei de profit ore suplimentare – Analytics cu LuckyTemplates și DAX

Aflați cum să vă calculați modificările marjei de profit folosind tehnici precum măsurarea ramificării și combinarea formulelor DAX în LuckyTemplates.

Idei de materializare pentru cache-urile de date în DAX Studio

Idei de materializare pentru cache-urile de date în DAX Studio

Acest tutorial va discuta despre ideile de materializare a cache-urilor de date și despre modul în care acestea afectează performanța DAX-ului în furnizarea de rezultate.

Raportare de afaceri folosind LuckyTemplates

Raportare de afaceri folosind LuckyTemplates

Dacă încă utilizați Excel până acum, atunci acesta este cel mai bun moment pentru a începe să utilizați LuckyTemplates pentru nevoile dvs. de raportare a afacerii.

Ce este LuckyTemplates Gateway? Tot ce trebuie să știți

Ce este LuckyTemplates Gateway? Tot ce trebuie să știți

Ce este LuckyTemplates Gateway? Tot ce trebuie să știți