Ce este Sinele în Python: Exemple din lumea reală
Ce este Sinele în Python: Exemple din lumea reală
În acest blog, vom discuta despre analiza textului în Python pentru a crea date construite din conținut text. Acest lucru vă va ajuta să analizați cantități mari de date și să consumați mai puțin timp în lucrul la anumite sarcini. De asemenea, veți dobândi cunoștințe despre textblob care se ocupă de sarcinile de procesare a limbajului natural.
Analiza textului este procesul de analiză a textelor prin utilizarea codurilor pentru procesele automate de producere și grupare a datelor text.
Înainte de a continua, poate fi necesar să instalați biblioteca pe care o vom folosi în acest tutorial.
Cuprins
Implementarea analizei textului în Python
Să începem prin a importa textblob . Nu uitați să documentați ceea ce faceți folosind comentarii.
Prin rularea codului de mai sus, acum avem acces la biblioteca textblob . Următorul pas pe care îl vom face este să creăm o propoziție pe care o vom folosi pentru exemplele noastre. Vom face acest lucru prin stocarea unei propoziții într-o variabilă numită propoziție .
Nu uitați să atașați propoziția pe care doriți să o adăugați cu ghilimele duble.
Textblob este o bibliotecă grozavă în care putem crea un blob și putem folosi unele dintre funcțiile sale pentru analiza textului nostru în Python .
În crearea blob-ului, începem prin a crea o variabilă și a-i numi blob . În această variabilă, trebuie să adăugăm TextBlob , care este biblioteca pe care o folosim.
În paranteze, vom folosi variabila propoziție care conține propoziția pe care am creat-o mai devreme. Rețineți că puteți opta pentru introducerea manuală a propoziției în interiorul parantezei pentru această parte.
Pentru a verifica ce face această variabilă blob , o puteți inițializa pur și simplu introducând numele variabilei și apăsând tastele Shift + Enter. Ieșirea ar trebui să fie similară cu exemplul de mai jos.
După cum puteți vedea din rezultat, propoziția pe care am stocat-o în variabila propoziție este acum conținută de TextBlob .
Tokenizarea datelor text în Python
Dacă doriți să eliminați unele cuvinte dintr-o propoziție, putem separa fiecare dintre aceste cuvinte în părți individuale într-o listă. Cu această propoziție dată, ceea ce vom face este să le tokenizăm sau să separăm fiecare cuvânt și să-l punem într-o listă.
Pentru a face acest lucru, vom folosi variabila blob și vom folosi funcția tokenize . Apoi îl vom stoca într-o variabilă numită cuvinte .
Să inițializam variabila cuvinte în același mod în care am făcut-o la inițializarea variabilei blob pentru a vedea ce este în lista tokenizată .
După cum puteți vedea, fiecare dintre cuvinte și chiar semnele de punctuație sunt acum separate într-o listă. Acesta este modul în care funcționează funcția tokenize .
Acum că avem o listă de cuvinte, putem executa o altă funcție din ea. Să creăm o altă listă de cuvinte pe care nu dorim să fie incluse în lista noastră, cum ar fi semnele de punctuație și articolele. Pentru a efectua acest pas, consultați captura de ecran de mai jos.
La crearea listei de cuvinte oprite, am folosit paranteze pentru a include lista de cuvinte oprite. Apoi fiecare dintre cuvintele oprite este închis cu ghilimele simple și fiecare este separat prin virgulă. Am stocat lista în variabila stop_words .
De aici, vom efectua o listă de înțelegere pentru a elimina cuvintele care sunt necesare pentru efectuarea analizei textului în Python . Aceasta include curățarea propozițiilor, tokenizarea și compararea diferitelor liste. Acum vom compara aceste două liste și vom crea o nouă listă de clean_tokens .
În codul prezentat mai sus, am folosit un substituent care este w pentru a reprezenta un element . Ceea ce încercăm să facem în această parte este să obținem elementul în variabila cuvinte dacă elementul nu există în variabila stop_words . Dacă vom inițializa clean_tokens , acesta va fi rezultatul.
În acest proces, putem să ne curățăm jetoanele prin introducerea unui proces de eliminare a jetoanelor inutile, cum ar fi semnele de punctuație și articolele. Din acest motiv, avem doar cuvintele esențiale rămase pe lista noastră.
Unirea jetoanelor pentru a forma o propoziție în Python
Acum că am separat jetoanele curate , să încercăm să le punem într-o singură propoziție. Pentru a face asta, trebuie să folosim funcția .join . Verificați exemplul de mai jos pentru referință.
În exemplul de mai sus, am creat o variabilă numită clean_sentence pentru a păstra jetoanele noastre curate care vor fi combinate într-o propoziție. De asemenea, puteți observa că am adăugat un spațiu închis de ghilimele duble și funcția .join . În cadrul parametrilor, am inclus variabila clean_tokens .
Aceasta va fi rezultatul dacă inițializam variabila clean_sentence .
În mod remarcabil, propoziția nu arată corect, deoarece am eliminat articolele și semnele de punctuație mai devreme.
După crearea clean_sentence , să încercăm să creăm un nou textblob care să conțină clean_sentence pe care tocmai l-am creat. Apoi îl vom stoca într-o nouă variabilă clean_blob .
Disecarea unui textblob pentru părți de vorbire folosind funcția .tags
Din acest blob de analiză, putem folosi bucățile acestui blob pentru a verifica părțile de vorbire sau pentru a face și mai multe modificări. Să încercăm să verificăm părțile de vorbire ale fiecărui cuvânt din noul nostru textblob .
Pentru a verifica părțile de vorbire dintr-un textblob, ar trebui să utilizați funcția .tags . Am făcut acest lucru utilizând variabila noastră clean_blob , apoi am adăugat funcția .tags imediat după.
Dacă primiți vreodată un mesaj de eroare la inițializarea funcției .tags , citiți și urmați pașii pentru a remedia eroarea. În acest caz, așa arată.
Dacă derulați în jos la sfârșitul acestui mesaj de eroare, veți vedea datele necesare de care aveți nevoie pentru funcția pe care încercați să o utilizați.
Odată ce găsim codul pe care trebuie să-l inițializam pentru a descărca datele necesare, doar copiați codul și apoi deschideți Anaconda Prompt folosind Căutare Windows .
Folosind Anaconda Prompt , vom încerca să remediem eroarea pe care am primit-o la inițializarea funcției .tags . Acum lipim codul pe care l-am copiat din mesajul de eroare anterior și îl vom rula apăsând Enter .
După ce ați terminat, încercați să rulați din nou funcția .tags și vedeți dacă funcționează.
La rularea codului din nou, putem vedea că eroarea este remediată și am primit un rezultat care conține fiecare cuvânt din noul textblob împreună cu etichetele sau părțile de vorbire.
Dacă nu aveți idee ce înseamnă aceste etichete , puteți accesa pur și simplu site-ul textblob pentru a verifica ce reprezintă aceste etichete.
Utilizarea funcției ngrams pentru analiza textului în Python
Să trecem la un alt exemplu, care este despre obținerea ngramelor . Funcția ngrams este folosită pentru a căuta cuvinte care sunt frecvent văzute împreună într-o propoziție sau document. De exemplu, să începem prin a crea un nou textblob și să-l stocăm în variabila blob3 .
După aceea, să folosim funcția ngrams din variabila blob3 pentru a verifica unele combinații de cuvinte.
În mod implicit, dacă nu ați specificat o valoare în parametri, va afișa trigrame sau combinații de 3 cuvinte. Dar dacă vrem să vedem combinații de 2 cuvinte din propoziție, putem seta 2 în parametri ca în exemplul de mai jos.
Să încercăm de data aceasta cu o propoziție mai lungă. În acest exemplu, tocmai am copiat un text mai lung dintr-o recenzie de film. Puteți folosi orice propoziție doriți pentru această parte.
Ca exemplu final, să încercăm să mai folosim ngrams o dată cu o propoziție mai informativă.
Cu toate aceste exemple, putem efectua mai multe analize de text în Python pe baza rezultatelor pe care le obținem cu funcția ngrams .
Python II pentru utilizatorii LuckyTemplates – Curs nou în platforma la cerere
Cum se încarcă seturi de date eșantion în Python
folosind Python în LuckyTemplates | Set de date și funcție șir
Concluzie
Pentru a rezuma, ați învățat despre diferitele funcții pe care le puteți utiliza pentru efectuarea analizei textului în Python.
Acestea sunt funcția .tokenize pentru separarea cuvintelor într-o propoziție, funcția .join pentru combinarea cuvintelor tokenizate, funcția .tags pentru verificarea părților de vorbire ale cuvintelor și funcția ngrams pentru vizualizarea combinației de cuvinte.
În plus, ați învățat cum să remediați erori precum ceea ce am făcut în funcția .tags folosind Anaconda Prompt . De asemenea, ați învățat cum să importați, să creați un textblob și să utilizați această bibliotecă pentru a efectua analize de text în Python .
Toate cele bune,
Gaellim
Ce este Sinele în Python: Exemple din lumea reală
Veți învăța cum să salvați și să încărcați obiecte dintr-un fișier .rds în R. Acest blog va trata, de asemenea, cum să importați obiecte din R în LuckyTemplates.
În acest tutorial despre limbajul de codare DAX, aflați cum să utilizați funcția GENERATE și cum să schimbați în mod dinamic titlul unei măsuri.
Acest tutorial va acoperi cum să utilizați tehnica Multi Threaded Dynamic Visuals pentru a crea informații din vizualizările dinamice de date din rapoartele dvs.
În acest articol, voi trece prin contextul filtrului. Contextul de filtrare este unul dintre subiectele majore despre care orice utilizator LuckyTemplates ar trebui să învețe inițial.
Vreau să arăt cum serviciul online LuckyTemplates Apps poate ajuta la gestionarea diferitelor rapoarte și informații generate din diverse surse.
Aflați cum să vă calculați modificările marjei de profit folosind tehnici precum măsurarea ramificării și combinarea formulelor DAX în LuckyTemplates.
Acest tutorial va discuta despre ideile de materializare a cache-urilor de date și despre modul în care acestea afectează performanța DAX-ului în furnizarea de rezultate.
Dacă încă utilizați Excel până acum, atunci acesta este cel mai bun moment pentru a începe să utilizați LuckyTemplates pentru nevoile dvs. de raportare a afacerii.
Ce este LuckyTemplates Gateway? Tot ce trebuie să știți