Analiza textului folosind Python: Cum să identifici părțile de vorbire

În acest blog, vă vom arăta cum să faceți o analiză de text folosind Python pentru a identifica părți de vorbire în datele text din LuckyTemplates. Vom acoperi pașii pentru utilizarea Python pentru analiza textului și vom oferi exemple și sfaturi pentru a vă ajuta să începeți cu propriile proiecte de analiză de text. Puteți viziona videoclipul complet al acestui tutorial în partea de jos a acestui blog.

Cuprins

Date sursă
Analiza textului folosind Python
Remedierea codului pentru analiza textului în Python
Concluzie

Date sursă

În acest tutorial, vom folosi un nor de cuvinte ieșit din cutie care conține textele pe care le vom evalua. Acest lucru este afișat în partea stângă a imaginii de mai jos. În partea dreaptă, avem filtrele pentru a identifica diferitele părți ale discursului, de exemplu, adjective sau verbe.

Analiza textului folosind Python: Cum să identifici părțile de vorbire

Putem filtra cuvintele care sunt adverbe, substantive, diferite tipuri de substantive sau verbe și baze de verbe. Acest lucru este foarte util atunci când creați o campanie de marketing și căutați cuvinte în recenziile clienților dvs.

Să începem prin a deschide editorul nostru Power Query .

În datele noastre sursă, avem coloane pentru ID-uri, vârstă, titlu și textul recenziei. Ne vom concentra pe coloana Review Text și o vom analiza pentru a ne analiza textul. Există și alte categorii care pot fi utile în analiza noastră.

Analiza textului folosind Python: Cum să identifici părțile de vorbire

Analiza textului folosind Python

Să începem cu datele obișnuite pe care le-am adus. Primul lucru pe care îl vom face este să filtram rândurile pentru că avem o mulțime de date, iar când facem analiză de text, este nevoie de timp.

Pentru a filtra datele noastre, luați primele 50 de rânduri pentru a face analiza textului puțin mai rapidă.

Analiza textului folosind Python: Cum să identifici părțile de vorbire

Odată filtrat, accesați Transformați și rulați scriptul Python . Vom codifica totul aici pentru că nu există mult cod.

Analiza textului folosind Python: Cum să identifici părțile de vorbire

Importul pachetelor

Să aducem două pachete pentru analiza textului Python folosind editorul nostru de script Python . Vom „importa panda ca pd” , biblioteca noastră de manipulare a datelor care va fi salvată ca variabilă pd. Și apoi „ din text blob ” , vom „ import TextBlob” cu o majusculă între cuvinte.

Putem documenta oricând ceea ce facem punând un șir de document. Să scriem #bring in bibliotecile esențiale deasupra pachetelor noastre.

Analiza textului folosind Python: Cum să identifici părțile de vorbire

Redenumirea variabilei

În prima linie a scriptului nostru, există această linie furnizată de LuckyTemplates care spune că # „set de date” deține datele de intrare pentru acest script. Această linie spune că datele noastre se numesc un set de date.

Deci, să schimbăm asta pentru că durează prea mult să scrieți „set de date”. Tastați #change the dataset variable și df = dataset în rândul următor.

Analiza textului folosind Python: Cum să identifici părțile de vorbire

Acum este mai scurt să scriem variabila noastră.

Efectuarea analizei textului

Să continuăm cu analiza textului nostru. Amintiți-vă că textele noastre de recenzie sunt într-o coloană cu celule individuale. Această configurație nu ne este cu adevărat utilă, deoarece vrem toate textele împreună, astfel încât să putem face o analiză asupra ei.

Cu toate acestea, nu dorim ca acestea să fie alăturate fără spațiu, așa că haideți să începem codul nostru cu un spațiu în interiorul unui ghilimele duble .

Apoi să adăugăm .join și să izolăm coloana noastră de text de recenzie folosind variabila noastră df , care deține setul de date. Tastați „Textul de revizuire” plasat într-o notație pentru paranteze care izolează coloana.

Acest cod va alătura totul, dar trebuie să-l salvăm, așa că haideți să creăm o variabilă numită cuvinte.

Analiza textului folosind Python: Cum să identifici părțile de vorbire

Odată ce avem toate cuvintele împreună, putem folosi blob-ul nostru de text pentru a începe să analizăm cuvintele.

Primul lucru de făcut este să ne creăm părțile de vorbire folosind variabila blob de care avem nevoie să transmitem cuvintele unui blob de text. Vom folosi acel blob de text și vom introduce textul, care sunt cuvintele noastre . Acesta este tastat ca blob = TextBlob(words).

Acum că avem acel blob, îl vom lua apoi și vom crea variabila noastră parts_of_speech folosind blob.tags . Etichetele vor fi abrevierile pentru fiecare dintre părțile de vorbire.

Ceea ce vom face în continuare este să salvăm acest lucru ca un cadru de date folosind Pandas pe care l-am introdus. Să-i numim datele noastre , care sunt egale cu pd.DataFrame și aducem părțile_de_vorbirii noastre .

Analiza textului folosind Python: Cum să identifici părțile de vorbire

Să facem clic pe OK pentru a rula codul nostru. După rularea codului nostru, ar trebui să obținem un tabel cu variabilele noastre. Avem setul de date sau datele noastre originale. Avem și datele noastre și df .

Analiza textului folosind Python: Cum să identifici părțile de vorbire

Dacă nu ați obținut rezultatele dorite, vă vom arăta diferitele modalități de a evita unele erori pe care le puteți obține în cod.

Remedierea codului pentru analiza textului în Python

Uneori, poate fi necesar să fim foarte expliciți în schimbarea formatului textului care ne preocupă.

Putem face asta apelând variabila noastră df , izolând „Textul de revizuire ” plasat într-o notație de paranteză și apoi schimbând tipul în șiruri folosind .astype('str') . Apoi re-salvați acest lucru în variabila df .

Analiza textului folosind Python: Cum să identifici părțile de vorbire

Faceți clic pe OK pentru a rula din nou codul. Ar trebui să obținem aceleași rezultate ca și mai devreme.

Acum, vrem să ne deschidem datele , ultima variabilă pe care am introdus-o pentru a vedea cum arată.

Analiza textului folosind Python: Cum să identifici părțile de vorbire

Ar trebui să avem toate cuvintele noastre rupte în părți de vorbire. Încă nu ne-am numit coloanele, dar putem face asta cu ușurință.

Analiza textului folosind Python: Cum să identifici părțile de vorbire

În versiunea veche a aceleiași analize de text, am numit prima coloană Word și a doua abreviere .

Analiza textului folosind Python: Cum să identifici părțile de vorbire

În interogarea Părți de vorbire , introducem cuvintele reale care sunt pentru aceste abrevieri și le conectăm pe toate împreună.

Analiza textului folosind Python: Cum să identifici părțile de vorbire

Acum, să închidem și să aplicăm .

Analiza textului folosind Python: Cum să identifici părțile de vorbire

Pașii pe care i-am făcut ne permit să filtram prin diferitele părți de vorbire pe care le-am identificat folosind un cod Python simplu. Ne oferă această imagine vizuală în LuckyTemplates, unde ne putem filtra cu ușurință textul în funcție de categoriile de părți ale vorbirii în care se încadrează.

Analiza textului folosind Python: Cum să identifici părțile de vorbire

Analiza textului în Python | O introducere
Python Funcții definite de utilizator | O prezentare generală
a listei Python și a buclei For în LuckyTemplates

Concluzie

În calitate de analist de date , este posibil să întâmpinați nevoia de a extrage informații și semnificații din cantități mari de date text nestructurate. Ceea ce ați învățat este o abordare utilă pentru înțelegerea datelor text prin analiza textului.

Acum, puteți împărți cu ușurință textul în unități mai mici, cum ar fi cuvinte și propoziții, apoi analizați aceste unități pentru modele și relații. Puteți îndeplini toate aceste obiective folosind analiza textului în Python și LuckyTemplates.

Toate cele bune,

Lasă un comentariu

Ce este Sinele în Python: Exemple din lumea reală

Cum să salvați și să încărcați un fișier RDS în R

Veți învăța cum să salvați și să încărcați obiecte dintr-un fișier .rds în R. Acest blog va trata, de asemenea, cum să importați obiecte din R în LuckyTemplates.

Primele N zile lucrătoare revizuite – O soluție de limbaj de codare DAX

În acest tutorial despre limbajul de codare DAX, aflați cum să utilizați funcția GENERATE și cum să schimbați în mod dinamic titlul unei măsuri.

Prezentați perspective utilizând tehnica vizuală dinamică cu mai multe fire în LuckyTemplates

Acest tutorial va acoperi cum să utilizați tehnica Multi Threaded Dynamic Visuals pentru a crea informații din vizualizările dinamice de date din rapoartele dvs.

Cele mai bune sfaturi pentru utilizarea aplicațiilor din serviciul online LuckyTemplates

Vreau să arăt cum serviciul online LuckyTemplates Apps poate ajuta la gestionarea diferitelor rapoarte și informații generate din diverse surse.

Introducere la filtrarea contextului în LuckyTemplates

În acest articol, voi trece prin contextul filtrului. Contextul de filtrare este unul dintre subiectele majore despre care orice utilizator LuckyTemplates ar trebui să învețe inițial.

Analizați modificările marjei de profit ore suplimentare – Analytics cu LuckyTemplates și DAX

Aflați cum să vă calculați modificările marjei de profit folosind tehnici precum măsurarea ramificării și combinarea formulelor DAX în LuckyTemplates.

Idei de materializare pentru cache-urile de date în DAX Studio

Acest tutorial va discuta despre ideile de materializare a cache-urilor de date și despre modul în care acestea afectează performanța DAX-ului în furnizarea de rezultate.

Raportare de afaceri folosind LuckyTemplates

Dacă încă utilizați Excel până acum, atunci acesta este cel mai bun moment pentru a începe să utilizați LuckyTemplates pentru nevoile dvs. de raportare a afacerii.

Ce este LuckyTemplates Gateway? Tot ce trebuie să știți