Ce este Sinele în Python: Exemple din lumea reală
Ce este Sinele în Python: Exemple din lumea reală
În acest blog, vă vom arăta cum să faceți o analiză de text folosind Python pentru a identifica părți de vorbire în datele text din LuckyTemplates. Vom acoperi pașii pentru utilizarea Python pentru analiza textului și vom oferi exemple și sfaturi pentru a vă ajuta să începeți cu propriile proiecte de analiză de text. Puteți viziona videoclipul complet al acestui tutorial în partea de jos a acestui blog.
Cuprins
Date sursă
În acest tutorial, vom folosi un nor de cuvinte ieșit din cutie care conține textele pe care le vom evalua. Acest lucru este afișat în partea stângă a imaginii de mai jos. În partea dreaptă, avem filtrele pentru a identifica diferitele părți ale discursului, de exemplu, adjective sau verbe.
Putem filtra cuvintele care sunt adverbe, substantive, diferite tipuri de substantive sau verbe și baze de verbe. Acest lucru este foarte util atunci când creați o campanie de marketing și căutați cuvinte în recenziile clienților dvs.
Să începem prin a deschide editorul nostru Power Query .
În datele noastre sursă, avem coloane pentru ID-uri, vârstă, titlu și textul recenziei. Ne vom concentra pe coloana Review Text și o vom analiza pentru a ne analiza textul. Există și alte categorii care pot fi utile în analiza noastră.
Analiza textului folosind Python
Să începem cu datele obișnuite pe care le-am adus. Primul lucru pe care îl vom face este să filtram rândurile pentru că avem o mulțime de date, iar când facem analiză de text, este nevoie de timp.
Pentru a filtra datele noastre, luați primele 50 de rânduri pentru a face analiza textului puțin mai rapidă.
Odată filtrat, accesați Transformați și rulați scriptul Python . Vom codifica totul aici pentru că nu există mult cod.
Importul pachetelor
Să aducem două pachete pentru analiza textului Python folosind editorul nostru de script Python . Vom „importa panda ca pd” , biblioteca noastră de manipulare a datelor care va fi salvată ca variabilă pd. Și apoi „ din text blob ” , vom „ import TextBlob” cu o majusculă între cuvinte.
Putem documenta oricând ceea ce facem punând un șir de document. Să scriem #bring in bibliotecile esențiale deasupra pachetelor noastre.
Redenumirea variabilei
În prima linie a scriptului nostru, există această linie furnizată de LuckyTemplates care spune că # „set de date” deține datele de intrare pentru acest script. Această linie spune că datele noastre se numesc un set de date.
Deci, să schimbăm asta pentru că durează prea mult să scrieți „set de date”. Tastați #change the dataset variable și df = dataset în rândul următor.
Acum este mai scurt să scriem variabila noastră.
Efectuarea analizei textului
Să continuăm cu analiza textului nostru. Amintiți-vă că textele noastre de recenzie sunt într-o coloană cu celule individuale. Această configurație nu ne este cu adevărat utilă, deoarece vrem toate textele împreună, astfel încât să putem face o analiză asupra ei.
Cu toate acestea, nu dorim ca acestea să fie alăturate fără spațiu, așa că haideți să începem codul nostru cu un spațiu în interiorul unui ghilimele duble .
Apoi să adăugăm .join și să izolăm coloana noastră de text de recenzie folosind variabila noastră df , care deține setul de date. Tastați „Textul de revizuire” plasat într-o notație pentru paranteze care izolează coloana.
Acest cod va alătura totul, dar trebuie să-l salvăm, așa că haideți să creăm o variabilă numită cuvinte.
Odată ce avem toate cuvintele împreună, putem folosi blob-ul nostru de text pentru a începe să analizăm cuvintele.
Primul lucru de făcut este să ne creăm părțile de vorbire folosind variabila blob de care avem nevoie să transmitem cuvintele unui blob de text. Vom folosi acel blob de text și vom introduce textul, care sunt cuvintele noastre . Acesta este tastat ca blob = TextBlob(words).
Acum că avem acel blob, îl vom lua apoi și vom crea variabila noastră parts_of_speech folosind blob.tags . Etichetele vor fi abrevierile pentru fiecare dintre părțile de vorbire.
Ceea ce vom face în continuare este să salvăm acest lucru ca un cadru de date folosind Pandas pe care l-am introdus. Să-i numim datele noastre , care sunt egale cu pd.DataFrame și aducem părțile_de_vorbirii noastre .
Să facem clic pe OK pentru a rula codul nostru. După rularea codului nostru, ar trebui să obținem un tabel cu variabilele noastre. Avem setul de date sau datele noastre originale. Avem și datele noastre și df .
Dacă nu ați obținut rezultatele dorite, vă vom arăta diferitele modalități de a evita unele erori pe care le puteți obține în cod.
Remedierea codului pentru analiza textului în Python
Uneori, poate fi necesar să fim foarte expliciți în schimbarea formatului textului care ne preocupă.
Putem face asta apelând variabila noastră df , izolând „Textul de revizuire ” plasat într-o notație de paranteză și apoi schimbând tipul în șiruri folosind .astype('str') . Apoi re-salvați acest lucru în variabila df .
Faceți clic pe OK pentru a rula din nou codul. Ar trebui să obținem aceleași rezultate ca și mai devreme.
Acum, vrem să ne deschidem datele , ultima variabilă pe care am introdus-o pentru a vedea cum arată.
Ar trebui să avem toate cuvintele noastre rupte în părți de vorbire. Încă nu ne-am numit coloanele, dar putem face asta cu ușurință.
În versiunea veche a aceleiași analize de text, am numit prima coloană Word și a doua abreviere .
În interogarea Părți de vorbire , introducem cuvintele reale care sunt pentru aceste abrevieri și le conectăm pe toate împreună.
Acum, să închidem și să aplicăm .
Pașii pe care i-am făcut ne permit să filtram prin diferitele părți de vorbire pe care le-am identificat folosind un cod Python simplu. Ne oferă această imagine vizuală în LuckyTemplates, unde ne putem filtra cu ușurință textul în funcție de categoriile de părți ale vorbirii în care se încadrează.
Analiza textului în Python | O introducere
Python Funcții definite de utilizator | O prezentare generală
a listei Python și a buclei For în LuckyTemplates
Concluzie
În calitate de analist de date , este posibil să întâmpinați nevoia de a extrage informații și semnificații din cantități mari de date text nestructurate. Ceea ce ați învățat este o abordare utilă pentru înțelegerea datelor text prin analiza textului.
Acum, puteți împărți cu ușurință textul în unități mai mici, cum ar fi cuvinte și propoziții, apoi analizați aceste unități pentru modele și relații. Puteți îndeplini toate aceste obiective folosind analiza textului în Python și LuckyTemplates.
Toate cele bune,
Ce este Sinele în Python: Exemple din lumea reală
Veți învăța cum să salvați și să încărcați obiecte dintr-un fișier .rds în R. Acest blog va trata, de asemenea, cum să importați obiecte din R în LuckyTemplates.
În acest tutorial despre limbajul de codare DAX, aflați cum să utilizați funcția GENERATE și cum să schimbați în mod dinamic titlul unei măsuri.
Acest tutorial va acoperi cum să utilizați tehnica Multi Threaded Dynamic Visuals pentru a crea informații din vizualizările dinamice de date din rapoartele dvs.
În acest articol, voi trece prin contextul filtrului. Contextul de filtrare este unul dintre subiectele majore despre care orice utilizator LuckyTemplates ar trebui să învețe inițial.
Vreau să arăt cum serviciul online LuckyTemplates Apps poate ajuta la gestionarea diferitelor rapoarte și informații generate din diverse surse.
Aflați cum să vă calculați modificările marjei de profit folosind tehnici precum măsurarea ramificării și combinarea formulelor DAX în LuckyTemplates.
Acest tutorial va discuta despre ideile de materializare a cache-urilor de date și despre modul în care acestea afectează performanța DAX-ului în furnizarea de rezultate.
Dacă încă utilizați Excel până acum, atunci acesta este cel mai bun moment pentru a începe să utilizați LuckyTemplates pentru nevoile dvs. de raportare a afacerii.
Ce este LuckyTemplates Gateway? Tot ce trebuie să știți