Lematizare în Python | Ghid pentru începători

În acest tutorial, vom discuta despre lematizarea în Python , care este o metodă care este utilizată pentru gruparea diferitelor elemente ale unui cuvânt. Lematizarea urmărește, de asemenea, să reducă flexiunea cuvântului și se concentrează pe furnizarea rădăcinii sau a formei de bază a unui cuvânt, ceea ce înseamnă cuvântul lemă .

Cuprins

Lematizare vs stemming

Lematizarea este similară cu stemming, care funcționează și pentru a reduce inflexiunile în cuvinte. Singura diferență este că lematizarea folosește cuvinte bazate pe dicționar ca rezultat.

Pe de altă parte, derivarea elimină doar afixele dintr-un cuvânt flexat, ceea ce poate duce la cuvinte care nu există.

De exemplu, dacă folosim derivarea cuvântului studies , acesta va oferi cuvântul studi ca rezultat, deoarece urmărește să elimine sufixele din cuvântul studies .

Pe de altă parte, dacă se utilizează lematizarea , studiul cuvântului va fi dat ca rezultat, deoarece se concentrează pe furnizarea formei de bază a unui cuvânt.

Lucruri de luat în considerare în utilizarea lematizării

  • Folosește cuvinte bazate pe dicționar. Cu termenul lemă care înseamnă rădăcina sau forma de bază a unui cuvânt, lematizarea urmărește să ofere forma de bază a unui cuvânt, mai degrabă decât să elimine doar inflexiunile unui cuvânt.
  • Depinde complet de părțile de vorbire pentru a găsi un cuvânt de bază. Fără a specifica părțile de vorbire), lematizarea ar putea să nu funcționeze bine și este posibil să nu obțineți rezultatul pe care îl căutați.
  • Este mai lent decât tulpina, dar este mai puternic. Deoarece lematizarea nu urmează un algoritm care să se desfășoare asupra cuvintelor și nevoia de a furniza părți de vorbire, este considerată mai lentă decât stemming. Cu toate acestea, este mai puternic într-un fel în care folosește cuvinte bazate pe dicționar pentru rezultate. 
  • Are o precizie mai mare în căutarea cuvântului rădăcină. Deoarece lematizarea folosește cuvinte bazate pe dicționar pentru a prezenta rezultatele dintr-un cuvânt flexat, veți avea șanse mai mari de a obține rezultate precise.

Etapa de pregătire pentru lematizare în Python

Înainte de a trece la implementarea lematizării, să începem prin a importa biblioteca Word din textblob .

Lematizare în Python |  Ghid pentru începători

După aceea, vom crea un obiect cuvânt. 

Lematizare în Python |  Ghid pentru începători

Pentru a crea un obiect cuvânt, am creat o variabilă numită w . Apoi am stocat biblioteca Word care deține obiectul nostru cuvânt care este octopi , forma plurală a cuvântului caracatiță. Rețineți că atunci când treceți un element folosind biblioteca Word, este important să includeți acel element cu ghilimele simple.

Să inițializam variabila w pentru a vedea dacă deține obiectul cuvânt pe care tocmai l-am creat.

Lematizare în Python |  Ghid pentru începători

La executarea variabilei w , obținem ca rezultat cuvântul obiect octopi .

Implementarea lematizării în Python

În continuare, vom implementa lematizarea utilizând funcția .lemmatize

Lematizare în Python |  Ghid pentru începători

În acest pas, am folosit variabila w care deține cuvântul obiect caracatițe și am folosit funcția .lemmatize pentru a aplica lematizarea. Ca rezultat, am primit cuvântul caracatiță , care este rădăcina sau forma de bază a cuvântului caracatiță .

După aceea, să încercăm să aplicăm lematizarea cu cuvântul mai bine .

Lematizare în Python |  Ghid pentru începători

În exemplul anterior, am actualizat obiectul cuvânt din caracatițe în better . Apoi l-am lematizat cu funcția .lematize . Astfel, rezultatul pe care l-am obținut este același cu cuvântul obiect pe care l-am folosit.

Folosind funcția .lemmatize, puteți schimba modul de lematizare a acesteia prin trecerea unei părți de vorbire. De exemplu, să încercăm să trecem a la funcția .lematize care reprezintă adjectiv în părțile de vorbire. 

Lematizare în Python |  Ghid pentru începători

După adăugarea unei părți de vorbire la funcția .lemmatize, putem obține cuvântul de bază bun ca rezultat.

Să ne schimbăm din nou obiectul cuvânt în rulare . Să schimbăm, de asemenea, partea de vorbire pe care o vom trece la funcția .lematize în v , care înseamnă verb.

Lematizare în Python |  Ghid pentru începători

După efectuarea modificărilor și inițializarea funcției .lemmatize, am obținut cuvântul rădăcină al cuvântului care rulează , care este rulat ca rezultat. Majoritatea lematizatorilor nu sunt capabili să efectueze metodele pe care tocmai le-am făcut în utilizarea funcției .lematize.

Cu toate acestea, funcția .lemmatize este un instrument considerabil de utilizat atunci când efectuați anumite tipuri de analize de text în Python pentru a obține forma de bază a unui cuvânt.


Cum să utilizați scriptul Python în LuckyTemplates
Cum să încărcați seturi de date eșantion în Python
Funcții definite de utilizator Python | O imagine de ansamblu

Concluzie

Pe scurt, suntem capabili să înțelegem modul de utilizare a lematizării în Python și cum funcționează. Am discutat despre asemănarea și diferențele dintre lematizare și proveniență . De asemenea, putem crea un obiect cuvânt folosind biblioteca Word și cum să folosim funcția .lemmatize .

Mai mult, am învățat cum să aplicăm diferite părți de vorbire în funcția .lematize. Implementarea lematizării în sarcinile de zi cu zi de analiză a textului vă va ajuta foarte mult să reduceți timpul și efortul de a căuta cuvântul de bază al unui anumit cuvânt.

Toate cele bune,

Gaellim

Leave a Comment

Ce este Sinele în Python: Exemple din lumea reală

Ce este Sinele în Python: Exemple din lumea reală

Ce este Sinele în Python: Exemple din lumea reală

Cum să salvați și să încărcați un fișier RDS în R

Cum să salvați și să încărcați un fișier RDS în R

Veți învăța cum să salvați și să încărcați obiecte dintr-un fișier .rds în R. Acest blog va trata, de asemenea, cum să importați obiecte din R în LuckyTemplates.

Primele N zile lucrătoare revizuite – O soluție de limbaj de codare DAX

Primele N zile lucrătoare revizuite – O soluție de limbaj de codare DAX

În acest tutorial despre limbajul de codare DAX, aflați cum să utilizați funcția GENERATE și cum să schimbați în mod dinamic titlul unei măsuri.

Prezentați perspective utilizând tehnica vizuală dinamică cu mai multe fire în LuckyTemplates

Prezentați perspective utilizând tehnica vizuală dinamică cu mai multe fire în LuckyTemplates

Acest tutorial va acoperi cum să utilizați tehnica Multi Threaded Dynamic Visuals pentru a crea informații din vizualizările dinamice de date din rapoartele dvs.

Introducere la filtrarea contextului în LuckyTemplates

Introducere la filtrarea contextului în LuckyTemplates

În acest articol, voi trece prin contextul filtrului. Contextul de filtrare este unul dintre subiectele majore despre care orice utilizator LuckyTemplates ar trebui să învețe inițial.

Cele mai bune sfaturi pentru utilizarea aplicațiilor din serviciul online LuckyTemplates

Cele mai bune sfaturi pentru utilizarea aplicațiilor din serviciul online LuckyTemplates

Vreau să arăt cum serviciul online LuckyTemplates Apps poate ajuta la gestionarea diferitelor rapoarte și informații generate din diverse surse.

Analizați modificările marjei de profit ore suplimentare – Analytics cu LuckyTemplates și DAX

Analizați modificările marjei de profit ore suplimentare – Analytics cu LuckyTemplates și DAX

Aflați cum să vă calculați modificările marjei de profit folosind tehnici precum măsurarea ramificării și combinarea formulelor DAX în LuckyTemplates.

Idei de materializare pentru cache-urile de date în DAX Studio

Idei de materializare pentru cache-urile de date în DAX Studio

Acest tutorial va discuta despre ideile de materializare a cache-urilor de date și despre modul în care acestea afectează performanța DAX-ului în furnizarea de rezultate.

Raportare de afaceri folosind LuckyTemplates

Raportare de afaceri folosind LuckyTemplates

Dacă încă utilizați Excel până acum, atunci acesta este cel mai bun moment pentru a începe să utilizați LuckyTemplates pentru nevoile dvs. de raportare a afacerii.

Ce este LuckyTemplates Gateway? Tot ce trebuie să știți

Ce este LuckyTemplates Gateway? Tot ce trebuie să știți

Ce este LuckyTemplates Gateway? Tot ce trebuie să știți