Lemmatisering in Python | Een beginnershandleiding

Lemmatisering in Python | Een beginnershandleiding

In deze zelfstudie gaan we het hebben over lemmatisering in Python , een methode die wordt gebruikt om de verschillende elementen van een woord te groeperen. Lemmatisering heeft ook tot doel woordverbuiging te verminderen en richt zich op het verschaffen van de wortel- of basisvorm van een woord, wat het woord lemma betekent.

Inhoudsopgave

Lemmatisering versus stemvorming

Lemmatisering is vergelijkbaar met stamrecht, dat ook functioneert om verbuigingen in woorden te verminderen. Het enige verschil is dat bij lemmatisering woorden uit woordenboeken als resultaat worden gebruikt.

Aan de andere kant verwijdert staming alleen de affixen van een verbogen woord, wat kan resulteren in woorden die niet bestaan.

Als we bijvoorbeeld stam gebruiken voor het woord studies , geeft het het woord studi als uitvoer, omdat het de achtervoegsels es uit het woord studies wil verwijderen .

Aan de andere kant, als lemmatisering wordt gebruikt, wordt de woordstudie als resultaat gegeven, omdat deze zich richt op het verschaffen van de basisvorm van een woord.

Dingen om te overwegen bij het gebruik van lemmatisering

  • Het maakt gebruik van op woordenboeken gebaseerde woorden. Met de term lemma , wat de wortel- of basisvorm van een woord betekent, heeft lemmatisering tot doel de basisvorm van een woord te bieden in plaats van alleen de verbuigingen van een woord te verwijderen.
  • Het hangt volledig af van woordsoorten om een ​​basiswoord te vinden. Zonder de woordsoorten te specificeren, werkt lemmatisering mogelijk niet goed en krijgt u mogelijk niet het resultaat waarnaar u op zoek bent.
  • Het is langzamer dan afstammen, maar het is krachtiger. Aangezien lemmatisering geen algoritme volgt om woorden uit te voeren en de noodzaak om woordsoorten aan te bieden, wordt het als langzamer beschouwd dan afstammen. Het is echter krachtiger omdat het op woordenboeken gebaseerde woorden gebruikt voor resultaten. 
  • Het heeft een hogere nauwkeurigheid bij het zoeken naar het hoofdwoord. Aangezien lemmatisatie woorden uit woordenboeken gebruikt bij het opmaken van resultaten van een verbogen woord, heb je meer kans op nauwkeurige uitvoer.

Voorbereidingsfase voor lemmatisering in Python

Voordat we doorgaan met het implementeren van lemmatisering, gaan we eerst de Word- bibliotheek importeren vanuit textblob .

Lemmatisering in Python |  Een beginnershandleiding

Daarna gaan we een woordobject maken. 

Lemmatisering in Python |  Een beginnershandleiding

Om een ​​woordobject te maken, hebben we een variabele met de naam w gemaakt . Vervolgens hebben we de Word-bibliotheek opgeslagen die ons woordobject bevat, namelijk octopussen , de meervoudsvorm van het woord octopus. Houd er rekening mee dat wanneer u een element doorgeeft met behulp van de Word-bibliotheek, het belangrijk is om dat element tussen enkele aanhalingstekens te plaatsen.

Laten we de variabele w initialiseren om te zien of deze het woord object bevat dat we zojuist hebben gemaakt.

Lemmatisering in Python |  Een beginnershandleiding

Bij het uitvoeren van de variabele w krijgen we het woord object octopi als resultaat.

Lemmatisering implementeren in Python

Vervolgens gaan we lemmatisering implementeren met behulp van de functie .lemmatize

Lemmatisering in Python |  Een beginnershandleiding

In deze stap hebben we de w- variabele gebruikt die het woord object octopi bevat en hebben we de functie .lemmatize gebruikt om lemmatisering toe te passen. Als resultaat kregen we het woord octopus , wat de wortel- of basisvorm is van het woord octopussen .

Laten we daarna proberen lemmatisering toe te passen met het woord beter .

Lemmatisering in Python |  Een beginnershandleiding

In het vorige voorbeeld hebben we ons woordobject geüpdatet van octopi naar better . Vervolgens hebben we het gelemmatiseerd met de functie .lemmatize . Het resultaat dat we kregen is dus hetzelfde als het woord object dat we gebruikten.

Door de functie .lemmatize te gebruiken, kunt u de manier van lemmatisering wijzigen door een woordsoort in te voeren. Laten we als voorbeeld proberen a door te geven aan de functie .lemmatize die staat voor bijvoeglijk naamwoord in de woordsoorten. 

Lemmatisering in Python |  Een beginnershandleiding

Nadat we een woordsoort aan de functie .lemmatize hebben toegevoegd, kunnen we het basiswoord als resultaat goed krijgen.

Laten we ons woordobject opnieuw veranderen in running . Laten we ook de woordsoort die we doorgeven aan de functie .lemmatize veranderen in v , wat staat voor werkwoord.

Lemmatisering in Python |  Een beginnershandleiding

Na het aanbrengen van de wijzigingen en het initialiseren van de .lemmatize-functie, kregen we het root-woord van het woord running dat als resultaat wordt uitgevoerd . De meeste lemmatizers zijn niet in staat om de methoden uit te voeren die we zojuist hebben gedaan met de functie .lemmatize.

De .lemmatize-functie is echter een aanzienlijk hulpmiddel om te gebruiken bij het uitvoeren van bepaalde soorten tekstanalyse in Python om de basisvorm van een woord te krijgen.


Python-script gebruiken in LuckyTemplates
Voorbeeldgegevenssets laden in Python
Python door de gebruiker gedefinieerde functies | Een overzicht

Conclusie

Kortom, we kunnen het gebruik van lemmatisering in Python begrijpen en hoe het werkt. We hebben ook de overeenkomsten en verschillen tussen lemmatiseren en stammen besproken. We kunnen ook een woordobject maken met behulp van de Word- bibliotheek en hoe we de functie .lemmatize kunnen gebruiken .

Bovendien hebben we geleerd hoe we verschillende woordsoorten kunnen toepassen in de functie .lemmatize. Het implementeren van lemmatisering in uw dagelijkse tekstanalysetaken zal u enorm helpen de tijd en moeite te verminderen bij het zoeken naar het basiswoord van een specifiek woord.

Al het beste,

Gaellim


Wat is zelf in Python: voorbeelden uit de echte wereld

Wat is zelf in Python: voorbeelden uit de echte wereld

Wat is zelf in Python: voorbeelden uit de echte wereld

Een RDS-bestand opslaan en laden in R

Een RDS-bestand opslaan en laden in R

Je leert hoe je objecten uit een .rds-bestand in R opslaat en laadt. In deze blog wordt ook besproken hoe je objecten uit R naar LuckyTemplates importeert.

First N Business Days Revisited – Een DAX-coderingstaaloplossing

First N Business Days Revisited – Een DAX-coderingstaaloplossing

In deze tutorial over DAX-coderingstaal leert u hoe u de functie GENERATE gebruikt en hoe u de titel van een maat dynamisch wijzigt.

Breng inzichten onder de aandacht met behulp van de Multi Threaded Dynamic Visuals-techniek in LuckyTemplates

Breng inzichten onder de aandacht met behulp van de Multi Threaded Dynamic Visuals-techniek in LuckyTemplates

Deze zelfstudie behandelt hoe u de Multi Threaded Dynamic Visuals-techniek kunt gebruiken om inzichten te creëren op basis van dynamische gegevensvisualisaties in uw rapporten.

Inleiding tot het filteren van context in LuckyTemplates

Inleiding tot het filteren van context in LuckyTemplates

In dit artikel zal ik de filtercontext doornemen. Filtercontext is een van de belangrijkste onderwerpen waarover elke LuckyTemplates-gebruiker in eerste instantie zou moeten leren.

Beste tips voor het gebruik van de apps in LuckyTemplates Online Service

Beste tips voor het gebruik van de apps in LuckyTemplates Online Service

Ik wil laten zien hoe de online service LuckyTemplates Apps kan helpen bij het beheren van verschillende rapporten en inzichten die uit verschillende bronnen zijn gegenereerd.

Analyseer winstmargeveranderingen in de loop van de tijd - analyse met LuckyTemplates en DAX

Analyseer winstmargeveranderingen in de loop van de tijd - analyse met LuckyTemplates en DAX

Leer hoe u wijzigingen in uw winstmarge kunt berekenen met behulp van technieken zoals vertakking van metingen en het combineren van DAX-formules in LuckyTemplates.

Materialisatie-ideeën voor gegevenscaches in DAX Studio

Materialisatie-ideeën voor gegevenscaches in DAX Studio

Deze tutorial bespreekt de ideeën van materialisatie van datacaches en hoe deze de prestaties van DAX beïnvloeden bij het leveren van resultaten.

Zakelijke rapportage met behulp van LuckyTemplates

Zakelijke rapportage met behulp van LuckyTemplates

Als u tot nu toe nog steeds Excel gebruikt, is dit het beste moment om LuckyTemplates te gaan gebruiken voor uw zakelijke rapportagebehoeften.

Wat is LuckyTemplates Gateway? Alles wat u moet weten

Wat is LuckyTemplates Gateway? Alles wat u moet weten

Wat is LuckyTemplates Gateway? Alles wat u moet weten