Lemmatisierung in Python | Ein Leitfaden für Anfänger

Lemmatisierung in Python | Ein Leitfaden für Anfänger

In diesem Tutorial besprechen wir die Lemmatisierung in Python , eine Methode, die zum Gruppieren der verschiedenen Elemente eines Wortes verwendet wird. Die Lemmatisierung zielt auch darauf ab, die Wortflexion zu reduzieren und konzentriert sich auf die Bereitstellung der Wurzel- oder Grundform eines Wortes, was das Wort Lemma bedeutet.

Inhaltsverzeichnis

Lemmatisierung vs. Stemming

Die Lemmatisierung ähnelt der Wortstammbildung, die auch dazu dient, die Beugung in Wörtern zu reduzieren. Der einzige Unterschied besteht darin, dass die Lemmatisierung als Ergebnis wörterbuchbasierte Wörter verwendet.

Andererseits werden bei der Wortstammerkennung nur die Affixe aus einem flektierten Wort entfernt, was dazu führen kann, dass Wörter nicht existieren.

Wenn wir zum Beispiel die Wortstammbildung für das Wort „ studies“ verwenden , wird als Ausgabe das Wort „ studierend“ ausgegeben, da es darauf abzielt, die Suffixe „ es“ aus dem Wort „ studies“ zu entfernen .

Wenn andererseits Lemmatisierung verwendet wird, wird die Wortstudie als Ergebnis bereitgestellt, da sie sich auf die Bereitstellung der Grundform eines Wortes konzentriert.

Dinge, die bei der Verwendung der Lemmatisierung zu beachten sind

  • Es verwendet wörterbuchbasierte Wörter. Mit dem Begriff Lemma , der die Wurzel oder Grundform eines Wortes bedeutet, zielt die Lemmatisierung darauf ab, die Grundform eines Wortes bereitzustellen und nicht nur die Flexionen eines Wortes zu entfernen.
  • Es hängt vollständig von Wortarten ab, um ein Basiswort zu finden. Ohne Angabe der Wortarten funktioniert die Lemmatisierung möglicherweise nicht gut und Sie erhalten möglicherweise nicht das gewünschte Ergebnis.
  • Es ist langsamer als das Stemmen, aber es ist kraftvoller. Da die Lemmatisierung keinem Algorithmus zur Bearbeitung von Wörtern und der Notwendigkeit der Bereitstellung von Wortteilen folgt, gilt sie als langsamer als die Wortstammbildung. Es ist jedoch insofern leistungsfähiger, als es für die Ergebnisse wörterbuchbasierte Wörter verwendet. 
  • Es bietet eine höhere Genauigkeit bei der Suche nach dem Wortstamm. Da die Lemmatisierung bei der Darstellung der Ergebnisse eines flektierten Wortes wörterbuchbasierte Wörter verwendet, haben Sie höhere Chancen, genaue Ergebnisse zu erhalten.

Vorbereitungsphase für die Lemmatisierung in Python

Bevor wir mit der Implementierung der Lemmatisierung fortfahren, beginnen wir mit dem Importieren der Word- Bibliothek aus textblob .

Lemmatisierung in Python |  Ein Leitfaden für Anfänger

Danach erstellen wir ein Wortobjekt. 

Lemmatisierung in Python |  Ein Leitfaden für Anfänger

Um ein Wortobjekt zu erstellen, haben wir eine Variable mit dem Namen w erstellt . Dann haben wir die Word-Bibliothek gespeichert, die unser Wortobjekt enthält, das Octopi ist , die Pluralform des Wortes Octopus. Beachten Sie, dass es bei der Übergabe eines Elements mithilfe der Word-Bibliothek wichtig ist, dieses Element in einfache Anführungszeichen zu setzen.

Lassen Sie uns die Variable w initialisieren , um zu sehen, ob sie das Wortobjekt enthält, das wir gerade erstellt haben.

Lemmatisierung in Python |  Ein Leitfaden für Anfänger

Beim Ausführen der w- Variablen erhalten wir als Ergebnis das Wortobjekt octopi .

Implementierung der Lemmatisierung in Python

Als Nächstes implementieren wir die Lemmatisierung mithilfe der Funktion .lemmatize

Lemmatisierung in Python |  Ein Leitfaden für Anfänger

In diesem Schritt haben wir die w- Variable verwendet, die das Wortobjekt octopi enthält , und wir haben die Funktion .lemmatize verwendet , um die Lemmatisierung anzuwenden. Als Ergebnis haben wir das Wort Octopus erhalten , das die Wurzel- oder Grundform des Wortes Octopi ist .

Versuchen wir danach, die Lemmatisierung mit dem Wort better anzuwenden .

Lemmatisierung in Python |  Ein Leitfaden für Anfänger

Im vorherigen Beispiel haben wir unser Wortobjekt von „ octopi“ in „better“ aktualisiert . Dann haben wir es mit der Funktion .lemmatize lemmatisiert . Somit ist das Ergebnis, das wir erhalten haben, dasselbe wie das Wort Objekt, das wir verwendet haben.

Mit der Funktion .lemmatize können Sie die Art der Lemmatisierung ändern, indem Sie einen Teil der Sprache übergeben. Versuchen wir als Beispiel, a an die Funktion .lemmatize zu übergeben , die für Adjektive in den Wortarten steht. 

Lemmatisierung in Python |  Ein Leitfaden für Anfänger

Nachdem wir der .lemmatize-Funktion einen Teil der Sprache hinzugefügt haben, können wir als Ergebnis das Basiswort erhalten.

Lassen Sie uns unser Wortobjekt wieder in „running“ ändern . Ändern wir auch den Wortteil, den wir an die Funktion .lemmatize übergeben, in v , das für Verb steht.

Lemmatisierung in Python |  Ein Leitfaden für Anfänger

Nachdem wir die Änderungen vorgenommen und die Funktion .lemmatize initialisiert haben, erhalten wir das Stammwort des Worts run , das als Ergebnis ausgeführt wird. Die meisten Lemmatisierer sind nicht in der Lage, die Methoden auszuführen, die wir gerade mit der Funktion .lemmatize durchgeführt haben.

Die Funktion .lemmatize ist jedoch ein wichtiges Werkzeug, das bei der Durchführung bestimmter Arten von Textanalysen in Python verwendet werden kann, um die Grundform eines Wortes zu ermitteln.


So verwenden Sie ein Python-Skript in LuckyTemplates.
So laden Sie Beispieldatensätze in Python.
Benutzerdefinierte Python-Funktionen | Ein Überblick

Abschluss

Kurz gesagt, wir sind in der Lage, die Verwendung der Lemmatisierung in Python und ihre Funktionsweise zu verstehen. Wir haben auch die Ähnlichkeiten und Unterschiede zwischen der Lemmatisierung und der Stammformierung besprochen. Wir sind auch in der Lage, mithilfe der Word- Bibliothek ein Wortobjekt zu erstellen und die Funktion .lemmatize zu nutzen .

Darüber hinaus haben wir gelernt, wie man verschiedene Wortarten in der Funktion .lemmatize anwendet. Die Implementierung der Lemmatisierung in Ihre täglichen Textanalyseaufgaben wird Ihnen erheblich dabei helfen, den Zeit- und Arbeitsaufwand für die Suche nach dem Grundwort eines bestimmten Wortes zu verringern.

Alles Gute,

Gaellim


So speichern und laden Sie eine RDS-Datei in R

So speichern und laden Sie eine RDS-Datei in R

Sie erfahren, wie Sie Objekte aus einer .rds-Datei in R speichern und laden. In diesem Blog wird auch behandelt, wie Sie Objekte aus R in LuckyTemplates importieren.

Was ist Self in Python: Beispiele aus der Praxis

Was ist Self in Python: Beispiele aus der Praxis

Was ist Self in Python: Beispiele aus der Praxis

First N Business Days Revisited – Eine DAX-Codierungssprachenlösung

First N Business Days Revisited – Eine DAX-Codierungssprachenlösung

In diesem Tutorial zur DAX-Codierungssprache erfahren Sie, wie Sie die GENERATE-Funktion verwenden und einen Kennzahltitel dynamisch ändern.

Präsentieren Sie Einblicke mithilfe der Multi-Threaded-Dynamic-Visuals-Technik in LuckyTemplates

Präsentieren Sie Einblicke mithilfe der Multi-Threaded-Dynamic-Visuals-Technik in LuckyTemplates

In diesem Tutorial erfahren Sie, wie Sie mithilfe der Multi-Threaded-Dynamic-Visuals-Technik Erkenntnisse aus dynamischen Datenvisualisierungen in Ihren Berichten gewinnen.

Einführung in den Filterkontext in LuckyTemplates

Einführung in den Filterkontext in LuckyTemplates

In diesem Artikel werde ich den Filterkontext durchgehen. Der Filterkontext ist eines der Hauptthemen, über die sich jeder LuckyTemplates-Benutzer zunächst informieren sollte.

Beste Tipps zur Verwendung der Apps im LuckyTemplates-Onlinedienst

Beste Tipps zur Verwendung der Apps im LuckyTemplates-Onlinedienst

Ich möchte zeigen, wie der LuckyTemplates Apps-Onlinedienst bei der Verwaltung verschiedener Berichte und Erkenntnisse aus verschiedenen Quellen helfen kann.

Analysieren Sie Gewinnmargenänderungen im Laufe der Zeit – Analysen mit LuckyTemplates und DAX

Analysieren Sie Gewinnmargenänderungen im Laufe der Zeit – Analysen mit LuckyTemplates und DAX

Erfahren Sie, wie Sie Ihre Gewinnmargenänderungen mithilfe von Techniken wie Kennzahlenverzweigung und der Kombination von DAX-Formeln in LuckyTemplates ermitteln.

Materialisierungsideen für Datencaches in DAX Studio

Materialisierungsideen für Datencaches in DAX Studio

In diesem Tutorial werden die Ideen der Materialisierung von Datencaches und deren Auswirkungen auf die Leistung von DAXs bei der Bereitstellung von Ergebnissen erläutert.

Geschäftsberichte mit LuckyTemplates

Geschäftsberichte mit LuckyTemplates

Wenn Sie bisher noch Excel verwenden, ist dies der beste Zeitpunkt, LuckyTemplates für Ihre Geschäftsberichtsanforderungen zu verwenden.

Was ist LuckyTemplates Gateway? Alles was du wissen musst

Was ist LuckyTemplates Gateway? Alles was du wissen musst

Was ist LuckyTemplates Gateway? Alles was du wissen musst