Lemmatisierung in Python | Ein Leitfaden für Anfänger

Lemmatisierung in Python | Ein Leitfaden für Anfänger

In diesem Tutorial besprechen wir die Lemmatisierung in Python , eine Methode, die zum Gruppieren der verschiedenen Elemente eines Wortes verwendet wird. Die Lemmatisierung zielt auch darauf ab, die Wortflexion zu reduzieren und konzentriert sich auf die Bereitstellung der Wurzel- oder Grundform eines Wortes, was das Wort Lemma bedeutet.

Inhaltsverzeichnis

Lemmatisierung vs. Stemming

Die Lemmatisierung ähnelt der Wortstammbildung, die auch dazu dient, die Beugung in Wörtern zu reduzieren. Der einzige Unterschied besteht darin, dass die Lemmatisierung als Ergebnis wörterbuchbasierte Wörter verwendet.

Andererseits werden bei der Wortstammerkennung nur die Affixe aus einem flektierten Wort entfernt, was dazu führen kann, dass Wörter nicht existieren.

Wenn wir zum Beispiel die Wortstammbildung für das Wort „ studies“ verwenden , wird als Ausgabe das Wort „ studierend“ ausgegeben, da es darauf abzielt, die Suffixe „ es“ aus dem Wort „ studies“ zu entfernen .

Wenn andererseits Lemmatisierung verwendet wird, wird die Wortstudie als Ergebnis bereitgestellt, da sie sich auf die Bereitstellung der Grundform eines Wortes konzentriert.

Dinge, die bei der Verwendung der Lemmatisierung zu beachten sind

  • Es verwendet wörterbuchbasierte Wörter. Mit dem Begriff Lemma , der die Wurzel oder Grundform eines Wortes bedeutet, zielt die Lemmatisierung darauf ab, die Grundform eines Wortes bereitzustellen und nicht nur die Flexionen eines Wortes zu entfernen.
  • Es hängt vollständig von Wortarten ab, um ein Basiswort zu finden. Ohne Angabe der Wortarten funktioniert die Lemmatisierung möglicherweise nicht gut und Sie erhalten möglicherweise nicht das gewünschte Ergebnis.
  • Es ist langsamer als das Stemmen, aber es ist kraftvoller. Da die Lemmatisierung keinem Algorithmus zur Bearbeitung von Wörtern und der Notwendigkeit der Bereitstellung von Wortteilen folgt, gilt sie als langsamer als die Wortstammbildung. Es ist jedoch insofern leistungsfähiger, als es für die Ergebnisse wörterbuchbasierte Wörter verwendet. 
  • Es bietet eine höhere Genauigkeit bei der Suche nach dem Wortstamm. Da die Lemmatisierung bei der Darstellung der Ergebnisse eines flektierten Wortes wörterbuchbasierte Wörter verwendet, haben Sie höhere Chancen, genaue Ergebnisse zu erhalten.

Vorbereitungsphase für die Lemmatisierung in Python

Bevor wir mit der Implementierung der Lemmatisierung fortfahren, beginnen wir mit dem Importieren der Word- Bibliothek aus textblob .

Lemmatisierung in Python |  Ein Leitfaden für Anfänger

Danach erstellen wir ein Wortobjekt. 

Lemmatisierung in Python |  Ein Leitfaden für Anfänger

Um ein Wortobjekt zu erstellen, haben wir eine Variable mit dem Namen w erstellt . Dann haben wir die Word-Bibliothek gespeichert, die unser Wortobjekt enthält, das Octopi ist , die Pluralform des Wortes Octopus. Beachten Sie, dass es bei der Übergabe eines Elements mithilfe der Word-Bibliothek wichtig ist, dieses Element in einfache Anführungszeichen zu setzen.

Lassen Sie uns die Variable w initialisieren , um zu sehen, ob sie das Wortobjekt enthält, das wir gerade erstellt haben.

Lemmatisierung in Python |  Ein Leitfaden für Anfänger

Beim Ausführen der w- Variablen erhalten wir als Ergebnis das Wortobjekt octopi .

Implementierung der Lemmatisierung in Python

Als Nächstes implementieren wir die Lemmatisierung mithilfe der Funktion .lemmatize

Lemmatisierung in Python |  Ein Leitfaden für Anfänger

In diesem Schritt haben wir die w- Variable verwendet, die das Wortobjekt octopi enthält , und wir haben die Funktion .lemmatize verwendet , um die Lemmatisierung anzuwenden. Als Ergebnis haben wir das Wort Octopus erhalten , das die Wurzel- oder Grundform des Wortes Octopi ist .

Versuchen wir danach, die Lemmatisierung mit dem Wort better anzuwenden .

Lemmatisierung in Python |  Ein Leitfaden für Anfänger

Im vorherigen Beispiel haben wir unser Wortobjekt von „ octopi“ in „better“ aktualisiert . Dann haben wir es mit der Funktion .lemmatize lemmatisiert . Somit ist das Ergebnis, das wir erhalten haben, dasselbe wie das Wort Objekt, das wir verwendet haben.

Mit der Funktion .lemmatize können Sie die Art der Lemmatisierung ändern, indem Sie einen Teil der Sprache übergeben. Versuchen wir als Beispiel, a an die Funktion .lemmatize zu übergeben , die für Adjektive in den Wortarten steht. 

Lemmatisierung in Python |  Ein Leitfaden für Anfänger

Nachdem wir der .lemmatize-Funktion einen Teil der Sprache hinzugefügt haben, können wir als Ergebnis das Basiswort erhalten.

Lassen Sie uns unser Wortobjekt wieder in „running“ ändern . Ändern wir auch den Wortteil, den wir an die Funktion .lemmatize übergeben, in v , das für Verb steht.

Lemmatisierung in Python |  Ein Leitfaden für Anfänger

Nachdem wir die Änderungen vorgenommen und die Funktion .lemmatize initialisiert haben, erhalten wir das Stammwort des Worts run , das als Ergebnis ausgeführt wird. Die meisten Lemmatisierer sind nicht in der Lage, die Methoden auszuführen, die wir gerade mit der Funktion .lemmatize durchgeführt haben.

Die Funktion .lemmatize ist jedoch ein wichtiges Werkzeug, das bei der Durchführung bestimmter Arten von Textanalysen in Python verwendet werden kann, um die Grundform eines Wortes zu ermitteln.


So verwenden Sie ein Python-Skript in LuckyTemplates.
So laden Sie Beispieldatensätze in Python.
Benutzerdefinierte Python-Funktionen | Ein Überblick

Abschluss

Kurz gesagt, wir sind in der Lage, die Verwendung der Lemmatisierung in Python und ihre Funktionsweise zu verstehen. Wir haben auch die Ähnlichkeiten und Unterschiede zwischen der Lemmatisierung und der Stammformierung besprochen. Wir sind auch in der Lage, mithilfe der Word- Bibliothek ein Wortobjekt zu erstellen und die Funktion .lemmatize zu nutzen .

Darüber hinaus haben wir gelernt, wie man verschiedene Wortarten in der Funktion .lemmatize anwendet. Die Implementierung der Lemmatisierung in Ihre täglichen Textanalyseaufgaben wird Ihnen erheblich dabei helfen, den Zeit- und Arbeitsaufwand für die Suche nach dem Grundwort eines bestimmten Wortes zu verringern.

Alles Gute,

Gaellim


Streudiagramm-Visualisierungen mit Charticulator

Streudiagramm-Visualisierungen mit Charticulator

In diesem Tutorial erfahren Sie, wie Sie mit Charticulator eine Streudiagramm-Visualisierung für Ihren LuckyTemplates-Bericht erstellen und entwerfen.

PowerApps-Suchfeld: So fügen Sie es hinzu und passen es an

PowerApps-Suchfeld: So fügen Sie es hinzu und passen es an

Erfahren Sie, wie Sie ein PowerApps-Suchfeld von Grund auf erstellen und es an das Gesamtthema Ihrer App anpassen.

Power Automate String-Funktionen: Substring und IndexOf

Power Automate String-Funktionen: Substring und IndexOf

Erlernen Sie ganz einfach zwei komplizierte Power Automate String-Funktionen, die in Microsoft Flows verwendet werden können – die Funktionen substring und indexOf.

Power Query M: Abwechselndes 0-1-Muster in der Datumstabelle

Power Query M: Abwechselndes 0-1-Muster in der Datumstabelle

Dieses Tutorial konzentriert sich auf die Power Query M-Funktion „number.mod“, um ein abwechselndes 0-1-Muster in der Datumstabelle zu erstellen.

Prognosetechnik: Erkundung der Prognoselogik in LuckyTemplates-Modellen

Prognosetechnik: Erkundung der Prognoselogik in LuckyTemplates-Modellen

In diesem Tutorial führe ich eine Prognosetechnik durch, bei der ich meine tatsächlichen Ergebnisse mit meinen Prognosen vergleiche und sie kumulativ betrachte.

Speichern Sie E-Mail-Anhänge in SharePoint mit Power Automate

Speichern Sie E-Mail-Anhänge in SharePoint mit Power Automate

In diesem Blog erfahren Sie, wie Sie mit Power Automate E-Mail-Anhänge automatisch in SharePoint speichern und E-Mails anschließend löschen.

Führen Sie eine Bis-Loop-Steuerung in Power Automate durch

Führen Sie eine Bis-Loop-Steuerung in Power Automate durch

Erfahren Sie, wie die Do Until Schleifensteuerung in Power Automate funktioniert und welche Schritte zur Implementierung erforderlich sind.

Berechnen eines gleitenden Durchschnitts in LuckyTemplates mithilfe von DAX

Berechnen eines gleitenden Durchschnitts in LuckyTemplates mithilfe von DAX

In diesem Tutorial erfahren Sie, wie Sie mithilfe der ALLSELECTED-Funktion einen dynamischen gleitenden Durchschnitt in LuckyTemplates berechnen können.

Berechnen Sie dynamisch eine laufende oder kumulative LuckyTemplates-Summe

Berechnen Sie dynamisch eine laufende oder kumulative LuckyTemplates-Summe

Durch diesen Artikel erhalten wir ein klares und besseres Verständnis für die dynamische Berechnung einer laufenden oder kumulativen Gesamtsumme in LuckyTemplates.

Power Automate auf jede Aktion in Workflows anwenden

Power Automate auf jede Aktion in Workflows anwenden

Erfahren und verstehen Sie die Bedeutung und ordnungsgemäße Verwendung der Power Automate-Aktionssteuerung „Auf jede anwenden“ in unseren Microsoft-Workflows.