Textanalyse mit Python: So identifizieren Sie Wortarten

Textanalyse mit Python: So identifizieren Sie Wortarten

In diesem Blog zeigen wir Ihnen, wie Sie mit Python eine Textanalyse durchführen , um Wortarten in Textdaten in LuckyTemplates zu identifizieren. Wir werden die Schritte zur Verwendung von Python für die Textanalyse behandeln und Beispiele und Tipps bereitstellen, die Ihnen den Einstieg in Ihre eigenen Textanalyseprojekte erleichtern. Das vollständige Video dieses Tutorials können Sie unten in diesem Blog ansehen.

Inhaltsverzeichnis

Quelldaten

In diesem Tutorial verwenden wir eine vorgefertigte Wortwolke, die die Texte enthält, die wir auswerten werden. Dies ist auf der linken Seite des Bildes unten dargestellt. Auf der rechten Seite haben wir die Filter zur Identifizierung der verschiedenen Wortarten, zum Beispiel Adjektive oder Verben. 

Textanalyse mit Python: So identifizieren Sie Wortarten

Wir können Wörter herausfiltern, bei denen es sich um Adverbien, Substantive, verschiedene Arten von Substantiven oder Verben und Verbbasen handelt. Dies ist sehr nützlich, wenn Sie eine Marketingkampagne erstellen und nach Wörtern in Ihren Kundenbewertungen suchen. 

Beginnen wir mit dem Öffnen unseres Power Query -Editors. 

In unseren Quelldaten haben wir Spalten für IDs, Alter, Titel und Rezensionstext. Wir konzentrieren uns auf die Spalte „Überprüfungstext“ und analysieren sie, um unsere Textanalyse durchzuführen. Es gibt auch andere Kategorien, die für unsere Analyse nützlich sein können.

Textanalyse mit Python: So identifizieren Sie Wortarten

Textanalyse mit Python

Beginnen wir mit den normalen Daten, die wir eingegeben haben. Als Erstes filtern wir die Zeilen, da wir viele Daten haben und die Textanalyse Zeit braucht. 

Um unsere Daten zu filtern, nehmen Sie die ersten 50 Zeilen, um die Textanalyse etwas schneller zu machen. 

Textanalyse mit Python: So identifizieren Sie Wortarten

Gehen Sie nach dem Herausfiltern zu „Transformieren und Python- Skript ausführen “. Wir werden hier alles codieren, da es nicht viel Code gibt. 

Textanalyse mit Python: So identifizieren Sie Wortarten

Importieren der Pakete

Lassen Sie uns zwei Pakete für unsere Python-Textanalyse mit unserem Python-Skripteditor einbinden . Wir werden „ Pandas als PD importieren , unsere Datenmanipulationsbibliothek, die als Variable PD gespeichert werden soll. Und dann „ aus Textblob werden wir „ TextBlob importieren“ mit einem Großbuchstaben zwischen den Wörtern. 

Wir können jederzeit dokumentieren, was wir tun, indem wir eine Dokumentzeichenfolge einfügen. Schreiben wir #bring in die wesentlichen Bibliotheken zusätzlich zu unseren Paketen.

Textanalyse mit Python: So identifizieren Sie Wortarten

Umbenennen der Variablen

In der ersten Zeile unseres Skripts gibt es diese von LuckyTemplates bereitgestellte Zeile, die besagt, dass # 'dataset' die Eingabedaten für dieses Skript enthält. Diese Zeile besagt, dass unsere Daten als Datensatz bezeichnet werden. 

Ändern wir das also, denn das Schreiben eines „Datensatzes“ dauert zu lange. Geben Sie in der nächsten Zeile #change the dataset variable und df = dataset ein.

Textanalyse mit Python: So identifizieren Sie Wortarten

Jetzt ist es kürzer, unsere Variable zu schreiben. 

Durchführung der Textanalyse

Fahren wir mit unserer Textanalyse fort. Denken Sie daran, dass sich unsere Rezensionstexte in einer Spalte mit einzelnen Zellen befinden. Dieses Setup ist für uns nicht wirklich hilfreich, da wir alle Texte zusammen haben möchten, damit wir eine Analyse durchführen können. 

Da wir jedoch nicht möchten, dass sie ohne Leerzeichen verbunden werden, beginnen wir unseren Code mit einem Leerzeichen in einem doppelten Anführungszeichen .  

Dann fügen wir .join hinzu und isolieren unsere Rezensionstextspalte mithilfe unserer df- Variablen, die den Datensatz enthält. Geben Sie „Überprüfungstext“ ein und setzen Sie ihn in eine eckige Klammer, die die Spalte isoliert. 

Dieser Code verbindet alles, aber wir müssen ihn speichern, also erstellen wir eine Variable namens Wörter.

Textanalyse mit Python: So identifizieren Sie Wortarten

Sobald wir alle Wörter zusammen haben, können wir unseren Text-Blob verwenden, um mit der Analyse der Wörter zu beginnen. 

Als erstes müssen wir unsere Wortarten mithilfe der Blob- Variablen erstellen, die wir benötigen, um Wörter an einen Text-Blob weiterzugeben. Wir werden diesen Text-Blob verwenden und den Text übergeben, der unsere Wörter ist . Dies wird als blob = TextBlob(words) eingegeben.

Da wir nun diesen Blob haben, werden wir ihn nehmen und mithilfe von blob.tags unsere Variable parts_of_speech erstellen . Die Tags sind die Abkürzungen für die einzelnen Wortarten. 

Als Nächstes speichern wir dies als Datenrahmen mithilfe von Pandas , die wir eingebracht haben. Nennen wir es unsere Daten , die dem pd.DataFrame entsprechen , und wir bringen unsere parts_of_speech ein . 

Textanalyse mit Python: So identifizieren Sie Wortarten

Klicken wir auf OK, um unseren Code auszuführen. Nachdem wir unseren Code ausgeführt haben, sollten wir eine Tabelle unserer Variablen erhalten. Wir haben den Datensatz bzw. unsere Originaldaten. Wir haben auch unsere Daten und das df

Textanalyse mit Python: So identifizieren Sie Wortarten

Wenn Sie nicht die gewünschten Ergebnisse erhalten haben, zeigen wir Ihnen die verschiedenen Möglichkeiten, um einige Fehler zu vermeiden, die im Code auftreten können.

Korrigieren des Codes für die Textanalyse in Python

Manchmal müssen wir das Format des Textes, mit dem wir uns befassen, sehr explizit ändern. 

Wir können dies tun, indem wir unsere df- Variable aufrufen , „Review Text “ in einer Klammernotation isolieren und dann den Typ mit .astype('str') in Strings ändern . Dann speichern Sie dies einfach erneut in der df- Variablen. 

Textanalyse mit Python: So identifizieren Sie Wortarten

Klicken Sie auf OK , um den Code erneut auszuführen. Wir sollten die gleichen Ergebnisse wie zuvor erzielen.

Jetzt möchten wir unsere Daten öffnen , die letzte Variable, die wir eingebracht haben, um zu sehen, wie das aussieht. 

Textanalyse mit Python: So identifizieren Sie Wortarten

Wir sollten alle unsere Wörter nach Wortarten aufteilen. Wir haben unseren Spalten noch keinen Namen gegeben, aber das können wir ganz einfach machen. 

Textanalyse mit Python: So identifizieren Sie Wortarten

In der alten Version derselben Textanalyse habe ich die erste Spalte als Word und die zweite als Abbreviation bezeichnet . 

Textanalyse mit Python: So identifizieren Sie Wortarten

In der Wortart- Abfrage geben wir die tatsächlichen Wörter ein, die für diese Abkürzungen stehen, und verbinden sie alle miteinander.

Textanalyse mit Python: So identifizieren Sie Wortarten

Lassen Sie uns nun „Schließen und anwenden“ ausführen

Textanalyse mit Python: So identifizieren Sie Wortarten

Die von uns durchgeführten Schritte ermöglichten es uns, die verschiedenen Wortarten zu filtern, die wir mithilfe eines einfachen Python- Codes identifiziert hatten. Es gibt uns diese visuelle Darstellung in LuckyTemplates, mit der wir unseren Text ganz einfach danach filtern können, in welche Wortartenkategorie er fällt. 

Textanalyse mit Python: So identifizieren Sie Wortarten


Textanalyse in Python | Eine Einführung in
benutzerdefinierte Python-Funktionen | Eine Übersicht über
die Python-Liste und die For-Schleife in LuckyTemplates

Abschluss

Als Datenanalyst stehen Sie möglicherweise vor der Notwendigkeit, Erkenntnisse und Bedeutungen aus großen Mengen unstrukturierter Textdaten zu extrahieren. Was Sie gelernt haben, ist ein nützlicher Ansatz zum Verständnis von Textdaten durch Textanalyse.

Jetzt können Sie Text ganz einfach in kleinere Einheiten wie Wörter und Sätze zerlegen und diese Einheiten dann auf Muster und Beziehungen analysieren. Mit der Textanalyse in Python und LuckyTemplates können Sie all diese Ziele erreichen. 

Alles Gute,


So speichern und laden Sie eine RDS-Datei in R

So speichern und laden Sie eine RDS-Datei in R

Sie erfahren, wie Sie Objekte aus einer .rds-Datei in R speichern und laden. In diesem Blog wird auch behandelt, wie Sie Objekte aus R in LuckyTemplates importieren.

Was ist Self in Python: Beispiele aus der Praxis

Was ist Self in Python: Beispiele aus der Praxis

Was ist Self in Python: Beispiele aus der Praxis

First N Business Days Revisited – Eine DAX-Codierungssprachenlösung

First N Business Days Revisited – Eine DAX-Codierungssprachenlösung

In diesem Tutorial zur DAX-Codierungssprache erfahren Sie, wie Sie die GENERATE-Funktion verwenden und einen Kennzahltitel dynamisch ändern.

Präsentieren Sie Einblicke mithilfe der Multi-Threaded-Dynamic-Visuals-Technik in LuckyTemplates

Präsentieren Sie Einblicke mithilfe der Multi-Threaded-Dynamic-Visuals-Technik in LuckyTemplates

In diesem Tutorial erfahren Sie, wie Sie mithilfe der Multi-Threaded-Dynamic-Visuals-Technik Erkenntnisse aus dynamischen Datenvisualisierungen in Ihren Berichten gewinnen.

Einführung in den Filterkontext in LuckyTemplates

Einführung in den Filterkontext in LuckyTemplates

In diesem Artikel werde ich den Filterkontext durchgehen. Der Filterkontext ist eines der Hauptthemen, über die sich jeder LuckyTemplates-Benutzer zunächst informieren sollte.

Beste Tipps zur Verwendung der Apps im LuckyTemplates-Onlinedienst

Beste Tipps zur Verwendung der Apps im LuckyTemplates-Onlinedienst

Ich möchte zeigen, wie der LuckyTemplates Apps-Onlinedienst bei der Verwaltung verschiedener Berichte und Erkenntnisse aus verschiedenen Quellen helfen kann.

Analysieren Sie Gewinnmargenänderungen im Laufe der Zeit – Analysen mit LuckyTemplates und DAX

Analysieren Sie Gewinnmargenänderungen im Laufe der Zeit – Analysen mit LuckyTemplates und DAX

Erfahren Sie, wie Sie Ihre Gewinnmargenänderungen mithilfe von Techniken wie Kennzahlenverzweigung und der Kombination von DAX-Formeln in LuckyTemplates ermitteln.

Materialisierungsideen für Datencaches in DAX Studio

Materialisierungsideen für Datencaches in DAX Studio

In diesem Tutorial werden die Ideen der Materialisierung von Datencaches und deren Auswirkungen auf die Leistung von DAXs bei der Bereitstellung von Ergebnissen erläutert.

Geschäftsberichte mit LuckyTemplates

Geschäftsberichte mit LuckyTemplates

Wenn Sie bisher noch Excel verwenden, ist dies der beste Zeitpunkt, LuckyTemplates für Ihre Geschäftsberichtsanforderungen zu verwenden.

Was ist LuckyTemplates Gateway? Alles was du wissen musst

Was ist LuckyTemplates Gateway? Alles was du wissen musst

Was ist LuckyTemplates Gateway? Alles was du wissen musst