Analiza tekstu za pomocą Pythona: jak identyfikować części mowy

Na tym blogu pokażemy, jak przeprowadzać analizę tekstu przy użyciu języka Python w celu identyfikowania części mowy w danych tekstowych w usłudze LuckyTemplates. Omówimy kroki korzystania z Pythona do analizy tekstu oraz przedstawimy przykłady i wskazówki, które pomogą Ci rozpocząć własne projekty analizy tekstu. Możesz obejrzeć pełny film z tego samouczka na dole tego bloga.

Spis treści

Dane źródłowe
Analiza tekstu za pomocą Pythona
Naprawianie kodu do analizy tekstu w Pythonie
Wniosek

Dane źródłowe

W tym samouczku użyjemy gotowej chmury słów zawierającej teksty, które będziemy oceniać. Jest to pokazane po lewej stronie obrazka poniżej. Po prawej stronie mamy filtry do identyfikacji różnych części mowy, na przykład przymiotników lub czasowników.

Analiza tekstu za pomocą Pythona: jak identyfikować części mowy

Możemy odfiltrować słowa, które są przysłówkami, rzeczownikami, różnymi typami rzeczowników lub czasowników oraz podstawami czasowników. Jest to bardzo przydatne podczas tworzenia kampanii marketingowej i szukania słów w opiniach klientów.

Zacznijmy od otwarcia naszego edytora dodatku Power Query .

W naszych danych źródłowych mamy kolumny dla identyfikatorów, wieku, tytułu i tekstu recenzji. Skoncentrujemy się na kolumnie Tekst recenzji i przeanalizujemy ją, aby przeprowadzić analizę tekstu. Istnieją również inne kategorie, które mogą być przydatne w naszej analizie.

Analiza tekstu za pomocą Pythona: jak identyfikować części mowy

Analiza tekstu za pomocą Pythona

Zacznijmy od normalnych danych, które wprowadziliśmy. Pierwszą rzeczą, którą zrobimy, będzie filtrowanie wierszy, ponieważ mamy dużo danych, a analiza tekstu wymaga czasu.

Aby przefiltrować nasze dane, weź pierwsze 50 wierszy, aby nieco przyspieszyć analizę tekstu.

Analiza tekstu za pomocą Pythona: jak identyfikować części mowy

Po odfiltrowaniu przejdź do Przekształć i uruchom skrypt Pythona . Zakodujemy tutaj wszystko, ponieważ nie ma dużo kodu.

Analiza tekstu za pomocą Pythona: jak identyfikować części mowy

Importowanie pakietów

Wprowadźmy dwa pakiety do analizy tekstu w języku Python za pomocą naszego edytora skryptów w języku Python . „Zaimportujemy pandy jako pd” , naszą bibliotekę do manipulacji danymi, która zostanie zapisana jako zmienna pd. A następnie „ z tekstowego obiektu blob ” „zaimportujemy obiekt TextBlob” z wielką literą między słowami.

Zawsze możemy udokumentować to, co robimy, umieszczając ciąg dokumentu. Napiszmy #wprowadź niezbędne biblioteki na wierzchu naszych pakietów.

Analiza tekstu za pomocą Pythona: jak identyfikować części mowy

Zmiana nazwy zmiennej

W pierwszym wierszu naszego skryptu znajduje się wiersz udostępniony przez usługę LuckyTemplates, który mówi, że # „zestaw danych” zawiera dane wejściowe dla tego skryptu. Ten wiersz mówi, że nasze dane są nazywane zbiorem danych.

Zmieńmy to, ponieważ zapisanie „zbioru danych” zajmuje zbyt dużo czasu. Wpisz #zmień zmienną zestawu danych i df = zestaw danych w następnym wierszu.

Analiza tekstu za pomocą Pythona: jak identyfikować części mowy

Teraz pisanie naszej zmiennej jest krótsze.

Robić Analizę Tekstu

Kontynuujmy naszą analizę tekstu. Przypomnijmy, że nasze teksty recenzji znajdują się w kolumnie z pojedynczymi komórkami. Ta konfiguracja nie jest dla nas zbyt pomocna, ponieważ chcemy mieć wszystkie teksty razem, abyśmy mogli przeprowadzić na nich analizę.

Nie chcemy jednak, aby były one łączone bez spacji, więc zacznijmy nasz kod od spacji w podwójnym cudzysłowie .

Następnie dodajmy .join i wyizoluj naszą kolumnę tekstu recenzji, używając naszej zmiennej df , która przechowuje zestaw danych. Wpisz „Tekst recenzji” umieszczony w nawiasie, który izoluje kolumnę.

Ten kod połączy wszystko, ale musimy go zapisać, więc utwórzmy zmienną o nazwie słowa.

Analiza tekstu za pomocą Pythona: jak identyfikować części mowy

Gdy mamy wszystkie słowa razem, możemy użyć naszego obiektu tekstowego, aby rozpocząć analizę słów.

Pierwszą rzeczą do zrobienia jest utworzenie naszych części mowy za pomocą zmiennej blob , której potrzebujemy, aby przekazać słowa do tekstowego bloba. Użyjemy tej plamki tekstowej i przekażemy tekst, który jest naszymi słowami . Jest to wpisane jako blob = TextBlob(words).

Teraz, gdy mamy ten blob, weźmiemy go i utworzymy naszą zmienną parts_of_speech za pomocą blob.tags . Tagi będą skrótami dla każdej z części mowy.

W następnej kolejności zapiszemy to jako ramkę danych przy użyciu Pand , które wprowadziliśmy. Nazwijmy to naszymi danymi , które są równe pd.DataFrame i wprowadzimy nasze części_mowy .

Analiza tekstu za pomocą Pythona: jak identyfikować części mowy

Kliknijmy OK , aby uruchomić nasz kod. Po uruchomieniu naszego kodu powinniśmy otrzymać tabelę naszych zmiennych. Mamy zbiór danych lub nasze oryginalne dane. Mamy również nasze dane i df .

Analiza tekstu za pomocą Pythona: jak identyfikować części mowy

Jeśli nie uzyskałeś zamierzonych rezultatów, pokażemy Ci różne sposoby uniknięcia błędów, które mogą wystąpić w kodzie.

Naprawianie kodu do analizy tekstu w Pythonie

Czasami może zaistnieć potrzeba bardzo wyraźnej zmiany formatu tekstu, który nas interesuje.

Możemy to zrobić, wywołując naszą zmienną df , izolując „Tekst recenzji ” umieszczony w notacji nawiasów, a następnie zmieniając typ na łańcuchy za pomocą .astype('str') . Następnie po prostu zapisz to ponownie w zmiennej df .

Analiza tekstu za pomocą Pythona: jak identyfikować części mowy

Kliknij OK , aby ponownie uruchomić kod. Powinniśmy uzyskać takie same wyniki jak wcześniej.

Teraz chcemy otworzyć nasze dane , ostatnią zmienną, którą wprowadziliśmy, aby zobaczyć, jak to wygląda.

Analiza tekstu za pomocą Pythona: jak identyfikować części mowy

Powinniśmy mieć wszystkie nasze słowa podzielone na części mowy. Nie nazwaliśmy jeszcze naszych kolumn, ale możemy to łatwo zrobić.

Analiza tekstu za pomocą Pythona: jak identyfikować części mowy

W starej wersji tej samej analizy tekstu pierwszą kolumnę nazwałem Word , a drugą skrótem .

Analiza tekstu za pomocą Pythona: jak identyfikować części mowy

W zapytaniu Części mowy wprowadzamy rzeczywiste słowa dla tych skrótów i łączymy je wszystkie razem.

Analiza tekstu za pomocą Pythona: jak identyfikować części mowy

Teraz zamknijmy i zastosujmy .

Analiza tekstu za pomocą Pythona: jak identyfikować części mowy

Kroki, które wykonaliśmy, pozwoliły nam przefiltrować różne części mowy, które zidentyfikowaliśmy za pomocą prostego kodu Pythona . Daje nam tę wizualizację w usłudze LuckyTemplates, w której możemy łatwo filtrować nasz tekst na podstawie tego, do jakich części mowy należą.

Analiza tekstu za pomocą Pythona: jak identyfikować części mowy

Analiza tekstu w Pythonie | Wprowadzenie
Funkcje zdefiniowane przez użytkownika w języku Python | Omówienie
listy Pythona i pętli For w usłudze LuckyTemplates

Wniosek

Jako analityk danych możesz spotkać się z potrzebą wyodrębnienia spostrzeżeń i znaczenia z dużych ilości nieustrukturyzowanych danych tekstowych. To, czego się nauczyłeś, to przydatne podejście do zrozumienia danych tekstowych poprzez analizę tekstu.

Teraz możesz łatwo podzielić tekst na mniejsze jednostki, takie jak słowa i zdania, a następnie przeanalizować te jednostki pod kątem wzorców i relacji. Wszystkie te cele możesz osiągnąć za pomocą analizy tekstu w Pythonie i LuckyTemplates.

Wszystkiego najlepszego,

Zostaw komentarz

Dodawaj, usuwaj i zmieniaj nazwy kolumn w R za pomocą Dplyr

W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.

Funkcje zbierania w Microsoft Power Automate

Odkryj różnorodne funkcje zbierania, które można wykorzystać w Power Automate. Zdobądź praktyczne informacje o funkcjach tablicowych i ich zastosowaniu.

Oceń wydajność kodu DAX w DAX Studio

Z tego samouczka dowiesz się, jak ocenić wydajność kodów DAX przy użyciu opcji Uruchom test porównawczy w DAX Studio.

Czym jest self w Pythonie: przykłady z życia wzięte

Jak zapisać i załadować plik RDS w R

Dowiesz się, jak zapisywać i ładować obiekty z pliku .rds w R. Ten blog będzie również omawiał sposób importowania obiektów z R do LuckyTemplates.

Powrót do pierwszych N dni roboczych — rozwiązanie języka kodowania DAX

Z tego samouczka języka kodowania DAX dowiesz się, jak używać funkcji GENERUJ i jak dynamicznie zmieniać tytuł miary.

Zaprezentuj spostrzeżenia przy użyciu wielowątkowej techniki dynamicznych wizualizacji w usłudze LuckyTemplates

W tym samouczku omówiono sposób korzystania z techniki wielowątkowych wizualizacji dynamicznych w celu tworzenia szczegółowych informacji na podstawie dynamicznych wizualizacji danych w raportach.

Najlepsze wskazówki dotyczące korzystania z aplikacji w usłudze online LuckyTemplates

Chcę pokazać, jak usługa online LuckyTemplates Apps może pomóc w zarządzaniu różnymi raportami i spostrzeżeniami generowanymi z różnych źródeł.

Wprowadzenie do filtrowania kontekstu w usłudze LuckyTemplates

W tym artykule omówię kontekst filtra. Kontekst filtrowania to jeden z głównych tematów, z którym każdy użytkownik usługi LuckyTemplates powinien zapoznać się na początku.

Analizuj zmiany marży zysku w godzinach nadliczbowych — Analizuj za pomocą LuckyTemplates i DAX

Dowiedz się, jak obliczyć zmiany marży zysku przy użyciu technik, takich jak rozgałęzianie miar i łączenie formuł języka DAX w usłudze LuckyTemplates.