Dodawaj, usuwaj i zmieniaj nazwy kolumn w R za pomocą Dplyr
W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.
Na tym blogu pokażemy, jak przeprowadzać analizę tekstu przy użyciu języka Python w celu identyfikowania części mowy w danych tekstowych w usłudze LuckyTemplates. Omówimy kroki korzystania z Pythona do analizy tekstu oraz przedstawimy przykłady i wskazówki, które pomogą Ci rozpocząć własne projekty analizy tekstu. Możesz obejrzeć pełny film z tego samouczka na dole tego bloga.
Spis treści
Dane źródłowe
W tym samouczku użyjemy gotowej chmury słów zawierającej teksty, które będziemy oceniać. Jest to pokazane po lewej stronie obrazka poniżej. Po prawej stronie mamy filtry do identyfikacji różnych części mowy, na przykład przymiotników lub czasowników.
Możemy odfiltrować słowa, które są przysłówkami, rzeczownikami, różnymi typami rzeczowników lub czasowników oraz podstawami czasowników. Jest to bardzo przydatne podczas tworzenia kampanii marketingowej i szukania słów w opiniach klientów.
Zacznijmy od otwarcia naszego edytora dodatku Power Query .
W naszych danych źródłowych mamy kolumny dla identyfikatorów, wieku, tytułu i tekstu recenzji. Skoncentrujemy się na kolumnie Tekst recenzji i przeanalizujemy ją, aby przeprowadzić analizę tekstu. Istnieją również inne kategorie, które mogą być przydatne w naszej analizie.
Analiza tekstu za pomocą Pythona
Zacznijmy od normalnych danych, które wprowadziliśmy. Pierwszą rzeczą, którą zrobimy, będzie filtrowanie wierszy, ponieważ mamy dużo danych, a analiza tekstu wymaga czasu.
Aby przefiltrować nasze dane, weź pierwsze 50 wierszy, aby nieco przyspieszyć analizę tekstu.
Po odfiltrowaniu przejdź do Przekształć i uruchom skrypt Pythona . Zakodujemy tutaj wszystko, ponieważ nie ma dużo kodu.
Importowanie pakietów
Wprowadźmy dwa pakiety do analizy tekstu w języku Python za pomocą naszego edytora skryptów w języku Python . „Zaimportujemy pandy jako pd” , naszą bibliotekę do manipulacji danymi, która zostanie zapisana jako zmienna pd. A następnie „ z tekstowego obiektu blob ” „zaimportujemy obiekt TextBlob” z wielką literą między słowami.
Zawsze możemy udokumentować to, co robimy, umieszczając ciąg dokumentu. Napiszmy #wprowadź niezbędne biblioteki na wierzchu naszych pakietów.
Zmiana nazwy zmiennej
W pierwszym wierszu naszego skryptu znajduje się wiersz udostępniony przez usługę LuckyTemplates, który mówi, że # „zestaw danych” zawiera dane wejściowe dla tego skryptu. Ten wiersz mówi, że nasze dane są nazywane zbiorem danych.
Zmieńmy to, ponieważ zapisanie „zbioru danych” zajmuje zbyt dużo czasu. Wpisz #zmień zmienną zestawu danych i df = zestaw danych w następnym wierszu.
Teraz pisanie naszej zmiennej jest krótsze.
Robić Analizę Tekstu
Kontynuujmy naszą analizę tekstu. Przypomnijmy, że nasze teksty recenzji znajdują się w kolumnie z pojedynczymi komórkami. Ta konfiguracja nie jest dla nas zbyt pomocna, ponieważ chcemy mieć wszystkie teksty razem, abyśmy mogli przeprowadzić na nich analizę.
Nie chcemy jednak, aby były one łączone bez spacji, więc zacznijmy nasz kod od spacji w podwójnym cudzysłowie .
Następnie dodajmy .join i wyizoluj naszą kolumnę tekstu recenzji, używając naszej zmiennej df , która przechowuje zestaw danych. Wpisz „Tekst recenzji” umieszczony w nawiasie, który izoluje kolumnę.
Ten kod połączy wszystko, ale musimy go zapisać, więc utwórzmy zmienną o nazwie słowa.
Gdy mamy wszystkie słowa razem, możemy użyć naszego obiektu tekstowego, aby rozpocząć analizę słów.
Pierwszą rzeczą do zrobienia jest utworzenie naszych części mowy za pomocą zmiennej blob , której potrzebujemy, aby przekazać słowa do tekstowego bloba. Użyjemy tej plamki tekstowej i przekażemy tekst, który jest naszymi słowami . Jest to wpisane jako blob = TextBlob(words).
Teraz, gdy mamy ten blob, weźmiemy go i utworzymy naszą zmienną parts_of_speech za pomocą blob.tags . Tagi będą skrótami dla każdej z części mowy.
W następnej kolejności zapiszemy to jako ramkę danych przy użyciu Pand , które wprowadziliśmy. Nazwijmy to naszymi danymi , które są równe pd.DataFrame i wprowadzimy nasze części_mowy .
Kliknijmy OK , aby uruchomić nasz kod. Po uruchomieniu naszego kodu powinniśmy otrzymać tabelę naszych zmiennych. Mamy zbiór danych lub nasze oryginalne dane. Mamy również nasze dane i df .
Jeśli nie uzyskałeś zamierzonych rezultatów, pokażemy Ci różne sposoby uniknięcia błędów, które mogą wystąpić w kodzie.
Naprawianie kodu do analizy tekstu w Pythonie
Czasami może zaistnieć potrzeba bardzo wyraźnej zmiany formatu tekstu, który nas interesuje.
Możemy to zrobić, wywołując naszą zmienną df , izolując „Tekst recenzji ” umieszczony w notacji nawiasów, a następnie zmieniając typ na łańcuchy za pomocą .astype('str') . Następnie po prostu zapisz to ponownie w zmiennej df .
Kliknij OK , aby ponownie uruchomić kod. Powinniśmy uzyskać takie same wyniki jak wcześniej.
Teraz chcemy otworzyć nasze dane , ostatnią zmienną, którą wprowadziliśmy, aby zobaczyć, jak to wygląda.
Powinniśmy mieć wszystkie nasze słowa podzielone na części mowy. Nie nazwaliśmy jeszcze naszych kolumn, ale możemy to łatwo zrobić.
W starej wersji tej samej analizy tekstu pierwszą kolumnę nazwałem Word , a drugą skrótem .
W zapytaniu Części mowy wprowadzamy rzeczywiste słowa dla tych skrótów i łączymy je wszystkie razem.
Teraz zamknijmy i zastosujmy .
Kroki, które wykonaliśmy, pozwoliły nam przefiltrować różne części mowy, które zidentyfikowaliśmy za pomocą prostego kodu Pythona . Daje nam tę wizualizację w usłudze LuckyTemplates, w której możemy łatwo filtrować nasz tekst na podstawie tego, do jakich części mowy należą.
Analiza tekstu w Pythonie | Wprowadzenie
Funkcje zdefiniowane przez użytkownika w języku Python | Omówienie
listy Pythona i pętli For w usłudze LuckyTemplates
Wniosek
Jako analityk danych możesz spotkać się z potrzebą wyodrębnienia spostrzeżeń i znaczenia z dużych ilości nieustrukturyzowanych danych tekstowych. To, czego się nauczyłeś, to przydatne podejście do zrozumienia danych tekstowych poprzez analizę tekstu.
Teraz możesz łatwo podzielić tekst na mniejsze jednostki, takie jak słowa i zdania, a następnie przeanalizować te jednostki pod kątem wzorców i relacji. Wszystkie te cele możesz osiągnąć za pomocą analizy tekstu w Pythonie i LuckyTemplates.
Wszystkiego najlepszego,
W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.
Odkryj różnorodne funkcje zbierania, które można wykorzystać w Power Automate. Zdobądź praktyczne informacje o funkcjach tablicowych i ich zastosowaniu.
Z tego samouczka dowiesz się, jak ocenić wydajność kodów DAX przy użyciu opcji Uruchom test porównawczy w DAX Studio.
Czym jest self w Pythonie: przykłady z życia wzięte
Dowiesz się, jak zapisywać i ładować obiekty z pliku .rds w R. Ten blog będzie również omawiał sposób importowania obiektów z R do LuckyTemplates.
Z tego samouczka języka kodowania DAX dowiesz się, jak używać funkcji GENERUJ i jak dynamicznie zmieniać tytuł miary.
W tym samouczku omówiono sposób korzystania z techniki wielowątkowych wizualizacji dynamicznych w celu tworzenia szczegółowych informacji na podstawie dynamicznych wizualizacji danych w raportach.
W tym artykule omówię kontekst filtra. Kontekst filtrowania to jeden z głównych tematów, z którym każdy użytkownik usługi LuckyTemplates powinien zapoznać się na początku.
Chcę pokazać, jak usługa online LuckyTemplates Apps może pomóc w zarządzaniu różnymi raportami i spostrzeżeniami generowanymi z różnych źródeł.
Dowiedz się, jak obliczyć zmiany marży zysku przy użyciu technik, takich jak rozgałęzianie miar i łączenie formuł języka DAX w usłudze LuckyTemplates.