Dodawaj, usuwaj i zmieniaj nazwy kolumn w R za pomocą Dplyr
W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.
Na tym blogu dowiesz się, jak zastosować powtarzalne kody lub funkcje do zestawów danych Pythona , aby wygenerować ten sam typ danych wyjściowych. Pomoże Ci to zwiększyć wydajność i włożyć mniej wysiłku w pobieranie pewnych danych z różnych zestawów danych. W tym samouczku wykorzystamy istniejący kod, który wcześniej utworzyłem jako przykład.
Dowiesz się również, jak tworzyć kopie zestawów danych, aby uniknąć uszkodzenia oryginalnej wersji zestawu danych, importować biblioteki i funkcje przy użyciu powtarzalnych kodów oraz tworzyć wizualizacje w usłudze LuckyTemplates .
W przypadku tego bloga polecam cały czas pobierać plik CSV i przenosić go do LuckyTemplates. Pokażę również, jak możemy przenieść ten plik CSV i umieścić go bezpośrednio w usłudze LuckyTemplates, na wszelki wypadek.
Spis treści
Pobieranie pliku CSV w usłudze LuckyTemplates
Aby przenieść plik CSV do usługi LuckyTemplates, pierwszą rzeczą, którą musisz zrobić, to kliknąć menu „ Pobierz dane ” na wstążce Strona główna .
Po kliknięciu pojawi się menu rozwijane, z którego należy wybrać opcję „ Tekst/CSV ”.
Po wybraniu opcji „ Tekst / CSV ”Otworzy się okno, w którym możemy wybrać plik, który chcemy wprowadzić do LuckyTemplates. W tym przykładzie użyjmy pliku IMDB Dataset .
Po otwarciu pliku IMDB Dataset.csv zobaczysz kolejne okno wyświetlające dane zawarte w tym pliku. Ponieważ ten plik zawiera dużą ilość danych, zawiera podgląd tylko niektórych danych.
Pierwszą rzeczą, którą zrobimy w tym pliku, jest jego przekształcenie. Aby to zrobić, po prostu kliknij opcję „ Przekształć dane ” w prawej dolnej części okna.
Tworzenie kopii zestawu danych Pythona
Zanim wprowadzimy jakiekolwiek zmiany w tym zbiorze danych, ważne jest, aby utworzyć kopię oryginalnego zestawu danych. Aby to zrobić, kliknij prawym przyciskiem myszy zestaw danych.
Następnie z menu wybierz „ Kopiuj ”.
Na koniec kliknij prawym przyciskiem myszy panel Zapytania , a następnie wybierz „ Wklej ” z opcji.
Po zastosowaniu tych kroków powinieneś mieć kopię oryginalnego zbioru danych IMDB w panelu Zapytania .
Przekształcanie zbioru danych przez uruchomienie skryptu w języku Python
Przekształcając plik CSV, będziesz w stanie podzielić duże ilości zestawów danych Pythona na mniejsze. Możemy to zrobić, stosując skrypt Pythona w tym pliku.
Ale najpierw musimy upewnić się, że nagłówki są odpowiednio ułożone. Kliknij menu główne , a następnie poszukaj opcji „ Użyj pierwszego wiersza jako nagłówków ” i kliknij ją.
Po kliknięciu opcji „ Użyj pierwszego wiersza jako nagłówków ” nagłówki zmieniły się teraz na dane z poprzednich pierwszych wierszy, którymi są „ przegląd ” i „ nastroj ”.
Następnie przejdź do menu Przekształć i kliknij opcję „ Uruchom skrypt Pythona ” w grupie opcji „ Skrypty ”.
Następnie pojawi się okno „ Uruchom skrypt Pythona ”. W tym oknie możesz uruchomić dowolny skrypt Pythona, aby przekształcić bieżący plik, którego używasz. W tym przykładzie zamierzam zmniejszyć zestaw danych, uruchamiając następujący kod.
Użyłem funkcji .iloc w zbiorze danych, aby wybrać określone wiersze i kolumny z zestawu danych IMDB. Następnie w parametrach wybrałem wszystkie pierwsze 500 wierszy i wszystkie kolumny w zbiorze danych IMDB. Zapisałem go w zmiennej o nazwie „ dataset ”.
Po wykonaniu skryptu powinniśmy zobaczyć „dataset” czyli zmienną, którą stworzyliśmy w poprzednim kroku. Zawiera dane, które zmieniliśmy za pomocą skryptu Pythona.
Sprawdzanie zbioru danych
Aby otworzyć tabelę zestawu danych , po prostu kliknij „ Tabela ” w kolumnie Wartość .
Widzimy, że ten zestaw danych jest teraz ograniczony do 500 wierszy .
Teraz, gdy podzieliliśmy nasz zbiór danych Pythona na 500 wierszy, następną rzeczą, którą zamierzamy zrobić, jest zaimportowanie potrzebnych nam bibliotek. Zrobimy to przy użyciu tej samej procedury, którą zastosowaliśmy przy zmianie zawartości zestawu danych IMDB. Ma to na celu upewnienie się, że naszym kodem można zarządzać w niektórych scenariuszach przy mniejszej liczbie zmian.
Importowanie bibliotek i funkcji przy użyciu powtarzalnych kodów
Aby zaimportować biblioteki, wróćmy do naszego notatnika i skopiujmy potrzebne biblioteki. Pamiętaj, że przed rozpoczęciem tego samouczka utworzyłem już biblioteki, które zamierzamy skopiować. Po prostu ponownie ich używam, aby wyraźnie zrozumieć, jak używać funkcji jako powtarzalnych kodów.
Gdy biblioteki zostaną skopiowane, wklej je w oknie „ Run Python Script ” i nie zapomnij dodać wiersza „ from collections import Counter ” na końcu skryptu.
Następnie skopiujemy funkcję czyszczenia danych z naszego notatnika i dodamy ją do skryptu Pythona w LuckyTemplates.
Dodamy go poniżej bibliotek.
Skopiujemy również kod do wywołania funkcji, którą właśnie dodaliśmy.
Następnie wklej go do skryptu języka Python w usłudze LuckyTemplates.
Generowanie tabel danych
Teraz, gdy dodaliśmy kod wywołujący funkcję czyszczenia danych , musimy zamienić „ df2 ” na „ dataset ”, a „ title ” na „ review ”. Zrobiliśmy to ze względu na zmiany, które wprowadziliśmy w zbiorze danych.
Zmieniliśmy „df2” na „ zestaw danych ”, ponieważ w „zbiorze danych” przechowywaliśmy dane z 500 wierszami. Następnie dla „tytułu” zaktualizowaliśmy go na „recenzja” w wyniku zmiany nagłówków kolumn.
Po dodaniu tych kodów powinniśmy być w stanie uzyskać lub wygenerować 3 tabele, które są danymi1 dla częstotliwości słów, danymi2 dla częstotliwości bigramów i danymi3 dla częstotliwości trygramów.
Możesz także wykonać kolejną kopię tego zmienionego zestawu danych IMDB (2), aby później otworzyć inną tabelę.
Teraz w IMDB Dataset (2) otwórzmy tabelę data1 .
Po otwarciu tabeli data1 możemy zobaczyć listę słów oraz częstotliwość.
Jak widać, jesteśmy w stanie wykonać pewne procedury z głównego zbioru danych za pomocą powtarzalnych kodów, które wzięliśmy z Jupyter Notebook. Dzięki tym powtarzalnym kodom jesteśmy w stanie przekształcić zestaw danych w Pythonie i wygenerować tabelę częstotliwości słów, częstotliwości bigramów i częstotliwości trygramów bez ponownego wpisywania kodów .
W IMDB Dataset (3) otwórzmy tabelę data2 , aby zobaczyć częstotliwość bigramu.
W tabeli częstości bigramów możesz zobaczyć „ br ” zawarte na liście. Jest to prawdopodobnie związane z kodem HTML. Możemy po prostu wrócić i dodać coś innego, ale nie będziemy tego robić w tym samouczku.
Teraz, gdy dane zostały załadowane za pomocą powtarzalnych kodów, możemy zacząć tworzyć ich wizualizacje w LuckyTemplates. Na przykład wykres słupkowy dla częstotliwości każdego słowa.
Funkcje zdefiniowane przez użytkownika w języku Python | Omówienie
listy Pythona i pętli For w usłudze LuckyTemplates
przy użyciu języka Python w usłudze LuckyTemplates | Zestaw danych i funkcja łańcuchowa
Wniosek
Podsumowując, powtarzalne kody mogą pomóc w wykonywaniu pewnych procedur na zbiorze danych przy mniejszym wysiłku. Wiesz już, jak używać powtarzalnych kodów do przekształcania zestawu danych języka Python w usłudze LuckyTemplates. Można było również użyć funkcji .iloc do określenia wierszy i kolumn, które mają zostać wybrane podczas modyfikowania zestawu danych.
Ponadto utworzono kopie zestawów danych i utworzono wizualizację za pomocą wykresu słupkowego. Ta wizualizacja jest oparta na zbiorach danych Pythona, które stworzyliśmy i zmieniliśmy za pomocą powtarzalnych kodów.
Wszystkiego najlepszego,
gaelim
W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.
Odkryj różnorodne funkcje zbierania, które można wykorzystać w Power Automate. Zdobądź praktyczne informacje o funkcjach tablicowych i ich zastosowaniu.
Z tego samouczka dowiesz się, jak ocenić wydajność kodów DAX przy użyciu opcji Uruchom test porównawczy w DAX Studio.
Czym jest self w Pythonie: przykłady z życia wzięte
Dowiesz się, jak zapisywać i ładować obiekty z pliku .rds w R. Ten blog będzie również omawiał sposób importowania obiektów z R do LuckyTemplates.
Z tego samouczka języka kodowania DAX dowiesz się, jak używać funkcji GENERUJ i jak dynamicznie zmieniać tytuł miary.
W tym samouczku omówiono sposób korzystania z techniki wielowątkowych wizualizacji dynamicznych w celu tworzenia szczegółowych informacji na podstawie dynamicznych wizualizacji danych w raportach.
W tym artykule omówię kontekst filtra. Kontekst filtrowania to jeden z głównych tematów, z którym każdy użytkownik usługi LuckyTemplates powinien zapoznać się na początku.
Chcę pokazać, jak usługa online LuckyTemplates Apps może pomóc w zarządzaniu różnymi raportami i spostrzeżeniami generowanymi z różnych źródeł.
Dowiedz się, jak obliczyć zmiany marży zysku przy użyciu technik, takich jak rozgałęzianie miar i łączenie formuł języka DAX w usłudze LuckyTemplates.