Zestaw danych Pythona: stosowanie powtarzalnych kodów

Na tym blogu dowiesz się, jak zastosować powtarzalne kody lub funkcje do zestawów danych Pythona , aby wygenerować ten sam typ danych wyjściowych. Pomoże Ci to zwiększyć wydajność i włożyć mniej wysiłku w pobieranie pewnych danych z różnych zestawów danych. W tym samouczku wykorzystamy istniejący kod, który wcześniej utworzyłem jako przykład.

Dowiesz się również, jak tworzyć kopie zestawów danych, aby uniknąć uszkodzenia oryginalnej wersji zestawu danych, importować biblioteki i funkcje przy użyciu powtarzalnych kodów oraz tworzyć wizualizacje w usłudze LuckyTemplates .

W przypadku tego bloga polecam cały czas pobierać plik CSV i przenosić go do LuckyTemplates. Pokażę również, jak możemy przenieść ten plik CSV i umieścić go bezpośrednio w usłudze LuckyTemplates, na wszelki wypadek.

Spis treści

Pobieranie pliku CSV w usłudze LuckyTemplates

Aby przenieść plik CSV do usługi LuckyTemplates, pierwszą rzeczą, którą musisz zrobić, to kliknąć menu „ Pobierz dane ” na wstążce Strona główna .

Zestaw danych Pythona: stosowanie powtarzalnych kodów

Po kliknięciu pojawi się menu rozwijane, z którego należy wybrać opcję „ Tekst/CSV ”.

Zestaw danych Pythona: stosowanie powtarzalnych kodów

Po wybraniu opcji „ Tekst / CSV ”Otworzy się okno, w którym możemy wybrać plik, który chcemy wprowadzić do LuckyTemplates. W tym przykładzie użyjmy pliku IMDB Dataset

Zestaw danych Pythona: stosowanie powtarzalnych kodów

Po otwarciu pliku IMDB Dataset.csv zobaczysz kolejne okno wyświetlające dane zawarte w tym pliku. Ponieważ ten plik zawiera dużą ilość danych, zawiera podgląd tylko niektórych danych.

Pierwszą rzeczą, którą zrobimy w tym pliku, jest jego przekształcenie. Aby to zrobić, po prostu kliknij opcję „ Przekształć dane ” w prawej dolnej części okna.

Zestaw danych Pythona: stosowanie powtarzalnych kodów

Tworzenie kopii zestawu danych Pythona

Zanim wprowadzimy jakiekolwiek zmiany w tym zbiorze danych, ważne jest, aby utworzyć kopię oryginalnego zestawu danych. Aby to zrobić, kliknij prawym przyciskiem myszy zestaw danych. 

Zestaw danych Pythona: stosowanie powtarzalnych kodów

Następnie z menu wybierz „ Kopiuj ”.

Zestaw danych Pythona: stosowanie powtarzalnych kodów

Na koniec kliknij prawym przyciskiem myszy panel Zapytania , a następnie wybierz „ Wklej ” z opcji.

Zestaw danych Pythona: stosowanie powtarzalnych kodów

Po zastosowaniu tych kroków powinieneś mieć kopię oryginalnego zbioru danych IMDB w panelu Zapytania .

Zestaw danych Pythona: stosowanie powtarzalnych kodów

Przekształcanie zbioru danych przez uruchomienie skryptu w języku Python

Przekształcając plik CSV, będziesz w stanie podzielić duże ilości zestawów danych Pythona na mniejsze. Możemy to zrobić, stosując skrypt Pythona w tym pliku.

Ale najpierw musimy upewnić się, że nagłówki są odpowiednio ułożone. Kliknij menu główne , a następnie poszukaj opcji „ Użyj pierwszego wiersza jako nagłówków ” i kliknij ją.

Zestaw danych Pythona: stosowanie powtarzalnych kodów

Po kliknięciu opcji „ Użyj pierwszego wiersza jako nagłówków ” nagłówki zmieniły się teraz na dane z poprzednich pierwszych wierszy, którymi są „ przegląd ” i „ nastroj ”.

Zestaw danych Pythona: stosowanie powtarzalnych kodów

Następnie przejdź do menu Przekształć i kliknij opcję „ Uruchom skrypt Pythona w grupie opcji „ Skrypty ”.

Zestaw danych Pythona: stosowanie powtarzalnych kodów

Następnie pojawi się okno „ Uruchom skrypt Pythona ”. W tym oknie możesz uruchomić dowolny skrypt Pythona, aby przekształcić bieżący plik, którego używasz. W tym przykładzie zamierzam zmniejszyć zestaw danych, uruchamiając następujący kod.

Zestaw danych Pythona: stosowanie powtarzalnych kodów

Użyłem funkcji .iloc w zbiorze danych, aby wybrać określone wiersze i kolumny z zestawu danych IMDB. Następnie w parametrach wybrałem wszystkie pierwsze 500 wierszy i wszystkie kolumny w zbiorze danych IMDB. Zapisałem go w zmiennej o nazwie „ dataset ”.

Po wykonaniu skryptu powinniśmy zobaczyć „dataset” czyli zmienną, którą stworzyliśmy w poprzednim kroku. Zawiera dane, które zmieniliśmy za pomocą skryptu Pythona.

Zestaw danych Pythona: stosowanie powtarzalnych kodów

Sprawdzanie zbioru danych

Aby otworzyć tabelę zestawu danych , po prostu kliknijTabela w kolumnie Wartość .

Zestaw danych Pythona: stosowanie powtarzalnych kodów

Widzimy, że ten zestaw danych jest teraz ograniczony do 500 wierszy .

Zestaw danych Pythona: stosowanie powtarzalnych kodów

Teraz, gdy podzieliliśmy nasz zbiór danych Pythona na 500 wierszy, następną rzeczą, którą zamierzamy zrobić, jest zaimportowanie potrzebnych nam bibliotek. Zrobimy to przy użyciu tej samej procedury, którą zastosowaliśmy przy zmianie zawartości zestawu danych IMDB. Ma to na celu upewnienie się, że naszym kodem można zarządzać w niektórych scenariuszach przy mniejszej liczbie zmian.

Importowanie bibliotek i funkcji przy użyciu powtarzalnych kodów

Aby zaimportować biblioteki, wróćmy do naszego notatnika i skopiujmy potrzebne biblioteki. Pamiętaj, że przed rozpoczęciem tego samouczka utworzyłem już biblioteki, które zamierzamy skopiować. Po prostu ponownie ich używam, aby wyraźnie zrozumieć, jak używać funkcji jako powtarzalnych kodów.

Zestaw danych Pythona: stosowanie powtarzalnych kodów

Gdy biblioteki zostaną skopiowane, wklej je w oknie „ Run Python Script ” i nie zapomnij dodać wiersza „ from collections import Counter ” na końcu skryptu. 

Zestaw danych Pythona: stosowanie powtarzalnych kodów

Następnie skopiujemy funkcję czyszczenia danych z naszego notatnika i dodamy ją do skryptu Pythona w LuckyTemplates.

Zestaw danych Pythona: stosowanie powtarzalnych kodów

Dodamy go poniżej bibliotek. 

Zestaw danych Pythona: stosowanie powtarzalnych kodów

Skopiujemy również kod do wywołania funkcji, którą właśnie dodaliśmy.

Zestaw danych Pythona: stosowanie powtarzalnych kodów

Następnie wklej go do skryptu języka Python w usłudze LuckyTemplates.

Zestaw danych Pythona: stosowanie powtarzalnych kodów

Generowanie tabel danych

Teraz, gdy dodaliśmy kod wywołujący funkcję czyszczenia danych , musimy zamienić „ df2 ” na „ dataset ”, a „ title ” na „ review ”. Zrobiliśmy to ze względu na zmiany, które wprowadziliśmy w zbiorze danych.

Zmieniliśmy „df2” na „ zestaw danych ”, ponieważ w „zbiorze danych” przechowywaliśmy dane z 500 wierszami. Następnie dla „tytułu” zaktualizowaliśmy go na „recenzja” w wyniku zmiany nagłówków kolumn.

Po dodaniu tych kodów powinniśmy być w stanie uzyskać lub wygenerować 3 tabele, które są danymi1 dla częstotliwości słów, danymi2 dla częstotliwości bigramów i danymi3 dla częstotliwości trygramów.

Zestaw danych Pythona: stosowanie powtarzalnych kodów

Możesz także wykonać kolejną kopię tego zmienionego zestawu danych IMDB (2), aby później otworzyć inną tabelę.

Zestaw danych Pythona: stosowanie powtarzalnych kodów

Teraz w IMDB Dataset (2) otwórzmy tabelę data1

Zestaw danych Pythona: stosowanie powtarzalnych kodów

 Po otwarciu tabeli data1 możemy zobaczyć listę słów oraz częstotliwość.

Zestaw danych Pythona: stosowanie powtarzalnych kodów

Jak widać, jesteśmy w stanie wykonać pewne procedury z głównego zbioru danych za pomocą powtarzalnych kodów, które wzięliśmy z Jupyter Notebook. Dzięki tym powtarzalnym kodom jesteśmy w stanie przekształcić zestaw danych w Pythonie i wygenerować tabelę częstotliwości słów, częstotliwości bigramów i częstotliwości trygramów bez ponownego wpisywania kodów .

W IMDB Dataset (3) otwórzmy tabelę data2 , aby zobaczyć częstotliwość bigramu.

Zestaw danych Pythona: stosowanie powtarzalnych kodów

W tabeli częstości bigramów możesz zobaczyć „ br ” zawarte na liście. Jest to prawdopodobnie związane z kodem HTML. Możemy po prostu wrócić i dodać coś innego, ale nie będziemy tego robić w tym samouczku.

Teraz, gdy dane zostały załadowane za pomocą powtarzalnych kodów, możemy zacząć tworzyć ich wizualizacje w LuckyTemplates. Na przykład wykres słupkowy dla częstotliwości każdego słowa. 

Zestaw danych Pythona: stosowanie powtarzalnych kodów


Funkcje zdefiniowane przez użytkownika w języku Python | Omówienie
listy Pythona i pętli For w usłudze LuckyTemplates
przy użyciu języka Python w usłudze LuckyTemplates | Zestaw danych i funkcja łańcuchowa

Wniosek

Podsumowując, powtarzalne kody mogą pomóc w wykonywaniu pewnych procedur na zbiorze danych przy mniejszym wysiłku. Wiesz już, jak używać powtarzalnych kodów do przekształcania zestawu danych języka Python w usłudze LuckyTemplates. Można było również użyć funkcji .iloc do określenia wierszy i kolumn, które mają zostać wybrane podczas modyfikowania zestawu danych.

Ponadto utworzono kopie zestawów danych i utworzono wizualizację za pomocą wykresu słupkowego. Ta wizualizacja jest oparta na zbiorach danych Pythona, które stworzyliśmy i zmieniliśmy za pomocą powtarzalnych kodów.

Wszystkiego najlepszego,

gaelim

Leave a Comment

Dodawaj, usuwaj i zmieniaj nazwy kolumn w R za pomocą Dplyr

Dodawaj, usuwaj i zmieniaj nazwy kolumn w R za pomocą Dplyr

W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.

Funkcje zbierania w Microsoft Power Automate

Funkcje zbierania w Microsoft Power Automate

Odkryj różnorodne funkcje zbierania, które można wykorzystać w Power Automate. Zdobądź praktyczne informacje o funkcjach tablicowych i ich zastosowaniu.

Oceń wydajność kodu DAX w DAX Studio

Oceń wydajność kodu DAX w DAX Studio

Z tego samouczka dowiesz się, jak ocenić wydajność kodów DAX przy użyciu opcji Uruchom test porównawczy w DAX Studio.

Czym jest self w Pythonie: przykłady z życia wzięte

Czym jest self w Pythonie: przykłady z życia wzięte

Czym jest self w Pythonie: przykłady z życia wzięte

Jak zapisać i załadować plik RDS w R

Jak zapisać i załadować plik RDS w R

Dowiesz się, jak zapisywać i ładować obiekty z pliku .rds w R. Ten blog będzie również omawiał sposób importowania obiektów z R do LuckyTemplates.

Powrót do pierwszych N dni roboczych — rozwiązanie języka kodowania DAX

Powrót do pierwszych N dni roboczych — rozwiązanie języka kodowania DAX

Z tego samouczka języka kodowania DAX dowiesz się, jak używać funkcji GENERUJ i jak dynamicznie zmieniać tytuł miary.

Zaprezentuj spostrzeżenia przy użyciu wielowątkowej techniki dynamicznych wizualizacji w usłudze LuckyTemplates

Zaprezentuj spostrzeżenia przy użyciu wielowątkowej techniki dynamicznych wizualizacji w usłudze LuckyTemplates

W tym samouczku omówiono sposób korzystania z techniki wielowątkowych wizualizacji dynamicznych w celu tworzenia szczegółowych informacji na podstawie dynamicznych wizualizacji danych w raportach.

Wprowadzenie do filtrowania kontekstu w usłudze LuckyTemplates

Wprowadzenie do filtrowania kontekstu w usłudze LuckyTemplates

W tym artykule omówię kontekst filtra. Kontekst filtrowania to jeden z głównych tematów, z którym każdy użytkownik usługi LuckyTemplates powinien zapoznać się na początku.

Najlepsze wskazówki dotyczące korzystania z aplikacji w usłudze online LuckyTemplates

Najlepsze wskazówki dotyczące korzystania z aplikacji w usłudze online LuckyTemplates

Chcę pokazać, jak usługa online LuckyTemplates Apps może pomóc w zarządzaniu różnymi raportami i spostrzeżeniami generowanymi z różnych źródeł.

Analizuj zmiany marży zysku w godzinach nadliczbowych — Analizuj za pomocą LuckyTemplates i DAX

Analizuj zmiany marży zysku w godzinach nadliczbowych — Analizuj za pomocą LuckyTemplates i DAX

Dowiedz się, jak obliczyć zmiany marży zysku przy użyciu technik, takich jak rozgałęzianie miar i łączenie formuł języka DAX w usłudze LuckyTemplates.