Zestawy danych w Pandach z ProfileReport() | Python w LuckyTemplates

Jednym z najczęstszych pytań, które napotkasz jako analityk danych, jest najlepszy sposób eksploracji danego zestawu danych. Jest to ważna kwestia przede wszystkim wtedy, gdy chcesz zebrać wszystkie dane w raporcie, który będzie łatwy do interpretacji przez Ciebie lub Twój zespół. W tym samouczku pokażę, jak wydajnie eksplorować zbiory danych w Pandas za pomocą ProfileReport(). Możesz obejrzeć pełny film z tego samouczka na dole tego bloga.

Kiedy otrzymujesz zestaw danych, co robisz? Jak eksplorujesz zbiór danych? Przede wszystkim, jeśli chcesz zebrać to wszystko w łatwy do odczytania raport dla siebie, dla współpracowników itp., Musisz wziąć pod uwagę wiele rzeczy.

Najpierw zastanów się, jakiego rodzaju są to zmienne, ponieważ to wpłynie na to, jak je analizujesz i jak je traktujesz. Dane oznaczają to, co jest dane. Brakuje więc danych, których nie mamy. Kolejną rzeczą jest wizualizacja tych relacji. Jak oni wyglądają? Chcemy wcześnie i często wykorzystywać tę moc wizualizacji.

To wiele powiązanych ze sobą złożonych pytań. Dobrą rzeczą jest to, że dostępna jest funkcja raportu profilowania, która da nam te odpowiedzi. Spójrzmy więc na to wszystko w Pythonie.

Spis treści

Eksploruj zbiory danych w pandach za pomocą funkcji ProfileReport().
Wniosek

Eksploruj zbiory danych w pandach za pomocą funkcji ProfileReport().

Najpierw załadujemy zestaw danych.

Zestawy danych w Pandach z ProfileReport() | Python w LuckyTemplates

Następnie z pandas_profiling zaimportujemy to, co nazywa się profilem report. Teraz, jeśli pojawi się tutaj błąd, prawdopodobnie musisz go zainstalować. Używam Anacondy. Tobie też radzę to wykorzystać. Uruchommy to, a następnie wydrukujmy.

Zestawy danych w Pandach z ProfileReport() | Python w LuckyTemplates

Więc oto jest. Mamy Przegląd . To daje nam podział typów zmiennych. Mamy statystyki zbioru danych. Widzimy liczbę kolumn wierszy i tak dalej. Zaletą tego raportu jest to, że jest jak punkt kompleksowej obsługi i wygląda naprawdę ładnie. Ma bardzo atrakcyjną prezentację.

Zestawy danych w Pandach z ProfileReport() | Python w LuckyTemplates

Przewijamy tutaj i mamy Variables . Otrzymujemy wizualizację i możemy przełączać więcej szczegółów na temat zmiennej. Mamy flagi, które wskazują rzeczy, które mogą być trochę niezwykłe. Mamy również te alerty i wiele innych funkcji, które dostarczą nam więcej informacji. I to dla każdej zmiennej.

Zestawy danych w Pandach z ProfileReport() | Python w LuckyTemplates

Kontynuując przewijanie w dół, znajdziemy Interakcje, w których tworzone są wykresy punktowe do wizualizacji danych.

Zestawy danych w Pandach z ProfileReport() | Python w LuckyTemplates

A potem mamy Correlations , które podsumowują związek.

Zestawy danych w Pandach z ProfileReport() | Python w LuckyTemplates

Dalej są braki danych , które są bardzo ważne. Jak widać, brakuje nam tutaj pewnych wartości i chcemy wiedzieć, dlaczego. Te wizualizacje mają nam w tym pomóc. Możemy kliknąć każdą wizualizację i przeanalizować dane.

Zestawy danych w Pandach z ProfileReport() | Python w LuckyTemplates

Na koniec mamy próbkę. Możemy to uzyskać na wiele sposobów, ale wszystko, co robi, to po prostu wydrukowanie kilku pierwszych wierszy, o czym warto wiedzieć.

Zestawy danych w Pandach z ProfileReport() | Python w LuckyTemplates

MultiIndex w pandach dla danych wielopoziomowych lub hierarchicznych
Jak ładować przykładowe zestawy danych w Pythonie
Python w LuckyTemplates: jak zainstalować i skonfigurować

Wniosek

W ten sposób eksplorujesz zbiory danych w Pandas za pomocą funkcji ProfileReport(). Istnieje wiele sposobów dzielenia i dzielenia danych. Pomyśl o wszystkich kombinacjach permutacji danych. To nie będzie w stanie zrobić wszystkiego za Ciebie, ale to naprawdę dobry początek.

Kiedy eksplorujemy dane, jest to naprawdę proces iteracyjny. Nie ma jednej magicznej pigułki tak bardzo, jak byśmy tego chcieli. Jednak ProfilerReport() jest naprawdę świetnym narzędziem. Dostajemy dużo informacji i tylko jedną linijkę kodu. Jest to bezpłatne narzędzie, więc mam nadzieję, że możesz go używać we własnej pracy. Daj nam znać, jak to robisz.

Wszystkiego najlepszego!

Zostaw komentarz

Dodawaj, usuwaj i zmieniaj nazwy kolumn w R za pomocą Dplyr

Dodawaj, usuwaj i zmieniaj nazwy kolumn w R za pomocą Dplyr

W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.

Funkcje zbierania w Microsoft Power Automate

Funkcje zbierania w Microsoft Power Automate

Odkryj różnorodne funkcje zbierania, które można wykorzystać w Power Automate. Zdobądź praktyczne informacje o funkcjach tablicowych i ich zastosowaniu.

Oceń wydajność kodu DAX w DAX Studio

Oceń wydajność kodu DAX w DAX Studio

Z tego samouczka dowiesz się, jak ocenić wydajność kodów DAX przy użyciu opcji Uruchom test porównawczy w DAX Studio.

Czym jest self w Pythonie: przykłady z życia wzięte

Czym jest self w Pythonie: przykłady z życia wzięte

Czym jest self w Pythonie: przykłady z życia wzięte

Jak zapisać i załadować plik RDS w R

Jak zapisać i załadować plik RDS w R

Dowiesz się, jak zapisywać i ładować obiekty z pliku .rds w R. Ten blog będzie również omawiał sposób importowania obiektów z R do LuckyTemplates.

Powrót do pierwszych N dni roboczych — rozwiązanie języka kodowania DAX

Powrót do pierwszych N dni roboczych — rozwiązanie języka kodowania DAX

Z tego samouczka języka kodowania DAX dowiesz się, jak używać funkcji GENERUJ i jak dynamicznie zmieniać tytuł miary.

Zaprezentuj spostrzeżenia przy użyciu wielowątkowej techniki dynamicznych wizualizacji w usłudze LuckyTemplates

Zaprezentuj spostrzeżenia przy użyciu wielowątkowej techniki dynamicznych wizualizacji w usłudze LuckyTemplates

W tym samouczku omówiono sposób korzystania z techniki wielowątkowych wizualizacji dynamicznych w celu tworzenia szczegółowych informacji na podstawie dynamicznych wizualizacji danych w raportach.

Najlepsze wskazówki dotyczące korzystania z aplikacji w usłudze online LuckyTemplates

Najlepsze wskazówki dotyczące korzystania z aplikacji w usłudze online LuckyTemplates

Chcę pokazać, jak usługa online LuckyTemplates Apps może pomóc w zarządzaniu różnymi raportami i spostrzeżeniami generowanymi z różnych źródeł.

Wprowadzenie do filtrowania kontekstu w usłudze LuckyTemplates

Wprowadzenie do filtrowania kontekstu w usłudze LuckyTemplates

W tym artykule omówię kontekst filtra. Kontekst filtrowania to jeden z głównych tematów, z którym każdy użytkownik usługi LuckyTemplates powinien zapoznać się na początku.

Analizuj zmiany marży zysku w godzinach nadliczbowych — Analizuj za pomocą LuckyTemplates i DAX

Analizuj zmiany marży zysku w godzinach nadliczbowych — Analizuj za pomocą LuckyTemplates i DAX

Dowiedz się, jak obliczyć zmiany marży zysku przy użyciu technik, takich jak rozgałęzianie miar i łączenie formuł języka DAX w usłudze LuckyTemplates.