Funkcja Seaborn w Pythonie do wizualizacji dystrybucji zmiennej

Podczas pracy ze zbiorem danych, który składa się z wielu zmiennych, najlepiej jest zrozumieć, w jaki sposób one się różnią i wchodzą ze sobą w interakcje. W tym samouczku zademonstruję, jak można użyć funkcji Seaborn w Pythonie do wizualizacji alternatyw dla rozkładu zmiennej. Możesz obejrzeć pełny film z tego samouczka na dole tego bloga.

Spis treści

Używanie funkcji Seaborn w Pythonie

Zademonstruję to na zbiorze danych MPG, który jest dostępny w Seaborn. Przejdźmy więc do przodu i zaimportujmy wszystkie potrzebne pakiety, a także wszelkie potrzebne dane. Przyjrzymy się rozkładowi zmiennej MPG tutaj i temu, jak się różnią. Dwa popularne sposoby na zrobienie tego to histogram i boxplot .

Funkcja Seaborn w Pythonie do wizualizacji dystrybucji zmiennej

Więc użyję funkcji displot (DIS dla dystrybucji). Następnie muszę określić, jaki to zestaw danych i jaką zmienną umieścimy na osi X. A dzięki temu mamy dystrybucję.

To jest całkiem dobre. Bardzo łatwo jest zobaczyć cały rozkład i kształt. Jednak ta wizualizacja dystrybucji ma kilka niedociągnięć. Po pierwsze, liczba używanych przez nas pojemników jest prawdopodobnie dowolna. Inną rzeczą jest to, że niekoniecznie możemy od razu wiedzieć, jaka jest średnia zmiennej.

Funkcja Seaborn w Pythonie do wizualizacji dystrybucji zmiennej

Fajną rzeczą w Seaborn jest to, że kiedy już ustawię, jaką zmienną chcę, gdzie i jakiego zestawu danych używam, tworzenie nowej wizualizacji jest naprawdę proste. Teraz przejdziemy do wykresu pudełkowego. Boxplot nie używa pojemników.

Chodzi o to, że możemy zobaczyć wartość kwartyla naprawdę wyraźnie, konkretnie medianę, i widzimy inne wartości kwartyla. Widzimy, że istnieje wartość odstająca, a to jest bardzo precyzyjny spisek. Problem boxplot polega na tym, że jest precyzyjny w przypadku rzeczy, o które generalnie wielu użytkowników biznesowych prawdopodobnie nie dba.

Funkcja Seaborn w Pythonie do wizualizacji dystrybucji zmiennej

Tak więc ta fabuła jest trochę trudna dla osób niebędących statystykami, aby naprawdę uzyskać dużą wartość. I znowu agreguje dane, więc tracimy wiele szczegółów. Trudno dokładnie określić, jak to wygląda. Widzimy, że istnieje wartość odstająca. Widzimy, że większość wartości jest tutaj. Histogram daje nam bardziej intuicyjny sposób patrzenia na to.

To są oba dobre wątki. Obaj mają swoje cele. Przyjrzyjmy się kilku alternatywom wykorzystującym Seaborn do wizualizacji. Będziemy trzymać się MPG dla dystrybucji tej zmiennej.

Podobnie jak w przypadku boxplot, tutaj widać, że mediana jest wyraźnie zaznaczona. Widzimy również rozstęp kwartylowy i możemy lepiej przyjrzeć się ogólnemu rozkładowi. To też jest coś w rodzaju histogramu. Nazywa się to wykresem oszacowania gęstości jądra lub wykresem KDE. To płynna wersja histogramu. Nie stosujemy żadnego arbitralnego kategoryzowania. Tutaj wszystko jest wygładzone do ciągłego zakresu.

Funkcja Seaborn w Pythonie do wizualizacji dystrybucji zmiennej

Jest to swego rodzaju hybryda tych dwóch podejść i naprawdę eliminuje niektóre niedociągnięcia. Jednak w zależności od odbiorców mogą mieć naprawdę problemy z patrzeniem na to. Mogą nie być do tego przyzwyczajeni, ale ma to pewne zalety w porównaniu z tradycyjnym podejściem.

W tym podejściu nie agregujemy już danych. Każdy pojedynczy punkt jest wykreślany. To wymaga elementów wykresu punktowego, prawda? Jeśli myślisz o wykresie punktowym, wykreślamy każdy pojedynczy punkt na współrzędnych X i Y.

Funkcja Seaborn w Pythonie do wizualizacji dystrybucji zmiennej

Na koniec mamy stripplot . To, co tutaj robimy, to branie tego rozkładu i losowe rozpraszanie. Jest to proces losowy. Nie próbujemy już nadać temu kształtowi dystrybucji. Problem polega na tym, że wszystkie te zbitki wpadają na siebie, więc może to nie być dobre w zależności od tego, co próbujesz zrobić. Może chcesz pokolorować je według grup lub coś w tym rodzaju, więc istnieje taka opcja.

Funkcja Seaborn w Pythonie do wizualizacji dystrybucji zmiennej

Możemy zmienić jitter na 0,25 i zobaczyć, że wraz ze wzrostem jittera punkty te są nieco bardziej rozłożone.

Funkcja Seaborn w Pythonie do wizualizacji dystrybucji zmiennej

Jednak za każdym razem, gdy je uruchamiam, będą wyglądać nieco inaczej. Jeśli więc chcesz się tego pozbyć i sprawić, by za każdym razem było tak samo, możesz zaimportować numpy jako np . To, co to robi, nazywa się ustawieniem losowego materiału siewnego.

Za każdym razem, gdy uruchamiam coś, co ma związek z liczbami losowymi, użyje tych samych liczb losowych. Rzeczy nie zmieniają się losowo po ponownym uruchomieniu. Może to być dobre dla każdego rodzaju symulacji, którą wykonujesz, co często zdarza się w nauce o danych i analityce z tą wizualizacją. Więc teraz, za każdym razem, gdy uruchamiam tę fabułę, otrzymamy ten sam wygląd.

Funkcja Seaborn w Pythonie do wizualizacji dystrybucji zmiennej

Mogę tu również dodać początek Y i teraz widzimy, że tworzymy rozkład dwuwariantowy. Bierzemy dystrybucję przebiegu i dzielimy ją według pochodzenia.

Funkcja Seaborn w Pythonie do wizualizacji dystrybucji zmiennej


Jak używać skryptu w języku Python w usłudze LuckyTemplates
Skrypty w języku Python w usłudze LuckyTemplates Raporty danych
Zestawy danych w usłudze Pandas za pomocą funkcji ProfileReport() | Python w LuckyTemplates

Wniosek

Są to alternatywy dla wizualizacji rozkładów jednej zmiennej. Wszystkie mają swoje wady i zalety. To nie znaczy, że nigdy nie używaj boxplotu ani histogramu, ale po prostu powiedz, oto kilka innych opcji, w zależności od tego, co próbujesz pokazać.

Wszystkie są prawie tak samo łatwe do wykonania, jak inne, gdy używamy funkcji Seaborn w Pythonie. Jeśli chcesz dowiedzieć się więcej o Pythonie , sprawdź poniższe linki.

Wszystkiego najlepszego!

Leave a Comment

Dodawaj, usuwaj i zmieniaj nazwy kolumn w R za pomocą Dplyr

Dodawaj, usuwaj i zmieniaj nazwy kolumn w R za pomocą Dplyr

W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.

Funkcje zbierania w Microsoft Power Automate

Funkcje zbierania w Microsoft Power Automate

Odkryj różnorodne funkcje zbierania, które można wykorzystać w Power Automate. Zdobądź praktyczne informacje o funkcjach tablicowych i ich zastosowaniu.

Oceń wydajność kodu DAX w DAX Studio

Oceń wydajność kodu DAX w DAX Studio

Z tego samouczka dowiesz się, jak ocenić wydajność kodów DAX przy użyciu opcji Uruchom test porównawczy w DAX Studio.

Czym jest self w Pythonie: przykłady z życia wzięte

Czym jest self w Pythonie: przykłady z życia wzięte

Czym jest self w Pythonie: przykłady z życia wzięte

Jak zapisać i załadować plik RDS w R

Jak zapisać i załadować plik RDS w R

Dowiesz się, jak zapisywać i ładować obiekty z pliku .rds w R. Ten blog będzie również omawiał sposób importowania obiektów z R do LuckyTemplates.

Powrót do pierwszych N dni roboczych — rozwiązanie języka kodowania DAX

Powrót do pierwszych N dni roboczych — rozwiązanie języka kodowania DAX

Z tego samouczka języka kodowania DAX dowiesz się, jak używać funkcji GENERUJ i jak dynamicznie zmieniać tytuł miary.

Zaprezentuj spostrzeżenia przy użyciu wielowątkowej techniki dynamicznych wizualizacji w usłudze LuckyTemplates

Zaprezentuj spostrzeżenia przy użyciu wielowątkowej techniki dynamicznych wizualizacji w usłudze LuckyTemplates

W tym samouczku omówiono sposób korzystania z techniki wielowątkowych wizualizacji dynamicznych w celu tworzenia szczegółowych informacji na podstawie dynamicznych wizualizacji danych w raportach.

Wprowadzenie do filtrowania kontekstu w usłudze LuckyTemplates

Wprowadzenie do filtrowania kontekstu w usłudze LuckyTemplates

W tym artykule omówię kontekst filtra. Kontekst filtrowania to jeden z głównych tematów, z którym każdy użytkownik usługi LuckyTemplates powinien zapoznać się na początku.

Najlepsze wskazówki dotyczące korzystania z aplikacji w usłudze online LuckyTemplates

Najlepsze wskazówki dotyczące korzystania z aplikacji w usłudze online LuckyTemplates

Chcę pokazać, jak usługa online LuckyTemplates Apps może pomóc w zarządzaniu różnymi raportami i spostrzeżeniami generowanymi z różnych źródeł.

Analizuj zmiany marży zysku w godzinach nadliczbowych — Analizuj za pomocą LuckyTemplates i DAX

Analizuj zmiany marży zysku w godzinach nadliczbowych — Analizuj za pomocą LuckyTemplates i DAX

Dowiedz się, jak obliczyć zmiany marży zysku przy użyciu technik, takich jak rozgałęzianie miar i łączenie formuł języka DAX w usłudze LuckyTemplates.