Jak korzystać z wykresów ECDF w Pythonie i LuckyTemplates

Ten blog pokaże, jak korzystać z skumulowanego wykresu dystrybucyjnego , znanego również jako empiryczna skumulowana funkcja dystrybucji lub wykresy ECDF, i pokaże zalety korzystania z tej odmiany wykresu w porównaniu z innymi typami wykresów. Możesz obejrzeć pełny film tego samouczka na dole tego bloga .

Większość ludzi woli wykresy ECDF niż , aby zwizualizować dane, ponieważ wykreślają one bezpośrednio każdy punkt danych, a ta funkcja ułatwia użytkownikowi interakcję z wykresem. Dzisiaj dowiesz się, jak korzystać z ECDF w Pythonie i LuckyTemplates oraz udoskonalić swoje prezentacje i raporty dotyczące dystrybucji danych.

Spis treści

Rodzaje działek dystrybucyjnych
Kod wykresu histogramu
Działka KDE
Stylizacja wykresów ECDF
- Podstawy kodu wykresów ECDF
Wniosek

Rodzaje działek dystrybucyjnych

Zacznę od przefiltrowania moich danych w konkretny dzień, sobotę, i poniżej zobaczymy wszystkie te wykresy Pythona używane do opisywania rozkładów. Mamy tu nasz wykres ECDF, histogram, wykres KDE i wykres pudełkowy.

Jak korzystać z wykresów ECDF w Pythonie i LuckyTemplates

Wszystkie te wykresy opisują, w jaki sposób dane są rozprowadzane lub dystrybuowane. Na przykład, jeśli zejdziemy w dół i spojrzymy na histogram, zobaczymy, że większość tych wysokich koszy będzie tam, gdzie znajdują się nasze dane.

Jak korzystać z wykresów ECDF w Pythonie i LuckyTemplates

Za około 3,50 USD mamy najwyższy kosz na dane Napiwków w naszym zbiorze danych poniżej.

Jak korzystać z wykresów ECDF w Pythonie i LuckyTemplates

Możemy również użyć wykresu KDE, który daje nam inną metrykę, gdy patrzymy na dystrybucję. Histogram zajmuje się liczbą, która znajdzie się w tych pojemnikach, podczas gdy KDE zajmuje się gęstością.

Jak korzystać z wykresów ECDF w Pythonie i LuckyTemplates

Dzięki wykresowi KDE możesz określić, gdzie znajduje się większość naszych danych, wykrywając największą gęstość lub największe wybrzuszenie na wykresie, jeśli chcesz. Tak więc na powyższym obrazku możemy powiedzieć, że jest rozłożony gdzieś między 2 a 4 USD.

To samo odnosi się do wykresu pudełkowego, który pokazuje, że rozkład wynosi od 2 do 4 USD i tam będzie większość naszych danych. Używa mediany, poziomej linii dzielącej pudełko, aby dać nam wyobrażenie o tym, gdzie jest największa dystrybucja.

Jak korzystać z wykresów ECDF w Pythonie i LuckyTemplates

Następnie mamy wykres ECDF, na którym po lewej stronie osi y widać słowo Proporcja reprezentujące nasze percentyle. Opierając się na wykresie, przy cenie 3,50 USD, patrzymy na około 50% naszych danych, a przy cenie 5 USD i poniżej dystrybuowane jest 80% naszych danych.

Jak korzystać z wykresów ECDF w Pythonie i LuckyTemplates

Kod wykresu histogramu

Jak korzystać z wykresów ECDF w Pythonie i LuckyTemplates

Teraz pokażę ci kod dla każdego z tych wykresów, zaczynając od histogramu. Wszystkie mają bardzo podobne i powtarzalne kodowanie , dzięki czemu można je szybko pobrać za pomocą jednego kodu, takiego jak szablon.

Najpierw musimy zaimportować Seaborn i zapisać go jako sb, a następnie matplotlib.pyplot jako plt. Użyjemy stylu tła o nazwie ggplot i tej zmiennej matplotlib do przekazywania w różnych stylach.

Jak korzystać z wykresów ECDF w Pythonie i LuckyTemplates

Na przykład na poniższym obrazku widzimy, że w 11. wierszu dodajemy tytuł histogramu i rozmiary znaczników w kolejnych wierszach. Yticks i xticks reprezentują odpowiednio rozmiary x i y .

Jak korzystać z wykresów ECDF w Pythonie i LuckyTemplates

W 14. wierszu używamy zmiennej Seaborn, aby przekazać funkcję , która zwraca ten konkretny wykres, na przykład histplot w powyższym przykładzie, który reprezentuje wykres histogramu. Następnie przekazujemy dane z czwartej linii do funkcji jako zbiór danych.

Jak korzystać z wykresów ECDF w Pythonie i LuckyTemplates

Wszystko, co wprowadzisz do wartości, reprezentuje twój zestaw danych i usunie duplikaty. Następnie użyjemy x jako wskazówek i odcienia , który wraz z kolorem morskim umożliwia podzielenie danych według kategorii. Jeśli wrócimy do naszej wizualizacji, możemy mieć kategorie, w tym czas, czy palacz.

Jak korzystać z wykresów ECDF w Pythonie i LuckyTemplates

Działka KDE

W przypadku fabuły KDE wszystko jest prawie identyczne. Musimy tylko przekazać nowy parametr o nazwie odcień, aby uzyskać ten cieniowany wygląd. Poza tym odcień, dane i reszta są takie same.

Jak korzystać z wykresów ECDF w Pythonie i LuckyTemplates

W przypadku fabuły pudełkowej jest ona w większości podobna do innych działek, z wyjątkiem kilku drobnych różnic. Tutaj używamy funkcji boxplot , gdzie x to dzień, a y to wskazówki. Nie używamy również odcienia dla tej fabuły.

Jak korzystać z wykresów ECDF w Pythonie i LuckyTemplates

Jest to więc ta sama struktura co wykres ECDF, a jedyną różnicą jest zmienna Seaborn, gdzie przekazujemy wykres ECDF i używamy barwy jako dnia. Ale możemy też zmienić ten odcień na inną kategorię, którą mamy, na przykład palacza.

Jak korzystać z wykresów ECDF w Pythonie i LuckyTemplates

Jeśli pominiemy tę kategorię, otrzymamy wykres ECDF, który ma dwie różne linie. W tych rozkładach widzimy, że palacze mają więcej w odniesieniu do naszej konkretnej szerokości linii.

Jak korzystać z wykresów ECDF w Pythonie i LuckyTemplates

Osoby niepalące mają sto procent tych danych poniżej 6 USD, podczas gdy palacze mają je za 6 USD. Co ciekawe, nasi palacze mogą zostawiać większy napiwek w danym dniu.

Stylizacja wykresów ECDF

Jak korzystać z wykresów ECDF w Pythonie i LuckyTemplates

Teraz możemy dalej stylizować nasze wykresy ECDF, aby były bardziej reprezentacyjne. Na poniższym obrazku przedstawiono różne wykresy ECDF. Na pierwszym wykresie powiększyłem linie i użyłem innej palety kolorów.

Na pierwszym wykresie użyłem różnych parametrów wewnątrz funkcji. Jak widać poniżej, podałem paletę jako lato , a szerokość linii jako 5.

Jak korzystać z wykresów ECDF w Pythonie i LuckyTemplates

Porównałem też sobotę i niedzielę, dlatego są dwie różne zielone linie. Tutaj widzimy, że napiwek w wysokości 3 USD znajduje się na 45 percentylu w niedzielę i 70 percentylu w czwartek, co mówi nam, że ludzie zwykle zostawiają wyższe napiwki w niedzielę.

Jak korzystać z wykresów ECDF w Pythonie i LuckyTemplates

Możemy również zamienić osie X i Y, zamienić proporcje i końcówki wewnątrz naszego wykresu oraz zmienić paletę, tak jak na obrazku poniżej.

Tutaj widzimy, że napiwek w wysokości 2 USD znajduje się na 20. percentylu w niedzielę, co jest fioletową linią na wykresie. Tak więc dane są takie same jak na poprzednim wykresie ECDF i tylko prezentacja jest inna.

Jak korzystać z wykresów ECDF w Pythonie i LuckyTemplates

Mamy teraz inny wykres z tym samym zestawem danych i zachowujemy oryginalne pozycje osi, jak pokazano na powyższym obrazku. Tym razem różnica polega na tym, że kierunek linii jest odwrócony.

Styl wykresów ECDF

Jeśli spojrzymy na kod, wszystko, co robimy, to przekazanie parametru uzupełniającego równa się = prawda. To działanie pozwoli nam powiedzieć, że w zakresie 2 USD i powyżej dystrybuowane jest 80% naszych danych, zamiast mówić, że poniżej zakresu 2 USD dystrybuowane jest 20% naszych danych. Znów są to te same dane tylko w innym wyglądzie lub sposobie ich prezentacji.

Jak korzystać z wykresów ECDF w Pythonie i LuckyTemplates

A w naszym czwartym i ostatnim wykresie ECDF używamy Count zamiast proporcji.

Jak korzystać z wykresów ECDF w Pythonie i LuckyTemplates

Takie podejście jest pomocne, gdy mamy więcej niż kilka działek. Patrząc na kolumnę liczby na poniższym obrazku, widzimy, że w piątek nie ma wielu obserwacji, co mówi nam, że ludzie nie zostawiają wielu napiwków tego dnia.

Jak korzystać z wykresów ECDF w Pythonie i LuckyTemplates

Podstawy kodu wykresów ECDF

Jeśli spojrzymy na kod, znajdziesz Seaborn , co jest najważniejsze przy tworzeniu tej konkretnej fabuły. Mamy również matplotlib.pyplot do stylizacji, który możesz zapisać jako zmienną o nazwie plt .

Jak korzystać z wykresów ECDF w Pythonie i LuckyTemplates

Możemy następnie użyć tej zmiennej do stworzenia różnych stylów dla naszej konkretnej fabuły, takich jak dodanie tytułów i rozmiarów czcionek. Główną częścią twojego kodu będzie funkcja wykresu ECDF, którą wprowadzamy wraz z Seaborn.

Wykres punktowy w skrypcie R: jak tworzyć i importować
funkcje zdefiniowane przez użytkownika w języku Python | Przegląd
GGPLOT2 w R: Wizualizacje z ESQUISSE

Wniosek

To były sposoby wykorzystania różnych wykresów dystrybucji, w tym wykresów histogramu, KDE, Box i ECDF. Nauczyłeś się również czterech sposobów przedstawiania wykresu ECDF przy użyciu tego samego zestawu danych. Możesz użyć dowolnego podejścia w zależności od preferencji.

Zawsze pamiętaj o zabraniu ze sobą niezbędnych bibliotek do tworzenia fabuły i użyciu odpowiedniej funkcji. Następnie wystarczy zmienić wizualne i stylistyczne aspekty fabuły, takie jak położenie osi i odcienie.

Wszystkiego najlepszego,

Zostaw komentarz

Dodawaj, usuwaj i zmieniaj nazwy kolumn w R za pomocą Dplyr

Dodawaj, usuwaj i zmieniaj nazwy kolumn w R za pomocą Dplyr

W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.

Funkcje zbierania w Microsoft Power Automate

Funkcje zbierania w Microsoft Power Automate

Odkryj różnorodne funkcje zbierania, które można wykorzystać w Power Automate. Zdobądź praktyczne informacje o funkcjach tablicowych i ich zastosowaniu.

Oceń wydajność kodu DAX w DAX Studio

Oceń wydajność kodu DAX w DAX Studio

Z tego samouczka dowiesz się, jak ocenić wydajność kodów DAX przy użyciu opcji Uruchom test porównawczy w DAX Studio.

Czym jest self w Pythonie: przykłady z życia wzięte

Czym jest self w Pythonie: przykłady z życia wzięte

Czym jest self w Pythonie: przykłady z życia wzięte

Jak zapisać i załadować plik RDS w R

Jak zapisać i załadować plik RDS w R

Dowiesz się, jak zapisywać i ładować obiekty z pliku .rds w R. Ten blog będzie również omawiał sposób importowania obiektów z R do LuckyTemplates.

Powrót do pierwszych N dni roboczych — rozwiązanie języka kodowania DAX

Powrót do pierwszych N dni roboczych — rozwiązanie języka kodowania DAX

Z tego samouczka języka kodowania DAX dowiesz się, jak używać funkcji GENERUJ i jak dynamicznie zmieniać tytuł miary.

Zaprezentuj spostrzeżenia przy użyciu wielowątkowej techniki dynamicznych wizualizacji w usłudze LuckyTemplates

Zaprezentuj spostrzeżenia przy użyciu wielowątkowej techniki dynamicznych wizualizacji w usłudze LuckyTemplates

W tym samouczku omówiono sposób korzystania z techniki wielowątkowych wizualizacji dynamicznych w celu tworzenia szczegółowych informacji na podstawie dynamicznych wizualizacji danych w raportach.

Najlepsze wskazówki dotyczące korzystania z aplikacji w usłudze online LuckyTemplates

Najlepsze wskazówki dotyczące korzystania z aplikacji w usłudze online LuckyTemplates

Chcę pokazać, jak usługa online LuckyTemplates Apps może pomóc w zarządzaniu różnymi raportami i spostrzeżeniami generowanymi z różnych źródeł.

Wprowadzenie do filtrowania kontekstu w usłudze LuckyTemplates

Wprowadzenie do filtrowania kontekstu w usłudze LuckyTemplates

W tym artykule omówię kontekst filtra. Kontekst filtrowania to jeden z głównych tematów, z którym każdy użytkownik usługi LuckyTemplates powinien zapoznać się na początku.

Analizuj zmiany marży zysku w godzinach nadliczbowych — Analizuj za pomocą LuckyTemplates i DAX

Analizuj zmiany marży zysku w godzinach nadliczbowych — Analizuj za pomocą LuckyTemplates i DAX

Dowiedz się, jak obliczyć zmiany marży zysku przy użyciu technik, takich jak rozgałęzianie miar i łączenie formuł języka DAX w usłudze LuckyTemplates.