Dodawaj, usuwaj i zmieniaj nazwy kolumn w R za pomocą Dplyr
W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.
Ten blog pokaże, jak korzystać z skumulowanego wykresu dystrybucyjnego , znanego również jako empiryczna skumulowana funkcja dystrybucji lub wykresy ECDF, i pokaże zalety korzystania z tej odmiany wykresu w porównaniu z innymi typami wykresów. Możesz obejrzeć pełny film tego samouczka na dole tego bloga .
Większość ludzi woli wykresy ECDF niż , aby zwizualizować dane, ponieważ wykreślają one bezpośrednio każdy punkt danych, a ta funkcja ułatwia użytkownikowi interakcję z wykresem. Dzisiaj dowiesz się, jak korzystać z ECDF w Pythonie i LuckyTemplates oraz udoskonalić swoje prezentacje i raporty dotyczące dystrybucji danych.
Spis treści
Rodzaje działek dystrybucyjnych
Zacznę od przefiltrowania moich danych w konkretny dzień, sobotę, i poniżej zobaczymy wszystkie te wykresy Pythona używane do opisywania rozkładów. Mamy tu nasz wykres ECDF, histogram, wykres KDE i wykres pudełkowy.
Wszystkie te wykresy opisują, w jaki sposób dane są rozprowadzane lub dystrybuowane. Na przykład, jeśli zejdziemy w dół i spojrzymy na histogram, zobaczymy, że większość tych wysokich koszy będzie tam, gdzie znajdują się nasze dane.
Za około 3,50 USD mamy najwyższy kosz na dane Napiwków w naszym zbiorze danych poniżej.
Możemy również użyć wykresu KDE, który daje nam inną metrykę, gdy patrzymy na dystrybucję. Histogram zajmuje się liczbą, która znajdzie się w tych pojemnikach, podczas gdy KDE zajmuje się gęstością.
Dzięki wykresowi KDE możesz określić, gdzie znajduje się większość naszych danych, wykrywając największą gęstość lub największe wybrzuszenie na wykresie, jeśli chcesz. Tak więc na powyższym obrazku możemy powiedzieć, że jest rozłożony gdzieś między 2 a 4 USD.
To samo odnosi się do wykresu pudełkowego, który pokazuje, że rozkład wynosi od 2 do 4 USD i tam będzie większość naszych danych. Używa mediany, poziomej linii dzielącej pudełko, aby dać nam wyobrażenie o tym, gdzie jest największa dystrybucja.
Następnie mamy wykres ECDF, na którym po lewej stronie osi y widać słowo Proporcja reprezentujące nasze percentyle. Opierając się na wykresie, przy cenie 3,50 USD, patrzymy na około 50% naszych danych, a przy cenie 5 USD i poniżej dystrybuowane jest 80% naszych danych.
Kod wykresu histogramu
Teraz pokażę ci kod dla każdego z tych wykresów, zaczynając od histogramu. Wszystkie mają bardzo podobne i powtarzalne kodowanie , dzięki czemu można je szybko pobrać za pomocą jednego kodu, takiego jak szablon.
Najpierw musimy zaimportować Seaborn i zapisać go jako sb, a następnie matplotlib.pyplot jako plt. Użyjemy stylu tła o nazwie ggplot i tej zmiennej matplotlib do przekazywania w różnych stylach.
Na przykład na poniższym obrazku widzimy, że w 11. wierszu dodajemy tytuł histogramu i rozmiary znaczników w kolejnych wierszach. Yticks i xticks reprezentują odpowiednio rozmiary x i y .
W 14. wierszu używamy zmiennej Seaborn, aby przekazać funkcję , która zwraca ten konkretny wykres, na przykład histplot w powyższym przykładzie, który reprezentuje wykres histogramu. Następnie przekazujemy dane z czwartej linii do funkcji jako zbiór danych.
Wszystko, co wprowadzisz do wartości, reprezentuje twój zestaw danych i usunie duplikaty. Następnie użyjemy x jako wskazówek i odcienia , który wraz z kolorem morskim umożliwia podzielenie danych według kategorii. Jeśli wrócimy do naszej wizualizacji, możemy mieć kategorie, w tym czas, czy palacz.
Działka KDE
W przypadku fabuły KDE wszystko jest prawie identyczne. Musimy tylko przekazać nowy parametr o nazwie odcień, aby uzyskać ten cieniowany wygląd. Poza tym odcień, dane i reszta są takie same.
W przypadku fabuły pudełkowej jest ona w większości podobna do innych działek, z wyjątkiem kilku drobnych różnic. Tutaj używamy funkcji boxplot , gdzie x to dzień, a y to wskazówki. Nie używamy również odcienia dla tej fabuły.
Jest to więc ta sama struktura co wykres ECDF, a jedyną różnicą jest zmienna Seaborn, gdzie przekazujemy wykres ECDF i używamy barwy jako dnia. Ale możemy też zmienić ten odcień na inną kategorię, którą mamy, na przykład palacza.
Jeśli pominiemy tę kategorię, otrzymamy wykres ECDF, który ma dwie różne linie. W tych rozkładach widzimy, że palacze mają więcej w odniesieniu do naszej konkretnej szerokości linii.
Osoby niepalące mają sto procent tych danych poniżej 6 USD, podczas gdy palacze mają je za 6 USD. Co ciekawe, nasi palacze mogą zostawiać większy napiwek w danym dniu.
Stylizacja wykresów ECDF
Teraz możemy dalej stylizować nasze wykresy ECDF, aby były bardziej reprezentacyjne. Na poniższym obrazku przedstawiono różne wykresy ECDF. Na pierwszym wykresie powiększyłem linie i użyłem innej palety kolorów.
Na pierwszym wykresie użyłem różnych parametrów wewnątrz funkcji. Jak widać poniżej, podałem paletę jako lato , a szerokość linii jako 5.
Porównałem też sobotę i niedzielę, dlatego są dwie różne zielone linie. Tutaj widzimy, że napiwek w wysokości 3 USD znajduje się na 45 percentylu w niedzielę i 70 percentylu w czwartek, co mówi nam, że ludzie zwykle zostawiają wyższe napiwki w niedzielę.
Możemy również zamienić osie X i Y, zamienić proporcje i końcówki wewnątrz naszego wykresu oraz zmienić paletę, tak jak na obrazku poniżej.
Tutaj widzimy, że napiwek w wysokości 2 USD znajduje się na 20. percentylu w niedzielę, co jest fioletową linią na wykresie. Tak więc dane są takie same jak na poprzednim wykresie ECDF i tylko prezentacja jest inna.
Mamy teraz inny wykres z tym samym zestawem danych i zachowujemy oryginalne pozycje osi, jak pokazano na powyższym obrazku. Tym razem różnica polega na tym, że kierunek linii jest odwrócony.
Styl wykresów ECDF
Jeśli spojrzymy na kod, wszystko, co robimy, to przekazanie parametru uzupełniającego równa się = prawda. To działanie pozwoli nam powiedzieć, że w zakresie 2 USD i powyżej dystrybuowane jest 80% naszych danych, zamiast mówić, że poniżej zakresu 2 USD dystrybuowane jest 20% naszych danych. Znów są to te same dane tylko w innym wyglądzie lub sposobie ich prezentacji.
A w naszym czwartym i ostatnim wykresie ECDF używamy Count zamiast proporcji.
Takie podejście jest pomocne, gdy mamy więcej niż kilka działek. Patrząc na kolumnę liczby na poniższym obrazku, widzimy, że w piątek nie ma wielu obserwacji, co mówi nam, że ludzie nie zostawiają wielu napiwków tego dnia.
Podstawy kodu wykresów ECDF
Jeśli spojrzymy na kod, znajdziesz Seaborn , co jest najważniejsze przy tworzeniu tej konkretnej fabuły. Mamy również matplotlib.pyplot do stylizacji, który możesz zapisać jako zmienną o nazwie plt .
Możemy następnie użyć tej zmiennej do stworzenia różnych stylów dla naszej konkretnej fabuły, takich jak dodanie tytułów i rozmiarów czcionek. Główną częścią twojego kodu będzie funkcja wykresu ECDF, którą wprowadzamy wraz z Seaborn.
Wykres punktowy w skrypcie R: jak tworzyć i importować
funkcje zdefiniowane przez użytkownika w języku Python | Przegląd
GGPLOT2 w R: Wizualizacje z ESQUISSE
Wniosek
To były sposoby wykorzystania różnych wykresów dystrybucji, w tym wykresów histogramu, KDE, Box i ECDF. Nauczyłeś się również czterech sposobów przedstawiania wykresu ECDF przy użyciu tego samego zestawu danych. Możesz użyć dowolnego podejścia w zależności od preferencji.
Zawsze pamiętaj o zabraniu ze sobą niezbędnych bibliotek do tworzenia fabuły i użyciu odpowiedniej funkcji. Następnie wystarczy zmienić wizualne i stylistyczne aspekty fabuły, takie jak położenie osi i odcienie.
Wszystkiego najlepszego,
W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.
Odkryj różnorodne funkcje zbierania, które można wykorzystać w Power Automate. Zdobądź praktyczne informacje o funkcjach tablicowych i ich zastosowaniu.
Z tego samouczka dowiesz się, jak ocenić wydajność kodów DAX przy użyciu opcji Uruchom test porównawczy w DAX Studio.
Czym jest self w Pythonie: przykłady z życia wzięte
Dowiesz się, jak zapisywać i ładować obiekty z pliku .rds w R. Ten blog będzie również omawiał sposób importowania obiektów z R do LuckyTemplates.
Z tego samouczka języka kodowania DAX dowiesz się, jak używać funkcji GENERUJ i jak dynamicznie zmieniać tytuł miary.
W tym samouczku omówiono sposób korzystania z techniki wielowątkowych wizualizacji dynamicznych w celu tworzenia szczegółowych informacji na podstawie dynamicznych wizualizacji danych w raportach.
W tym artykule omówię kontekst filtra. Kontekst filtrowania to jeden z głównych tematów, z którym każdy użytkownik usługi LuckyTemplates powinien zapoznać się na początku.
Chcę pokazać, jak usługa online LuckyTemplates Apps może pomóc w zarządzaniu różnymi raportami i spostrzeżeniami generowanymi z różnych źródeł.
Dowiedz się, jak obliczyć zmiany marży zysku przy użyciu technik, takich jak rozgałęzianie miar i łączenie formuł języka DAX w usłudze LuckyTemplates.