Dodawaj, usuwaj i zmieniaj nazwy kolumn w R za pomocą Dplyr
W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.
Podczas pracy ze zbiorem danych, który składa się z wielu zmiennych, najlepiej jest zrozumieć, w jaki sposób one się różnią i wchodzą ze sobą w interakcje. W tym samouczku zademonstruję, jak można użyć funkcji Seaborn w Pythonie do wizualizacji alternatyw dla rozkładu zmiennej. Możesz obejrzeć pełny film z tego samouczka na dole tego bloga.
Spis treści
Używanie funkcji Seaborn w Pythonie
Zademonstruję to na zbiorze danych MPG, który jest dostępny w Seaborn. Przejdźmy więc do przodu i zaimportujmy wszystkie potrzebne pakiety, a także wszelkie potrzebne dane. Przyjrzymy się rozkładowi zmiennej MPG tutaj i temu, jak się różnią. Dwa popularne sposoby na zrobienie tego to histogram i boxplot .
Więc użyję funkcji displot (DIS dla dystrybucji). Następnie muszę określić, jaki to zestaw danych i jaką zmienną umieścimy na osi X. A dzięki temu mamy dystrybucję.
To jest całkiem dobre. Bardzo łatwo jest zobaczyć cały rozkład i kształt. Jednak ta wizualizacja dystrybucji ma kilka niedociągnięć. Po pierwsze, liczba używanych przez nas pojemników jest prawdopodobnie dowolna. Inną rzeczą jest to, że niekoniecznie możemy od razu wiedzieć, jaka jest średnia zmiennej.
Fajną rzeczą w Seaborn jest to, że kiedy już ustawię, jaką zmienną chcę, gdzie i jakiego zestawu danych używam, tworzenie nowej wizualizacji jest naprawdę proste. Teraz przejdziemy do wykresu pudełkowego. Boxplot nie używa pojemników.
Chodzi o to, że możemy zobaczyć wartość kwartyla naprawdę wyraźnie, konkretnie medianę, i widzimy inne wartości kwartyla. Widzimy, że istnieje wartość odstająca, a to jest bardzo precyzyjny spisek. Problem boxplot polega na tym, że jest precyzyjny w przypadku rzeczy, o które generalnie wielu użytkowników biznesowych prawdopodobnie nie dba.
Tak więc ta fabuła jest trochę trudna dla osób niebędących statystykami, aby naprawdę uzyskać dużą wartość. I znowu agreguje dane, więc tracimy wiele szczegółów. Trudno dokładnie określić, jak to wygląda. Widzimy, że istnieje wartość odstająca. Widzimy, że większość wartości jest tutaj. Histogram daje nam bardziej intuicyjny sposób patrzenia na to.
To są oba dobre wątki. Obaj mają swoje cele. Przyjrzyjmy się kilku alternatywom wykorzystującym Seaborn do wizualizacji. Będziemy trzymać się MPG dla dystrybucji tej zmiennej.
Podobnie jak w przypadku boxplot, tutaj widać, że mediana jest wyraźnie zaznaczona. Widzimy również rozstęp kwartylowy i możemy lepiej przyjrzeć się ogólnemu rozkładowi. To też jest coś w rodzaju histogramu. Nazywa się to wykresem oszacowania gęstości jądra lub wykresem KDE. To płynna wersja histogramu. Nie stosujemy żadnego arbitralnego kategoryzowania. Tutaj wszystko jest wygładzone do ciągłego zakresu.
Jest to swego rodzaju hybryda tych dwóch podejść i naprawdę eliminuje niektóre niedociągnięcia. Jednak w zależności od odbiorców mogą mieć naprawdę problemy z patrzeniem na to. Mogą nie być do tego przyzwyczajeni, ale ma to pewne zalety w porównaniu z tradycyjnym podejściem.
W tym podejściu nie agregujemy już danych. Każdy pojedynczy punkt jest wykreślany. To wymaga elementów wykresu punktowego, prawda? Jeśli myślisz o wykresie punktowym, wykreślamy każdy pojedynczy punkt na współrzędnych X i Y.
Na koniec mamy stripplot . To, co tutaj robimy, to branie tego rozkładu i losowe rozpraszanie. Jest to proces losowy. Nie próbujemy już nadać temu kształtowi dystrybucji. Problem polega na tym, że wszystkie te zbitki wpadają na siebie, więc może to nie być dobre w zależności od tego, co próbujesz zrobić. Może chcesz pokolorować je według grup lub coś w tym rodzaju, więc istnieje taka opcja.
Możemy zmienić jitter na 0,25 i zobaczyć, że wraz ze wzrostem jittera punkty te są nieco bardziej rozłożone.
Jednak za każdym razem, gdy je uruchamiam, będą wyglądać nieco inaczej. Jeśli więc chcesz się tego pozbyć i sprawić, by za każdym razem było tak samo, możesz zaimportować numpy jako np . To, co to robi, nazywa się ustawieniem losowego materiału siewnego.
Za każdym razem, gdy uruchamiam coś, co ma związek z liczbami losowymi, użyje tych samych liczb losowych. Rzeczy nie zmieniają się losowo po ponownym uruchomieniu. Może to być dobre dla każdego rodzaju symulacji, którą wykonujesz, co często zdarza się w nauce o danych i analityce z tą wizualizacją. Więc teraz, za każdym razem, gdy uruchamiam tę fabułę, otrzymamy ten sam wygląd.
Mogę tu również dodać początek Y i teraz widzimy, że tworzymy rozkład dwuwariantowy. Bierzemy dystrybucję przebiegu i dzielimy ją według pochodzenia.
Jak używać skryptu w języku Python w usłudze LuckyTemplates
Skrypty w języku Python w usłudze LuckyTemplates Raporty danych
Zestawy danych w usłudze Pandas za pomocą funkcji ProfileReport() | Python w LuckyTemplates
Wniosek
Są to alternatywy dla wizualizacji rozkładów jednej zmiennej. Wszystkie mają swoje wady i zalety. To nie znaczy, że nigdy nie używaj boxplotu ani histogramu, ale po prostu powiedz, oto kilka innych opcji, w zależności od tego, co próbujesz pokazać.
Wszystkie są prawie tak samo łatwe do wykonania, jak inne, gdy używamy funkcji Seaborn w Pythonie. Jeśli chcesz dowiedzieć się więcej o Pythonie , sprawdź poniższe linki.
Wszystkiego najlepszego!
W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.
Odkryj różnorodne funkcje zbierania, które można wykorzystać w Power Automate. Zdobądź praktyczne informacje o funkcjach tablicowych i ich zastosowaniu.
Z tego samouczka dowiesz się, jak ocenić wydajność kodów DAX przy użyciu opcji Uruchom test porównawczy w DAX Studio.
Czym jest self w Pythonie: przykłady z życia wzięte
Dowiesz się, jak zapisywać i ładować obiekty z pliku .rds w R. Ten blog będzie również omawiał sposób importowania obiektów z R do LuckyTemplates.
Z tego samouczka języka kodowania DAX dowiesz się, jak używać funkcji GENERUJ i jak dynamicznie zmieniać tytuł miary.
W tym samouczku omówiono sposób korzystania z techniki wielowątkowych wizualizacji dynamicznych w celu tworzenia szczegółowych informacji na podstawie dynamicznych wizualizacji danych w raportach.
W tym artykule omówię kontekst filtra. Kontekst filtrowania to jeden z głównych tematów, z którym każdy użytkownik usługi LuckyTemplates powinien zapoznać się na początku.
Chcę pokazać, jak usługa online LuckyTemplates Apps może pomóc w zarządzaniu różnymi raportami i spostrzeżeniami generowanymi z różnych źródeł.
Dowiedz się, jak obliczyć zmiany marży zysku przy użyciu technik, takich jak rozgałęzianie miar i łączenie formuł języka DAX w usłudze LuckyTemplates.