Dodawaj, usuwaj i zmieniaj nazwy kolumn w R za pomocą Dplyr
W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.
Jednym z najczęstszych pytań, które napotkasz jako analityk danych, jest najlepszy sposób eksploracji danego zestawu danych. Jest to ważna kwestia przede wszystkim wtedy, gdy chcesz zebrać wszystkie dane w raporcie, który będzie łatwy do interpretacji przez Ciebie lub Twój zespół. W tym samouczku pokażę, jak wydajnie eksplorować zbiory danych w Pandas za pomocą ProfileReport(). Możesz obejrzeć pełny film z tego samouczka na dole tego bloga.
Kiedy otrzymujesz zestaw danych, co robisz? Jak eksplorujesz zbiór danych? Przede wszystkim, jeśli chcesz zebrać to wszystko w łatwy do odczytania raport dla siebie, dla współpracowników itp., Musisz wziąć pod uwagę wiele rzeczy.
Najpierw zastanów się, jakiego rodzaju są to zmienne, ponieważ to wpłynie na to, jak je analizujesz i jak je traktujesz. Dane oznaczają to, co jest dane. Brakuje więc danych, których nie mamy. Kolejną rzeczą jest wizualizacja tych relacji. Jak oni wyglądają? Chcemy wcześnie i często wykorzystywać tę moc wizualizacji.
To wiele powiązanych ze sobą złożonych pytań. Dobrą rzeczą jest to, że dostępna jest funkcja raportu profilowania, która da nam te odpowiedzi. Spójrzmy więc na to wszystko w Pythonie.
Spis treści
Eksploruj zbiory danych w pandach za pomocą funkcji ProfileReport().
Najpierw załadujemy zestaw danych.
Następnie z pandas_profiling zaimportujemy to, co nazywa się profilem report. Teraz, jeśli pojawi się tutaj błąd, prawdopodobnie musisz go zainstalować. Używam Anacondy. Tobie też radzę to wykorzystać. Uruchommy to, a następnie wydrukujmy.
Więc oto jest. Mamy Przegląd . To daje nam podział typów zmiennych. Mamy statystyki zbioru danych. Widzimy liczbę kolumn wierszy i tak dalej. Zaletą tego raportu jest to, że jest jak punkt kompleksowej obsługi i wygląda naprawdę ładnie. Ma bardzo atrakcyjną prezentację.
Przewijamy tutaj i mamy Variables . Otrzymujemy wizualizację i możemy przełączać więcej szczegółów na temat zmiennej. Mamy flagi, które wskazują rzeczy, które mogą być trochę niezwykłe. Mamy również te alerty i wiele innych funkcji, które dostarczą nam więcej informacji. I to dla każdej zmiennej.
Kontynuując przewijanie w dół, znajdziemy Interakcje, w których tworzone są wykresy punktowe do wizualizacji danych.
A potem mamy Correlations , które podsumowują związek.
Dalej są braki danych , które są bardzo ważne. Jak widać, brakuje nam tutaj pewnych wartości i chcemy wiedzieć, dlaczego. Te wizualizacje mają nam w tym pomóc. Możemy kliknąć każdą wizualizację i przeanalizować dane.
Na koniec mamy próbkę. Możemy to uzyskać na wiele sposobów, ale wszystko, co robi, to po prostu wydrukowanie kilku pierwszych wierszy, o czym warto wiedzieć.
MultiIndex w pandach dla danych wielopoziomowych lub hierarchicznych
Jak ładować przykładowe zestawy danych w Pythonie
Python w LuckyTemplates: jak zainstalować i skonfigurować
Wniosek
W ten sposób eksplorujesz zbiory danych w Pandas za pomocą funkcji ProfileReport(). Istnieje wiele sposobów dzielenia i dzielenia danych. Pomyśl o wszystkich kombinacjach permutacji danych. To nie będzie w stanie zrobić wszystkiego za Ciebie, ale to naprawdę dobry początek.
Kiedy eksplorujemy dane, jest to naprawdę proces iteracyjny. Nie ma jednej magicznej pigułki tak bardzo, jak byśmy tego chcieli. Jednak ProfilerReport() jest naprawdę świetnym narzędziem. Dostajemy dużo informacji i tylko jedną linijkę kodu. Jest to bezpłatne narzędzie, więc mam nadzieję, że możesz go używać we własnej pracy. Daj nam znać, jak to robisz.
Wszystkiego najlepszego!
W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.
Odkryj różnorodne funkcje zbierania, które można wykorzystać w Power Automate. Zdobądź praktyczne informacje o funkcjach tablicowych i ich zastosowaniu.
Z tego samouczka dowiesz się, jak ocenić wydajność kodów DAX przy użyciu opcji Uruchom test porównawczy w DAX Studio.
Czym jest self w Pythonie: przykłady z życia wzięte
Dowiesz się, jak zapisywać i ładować obiekty z pliku .rds w R. Ten blog będzie również omawiał sposób importowania obiektów z R do LuckyTemplates.
Z tego samouczka języka kodowania DAX dowiesz się, jak używać funkcji GENERUJ i jak dynamicznie zmieniać tytuł miary.
W tym samouczku omówiono sposób korzystania z techniki wielowątkowych wizualizacji dynamicznych w celu tworzenia szczegółowych informacji na podstawie dynamicznych wizualizacji danych w raportach.
W tym artykule omówię kontekst filtra. Kontekst filtrowania to jeden z głównych tematów, z którym każdy użytkownik usługi LuckyTemplates powinien zapoznać się na początku.
Chcę pokazać, jak usługa online LuckyTemplates Apps może pomóc w zarządzaniu różnymi raportami i spostrzeżeniami generowanymi z różnych źródeł.
Dowiedz się, jak obliczyć zmiany marży zysku przy użyciu technik, takich jak rozgałęzianie miar i łączenie formuł języka DAX w usłudze LuckyTemplates.