Dodawaj, usuwaj i zmieniaj nazwy kolumn w R za pomocą Dplyr
W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.
Omówię proste przekształcenia usługi LuckyTemplates, które można wykonać w edytorze zapytań. Możesz obejrzeć pełny film tego samouczka na dole tego bloga.
Edytor zapytań pozwala oczyścić dane i przekształcić je z ich najbardziej surowej postaci. Chociaż pozwala na wykonanie naprawdę zaawansowanych transformacji, chcę skupić się na tych prostych, które możesz wykonać.
Dzięki tym prostym przekształceniom możesz lepiej zoptymalizować swoje dane w usłudze LuckyTemplates.
Spis treści
Czyszczenie nazw danych
Pierwszą rzeczą, którą zawsze robię, jest czyszczenie nazw moich danych . W zależności od tego, jakiego rodzaju raportu szukam, decyduję, czy chcę nazwy własne. Zwykle pozbywam się również podkreśleń i skrótów.
Zasadniczo chcę nazw, które są logiczne. Ludzie muszą rzucić na nie jedno spojrzenie i zrozumieć, co znajduje się w poszczególnych tabelach lub kolumnach.
Weźmy jako przykład tę pierwszą tabelę. Nazywa się Dane_klienta.
Ponieważ nie lubię mieć symboli takich jak podkreślenia w nazwach, wszystko, co muszę zrobić, to dwukrotnie je kliknąć i zmienić je na żądaną nazwę.
Alternatywnie mógłbym również przejść do Właściwości i tam zmienić nazwę.
Zmienię też Location_Data i Product_Data, ponieważ chcę zachować spójność pod względem formatu nazwy.
Oprócz nazw tabel przeglądam również każdą tabelę i pracuję nad nazwami kolumn. Ponownie muszę mieć pewność, że wszystkie nazwy kolumn mają sens.
Najważniejszym powodem, dla którego chcę, aby nazwy tych kolumn były konkretne i jak najbardziej przejrzyste, jest to, że tytuły wizualizacji są tworzone automatycznie na podstawie nazw kolumn. Jeśli więc którakolwiek z moich nazw kolumn nie jest wystarczająco jasna, może to mieć wpływ na sposób prezentacji danych w moich wizualizacjach.
Aby zmienić dowolną nazwę kolumny, wystarczy dwukrotnie kliknąć nazwę i zmienić ją. Na przykład zmieniam tę kolumnę Koszt na Koszt produktu.
W ten sposób jest jasne, o jakich kosztach mówię.
Czyszczenie danych
Następną rzeczą, którą muszę zrobić, jest wyczyszczenie danych, których nie potrzebuję .
Ta tabela Lokalizacje jest dobrym przykładem. Są tutaj kolumny, których tak naprawdę nie potrzebuję, jak ta kolumna dla numeru kierunkowego.
Zamierzam opuścić kolumnę Populacja, ponieważ potrzebuję tych danych. Ale nie sądzę też, aby kolumny od Gospodarstw domowych do Strefy czasowej były ważne.
Aby podświetlić te kolumny bez usuwania podświetlenia kolumny dla numeru kierunkowego, przytrzymam przycisk Ctrl i kliknę kolumny, które chcę dodać do mojego bieżącego zaznaczenia .
Stamtąd wystarczy kliknąć prawym przyciskiem myszy i wybrać Usuń kolumnę .
Śledzenie zastosowanych kroków w edytorze zapytań
Okienko Zastosowane kroki po prawej stronie ekranu to przydatne narzędzie podczas pracy nad prostymi transformacjami usługi LuckyTemplates.
Jako przykład spójrzmy na okienko Zastosowane kroki, zanim usunąłem kolumny, których nie potrzebowałem.
Ale w chwili, gdy usunąłem te kolumny, spójrz, co stało się dalej.
Ostatnia transformacja, którą wykonałem, została zarejestrowana w sekcji Zastosowane kroki. W rzeczywistości pokazuje wszystko, co do tej pory zrobiłem w sposób sekwencyjny .
Teraz, gdy wszystkie te kroki zostały zarejestrowane, wszystkie te przekształcenia będą wykonywane automatycznie za każdym razem, gdy odświeżę dane.
Pozwala mi to również cofnąć się i cofnąć każdą transformację, której dokonałem, a która tak naprawdę nie zadziałała tak, jak planowałem. Ale jeśli zmienię zdanie i zdam sobie sprawę, że mimo wszystko potrzebuję tych kolumn, mogę po prostu kliknąć X obok tego kroku.
Gdy to zrobię, moje zapytanie powróci do poprzedniego stanu.
Pokazuje to, że można naprawdę bawić się edytorem zapytań, nie martwiąc się o bałagan. Wiesz, że możesz łatwo odtworzyć swoje kroki i cofnąć wszelkie niepotrzebne ruchy, które wykonałeś .
Wiedząc o tym, po prostu kliknij prawym przyciskiem myszy dowolną kolumnę i przejrzyj dowolne z różnych transformacji na liście.
Pozwoli ci to opanować możliwości edytora zapytań bez obawy, że zepsujesz swoje dane, ponieważ i tak możesz cofnąć kroki.
Dołączanie zapytań w edytorze zapytań
Wcześniej pracowałem nad klientami, lokalizacjami i produktami. Ale jeśli pamiętasz, były tam trzy inne stoły, wszystkie dla sprzedaży.
Zamierzam również zaktualizować te nazwy, ponieważ mam teraz nowsze dane.
Jeśli jednak kliknę każdą z tych trzech tabel, zobaczę, że we wszystkich mam tę samą strukturę danych. Zasadniczo są to te same dane, ale z różnych ram czasowych.
Nie ma potrzeby posiadania w tym celu trzech różnych tabel lub zapytań. Oznacza to, że bardziej efektywne byłoby dla mnie dołączenie danych.
Najpierw wybiorę Sales_2018, a następnie kliknę Dołącz zapytania pod wstążką Strona główna.
Spowoduje to podniesienie tego okna.
Zaznaczę opcję „Trzy lub więcej stołów”, a pod spodem pojawi się lista stołów. Muszę tylko dodać tabele, które chcę dołączyć do pola po prawej stronie i kliknąć OK.
Sprawdzę, czy te tabele zostały połączone w jedną. Przyjrzę się zatem kolumnie z datą zakupu.
Ponieważ mam tutaj ponad 4000 wierszy danych, po prostu kliknę przycisk rozwijany i kliknę Sortuj malejąco, aby najpierw wyświetlić najnowsze dane.
Oznacza to, że tabele zostały dołączone. Jak widać nadal jestem na tabeli Sales_2018 ale mam teraz dane z 2020 roku.
Teraz, gdy mam wszystkie dane dotyczące sprzedaży w tej jednej tabeli, zmienię nazwę na Sprzedaż.
Oczywiście nie mogę po prostu usunąć tabel z lat 2019 i 2020, ponieważ nadal są to zapytania. Nadal potrzebuję danych w tej tabeli.
Więc to, co zamierzam zrobić zamiast ich usuwania, to kliknąć prawym przyciskiem myszy i odznaczyć opcję Włącz ładowanie.
A ponieważ nadal potrzebuję uwzględniać dane z tych tabel podczas odświeżania, muszę upewnić się, że pole „Uwzględnij w odświeżaniu raportu” pozostaje zaznaczone, nawet jeśli po wyłączeniu ładowania zostanie ono wyszarzone.
Kiedy to zrobiłem, skutecznie pozbyłem się trochę martwego ciężaru w moim modelu. To świetny sposób na optymalizację moich tabel.
Sprawdzanie typów danych
Ważne jest, aby sprawdzić, czy w każdej kolumnie wyświetlany jest prawidłowy typ danych. Widać to po tych małych ikonach na nazwie kolumny.
Usługa LuckyTemplates zazwyczaj bardzo dobrze sprawdza się w określaniu, jakiego typu dane znajdują się w każdej kolumnie. Jednak w rzadkich przypadkach, gdy pokazuje nieprawidłowy typ danych, może to mieć duży wpływ na sposób wykonywania obliczeń w raportach.
Na przykład, jeśli kolumna liczbowa zostanie przez pomyłkę oznaczona jako kolumna tekstowa, możesz mieć problemy z czymś tak prostym, jak uzyskanie SUMY wszystkich danych.
Dobrą wiadomością jest to, że zmiana typu danych jest łatwa. Po prostu kliknij ikonę i wybierz odpowiedni typ z wyświetlonej listy.
Inne transformacje usługi LuckyTemplates
W następnym przykładzie pokażę jeszcze kilka przekształceń, które można wykonać w procesie tworzenia krótkiego kodu dla Kalifornii.
Zacznę od kliknięcia prawym przyciskiem myszy kolumny, a następnie wybiorę Duplicate Column .
Teraz mam dokładny duplikat.
Zamierzam wykonać kolejną transformację, klikając prawym przyciskiem myszy, a następnie klikając Transform i wybierając Uppercase .
To sprawia, że wszystkie wpisy w tej kolumnie są wyświetlane WIELKIMI LITERAMI.
Tym razem podzielę zduplikowaną kolumnę.
Aby to zrobić, wystarczy kliknąć prawym przyciskiem myszy i kliknąć Split Column . Zrobię to również na podstawie liczby znaków.
Mam zamiar wybrać tutaj 4 postacie. To daje mi krótki kod CALI.
Nie potrzebuję drugiej części podzielonej kolumny, więc ją usunę.
Następnie zamierzam zmienić nazwę pierwszej części i nazwać ją Krótkim kodem stanowym.
Aby to lepiej uporządkować, przeciągnę to obok dodatkowej kolumny Stan.
Kod M i zaawansowany edytor
Wszystko, co zrobiłem do tej pory, jest zapisane w sekcji Zastosowane kroki.
Interesujące jest to, że mogę zobaczyć, co dzieje się na każdym z tych kroków, dzięki tak zwanemu kodowi M. Ten kod można zobaczyć na tym pasku formuły u góry.
Widzę też każdy krok w Edytorze zaawansowanym.
Gdy otworzy się Edytor zaawansowany, widzę, jak wszystkie kody są zapisywane podczas pracy nad wszystkimi poprzednimi transformacjami.
Oczywiście jest to coś, o co powinieneś się martwić, gdy przejdziesz do bardziej zaawansowanej strony usługi LuckyTemplates. Na razie proste przekształcenia, nad którymi pracowałem, wystarczą w zupełności do optymalizacji Twoich raportów.
Nowa wersja kursu — Zaawansowane transformacje i modelowanie danych
Moje praktyczne wskazówki dotyczące korzystania z zaawansowanego edytora usługi LuckyTemplates
Parametry zapytań usługi LuckyTemplates: Optymalizowanie tabel
Wniosek
Te przekształcenia usługi LuckyTemplates mogą być proste, ale dobre zrozumienie ich działania może pomóc w późniejszym przejściu na bardziej zaawansowane rzeczy.
Nie zapomnij również o znaczeniu sekcji Stosowane kroki — to będzie najlepszy sposób na upewnienie się, że nie zgubisz się podczas optymalizacji danych.
Wszystkiego najlepszego,
W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.
Odkryj różnorodne funkcje zbierania, które można wykorzystać w Power Automate. Zdobądź praktyczne informacje o funkcjach tablicowych i ich zastosowaniu.
Z tego samouczka dowiesz się, jak ocenić wydajność kodów DAX przy użyciu opcji Uruchom test porównawczy w DAX Studio.
Czym jest self w Pythonie: przykłady z życia wzięte
Dowiesz się, jak zapisywać i ładować obiekty z pliku .rds w R. Ten blog będzie również omawiał sposób importowania obiektów z R do LuckyTemplates.
Z tego samouczka języka kodowania DAX dowiesz się, jak używać funkcji GENERUJ i jak dynamicznie zmieniać tytuł miary.
W tym samouczku omówiono sposób korzystania z techniki wielowątkowych wizualizacji dynamicznych w celu tworzenia szczegółowych informacji na podstawie dynamicznych wizualizacji danych w raportach.
W tym artykule omówię kontekst filtra. Kontekst filtrowania to jeden z głównych tematów, z którym każdy użytkownik usługi LuckyTemplates powinien zapoznać się na początku.
Chcę pokazać, jak usługa online LuckyTemplates Apps może pomóc w zarządzaniu różnymi raportami i spostrzeżeniami generowanymi z różnych źródeł.
Dowiedz się, jak obliczyć zmiany marży zysku przy użyciu technik, takich jak rozgałęzianie miar i łączenie formuł języka DAX w usłudze LuckyTemplates.