Dodawaj, usuwaj i zmieniaj nazwy kolumn w R za pomocą Dplyr
W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.
W tym poście przeprowadzę Cię przez rzeczywisty scenariusz, w którym możesz znaleźć się w podobnej sytuacji, w której interesariusz prosi Cię o coś i musisz szybko utworzyć raport na podstawie tego, o co prosi. Właśnie na tym polega wyzwanie związane z analizą danych LuckyTemplates Accelerator . Możesz obejrzeć pełny film z tego samouczka na dole tego bloga.
W tym konkretnym akceleratorze Brian (nasz dyrektor ds. treści w LuckyTemplates) stworzył scenariusz, w którym możesz wykorzystać swoje umiejętności analityczne.
W przypadku usługi LuckyTemplates biegłość polega na zrozumieniu, w jaki sposób można zastosować określone techniki w różnych środowiskach i różnych scenariuszach. Aby uruchomić akcelerator, rozwiążę problem i zobaczę, jak to się potoczy.
Spis treści
Podsumowanie wyzwania związanego z analizą danych
Oto krótki opis tego wyzwania związanego z analizą danych:
Twój szef przychodzi do twojego biura w poniedziałek rano, wyglądając na zestresowanego. Mówi ci, że mamy możliwość przejęcia jednego z naszych głównych konkurentów i że dyrektor generalny chce odprawy COB, aby odpowiedzieć na następujące pytania dotyczące celu przejęcia:
Wystarczy spojrzeć na ten brief, aby wiedzieć, że będziemy używać pewnego rodzaju formuły rankingowej. Formuła rankingu będzie podobna dla wszystkich tych wymagań, a my zmienimy tylko kontekst.
Mamy też trochę makiety tego, co interesariusz chce zobaczyć.
Jak widać, jest to bardzo częste zjawisko w świecie rzeczywistym, w którym można uzyskać szybkie pytanie i trzeba szybko coś połączyć, używając makiety i konspektu.
Właśnie tego chcemy, aby dotyczył nasz
Tworzenie nowej tabeli miar dla wyzwania analizy danych
Pierwszą rzeczą, którą zamierzam zrobić, jest utworzenie nowej tabeli miar, ponieważ model został już zbudowany.
Wszystko, co muszę zrobić, to pomyśleć o logice dodania i zdecydować, której funkcji rankingu użyć między lub .
Po prostu szybko dowiedzmy się, skąd pochodzi sprzedaż w naszym zbiorze danych. Wygląda na to, że nasza kolumna przychodów to sprzedaż liniowa.
Tworzenie całkowitej miary sprzedaży dla wyzwania analizy danych
Stworzę nową miarę.
Zamierzam nazwać tę miarę Total Sales i sporządzić prostą sumę kolumny sprzedaży liniowej.
Mogę po prostu pozbyć się kolumny, której nie potrzebuję, a następnie upewnić się, że miara została przekształcona w grupę miar. Mam też całą tabelę dat ustawioną w moim modelu, którą zamienię w wykres liniowy, a następnie chwycę moją łączną sprzedaż i przeciągnę ją do obszaru wartości.
Jak widać, ten wykres jest zbyt zajęty. Musimy uzyskać Miesiąc i Rok, aby móc zobaczyć to wyraźniej. Zmienię tutaj kontekst.
To nie jest poprawnie rozwiązane, więc muszę przejść do mojej tabeli dat , znaleźć moją kolumnę Miesiąc i rok , a następnie użyć kolumny pomocniczej o nazwie Miesiąc i rok . Możesz uzyskać , aby utworzyć tabelę dat z naszego forum lub z Analyst Hub.
Wykres wygląda teraz o wiele lepiej i bardziej przypomina to, czego potrzebowaliśmy w makiecie.
Następną rzeczą do zrobienia jest utworzenie filtra na rok, ponieważ chcemy mieć możliwość rozbicia go na lata. Zamierzam więc utworzyć krajalnicę poziomą i umieścić ją w prawym górnym rogu.
W jakich stanach sprzedaż jest wysoka lub niska?
Następne pytanie w skrócie dotyczy tego, jakie stany sprzedaży są wysokie, a jakie niskie ? Będziemy musieli umieścić nasze stany w tabeli, więc przejdziemy do kolumny Lokalizacje, wybierz Stan i przekształcimy to w tabelę.
Zawsze zamieniam rzeczy w tabelę, aby móc zobaczyć wyniki, które faktycznie otrzymuję. Wstawię również moją łączną sprzedaż, a następnie sformatuję walutę.
Właśnie zdałem sobie sprawę, że nie muszę nawet używać funkcji rankingu, ponieważ mogę już zrobić ranking tutaj. Mógłbym przekształcić to w mapę kształtu i zobaczyć w ten sposób wzloty i upadki.
Mogę również użyć wykresu pierścieniowego, jeśli chcę. Istnieje wiele sposobów wyróżniania danych i nie muszę nawet w ogóle używać formuły rankingowej.
Ile sprzedaży osiągnęło 5 najlepszych produktów?
Następne pytanie z briefu dotyczy tego, ile sprzedaży osiągnęli z pięciu najlepszych produktów w każdym kwartale? Przyjrzyjmy się, o co prosi nas makieta.
Musimy w zasadzie dowiedzieć się, jakie są nasze pięć najlepszych produktów i zobaczyć, ile sprzedają w każdym kwartale. Ten jest trochę trudny, ale zdecydowanie wykonalny.
Chwyćmy kwartał i rok i przynieśmy do naszego stołu.
A następnie wprowadź naszą łączną sprzedaż dla każdego kwartału.
Musimy również przyjrzeć się naszym produktom i zobaczyć, jakie są nasze produkty w czołówce rankingów. Znajdźmy wymiar produktów.
Pięć naszych najlepszych produktów to 63, 28, 51, 67 i 34.
Muszę wyodrębnić te pięć najlepszych produktów, a następnie uzyskać łączną sprzedaż tylko tych pięciu za pomocą funkcji o nazwie TOPN. Zamierzam dodać formułę i użyć , która umożliwi mi zmianę kontekstu.
W tym miejscu sprawa staje się nieco trudniejsza i niejednoznaczna, ponieważ czy patrzymy na pięć najlepszych produktów w skali roku, czy też na pięć najlepszych produktów w każdym kwartale?
Dla mnie to pytanie dotyczy pięciu najlepszych produktów w każdym kwartale. Aby odpowiedzieć na to pytanie, muszę przejrzeć wszystkie moje produkty, dlatego w obliczeniach wstawię tabelę moich produktów i uszereguję je malejąco, od najwyższego do najniższego.
Dla każdego innego kwartału uszereguje je od góry do dołu, a następnie przedstawi pięć najlepszych produktów na podstawie całkowitej sprzedaży , a następnie zwróci sprzedaż każdego produktu.
Jeśli przeniosę to do mojego stołu, zobaczymy, że 450 482 USD ze sprzedaży z pierwszego kwartału pochodziło z pięciu najlepszych produktów.
Aby dokładnie sprawdzić, możemy po prostu kliknąć ćwierćdolarówkę i zeskanować listę. Pamiętaj, że nie patrzymy na pięć najlepszych produktów w ciągu roku. Przyglądamy się pięciu najlepszym produktom w poszczególnych kwartałach, a te produkty mogą się zmieniać.
Możemy przenieść to na wyższy poziom i wymyślić naszą piątkę w porównaniu z całą sprzedażą. Po prostu podziel pierwszą piątkę przez łączną sprzedaż.
Oto pięć największych sprzedaży produktów w porównaniu do całej sprzedaży.
Kim jest 10 najlepszych sprzedawców?
Kolejnym pytaniem, którym się zajmiemy, jest to, kto znajduje się w pierwszej dziesiątce sprzedawców w danym roku i jaka była wartość ich sprzedaży w dolarach? To kolejny ciekawy. Zagłębmy się w sprzedawców.
Połączmy naszą łączną sprzedaż ze sprzedawcami . Możemy zobaczyć, kim jest nasza 10 najlepszych sprzedawców.
Ale jeśli chcę zwrócić tylko pierwszą dziesiątkę, muszę stworzyć ranking. Nazwę miarę 10 najlepszych sprzedawców i użyję RANKX . Sztuczka polega na tym, aby użyć WSZYSTKICH sprzedawców, abym mógł usunąć cały kontekst z kolumny sprzedawców i porównać sprzedaż z każdym sprzedawcą.
Potrafię napisać , w której jeśli RANKX jest mniejszy lub równy 10, to zwraca całkowitą sprzedaż; jeśli nie, powinno być równe puste.
Teraz wezmę tylko 10 najlepszych sprzedawców, a dla całej reszty pole będzie puste.
Następnie pozbędę się Total Sales i użyję takiej wizualizacji:
Posprzątajmy tutaj trochę i użyjmy kontrastu czerni i bieli. Pozbędę się również zawijania słów w tytułach na osi i użyję malarza formatów do wprowadzenia zmian.
Są rzeczy, które możemy tu jeszcze poprawić. Zmienię górną lewą wizualizację na wykres słupkowy, ponieważ wykres liniowy nie jest najlepszą reprezentacją czasu, dodam etykiety danych i usunę oś, aby poprawić wygląd.
Inną rzeczą, którą mogę zrobić, to stworzyć logikę, aby naprawdę podkreślić najwyższą sprzedaż i niską sprzedaż. Możemy dodać etykiety danych do wizualizacji 10 najlepszych sprzedawców, umieścić je wewnątrz słupków i dodać inny odcień niebieskiego.
Muszę trochę zmienić kolory, aby upewnić się, że jest to zgodne z naszą kolorystyką. Następnie utworzę pole tekstowe i wpiszę coś takiego:
To pole tekstowe ułatwi przeglądanie fragmentatora roku.
Co możemy zrobić dla wizualizacji Total Sales by State? Mapa nie jest najlepszą oprawą wizualną – szczerze mówiąc, nie podoba mi się.
Moglibyśmy użyć ciemniejszego motywu mapy, aby pasowała do reszty raportu.
Potencjalnie możemy również użyć bąbelków mapy i trochę je powiększyć.
Możemy umieścić naszą całkowitą sprzedaż według stanu po lewej stronie i przerobić inne tabele. Możemy wybrać Nowy Jork jako stan na lewej wizualizacji, co zmieni kontekst innych wizualizacji.
Jak więc możemy przedstawić te dane trochę inaczej? Może możemy mieć dwie tabele dla Quarter & Year , a następnie zmienić wgląd w drugą tabelę.
Raport jest teraz w stanie odpowiedzieć na wszystkie pytania z briefu i zaczyna wyglądać całkiem nieźle.
Wniosek
Mam nadzieję, że podobała Ci się praca ze mną w ramach tego wyzwania związanego z analizą danych. Mamy bardzo dynamiczny raport oparty na treściach, które powstały w Akceleratorze.
To kwestia wyciągnięcia odpowiednich technik z banku pamięci, a kiedy już zapoznasz się ze wszystkimi różnymi opcjami, będziesz zaskoczony, jak szybko możesz połączyć rzeczy.
Uważaj na następny akcelerator. To wyzwanie związane z analizą danych jest wyjątkową inicjatywą . Co dwa tygodnie organizujemy również warsztaty szkoleniowe, w których każdy może wziąć udział i wspólnie omówić. Dbamy również o to, aby ci, którzy dopiero zaczynają, byli dobrze zorientowani w różnych sposobach rozwiązywania własnych problemów z danymi.
W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.
Odkryj różnorodne funkcje zbierania, które można wykorzystać w Power Automate. Zdobądź praktyczne informacje o funkcjach tablicowych i ich zastosowaniu.
Z tego samouczka dowiesz się, jak ocenić wydajność kodów DAX przy użyciu opcji Uruchom test porównawczy w DAX Studio.
Czym jest self w Pythonie: przykłady z życia wzięte
Dowiesz się, jak zapisywać i ładować obiekty z pliku .rds w R. Ten blog będzie również omawiał sposób importowania obiektów z R do LuckyTemplates.
Z tego samouczka języka kodowania DAX dowiesz się, jak używać funkcji GENERUJ i jak dynamicznie zmieniać tytuł miary.
W tym samouczku omówiono sposób korzystania z techniki wielowątkowych wizualizacji dynamicznych w celu tworzenia szczegółowych informacji na podstawie dynamicznych wizualizacji danych w raportach.
W tym artykule omówię kontekst filtra. Kontekst filtrowania to jeden z głównych tematów, z którym każdy użytkownik usługi LuckyTemplates powinien zapoznać się na początku.
Chcę pokazać, jak usługa online LuckyTemplates Apps może pomóc w zarządzaniu różnymi raportami i spostrzeżeniami generowanymi z różnych źródeł.
Dowiedz się, jak obliczyć zmiany marży zysku przy użyciu technik, takich jak rozgałęzianie miar i łączenie formuł języka DAX w usłudze LuckyTemplates.