Dodawaj, usuwaj i zmieniaj nazwy kolumn w R za pomocą Dplyr
W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.
Automatyzacja procesów filtrowania i czyszczenia danych może być ogromną oszczędnością czasu. W dzisiejszym samouczku zademonstruję, w jaki sposób można porównywać i łączyć zapytania za pomocą funkcji Anti Join w programie Excel z dodatkiem Power Query. Możesz obejrzeć pełny film z tego samouczka na dole tego bloga.
Zacznę od scenariusza. Mamy dwie listy ekspertów, które zostały wygenerowane fikcyjnie (niektóre nazwiska mogą być znajome). Powiedzmy, że mam po lewej ekspertów od Pythona, a po prawej ekspertów od LuckyTemplates. Chcę wiedzieć, że widzę, że istnieją wspólne nazwy, ale chcę się dowiedzieć, kto jest tylko ekspertem od Pythona, a kto tylko ekspertem od LuckyTemplates. To właśnie będziemy w stanie zrobić z Anti Joins.
Spis treści
Porównuj i scalaj zapytania za pomocą funkcji Anti Joins w usłudze LuckyTemplates
Możemy to zrobić w dwóch kierunkach. Lewy Anti Join będzie stołem 1 tutaj po lewej stronie. Dowiemy się, jakie wartości można znaleźć tylko w tej lewej tabeli. Kto w tym przypadku zajmuje się wyłącznie Pythonem? Right Anti Join po drugiej stronie będzie miał ten sam pomysł. Kto korzysta tylko z usługi LuckyTemplates?
Uruchommy to w Excelu. W mojej demonstracji będziemy mieć dwa stoły. Będziemy mieli populację Stanów Zjednoczonych w 1950 r., a następnie ponownie w 2020 r. Chcę się dowiedzieć, które miasta znajdują się tylko w jednej z tych tabel. Wypróbujmy to.
Oto 10 największych miast pod względem liczby ludności w tych latach spisowych. Chcę wiedzieć, które są wyjątkowe. Wiemy, że Nowy Jork jest duży. Wiemy, że Chicago jest duże, ale które z nich nie było w spisie powszechnym z 1950 roku lub odwrotnie? To właśnie będę mógł zrobić z Power Query.
Przejdźmy do mojego edytora zapytań. Zamierzam edytować to zapytanie i przejść do Scal zapytania jako nowe .
Mamy populację 1950 i zamierzam wybrać populację na rok 2020. Wspólną relacją będzie Miasto i chcemy Joint Kind of Left Anti Join , a następnie kliknij OK.
Jak widać, są mecze, które są dostępne tylko w 1950 roku. Zobaczymy miasta takie jak Detroit, Cleveland i St. Louis. Od tego czasu te środkowo-zachodnie miasta straciły populację.
Jeśli chcesz wprowadzić informacje ze spisu powszechnego 2020, możesz kliknąć w prawym górnym rogu kolumny tabeli ( pop_2020 ), a znajdziesz te kolumny, które możesz wybrać. W tym przypadku nie martwię się o te rzeczy. Wszystko, czego chciałem, to lista nazwisk, więc zostawimy to tak, jak jest teraz.
Mając to na uwadze, wrócę do mojego stołu z 1950 roku. Uruchommy to ponownie. Zamierzamy wybrać Połącz zapytania jako nowe. Zrobimy teraz 2020 rok. To ten sam pomysł – związek będzie miastem w mieście. Ale tym razem zrobimy Right Anti Join . A Right Anti Join pokaże miasta, które są dopiero w 2020, a nie w 1950?
Tutaj zobaczymy coś przeciwnego. Wszystko, co musimy zrobić, w tym przypadku, to kliknąć na tabelę i mamy zamiar uzyskać informacje z tej prawej tabeli. Right Anti Join jest nieco mniej powszechny niż Left Anti Join.
Mam na myśli to, że teoretycznie robi to samo. W tym przypadku mówi nam to, że oto miasta, które zostały znalezione tylko w spisie powszechnym z 2020 r. Więc jeśli spojrzymy na to, zobaczymy wiele Teksasu, Kalifornię itd. Pomysł Sunbelt, dotyczący ludzi przenoszących się do południowych i zachodnich stanów, wydaje się potwierdzać dane.
Na koniec zamykamy i ładujemy to, a następnie wybieramy Tylko Utwórz połączenie .
Wniosek
Anti Joins są naprawdę pomocne. Jeśli masz dwie tabele danych (lub możesz zrobić wiele) i chcesz zobaczyć, jakie są zmiany z tych dwóch, może to być przydatne. Jeśli na przykład próbujesz dowiedzieć się, którzy klienci nie złożyli zamówienia, możesz również użyć Anti Join.
Może chcesz poznać jakieś unikalne wartości, jedną konkretną lokalizację lub czy produkty są sprzedawane w jednym miejscu, a nie w innym, itp. Oto kilka interesujących sposobów korzystania z Join. Anti Joins są prawie jak filtry na twoim stole.
Mam nadzieję, że to skłoniło Cię do zastanowienia się, jak możesz go użyć. Jeśli korzystasz już z funkcji Anti Joins, daj nam znać, jak z niej korzystasz.
Wszystkiego najlepszego!
Jak scalać zapytania w usłudze LuckyTemplates
Power Query: łączenie plików z wielu folderów
Jak dynamicznie scalać kolumny w tabeli Power Query
W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.
Odkryj różnorodne funkcje zbierania, które można wykorzystać w Power Automate. Zdobądź praktyczne informacje o funkcjach tablicowych i ich zastosowaniu.
Z tego samouczka dowiesz się, jak ocenić wydajność kodów DAX przy użyciu opcji Uruchom test porównawczy w DAX Studio.
Czym jest self w Pythonie: przykłady z życia wzięte
Dowiesz się, jak zapisywać i ładować obiekty z pliku .rds w R. Ten blog będzie również omawiał sposób importowania obiektów z R do LuckyTemplates.
Z tego samouczka języka kodowania DAX dowiesz się, jak używać funkcji GENERUJ i jak dynamicznie zmieniać tytuł miary.
W tym samouczku omówiono sposób korzystania z techniki wielowątkowych wizualizacji dynamicznych w celu tworzenia szczegółowych informacji na podstawie dynamicznych wizualizacji danych w raportach.
W tym artykule omówię kontekst filtra. Kontekst filtrowania to jeden z głównych tematów, z którym każdy użytkownik usługi LuckyTemplates powinien zapoznać się na początku.
Chcę pokazać, jak usługa online LuckyTemplates Apps może pomóc w zarządzaniu różnymi raportami i spostrzeżeniami generowanymi z różnych źródeł.
Dowiedz się, jak obliczyć zmiany marży zysku przy użyciu technik, takich jak rozgałęzianie miar i łączenie formuł języka DAX w usłudze LuckyTemplates.