Ułóż, filtruj i grupuj wiersze w R za pomocą Dplyr

Ten samouczek jest kontynuacją dyskusji na temat pakietu dplyr . Dowiesz się, jak rozmieszczać, filtrować i grupować wiersze w R.

Poprzednia lekcja dotyczyła operacji na kolumnach. Tym razem skupimy się na operacjach na wierszach w dplyr .

Omówimy podstawy, w tym sortowanie i filtrowanie zestawu danych oraz agregowanie i podsumowywanie rekordów . Aby dać ci przegląd tego, czego możesz się spodziewać po tej lekcji, pomyśl o tabeli przestawnej w MS Excel.

Spis treści

Rozpoczęcie pracy

Otwórz nowy skrypt R w RStudio.

Podobnie jak w przypadku lekcji dotyczącej operacji na kolumnach, ta demonstracja będzie wykorzystywać pakiet zestawu danych Lahmana . Pobierz go, wykonując szybkie wyszukiwanie w Google.

Aby przenieść pakiet Lahmana do R, uruchom bibliotekę (Lahman) . Aby włączyć pakiet dplyr , uruchom bibliotekę (tidyverse) . Pamiętaj też, że najlepszą praktyką w zakresie konwencji nazewnictwa w języku R jest używanie małych liter, więc przypisuj zespoły do ​​zespołów .

Ułóż, filtruj i grupuj wiersze w R za pomocą Dplyr

Podstawowe funkcje operacji na wierszach

1. Ułóż rzędy w R

Pierwszą operacją wiersza w dpylr jest zorganizuj ( ) . Ta funkcja umożliwia zmianę kolejności wierszy. Działa, najpierw układając ramkę danych df , a następnie podane pola.

Ułóż, filtruj i grupuj wiersze w R za pomocą Dplyr

Na przykład posortujmy według teamID . Uruchom aranżację (zespoły, identyfikator zespołu) .

Ułóż, filtruj i grupuj wiersze w R za pomocą Dplyr

Jeśli chcesz, aby były ułożone w kolejności malejącej, musisz użyć funkcji desc ( ) .

Na przykład, jeśli chcesz posortować dane według roku w kolejności malejącej, uruchom polecenie array (teams, desc(yearID)) .

Ułóż, filtruj i grupuj wiersze w R za pomocą Dplyr

Gdy to zrobisz, nie przypiszesz danych wyjściowych z powrotem do zespołów . Po prostu widzisz wynik w konsoli.

Możliwe jest również sortowanie według wielu kryteriów. Na przykład, jeśli chcesz posortować malejąco według identyfikatora zespołu, a następnie identyfikatora roku, wystarczy uruchomić ten kod:

Ułóż, filtruj i grupuj wiersze w R za pomocą Dplyr

Podczas sortowania wierszy nie zmieniasz danych. Dane są po prostu przenoszone. Nic nie jest dodawane ani usuwane.

2. Filtruj wiersze w R

Funkcja filtrowania ( ) dodaje lub usuwa dane w zależności od wybranych kryteriów. Jego podstawowy kod to:

Ułóż, filtruj i grupuj wiersze w R za pomocą Dplyr

Jako przykład weźmy wszystkie dane, w których identyfikator roku jest większy lub równy 2000. Postępuj zgodnie z formatem funkcji filtru i wprowadź potrzebne informacje. Następnie uruchom go. Nie zapomnij przypisać tego do nowego obiektu. W tym przypadku został przypisany do nowoczesnego .

Ułóż, filtruj i grupuj wiersze w R za pomocą Dplyr

Aby sprawdzić, czy wiersze rzeczywiście zostały przefiltrowane, można użyć funkcji dim ( ) . Podaje liczbę wierszy i kolumn w ramce danych.

Jeśli uruchomisz dim (zespoły) , zobaczysz, że ramka danych ma 2955 wierszy i 48 kolumn.

Ułóż, filtruj i grupuj wiersze w R za pomocą Dplyr

Jeśli uruchomisz funkcję dim na modern , zobaczysz, że liczba wierszy została zmniejszona do 630, podczas gdy liczba kolumn pozostaje taka sama.

Ułóż, filtruj i grupuj wiersze w R za pomocą Dplyr

Wiersze zostały obcięte, ponieważ niektóre rekordy wykraczają poza rok 2000.

Filtruj wiersze według wielu pól

Możliwe jest również filtrowanie wierszy według wielu pól w R. Będziesz musiał użyć instrukcji AND i OR .

Na przykład przefiltrujmy zespoły według obszaru. W takim przypadku tworzony jest nowy obiekt ohio . Kryteria filtrowania są takie, że identyfikator zespołu powinien zawierać tylko Cleveland ORAZ Cincinnati.

Ułóż, filtruj i grupuj wiersze w R za pomocą Dplyr

Musisz użyć podwójnego znaku równości ( == ), aby sprawdzić równość. Jeśli użyjesz tylko jednego znaku równości, R uzna go za operatora przypisania. Użyj ampersandu ( & ), aby przedstawić AND.

Aby to sprawdzić, użyj funkcji ściemniania . Zobaczysz, że liczba wierszy wynosi 0.

Ułóż, filtruj i grupuj wiersze w R za pomocą Dplyr

Oznacza to, że nie ma żadnych drużyn, w których obaj mają siedziby w Cleveland i Cincinnati.

Następnie spróbujmy Cleveland LUB Cincinnati. Operator OR jest reprezentowany przez operatora potoku ( | ). Wszystko, co musisz zrobić, to zastąpić znak ampersand operatorem potoku, a następnie uruchomić go. Następnie ponownie uruchom funkcję ściemniania .

Ułóż, filtruj i grupuj wiersze w R za pomocą Dplyr

Zobaczysz, że jest 251 wierszy, a nie zero.

A co jeśli zapomnisz użyć podwójnego znaku równości i zamiast tego użyjesz tylko jednego? Oto, co się dzieje:

Ułóż, filtruj i grupuj wiersze w R za pomocą Dplyr

RStudio wyświetli bardzo pomocny komunikat o błędzie w konsoli przypominający o użyciu podwójnego znaku równości.

3. Grupuj według i sumuj wiersze w R

Funkcja grupowania według ( ) umożliwia agregowanie rekordów według wybranych kolumn, a następnie na podstawie tej agregacji podsumowanie innej kolumny.

Funkcja grupowania według ( ) jest zgodna z tym algorytmem:

Ułóż, filtruj i grupuj wiersze w R za pomocą Dplyr

Jako przykład pogrupujmy według identyfikatora zespołu i przypiszmy go do nowego obiektu. W tym przypadku nowy obiekt nazywa się team_ID . Następnie wydrukuj go.

Ułóż, filtruj i grupuj wiersze w R za pomocą Dplyr

W konsoli zauważysz, że pierwsza linia mówi, że to tibble .

Ułóż, filtruj i grupuj wiersze w R za pomocą Dplyr

Tibble to ulepszenie Tidyverse w stosunku do podstawowej ramki danych . Jest to funkcja w pakiecie, która rozszerza i ulepsza to, co jest dostępne od razu po wyjęciu z pudełka.

Drugi wiersz to Grupy . Dane są teraz pogrupowane według kolumny teamID.

Ułóż, filtruj i grupuj wiersze w R za pomocą Dplyr

Dzięki temu możesz teraz używać funkcji podsumowania ( ) w tych grupach.

Ułóż, filtruj i grupuj wiersze w R za pomocą Dplyr

Uwaga: funkcja podsumowania może być z literą s lub z i będzie zależała od użycia brytyjskiego lub amerykańskiego angielskiego.

Na przykład podsumujmy team_ID i uzyskajmy podstawowe statystyki podsumowujące. Poszukajmy średniej, minimum i maksimum Zwycięstw dla każdej drużyny. Pamiętaj, aby zaznaczyć cały kod przed wybraniem opcji Uruchom .

Ułóż, filtruj i grupuj wiersze w R za pomocą Dplyr

Następnie możesz zobaczyć w konsoli, że wyświetlane jest podsumowanie statystyk każdego zespołu. Jest to bardzo podobne do tabeli przestawnej, w której agregujesz i podsumowujesz dane.


Ramki danych w R: nauka podstaw
Poziomy czynników w R: używanie zmiennych kategorialnych i porządkowych
Dodawanie, usuwanie i zmiana nazw kolumn w R za pomocą dplyr

Wniosek

Podsumowując, omówiono dwie operacje w dplyr. Poprzedni samouczek koncentrował się na operacjach na kolumnach. Tymczasem ta bieżąca lekcja pokazała, jak wykonywać operacje na wierszach przy użyciu pakietu dplyr w RStudio. W szczególności nauczyłeś się, jak rozmieszczać, filtrować i grupować wiersze w języku R.

Następną rzeczą do nauczenia się jest połączenie tych dwóch operacji. Korzystanie ze wszystkich funkcji, których się nauczyłeś, znacznie ułatwi ci tworzenie kodów w języku R. Jednak bardziej pomocną techniką byłby potok. Pomoże to wszystko płynąć razem. Więc pamiętaj, aby przejrzeć również następne samouczki.

Leave a Comment

Dodawaj, usuwaj i zmieniaj nazwy kolumn w R za pomocą Dplyr

Dodawaj, usuwaj i zmieniaj nazwy kolumn w R za pomocą Dplyr

W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.

Funkcje zbierania w Microsoft Power Automate

Funkcje zbierania w Microsoft Power Automate

Odkryj różnorodne funkcje zbierania, które można wykorzystać w Power Automate. Zdobądź praktyczne informacje o funkcjach tablicowych i ich zastosowaniu.

Oceń wydajność kodu DAX w DAX Studio

Oceń wydajność kodu DAX w DAX Studio

Z tego samouczka dowiesz się, jak ocenić wydajność kodów DAX przy użyciu opcji Uruchom test porównawczy w DAX Studio.

Czym jest self w Pythonie: przykłady z życia wzięte

Czym jest self w Pythonie: przykłady z życia wzięte

Czym jest self w Pythonie: przykłady z życia wzięte

Jak zapisać i załadować plik RDS w R

Jak zapisać i załadować plik RDS w R

Dowiesz się, jak zapisywać i ładować obiekty z pliku .rds w R. Ten blog będzie również omawiał sposób importowania obiektów z R do LuckyTemplates.

Powrót do pierwszych N dni roboczych — rozwiązanie języka kodowania DAX

Powrót do pierwszych N dni roboczych — rozwiązanie języka kodowania DAX

Z tego samouczka języka kodowania DAX dowiesz się, jak używać funkcji GENERUJ i jak dynamicznie zmieniać tytuł miary.

Zaprezentuj spostrzeżenia przy użyciu wielowątkowej techniki dynamicznych wizualizacji w usłudze LuckyTemplates

Zaprezentuj spostrzeżenia przy użyciu wielowątkowej techniki dynamicznych wizualizacji w usłudze LuckyTemplates

W tym samouczku omówiono sposób korzystania z techniki wielowątkowych wizualizacji dynamicznych w celu tworzenia szczegółowych informacji na podstawie dynamicznych wizualizacji danych w raportach.

Wprowadzenie do filtrowania kontekstu w usłudze LuckyTemplates

Wprowadzenie do filtrowania kontekstu w usłudze LuckyTemplates

W tym artykule omówię kontekst filtra. Kontekst filtrowania to jeden z głównych tematów, z którym każdy użytkownik usługi LuckyTemplates powinien zapoznać się na początku.

Najlepsze wskazówki dotyczące korzystania z aplikacji w usłudze online LuckyTemplates

Najlepsze wskazówki dotyczące korzystania z aplikacji w usłudze online LuckyTemplates

Chcę pokazać, jak usługa online LuckyTemplates Apps może pomóc w zarządzaniu różnymi raportami i spostrzeżeniami generowanymi z różnych źródeł.

Analizuj zmiany marży zysku w godzinach nadliczbowych — Analizuj za pomocą LuckyTemplates i DAX

Analizuj zmiany marży zysku w godzinach nadliczbowych — Analizuj za pomocą LuckyTemplates i DAX

Dowiedz się, jak obliczyć zmiany marży zysku przy użyciu technik, takich jak rozgałęzianie miar i łączenie formuł języka DAX w usłudze LuckyTemplates.