Dodawaj, usuwaj i zmieniaj nazwy kolumn w R za pomocą Dplyr
W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.
Ten samouczek jest kontynuacją dyskusji na temat pakietu dplyr . Dowiesz się, jak rozmieszczać, filtrować i grupować wiersze w R.
Poprzednia lekcja dotyczyła operacji na kolumnach. Tym razem skupimy się na operacjach na wierszach w dplyr .
Omówimy podstawy, w tym sortowanie i filtrowanie zestawu danych oraz agregowanie i podsumowywanie rekordów . Aby dać ci przegląd tego, czego możesz się spodziewać po tej lekcji, pomyśl o tabeli przestawnej w MS Excel.
Spis treści
Rozpoczęcie pracy
Otwórz nowy skrypt R w RStudio.
Podobnie jak w przypadku lekcji dotyczącej operacji na kolumnach, ta demonstracja będzie wykorzystywać pakiet zestawu danych Lahmana . Pobierz go, wykonując szybkie wyszukiwanie w Google.
Aby przenieść pakiet Lahmana do R, uruchom bibliotekę (Lahman) . Aby włączyć pakiet dplyr , uruchom bibliotekę (tidyverse) . Pamiętaj też, że najlepszą praktyką w zakresie konwencji nazewnictwa w języku R jest używanie małych liter, więc przypisuj zespoły do zespołów .
Podstawowe funkcje operacji na wierszach
1. Ułóż rzędy w R
Pierwszą operacją wiersza w dpylr jest zorganizuj ( ) . Ta funkcja umożliwia zmianę kolejności wierszy. Działa, najpierw układając ramkę danych df , a następnie podane pola.
Na przykład posortujmy według teamID . Uruchom aranżację (zespoły, identyfikator zespołu) .
Jeśli chcesz, aby były ułożone w kolejności malejącej, musisz użyć funkcji desc ( ) .
Na przykład, jeśli chcesz posortować dane według roku w kolejności malejącej, uruchom polecenie array (teams, desc(yearID)) .
Gdy to zrobisz, nie przypiszesz danych wyjściowych z powrotem do zespołów . Po prostu widzisz wynik w konsoli.
Możliwe jest również sortowanie według wielu kryteriów. Na przykład, jeśli chcesz posortować malejąco według identyfikatora zespołu, a następnie identyfikatora roku, wystarczy uruchomić ten kod:
Podczas sortowania wierszy nie zmieniasz danych. Dane są po prostu przenoszone. Nic nie jest dodawane ani usuwane.
2. Filtruj wiersze w R
Funkcja filtrowania ( ) dodaje lub usuwa dane w zależności od wybranych kryteriów. Jego podstawowy kod to:
Jako przykład weźmy wszystkie dane, w których identyfikator roku jest większy lub równy 2000. Postępuj zgodnie z formatem funkcji filtru i wprowadź potrzebne informacje. Następnie uruchom go. Nie zapomnij przypisać tego do nowego obiektu. W tym przypadku został przypisany do nowoczesnego .
Aby sprawdzić, czy wiersze rzeczywiście zostały przefiltrowane, można użyć funkcji dim ( ) . Podaje liczbę wierszy i kolumn w ramce danych.
Jeśli uruchomisz dim (zespoły) , zobaczysz, że ramka danych ma 2955 wierszy i 48 kolumn.
Jeśli uruchomisz funkcję dim na modern , zobaczysz, że liczba wierszy została zmniejszona do 630, podczas gdy liczba kolumn pozostaje taka sama.
Wiersze zostały obcięte, ponieważ niektóre rekordy wykraczają poza rok 2000.
Możliwe jest również filtrowanie wierszy według wielu pól w R. Będziesz musiał użyć instrukcji AND i OR .
Na przykład przefiltrujmy zespoły według obszaru. W takim przypadku tworzony jest nowy obiekt ohio . Kryteria filtrowania są takie, że identyfikator zespołu powinien zawierać tylko Cleveland ORAZ Cincinnati.
Musisz użyć podwójnego znaku równości ( == ), aby sprawdzić równość. Jeśli użyjesz tylko jednego znaku równości, R uzna go za operatora przypisania. Użyj ampersandu ( & ), aby przedstawić AND.
Aby to sprawdzić, użyj funkcji ściemniania . Zobaczysz, że liczba wierszy wynosi 0.
Oznacza to, że nie ma żadnych drużyn, w których obaj mają siedziby w Cleveland i Cincinnati.
Następnie spróbujmy Cleveland LUB Cincinnati. Operator OR jest reprezentowany przez operatora potoku ( | ). Wszystko, co musisz zrobić, to zastąpić znak ampersand operatorem potoku, a następnie uruchomić go. Następnie ponownie uruchom funkcję ściemniania .
Zobaczysz, że jest 251 wierszy, a nie zero.
A co jeśli zapomnisz użyć podwójnego znaku równości i zamiast tego użyjesz tylko jednego? Oto, co się dzieje:
RStudio wyświetli bardzo pomocny komunikat o błędzie w konsoli przypominający o użyciu podwójnego znaku równości.
3. Grupuj według i sumuj wiersze w R
Funkcja grupowania według ( ) umożliwia agregowanie rekordów według wybranych kolumn, a następnie na podstawie tej agregacji podsumowanie innej kolumny.
Funkcja grupowania według ( ) jest zgodna z tym algorytmem:
Jako przykład pogrupujmy według identyfikatora zespołu i przypiszmy go do nowego obiektu. W tym przypadku nowy obiekt nazywa się team_ID . Następnie wydrukuj go.
W konsoli zauważysz, że pierwsza linia mówi, że to tibble .
Tibble to ulepszenie Tidyverse w stosunku do podstawowej ramki danych . Jest to funkcja w pakiecie, która rozszerza i ulepsza to, co jest dostępne od razu po wyjęciu z pudełka.
Drugi wiersz to Grupy . Dane są teraz pogrupowane według kolumny teamID.
Dzięki temu możesz teraz używać funkcji podsumowania ( ) w tych grupach.
Uwaga: funkcja podsumowania może być z literą s lub z i będzie zależała od użycia brytyjskiego lub amerykańskiego angielskiego.
Na przykład podsumujmy team_ID i uzyskajmy podstawowe statystyki podsumowujące. Poszukajmy średniej, minimum i maksimum Zwycięstw dla każdej drużyny. Pamiętaj, aby zaznaczyć cały kod przed wybraniem opcji Uruchom .
Następnie możesz zobaczyć w konsoli, że wyświetlane jest podsumowanie statystyk każdego zespołu. Jest to bardzo podobne do tabeli przestawnej, w której agregujesz i podsumowujesz dane.
Ramki danych w R: nauka podstaw
Poziomy czynników w R: używanie zmiennych kategorialnych i porządkowych
Dodawanie, usuwanie i zmiana nazw kolumn w R za pomocą dplyr
Wniosek
Podsumowując, omówiono dwie operacje w dplyr. Poprzedni samouczek koncentrował się na operacjach na kolumnach. Tymczasem ta bieżąca lekcja pokazała, jak wykonywać operacje na wierszach przy użyciu pakietu dplyr w RStudio. W szczególności nauczyłeś się, jak rozmieszczać, filtrować i grupować wiersze w języku R.
Następną rzeczą do nauczenia się jest połączenie tych dwóch operacji. Korzystanie ze wszystkich funkcji, których się nauczyłeś, znacznie ułatwi ci tworzenie kodów w języku R. Jednak bardziej pomocną techniką byłby potok. Pomoże to wszystko płynąć razem. Więc pamiętaj, aby przejrzeć również następne samouczki.
W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.
Odkryj różnorodne funkcje zbierania, które można wykorzystać w Power Automate. Zdobądź praktyczne informacje o funkcjach tablicowych i ich zastosowaniu.
Z tego samouczka dowiesz się, jak ocenić wydajność kodów DAX przy użyciu opcji Uruchom test porównawczy w DAX Studio.
Czym jest self w Pythonie: przykłady z życia wzięte
Dowiesz się, jak zapisywać i ładować obiekty z pliku .rds w R. Ten blog będzie również omawiał sposób importowania obiektów z R do LuckyTemplates.
Z tego samouczka języka kodowania DAX dowiesz się, jak używać funkcji GENERUJ i jak dynamicznie zmieniać tytuł miary.
W tym samouczku omówiono sposób korzystania z techniki wielowątkowych wizualizacji dynamicznych w celu tworzenia szczegółowych informacji na podstawie dynamicznych wizualizacji danych w raportach.
W tym artykule omówię kontekst filtra. Kontekst filtrowania to jeden z głównych tematów, z którym każdy użytkownik usługi LuckyTemplates powinien zapoznać się na początku.
Chcę pokazać, jak usługa online LuckyTemplates Apps może pomóc w zarządzaniu różnymi raportami i spostrzeżeniami generowanymi z różnych źródeł.
Dowiedz się, jak obliczyć zmiany marży zysku przy użyciu technik, takich jak rozgałęzianie miar i łączenie formuł języka DAX w usłudze LuckyTemplates.