Dodawaj, usuwaj i zmieniaj nazwy kolumn w R za pomocą Dplyr
W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.
W poprzednich samouczkach poznałeś obiekty, klasy obiektów i wektory . W tym samouczku dowiesz się o ramkach danych w języku R.
Ramki danych to zasadniczo wektory połączone ze sobą w celu utworzenia wierszy i kolumn danych.
Kolumna składa się z jednego wektora. Tak więc w powyższym przykładzie pierwsza kolumna to kolumna łańcuchowa, po której następuje kolumna liczbowa, a następnie kolumna logiczna. Jest to podobne do tego, jak wyglądałaby tabela w usłudze LuckyTemplates.
Należy również pamiętać, że w przypadku ramek danych we wszystkich kolumnach powinna znajdować się taka sama liczba elementów. Oznacza to, że liczba wierszy powinna być stała.
Podczas korzystania z języka programowania R zwykle pracujesz z ramkami danych. Dlatego ważne jest, aby zrozumieć, czym one są i jak można je wykorzystać.
Spis treści
Ładowanie i wyświetlanie przesłanej ramki danych
RStudio jest już dostarczane z dostarczonymi ramkami danych, których można użyć. Aby je zidentyfikować, musisz użyć funkcji data ( ) .
Otwórz RStudio i Uruchom dane ( ) . Nie musisz umieszczać żadnego argumentu w nawiasie.
Po zakończeniu zobaczysz listę wbudowanych zestawów danych w języku R, których możesz użyć.
Są bardzo pomocne w ćwiczeniu i zapoznawaniu się z wykorzystaniem ramek danych w języku R.
Najczęściej używanym wbudowanym zestawem danych jest iris . Iris jest często używany podczas nauki nauki o danych lub ogólnie analizy danych. Wydrukuj tęczówkę , aby zobaczyć jej dane w konsoli.
Widać, że jest dużo danych. Przewijając w górę, zobaczysz, że składa się z różnych kolumn.
Eksplorowanie ramek danych w języku R za pomocą funkcji
Jednym ze sposobów lepszego wglądu w dane jest użycie funkcji view ( ) . Po uruchomieniu widoku kodu (iris) zobaczysz nową kartę zawierającą tabelę w RScript.
To, co sprawia, że widok ( ) działa lepiej, to możliwość wprowadzania zmian w tabeli. Możesz dostosować kolejność danych za pomocą strzałek na tytułach każdej kolumny. Jest też przycisk filtrowania.
Możesz także kliknąć ikonę obok filtra, aby otworzyć dane w nowym oknie.
To nowe okno jest podobne do dodatku Power Query , w którym można przeglądać dane, ale ich nie dotykać. Oznacza to, że nie można wprowadzać ani zastępować wartości na istniejących danych.
Inną przydatną funkcją jest funkcja head ( ) . Ta funkcja drukuje pierwsze wiersze zestawu danych.
Więc jeśli uruchomisz head (iris) , zobaczysz, że drukuje tylko pierwsze sześć wierszy.
Jest to świetne, gdy chcesz lepiej zrozumieć swoje dane. Konsola nie jest przeciążona, a prezentacja danych jest czystsza.
Indeksowanie ramek danych
Indeksowanie zostało również omówione w poprzednim samouczku dotyczącym wektorów. Wystarczy użyć nawiasów kwadratowych ( [ ] ), aby zaindeksować pozycję. Teraz, ponieważ ramki danych składają się z wierszy i kolumn, musisz zaindeksować oba. Format to nazwa [wiersz, kolumna] .
Na przykład, jeśli chcesz zindeksować drugi wiersz i czwartą kolumnę zestawu danych tęczówki , po prostu Uruchom tęczówkę [2, 4] .
Możesz także indeksować zakres wierszy i kolumn. Wystarczy użyć dwukropka ( : ) , aby wskazać zakres. Oto przykład:
Możesz także zaindeksować całą kolumnę. Użyj znaku dolara ( $ ) po nazwie zestawu danych i wskaż żądaną nazwę kolumny. Na przykład, jeśli chcesz zaindeksować całą kolumnę o nazwie Gatunki, Uruchom iris$Species .
Zobaczysz wtedy, że cała kolumna Gatunek została wydrukowana w konsoli.
Wyświetlanie statystyk ramek danych w R
Jak nauczyłeś się w poprzednich samouczkach, R został zbudowany na potrzeby analizy danych, statystyk i wizualizacji. Tak więc kolejną przydatną rzeczą do nauczenia się o ramkach danych w R jest sposób ich podsumowania.
Gdy użyjesz funkcji podsumowania ( ) , Konsola zwróci statystyki podsumowujące dla tych danych.
Podsumowanie biegu (tęczówka) . Dzięki temu uzyskasz podstawowe informacje o zbiorze danych w zakresie statystyk opisowych.
Istnieją inne pakiety, aby uzyskać więcej statystyk podsumowujących, takich jak odchylenie standardowe i kurtoza. Ale zostaną one omówione w kolejnych samouczkach.
Twórz wektory w R: samouczek krok po kroku
Wniosek
Stopniowo uczyłeś się składowych R. Najpierw uczyłeś się o obiektach, potem rozwijałeś wektory, aż do tej lekcji o ramkach danych. Masz teraz do czynienia z większymi i bardziej złożonymi danymi.
Dzięki ramkom danych możesz teraz lepiej zapoznać się z różnymi zestawami danych w języku R i dowiedzieć się, jak uzyskiwać podstawowe informacje statystyczne.
Będziesz kontynuować naukę stopniowo, ponieważ kolejne samouczki dotyczą sposobów zwiększania rozmiaru i eksplorowania większych danych w języku R.
W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.
Odkryj różnorodne funkcje zbierania, które można wykorzystać w Power Automate. Zdobądź praktyczne informacje o funkcjach tablicowych i ich zastosowaniu.
Z tego samouczka dowiesz się, jak ocenić wydajność kodów DAX przy użyciu opcji Uruchom test porównawczy w DAX Studio.
Czym jest self w Pythonie: przykłady z życia wzięte
Dowiesz się, jak zapisywać i ładować obiekty z pliku .rds w R. Ten blog będzie również omawiał sposób importowania obiektów z R do LuckyTemplates.
Z tego samouczka języka kodowania DAX dowiesz się, jak używać funkcji GENERUJ i jak dynamicznie zmieniać tytuł miary.
W tym samouczku omówiono sposób korzystania z techniki wielowątkowych wizualizacji dynamicznych w celu tworzenia szczegółowych informacji na podstawie dynamicznych wizualizacji danych w raportach.
W tym artykule omówię kontekst filtra. Kontekst filtrowania to jeden z głównych tematów, z którym każdy użytkownik usługi LuckyTemplates powinien zapoznać się na początku.
Chcę pokazać, jak usługa online LuckyTemplates Apps może pomóc w zarządzaniu różnymi raportami i spostrzeżeniami generowanymi z różnych źródeł.
Dowiedz się, jak obliczyć zmiany marży zysku przy użyciu technik, takich jak rozgałęzianie miar i łączenie formuł języka DAX w usłudze LuckyTemplates.