Czym jest self w Pythonie: przykłady z życia wzięte
Czym jest self w Pythonie: przykłady z życia wzięte
dplyr to popularny pakiet R do manipulacji danymi, ułatwiający użytkownikom pracę z ramkami danych. Częstym zadaniem podczas pracy z danymi jest zmiana nazw kolumn, którą program dplyr skutecznie obsługuje za pomocą funkcji rename().
Funkcja rename() w dplyr jest szczególnie przydatna w przypadku zestawów danych zawierających kolumny o niejasnych lub niejednoznacznych nazwach. Zapewniając prostą i intuicyjną składnię zmiany nazw kolumn, dplyr ułatwia użytkownikom zrozumienie i utrzymanie ich kodu.
Ponadto tę funkcję można łatwo łączyć z innymi operacjami dplyr, takimi jak filtrowanie i podsumowywanie, w celu stworzenia płynnego przepływu pracy związanego z manipulacją danymi w języku R.
Te funkcje są również dostępne w dodatku Power Query , więc nie są unikalne dla programu języka R. Jednak R lepiej sobie z nimi radzi.
W poniższym artykule przyjrzymy się szczegółom funkcji dplyr rename() i jej różnych zastosowań, pokazując, jak skuteczna może być w zarządzaniu ramkami danych.
Dowiemy się również, jak dodawać i usuwać kolumny w R za pomocą dyplr.
Ucząc się tych technik, użytkownicy mogą zwiększyć praktyczność swoich wysiłków związanych z manipulacją danymi, tworzyć bardziej solidne i wolne od błędów analizy, a przy tym dobrze się bawić!
Zajmijmy się trochę nauką o danych, czas na tłuczenie, a może powinniśmy powiedzieć, wprowadź podstawowe R!
Spis treści
Zrozumienie zmiany nazwy Dplyr
Pakiet dplyr w R to popularny pakiet tidyverse do manipulacji danymi, który oferuje zestaw przydatnych funkcji do przekształcania i organizowania zestawów danych. Wśród tych funkcji funkcja rename() jest szczególnie przydatna podczas modyfikowania nazw kolumn w ramce danych.
Aby użyć funkcji rename(), po prostu podaj nową nazwę kolumny, a następnie starą, na przykład: new_name = old_name
. Rozważmy na przykład przykładową ramkę danych, w której chcemy zmienić nazwę kolumny „old1” na „new1”. Składnia wyglądałaby tak:
library(dplyr)
df %>% rename(new1 = old1)
Ponadto funkcja rename_with() umożliwia zmianę nazw kolumn przy użyciu określonej funkcji przekształcania. Na przykład możesz użyć funkcji toupper, aby przekonwertować wszystkie nazwy kolumn na wielkie litery:
df %>% rename_with(toupper)
Jeśli chcesz zmienić nazwę wielu kolumn jednocześnie, dplyr udostępnia dwie metody. Pierwszy polega na użyciu funkcji rename() , podając jako argumenty wiele nowych i starych nazw kolumn:
df %>% rename(new1 = old1, new2 = old2)
Druga metoda polega na użyciu funkcji rename_with() , w której definiujesz tablice starych i nowych nazw kolumn:
new <- c('new1',="" 'new2')="" old=""><- c('old1',="" 'old2')="" df="" %="">% rename_with(~ new, all_of(old))
Obie metody, jak pokazano w powyższych przykładach, dadzą ten sam wynik.
Instalowanie i ładowanie Dplyr
Aby rozpocząć korzystanie z pakietu dplyr do zmiany nazw kolumn, należy najpierw zainstalować i załadować pakiet w środowisku R. Instalacja dplyr to prosty proces, który można przeprowadzić za pomocą następującego polecenia:
install.packages("dplyr")
Po zakończeniu instalacji możesz załadować pakiet dplyr do swojego skryptu R za pomocą funkcji biblioteki:
library("dplyr")
Po zainstalowaniu i załadowaniu pakietu dplyr możesz teraz korzystać z jego potężnych funkcji manipulacji danymi, w tym funkcji rename() do zmiany nazw kolumn w ramce danych.
Oto przykład użycia funkcji rename() z dobrze znanym zestawem danych tęczówki. Załóżmy, że chcesz zmienić nazwę kolumny „Sepal.Length” na „długość_sepal”. Możesz to osiągnąć za pomocą następującego kodu:
iris_renamed <- iris="" %="">%
rename(sepal_length = Sepal.Length)
W tym fragmencie kodu operator %>% jest używany do potokowania zestawu danych tęczówki do funkcji rename(). Nowa nazwa kolumny „długość_sepal” jest przypisywana do starej nazwy kolumny „Sepal.Length”. Otrzymana ramka danych ze zmienioną nazwą kolumny jest następnie przypisywana do nazw zmiennych, iris_renamed.
Funkcja rename() może również obsługiwać zmianę nazw wielu kolumn jednocześnie. Na przykład, jeśli chcesz zmienić nazwy obu kolumn „Sepal.Length” i „Sepal.Width” odpowiednio na „sepal_length” i „sepal_width”, możesz użyć następującego kodu:
iris_renamed <- iris="" %="">%
rename(
sepal_length = Sepal.Length,
sepal_width = Sepal.Width
)
Ten fragment kodu pokazuje, jak łatwo zmienić nazwę wielu kolumn w ramce danych za pomocą funkcji rename() narzędzia dplyr.
Korzystanie z funkcji zmiany nazwy Dplyr
Pakiet dplyr w R jest potężnym narzędziem do manipulacji danymi podczas pracy z ramkami danych. Jedną z wielu przydatnych funkcji jest funkcja zmiany nazwy, która umożliwia łatwą zmianę nazw kolumn w ramce danych.
Podstawowa składnia
Podstawowa składnia używania funkcji zmiany nazwy w dplyr jest następująca:
library(dplyr)
your_dataframe %>% rename(new_column_name = old_column_name)
To polecenie zmieni nazwę określonej starej kolumny na żądaną nową nazwę kolumny, bez zmiany innych kolumn w ramce danych.
Zmiana nazwy wielu kolumn
Możesz także zmienić nazwę wielu kolumn jednocześnie, używając tej samej funkcji zmiany nazwy. Aby to zrobić, po prostu oddziel każdą kolumnę, zmieniając nazwę pary przecinkiem:
your_dataframe %>%
rename(new_column1 = old_column1,
new_column2 = old_column2,
new_column3 = old_column3)
Korzystając z tego podejścia, możesz zmienić nazwę dowolnej liczby kolumn w jednej instrukcji.
Alternatywnie możesz użyć tej rename_with()
funkcji, aby zastosować transformację do nazw kolumn. Ta funkcja pobiera ramkę danych i funkcję, która zostanie zastosowana do nazw kolumn w celu wygenerowania nowych nazw. Na przykład:
your_dataframe %>%
rename_with(.cols = c("old_column1", "old_column2"), .fn = toupper)
Spowoduje to przekonwertowanie określonych nazw kolumn na wielkie litery.
Łączenie łańcuchowe z innymi funkcjami Dplyr
Jedną z mocnych stron dplyr jest możliwość łączenia wielu akcji za pomocą %>%
operatora. Pozwala to na wykonanie serii manipulacji danymi w zwięzły i łatwy do odczytania sposób. Korzystając z funkcji zmiany nazwy, możesz połączyć ją z innymi funkcjami dplyr, takimi jak filter()
, mutate()
i summarize()
:
your_dataframe %>%
filter(some_condition) %>%
rename(new_column_name = old_column_name) %>%
mutate(new_column = some_expression) %>%
summarize(some_aggregation)
Ten przykład ilustruje serię manipulacji danymi, w których najpierw odbywa się filtrowanie danych, a następnie zmiana nazwy kolumny, utworzenie nowej kolumny przy użyciu mutacji i wreszcie podsumowanie danych za pomocą funkcji agregacji.
Wykorzystując moc funkcji zmiany nazwy dplyr i możliwości tworzenia łańcuchów, użytkownicy języka R mogą wykonywać wydajne i czytelne manipulacje danymi na swoich ramkach danych.
Typowe przypadki użycia zmiany nazwy Dplyr
Dplyr to potężny pakiet w R, który zapewnia zestaw funkcji do wykonywania zadań manipulacji danymi. Jednym z typowych zadań jest zmiana nazw kolumn w ramce danych. W tej sekcji omówimy kilka typowych przypadków użycia funkcji zmiany nazwy w dplyr.
1. Prosta zmiana nazwy kolumn:
Zmiana nazwy pojedynczej kolumny jest prosta przy użyciu rename()
funkcji. Składnia jest rename(dataframe, new_name = old_name)
. Oto przykład:
library(dplyr)
dataframe <- dataframe="" %="">% rename(new_column_name = old_column_name)
2. Zmiana nazwy wielu kolumn:
Możesz także zmienić nazwy wielu kolumn w jednym wywołaniu funkcji, zapewniając dodatkowe mapowanie kolumn wewnątrz rename()
funkcji. Oto przykład:
dataframe <- dataframe="" %="">%
rename(new_col_name1 = old_col_name1,
new_col_name2 = old_col_name2)
3. Zmiana nazw kolumn za pomocą funkcji łańcuchowych:
Nazwy kolumn można zmieniać za pomocą funkcji łańcuchowych, takich jak tolower()
lub toupper()
, używając rename_with()
funkcji. Według Stack Overflow ta funkcja zastępuje obecnie zastąpione funkcje rename_if
i . Oto przykład:rename_at
rename_all
dataframe <- dataframe="" %="">%
rename_with(tolower) # Converts column names to lowercase
4. Zmiana nazw kolumn na podstawie warunku:
Za pomocą rename_with()
możesz zastosować niestandardowe funkcje zmiany nazwy, a nawet użyć warunków. Poniższy przykład ilustruje zmianę nazw kolumn na podstawie tego, czy zawierają one określony ciąg:
rename_function <- function(x)="" {="" if="" (grepl("length",="" x))="" {="" return(paste0(x,="" "_length"))="" }="" else="" {="" return(paste0(x,="" "_default"))="" }="" }="" dataframe=""><- dataframe="" %="">% rename_with(rename_function)
Obsługa błędów i przypadków Edge
Podczas używania funkcji zmiany nazwy dplyr do modyfikowania nazw kolumn w ramce danych mogą wystąpić błędy lub przypadki skrajne z powodu zduplikowanych nazw kolumn, spacji w nazwach kolumn lub nieprawidłowej składni. Ta sekcja zawiera wskazówki, jak rozwiązać te problemy.
Gdy mamy do czynienia ze zduplikowanymi nazwami kolumn, dplyr nie może zmienić nazwy kolumn o tej samej nazwie wyjściowej. Jednak obejściem w celu usunięcia duplikatów nazw kolumn jest użycie funkcji rename_all
z pakietu dplyr wraz z paste0
:
d %>% rename_all(~paste0(., 1:2))
Ten kod doda liczbę od 1 do 2 do każdej nazwy kolumny, upewniając się, że nie ma duplikatów. Więcej szczegółów można znaleźć w tej dyskusji dotyczącej przepełnienia stosu .
Jeśli w nazwach kolumn znajdują się spacje, możesz użyć znaczników wstecznych, aby ująć nazwy kolumn w następujący sposób:
df %>% rename(foo = `test col`)
Wreszcie, jeśli napotkasz problemy związane z tym, że dplyr nie akceptuje funkcji paste0()
jako old_name w rename()
, możliwym rozwiązaniem jest skonstruowanie nowych nazw kolumn poza funkcją rename()
, a następnie użycie ich jako danych wejściowych. Odpowiednie omówienie podobnego problemu można znaleźć w tym pytaniu dotyczącym przepełnienia stosu .
Zajmując się tymi błędami i przypadkami brzegowymi, będziesz lepiej przygotowany do obsługi złożonych scenariuszy zmiany nazw w dplyr.
W ostatniej części naszego artykułu o zmianie nazwy dplyr omówiliśmy jej znaczenie w zadaniach związanych z manipulacją danymi. Funkcja rename() umożliwia użytkownikom wydajną zmianę nazw kolumn, co prowadzi do wyraźniejszych i bardziej zwięzłych ramek danych. Staje się to szczególnie przydatne w przypadku dużych zbiorów danych lub podczas etapów wstępnego przetwarzania danych.
Korzystając z pakietu dplyr, zmiana nazw kolumn w R jest prosta, nie jest to trudna nauka o danych, sprawdź poniżej:
rename(new_column_name = old_column_name)
Ta prosta składnia pozwala zastąpić stare nazwy kolumn nowymi, poprawiając czytelność i zapewniając spójność danych. Ponadto funkcję rename_with() można wykorzystać do modyfikowania nazw kolumn za pomocą określonej funkcji. Zapewnia to większą kontrolę i dostosowanie manipulacji danymi.
Wykorzystując moc dplyr i funkcję zmiany nazwy, możesz pewnie manipulować swoimi danymi i poprawić ogólne możliwości przetwarzania danych. Pamiętaj, aby zawsze korzystać z wiarygodnych źródeł podczas nauki nowych technik programowania R, takich jak
Dzięki dplyr rename w zestawie narzędzi jesteś dobrze przygotowany do radzenia sobie z różnymi wyzwaniami związanymi z manipulacją danymi i dalszego rozwijania swojej wiedzy w zakresie programowania R.
Dalsze przykłady ze świata rzeczywistego — dodawanie, usuwanie i zmienianie nazw kolumn
Operacje na kolumnach umożliwiają obliczanie, dodawanie, usuwanie i zmienianie nazw kolumn w R przy użyciu dplyr . Otwórz nowy skrypt R w RStudio. Jeśli nie wiesz, jak to zrobić, kliknij łącza, aby dowiedzieć się, jak zainstalować RStudio i utworzyć skrypt R.
W tej demonstracji używany jest pakiet zestawu danych Lahmana . Zawiera rekordy baseballowe sprzed ponad stu lat. To dobry zestaw danych do wykorzystania w praktyce. Możesz go pobrać, wykonując szybkie wyszukiwanie w Google.
Co więcej, pakiet Lahmana zawiera zestaw danych o nazwie Teams , przez duże T. Najlepszą praktyką w zakresie konwencji nazewnictwa w języku R jest używanie małych liter. Dlatego należy to najpierw przekonwertować na zespoły , jak widać na poniższym obrazku.
Podstawowe funkcje operacji na kolumnach
1. Dodaj nowe kolumny w R
Pierwsza funkcja to mutate() . Spowoduje to utworzenie nowej kolumny na podstawie istniejących kolumn.
Jeśli chcesz obliczyć nową kolumnę, możesz użyć funkcji mutacji następującej po argumencie:
df to nazwa zastępcza dowolnego rodzaju ramki danych. Więc kiedy faktycznie używasz, zastąp df nazwą ramki danych, którą chcesz zmutować. Następnie umieszczasz nowe zmienne, które mają zostać nazwane, wraz ze wzorem wyprowadzającym nową kolumnę.
Na przykład funkcja mutate zostanie użyta do znalezienia procentu wygranych dla każdej kolumny. W zbiorze danych Lahmana znajduje się kolumna Wygrana i przegrana. Aby uzyskać procent, podziel wygraną przez sumę wygranej i przegranej. Ale zanim będziesz mógł to zrobić, musisz wprowadzić pakiet dplyr.
Oto, co się stanie, jeśli uruchomisz funkcję mutate bez dplyr:
Pojawi się komunikat o błędzie „nie można znaleźć mutacji funkcji”.
Oto jak wprowadzić dplyr do R. Wystarczy uruchomić bibliotekę (tidyverse) .
Zobaczysz, że dplyr jest jedną z wielu funkcji w pakiecie tidyverse . Inną opcją jest uruchomienie biblioteki (dplyr) .
Teraz, jeśli umieścisz kursor na kodzie z funkcją mutate i uruchomisz go, zobaczysz kolumnę Wpct zawierającą procenty wygranych.
W tym przypadku wynik funkcji mutate został tylko uruchomiony; nie przypisał do danych.
Jeśli chcesz przypisać wynik funkcji mutacji do zespołów danych , musisz użyć operatora przypisania ( <-> ). Po zakończeniu uruchom go. Następnie w innym wierszu uruchom head (zespoły) . Spowoduje to przypisanie wyniku do zestawu danych zespołu .
Jeśli chcesz sprawdzić, jakie kolumny są dostępne w zbiorze danych, użyj funkcji names ( ) . Spowoduje to wyświetlenie wszystkich nazw kolumn w danych.
Możesz także użyć istniejących funkcji jako części funkcji mutate . Na przykład możesz pobrać dziennik określonego zestawu danych za pomocą funkcji log ( ) .
2. Wybierz kolumny w R
Inną funkcją w dplyr jest select() . Upuszcza lub wybiera podane kolumny. Jego podstawowy algorytm to:
Musisz wprowadzić nazwę ramki danych, a następnie kolumny, które chcesz wybrać.
Na przykład, jeśli chcesz zachować kolumny identyfikatora roku, wygranych i przegranych w zbiorze danych, wystarczy uruchomić:
Otrzymasz wtedy pożądany wynik:
Jeśli jednak nie użyjesz funkcji head ( ) , wynik pokaże dolne wiersze kolumn. Więc jeśli masz do czynienia z wieloma wierszami danych, będziesz musiał ciągle przewijać w górę, aby dostać się na górę kolumny.
Najlepszą praktyką jest użycie funkcji head wraz z select. Tak więc po uruchomieniu kodu wynik pokaże najpierw górne wiersze kolumny.
Teraz, jeśli chcesz usunąć kolumny ze zbioru danych, wystarczy umieścić znak minus ( – ) przed nazwą kolumny.
Aby sprawdzić, czy kolumna rzeczywiście została usunięta, możesz porównać nowy zestaw danych ze starym. Oto jak to zrobić:
Najpierw przypisz kod R z funkcją wyboru do obiektu. W tym przykładzie został przypisany do Teams_short . Aby policzyć liczbę kolumn, użyj funkcji ncol () . Uruchom funkcję ncol zarówno dla teamów_short , jak i dla zespołów .
Zobaczysz wtedy, że jedna kolumna została usunięta z zestawu danych.
3. Zmień nazwę kolumn w R
Ostatnią funkcją kolumny w dplyr jest rename() . I jak sama nazwa wskazuje, może zmieniać nazwy wybranych kolumn w R.
Oto jego podstawowy algorytm:
I zauważysz, że jest to trochę sprzeczne z intuicją; nowa nazwa jest na pierwszym miejscu, a stara nazwa jest później. Uważaj więc, aby ich nie pomylić.
Na przykład bieżące kolumny yearID i divID zostaną przemianowane odpowiednio na year_id i distribution_id . Przed uruchomieniem kodu pamiętaj, aby przypisać to do nowego obiektu, aby nie zakłócać oryginalnego zestawu danych.
Aby sprawdzić, czy nazwy wybranych kolumn zostały pomyślnie zmienione, użyj funkcji names ( ) .
Zobaczysz, że nazwy kolumn rzeczywiście zostały zmienione.
Zastanawiałeś się kiedyś, jak potężne jest R w połączeniu z LuckyTemplates, wypróbuj tę niesamowitą technikę, która pozwoli Ci zaoszczędzić mnóstwo czasu.
Ostatnie słowo
W tym samouczku omówiono trzy podstawowe funkcje dplyr , których można użyć do wykonywania operacji na kolumnach. W szczególności nauczyłeś się, jak dodawać, usuwać i zmieniać nazwy kolumn w języku R.
Istnieją jeszcze inne funkcje, których jeszcze nie odkryłeś. Ale ważne jest, aby znać i być zaznajomionym z mutate ( ) , select ( ) i rename ( ), ponieważ są one najczęstsze.
Te techniki edytowania kolumn można również wykonać w dodatku Power Query. Ale wspaniale jest mieć wiedzę, jak to zrobić również w dplyr. Z pewnością pomoże Ci to w przejściu do analizy zbiorów danych statystycznych.
Często zadawane pytania
Jaka jest różnica między R a Pythonem?
Na początek zarówno R, jak i Python to języki programowania, ale python jest bardziej językiem ogólnego zastosowania, a R jest statystycznym językiem programowania. Python jest bardziej powszechnie używanym, zrozumiałym i wszechstronnym językiem.
Co to jest str?
str po prostu wyświetla struktury r obiektów
Co to jest długość płatka w R?
Płatek.długość to format używany w R do opowiadania relacji, które testujemy.
Co to jest DataFrame w R?
Ramka R Data to tabelaryczna struktura danych, która jest powszechnie używana do przechowywania wartości dowolnego typu danych.
Co oznacza dbl?
Dbl oznacza „podwójną klasę”, jest to typ danych używany do przechowywania wartości liczbowych zawierających kropki dziesiętne.
Czym jest self w Pythonie: przykłady z życia wzięte
Dowiesz się, jak zapisywać i ładować obiekty z pliku .rds w R. Ten blog będzie również omawiał sposób importowania obiektów z R do LuckyTemplates.
Z tego samouczka języka kodowania DAX dowiesz się, jak używać funkcji GENERUJ i jak dynamicznie zmieniać tytuł miary.
W tym samouczku omówiono sposób korzystania z techniki wielowątkowych wizualizacji dynamicznych w celu tworzenia szczegółowych informacji na podstawie dynamicznych wizualizacji danych w raportach.
W tym artykule omówię kontekst filtra. Kontekst filtrowania to jeden z głównych tematów, z którym każdy użytkownik usługi LuckyTemplates powinien zapoznać się na początku.
Chcę pokazać, jak usługa online LuckyTemplates Apps może pomóc w zarządzaniu różnymi raportami i spostrzeżeniami generowanymi z różnych źródeł.
Dowiedz się, jak obliczyć zmiany marży zysku przy użyciu technik, takich jak rozgałęzianie miar i łączenie formuł języka DAX w usłudze LuckyTemplates.
W tym samouczku omówiono idee materializacji pamięci podręcznych danych oraz ich wpływ na wydajność języka DAX w dostarczaniu wyników.
Jeśli do tej pory nadal korzystasz z programu Excel, jest to najlepszy moment, aby zacząć korzystać z usługi LuckyTemplates na potrzeby raportowania biznesowego.
Co to jest brama LuckyTemplates? Wszystko co musisz wiedzieć