Adăugați, eliminați și redenumiți coloane în R folosind Dplyr

Adăugați, eliminați și redenumiți coloane în R folosind Dplyr

dplyr este un pachet R popular pentru manipularea datelor, facilitând lucrul utilizatorilor cu cadre de date. O sarcină comună atunci când lucrați cu date este redenumirea coloanelor, pe care dplyr le gestionează eficient folosind funcția rename().

Funcția rename() din dplyr este deosebit de utilă atunci când se lucrează cu seturi de date care au coloane cu nume neclare sau ambigue. Oferind o sintaxă simplă și intuitivă pentru redenumirea coloanelor, dplyr facilitează înțelegerea și întreținerea codului de către utilizatori.

În plus, această funcție poate fi combinată cu ușurință cu alte operațiuni dplyr, cum ar fi filtrarea și rezumarea, pentru a crea un flux de lucru fără întreruperi de manipulare a datelor în R.

Aceste caracteristici sunt disponibile și în Power Query , deci nu sunt unice pentru programul R. Cu toate acestea, R este mai bine să le gestioneze.

În articolul următor, vom explora detaliile funcției rename() a lui dplyr și diferitele sale aplicații, exemplificând cât de eficientă poate fi în gestionarea cadrelor de date.

Vom învăța, de asemenea, cum să adăugați și să eliminați coloane în R folosind dyplr.

Învățând aceste tehnici, utilizatorii pot îmbunătăți caracterul practic al eforturilor lor de manipulare a datelor, pot produce analize mai robuste și fără erori și se pot distra pe parcurs!

Să intrăm în știința datelor, este timpul să tiblem, sau ar trebui să spunem, să aducem baza R!

Cuprins

Înțelegerea redenumirii Dplyr

Pachetul dplyr din R este un pachet popular tidyverse pentru manipularea datelor care oferă un set de funcții utile pentru transformarea și organizarea seturilor de date. Printre aceste funcții, funcția rename() este deosebit de utilă atunci când vine vorba de modificarea numelor de coloane într-un cadru de date.

Pentru a utiliza funcția rename(), furnizați pur și simplu noul nume de coloană urmat de cel vechi, astfel: new_name = old_name. De exemplu, să luăm în considerare un exemplu de cadru de date în care dorim să schimbăm numele coloanei „vechi1” în „nou1”. Sintaxa ar arăta astfel:

library(dplyr)
df %>% rename(new1 = old1)

În plus, funcția rename_with() vă permite să redenumiți coloanele folosind o funcție de transformare specificată. De exemplu, puteți utiliza funcția toupper pentru a converti toate numele coloanelor în majuscule:

df %>% rename_with(toupper)

Dacă trebuie să redenumiți mai multe coloane simultan, dplyr oferă două metode. Prima implică utilizarea funcției rename(), oferind mai multe nume de coloane noi și vechi ca argumente:

df %>% rename(new1 = old1, new2 = old2)

A doua metodă implică utilizarea funcției rename_with(), în care definiți matrice de nume de coloane vechi și noi:

new <- c('new1',="" 'new2')="" old=""><- c('old1',="" 'old2')="" df="" %="">% rename_with(~ new, all_of(old))

Ambele metode, așa cum se arată în exemplele de mai sus, vor produce același rezultat.

Instalarea și încărcarea Dplyr

Pentru a începe să utilizați pachetul dplyr pentru redenumirea coloanelor, trebuie mai întâi să instalați și să încărcați pachetul în mediul dvs. R. Instalarea dplyr este un proces simplu care poate fi efectuat folosind următoarea comandă:

install.packages("dplyr")

După finalizarea instalării, puteți încărca pachetul dplyr în scriptul dvs. R folosind funcția de bibliotecă:

library("dplyr")

Cu pachetul dplyr instalat și încărcat, acum puteți utiliza funcțiile sale puternice de manipulare a datelor, inclusiv funcția rename() pentru a redenumi coloanele din cadrul de date.

Iată un exemplu de utilizare a funcției rename() cu binecunoscutul set de date iris. Să presupunem că doriți să redenumiți coloana „Sepal.Length” în „sepal_length”. Puteți realiza acest lucru folosind următorul cod:

iris_renamed <- iris="" %="">%
  rename(sepal_length = Sepal.Length)

În acest fragment de cod, operatorul %>% este folosit pentru a canaliza setul de date iris în funcția rename(). Noul nume de coloană „sepal_length” este atribuit vechiului nume de coloană „Sepal.Length”. Cadrul de date rezultat cu coloana redenumită este apoi atribuit numelor de variabile, iris_renamed.

Funcția rename() poate gestiona, de asemenea, redenumirea mai multor coloane simultan. De exemplu, dacă doriți să redenumiți ambele coloane „Sepal.Length” și „Sepal.Width” în „sepal_length” și, respectiv, „sepal_width”, puteți utiliza următorul cod:

iris_renamed <- iris="" %="">%
  rename(
    sepal_length = Sepal.Length,
    sepal_width = Sepal.Width
  )

Acest fragment de cod demonstrează cât de ușor este să redenumiți mai multe coloane într-un cadru de date folosind funcția rename() a dplyr.

Utilizarea funcției de redenumire Dplyr

Pachetul dplyr din R este un instrument puternic pentru manipularea datelor atunci când lucrați cu cadre de date. Una dintre numeroasele funcții utile pe care le oferă este funcția de redenumire, care vă permite să redenumiți cu ușurință coloanele din cadrul de date.

Sintaxa de bază

Sintaxa de bază pentru utilizarea funcției de redenumire în dplyr este următoarea:


library(dplyr)
your_dataframe %>% rename(new_column_name = old_column_name)

Această comandă va redenumi coloana veche specificată cu numele de coloană nouă dorită, fără a modifica alte coloane din cadrul de date.

Redenumirea mai multor coloane

De asemenea, puteți redenumi mai multe coloane simultan folosind aceeași funcție de redenumire. Pentru a face acest lucru, trebuie doar să separați fiecare coloană prin redenumirea perechii cu o virgulă:


your_dataframe %>%
   rename(new_column1 = old_column1,
          new_column2 = old_column2,
          new_column3 = old_column3)

Folosind această abordare, puteți redenumi cât mai multe coloane este necesar într-o singură instrucțiune.

Alternativ, puteți utiliza rename_with()funcția pentru a aplica o transformare numelor de coloane. Această funcție ia un cadru de date și o funcție care va fi aplicată numelor de coloane pentru a genera noile nume. De exemplu:


your_dataframe %>%
  rename_with(.cols = c("old_column1", "old_column2"), .fn = toupper)

Aceasta va converti numele coloanelor specificate în majuscule.

Înlănțuire cu alte funcții Dplyr

Unul dintre punctele forte ale dplyr este capacitatea sa de a înlănțui mai multe acțiuni împreună folosind operatorul %>%. Acest lucru vă permite să efectuați o serie de manipulări de date într-un mod concis și ușor de citit. Când utilizați funcția de redenumire, o puteți lega împreună cu alte funcții dplyr, cum ar fi filter(), mutate()și summarize():


your_dataframe %>%
  filter(some_condition) %>%
  rename(new_column_name = old_column_name) %>%
  mutate(new_column = some_expression) %>%
  summarize(some_aggregation)

Acest exemplu demonstrează o serie de manipulări de date în care filtrarea datelor este efectuată mai întâi, urmată de redenumirea unei coloane, crearea unei noi coloane folosind mutarea și, în final, rezumarea datelor cu o funcție de agregare.

Prin valorificarea puterii funcției de redenumire și a capabilităților de înlănțuire a dplyr, utilizatorii R pot efectua manipulări eficiente și lizibile de date pe cadrele lor de date.

Dplyr obișnuit Redenumiți cazuri de utilizare

Dplyr este un pachet puternic în R care oferă un set de funcții pentru efectuarea sarcinilor de manipulare a datelor. O sarcină comună este redenumirea coloanelor dintr-un cadru de date. În această secțiune, vom discuta câteva cazuri comune de utilizare pentru caracteristica de redenumire în dplyr.

1. Redenumire simplă a coloanei:

Redenumirea unei singure coloane este simplă folosind rename()funcția. Sintaxa este rename(dataframe, new_name = old_name). Iată un exemplu:

library(dplyr)
dataframe <- dataframe="" %="">% rename(new_column_name = old_column_name)

2. Redenumirea mai multor coloane:

De asemenea, puteți redenumi mai multe coloane într-un apel de funcție, oferind mapare suplimentară a coloanei în interiorul rename()funcției. Iată un exemplu:

dataframe <- dataframe="" %="">%
  rename(new_col_name1 = old_col_name1,
         new_col_name2 = old_col_name2)

3. Redenumirea coloanelor folosind funcții șir:

Puteți redenumi coloanele utilizând funcții șir, cum ar fi tolower()sau toupper(), folosind rename_with()funcția. Conform Stack Overflow , această funcție înlocuiește funcțiile acum înlocuite rename_ifși . Iată un exemplu:rename_atrename_all

dataframe <- dataframe="" %="">%
  rename_with(tolower)  # Converts column names to lowercase

4. Redenumirea coloanelor în funcție de o condiție:

Cu rename_with(), puteți aplica funcții personalizate de redenumire și chiar condiții de utilizare. Următorul exemplu demonstrează redenumirea coloanelor în funcție de faptul dacă acestea conțin un anumit șir:

rename_function <- function(x)="" {="" if="" (grepl("length",="" x))="" {="" return(paste0(x,="" "_length"))="" }="" else="" {="" return(paste0(x,="" "_default"))="" }="" }="" dataframe=""><- dataframe="" %="">% rename_with(rename_function)

Gestionarea erorilor și a cazurilor marginale

În timp ce utilizați funcția de redenumire dplyr pentru a modifica numele coloanelor într-un cadru de date, este posibil să întâmpinați unele erori sau cazuri marginale din cauza numelor de coloane duplicate, a spațiilor în numele coloanelor sau a unei sintaxe incorecte. Această secțiune oferă îndrumări cu privire la modul de abordare a acestor probleme.

Când se ocupă de nume de coloane duplicate, dplyr nu poate redenumi coloanele cu același nume de ieșire. Cu toate acestea, o soluție pentru a unduplica numele de coloane este să utilizați funcția rename_alldin pachetul dplyr împreună cu paste0:

d %>% rename_all(~paste0(., 1:2))

Acest cod va adăuga un număr de la 1 la 2 la fiecare nume de coloană, asigurându-se că nu există duplicate. Mai multe detalii pot fi găsite în această discuție Stack Overflow .

În cazul în care există spații în numele coloanelor, puteți folosi backticks pentru a include numele coloanelor astfel:

df %>% rename(foo = `test col`)

În cele din urmă, dacă vă confruntați cu probleme legate de faptul că dplyr nu acceptă funcția paste0()ca vechi_nume în rename(), o posibilă soluție este să construiți noile nume de coloane în afara funcției rename()și apoi să le folosiți ca intrare. O discuție relevantă despre o problemă similară poate fi găsită în această întrebare Stack Overflow .

Prin abordarea acestor erori și cazuri marginale, veți fi mai bine echipat pentru a gestiona scenarii complexe de redenumire în dplyr.

În această secțiune finală a articolului nostru despre redenumirea dplyr, am discutat despre importanța acestuia în sarcinile de manipulare a datelor. Funcția rename() permite utilizatorilor să modifice eficient numele coloanelor, ceea ce duce la cadre de date mai clare și mai concise. Acest lucru devine deosebit de util atunci când aveți de-a face cu seturi de date mari sau în timpul etapelor de preprocesare a datelor.

Folosind pachetul dplyr, redenumirea coloanelor în R este simplă, nu este o știință a datelor, consultați mai jos:

  rename(new_column_name = old_column_name)

Această sintaxă simplă vă permite să înlocuiți vechile nume de coloane cu altele noi, îmbunătățind lizibilitatea și asigurând coerența datelor dvs. În plus, funcția rename_with() poate fi folosită pentru a modifica numele coloanelor folosind o funcție specifică. Acest lucru oferă un control mai mare și personalizare a manipulărilor datelor dvs.

Prin valorificarea puterii dplyr și a funcției de redenumire, vă puteți manipula cu încredere datele și puteți îmbunătăți capacitățile generale de procesare a datelor. Nu uitați să folosiți întotdeauna surse de încredere atunci când învățați noi tehnici de programare R, cum ar fi

Cu dplyr rename în setul dvs. de instrumente, sunteți bine echipat pentru a face față unei varietăți de provocări de manipulare a datelor și pentru a continua să vă dezvoltați expertiza în programare R.

Alte exemple din lumea reală - Adăugarea, eliminarea și redenumirea coloanelor

Operațiile pe coloane vă permit să calculați, să adăugați, să eliminați și să redenumiți coloanele în R folosind dplyr . Deschideți un nou script R în RStudio. Dacă nu știți cum, faceți clic pe linkuri pentru a afla cum să instalați RStudio și să creați un script R.

Pentru această demonstrație, se utilizează pachetul de date Lahman . Acesta conține recorduri de baseball datând de peste o sută de ani. Este un set de date bun de folosit pentru practică. Îl poți descărca făcând o căutare rapidă pe google.

Mai mult, pachetul Lahman are un set de date etichetat Teams , cu T majusculă. O bună practică pentru convențiile de denumire în R este utilizarea literelor mici. Deci, acesta trebuie convertit mai întâi în echipe , așa cum se vede în imaginea de mai jos.

Adăugați, eliminați și redenumiți coloane în R folosind Dplyr

Funcții de bază pentru operațiile pe coloane

1. Adăugați coloane noi în R

Prima funcție este mutare ( ) . Aceasta creează o nouă coloană bazată pe coloanele existente.

Dacă doriți să calculați o nouă coloană, puteți utiliza funcția de mutare după argumentul:

df este un nume alternativ pentru orice tip de cadru de date. Deci, atunci când este utilizat efectiv, înlocuiți df cu numele cadrului de date pe care doriți să îl modificați. Apoi, plasați noile variabile care trebuie denumite împreună cu formula pentru derivarea noii coloane.

De exemplu, funcția mutare va fi folosită pentru a găsi procentul de câștig pentru fiecare coloană. În setul de date Lahman, există o coloană Câștiguri și pierderi. Pentru a obține procentul, împărțiți câștigul la suma câștigului și pierderii. Dar înainte de a putea face asta, trebuie să aduceți pachetul dplyr.

Iată ce se întâmplă dacă rulați funcția mutare fără dplyr:

Veți primi o eroare care spune „Nu a putut găsi funcția mutare”.

Deci, iată cum să introduceți dplyr în R. Trebuie doar să rulați biblioteca (tidyverse) .

Veți vedea că dplyr se numără printre numeroasele funcții din pachetul tidyverse . O altă opțiune este să rulați biblioteca (dplyr) .

Acum, dacă plasați cursorul pe codul cu funcția de mutare și îl rulați, veți vedea apoi coloana Wpct care conține procentele de câștig.

Adăugați, eliminați și redenumiți coloane în R folosind Dplyr

În acest caz, rezultatul funcției de mutare a fost doar rulat; nu a atribuit date.

Dacă doriți să atribuiți rezultatul funcției de mutare echipelor de date , trebuie să utilizați operatorul de atribuire ( <-> ). Odată terminat, rulați-l. Apoi, într-o altă linie, alergați cap (echipe) . Acest lucru va atribui rezultatul setului de date al echipelor .

Adăugați, eliminați și redenumiți coloane în R folosind Dplyr

Dacă doriți să verificați ce coloane sunt disponibile într-un set de date, utilizați funcția nume ( ) . Aceasta va lista toate numele coloanelor din date.

Adăugați, eliminați și redenumiți coloane în R folosind Dplyr

De asemenea, puteți utiliza funcțiile existente ca parte a funcției de mutare . De exemplu, puteți lua jurnalul unui anumit set de date folosind funcția jurnal ( ) .

Adăugați, eliminați și redenumiți coloane în R folosind Dplyr

2. Selectați Coloane în R

O altă funcție din dplyr este select ( ) . Fie scad, fie selectează coloanele date. Algoritmul său de bază este:

Adăugați, eliminați și redenumiți coloane în R folosind Dplyr

Trebuie să introduceți numele cadrului de date și apoi coloanele pe care doriți să le selectați.

De exemplu, dacă doriți să păstrați coloanele yearID, câștiguri și pierderi în setul de date, trebuie doar să rulați:

Adăugați, eliminați și redenumiți coloane în R folosind Dplyr

Veți obține apoi rezultatul dorit:

Adăugați, eliminați și redenumiți coloane în R folosind Dplyr

Cu toate acestea, dacă nu utilizați funcția head ( ) , rezultatul va afișa rândurile de jos ale coloanelor. Deci, dacă aveți de-a face cu mai multe rânduri de date, va trebui să derulați continuu în sus pentru a ajunge în partea de sus a coloanei.

O bună practică este să utilizați funcția cap împreună cu select. Astfel, atunci când rulați codul, rezultatul va afișa mai întâi rândurile de sus ale coloanei.

Adăugați, eliminați și redenumiți coloane în R folosind Dplyr

Acum, dacă doriți să eliminați coloane din setul de date, trebuie doar să plasați un semn minus ( ) înaintea numelui coloanei.

Adăugați, eliminați și redenumiți coloane în R folosind Dplyr

Pentru a verifica dacă o coloană a fost într-adevăr eliminată, puteți compara noul set de date cu cel vechi. Iată cum să o faci:

Mai întâi, atribuiți codul R cu funcția de selectare unui obiect. În acest exemplu, a fost atribuit teams_short . Pentru a număra numărul de coloane, utilizați funcția ncol ( ) . Rulați funcția ncol atât pentru teams_short , cât și pentru teams .

Adăugați, eliminați și redenumiți coloane în R folosind Dplyr

Veți vedea apoi că o coloană a fost eliminată din setul de date.

Adăugați, eliminați și redenumiți coloane în R folosind Dplyr

3. Redenumiți coloanele în R

Ultima funcție de coloană din dplyr este rename ( ) . Și, după cum sugerează și numele, poate redenumi coloanele selectate în R.

Acesta este algoritmul său de bază:

Adăugați, eliminați și redenumiți coloane în R folosind Dplyr

Și veți observa că este puțin contraintuitiv; noul nume vine pe primul loc, în timp ce vechiul nume vine după aceea. Așa că asigură-te că nu le amesteci.

De exemplu, coloanele curente yearID și divID vor fi redenumite în year_id și , respectiv, division_id . Înainte de a rula codul, asigurați-vă că îl atribuiți unui obiect nou pentru a nu perturba setul de date original.

Adăugați, eliminați și redenumiți coloane în R folosind Dplyr

Pentru a verifica dacă numele acestor coloane selectate au fost schimbate cu succes, utilizați funcția nume ( ) .

Adăugați, eliminați și redenumiți coloane în R folosind Dplyr

Veți vedea că coloanele au fost într-adevăr redenumite.

Adăugați, eliminați și redenumiți coloane în R folosind Dplyr

Te-ai întrebat vreodată cât de puternic este R atunci când este folosit cu LuckyTemplates, vezi această tehnică minunată, te va economisi o tonă de timp.

Cuvântul Final

Acest tutorial a discutat trei funcții de bază dplyr pe care le puteți utiliza pentru a efectua operațiuni pe coloană. Mai exact, ați învățat cum să adăugați, să eliminați și să redenumiți coloanele în R.

Mai sunt și alte funcții pe care nu le-ați explorat încă. Dar este important să cunoașteți și să vă familiarizați cu mutați ( ) , selectați ( ) și redenumiți ( ) deoarece acestea sunt cele mai comune.

Aceste tehnici de editare a coloanelor pot fi realizate și în Power Query. Dar este grozav să ai cunoștințe despre cum să faci asta și în dplyr. Acest lucru vă va ajuta cu siguranță atunci când treceți la analiza seturi de date statistice.

Întrebări frecvente

Care este diferența dintre R și Python?

Pentru început, atât R, cât și Python sunt limbaje de programare, dar python este mai mult un limbaj de utilizare generală, iar R este un limbaj de programare statistică. Python este un limbaj mai des folosit, mai înțeles și versatil.

Ce este str?

str afișează pur și simplu structurile r obiecte

Ce este Petal.Length în R?

Petal.length este un format folosit în R pentru a relata relațiile pe care le testăm.

Ce este un DataFrame în R?

Un cadru de date R este o structură de date tabelară care este utilizată în mod obișnuit pentru a stoca valori ale oricărui tip de date.

Ce înseamnă dbl?

Dbl înseamnă „clasă dublă”, este un tip de date folosit pentru a deține valori numerice care conțin puncte zecimale.


Ce este Sinele în Python: Exemple din lumea reală

Ce este Sinele în Python: Exemple din lumea reală

Ce este Sinele în Python: Exemple din lumea reală

Cum să salvați și să încărcați un fișier RDS în R

Cum să salvați și să încărcați un fișier RDS în R

Veți învăța cum să salvați și să încărcați obiecte dintr-un fișier .rds în R. Acest blog va trata, de asemenea, cum să importați obiecte din R în LuckyTemplates.

Primele N zile lucrătoare revizuite – O soluție de limbaj de codare DAX

Primele N zile lucrătoare revizuite – O soluție de limbaj de codare DAX

În acest tutorial despre limbajul de codare DAX, aflați cum să utilizați funcția GENERATE și cum să schimbați în mod dinamic titlul unei măsuri.

Prezentați perspective utilizând tehnica vizuală dinamică cu mai multe fire în LuckyTemplates

Prezentați perspective utilizând tehnica vizuală dinamică cu mai multe fire în LuckyTemplates

Acest tutorial va acoperi cum să utilizați tehnica Multi Threaded Dynamic Visuals pentru a crea informații din vizualizările dinamice de date din rapoartele dvs.

Introducere la filtrarea contextului în LuckyTemplates

Introducere la filtrarea contextului în LuckyTemplates

În acest articol, voi trece prin contextul filtrului. Contextul de filtrare este unul dintre subiectele majore despre care orice utilizator LuckyTemplates ar trebui să învețe inițial.

Cele mai bune sfaturi pentru utilizarea aplicațiilor din serviciul online LuckyTemplates

Cele mai bune sfaturi pentru utilizarea aplicațiilor din serviciul online LuckyTemplates

Vreau să arăt cum serviciul online LuckyTemplates Apps poate ajuta la gestionarea diferitelor rapoarte și informații generate din diverse surse.

Analizați modificările marjei de profit ore suplimentare – Analytics cu LuckyTemplates și DAX

Analizați modificările marjei de profit ore suplimentare – Analytics cu LuckyTemplates și DAX

Aflați cum să vă calculați modificările marjei de profit folosind tehnici precum măsurarea ramificării și combinarea formulelor DAX în LuckyTemplates.

Idei de materializare pentru cache-urile de date în DAX Studio

Idei de materializare pentru cache-urile de date în DAX Studio

Acest tutorial va discuta despre ideile de materializare a cache-urilor de date și despre modul în care acestea afectează performanța DAX-ului în furnizarea de rezultate.

Raportare de afaceri folosind LuckyTemplates

Raportare de afaceri folosind LuckyTemplates

Dacă încă utilizați Excel până acum, atunci acesta este cel mai bun moment pentru a începe să utilizați LuckyTemplates pentru nevoile dvs. de raportare a afacerii.

Ce este LuckyTemplates Gateway? Tot ce trebuie să știți

Ce este LuckyTemplates Gateway? Tot ce trebuie să știți

Ce este LuckyTemplates Gateway? Tot ce trebuie să știți