Kolommen toevoegen, verwijderen en hernoemen in R met behulp van Dplyr

Kolommen toevoegen, verwijderen en hernoemen in R met behulp van Dplyr

dplyr is een populair R-pakket voor gegevensmanipulatie, waardoor het voor gebruikers gemakkelijker wordt om met dataframes te werken. Een veelvoorkomende taak bij het werken met gegevens is het hernoemen van kolommen, wat dplyr efficiënt afhandelt met behulp van de functie rename().

De functie rename() in dplyr is met name handig bij datasets met kolommen met onduidelijke of dubbelzinnige namen. Door een eenvoudige en intuïtieve syntaxis te bieden voor het hernoemen van kolommen, maakt dplyr het voor gebruikers gemakkelijker om hun code te begrijpen en te onderhouden.

Bovendien kan deze functie eenvoudig worden gecombineerd met andere dplyr-bewerkingen, zoals filteren en samenvatten, om een ​​naadloze workflow voor gegevensmanipulatie in R te creëren.

Deze functies zijn ook beschikbaar in Power Query , dus ze zijn niet uniek voor het R-programma. R is echter beter in het hanteren ervan.

In het volgende artikel zullen we de details van de functie rename() van dplyr en zijn verschillende toepassingen onderzoeken, om te illustreren hoe effectief deze kan zijn bij het beheren van dataframes.

We zullen ook leren hoe we kolommen in R kunnen toevoegen en verwijderen met behulp van dyplr.

Door deze technieken te leren, kunnen gebruikers de bruikbaarheid van hun inspanningen op het gebied van gegevensmanipulatie verbeteren, robuustere en foutloze analyses produceren en onderweg plezier hebben!

Laten we wat datawetenschap ingaan, het is tijd om te tikkelen, of moeten we zeggen, kom op met de basis R!

Inhoudsopgave

Dplyr Rename begrijpen

Het dplyr-pakket in R is een populair geordend pakket voor gegevensmanipulatie dat een reeks handige functies biedt voor het transformeren en organiseren van gegevenssets. Van deze functies is de functie rename() bijzonder handig als het gaat om het wijzigen van kolomnamen in een dataframe.

Om de functie rename() te gebruiken, geeft u gewoon de nieuwe kolomnaam op, gevolgd door de oude, zoals deze: new_name = old_name. Laten we bijvoorbeeld eens kijken naar een voorbeeld van een gegevensframe waarin we de kolomnaam "old1" willen wijzigen in "new1". De syntaxis zou er als volgt uitzien:

library(dplyr)
df %>% rename(new1 = old1)

Bovendien kunt u met de functie rename_with() kolommen hernoemen met behulp van een opgegeven transformatiefunctie. U kunt bijvoorbeeld de toupper-functie gebruiken om alle kolomnamen naar hoofdletters te converteren:

df %>% rename_with(toupper)

Als u meerdere kolommen tegelijk moet hernoemen, biedt dplyr twee methoden. De eerste omvat het gebruik van de functie rename(), waarbij meerdere nieuwe en oude kolomnamen als argumenten worden opgegeven:

df %>% rename(new1 = old1, new2 = old2)

De tweede methode omvat het gebruik van de functie rename_with(), waarbij u arrays van oude en nieuwe kolomnamen definieert:

new <- c('new1',="" 'new2')="" old=""><- c('old1',="" 'old2')="" df="" %="">% rename_with(~ new, all_of(old))

Beide methoden, zoals weergegeven in de bovenstaande voorbeelden, zullen hetzelfde resultaat opleveren.

Dplyr installeren en laden

Om het dplyr-pakket te gaan gebruiken voor het hernoemen van kolommen, moet u eerst het pakket in uw R-omgeving installeren en laden. Het installeren van dplyr is een eenvoudig proces dat kan worden uitgevoerd met behulp van de volgende opdracht:

install.packages("dplyr")

Nadat de installatie is voltooid, kunt u het dplyr-pakket in uw R-script laden met behulp van de bibliotheekfunctie:

library("dplyr")

Nu het dplyr-pakket is geïnstalleerd en geladen, kunt u nu de krachtige functies voor gegevensmanipulatie gebruiken, waaronder de functie rename() om kolommen in uw dataframe een andere naam te geven.

Hier is een voorbeeld van het gebruik van de functie rename() met de bekende iris-dataset. Stel dat u de kolom "Sepal.Length" wilt hernoemen naar "sepal_length". U kunt dit bereiken met behulp van de volgende code:

iris_renamed <- iris="" %="">%
  rename(sepal_length = Sepal.Length)

In dit codefragment wordt de %>%-operator gebruikt om de irisgegevensset naar de functie rename() te leiden. De nieuwe kolomnaam "sepal_length" wordt toegewezen aan de oude kolomnaam "Sepal.Length". Het resulterende dataframe met de hernoemde kolom wordt vervolgens toegewezen aan de variabelenamen, iris_renamed.

De functie rename() kan ook meerdere kolommen tegelijk hernoemen. Als u bijvoorbeeld de kolommen "Sepal.Length" en "Sepal.Width" wilt hernoemen naar respectievelijk "sepal_length" en "sepal_width", kunt u de volgende code gebruiken:

iris_renamed <- iris="" %="">%
  rename(
    sepal_length = Sepal.Length,
    sepal_width = Sepal.Width
  )

Dit codefragment laat zien hoe gemakkelijk het is om meerdere kolommen in een dataframe een andere naam te geven met behulp van de functie rename() van dplyr.

De functie Dplyr Rename gebruiken

Het dplyr-pakket in R is een krachtige tool voor gegevensmanipulatie bij het werken met dataframes. Een van de vele handige functies die het biedt, is de functie hernoemen, waarmee u eenvoudig kolommen in uw dataframe kunt hernoemen.

Basis syntaxis

De basissyntaxis voor het gebruik van de functie hernoemen in dplyr is als volgt:


library(dplyr)
your_dataframe %>% rename(new_column_name = old_column_name)

Met deze opdracht hernoemt u de opgegeven oude kolom naar de gewenste nieuwe kolomnaam, zonder andere kolommen in het gegevensframe te wijzigen.

Hernoemen van meerdere kolommen

U kunt ook meerdere kolommen tegelijk hernoemen met dezelfde hernoemfunctie. Om dit te doen, scheidt u gewoon elke kolom door het paar te hernoemen met een komma:


your_dataframe %>%
   rename(new_column1 = old_column1,
          new_column2 = old_column2,
          new_column3 = old_column3)

Met deze aanpak kunt u zoveel kolommen hernoemen als nodig is in één instructie.

U kunt ook de rename_with()functie gebruiken om een ​​transformatie toe te passen op kolomnamen. Deze functie neemt een gegevensframe en een functie die wordt toegepast op de kolomnamen om de nieuwe namen te genereren. Bijvoorbeeld:


your_dataframe %>%
  rename_with(.cols = c("old_column1", "old_column2"), .fn = toupper)

Hiermee worden de opgegeven kolomnamen in hoofdletters omgezet.

Chaining met andere Dplyr-functies

Een van de sterke punten van dplyr is de mogelijkheid om meerdere acties aan elkaar te koppelen met behulp van de %>%operator. Hierdoor kunt u op een beknopte en gemakkelijk leesbare manier een reeks gegevensmanipulaties uitvoeren. Wanneer u de functie hernoemen gebruikt, kunt u deze samen met andere dplyr-functies koppelen, zoals filter(), mutate(), en summarize():


your_dataframe %>%
  filter(some_condition) %>%
  rename(new_column_name = old_column_name) %>%
  mutate(new_column = some_expression) %>%
  summarize(some_aggregation)

Dit voorbeeld demonstreert een reeks gegevensmanipulaties waarbij eerst gegevensfiltering wordt uitgevoerd, gevolgd door het hernoemen van een kolom, het maken van een nieuwe kolom met behulp van muteren en ten slotte het samenvatten van de gegevens met een aggregatiefunctie.

Door gebruik te maken van de kracht van dplyr's hernoemfunctie en chaining-mogelijkheden, kunnen R-gebruikers efficiënte en leesbare datamanipulaties uitvoeren op hun dataframes.

Gemeenschappelijke Dplyr hernoemen Use Cases

Dplyr is een krachtig pakket in R dat een reeks functies biedt voor het uitvoeren van gegevensmanipulatietaken. Een veelvoorkomende taak is het hernoemen van kolommen in een dataframe. In deze sectie bespreken we enkele veelvoorkomende use-cases voor de hernoemfunctie in dplyr.

1. Eenvoudig hernoemen van kolommen:

Het hernoemen van een enkele kolom is eenvoudig met behulp van de rename()functie. De syntaxis is rename(dataframe, new_name = old_name). Hier is een voorbeeld:

library(dplyr)
dataframe <- dataframe="" %="">% rename(new_column_name = old_column_name)

2. Hernoemen van meerdere kolommen:

U kunt ook meerdere kolommen hernoemen in één functieaanroep door extra kolomtoewijzing binnen de rename()functie aan te bieden. Hier is een voorbeeld:

dataframe <- dataframe="" %="">%
  rename(new_col_name1 = old_col_name1,
         new_col_name2 = old_col_name2)

3. Hernoemen van kolommen met stringfuncties:

U kunt de naam van kolommen wijzigen met tekenreeksfuncties, zoals tolower()of toupper(), met behulp van de rename_with()functie. Volgens Stack Overflow vervangt deze functie de inmiddels vervangen rename_if, rename_aten rename_allfuncties. Hier is een voorbeeld:

dataframe <- dataframe="" %="">%
  rename_with(tolower)  # Converts column names to lowercase

4. Hernoemen van kolommen op basis van een voorwaarde:

Met rename_with()kunt u aangepaste hernoemfuncties toepassen en zelfs voorwaarden gebruiken. Het volgende voorbeeld demonstreert het hernoemen van kolommen op basis van het feit of ze een bepaalde tekenreeks bevatten:

rename_function <- function(x)="" {="" if="" (grepl("length",="" x))="" {="" return(paste0(x,="" "_length"))="" }="" else="" {="" return(paste0(x,="" "_default"))="" }="" }="" dataframe=""><- dataframe="" %="">% rename_with(rename_function)

Omgaan met fouten en edge-cases

Wanneer u de functie dplyr hernoemen gebruikt om kolomnamen in een gegevensframe te wijzigen, kunt u enkele fouten of randgevallen tegenkomen als gevolg van dubbele kolomnamen, spaties in kolomnamen of onjuiste syntaxis. In dit gedeelte vindt u richtlijnen voor het aanpakken van deze problemen.

Bij dubbele kolomnamen kan dplyr de kolommen met dezelfde uitvoernaam niet hernoemen. Een tijdelijke oplossing om kolomnamen ongedaan te maken, is echter om de rename_allfunctie uit het dplyr-pakket te gebruiken samen met paste0:

d %>% rename_all(~paste0(., 1:2))

Deze code voegt een nummer van 1 tot 2 toe aan elke kolomnaam, zodat er geen duplicaten zijn. Meer details zijn te vinden in deze Stack Overflow-discussie .

Als er spaties in kolomnamen staan, kunt u backticks gebruiken om de kolomnamen als volgt te omsluiten:

df %>% rename(foo = `test col`)

Tot slot, als u problemen ondervindt met betrekking tot dplyr die de paste0()functie niet accepteert als de oude_naam in rename(), is een mogelijke oplossing om de nieuwe kolomnamen buiten de rename()functie te construeren en ze vervolgens als invoer te gebruiken. Een relevante discussie over een soortgelijk probleem is te vinden in deze Stack Overflow- vraag .

Door deze fouten en edge-cases aan te pakken, bent u beter uitgerust om complexe hernoemingsscenario's in dplyr aan te pakken.

In dit laatste deel van ons artikel over het hernoemen van dplyr hebben we het belang ervan bij taken voor gegevensmanipulatie besproken. Met de functie rename() kunnen gebruikers kolomnamen efficiënt wijzigen, wat leidt tot duidelijkere en beknoptere dataframes. Dit wordt met name handig bij het omgaan met grote datasets of tijdens stappen voor het voorbewerken van gegevens.

Met behulp van het dplyr-pakket is het hernoemen van kolommen in R eenvoudig, het is geen harde datawetenschap, bekijk het onderstaande:

  rename(new_column_name = old_column_name)

Met deze eenvoudige syntaxis kunt u oude kolomnamen vervangen door nieuwe, wat de leesbaarheid verbetert en zorgt voor consistentie in uw gegevens. Bovendien kan de functie rename_with() worden gebruikt om kolomnamen te wijzigen met een specifieke functie. Dit biedt meer controle en aanpassing van uw gegevensmanipulaties.

Door gebruik te maken van de kracht van dplyr en de hernoemfunctie, kunt u met vertrouwen uw gegevens manipuleren en de algehele gegevensverwerkingsmogelijkheden verbeteren. Vergeet niet om altijd betrouwbare bronnen te gebruiken bij het leren van nieuwe R-programmeertechnieken, zoals

Met dplyr rename in uw toolkit bent u goed uitgerust om een ​​verscheidenheid aan uitdagingen op het gebied van gegevensmanipulatie aan te pakken en uw R-programmeerexpertise verder te ontwikkelen.

Verdere praktijkvoorbeelden -Toevoegen, verwijderen en hernoemen van kolommen

Met kolombewerkingen kunt u kolommen in R berekenen, toevoegen, verwijderen en hernoemen met behulp van dplyr . Open een nieuw R-script in RStudio. Als u niet weet hoe, klik dan op de links voor meer informatie over het installeren van RStudio en het maken van een R-script .

Voor deze demonstratie wordt het Lahman dataset pakket gebruikt. Dit bevat honkbalrecords die meer dan honderd jaar oud zijn. Het is een goede dataset om mee te oefenen. Je kunt het downloaden door snel op Google te zoeken.

Bovendien heeft het Lahman-pakket een dataset met het label Teams , met een hoofdletter T. Een best practice voor naamgevingsconventies in R is het gebruik van kleine letters. Dit moet dus eerst worden geconverteerd naar teams , zoals te zien is in de onderstaande afbeelding.

Kolommen toevoegen, verwijderen en hernoemen in R met behulp van Dplyr

Basisfuncties voor kolombewerkingen

1. Voeg nieuwe kolommen toe in R

De eerste functie is muteren ( ) . Hierdoor wordt een nieuwe kolom gemaakt op basis van bestaande kolommen.

Als u een nieuwe kolom wilt berekenen, kunt u de functie muteren gebruiken na het argument:

df is een standaardnaam voor elk type dataframe. Vervang dus bij daadwerkelijk gebruik df door de naam van het dataframe dat u wilt muteren. Vervolgens plaatst u de nieuwe variabelen die een naam moeten krijgen samen met de formule voor het afleiden van de nieuwe kolom.

De functie muteren wordt bijvoorbeeld gebruikt om het winnende percentage voor elke kolom te vinden. In de Lahman-dataset is er een Win- en Loss-kolom. Om het percentage te krijgen, deelt u Winst door de som van Winst en Verlies. Maar voordat u dat kunt doen, moet u het dplyr-pakket binnenhalen.

Dit is wat er gebeurt als je de muteerfunctie uitvoert zonder dplyr:

U krijgt de foutmelding "Kon functie muteren niet vinden".

Dus, hier is hoe je dplyr in R kunt brengen. Je hoeft alleen maar library (tidyverse) uit te voeren .

Je zult zien dat dplyr een van de vele functies is in het opruimpakket . Een andere optie is om library (dplyr) uit te voeren .

Als je nu je cursor op de code plaatst met de mute- functie en deze uitvoert, zie je de Wpct- kolom met daarin de winnende percentages.

Kolommen toevoegen, verwijderen en hernoemen in R met behulp van Dplyr

In dit geval werd alleen het resultaat van de muteerfunctie uitgevoerd; het is niet toegewezen aan de gegevens.

Als u het resultaat van de muteerfunctie aan de gegevensteams wilt toewijzen , moet u de toewijzingsoperator ( <-> ) gebruiken . Als je klaar bent, voer je het uit. Voer dan in een andere rij head (teams) uit . Hiermee wordt het resultaat toegewezen aan de gegevensset van het team .

Kolommen toevoegen, verwijderen en hernoemen in R met behulp van Dplyr

Als u wilt controleren welke kolommen beschikbaar zijn in een gegevensset, gebruikt u de functie namen ( ) . Hiermee worden alle kolomnamen in de gegevens weergegeven.

Kolommen toevoegen, verwijderen en hernoemen in R met behulp van Dplyr

U kunt ook bestaande functies gebruiken als onderdeel van de muteerfunctie . U kunt bijvoorbeeld het logboek van een specifieke dataset nemen met behulp van de logfunctie ( ) .

Kolommen toevoegen, verwijderen en hernoemen in R met behulp van Dplyr

2. Selecteer Kolommen in R

Een andere functie in dplyr is select() . Het laat vallen of selecteert bepaalde kolommen. Het basisalgoritme is:

Kolommen toevoegen, verwijderen en hernoemen in R met behulp van Dplyr

U moet de naam van het dataframe invoeren en vervolgens de kolommen die u wilt selecteren.

Als u bijvoorbeeld de kolommen yearID, wins en loss in de gegevensset wilt behouden, hoeft u alleen het volgende uit te voeren:

Kolommen toevoegen, verwijderen en hernoemen in R met behulp van Dplyr

Je krijgt dan het gewenste resultaat:

Kolommen toevoegen, verwijderen en hernoemen in R met behulp van Dplyr

Als u echter de functie head ( ) niet gebruikt , toont het resultaat de onderste rijen van de kolommen. Dus als u te maken heeft met meerdere rijen met gegevens, moet u continu omhoog scrollen om bovenaan de kolom te komen.

Een best practice is om de head- functie samen met select te gebruiken. Zodat wanneer u de code uitvoert, het resultaat eerst de bovenste rijen van de kolom laat zien.

Kolommen toevoegen, verwijderen en hernoemen in R met behulp van Dplyr

Als u nu kolommen uit de dataset wilt verwijderen, hoeft u alleen een minteken ( ) voor de kolomnaam te plaatsen.

Kolommen toevoegen, verwijderen en hernoemen in R met behulp van Dplyr

Om te controleren of een kolom inderdaad is verwijderd, kunt u de nieuwe dataset vergelijken met de oude. Hier is hoe het te doen:

Wijs eerst de R-code met de select- functie toe aan een object. In dit voorbeeld is het toegewezen aan teams_short . Gebruik de functie ncol ( ) om het aantal kolommen te tellen . Voer de functie ncol uit voor zowel teams_short als teams .

Kolommen toevoegen, verwijderen en hernoemen in R met behulp van Dplyr

U ziet dan dat er één kolom uit de dataset is verwijderd.

Kolommen toevoegen, verwijderen en hernoemen in R met behulp van Dplyr

3. Hernoem kolommen in R

De laatste kolomfunctie in dplyr is hernoemen ( ) . En zoals de naam al doet vermoeden, kan het geselecteerde kolommen hernoemen in R.

Dit is het basisalgoritme:

Kolommen toevoegen, verwijderen en hernoemen in R met behulp van Dplyr

En je zult merken dat het een beetje contra-intuïtief is; de nieuwe naam komt eerst terwijl de oude naam daarna komt. Zorg er dus voor dat je die niet door elkaar haalt.

De huidige kolommen yearID en divID worden bijvoorbeeld hernoemd naar respectievelijk year_id en division_id . Voordat u de code uitvoert, moet u ervoor zorgen dat u deze aan een nieuw object toewijst om de oorspronkelijke dataset niet te verstoren.

Kolommen toevoegen, verwijderen en hernoemen in R met behulp van Dplyr

Gebruik de functie namen ( ) om te controleren of de naam van deze geselecteerde kolommen succesvol is gewijzigd .

Kolommen toevoegen, verwijderen en hernoemen in R met behulp van Dplyr

U zult zien dat de kolommen inderdaad zijn hernoemd.

Kolommen toevoegen, verwijderen en hernoemen in R met behulp van Dplyr

Heb je je ooit afgevraagd hoe krachtig R is in combinatie met LuckyTemplates, bekijk deze geweldige techniek eens, het zal je een hoop tijd besparen.

Het laatste woord

Deze zelfstudie heeft drie basis dplyr -functies besproken die u kunt gebruiken om kolombewerkingen uit te voeren. U hebt met name geleerd hoe u kolommen in R kunt toevoegen, verwijderen en hernoemen.

Er zijn nog andere functies die je nog moet verkennen. Maar het is belangrijk om te weten en vertrouwd te zijn met muteren ( ) , selecteren ( ) en hernoemen ( ) aangezien deze de meest voorkomende zijn.

Deze kolombewerkingstechnieken kunnen ook in Power Query worden uitgevoerd. Maar het is ook geweldig om te weten hoe je dit in dplyr moet doen. Dit zal u zeker helpen wanneer u overgaat tot het analyseren van statistische datasets.

Veelgestelde vragen

Wat is het verschil tussen R en Python?

Om te beginnen zijn zowel R als Python programmeertalen, maar python is meer een taal voor algemeen gebruik en R is een statistische programmeertaal. Python is een meer algemeen gebruikte, begrepen en veelzijdige taal.

Wat is str?

str toont eenvoudig de structuren van r objecten

Wat is Petal.Length in R?

Petal.length is een indeling die in R wordt gebruikt voor het vertellen van relaties die we testen.

Wat is een dataframe in R?

Een R-gegevensframe is een gegevensstructuur in tabelvorm die gewoonlijk wordt gebruikt om waarden van elk type gegevens op te slaan.

Waar staat dbl voor?

Dbl staat voor "dubbele klasse", het is een gegevenstype dat wordt gebruikt om numerieke waarden met decimalen vast te houden.


Wat is zelf in Python: voorbeelden uit de echte wereld

Wat is zelf in Python: voorbeelden uit de echte wereld

Wat is zelf in Python: voorbeelden uit de echte wereld

Een RDS-bestand opslaan en laden in R

Een RDS-bestand opslaan en laden in R

Je leert hoe je objecten uit een .rds-bestand in R opslaat en laadt. In deze blog wordt ook besproken hoe je objecten uit R naar LuckyTemplates importeert.

First N Business Days Revisited – Een DAX-coderingstaaloplossing

First N Business Days Revisited – Een DAX-coderingstaaloplossing

In deze tutorial over DAX-coderingstaal leert u hoe u de functie GENERATE gebruikt en hoe u de titel van een maat dynamisch wijzigt.

Breng inzichten onder de aandacht met behulp van de Multi Threaded Dynamic Visuals-techniek in LuckyTemplates

Breng inzichten onder de aandacht met behulp van de Multi Threaded Dynamic Visuals-techniek in LuckyTemplates

Deze zelfstudie behandelt hoe u de Multi Threaded Dynamic Visuals-techniek kunt gebruiken om inzichten te creëren op basis van dynamische gegevensvisualisaties in uw rapporten.

Inleiding tot het filteren van context in LuckyTemplates

Inleiding tot het filteren van context in LuckyTemplates

In dit artikel zal ik de filtercontext doornemen. Filtercontext is een van de belangrijkste onderwerpen waarover elke LuckyTemplates-gebruiker in eerste instantie zou moeten leren.

Beste tips voor het gebruik van de apps in LuckyTemplates Online Service

Beste tips voor het gebruik van de apps in LuckyTemplates Online Service

Ik wil laten zien hoe de online service LuckyTemplates Apps kan helpen bij het beheren van verschillende rapporten en inzichten die uit verschillende bronnen zijn gegenereerd.

Analyseer winstmargeveranderingen in de loop van de tijd - analyse met LuckyTemplates en DAX

Analyseer winstmargeveranderingen in de loop van de tijd - analyse met LuckyTemplates en DAX

Leer hoe u wijzigingen in uw winstmarge kunt berekenen met behulp van technieken zoals vertakking van metingen en het combineren van DAX-formules in LuckyTemplates.

Materialisatie-ideeën voor gegevenscaches in DAX Studio

Materialisatie-ideeën voor gegevenscaches in DAX Studio

Deze tutorial bespreekt de ideeën van materialisatie van datacaches en hoe deze de prestaties van DAX beïnvloeden bij het leveren van resultaten.

Zakelijke rapportage met behulp van LuckyTemplates

Zakelijke rapportage met behulp van LuckyTemplates

Als u tot nu toe nog steeds Excel gebruikt, is dit het beste moment om LuckyTemplates te gaan gebruiken voor uw zakelijke rapportagebehoeften.

Wat is LuckyTemplates Gateway? Alles wat u moet weten

Wat is LuckyTemplates Gateway? Alles wat u moet weten

Wat is LuckyTemplates Gateway? Alles wat u moet weten