Aggiungi, rimuovi e rinomina colonne in R utilizzando Dplyr

Aggiungi, rimuovi e rinomina colonne in R utilizzando Dplyr

dplyr è un popolare pacchetto R per la manipolazione dei dati, che rende più facile per gli utenti lavorare con i frame di dati. Un'attività comune quando si lavora con i dati è la ridenominazione delle colonne, che dplyr gestisce in modo efficiente utilizzando la funzione rename().

La funzione rename() in dplyr è particolarmente utile quando si ha a che fare con set di dati che hanno colonne con nomi poco chiari o ambigui. Fornendo una sintassi semplice e intuitiva per rinominare le colonne, dplyr rende più facile per gli utenti comprendere e mantenere il proprio codice.

Inoltre, questa funzione può essere facilmente combinata con altre operazioni dplyr, come il filtraggio e il riepilogo, per creare un flusso di lavoro di manipolazione dei dati senza soluzione di continuità in R.

Queste funzionalità sono disponibili anche in Power Query , quindi non sono univoche per il programma R. Tuttavia, R è più bravo a gestirli.

Nel seguente articolo, esploreremo i dettagli della funzione rename() di dplyr e le sue varie applicazioni, esemplificando quanto possa essere efficace nella gestione dei frame di dati.

Impareremo anche come aggiungere e rimuovere colonne in R usando dyplr.

Imparando queste tecniche, gli utenti possono migliorare la praticità dei loro sforzi di manipolazione dei dati, produrre analisi più solide e prive di errori e divertirsi lungo il percorso!

Entriamo in un po' di scienza dei dati, è ora di sgranocchiare, o dovremmo dire, portare la base R!

Sommario

Comprensione di Dplyr Rename

Il pacchetto dplyr in R è un popolare pacchetto tidyverse per la manipolazione dei dati che offre una serie di funzioni utili per trasformare e organizzare i set di dati. Tra queste funzioni, la funzione rename() è particolarmente utile quando si tratta di modificare i nomi delle colonne in un frame di dati.

Per utilizzare la funzione rename(), fornisci semplicemente il nuovo nome della colonna seguito da quello vecchio, in questo modo: new_name = old_name. Ad esempio, consideriamo un frame di dati di esempio in cui vogliamo modificare il nome della colonna "old1" in "new1". La sintassi sarebbe simile a questa:

library(dplyr)
df %>% rename(new1 = old1)

Inoltre, la funzione rename_with() consente di rinominare le colonne utilizzando una funzione di trasformazione specificata. Ad esempio, puoi utilizzare la funzione toupper per convertire tutti i nomi di colonna in maiuscolo:

df %>% rename_with(toupper)

Se devi rinominare più colonne contemporaneamente, dplyr fornisce due metodi. Il primo prevede l'utilizzo della funzione rename(), fornendo più nomi di colonne vecchi e nuovi come argomenti:

df %>% rename(new1 = old1, new2 = old2)

Il secondo metodo prevede l'utilizzo della funzione rename_with(), in cui si definiscono matrici di vecchi e nuovi nomi di colonna:

new <- c('new1',="" 'new2')="" old=""><- c('old1',="" 'old2')="" df="" %="">% rename_with(~ new, all_of(old))

Entrambi i metodi, come mostrato negli esempi precedenti, produrranno lo stesso risultato.

Installazione e caricamento di Dplyr

Per iniziare a usare il pacchetto dplyr per rinominare le colonne, devi prima installare e caricare il pacchetto nel tuo ambiente R. L'installazione di dplyr è un processo semplice che può essere eseguito utilizzando il seguente comando:

install.packages("dplyr")

Al termine dell'installazione, puoi caricare il pacchetto dplyr nel tuo script R utilizzando la funzione di libreria:

library("dplyr")

Con il pacchetto dplyr installato e caricato, ora puoi utilizzare le sue potenti funzioni di manipolazione dei dati, inclusa la funzione rename() per rinominare le colonne nel tuo frame di dati.

Ecco un esempio di utilizzo della funzione rename() con il noto set di dati iris. Supponiamo di voler rinominare la colonna "Sepal.Length" in "sepal_length". È possibile ottenere ciò utilizzando il seguente codice:

iris_renamed <- iris="" %="">%
  rename(sepal_length = Sepal.Length)

In questo frammento di codice, l'operatore %>% viene utilizzato per reindirizzare il set di dati iris nella funzione rename(). Il nuovo nome di colonna "sepal_length" viene assegnato al vecchio nome di colonna "Sepal.Length". Il frame di dati risultante con la colonna rinominata viene quindi assegnato ai nomi delle variabili, iris_renamed.

La funzione rename() può anche gestire la ridenominazione di più colonne contemporaneamente. Ad esempio, se desideri rinominare entrambe le colonne "Sepal.Length" e "Sepal.Width" rispettivamente in "sepal_length" e "sepal_width", puoi utilizzare il seguente codice:

iris_renamed <- iris="" %="">%
  rename(
    sepal_length = Sepal.Length,
    sepal_width = Sepal.Width
  )

Questo frammento di codice dimostra quanto sia facile rinominare più colonne in un frame di dati utilizzando la funzione rename() di dplyr.

Utilizzo della funzione di rinomina Dplyr

Il pacchetto dplyr in R è un potente strumento per la manipolazione dei dati quando si lavora con frame di dati. Una delle tante funzioni utili che fornisce è la funzione di ridenominazione, che consente di rinominare facilmente le colonne nel data frame.

Sintassi di base

La sintassi di base per l'utilizzo della funzione rename in dplyr è la seguente:


library(dplyr)
your_dataframe %>% rename(new_column_name = old_column_name)

Questo comando rinominerà la vecchia colonna specificata con il nuovo nome di colonna desiderato, senza modificare altre colonne nel frame di dati.

Ridenominazione di più colonne

Puoi anche rinominare più colonne contemporaneamente utilizzando la stessa funzione di ridenominazione. Per fare ciò, basta separare ogni colonna rinominando la coppia con una virgola:


your_dataframe %>%
   rename(new_column1 = old_column1,
          new_column2 = old_column2,
          new_column3 = old_column3)

Utilizzando questo approccio, puoi rinominare tutte le colonne necessarie in una singola istruzione.

In alternativa, puoi utilizzare la rename_with()funzione per applicare una trasformazione ai nomi delle colonne. Questa funzione accetta un frame di dati e una funzione che verrà applicata ai nomi delle colonne per generare i nuovi nomi. Per esempio:


your_dataframe %>%
  rename_with(.cols = c("old_column1", "old_column2"), .fn = toupper)

Questo convertirà i nomi di colonna specificati in maiuscolo.

Concatenamento con altre funzioni Dplyr

Uno dei punti di forza di dplyr è la sua capacità di concatenare più azioni insieme utilizzando l' %>%operatore. Ciò consente di eseguire una serie di manipolazioni dei dati in modo conciso e di facile lettura. Quando si utilizza la funzione rinomina, è possibile concatenarla insieme ad altre funzioni dplyr come filter(), mutate()e summarize():


your_dataframe %>%
  filter(some_condition) %>%
  rename(new_column_name = old_column_name) %>%
  mutate(new_column = some_expression) %>%
  summarize(some_aggregation)

Questo esempio mostra una serie di manipolazioni dei dati in cui il filtraggio dei dati viene eseguito per primo, seguito dalla ridenominazione di una colonna, dalla creazione di una nuova colonna tramite mutate e infine dal riepilogo dei dati con una funzione di aggregazione.

Sfruttando la potenza della funzione di ridenominazione di dplyr e le capacità di concatenamento, gli utenti R possono eseguire manipolazioni di dati efficienti e leggibili sui propri frame di dati.

Casi d'uso comuni per la ridenominazione di Dplyr

Dplyr è un potente pacchetto in R che fornisce una serie di funzioni per l'esecuzione di attività di manipolazione dei dati. Un'attività comune è la ridenominazione delle colonne in un frame di dati. In questa sezione, discuteremo alcuni casi d'uso comuni per la funzionalità di ridenominazione in dplyr.

1. Semplice ridenominazione delle colonne:

Rinominare una singola colonna è semplice utilizzando la rename()funzione. La sintassi è rename(dataframe, new_name = old_name). Ecco un esempio:

library(dplyr)
dataframe <- dataframe="" %="">% rename(new_column_name = old_column_name)

2. Rinominare più colonne:

È inoltre possibile rinominare più colonne in una chiamata di funzione fornendo un'ulteriore mappatura delle colonne all'interno rename()della funzione. Ecco un esempio:

dataframe <- dataframe="" %="">%
  rename(new_col_name1 = old_col_name1,
         new_col_name2 = old_col_name2)

3. Rinominare le colonne utilizzando le funzioni di stringa:

È possibile rinominare le colonne utilizzando le funzioni di stringa, ad esempio tolower()o toupper(), utilizzando la rename_with()funzione. Secondo Stack Overflow , questa funzione sostituisce l'ormai superato rename_if, rename_atand rename_allfunctions. Ecco un esempio:

dataframe <- dataframe="" %="">%
  rename_with(tolower)  # Converts column names to lowercase

4. Ridenominazione delle colonne in base a una condizione:

Con rename_with(), puoi applicare funzioni di ridenominazione personalizzate e persino condizioni d'uso. L'esempio seguente mostra come rinominare le colonne in base al fatto che contengano o meno una determinata stringa:

rename_function <- function(x)="" {="" if="" (grepl("length",="" x))="" {="" return(paste0(x,="" "_length"))="" }="" else="" {="" return(paste0(x,="" "_default"))="" }="" }="" dataframe=""><- dataframe="" %="">% rename_with(rename_function)

Gestione degli errori e dei casi limite

Durante l'utilizzo della funzione dplyr rename per modificare i nomi delle colonne in un frame di dati, potresti riscontrare alcuni errori o casi limite a causa di nomi di colonna duplicati, spazi nei nomi di colonna o sintassi errata. Questa sezione fornisce indicazioni su come affrontare questi problemi.

Quando si ha a che fare con nomi di colonne duplicati, dplyr non può rinominare le colonne con lo stesso nome di output. Tuttavia, una soluzione alternativa per annullare la duplicazione dei nomi delle colonne consiste nell'utilizzare la rename_allfunzione dal pacchetto dplyr insieme a paste0:

d %>% rename_all(~paste0(., 1:2))

Questo codice aggiungerà un numero da 1 a 2 a ciascun nome di colonna, assicurando che non vi siano duplicati. Maggiori dettagli possono essere trovati in questa discussione Stack Overflow .

Nel caso in cui ci siano spazi nei nomi delle colonne, puoi usare i backtick per racchiudere i nomi delle colonne in questo modo:

df %>% rename(foo = `test col`)

Infine, se si riscontrano problemi relativi a dplyr che non accetta la paste0()funzione come old_name in rename(), una possibile soluzione è costruire i nuovi nomi di colonna al di fuori della rename()funzione e quindi utilizzarli come input. Una discussione pertinente su un problema simile può essere trovata in questa domanda Stack Overflow .

Affrontando questi errori e casi limite, sarai meglio attrezzato per gestire complessi scenari di ridenominazione in dplyr.

In questa sezione finale del nostro articolo su dplyr rename, abbiamo discusso la sua importanza nelle attività di manipolazione dei dati. La funzione rename() consente agli utenti di modificare i nomi delle colonne in modo efficiente, portando a frame di dati più chiari e concisi. Ciò diventa particolarmente utile quando si ha a che fare con set di dati di grandi dimensioni o durante le fasi di pre-elaborazione dei dati.

Utilizzando il pacchetto dplyr, rinominare le colonne in R è semplice, non è una scienza dei dati difficile, controlla quanto segue:

  rename(new_column_name = old_column_name)

Questa semplice sintassi consente di sostituire i vecchi nomi di colonna con quelli nuovi, migliorando la leggibilità e garantendo la coerenza dei dati. Inoltre, la funzione rename_with() può essere utilizzata per modificare i nomi delle colonne utilizzando una funzione specifica. Ciò offre un maggiore controllo e personalizzazione delle manipolazioni dei dati.

Sfruttando la potenza di dplyr e la funzione di ridenominazione, puoi manipolare con sicurezza i tuoi dati e migliorare le capacità complessive di elaborazione dei dati. Ricorda di utilizzare sempre fonti affidabili quando apprendi nuove tecniche di programmazione R, come

Con dplyr rename nel tuo toolkit, sei ben attrezzato per affrontare una varietà di sfide di manipolazione dei dati e continuare a migliorare la tua esperienza di programmazione R.

Ulteriori esempi reali: aggiunta, rimozione e ridenominazione di colonne

Le operazioni sulle colonne consentono di calcolare, aggiungere, rimuovere e rinominare le colonne in R utilizzando dplyr . Apri un nuovo script R in RStudio. Se non sai come fare, clicca sui link per scoprire come installare RStudio e creare uno script R.

Per questa dimostrazione viene utilizzato il pacchetto di set di dati Lahman . Questo contiene record di baseball che risalgono a più di cento anni fa. È un buon set di dati da utilizzare per la pratica. Puoi scaricarlo facendo una rapida ricerca su Google.

Inoltre, il pacchetto Lahman ha un set di dati etichettato Teams , con una T maiuscola. Una best practice per le convenzioni di denominazione in R consiste nell'usare lettere minuscole. Quindi questo deve essere convertito prima in teams , come mostrato nell'immagine qui sotto.

Aggiungi, rimuovi e rinomina colonne in R utilizzando Dplyr

Funzioni di base per le operazioni di colonna

1. Aggiungi nuove colonne in R

La prima funzione è mutate() . Questo crea una nuova colonna basata su colonne esistenti.

Se vuoi calcolare una nuova colonna, puoi usare la funzione mutate seguendo l'argomento:

df è un nome sostitutivo per qualsiasi tipo di frame di dati. Quindi, quando è effettivamente in uso, sostituisci df con il nome del frame di dati che desideri mutare. Quindi, inserisci le nuove variabili che devono essere denominate insieme alla formula per derivare la nuova colonna.

Ad esempio, la funzione mutate verrà utilizzata per trovare la percentuale di vincita per ogni colonna. Nel set di dati di Lahman, c'è una colonna Win and Loss. Per ottenere la percentuale, dividi Win per la somma di Win e Loss. Ma prima che tu possa farlo, devi portare il pacchetto dplyr.

Ecco cosa succede se esegui la funzione mutate senza dplyr:

Riceverai un errore che dice "impossibile trovare la funzione mutata".

Quindi, ecco come inserire dplyr in R. Devi solo eseguire library (tidyverse) .

Vedrai che dplyr è tra le molte funzioni nel pacchetto tidyverse . Un'altra opzione è eseguire library (dplyr) .

Ora se posizioni il cursore sul codice con la funzione mutate e lo esegui, vedrai la colonna Wpct contenente le percentuali di vincita.

Aggiungi, rimuovi e rinomina colonne in R utilizzando Dplyr

In questo caso, è stato eseguito solo il risultato della funzione mutate ; non ha assegnato ai dati.

Se si desidera assegnare il risultato della funzione mutate ai data teams , è necessario utilizzare l' operatore di assegnazione ( <-> ). Una volta fatto, eseguilo. Quindi in un'altra riga, esegui testa (squadre) . Questo assegnerà il risultato al set di dati dei team .

Aggiungi, rimuovi e rinomina colonne in R utilizzando Dplyr

Se vuoi controllare quali colonne sono disponibili in un set di dati, usa la funzione names ( ) . Questo elencherà tutti i nomi delle colonne nei dati.

Aggiungi, rimuovi e rinomina colonne in R utilizzando Dplyr

È inoltre possibile utilizzare le funzioni esistenti come parte della funzione mutate . Ad esempio, puoi prendere il log di un set di dati specifico utilizzando la funzione log ( ) .

Aggiungi, rimuovi e rinomina colonne in R utilizzando Dplyr

2. Selezionare Colonne in R

Un'altra funzione in dplyr è select() . Elimina o seleziona determinate colonne. Il suo algoritmo di base è:

Aggiungi, rimuovi e rinomina colonne in R utilizzando Dplyr

È necessario inserire il nome del frame di dati e quindi le colonne che si desidera selezionare.

Ad esempio, se vuoi mantenere le colonne yearID, wins e loss nel set di dati, devi solo eseguire:

Aggiungi, rimuovi e rinomina colonne in R utilizzando Dplyr

Otterrai quindi il risultato che desideri:

Aggiungi, rimuovi e rinomina colonne in R utilizzando Dplyr

Tuttavia, se non utilizzi la funzione head ( ) , il risultato mostrerà le righe inferiori delle colonne. Quindi, se hai a che fare con più righe di dati, dovrai scorrere continuamente verso l'alto per arrivare all'inizio della colonna.

Una best practice consiste nell'usare la funzione head insieme a select. In modo che quando esegui il codice, il risultato mostrerà prima le righe superiori della colonna.

Aggiungi, rimuovi e rinomina colonne in R utilizzando Dplyr

Ora, se desideri rimuovere colonne dal set di dati, devi solo inserire un segno meno ( ) prima del nome della colonna.

Aggiungi, rimuovi e rinomina colonne in R utilizzando Dplyr

Per verificare se una colonna è stata effettivamente rimossa, puoi confrontare il nuovo set di dati con quello vecchio. Ecco come farlo:

Innanzitutto, assegna il codice R con la funzione select a un oggetto. In questo esempio, è stato assegnato a teams_short . Per contare il numero di colonne, utilizzare la funzione ncol ( ) . Esegui la funzione ncol sia per teams_short che per teams .

Aggiungi, rimuovi e rinomina colonne in R utilizzando Dplyr

Vedrai quindi che una colonna è stata rimossa dal set di dati.

Aggiungi, rimuovi e rinomina colonne in R utilizzando Dplyr

3. Rinomina colonne in R

L'ultima funzione di colonna in dplyr è rename() . E come suggerisce il nome, può rinominare le colonne selezionate in R.

Questo è il suo algoritmo di base:

Aggiungi, rimuovi e rinomina colonne in R utilizzando Dplyr

E noterai che è un po' controintuitivo; il nuovo nome viene prima mentre il vecchio nome viene dopo. Quindi assicurati di non confonderli.

Ad esempio, le colonne yearID e divID correnti verranno rinominate rispettivamente in year_id e division_id . Prima di eseguire il codice, assicurati di assegnarlo a un nuovo oggetto in modo da non interrompere il set di dati originale.

Aggiungi, rimuovi e rinomina colonne in R utilizzando Dplyr

Per verificare se i nomi di queste colonne selezionate sono stati modificati correttamente, utilizzare la funzione dei nomi ( ) .

Aggiungi, rimuovi e rinomina colonne in R utilizzando Dplyr

Vedrai che le colonne sono state effettivamente rinominate.

Aggiungi, rimuovi e rinomina colonne in R utilizzando Dplyr

Ti sei mai chiesto quanto sia potente R quando viene utilizzato con LuckyTemplates, dai un'occhiata a questa fantastica tecnica, ti farà risparmiare un sacco di tempo.

L'ultima parola

Questo tutorial ha discusso tre funzioni dplyr di base che puoi utilizzare per eseguire operazioni sulle colonne. Nello specifico, hai imparato come aggiungere, rimuovere e rinominare le colonne in R.

Ci sono ancora altre funzioni che devi ancora esplorare. Ma è importante conoscere e avere familiarità con mutate ( ) , select ( ) e rename ( ) in quanto sono i più comuni.

Queste tecniche di modifica delle colonne possono essere eseguite anche in Power Query. Ma è fantastico sapere come farlo anche in dplyr. Questo ti aiuterà sicuramente quando passerai all'analisi di set di dati statistici.

Domande frequenti

Qual è la differenza tra R e Python?

Per cominciare, sia R che Python sono linguaggi di programmazione, ma Python è più un linguaggio di uso generale e R è un linguaggio di programmazione statistico. Python è un linguaggio più comunemente usato, compreso e versatile.

Cos'è str?

str visualizza semplicemente le strutture di r oggetti

Cos'è Petal.Length in R?

Petal.length è un formato utilizzato in R per raccontare le relazioni che stiamo testando.

Cos'è un DataFrame in R?

Un frame di dati R è una struttura di dati tabulare comunemente utilizzata per archiviare valori di qualsiasi tipo di dati.

Cosa significa dbl?

Dbl sta per "doppia classe" è un tipo di dati utilizzato per contenere valori numerici contenenti punti decimali.


Cosè il sé in Python: esempi del mondo reale

Cosè il sé in Python: esempi del mondo reale

Cos'è il sé in Python: esempi del mondo reale

Come salvare e caricare un file RDS in R

Come salvare e caricare un file RDS in R

Imparerai come salvare e caricare oggetti da un file .rds in R. Questo blog tratterà anche come importare oggetti da R a LuckyTemplates.

Rivisitazione dei primi N giorni lavorativi: una soluzione per il linguaggio di codifica DAX

Rivisitazione dei primi N giorni lavorativi: una soluzione per il linguaggio di codifica DAX

In questa esercitazione sul linguaggio di codifica DAX, scopri come usare la funzione GENERATE e come modificare dinamicamente il titolo di una misura.

Mostra approfondimenti utilizzando la tecnica di visualizzazione dinamica multi-thread in LuckyTemplates

Mostra approfondimenti utilizzando la tecnica di visualizzazione dinamica multi-thread in LuckyTemplates

Questo tutorial illustrerà come utilizzare la tecnica di visualizzazione dinamica multi-thread per creare approfondimenti dalle visualizzazioni di dati dinamici nei report.

Introduzione al filtraggio del contesto in LuckyTemplates

Introduzione al filtraggio del contesto in LuckyTemplates

In questo articolo, esaminerò il contesto del filtro. Il contesto del filtro è uno degli argomenti principali che qualsiasi utente di LuckyTemplates dovrebbe inizialmente conoscere.

I migliori suggerimenti per lutilizzo delle app nel servizio online LuckyTemplates

I migliori suggerimenti per lutilizzo delle app nel servizio online LuckyTemplates

Voglio mostrare come il servizio online di LuckyTemplates Apps può aiutare nella gestione di diversi report e approfondimenti generati da varie fonti.

Analizza le variazioni del margine di profitto nel tempo: analisi con LuckyTemplates e DAX

Analizza le variazioni del margine di profitto nel tempo: analisi con LuckyTemplates e DAX

Scopri come elaborare le modifiche al margine di profitto utilizzando tecniche come la ramificazione delle misure e la combinazione di formule DAX in LuckyTemplates.

Idee di materializzazione per cache di dati in DAX Studio

Idee di materializzazione per cache di dati in DAX Studio

Questo tutorial discuterà delle idee di materializzazione delle cache di dati e di come influiscono sulle prestazioni dei DAX nel fornire risultati.

Reporting aziendale tramite LuckyTemplates

Reporting aziendale tramite LuckyTemplates

Se finora utilizzi ancora Excel, questo è il momento migliore per iniziare a utilizzare LuckyTemplates per le tue esigenze di reportistica aziendale.

Che cosè il gateway LuckyTemplates? Tutto quello che devi sapere

Che cosè il gateway LuckyTemplates? Tutto quello che devi sapere

Che cos'è il gateway LuckyTemplates? Tutto quello che devi sapere