Adicionar, remover e renomear colunas em R usando Dplyr

Adicionar, remover e renomear colunas em R usando Dplyr

dplyr é um pacote R popular para manipulação de dados, tornando mais fácil para os usuários trabalhar com quadros de dados. Uma tarefa comum ao trabalhar com dados é renomear colunas, que o dplyr manipula de forma eficiente usando a função rename().

A função rename() em dplyr é particularmente útil ao lidar com conjuntos de dados que possuem colunas com nomes pouco claros ou ambíguos. Ao fornecer uma sintaxe simples e intuitiva para renomear colunas, o dplyr torna mais fácil para os usuários entender e manter seu código.

Além disso, essa função pode ser facilmente combinada com outras operações do dplyr, como filtragem e resumo, para criar um fluxo de trabalho de manipulação de dados contínuo em R.

Esses recursos também estão disponíveis no Power Query , portanto, não são exclusivos do programa R. No entanto, R é melhor em lidar com eles.

No artigo a seguir, exploraremos os detalhes da função rename() do dplyr e suas diversas aplicações, exemplificando o quão eficaz ela pode ser no gerenciamento de quadros de dados.

Também aprenderemos como adicionar e remover colunas em R usando dyplr.

Ao aprender essas técnicas, os usuários podem aumentar a praticidade de seus esforços de manipulação de dados, produzir análises mais robustas e sem erros e se divertir ao longo do caminho!

Vamos entrar em alguma ciência de dados, é hora de tibble, ou deveríamos dizer, trazer a base R!

Índice

Entendendo a renomeação do Dplyr

O pacote dplyr em R é um popular pacote de universo para manipulação de dados que oferece um conjunto de funções úteis para transformar e organizar conjuntos de dados. Entre essas funções, a função rename() é particularmente útil quando se trata de modificar nomes de colunas em um quadro de dados.

Para usar a função rename(), basta fornecer o nome da nova coluna seguido do antigo, assim: new_name = old_name. Por exemplo, vamos considerar um quadro de dados de amostra onde queremos alterar o nome da coluna “old1” para “new1”. A sintaxe ficaria assim:

library(dplyr)
df %>% rename(new1 = old1)

Além disso, a função rename_with() permite renomear colunas usando uma função de transformação especificada. Por exemplo, você pode usar a função toupper para converter todos os nomes de coluna para letras maiúsculas:

df %>% rename_with(toupper)

Se você precisar renomear várias colunas de uma vez, o dplyr fornece dois métodos. A primeira envolve o uso da função rename(), fornecendo vários nomes de coluna novos e antigos como argumentos:

df %>% rename(new1 = old1, new2 = old2)

O segundo método envolve o uso da função rename_with(), onde você define arrays de nomes de colunas novos e antigos:

new <- c('new1',="" 'new2')="" old=""><- c('old1',="" 'old2')="" df="" %="">% rename_with(~ new, all_of(old))

Ambos os métodos, conforme mostrado nos exemplos acima, produzirão o mesmo resultado.

Instalando e carregando o Dplyr

Para começar a usar o pacote dplyr para renomear colunas, você deve primeiro instalar e carregar o pacote em seu ambiente R. A instalação do dplyr é um processo simples que pode ser realizado com o seguinte comando:

install.packages("dplyr")

Após a conclusão da instalação, você pode carregar o pacote dplyr em seu script R usando a função de biblioteca:

library("dplyr")

Com o pacote dplyr instalado e carregado, agora você pode utilizar suas poderosas funções de manipulação de dados, incluindo a função rename() para renomear colunas em seu quadro de dados.

Aqui está um exemplo de uso da função rename() com o conhecido conjunto de dados iris. Suponha que você queira renomear a coluna “Sepal.Length” para “sepal_length”. Você pode conseguir isso usando o seguinte código:

iris_renamed <- iris="" %="">%
  rename(sepal_length = Sepal.Length)

Neste trecho de código, o operador %>% é usado para canalizar o conjunto de dados da íris para a função rename(). O novo nome de coluna “sepal_length” é atribuído ao antigo nome de coluna “Sepal.Length”. O quadro de dados resultante com a coluna renomeada é então atribuído aos nomes de variáveis, iris_renamed.

A função rename() também pode lidar com a renomeação de várias colunas de uma só vez. Por exemplo, se você quiser renomear as colunas “Sepal.Length” e “Sepal.Width” para “sepal_length” e “sepal_width” respectivamente, você pode usar o seguinte código:

iris_renamed <- iris="" %="">%
  rename(
    sepal_length = Sepal.Length,
    sepal_width = Sepal.Width
  )

Este trecho de código demonstra como é fácil renomear várias colunas em um quadro de dados usando a função rename() do dplyr.

Usando a função de renomeação do Dplyr

O pacote dplyr em R é uma ferramenta poderosa para manipulação de dados ao trabalhar com quadros de dados. Uma das muitas funções úteis que ele fornece é a função renomear, que permite renomear colunas facilmente em seu quadro de dados.

Sintaxe Básica

A sintaxe básica para usar a função renomear no dplyr é a seguinte:


library(dplyr)
your_dataframe %>% rename(new_column_name = old_column_name)

Este comando renomeará a coluna antiga especificada para o nome da nova coluna desejada, sem alterar nenhuma outra coluna no quadro de dados.

Renomeando Múltiplas Colunas

Você também pode renomear várias colunas de uma só vez usando a mesma função de renomeação. Para fazer isso, basta separar cada coluna renomeando o par com uma vírgula:


your_dataframe %>%
   rename(new_column1 = old_column1,
          new_column2 = old_column2,
          new_column3 = old_column3)

Usando essa abordagem, você pode renomear quantas colunas forem necessárias em uma única instrução.

Como alternativa, você pode usar a rename_with()função para aplicar uma transformação aos nomes das colunas. Essa função pega um quadro de dados e uma função que será aplicada aos nomes das colunas para gerar os novos nomes. Por exemplo:


your_dataframe %>%
  rename_with(.cols = c("old_column1", "old_column2"), .fn = toupper)

Isso converter�� os nomes das colunas especificadas em letras maiúsculas.

Encadeamento com outras funções Dplyr

Um dos pontos fortes do dplyr é sua capacidade de encadear várias ações usando o %>%operador. Isso permite que você execute uma série de manipulações de dados de maneira concisa e fácil de ler. Ao usar a função renomear, você pode encadeá-la junto com outras funções dplyr, como filter(), mutate()e summarize():


your_dataframe %>%
  filter(some_condition) %>%
  rename(new_column_name = old_column_name) %>%
  mutate(new_column = some_expression) %>%
  summarize(some_aggregation)

Este exemplo demonstra uma série de manipulações de dados em que a filtragem de dados é feita primeiro, seguida pela renomeação de uma coluna, criação de uma nova coluna usando mutação e, finalmente, resumo dos dados com uma função de agregação.

Aproveitando o poder da função de renomeação e dos recursos de encadeamento do dplyr, os usuários do R podem realizar manipulações de dados eficientes e legíveis em seus quadros de dados.

Casos de uso comuns de renomeação do Dplyr

Dplyr é um pacote poderoso em R que fornece um conjunto de funções para executar tarefas de manipulação de dados. Uma tarefa comum é renomear colunas em um quadro de dados. Nesta seção, discutiremos alguns casos de uso comuns para o recurso de renomeação no dplyr.

1. Renomeação de coluna simples:

Renomear uma única coluna é simples usando a rename()função. A sintaxe é rename(dataframe, new_name = old_name). Aqui está um exemplo:

library(dplyr)
dataframe <- dataframe="" %="">% rename(new_column_name = old_column_name)

2. Renomeando várias colunas:

Você também pode renomear várias colunas em uma chamada de função, fornecendo mapeamento de coluna adicional dentro de rename()function. Aqui está um exemplo:

dataframe <- dataframe="" %="">%
  rename(new_col_name1 = old_col_name1,
         new_col_name2 = old_col_name2)

3. Renomeando colunas usando funções de string:

Você pode renomear colunas usando funções de string, como tolower()ou toupper(), usando a rename_with()função. De acordo com o Stack Overflow , esta função substitui as agora substituídas funções rename_if, rename_ate rename_all. Aqui está um exemplo:

dataframe <- dataframe="" %="">%
  rename_with(tolower)  # Converts column names to lowercase

4. Renomear colunas com base em uma condição:

Com rename_with(), você pode aplicar funções de renomeação personalizadas e até condições de uso. O exemplo a seguir demonstra a renomeação de colunas com base no fato de conterem uma determinada string:

rename_function <- function(x)="" {="" if="" (grepl("length",="" x))="" {="" return(paste0(x,="" "_length"))="" }="" else="" {="" return(paste0(x,="" "_default"))="" }="" }="" dataframe=""><- dataframe="" %="">% rename_with(rename_function)

Tratamento de erros e casos extremos

Ao usar a função dplyr renomear para modificar nomes de coluna em um quadro de dados, você pode encontrar alguns erros ou casos extremos devido a nomes de coluna duplicados, espaços em nomes de coluna ou sintaxe incorreta. Esta seção fornece orientação sobre como lidar com esses problemas.

Ao lidar com nomes de coluna duplicados, o dplyr não pode renomear as colunas com o mesmo nome de saída. No entanto, uma solução alternativa para desduplicar os nomes das colunas é usar a rename_allfunção do pacote dplyr junto com paste0:

d %>% rename_all(~paste0(., 1:2))

Esse código anexará um número de 1 a 2 a cada nome de coluna, garantindo que não haja duplicatas. Mais detalhes podem ser encontrados nesta discussão do Stack Overflow .

Caso haja espaços nos nomes das colunas, você pode usar acentos graves para incluir os nomes das colunas assim:

df %>% rename(foo = `test col`)

Por fim, se você enfrentar problemas relacionados ao dplyr não aceitar a paste0()função como old_name em rename(), uma possível solução é construir os novos nomes de coluna fora da rename()função e usá-los como entrada. Uma discussão relevante sobre um problema semelhante pode ser encontrada nesta pergunta do Stack Overflow .

Ao lidar com esses erros e casos extremos, você estará mais bem equipado para lidar com cenários complexos de renomeação no dplyr.

Nesta seção final de nosso artigo sobre renomeação dplyr, discutimos sua importância nas tarefas de manipulação de dados. A função rename() permite que os usuários alterem os nomes das colunas de forma eficiente, levando a quadros de dados mais claros e concisos. Isso se torna particularmente útil ao lidar com grandes conjuntos de dados ou durante as etapas de pré-processamento de dados.

Usando o pacote dplyr, renomear colunas em R é simples, não é ciência de dados, confira abaixo:

  rename(new_column_name = old_column_name)

Essa sintaxe simples permite substituir nomes de coluna antigos por novos, melhorando a legibilidade e garantindo consistência em seus dados. Além disso, a função rename_with() pode ser empregada para modificar os nomes das colunas usando uma função específica. Isso oferece maior controle e personalização de suas manipulações de dados.

Ao aproveitar o poder do dplyr e da função renomear, você pode manipular seus dados com confiança e melhorar os recursos gerais de processamento de dados. Lembre-se de sempre usar fontes confiáveis ​​ao aprender novas técnicas de programação em R, como

Com a renomeação dplyr em seu kit de ferramentas, você está bem equipado para enfrentar uma variedade de desafios de manipulação de dados e continuar aprimorando sua experiência em programação R.

Outros exemplos do mundo real - Adicionando, removendo e renomeando colunas

As operações de coluna permitem calcular, adicionar, remover e renomear colunas em R usando dplyr . Abra um novo script R no RStudio. Caso não saiba, clique nos links para saber como instalar o RStudio e criar um script R.

Para esta demonstração, o pacote de conjunto de dados Lahman é usado. Este contém recordes de beisebol que datam de mais de cem anos. É um bom conjunto de dados para usar na prática. Você pode baixá-lo fazendo uma rápida pesquisa no Google.

Além disso, o pacote Lahman tem um conjunto de dados denominado Teams , com T maiúsculo. Uma prática recomendada para convenções de nomenclatura em R é usar letras minúsculas. Portanto, isso precisa ser convertido primeiro em times , como pode ser visto na imagem abaixo.

Adicionar, remover e renomear colunas em R usando Dplyr

Funções básicas para operações de coluna

1. Adicionar novas colunas em R

A primeira função é mutate() . Isso cria uma nova coluna com base nas colunas existentes.

Se você deseja calcular uma nova coluna, pode usar a função mutate seguindo o argumento:

df é um nome substituto para qualquer tipo de quadro de dados. Portanto, quando estiver em uso real, substitua df pelo nome do quadro de dados que deseja modificar. Em seguida, você coloca as novas variáveis ​​que precisam ser nomeadas junto com a fórmula para derivar a nova coluna.

Por exemplo, a função mutate será usada para encontrar a porcentagem vencedora para cada coluna. No conjunto de dados Lahman, há uma coluna de ganhos e perdas. Para obter a porcentagem, divida Ganhos pela soma de Ganhos e Perdas. Mas antes de fazer isso, você precisa trazer o pacote dplyr.

Aqui está o que acontece se você executar a função mutate sem dplyr:

Você receberá um erro dizendo “não foi possível encontrar a função mutate”.

Então, veja como trazer dplyr para R. Você só precisa executar library (tidyverse) .

Você verá que o dplyr está entre as muitas funções do pacote alignverse . Outra opção é executar a biblioteca (dplyr) .

Agora, se você colocar o cursor no código com a função mutate e executá-lo, verá a coluna Wpct contendo as porcentagens vencedoras.

Adicionar, remover e renomear colunas em R usando Dplyr

Neste caso, o resultado da função mutate foi apenas executado; não atribuiu aos dados.

Se você quiser atribuir o resultado da função mutate às equipes de dados , precisará usar o operador de atribuição ( <-> ). Feito isso, execute-o. Em seguida, em outra linha, execute head (equipes) . Isso atribuirá o resultado ao conjunto de dados das equipes .

Adicionar, remover e renomear colunas em R usando Dplyr

Se você quiser verificar quais colunas estão disponíveis em um conjunto de dados, use a função nomes ( ) . Isso listará todos os nomes de coluna nos dados.

Adicionar, remover e renomear colunas em R usando Dplyr

Você também pode usar funções existentes como parte da função mutate . Por exemplo, você pode obter o log de um conjunto de dados específico usando a função log ( ) .

Adicionar, remover e renomear colunas em R usando Dplyr

2. Selecione colunas em R

Outra função no dplyr é select ( ) . Ele descarta ou seleciona determinadas colunas. Seu algoritmo básico é:

Adicionar, remover e renomear colunas em R usando Dplyr

Você precisa inserir o nome do quadro de dados e, em seguida, as colunas que deseja selecionar.

Por exemplo, se você quiser manter as colunas yearID, wins e loss no conjunto de dados, você só precisa executar:

Adicionar, remover e renomear colunas em R usando Dplyr

Você obterá o resultado desejado:

Adicionar, remover e renomear colunas em R usando Dplyr

No entanto, se você não usar a função head ( ) , o resultado mostrará as linhas inferiores das colunas. Portanto, se você estiver lidando com várias linhas de dados, precisará rolar continuamente para cima para chegar ao topo da coluna.

Uma prática recomendada é usar a função head junto com select. Para que, ao executar o código, o resultado mostre primeiro as linhas superiores da coluna.

Adicionar, remover e renomear colunas em R usando Dplyr

Agora, se você deseja remover colunas do conjunto de dados, basta colocar um sinal de menos ( ) antes do nome da coluna.

Adicionar, remover e renomear colunas em R usando Dplyr

Para verificar se uma coluna foi realmente removida, você pode comparar o novo conjunto de dados com o antigo. Veja como fazer:

Primeiro, atribua o código R com a função select a um objeto. Neste exemplo, foi atribuído a teams_short . Para contar o número de colunas, use a função ncol ( ) . Execute a função ncol para teams_short e teams .

Adicionar, remover e renomear colunas em R usando Dplyr

Você verá que uma coluna foi removida do conjunto de dados.

Adicionar, remover e renomear colunas em R usando Dplyr

3. Renomear colunas em R

A função da última coluna em dplyr é rename() . E como o nome sugere, pode renomear colunas selecionadas em R.

Este é o seu algoritmo básico:

Adicionar, remover e renomear colunas em R usando Dplyr

E você notará que é um pouco contra-intuitivo; o novo nome vem primeiro enquanto o nome antigo vem depois disso. Portanto, certifique-se de não confundi-los.

Por exemplo, as colunas yearID e divID atuais serão renomeadas para year_id e division_id , respectivamente. Antes de executar o código, certifique-se de atribuí-lo a um novo objeto para não interromper o conjunto de dados original.

Adicionar, remover e renomear colunas em R usando Dplyr

Para verificar se essas colunas selecionadas tiveram seus nomes alterados com sucesso, utilize a função nomes ( ) .

Adicionar, remover e renomear colunas em R usando Dplyr

Você verá que as colunas realmente foram renomeadas.

Adicionar, remover e renomear colunas em R usando Dplyr

Você já se perguntou o quão poderoso é o R quando usado com o LuckyTemplates, confira esta técnica incrível, ela economizará muito tempo.

A Palavra Final

Este tutorial discutiu três funções básicas do dplyr que você pode usar para executar operações de coluna. Especificamente, você aprendeu como adicionar, remover e renomear colunas em R.

Ainda existem outras funções que você ainda precisa explorar. Mas é importante conhecer e estar familiarizado com mutate ( ) , select ( ) e rename ( ) , pois são os mais comuns.

Essas técnicas de edição de coluna também podem ser feitas no Power Query. Mas é ótimo saber como fazer isso no dplyr também. Isso certamente o ajudará quando você passar a analisar conjuntos de dados estatísticos.

perguntas frequentes

Qual é a diferença entre R e Python?

Para iniciantes, R e Python são linguagens de programação, mas python é mais uma linguagem de uso geral e R é uma linguagem de programação estatística. Python é uma linguagem mais comumente usada, compreendida e versátil.

O que é str?

str simplesmente exibe as estruturas de objetos r

O que é Petal.Length em R?

Petal.length é um formato usado em todo o R para recontar os relacionamentos que estamos testando.

O que é um DataFrame em R?

Um quadro de dados R é uma estrutura de dados tabulares comumente usada para armazenar valores de qualquer tipo de dados.

O que significa dbl?

Dbl significa “classe dupla” é um tipo de dados usado para armazenar valores numéricos contendo pontos decimais.


O que é self em Python: exemplos do mundo real

O que é self em Python: exemplos do mundo real

O que é self em Python: exemplos do mundo real

Como salvar e carregar um arquivo RDS em R

Como salvar e carregar um arquivo RDS em R

Você aprenderá como salvar e carregar objetos de um arquivo .rds no R. Este blog também abordará como importar objetos do R para o LuckyTemplates.

Primeiros N dias úteis revisitados - uma solução de linguagem de codificação DAX

Primeiros N dias úteis revisitados - uma solução de linguagem de codificação DAX

Neste tutorial de linguagem de codificação DAX, aprenda como usar a função GENERATE e como alterar um título de medida dinamicamente.

Apresentar insights usando a técnica de visuais dinâmicos multithread no LuckyTemplates

Apresentar insights usando a técnica de visuais dinâmicos multithread no LuckyTemplates

Este tutorial abordará como usar a técnica Multi Threaded Dynamic Visuals para criar insights de visualizações de dados dinâmicos em seus relatórios.

Introdução ao contexto de filtro no LuckyTemplates

Introdução ao contexto de filtro no LuckyTemplates

Neste artigo, analisarei o contexto do filtro. O contexto do filtro é um dos principais tópicos sobre os quais qualquer usuário do LuckyTemplates deve aprender inicialmente.

Melhores dicas para usar os aplicativos no serviço online do LuckyTemplates

Melhores dicas para usar os aplicativos no serviço online do LuckyTemplates

Quero mostrar como o serviço online do LuckyTemplates Apps pode ajudar no gerenciamento de diferentes relatórios e insights gerados de várias fontes.

Analisar alterações de margem de lucro ao longo do tempo – Analytics com LuckyTemplates e DAX

Analisar alterações de margem de lucro ao longo do tempo – Analytics com LuckyTemplates e DAX

Aprenda a calcular suas alterações de margem de lucro usando técnicas como ramificação de medida e combinação de fórmulas DAX no LuckyTemplates.

Ideias de materialização para caches de dados no DAX Studio

Ideias de materialização para caches de dados no DAX Studio

Este tutorial discutirá sobre as ideias de materialização de caches de dados e como elas afetam o desempenho dos DAXs no fornecimento de resultados.

Relatórios de negócios usando o LuckyTemplates

Relatórios de negócios usando o LuckyTemplates

Se você ainda estiver usando o Excel até agora, este é o melhor momento para começar a usar o LuckyTemplates para suas necessidades de relatórios de negócios.

O que é o Gateway do LuckyTemplates? Tudo o que você precisa saber

O que é o Gateway do LuckyTemplates? Tudo o que você precisa saber

O que é o Gateway do LuckyTemplates? Tudo o que você precisa saber