Добавление, удаление и переименование столбцов в R с помощью Dplyr

Добавление, удаление и переименование столбцов в R с помощью Dplyr

dplyr — популярный пакет R для манипулирования данными, упрощающий пользователям работу с фреймами данных. Распространенной задачей при работе с данными является переименование столбцов, с чем dplyr эффективно справляется с помощью функции rename().

Функция rename() в dplyr особенно полезна при работе с наборами данных, в которых есть столбцы с неясными или неоднозначными именами. Предоставляя простой и интуитивно понятный синтаксис для переименования столбцов, dplyr облегчает пользователям понимание и поддержку их кода.

Кроме того, эту функцию можно легко комбинировать с другими операциями dplyr, такими как фильтрация и суммирование, для создания непрерывного рабочего процесса обработки данных в R.

Эти функции также доступны в Power Query , поэтому они не уникальны для программы R. Однако R лучше справляется с ними.

В следующей статье мы подробно рассмотрим функцию dplyr rename() и ее различные приложения, демонстрируя, насколько эффективной она может быть при управлении фреймами данных.

Мы также узнаем, как добавлять и удалять столбцы в R с помощью dyplr.

Изучая эти методы, пользователи могут повысить практичность своих усилий по манипулированию данными, проводить более надежный и безошибочный анализ и получать от этого удовольствие!

Давайте углубимся в науку о данных, пришло время поболтать, или, лучше сказать, ввести базу R!

Оглавление

Понимание переименования Dplyr

Пакет dplyr в R — это популярный пакет tidyverse для обработки данных, который предлагает набор полезных функций для преобразования и организации наборов данных. Среди этих функций функция rename() особенно удобна, когда дело доходит до изменения имен столбцов во фрейме данных.

Чтобы использовать функцию rename(), просто укажите новое имя столбца, а затем старое, например: new_name = old_name. Например, давайте рассмотрим образец фрейма данных, в котором мы хотим изменить имя столбца «old1» на «new1». Синтаксис будет выглядеть так:

library(dplyr)
df %>% rename(new1 = old1)

Кроме того, функция rename_with() позволяет переименовывать столбцы с помощью указанной функции преобразования. Например, вы можете использовать функцию toupper для преобразования всех имен столбцов в верхний регистр:

df %>% rename_with(toupper)

Если вам нужно переименовать сразу несколько столбцов, dplyr предоставляет два метода. Первый включает использование функции rename(), предоставляющей несколько новых и старых имен столбцов в качестве аргументов:

df %>% rename(new1 = old1, new2 = old2)

Второй метод включает использование функции rename_with(), в которой вы определяете массивы старых и новых имен столбцов:

new <- c('new1',="" 'new2')="" old=""><- c('old1',="" 'old2')="" df="" %="">% rename_with(~ new, all_of(old))

Оба метода, как показано в примерах выше, дадут одинаковый результат.

Установка и загрузка Dplyr

Чтобы начать использовать пакет dplyr для переименования столбцов, необходимо сначала установить и загрузить пакет в среде R. Установка dplyr — это простой процесс, который можно выполнить с помощью следующей команды:

install.packages("dplyr")

После завершения установки вы можете загрузить пакет dplyr в свой сценарий R, используя библиотечную функцию:

library("dplyr")

Установив и загрузив пакет dplyr, вы теперь можете использовать его мощные функции обработки данных, включая функцию rename() для переименования столбцов в вашем фрейме данных.

Вот пример использования функции rename() с хорошо известным набором данных iris. Предположим, вы хотите переименовать столбец «Sepal.Length» в «sepal_length». Вы можете добиться этого, используя следующий код:

iris_renamed <- iris="" %="">%
  rename(sepal_length = Sepal.Length)

В этом фрагменте кода оператор %>% используется для передачи набора данных iris в функцию rename(). Новое имя столбца «sepal_length» назначается старому имени столбца «Sepal.Length». Результирующий фрейм данных с переименованным столбцом затем присваивается именам переменных iris_renamed.

Функция rename() также может обрабатывать одновременное переименование нескольких столбцов. Например, если вы хотите переименовать столбцы «Sepal.Length» и «Sepal.Width» в «sepal_length» и «sepal_width» соответственно, вы можете использовать следующий код:

iris_renamed <- iris="" %="">%
  rename(
    sepal_length = Sepal.Length,
    sepal_width = Sepal.Width
  )

Этот фрагмент кода демонстрирует, как легко переименовать несколько столбцов во фрейме данных с помощью функции rename() dplyr.

Использование функции п��реименования Dplyr

Пакет dplyr в R — это мощный инструмент для манипулирования данными при работе с фреймами данных. Одной из многих полезных функций, которую он предоставляет, является функция переименования, которая позволяет вам легко переименовывать столбцы в вашем фрейме данных.

Базовый синтаксис

Основной синтаксис использования функции переименования в dplyr следующий:


library(dplyr)
your_dataframe %>% rename(new_column_name = old_column_name)

Эта команда переименует указанный старый столбец в желаемое новое имя столбца без изменения каких-либо других столбцов во фрейме данных.

Переименование нескольких столбцов

Вы также можете переименовать сразу несколько столбцов, используя одну и ту же функцию переименования. Для этого просто разделите каждый столбец, переименовав пару запятой:


your_dataframe %>%
   rename(new_column1 = old_column1,
          new_column2 = old_column2,
          new_column3 = old_column3)

Используя этот подход, вы можете переименовать столько столбцов, сколько необходимо, в одном операторе.

Кроме того, вы можете использовать rename_with()функцию для применения преобразования к именам столбцов. Эта функция принимает фрейм данных и функцию, которая будет применяться к именам столбцов для создания новых имен. Например:


your_dataframe %>%
  rename_with(.cols = c("old_column1", "old_column2"), .fn = toupper)

Это преобразует указанные имена столбцов в верхний регистр.

Цепочка с другими функциями Dplyr

Одной из сильных сторон dplyr является его способность связывать несколько действий вместе с помощью %>%оператора. Это позволяет выполнять ряд манипуляций с данными лаконично и удобно для чтения. При использовании функции переименования вы можете связать ее с другими функциями dplyr, такими как filter(), mutate()и summarize():


your_dataframe %>%
  filter(some_condition) %>%
  rename(new_column_name = old_column_name) %>%
  mutate(new_column = some_expression) %>%
  summarize(some_aggregation)

В этом примере демонстрируется ряд манипуляций с данными, в которых сначала выполняется фильтрация данных, затем переименование столбца, создание нового столбца с использованием mutate и, наконец, суммирование данных с помощью функции агрегирования.

Используя возможности функции переименования и создания цепочек dplyr, пользователи R могут выполнять эффективные и удобочитаемые манипуляции с данными в своих фреймах данных.

Распространенные варианты использования Dplyr Rename

Dplyr — это мощный пакет в R, предоставляющий набор функций для выполнения задач по обработке данных. Одной из распространенных задач является переименование столбцов во фрейме данных. В этом разделе мы обсудим некоторые распространенные варианты использования функции переименования в dplyr.

1. Простое переименование столбца:

Переименовать один столбец просто с помощью rename()функции. Синтаксис такой rename(dataframe, new_name = old_name). Вот пример:

library(dplyr)
dataframe <- dataframe="" %="">% rename(new_column_name = old_column_name)

2. Переименование нескольких столбцов:

Вы также можете переименовать несколько столбцов в одном вызове функции, предоставив дополнительное сопоставление столбцов внутри rename()функции. Вот пример:

dataframe <- dataframe="" %="">%
  rename(new_col_name1 = old_col_name1,
         new_col_name2 = old_col_name2)

3. Переименование столбцов с помощью строковых функций:

Вы можете переименовывать столбцы с помощью строковых функций, таких как tolower()или toupper(), с помощью rename_with()функции. Согласно Stack Overflow , эта функция заменяет теперь замененные функции rename_ifи . Вот пример:rename_atrename_all

dataframe <- dataframe="" %="">%
  rename_with(tolower)  # Converts column names to lowercase

4. Переименование столбцов по условию:

С помощью rename_with()вы можете применять пользовательские функции переименования и даже использовать условия. В следующем примере показано переименование столбцов в зависимости от того, содержат ли они определенную строку:

rename_function <- function(x)="" {="" if="" (grepl("length",="" x))="" {="" return(paste0(x,="" "_length"))="" }="" else="" {="" return(paste0(x,="" "_default"))="" }="" }="" dataframe=""><- dataframe="" %="">% rename_with(rename_function)

Обработка ошибок и пограничных случаев

При использовании функции переименования dplyr для изменения имен столбцов во фрейме данных вы можете столкнуться с некоторыми ошибками или пограничными случаями из-за повторяющихся имен столбцов, пробелов в именах столбцов или неправильного синтаксиса. В этом разделе приведены рекомендации по решению этих проблем.

При работе с повторяющимися именами столбцов dplyr не может переименовывать столбцы с одинаковыми выходными именами. Однако обходной путь для устранения дубликатов имен столбцов — использовать функцию rename_allиз пакета dplyr вместе с paste0:

d %>% rename_all(~paste0(., 1:2))

Этот код добавит число от 1 до 2 к имени каждого столбца, гарантируя отсутствие дубликатов. Подробнее можно узнать в этом обсуждении Stack Overflow .

Если в именах столбцов есть пробелы, вы можете использовать обратные кавычки, чтобы заключить имена столбцов следующим образом:

df %>% rename(foo = `test col`)

Наконец, если вы столкнулись с проблемами, связанными с тем, что dplyr не принимает функцию paste0()в качестве old_name в rename(), возможное решение — создать новые имена столбцов вне функции rename(), а затем использовать их в качестве входных данных. Соответствующее обсуждение похожей проблемы можно найти в этом вопросе о переполнении стека .

Устранив эти ошибки и пограничные случаи, вы будете лучше подготовлены к обработке сложных сценариев переименования в dplyr.

В этом заключительном разделе нашей статьи о переименовании dplyr мы обсудили его важность в задачах обработки данных. Функция rename() позволяет пользователям эффективно изменять имена столбцов, что приводит к более четким и кратким фреймам данных. Это становится особенно полезным при работе с большими наборами данных или на этапах предварительной обработки данных.

Используя пакет dplyr, переименовать столбцы в R очень просто, это не сложная наука о данных, посмотрите ниже:

  rename(new_column_name = old_column_name)

Этот простой синтаксис позволяет заменять старые имена столбцов новыми, улучшая читаемость и обеспечивая согласованность данных. Кроме того, функцию rename_with() можно использовать для изменения имен столбцов с помощью специальной функции. Это предлагает больший контроль и настройку ваших манипуляций с данными.

Используя мощь dplyr и функцию переименования, вы можете уверенно управлять своими данными и улучшать общие возможности обработки данных. Не забывайте всегда использовать надежные источники при изучении новых методов программирования R, таких как

Имея в своем наборе инструментов dplyr rename, вы хорошо подготовлены к решению различных задач по манипулированию данными и продолжаете совершенствовать свои знания в области программирования на R.

Дополнительные примеры из реальной жизни — добавление, удаление и переименование столбцов

Операции со столбцами позволяют вам вычислять, добавлять, удалять и переименовывать столбцы в R с помощью dplyr . Откройте новый скрипт R в RStudio. Если вы не знаете, как это сделать, нажмите на ссылки, чтобы узнать, как установить RStudio и создать R-скрипт .

Для этой демонстрации используется пакет набора данных Lahman . Здесь хранятся бейсбольные записи, датируемые более чем столетней давностью. Это хороший набор данных для практики. Вы можете скачать его, выполнив быстрый поиск в Google.

Кроме того, в пакете Lahman есть набор данных, помеченный Teams с заглавной T. Лучшей практикой для соглашений об именах в R является использование строчных букв. Так что это нужно сначала преобразовать в team , как показано на изображении ниже.

Добавление, удаление и переименование столбцов в R с помощью Dplyr

Основные функции для операций со столбцами

1. Добавьте новые столбцы в R

Первая функция — mutate() . Это создает новый столбец на основе существующих столбцов.

Если вы хотите вычислить новый столбец, вы можете использовать функцию mutate после аргумента:

df — это замещающее имя для любого типа фрейма данных. Поэтому при реальном использовании замените df именем фрейма данных, который вы хотите изменить. Затем вы помещаете новые переменные, которые должны быть названы, вместе с формулой для получения нового столбца.

Например, функция mutate будет использоваться для определения процента выигрыша для каждого столбца. В наборе данных Lahman есть столбец Win and Loss. Чтобы получить процент, разделите выигрыш на сумму выигрыша и проигрыша. Но прежде чем вы сможете это сделать, вам нужно установить пакет dplyr.

Вот что произойдет, если вы запустите функцию mutate без dplyr:

Вы получите сообщение об ошибке «не удалось найти функцию mutate».

Итак, вот как ввести dplyr в R. Вам нужно только запустить библиотеку (tidyverse) .

Вы увидите, что dplyr входит в число многих функций пакета tidyverse . Другой вариант — запустить библиотеку (dplyr) .

Теперь, если вы наведете курсор на код с функцией mutate и запустите ее, вы увидите столбец Wpct , содержащий проценты выигрышей.

Добавление, удаление и переименование столбцов в R с помощью Dplyr

В этом случае результат функции mutate был только запущен; он не присваивался данным.

Если вы хотите присвоить результат функции mutate командам данных , вам нужно использовать оператор присваивания ( <-> ). После этого запустите его. Затем в другой строке запустите head (teams) . Это назначит результат набору данных команд .

Добавление, удаление и переименование столбцов в R с помощью Dplyr

Если вы хотите проверить, какие столбцы доступны в наборе данных, используйте функцию имен ( ) . Это перечислит все имена столбцов в данных.

Добавление, удаление и переименование столбцов в R с помощью Dplyr

Вы также можете использовать существующие функции как часть функции mutate . Например, вы можете взять журнал определенного набора данных, используя функцию журнала ( ) .

Добавление, удаление и переименование столбцов в R с помощью Dplyr

2. Выберите столбцы в R

Другая функция в dplyr — это select() . Он либо удаляет, либо выбирает заданные столбцы. Его основной алгоритм:

Добавление, удаление и переименование столбцов в R с помощью Dplyr

Вам нужно ввести имя фрейма данных, а затем столбцы, которые вы хотите выбрать.

Например, если вы хотите сохранить столбцы yearID, выигрышей и проигрышей в наборе данных, вам нужно всего лишь запустить:

Добавление, удаление и переименование столбцов в R с помощью Dplyr

После этого вы получите желаемый результат:

Добавление, удаление и переименование столбцов в R с помощью Dplyr

Однако, если вы не используете функцию head() , в результате будут показаны нижние строки столбцов. Поэтому, если вы имеете дело с несколькими строками данных, вам нужно постоянно прокручивать вверх, чтобы добраться до верхней части столбца.

Лучше всего использовать функцию head вместе с select. Так что, когда вы запускаете код, в результате сначала будут отображаться верхние строки столбца.

Добавление, удаление и переименование столбцов в R с помощью Dplyr

Теперь, если вы хотите удалить столбцы из набора данных, вам нужно всего лишь поставить знак минус ( - ) перед именем столбца.

Добавление, удаление и переименование столбцов в R с помощью Dplyr

Чтобы проверить, действительно ли столбец был удален, вы можете сравнить новый набор данных со старым. Вот как это сделать:

Сначала присвойте объекту код R с функцией выбора . В этом примере он был назначен team_short . Чтобы подсчитать количество столбцов, используйте функцию ncol() . Запустите функцию ncol как для team_short, так и для team .

Добавление, удаление и переименование столбцов в R с помощью Dplyr

Затем вы увидите, что один столбец был удален из набора данных.

Добавление, удаление и переименование столбцов в R с помощью Dplyr

3. Переименуйте столбцы в R

Последней функцией столбца в dplyr является rename() . И, как следует из названия, он может переименовывать выбранные столбцы в R.

Это его основной алгоритм:

Добавление, удаление и переименование столбцов в R с помощью Dplyr

И вы заметите, что это немного нелогично; новое имя идет первым, а старое имя идет после него. Так что постарайтесь их не перепутать.

Например, текущие столбцы yearID и divID будут переименованы в year_id и Division_id соответственно. Перед запуском кода обязательно назначьте его новому объекту, чтобы не нарушить исходный набор данных.

Добавление, удаление и переименование столбцов в R с помощью Dplyr

Чтобы проверить, успешно ли были изменены имена этих выбранных столбцов, используйте функцию имен ( ) .

Добавление, удаление и переименование столбцов в R с помощью Dplyr

Вы увидите, что столбцы действительно были переименованы.

Добавление, удаление и переименование столбцов в R с помощью Dplyr

Вы когда-нибудь задумывались о том, насколько мощным может быть R при использовании с LuckyTemplates, ознакомьтесь с этой замечательной техникой, она сэкономит вам массу времени.

Последнее слово

В этом учебнике обсуждались три основные функции dplyr , которые вы можете использовать для выполнения операций со столбцами. В частности, вы узнали, как добавлять, удалять и переименовывать столбцы в R.

Есть и другие функции, которые вам еще предстоит изучить. Но важно знать и быть знакомым с функциями mutate() , select() и rename() , поскольку они наиболее распространены.

Эти методы редактирования столбцов также можно использовать в Power Query. Но здорово знать, как это сделать и в dplyr. Это, безусловно, поможет вам, когда вы перейдете к анализу наборов статистических данных.

Часто задаваемые вопросы

В чем разница между R и Python?

Начнем с того, что и R, и Python являются языками программирования, но python — это язык общего пользования, а R — язык статистического программирования. Python — более широко используемый, понятный и универсальный язык.

Что такое ул?

str просто отображает структуры r объектов

Что такое Petal.Length в R?

Petal.length — это формат, используемый в R для повторения отношений, которые мы тестируем.

Что такое DataFrame в R?

Фрейм данных R — это табличная структура данных, которая обычно используется для хранения значений любого типа данных.

Что означает дбл?

Dbl означает «двойной класс». Это тип данных, используемый для хранения числовых значений, содержащих десятичные точки.


Что такое self в Python: примеры из реального мира

Что такое self в Python: примеры из реального мира

Что такое self в Python: примеры из реального мира

Как сохранить и загрузить файл RDS в R

Как сохранить и загрузить файл RDS в R

Вы узнаете, как сохранять и загружать объекты из файла .rds в R. В этом блоге также рассказывается, как импортировать объекты из R в LuckyTemplates.

Новый взгляд на первые N рабочих дней — решение для языка кодирования DAX

Новый взгляд на первые N рабочих дней — решение для языка кодирования DAX

В этом руководстве по языку программирования DAX вы узнаете, как использовать функцию GENERATE и как динамически изменять название меры.

Продемонстрируйте идеи с помощью метода многопоточных динамических визуализаций в LuckyTemplates

Продемонстрируйте идеи с помощью метода многопоточных динамических визуализаций в LuckyTemplates

В этом учебном пособии рассказывается, как использовать технику многопоточных динамических визуализаций для создания аналитических сведений из динамических визуализаций данных в ваших отчетах.

Введение в фильтрацию контекста в LuckyTemplates

Введение в фильтрацию контекста в LuckyTemplates

В этой статье я пройдусь по контексту фильтра. Контекст фильтра — одна из основных тем, с которой должен ознакомиться любой пользователь LuckyTemplates.

Лучшие советы по использованию приложений в онлайн-службе LuckyTemplates

Лучшие советы по использованию приложений в онлайн-службе LuckyTemplates

Я хочу показать, как онлайн-служба LuckyTemplates Apps может помочь в управлении различными отчетами и аналитическими данными, созданными из различных источников.

Анализ изменений маржи прибыли с течением времени — аналитика с LuckyTemplates и DAX

Анализ изменений маржи прибыли с течением времени — аналитика с LuckyTemplates и DAX

Узнайте, как рассчитать изменения вашей прибыли, используя такие методы, как разветвление показателей и объединение формул DAX в LuckyTemplates.

Идеи материализации кэшей данных в DAX Studio

Идеи материализации кэшей данных в DAX Studio

В этом руководстве будут обсуждаться идеи материализации кэшей данных и то, как они влияют на производительность DAX при предоставлении результатов.

Бизнес-отчетность с использованием LuckyTemplates

Бизнес-отчетность с использованием LuckyTemplates

Если вы все еще используете Excel до сих пор, то сейчас самое подходящее время, чтобы начать использовать LuckyTemplates для своих бизнес-отчетов.

Что такое шлюз LuckyTemplates? Все, что тебе нужно знать

Что такое шлюз LuckyTemplates? Все, что тебе нужно знать

Что такое шлюз LuckyTemplates? Все, что тебе нужно знать