Что такое self в Python: примеры из реального мира
Что такое self в Python: примеры из реального мира
Этот туториал является продолжением обсуждения пакета dplyr . Вы узнаете, как упорядочивать, фильтровать и группировать строки в R.
Предыдущий урок был посвящен операциям со столбцами. На этот раз основное внимание будет уделено операциям со строками в dplyr .
Мы рассмотрим основы, включая сортировку и фильтрацию набора данных , а также агрегирование и суммирование записей . Чтобы дать вам общее представление о том, чего ожидать от этого урока, подумайте о сводной таблице в MS Excel.
Оглавление
Начиная
Откройте новый скрипт R в RStudio.
Как и в уроке по операциям со столбцами, в этой демонстрации будет использоваться пакет набора данных Lahman . Загрузите его, выполнив быстрый поиск в Google.
Чтобы перенести пакет Lahman в R, запустите library (Lahman) . Чтобы включить пакет dplyr , запустите библиотеку (tidyverse) . Кроме того, помните , что в соответствии с соглашениями об именах в R лучше всего использовать строчные буквы, поэтому назначайте Teams в team .
Основные функции для операций со строками
1. Расположите строки в R
Первой операцией строки в dpyrr является аранжировка ( ) . Эта функция позволяет изменить порядок строк. Он работает, сначала упорядочивая фрейм данных df , а затем заданные поля.
Например, отсортируем по teamID . Запускаем команду (teams, teamID) .
Если вы хотите, чтобы они были расположены в порядке убывания, вам нужно использовать функцию desc() .
Например, если вы хотите выполнить сортировку по годам в порядке убывания, запустите «arrange(teams, desc(yearID))» .
Когда вы делаете это, вы не назначаете выходные данные командам . Вы просто видите результат в консоли.
Также возможна сортировка по нескольким критериям. Например, если вы хотите отсортировать по идентификатору команды, а затем по идентификатору года в порядке убывания, вам нужно только запустить этот код:
Когда вы сортируете строки, вы не меняете данные. Данные просто перемещаются. Ничего не добавляется и не удаляется.
2. Фильтровать строки в R
Функция фильтра ( ) добавляет или удаляет данные в зависимости от выбранных критериев. Его основной код:
В качестве примера, давайте получим все данные, где yearID больше или равен 2000. Следуйте формату функции фильтра и введите необходимую информацию. Затем запустите его. Не забудьте присвоить это новому объекту. В данном случае ему был присвоен современный .
Чтобы проверить, действительно ли строки были отфильтрованы, вы можете использовать функцию dim() . Он дает количество строк и столбцов во фрейме данных.
Если вы запустите dim (teams) , вы увидите, что фрейм данных имеет 2955 строк и 48 столбцов.
Если вы запустите функцию dim для modern , вы увидите, что количество строк сократилось до 630, а количество столбцов осталось прежним.
Строки были усечены, поскольку некоторые записи выходят за пределы 2000 года.
В R также можно фильтровать строки по нескольким полям. Вам нужно будет использовать операторы AND и OR .
Например, давайте отфильтруем команды по области. В этом случае создается новый объект ohio . Критерии фильтрации заключаются в том, что teamID должен включать только Cleveland AND Cincinnati.
Вам нужно использовать двойной знак равенства ( == ), чтобы проверить равенство. Если вы используете только один знак равенства, R будет рассматривать его как оператор присваивания. Используйте амперсанд ( & ) для представления AND.
Для проверки используйте функцию затемнения . Вы увидите, что количество строк равно 0.
Это означает, что нет ни одной команды, в которой бы обе базировались в Кливленде и Цинциннати.
Далее, давайте попробуем Кливленд ИЛИ Цинциннати. Оператор ИЛИ представлен оператором вертикальной черты ( | ). Итак, все, что вам нужно сделать, это заменить амперсанд оператором конвейера, а затем запустить его. После этого снова запустите функцию затемнения .
Вы увидите, что здесь 251 строка, а не ноль.
А что, если вы забудете использовать двойной знак равенства и вместо этого используете только один? Вот что происходит:
RStudio покажет в консоли очень полезное сообщение об ошибке, напоминающее вам об использовании двойного знака равенства.
3. Сгруппируйте и суммируйте строки в R
Функция группировки по ( ) позволяет агрегировать записи по выбранным столбцам, а затем на основе этой агрегации суммировать другой столбец.
Группировка по функции ( ) выполняется по следующему алгоритму:
В качестве примера сгруппируем по teamID и назначим его новому объекту. В этом случае новый объект называется team_ID . Затем распечатайте его.
В консоли вы заметите, что первая строка говорит, что это tibble .
Тиббл — это значительное улучшение по сравнению с базовым фреймом данных . Это функция в пакете, которая дополняет и улучшает то, что доступно «из коробки».
Вторая строка — Группы . Итак, данные теперь сгруппированы по столбцу teamID.
Теперь вы можете использовать функцию summ() для этих групп.
Примечание: функция суммирования может быть либо с s, либо с z, и будет зависеть от использования британского или американского варианта английского языка.
Например, давайте подведем итог по team_ID и получим базовую сводную статистику. Давайте найдем среднее, минимальное и максимальное количество побед для каждой команды. Не забудьте выделить весь код, прежде чем выбрать « Выполнить» .
Затем вы можете увидеть в консоли, что отображается сводка статистики каждой команды. Это очень похоже на сводную таблицу, в которой вы собираете и суммируете данные.
Фреймы данных в R: изучение основ
Уровни факторов в R: использование категориальных и порядковых переменных
Добавление, удаление и переименование столбцов в R с использованием dplyr
Заключение
Напомним, что были обсуждены две операции в dplyr. Предыдущее руководство было посвящено операциям со столбцами. Между тем, этот текущий урок показал вам, как выполнять операции со строками с помощью пакета dplyr в RStudio. В частности, вы узнали, как упорядочивать, фильтровать и группировать строки в R.
Следующее, чему нужно научиться, — это совмещать эти две операции. Использование всех функций, которые вы уже изучили, очень поможет вам в создании кода в R. Однако более полезным методом будет конвейер. Это поможет всему соединиться. Поэтому обязательно ознакомьтесь со следующими уроками.
Что такое self в Python: примеры из реального мира
Вы узнаете, как сохранять и загружать объекты из файла .rds в R. В этом блоге также рассказывается, как импортировать объекты из R в LuckyTemplates.
В этом руководстве по языку программирования DAX вы узнаете, как использовать функцию GENERATE и как динамически изменять название меры.
В этом учебном пособии рассказывается, как использовать технику многопоточных динамических визуализаций для создания аналитических сведений из динамических визуализаций данных в ваших отчетах.
В этой статье я пройдусь по контексту фильтра. Контекст фильтра — одна из основных тем, с которой должен ознакомиться любой пользователь LuckyTemplates.
Я хочу показать, как онлайн-служба LuckyTemplates Apps может помочь в управлении различными отчетами и аналитическими данными, созданными из различных источников.
Узнайте, как рассчитать изменения вашей прибыли, используя такие методы, как разветвление показателей и объединение формул DAX в LuckyTemplates.
В этом руководстве будут обсуждаться идеи материализации кэшей данных и то, как они влияют на производительность DAX при предоставлении результатов.
Если вы все еще используете Excel до сих пор, то сейчас самое подходящее время, чтобы начать использовать LuckyTemplates для своих бизнес-отчетов.
Что такое шлюз LuckyTemplates? Все, что тебе нужно знать