Organizar, filtrar y agrupar filas en R usando Dplyr

Organizar, filtrar y agrupar filas en R usando Dplyr

Este tutorial es una continuación de la discusión sobre el paquete dplyr . Aprenderá a organizar, filtrar y agrupar filas en R.

La lección anterior fue sobre operaciones de columna. Esta vez, la atención se centrará en las operaciones de fila en dplyr .

Cubriremos los conceptos básicos, que incluyen clasificar y filtrar un conjunto de datos y agregar y resumir registros . Para brindarle una descripción general de lo que puede esperar de esta lección, piense en una tabla dinámica en MS Excel.

Tabla de contenido

Empezando

Abra un nuevo script R en RStudio.

Similar a la lección de operaciones de columna, esta demostración utilizará el paquete de conjuntos de datos de Lahman . Descárgalo haciendo una búsqueda rápida en Google.

Para llevar el paquete Lahman a R, ejecute library (Lahman) . Para habilitar el paquete dplyr , ejecute library (tidyverse) . Además, recuerde que una mejor práctica para las convenciones de nomenclatura en R es usar letras minúsculas, de modo que asigne Teams a teams .

Organizar, filtrar y agrupar filas en R usando Dplyr

Funciones básicas para operaciones de fila

1. Organizar filas en R

La operación de la primera fila en dpylr es organizar ( ) . Esta función le permite reordenar las filas. Funciona organizando primero el marco de datos df y luego los campos dados.

Organizar, filtrar y agrupar filas en R usando Dplyr

Por ejemplo, ordenemos por ID de equipo . Ejecutar organizar (equipos, teamID) .

Organizar, filtrar y agrupar filas en R usando Dplyr

Si desea que se organicen en orden descendente, debe utilizar la función desc ( ) .

Como ejemplo, si desea ordenar por año en orden descendente, ejecute Organize (teams, desc(yearID)) .

Organizar, filtrar y agrupar filas en R usando Dplyr

Cuando hace esto, no está asignando la salida de nuevo a los equipos . Solo está viendo el resultado en la consola.

También es posible ordenar por múltiples criterios. Por ejemplo, si desea ordenar por ID de equipo y luego por ID de año en orden descendente, solo necesita ejecutar este código:

Organizar, filtrar y agrupar filas en R usando Dplyr

Cuando está ordenando filas, no está cambiando los datos. Los datos simplemente se están moviendo. No se agrega ni elimina nada.

2. Filtrar filas en R

La función de filtro ( ) agrega o elimina datos según los criterios seleccionados. Su código básico es:

Organizar, filtrar y agrupar filas en R usando Dplyr

Como ejemplo, obtengamos todos los datos donde el yearID es mayor o igual a 2000. Siga el formato de la función de filtro e ingrese la información necesaria. Luego, ejecútalo. No olvide asignar esto a un nuevo objeto. En este caso, se asignó a modern .

Organizar, filtrar y agrupar filas en R usando Dplyr

Para verificar si las filas fueron efectivamente filtradas, puede usar la función dim ( ) . Da el número de filas y columnas en el marco de datos.

Si ejecuta dim (equipos) , verá que el marco de datos tiene 2955 filas y 48 columnas.

Organizar, filtrar y agrupar filas en R usando Dplyr

Si ejecuta la función dim en modern , verá que la cantidad de filas se ha reducido a 630 mientras que la cantidad de columnas sigue siendo la misma.

Organizar, filtrar y agrupar filas en R usando Dplyr

Las filas se han truncado porque algunos de los registros van más allá del año 2000.

Filtrar filas por múltiples campos

También es posible filtrar filas por múltiples campos en R. Deberá usar las declaraciones AND y OR .

Por ejemplo, filtremos los equipos por área. En este caso, se crea un nuevo objeto ohio . Los criterios de filtro son que el ID de equipo solo debe incluir Cleveland Y Cincinnati.

Organizar, filtrar y agrupar filas en R usando Dplyr

Debe usar el signo igual doble ( == ) para verificar la igualdad. Si solo usa un signo igual, R lo considerará como un operador de asignación. Utilice el símbolo de y comercial ( & ) para representar AND.

Para verificar, use la función de atenuación . Verás que el número de filas es 0.

Organizar, filtrar y agrupar filas en R usando Dplyr

Esto significa que no hay equipos en los que ambos estén basados ​​en Cleveland y Cincinnati.

A continuación, probemos el Cleveland OR Cincinnati. El operador OR está representado por el operador de tubería ( | ). Entonces, todo lo que necesita hacer es reemplazar el ampersand con el operador de tubería y luego ejecutarlo. A continuación, vuelva a ejecutar la función de atenuación .

Organizar, filtrar y agrupar filas en R usando Dplyr

Verá que hay 251 filas en lugar de cero.

Ahora, ¿qué sucede si olvida usar un signo igual doble y en su lugar usa solo uno? Esto es lo que sucede:

Organizar, filtrar y agrupar filas en R usando Dplyr

RStudio mostrará un mensaje de error muy útil en la consola que le recordará que debe usar el signo igual doble.

3. Agrupar por y resumir filas en R

La función agrupar por ( ) le permite agregar registros por columnas seleccionadas y luego, en función de esa agregación, resumir otra columna.

La función agrupar por ( ) sigue este algoritmo:

Organizar, filtrar y agrupar filas en R usando Dplyr

Como ejemplo, agrupemos por teamID y asignémoslo a un nuevo objeto. En este caso, el nuevo objeto se llama teams_ID . Luego, imprímelo.

Organizar, filtrar y agrupar filas en R usando Dplyr

En la consola, notará que la primera línea dice que es un tibble .

Organizar, filtrar y agrupar filas en R usando Dplyr

Un tibble es una mejora tidyverse sobre el marco de datos básico. Es una característica del paquete que aumenta y mejora lo que está disponible de fábrica.

La segunda línea es Grupos . Entonces, los datos ahora están agrupados por la columna teamID.

Organizar, filtrar y agrupar filas en R usando Dplyr

Y con eso, ahora puede usar la función de resumen ( ) en esos grupos.

Organizar, filtrar y agrupar filas en R usando Dplyr

Nota: la función de resumen puede ser con una s o una z, y dependerá del uso del inglés británico o americano.

Por ejemplo, resumamos teams_ID y obtengamos algunas estadísticas de resumen básicas. Busquemos la media, el mínimo y el máximo de las victorias de cada equipo. Recuerde resaltar todo el código antes de elegir Ejecutar .

Organizar, filtrar y agrupar filas en R usando Dplyr

Luego puede ver en la Consola que se muestra un resumen de las estadísticas de cada equipo. Esto es muy similar a una tabla dinámica donde está agregando y resumiendo datos.


Marcos de datos en R: aprendizaje de los conceptos básicos
Niveles de factores en R: uso de variables categóricas y ordinales
Agregar, eliminar y cambiar el nombre de columnas en R mediante dplyr

Conclusión

Para recapitular, se han discutido dos operaciones en dplyr. Un tutorial anterior se centró en las operaciones de columna. Mientras tanto, esta lección actual le mostró cómo realizar operaciones de fila usando el paquete dplyr en RStudio. Específicamente, aprendió a organizar, filtrar y agrupar filas en R.

Lo siguiente que debe aprender es cómo combinar estas dos operaciones. El uso de todas las funciones que ha aprendido hasta ahora lo ayudará en gran medida a crear códigos en R. Sin embargo, una técnica más útil sería una canalización. Esto ayudará a que todo fluya junto. Por lo tanto, asegúrese de revisar los próximos tutoriales también.


Qué es uno mismo en Python: ejemplos del mundo real

Qué es uno mismo en Python: ejemplos del mundo real

Qué es uno mismo en Python: ejemplos del mundo real

Cómo guardar y cargar un archivo RDS en R

Cómo guardar y cargar un archivo RDS en R

Aprenderá a guardar y cargar objetos desde un archivo .rds en R. Este blog también cubrirá cómo importar objetos desde R a LuckyTemplates.

Revisión de los primeros N días hábiles: una solución de lenguaje de codificación DAX

Revisión de los primeros N días hábiles: una solución de lenguaje de codificación DAX

En este tutorial del lenguaje de codificación DAX, aprenda a usar la función GENERAR y a cambiar dinámicamente el título de una medida.

Showcase Insights utilizando la técnica de elementos visuales dinámicos de subprocesos múltiples en LuckyTemplates

Showcase Insights utilizando la técnica de elementos visuales dinámicos de subprocesos múltiples en LuckyTemplates

Este tutorial cubrirá cómo usar la técnica de elementos visuales dinámicos de subprocesos múltiples para crear información a partir de visualizaciones de datos dinámicos en sus informes.

Introducción al contexto de filtro en LuckyTemplates

Introducción al contexto de filtro en LuckyTemplates

En este artículo, repasaré el contexto del filtro. El contexto del filtro es uno de los temas principales que cualquier usuario de LuckyTemplates debería conocer inicialmente.

Los mejores consejos para usar las aplicaciones en el servicio en línea de LuckyTemplates

Los mejores consejos para usar las aplicaciones en el servicio en línea de LuckyTemplates

Quiero mostrar cómo el servicio en línea de LuckyTemplates Apps puede ayudar a administrar diferentes informes e información generada a partir de varias fuentes.

Analice los cambios en el margen de beneficio a lo largo del tiempo: análisis con LuckyTemplates y DAX

Analice los cambios en el margen de beneficio a lo largo del tiempo: análisis con LuckyTemplates y DAX

Aprenda a calcular los cambios de su margen de beneficio utilizando técnicas como la bifurcación de medidas y la combinación de fórmulas DAX en LuckyTemplates.

Ideas de materialización para cachés de datos en DAX Studio

Ideas de materialización para cachés de datos en DAX Studio

Este tutorial analizará las ideas de materialización de cachés de datos y cómo afectan el rendimiento de DAX al proporcionar resultados.

Informes comerciales con LuckyTemplates

Informes comerciales con LuckyTemplates

Si todavía usa Excel hasta ahora, este es el mejor momento para comenzar a usar LuckyTemplates para sus necesidades de informes comerciales.

¿Qué es la puerta de enlace de LuckyTemplates? Todo lo que necesitas saber

¿Qué es la puerta de enlace de LuckyTemplates? Todo lo que necesitas saber

¿Qué es la puerta de enlace de LuckyTemplates? Todo lo que necesitas saber