El paquete ggplot2 es la forma más completa de crear gráficos y diagramas. Las empresas, como el New York Times y The Economist, utilizan mucho ggplot2 para crear sus visualizaciones. Dado que las grandes empresas utilizan esta herramienta, es importante tener una base de conocimientos sobre cómo utilizar ggplot2 para crear visualizaciones como el diagrama de fluctuación.
En este tutorial, aprenderá a crear un diagrama de fluctuación utilizando ggplot2 en . Una vez que comprenda la gramática de los gráficos en ggplot2, podrá encadenar cualquier gráfico o diagrama.
Un diagrama de fluctuación es un tipo de diagrama de dispersión que se utiliza para mostrar la distribución de un conjunto de puntos de datos numéricos. La "inestabilidad" en el nombre del gráfico se refiere a la variación aleatoria que se agrega a la posición de cada símbolo a lo largo de los ejes x e y.
Esta variación ayuda a evitar que los símbolos se superpongan y facilita ver la distribución de los puntos de datos en los casos en que hay una alta densidad de puntos en ciertas áreas del gráfico.
Si tiene un diagrama densamente poblado, un diagrama de fluctuaciones puede hacer que su visualización sea más fácil de entender. También puede usarlo para trazar distribuciones por categoría, que es una alternativa a un diagrama de caja o un histograma .
Tabla de contenido
Creación de un diagrama de fluctuación en R
Para esta demostración, se utiliza el conjunto de datos tidyverse .

Primero, cree un diagrama de dispersión usando la función ggplot ( ) . En este caso, el eje x es el año, mientras que el eje y es el conjunto de datos de millas por galón.

Cuando ejecuta el código, puede ver que el gráfico muestra puntos que forman una línea recta con respecto al eje y.

Use la función geom_jitter ( ) para agregar otra capa al gráfico. Cuando ejecute el código, verá que los puntos en el gráfico cambiaron. Los puntos seguirán cambiando cada vez que ejecute el código.

Para evitar que los puntos cambien constantemente, utilice la función set.seed ( ) . Dentro del paréntesis, escriba cualquier número aleatorio. En este caso, es 1234. Después de ejecutar el código, verá que la trama permanece igual incluso si hace clic repetidamente en Ejecutar.

Creación de un diagrama de fluctuación con variables categóricas
También puede usar la función geom_jitter ( ) para variables categóricas.
Usando el mismo argumento, cambiemos el eje x a mpg y el eje y al origen. Cuando ejecuta la nueva línea de código, puede ver que, en lugar de mostrar los datos en líneas rectas, se distribuyen aleatoriamente en el gráfico.

Esto le ayuda a visualizar las observaciones individuales de cada categoría y cómo varían. En este caso se puede ver el kilometraje típico de un origen versus otro.
Puede agregar color a la trama agregando otro argumento en la función aes ( ) . También puede establecer el tamaño de los puntos en un valor de datos específico en su conjunto de datos.

En este ejemplo, el diagrama de fluctuación facilitó la identificación de los orígenes con la mayoría de los automóviles y aquellos que tienen un mejor kilometraje.
Debido al tamaño establecido en el código, la trama parece sobresaturada. Puede cambiar el tamaño o el color de los puntos de datos según sus preferencias o requisitos comerciales.
Conclusión
Un diagrama de fluctuación es una de las formas de aportar una nueva forma de conocimiento a sus visualizaciones. Ayuda a los usuarios a comprender mejor lo que sucede con los datos. Este gráfico es una excelente alternativa al típico histograma o diagrama de caja para trazar distribuciones.
La capacidad de comprender de manera efectiva la estructura subyacente de un conjunto de datos hace que los diagramas de fluctuación sean una herramienta valiosa en varios campos, como las estadísticas, el análisis de datos y el aprendizaje automático. En general, los diagramas de fluctuación proporcionan una representación clara y fácil de entender de la distribución de puntos de datos numéricos, lo que los convierte en una herramienta poderosa para la visualización y el análisis de datos.
Mis mejores deseos,
monte george