Función Seaborn en Python para visualizar la distribución de una variable

Función Seaborn en Python para visualizar la distribución de una variable

Cuando se trabaja con un conjunto de datos que se compone de múltiples variables, es mejor poder entender cómo difieren e interactúan entre sí. En este tutorial, demostraré cómo puede usar la función Seaborn en Python para visualizar alternativas a la distribución de una variable. Puedes ver el video completo de este tutorial en la parte inferior de este blog.

Tabla de contenido

Uso de la función Seaborn en Python

Demostraré esto en el conjunto de datos de MPG, que está disponible en Seaborn. Entonces, sigamos adelante e importemos los paquetes que necesitemos, así como los datos que necesitemos. Vamos a ver la distribución de la variable MPG aquí y cómo varían. Las dos formas comunes de hacerlo son el histograma y el diagrama de caja .

Función Seaborn en Python para visualizar la distribución de una variable

Así que voy a usar la función displot (DIS para distribución). Luego, necesito especificar qué conjunto de datos es y qué variable vamos a poner en el eje X. Y con eso, tenemos la distribución.

Esto es bastante bueno. Esto es muy fácil de ver toda la distribución y la forma. Sin embargo, un par de deficiencias con esta visualización de la distribución. Una es que la cantidad de contenedores que estamos usando es posiblemente arbitraria. La otra cosa es que no necesariamente podemos saber instantáneamente cuál es la media de la variable.

Función Seaborn en Python para visualizar la distribución de una variable

Lo bueno de Seaborn es que una vez que configuro qué variable quiero, dónde y qué conjunto de datos estoy usando, es realmente fácil de conectar y hacer una nueva visualización. Ahora vamos a ir a la gráfica de caja. Boxplot no usa bins.

La idea aquí es que podemos ver el valor del cuartil con mucha claridad, específicamente la mediana, y vemos los otros valores del cuartil. Vemos que hay un valor atípico, y esta es una trama muy precisa. El diagrama de caja del problema es que es preciso con cosas que, en general, a muchos usuarios comerciales probablemente no les importen.

Función Seaborn en Python para visualizar la distribución de una variable

Por lo tanto, esta trama es un poco difícil para que las personas que no son estadísticas realmente obtengan mucho valor. Y nuevamente, está agregando los datos, por lo que estamos perdiendo muchos detalles. Es difícil saber exactamente cómo se ve esto. Podemos ver que hay un valor atípico. Podemos ver que la mayoría de los valores están aquí. El histograma nos da una forma más intuitiva de verlo.

Ambos son buenos argumentos. Ambos tienen sus propósitos. Veamos algunas alternativas usando Seaborn para visualizar. Nos quedaremos con MPG para la distribución de esa variable.

De forma similar al diagrama de caja, puede ver aquí que la mediana está claramente marcada. También vemos el rango de cuartiles y podemos ver mejor cuál es la distribución general. Esto también es como un histograma. Se llama gráfico de estimación de densidad del núcleo o gráfico KDE. Es una versión suave del histograma. No estamos utilizando ningún agrupamiento arbitrario. Todo se suaviza en un rango continuo aquí.

Función Seaborn en Python para visualizar la distribución de una variable

Esta es una especie de híbrido de estos dos enfoques y realmente soluciona algunas de las deficiencias. Sin embargo, dependiendo de su audiencia, es posible que realmente tengan dificultades para ver esto. Es posible que no estén acostumbrados, pero tiene algunos beneficios en comparación con los enfoques tradicionales.

En este enfoque, ya no estamos agregando los datos. Se traza cada punto individual. Esto toma elementos del diagrama de dispersión, ¿verdad? Si piensa en un diagrama de dispersión, representamos cada punto individual en las coordenadas X e Y.

Función Seaborn en Python para visualizar la distribución de una variable

Por último, tenemos el stripplot . Lo que estamos haciendo aquí es tomar esa distribución y la estamos dispersando aleatoriamente. Este es un proceso aleatorio. Ya no estamos tratando de darle forma a esa distribución. El problema con esto es que tenemos todos estos grupos chocando entre sí, por lo que podría no ser bueno dependiendo de lo que estés tratando de hacer. Tal vez quieras colorearlos por grupo o algo así, así que hay una opción para eso.

Función Seaborn en Python para visualizar la distribución de una variable

Podemos cambiar el jitter a .25 y ver que a medida que aumentamos el jitter, estos puntos se dispersan un poco más.

Función Seaborn en Python para visualizar la distribución de una variable

Sin embargo, cada vez que los ejecute, se verán ligeramente diferentes. Entonces, si desea deshacerse de eso y hacerlo igual cada vez, puede importar numpy como np . Lo que esto hace es lo que se llama establecer una semilla aleatoria.

Cada vez que ejecuto algo que tiene que ver con números aleatorios, usará los mismos números aleatorios. Las cosas no cambian aleatoriamente cuando lo vuelves a ejecutar. Esto podría ser bueno para cualquier tipo de simulación que esté haciendo, lo que también ocurre mucho en la ciencia de datos y el análisis con esta visualización. Así que ahora, cada vez que ejecute este diagrama, obtendremos el mismo aspecto.

Función Seaborn en Python para visualizar la distribución de una variable

También puedo agregar aquí el origen Y, y ahora vemos que estamos creando una distribución bivariante. Tomamos la distribución del kilometraje y la segmentamos por origen.

Función Seaborn en Python para visualizar la distribución de una variable


Cómo usar Python Script en LuckyTemplates
Python Scripting en LuckyTemplates Data Reports
Conjuntos de datos en Pandas con ProfileReport() | Python en LuckyTemplates

Conclusión

Estas son alternativas a la visualización de distribuciones de una variable. Todos tienen sus pros y sus contras. Esto no quiere decir que nunca use el diagrama de caja o el histograma, pero solo dice que aquí hay algunas otras opciones, dependiendo de lo que esté tratando de mostrar.

Todos son tan fáciles de hacer como cualquiera de los otros cuando usamos la función Seaborn en Python. Si desea saber más sobre Python , consulte los enlaces a continuación.

¡Mis mejores deseos!


Qué es uno mismo en Python: ejemplos del mundo real

Qué es uno mismo en Python: ejemplos del mundo real

Qué es uno mismo en Python: ejemplos del mundo real

Cómo guardar y cargar un archivo RDS en R

Cómo guardar y cargar un archivo RDS en R

Aprenderá a guardar y cargar objetos desde un archivo .rds en R. Este blog también cubrirá cómo importar objetos desde R a LuckyTemplates.

Revisión de los primeros N días hábiles: una solución de lenguaje de codificación DAX

Revisión de los primeros N días hábiles: una solución de lenguaje de codificación DAX

En este tutorial del lenguaje de codificación DAX, aprenda a usar la función GENERAR y a cambiar dinámicamente el título de una medida.

Showcase Insights utilizando la técnica de elementos visuales dinámicos de subprocesos múltiples en LuckyTemplates

Showcase Insights utilizando la técnica de elementos visuales dinámicos de subprocesos múltiples en LuckyTemplates

Este tutorial cubrirá cómo usar la técnica de elementos visuales dinámicos de subprocesos múltiples para crear información a partir de visualizaciones de datos dinámicos en sus informes.

Introducción al contexto de filtro en LuckyTemplates

Introducción al contexto de filtro en LuckyTemplates

En este artículo, repasaré el contexto del filtro. El contexto del filtro es uno de los temas principales que cualquier usuario de LuckyTemplates debería conocer inicialmente.

Los mejores consejos para usar las aplicaciones en el servicio en línea de LuckyTemplates

Los mejores consejos para usar las aplicaciones en el servicio en línea de LuckyTemplates

Quiero mostrar cómo el servicio en línea de LuckyTemplates Apps puede ayudar a administrar diferentes informes e información generada a partir de varias fuentes.

Analice los cambios en el margen de beneficio a lo largo del tiempo: análisis con LuckyTemplates y DAX

Analice los cambios en el margen de beneficio a lo largo del tiempo: análisis con LuckyTemplates y DAX

Aprenda a calcular los cambios de su margen de beneficio utilizando técnicas como la bifurcación de medidas y la combinación de fórmulas DAX en LuckyTemplates.

Ideas de materialización para cachés de datos en DAX Studio

Ideas de materialización para cachés de datos en DAX Studio

Este tutorial analizará las ideas de materialización de cachés de datos y cómo afectan el rendimiento de DAX al proporcionar resultados.

Informes comerciales con LuckyTemplates

Informes comerciales con LuckyTemplates

Si todavía usa Excel hasta ahora, este es el mejor momento para comenzar a usar LuckyTemplates para sus necesidades de informes comerciales.

¿Qué es la puerta de enlace de LuckyTemplates? Todo lo que necesitas saber

¿Qué es la puerta de enlace de LuckyTemplates? Todo lo que necesitas saber

¿Qué es la puerta de enlace de LuckyTemplates? Todo lo que necesitas saber