Función Seaborn en Python para visualizar la distribución de una variable

Función Seaborn en Python para visualizar la distribución de una variable

Cuando se trabaja con un conjunto de datos que se compone de múltiples variables, es mejor poder entender cómo difieren e interactúan entre sí. En este tutorial, demostraré cómo puede usar la función Seaborn en Python para visualizar alternativas a la distribución de una variable. Puedes ver el video completo de este tutorial en la parte inferior de este blog.

Tabla de contenido

Uso de la función Seaborn en Python

Demostraré esto en el conjunto de datos de MPG, que está disponible en Seaborn. Entonces, sigamos adelante e importemos los paquetes que necesitemos, así como los datos que necesitemos. Vamos a ver la distribución de la variable MPG aquí y cómo varían. Las dos formas comunes de hacerlo son el histograma y el diagrama de caja .

Función Seaborn en Python para visualizar la distribución de una variable

Así que voy a usar la función displot (DIS para distribución). Luego, necesito especificar qué conjunto de datos es y qué variable vamos a poner en el eje X. Y con eso, tenemos la distribución.

Esto es bastante bueno. Esto es muy fácil de ver toda la distribución y la forma. Sin embargo, un par de deficiencias con esta visualización de la distribución. Una es que la cantidad de contenedores que estamos usando es posiblemente arbitraria. La otra cosa es que no necesariamente podemos saber instantáneamente cuál es la media de la variable.

Función Seaborn en Python para visualizar la distribución de una variable

Lo bueno de Seaborn es que una vez que configuro qué variable quiero, dónde y qué conjunto de datos estoy usando, es realmente fácil de conectar y hacer una nueva visualización. Ahora vamos a ir a la gráfica de caja. Boxplot no usa bins.

La idea aquí es que podemos ver el valor del cuartil con mucha claridad, específicamente la mediana, y vemos los otros valores del cuartil. Vemos que hay un valor atípico, y esta es una trama muy precisa. El diagrama de caja del problema es que es preciso con cosas que, en general, a muchos usuarios comerciales probablemente no les importen.

Función Seaborn en Python para visualizar la distribución de una variable

Por lo tanto, esta trama es un poco difícil para que las personas que no son estadísticas realmente obtengan mucho valor. Y nuevamente, está agregando los datos, por lo que estamos perdiendo muchos detalles. Es difícil saber exactamente cómo se ve esto. Podemos ver que hay un valor atípico. Podemos ver que la mayoría de los valores están aquí. El histograma nos da una forma más intuitiva de verlo.

Ambos son buenos argumentos. Ambos tienen sus propósitos. Veamos algunas alternativas usando Seaborn para visualizar. Nos quedaremos con MPG para la distribución de esa variable.

De forma similar al diagrama de caja, puede ver aquí que la mediana está claramente marcada. También vemos el rango de cuartiles y podemos ver mejor cuál es la distribución general. Esto también es como un histograma. Se llama gráfico de estimación de densidad del núcleo o gráfico KDE. Es una versión suave del histograma. No estamos utilizando ningún agrupamiento arbitrario. Todo se suaviza en un rango continuo aquí.

Función Seaborn en Python para visualizar la distribución de una variable

Esta es una especie de híbrido de estos dos enfoques y realmente soluciona algunas de las deficiencias. Sin embargo, dependiendo de su audiencia, es posible que realmente tengan dificultades para ver esto. Es posible que no estén acostumbrados, pero tiene algunos beneficios en comparación con los enfoques tradicionales.

En este enfoque, ya no estamos agregando los datos. Se traza cada punto individual. Esto toma elementos del diagrama de dispersión, ¿verdad? Si piensa en un diagrama de dispersión, representamos cada punto individual en las coordenadas X e Y.

Función Seaborn en Python para visualizar la distribución de una variable

Por último, tenemos el stripplot . Lo que estamos haciendo aquí es tomar esa distribución y la estamos dispersando aleatoriamente. Este es un proceso aleatorio. Ya no estamos tratando de darle forma a esa distribución. El problema con esto es que tenemos todos estos grupos chocando entre sí, por lo que podría no ser bueno dependiendo de lo que estés tratando de hacer. Tal vez quieras colorearlos por grupo o algo así, así que hay una opción para eso.

Función Seaborn en Python para visualizar la distribución de una variable

Podemos cambiar el jitter a .25 y ver que a medida que aumentamos el jitter, estos puntos se dispersan un poco más.

Función Seaborn en Python para visualizar la distribución de una variable

Sin embargo, cada vez que los ejecute, se verán ligeramente diferentes. Entonces, si desea deshacerse de eso y hacerlo igual cada vez, puede importar numpy como np . Lo que esto hace es lo que se llama establecer una semilla aleatoria.

Cada vez que ejecuto algo que tiene que ver con números aleatorios, usará los mismos números aleatorios. Las cosas no cambian aleatoriamente cuando lo vuelves a ejecutar. Esto podría ser bueno para cualquier tipo de simulación que esté haciendo, lo que también ocurre mucho en la ciencia de datos y el análisis con esta visualización. Así que ahora, cada vez que ejecute este diagrama, obtendremos el mismo aspecto.

Función Seaborn en Python para visualizar la distribución de una variable

También puedo agregar aquí el origen Y, y ahora vemos que estamos creando una distribución bivariante. Tomamos la distribución del kilometraje y la segmentamos por origen.

Función Seaborn en Python para visualizar la distribución de una variable


Cómo usar Python Script en LuckyTemplates
Python Scripting en LuckyTemplates Data Reports
Conjuntos de datos en Pandas con ProfileReport() | Python en LuckyTemplates

Conclusión

Estas son alternativas a la visualización de distribuciones de una variable. Todos tienen sus pros y sus contras. Esto no quiere decir que nunca use el diagrama de caja o el histograma, pero solo dice que aquí hay algunas otras opciones, dependiendo de lo que esté tratando de mostrar.

Todos son tan fáciles de hacer como cualquiera de los otros cuando usamos la función Seaborn en Python. Si desea saber más sobre Python , consulte los enlaces a continuación.

¡Mis mejores deseos!


Time Intelligence en LuckyTemplates: cómo calcular el número de transacciones realizadas en los últimos N días

Time Intelligence en LuckyTemplates: cómo calcular el número de transacciones realizadas en los últimos N días

Descubra cómo calcular el total de transacciones realizadas en los últimos N días y obtenga información útil utilizando la inteligencia de tiempo en LuckyTemplates.

Cómo evaluar clústeres en sus datos mediante la técnica DAX en LuckyTemplates

Cómo evaluar clústeres en sus datos mediante la técnica DAX en LuckyTemplates

En este tutorial, demuestro cómo mostrar clústeres en sus datos permite extraer información valiosa usando técnicas DAX avanzadas.

¿Cuánto personal tenemos actualmente? Lógica de fechas múltiples en LuckyTemplates usando DAX

¿Cuánto personal tenemos actualmente? Lógica de fechas múltiples en LuckyTemplates usando DAX

En este tutorial, aprenderá a calcular la <strong>población actual del personal</strong> para las relaciones múltiples de la tabla de calendario mediante la función COUNTROWS y FILTER en LuckyTemplates.

Hacer una solicitud HTTP en Power Automate

Hacer una solicitud HTTP en Power Automate

Aprenda a crear una solicitud HTTP con Power Automate y cómo implementar soluciones efectivas para la automatización de tareas.

Programe un flujo de escritorio para que se ejecute en Power Automate

Programe un flujo de escritorio para que se ejecute en Power Automate

En este tutorial, aprenda cómo programar un flujo de escritorio en Power Automate para automatizar tareas en la web y su escritorio.

Power Automate Terminar Control de acción en flujos

Power Automate Terminar Control de acción en flujos

Aprenda a usar correctamente el control Terminar acción de Power Automate que termina las acciones en un flujo si no se cumple alguna de las condiciones.

Power Query: combinar archivos de varias carpetas

Power Query: combinar archivos de varias carpetas

Aprenda a combinar archivos de varias carpetas en su red, escritorio, OneDrive o SharePoint utilizando Power Query.

Tipos de flujo de Power Automate y cuándo usarlos

Tipos de flujo de Power Automate y cuándo usarlos

En este blog, analizamos las similitudes y diferencias entre los tipos de flujo de Power Automate y determinamos cuándo usar cada flujo. Encuentra la mejor opción de automatización.

Conectores de Power Automate: número, texto y fecha y hora

Conectores de Power Automate: número, texto y fecha y hora

Familiarízate con algunos conectores Power Automate integrados que transforman cadenas en otro formato: número, texto y fecha y hora.

Tutorial del analizador VertiPaq: relaciones e integridad referencial

Tutorial del analizador VertiPaq: relaciones e integridad referencial

Este tutorial detallado sobre el analizador VertiPaq en DAX Studio le enseñará cómo usar la pestaña Relaciones para optimizar su DAX y resolver problemas de integridad referencial.