Qué es uno mismo en Python: ejemplos del mundo real
Qué es uno mismo en Python: ejemplos del mundo real
Este blog demostrará cómo usar una gráfica de distribución acumulativa , también conocida como función de distribución acumulativa empírica o gráficas ECDF, y mostrará las ventajas de usar esta variación de gráfica sobre otros tipos de gráficas. Puedes ver el video completo de este tutorial en la parte inferior de este blog .
La mayoría de las personas prefieren los gráficos ECDF a para visualizar los datos, ya que trazan cada punto de datos directamente, y esta función facilita que el usuario interactúe con el gráfico. Hoy aprenderá a usar un ECDF en Python y LuckyTemplates y mejorará sus presentaciones e informes sobre la distribución de datos.
Tabla de contenido
Tipos de parcelas de distribución
Comenzaré filtrando mis datos en un día en particular, el sábado, y podemos ver a continuación todas estas gráficas de Python utilizadas para describir distribuciones. Aquí tenemos nuestro gráfico ECDF, un histograma, un gráfico KDE y un gráfico de caja.
Todos estos gráficos describirán cómo se distribuyen o distribuyen los datos. Por ejemplo, si bajamos y miramos el histograma, podemos ver que la mayoría de estos contenedores altos estarán donde se encuentran nuestros datos.
Con alrededor de $ 3.50, tenemos el contenedor más alto para nuestros datos de Consejos en nuestro conjunto de datos a continuación.
También podemos usar un gráfico de KDE que nos da una métrica diferente cuando miramos la distribución. El histograma se ocupa del recuento que habrá en estos contenedores, mientras que KDE se ocupa de la densidad.
Con un gráfico de KDE, puede saber dónde está la mayoría de nuestros datos detectando la mayor densidad o la mayor protuberancia en el gráfico, si lo desea. Entonces, en la imagen de arriba, podemos decir que se distribuye entre $2 y $4.
Lo mismo ocurre en un diagrama de caja, que muestra que la distribución es de $2 a $4, y aquí es donde estará la mayoría de nuestros datos. Utiliza una mediana, la línea horizontal que divide la caja, para darnos una idea de dónde está la distribución más grande.
Y luego, tenemos el gráfico ECDF donde, en el lado izquierdo del eje y, puede ver la palabra Proporción , que representa nuestros percentiles. Según el gráfico, a $3,50 estamos analizando aproximadamente el 50 % de nuestros datos, y a $5 o menos es donde se distribuye el 80 % de nuestros datos.
Código de trazado de histograma
Ahora te mostraré el código de cada uno de estos gráficos, comenzando con el histograma. Todos tienen una codificación muy similar y repetible , por lo que puede extraerlos rápidamente usando un código, como una plantilla.
Primero debemos importar Seaborn y guardarlo como sb, seguido de matplotlib.pyplot como plt. Usaremos un estilo de fondo llamado ggplot y esa variable matplotlib para pasar diferentes estilos.
Por ejemplo, en la imagen a continuación, podemos ver que en la línea 11, estamos agregando un título para el histograma y los tamaños de marca en las siguientes líneas. Los yticks y xticks representan los tamaños xey correspondientes.
En la línea 14, usamos una variable Seaborn para pasar la función que trae ese gráfico en particular, como histplot en el ejemplo anterior, que representa un gráfico de histograma. Luego pasamos los datos de la cuarta línea a la función como un conjunto de datos.
Cualquier cosa que traiga a los valores representa su conjunto de datos y eliminará los duplicados. Luego, usaremos x para las sugerencias y un matiz que , junto con seaborn, le permite separar sus datos por categoría. Si volvemos a nuestro visual, podemos que tenga categorías, incluyendo el, el tiempo o el fumador.
Parcela KDE
Para la trama de KDE, todo es casi idéntico. Solo necesitamos pasar un nuevo parámetro llamado sombra para tener ese aspecto sombreado. Aparte de eso, el tono, los datos y el resto son los mismos.
Con el diagrama de caja, es en su mayoría similar a otros diagramas, excepto por algunas diferencias menores. Aquí usamos la función boxplot donde x es el día e y son las propinas. Tampoco estamos usando el tono para esta trama.
Así que es la misma estructura que el gráfico ECDF y la única diferencia está en la variable Seaborn, donde pasamos en un gráfico ECDF y usamos el matiz como día. Pero también podemos cambiar ese tono a otra categoría que tengamos, como smoker.
Si pasamos esta categoría, terminaremos con un gráfico ECDF que tiene dos líneas diferentes. En estas distribuciones podemos ver que los fumadores tienen más respecto a nuestro ancho de línea particular.
Los no fumadores tienen el cien por ciento de esos datos por debajo de $6, mientras que los fumadores lo tienen a $6. Curiosamente, nuestros fumadores pueden dejar una propina mayor en un día en particular.
Dar estilo a las parcelas ECDF
Ahora podemos diseñar aún más nuestros gráficos ECDF para hacerlos más presentables. En la imagen de abajo hay diferentes parcelas ECDF. En la primera trama, hice las líneas más grandes y usé una paleta de colores diferente.
En la primera gráfica, usé diferentes parámetros dentro de la función. Como puede ver a continuación, pasé en la paleta como verano y el ancho de línea como 5.
También comparé el sábado y el domingo, por lo que hay dos líneas verdes diferentes. Aquí podemos ver que la propina de $3 está en el percentil 45 para el domingo y en el percentil 70 para el jueves, lo que nos dice que la gente tiende a dejar propinas más altas el domingo.
También podemos cambiar los ejes X e Y, cambiar la proporción y la punta dentro de nuestro gráfico y cambiar la paleta, como en la imagen de abajo.
Aquí podemos ver que la propina de $2 está en el percentil 20 para el domingo, que es la línea morada en la gráfica. Por lo tanto, los datos son los mismos que en el gráfico ECDF anterior y solo la presentación es diferente.
Ahora tenemos otra gráfica con el mismo conjunto de datos y conserva las posiciones de los ejes originales como se muestra en la imagen de arriba. La diferencia esta vez es que la dirección de las líneas está invertida.
Estilo de gráficos ECDF
Si miramos el código, todo lo que estamos haciendo es pasar el parámetro complementario equals = true. Esta acción nos permitirá decir que en el rango de $2 y superior es donde se distribuye el 80 % de nuestros datos, en lugar de decir que debajo del rango de $2 es donde se distribuye el 20 % de nuestros datos. Una vez más, son los mismos datos con una apariencia diferente o una forma diferente de presentarlos.
Y en nuestra cuarta y última gráfica ECDF, estamos usando Count en lugar de proporción.
Este enfoque es útil cuando tenemos más de unas pocas parcelas. Al mirar la columna de conteo en la imagen a continuación, podemos ver que no hay muchas observaciones el viernes, lo que nos dice que las personas no están dejando muchas propinas ese día.
Principios básicos del código de parcelas ECDF
Si miramos el código, encontrarás Seaborn , que es lo principal para crear esta trama en particular. También tenemos matplotlib.pyplot para diseñar, que puede guardar como una variable llamada plt .
Luego podemos usar esa variable para crear diferentes estilos para nuestra trama en particular, como agregar títulos y tamaños de fuente. La parte principal de su código será su función de trama ECDF que traemos con Seaborn.
Diagrama de dispersión en R Script: cómo crear e importar
funciones definidas por el usuario de Python | Una descripción general
de GGPLOT2 en R: visualizaciones con ESQUISSE
Conclusión
Esas fueron las formas en que puede usar diferentes gráficos de distribución, incluidos los gráficos Histogram, KDE, Box y ECDF. También aprendió cuatro formas de presentar un gráfico ECDF utilizando el mismo conjunto de datos. Puede utilizar cualquier enfoque según sus preferencias.
Recuerde siempre traer las bibliotecas necesarias para crear su trama y usar la función correcta. Después de eso, solo es cuestión de cambiar los aspectos visuales y estilísticos de su trama, como la posición del eje y los matices.
Mis mejores deseos,
Qué es uno mismo en Python: ejemplos del mundo real
Aprenderá a guardar y cargar objetos desde un archivo .rds en R. Este blog también cubrirá cómo importar objetos desde R a LuckyTemplates.
En este tutorial del lenguaje de codificación DAX, aprenda a usar la función GENERAR y a cambiar dinámicamente el título de una medida.
Este tutorial cubrirá cómo usar la técnica de elementos visuales dinámicos de subprocesos múltiples para crear información a partir de visualizaciones de datos dinámicos en sus informes.
En este artículo, repasaré el contexto del filtro. El contexto del filtro es uno de los temas principales que cualquier usuario de LuckyTemplates debería conocer inicialmente.
Quiero mostrar cómo el servicio en línea de LuckyTemplates Apps puede ayudar a administrar diferentes informes e información generada a partir de varias fuentes.
Aprenda a calcular los cambios de su margen de beneficio utilizando técnicas como la bifurcación de medidas y la combinación de fórmulas DAX en LuckyTemplates.
Este tutorial analizará las ideas de materialización de cachés de datos y cómo afectan el rendimiento de DAX al proporcionar resultados.
Si todavía usa Excel hasta ahora, este es el mejor momento para comenzar a usar LuckyTemplates para sus necesidades de informes comerciales.
¿Qué es la puerta de enlace de LuckyTemplates? Todo lo que necesitas saber