Qué es uno mismo en Python: ejemplos del mundo real
Qué es uno mismo en Python: ejemplos del mundo real
En el blog de hoy, veremos el proceso de visualización de la correlación de Python y cómo importar estos elementos visuales a LuckyTemplates. Puedes ver el video completo de este tutorial en la parte inferior de este blog.
Tabla de contenido
Comprender las correlaciones
Aquí hay una buena imagen que muestra los diferentes tipos de correlaciones.
Comenzando desde la izquierda, tenemos la correlación positiva perfecta , lo que significa que tiene un valor de correlación de 1. Luego, le siguen correlaciones positivas en orden descendente que conducen a 0.
El gráfico central no muestra correlación , lo que sugiere un valor de correlación igual a 0.
Finalmente, el lado derecho presenta valores de correlaciones negativas decrecientes desde 0. El gráfico más a la derecha es la correlación negativa perfecta que tiene un valor de correlación de -1.
Paquetes para la correlación de Python
Usaremos cuatro paquetes para este tutorial. Nuestro primer paquete es Pandas , que se usará para la manipulación de datos y se guardará como variable pd .
Para la visualización, usaremos Matplotlib , guardada como variable plt para facilitar el uso de estas funciones. Seaborn , nuestra biblioteca de visualización estadística, se guardará como sns . Y, por último, Numpy , que se guardará como np , se usará para álgebra lineal.
Para los datos, utilizaremos un conjunto de datos de muestra en Seaborn. Luego, usando la variable sns, traeremos el conjunto de datos de diamantes como se muestra a continuación. .
Atributos de los Datos
Podemos ver los atributos de nuestros datos usando la función dataset.info . Esta función nos muestra todos los diferentes tipos de datos como se ve en la última columna a continuación.
Tenga en cuenta que la correlación solo funciona en variables numéricas, por lo tanto, vamos a ver las variables numéricas la mayor parte del tiempo. Sin embargo, también aprenderemos cómo utilizar algunas de las variables categóricas para la visualización.
El conjunto de datos de correlación de Python
Al usar el encabezado de función escrito como dataset.head , podemos obtener las cinco filas superiores de nuestros datos que deberían verse así.
Tenemos carat en la primera columna, seguido de las variables categóricas corte , color y claridad , y luego valores numéricos para el resto de los datos.
Correlación de Python: creación de un gráfico de dispersión
Cuando visualizamos correlaciones y observamos dos variables, generalmente observamos diagramas de dispersión .
Por lo tanto, utilizando la biblioteca Seaborn, creamos nuestro diagrama de dispersión utilizando la función de diagrama de dispersión donde pasamos los datos que guardamos anteriormente como data=dataset . Luego, identificamos las variables X e Y: quilate y precio , respectivamente.
Aquí está nuestro diagrama de dispersión hecho con la biblioteca Seaborn.
Puedes ver que este diagrama de dispersión es bastante denso. Esto se debe a que tenemos alrededor de 54 000 filas de datos y los puntos no están necesariamente representados de la mejor manera.
Podemos presionar las teclas Shift + Tab para ver las diferentes formas de diseñar el gráfico de dispersión. Nos mostrará una lista de diferentes parámetros que podemos agregar a nuestro diagrama de dispersión.
Desplazarnos más hacia abajo nos dará información sobre lo que hace cada uno de los parámetros enumerados.
Parámetros adicionales del diagrama de dispersión
Vamos a sumergirnos un poco. Podemos hacer que linewidth=0 porque las líneas blancas en nuestro primer diagrama de dispersión, que se muestra a continuación, oscurecen un poco las cosas.
También queremos ajustar el alfa para poder controlar la opacidad. Usemos alpha=0.2 para nuestro ejemplo. Pero, por supuesto, también podría cambiar eso a 0.1.
Si agregamos estos parámetros y hacemos clic en Ejecutar , puede ver que nuestro diagrama de dispersión se vuelve más opaco sin las líneas blancas.
Puede jugar con los parámetros para obtener la mejor imagen que está buscando.
Uso de las variables categóricas
También podemos utilizar algunas de nuestras variables categóricas para mejorar nuestras imágenes. Por ejemplo, sabemos que nuestros datos tienen un corte para nuestro diamante.
Lo que podemos hacer es pasar en esa categoría de corte usando el parámetro hue como hue='cut'. Esto nos permitirá visualizar estos puntos cambiando los colores.
Por supuesto, podemos añadir más parámetros como el alfa, por ejemplo. Podemos agregar eso nuevamente, configurarlo en 0.2 y ver cómo eso cambia la imagen. Hagamos clic en Ejecutar y podrá ver una pequeña diferencia.
Podemos jugar con los parámetros para obtener el visual que estamos buscando. También podemos usar diferentes categorías, como claridad, que nos brinda las categorías de claridad y también nos brinda una vista ligeramente diferente de esa dispersión.
Correlación con otras variables
También le puede interesar cómo se correlacionan otros valores además del precio y el quilate. Entonces, si observamos un diagrama de dispersión para la tabla , que es la dimensión numérica de ese diamante y la profundidad , podemos ver que no existe una relación lineal de uno a uno.
También podemos mirar otras dos variables como la profundidad y el precio . Según el gráfico, podemos ver que los datos se centran alrededor del área central.
Correlación de Python: creación de un gráfico de regresión
Avancemos a lo que llamamos un gráfico de regresión que nos permite evaluar la relación lineal entre dos variables.
Entonces, en lugar de la función de diagrama de dispersión, esta vez usaremos la función de registro . Pasaremos la misma estructura: nuestros datos y luego las variables X e Y.
El resultado muestra una línea que mide la relación lineal entre las variables. También es evidente cómo nuestros valores giran alrededor de esa línea de regresión.
Esta no es una imagen muy hermosa en este momento, pero aún podemos optimizarla para obtener una mejor. Por ejemplo, podemos pasar un estilo usando la variable Matplotlib. Podemos cambiar el estilo a fondo oscuro usando el código plt.style.use('dark_background').
Tome ese mismo gráfico de regresión y pase algunas palabras clave para nuestra dispersión y línea. Usemos el color rojo y un ancho de línea de 1 para nuestra línea de regresión. Esto se escribe como line_kws={“color” : “red”, 'linewidth' : 1).
Para nuestras palabras clave de dispersión, establezcamos el color como blanco, el color del borde como gris y la opacidad como 0.4 para que se escriba como scatter_kws={“color”: “blanco”, 'color del borde': 'gris', 'alfa': 0.4 ).
Estos parámetros nos dan un poco de una vista diferente que se muestra a continuación.
Correlación de Python: creación de una matriz de correlación
Hasta ahora, lo que hemos estado viendo son diagramas de dispersión con solo dos variables, pero es posible que también queramos ver todas nuestras correlaciones de variables.
Esto se realiza utilizando nuestro conjunto de datos con una función de marco de datos llamada correlación representada como dataset.corr. Y lo que obtendremos es una matriz que nos muestra correlaciones sobre cada una de estas variables.
Los números de la tabla anterior representan la correlación de Pearson , que se centra en la relación lineal entre todas estas variables.
Pero si no estamos seguros de si nuestras variables están completamente correlacionadas linealmente, podemos usar un tipo diferente de correlación que se centre más en el impacto que en la parte lineal. Se llama correlación de Spearman .
Y podemos ver información sobre todas estas cosas presionando Shift + Tab. Si se desplaza hacia abajo, podemos ver la correlación de rango de Spearman, el coeficiente de correlación de Pearson y muchas formas diferentes de medir nuestros datos.
Mirando hacia atrás a nuestra matriz de correlación anterior, sabemos que el precio y el quilate están bastante bien correlacionados.
Son de nuestro gráfico aquí que muestra que son bastante lineales en 0.92.
Ahora, si usamos la correlación de Spearman, el impacto o el rango será un poco más alto en 0.96.
Estos diferentes tipos de correlaciones nos permiten recoger diferentes atributos de correlación entre esas variables.
Correlación de Variable Múltiple x Única
A veces, no queremos ver una matriz porque nos preocupa más la correlación de todas las variables con una sola variable (por ejemplo, el precio).
Lo que podemos hacer entonces es aislar el precio usando dataset.corr seguido de 'price' .
Ahora, podemos ver que el precio está correlacionado con todas nuestras diferentes variables numéricas en esta tabla. Y la razón por la que podemos querer hacer esto es por tramas visuales.
Así que veamos cómo visualizar nuestra matriz de correlación con un mapa de calor.
Correlación de Python: creación de un mapa de calor
Podemos pasar esta variable de correlación a un mapa de calor de Seaborn usando la función sns.heatmap.
Esto nos dará un mapa de calor que se ve así.
Nuevamente, podemos agregar parámetros a nuestra preferencia. Podemos pasar el parámetro linewidths=1 y agregar anotaciones usando annot=True .
Y puede ver que nuestro mapa de calor ahora se ve bastante diferente. En este momento tenemos un buen mapa de calor.
Podemos ver la utilidad de agregar las líneas y las anotaciones. Nuevamente, si presionamos Shift + Tab, aparecerán todos los diferentes parámetros que pueden entrar.
A continuación, intente agregar method='spearman ' en nuestro código, para que sepa cómo usar un tipo diferente de correlación según su caso de uso.
Mapa de calor con una variable
A continuación, aislamos una variable y creamos un mapa de calor con la correlación que va de negativa a positiva.
Esto nos dará este mapa de calor a continuación.
Definitivamente podemos cambiar el estilo también. Por ejemplo, podemos usar el parámetro cmap como cmap='coolwarm' . Esto cambia los colores a fríos y cálidos, y también eliminará nuestro fondo negro.
Si hacemos clic en Ejecutar , obtendremos este mapa de calor a continuación. Para frío, tenemos el azul y luego para cálido, tenemos las barras rojas.
También podemos cambiar la dirección para alinear nuestro mapa con la barra de colores. Esto se hace editando nuestro parámetro sort_values y agregando ascending=False .
Esto irá desde el más correlacionado (la barra roja) hasta el menos correlacionado (la barra azul).
Correlación de Python: creación de una escalera visual
Una forma avanzada de visualizar nuestra correlación es usar una máscara para bloquear todas las correlaciones que ya hemos hecho.
Podemos hacer esto con Numpy, usando algunas funciones VERDADERO y FALSO para hacer una escalera visual para nuestras correlaciones.
Así es como deberían verse los resultados.
Veamos cómo podemos canalizar esto a LuckyTemplates.
Visual de escalera en LuckyTemplates
Primero, abra LuckyTemplates. He traído un conjunto de datos de aguacate para que podamos ver una imagen diferente. Puede ver este conjunto de datos en el panel Campos. Inicialice el objeto visual de Python haciendo clic en el icono de Python en el panel Visualizaciones.
Necesitamos crear el conjunto de datos agregando todas las variables numéricas que se indican con el ? . Agréguelos haciendo clic en las casillas de verificación junto a estas variables.
Ahora que tenemos un conjunto de datos, podemos ir a nuestro cuaderno Jupyter y copiar este código que teníamos antes.
Luego, copiaremos el código al editor de scripts de Python en LuckyTemplates.
A continuación, elegiremos nuestro visual, que sería el visual de la escalera. Volveremos a Jupyter, copiaremos el código que usamos para nuestra escalera visual.
Pegue el código en el editor de secuencias de comandos de Python.
Lo último que debe hacer es asegurarse de que estamos usando plt.show , que se requiere en su secuencia de comandos de Python. Agregue plt.show en la última línea del código y haga clic en el icono de ejecutar en la esquina superior derecha del editor de secuencias de comandos.
Para una imagen más grande, estire un poco el cuadro para que podamos ver el script ejecutándose en la esquina. Tenemos nuestra imagen para nuestro mapa de calor, que se ve bastante bien.
Y en LuckyTemplates, definitivamente podemos ver cómo esa imagen puede cambiar según el conjunto de datos. Por ejemplo, podemos hacer clic en el ícono Slicer en el panel Visualizaciones e ir a Escribir en el panel Campos.
Nos dará los dos tipos en nuestro conjunto de datos, el convencional y el orgánico . Si hacemos clic en un tipo, digamos orgánico , puedes ver que el mapa de calor cambia.
Los cambios también se aplicarán cuando hagamos clic en el tipo convencional a continuación.
Recuerde que necesitamos tener una variable categórica en el conjunto de datos de nuestro script de Python para que estos filtros funcionen. Como podemos ver, el conjunto de datos que creamos incluía el tipo , lo que nos permite filtrar el elemento visual de esa manera.
Creación de relaciones de modelos de datos en
el análisis de texto de LuckyTemplates en Python | Introducción a
las secuencias de comandos de Python en los informes de datos de LuckyTemplates
Conclusión
En este blog, aprendió a visualizar correlaciones en Python y LuckyTemplates utilizando diferentes métodos, como la correlación de Pearson y la correlación de rango de Spearman.
Ahora, puede crear diagramas de dispersión, diagramas de regresión, matrices de correlación, mapas de calor y visuales de escalera para obtener el mejor visual para su conjunto de datos. También puede usar una variedad de parámetros para mejorar los estilos y las imágenes.
Mis mejores deseos,
Qué es uno mismo en Python: ejemplos del mundo real
Aprenderá a guardar y cargar objetos desde un archivo .rds en R. Este blog también cubrirá cómo importar objetos desde R a LuckyTemplates.
En este tutorial del lenguaje de codificación DAX, aprenda a usar la función GENERAR y a cambiar dinámicamente el título de una medida.
Este tutorial cubrirá cómo usar la técnica de elementos visuales dinámicos de subprocesos múltiples para crear información a partir de visualizaciones de datos dinámicos en sus informes.
En este artículo, repasaré el contexto del filtro. El contexto del filtro es uno de los temas principales que cualquier usuario de LuckyTemplates debería conocer inicialmente.
Quiero mostrar cómo el servicio en línea de LuckyTemplates Apps puede ayudar a administrar diferentes informes e información generada a partir de varias fuentes.
Aprenda a calcular los cambios de su margen de beneficio utilizando técnicas como la bifurcación de medidas y la combinación de fórmulas DAX en LuckyTemplates.
Este tutorial analizará las ideas de materialización de cachés de datos y cómo afectan el rendimiento de DAX al proporcionar resultados.
Si todavía usa Excel hasta ahora, este es el mejor momento para comenzar a usar LuckyTemplates para sus necesidades de informes comerciales.
¿Qué es la puerta de enlace de LuckyTemplates? Todo lo que necesitas saber