Correlação do Python: guia para criar recursos visuais

No blog de hoje, veremos o processo de visualização da correlação do Python e como importar esses visuais para o LuckyTemplates. Você pode assistir ao vídeo completo deste tutorial na parte inferior deste blog.

Índice

Entendendo as Correlações
Pacotes para correlação Python
Atributos dos Dados
O conjunto de dados de correlação do Python
Correlação do Python: criando um gráfico de dispersão
Correlação do Python: criando um gráfico de regressão
Correlação Python: Criando uma Matriz de Correlação
- Correlação Múltipla x Variável Única
Correlação do Python: criando um mapa de calor
- Mapa de calor com uma variável
Correlação do Python: criando um visual de escada
- Visual da escada no LuckyTemplates
Conclusão

Entendendo as Correlações

Aqui está uma bela imagem mostrando os diferentes tipos de correlações.

Correlação do Python: guia para criar recursos visuais

Começando da esquerda, temos a correlação positiva perfeita , o que significa que tem um valor de correlação de 1. Em seguida, é seguida por correlações positivas em ordem decrescente levando a 0.

O gráfico do meio não mostra nenhuma correlação sugerindo um valor de correlação igual a 0.

Finalmente, o lado direito apresenta valores de correlações negativas decrescentes a partir de 0. O gráfico mais à direita é a correlação negativa perfeita que possui um valor de correlação de -1.

Pacotes para correlação Python

Nós estaremos usando quatro pacotes para este tutorial. Nosso primeiro pacote é o Pandas para ser usado para manipulação de dados e salvo como variável pd .

Para visualização, usaremos o Matplotlib , salvo como variável plt para facilitar o uso dessas funções. Seaborn , nossa biblioteca de visualização estatística, será salva como sns . E por último, Numpy , a ser salvo como np , será usado para álgebra linear.

Correlação do Python: guia para criar recursos visuais

Para os dados, usaremos um conjunto de dados de amostra em Seaborn. Em seguida, usando a variável sns, traremos o conjunto de dados de diamantes conforme mostrado abaixo. .

Correlação do Python: guia para criar recursos visuais

Atributos dos Dados

Podemos visualizar os atributos de nossos dados usando a função dataset.info . Esta função nos mostra todos os diferentes tipos de dados, conforme visto na última coluna abaixo.

Correlação do Python: guia para criar recursos visuais

Observe que a correlação só funciona em variáveis numéricas, portanto, vamos olhar para as variáveis numéricas na maioria das vezes. No entanto, também aprenderemos como utilizar algumas das variáveis categóricas para visualização.

O conjunto de dados de correlação do Python

Usando a função head escrita como dataset.head , podemos obter as cinco primeiras linhas de nossos dados, que devem se parecer com isso.

Correlação do Python: guia para criar recursos visuais

Temos o quilate na primeira coluna, seguido pelas variáveis categóricas corte , cor e clareza e, em seguida, valores numéricos para o restante dos dados.

Correlação do Python: criando um gráfico de dispersão

Ao visualizar correlações e olhar para duas variáveis, geralmente olhamos para gráficos de dispersão .

Assim, usando a biblioteca Seaborn, criamos nosso gráfico de dispersão usando a função de gráfico de dispersão onde passamos os dados que salvamos acima como data=dataset . Em seguida, identificamos as variáveis X e Y— quilate e preço , respectivamente.

Correlação do Python: guia para criar recursos visuais

Aqui está nosso gráfico de dispersão feito com a biblioteca Seaborn.

Correlação do Python: guia para criar recursos visuais

Você pode ver que esse gráfico de dispersão é bastante denso. Isso porque temos cerca de 54.000 linhas de dados e os pontos não necessariamente são representados da melhor forma.

Podemos pressionar as teclas Shift + Tab para ver as diferentes maneiras de estilizar o gráfico de dispersão. Ele nos mostrará uma lista de diferentes parâmetros que podemos adicionar ao nosso gráfico de dispersão.

Correlação do Python: guia para criar recursos visuais

Rolar mais para baixo nos dará informações sobre o que cada um dos parâmetros listados faz.

Correlação do Python: guia para criar recursos visuais

Parâmetros Adicionais do Gráfico de Dispersão

Vamos mergulhar um pouco. Podemos fazer a largura de linha = 0 porque as linhas brancas em nosso primeiro gráfico de dispersão, mostrado abaixo, obscurecem as coisas.

Correlação do Python: guia para criar recursos visuais

Também queremos ajustar o alfa para podermos controlar a opacidade. Vamos usar alpha=0.2 para nosso exemplo. Mas é claro que você também pode alterar isso para 0,1.

Correlação do Python: guia para criar recursos visuais

Se adicionarmos esses parâmetros e clicarmos em Executar , você verá que nosso gráfico de dispersão fica mais opaco sem as linhas brancas.

Correlação do Python: guia para criar recursos visuais

Você pode brincar com os parâmetros para obter o melhor visual que procura.

Usando as Variáveis Categóricas

Também podemos utilizar algumas de nossas variáveis categóricas para melhorar nossos recursos visuais. Por exemplo, sabemos que nossos dados têm um corte para nosso diamante.

O que podemos fazer é passar nessa categoria de corte usando o parâmetro hue como hue='cut'. Isso nos permitirá visualizar esses pontos mudando as cores.

Correlação do Python: guia para criar recursos visuais

Claro, podemos adicionar mais parâmetros como o alfa, por exemplo. Podemos adicioná-lo novamente, definir como 0,2 e ver como isso muda o visual. Vamos clicar em Executar e você verá uma pequena diferença.

Correlação do Python: guia para criar recursos visuais

Podemos brincar com os parâmetros para obter o visual que estamos procurando. Também podemos usar categorias diferentes, como clareza, que nos dá as categorias de clareza e também uma visão ligeiramente diferente dessa dispersão.

Correlação do Python: guia para criar recursos visuais

Correlação com outras variáveis

Você também pode estar interessado em saber como outros valores estão correlacionados além do preço e do quilate. Então, se olharmos para um gráfico de dispersão para tabela , que é a dimensão numérica desse diamante e profundidade , podemos ver que não há relação linear de um para um.

Correlação do Python: guia para criar recursos visuais

Também podemos olhar para duas outras variáveis, como profundidade e preço . Com base no gráfico, podemos ver que os centros de dados em torno da área do meio.

Correlação do Python: guia para criar recursos visuais

Correlação do Python: criando um gráfico de regressão

Vamos avançar para o que chamamos de gráfico de regressão que nos permite avaliar a relação linear entre duas variáveis.

Portanto, em vez da função de gráfico de dispersão, usaremos a função regplot desta vez. Passaremos na mesma estrutura - nossos dados, em seguida, as variáveis X e Y.

Correlação do Python: guia para criar recursos visuais

O resultado mostra uma linha que mede a relação linear entre as variáveis. Também é evidente como nossos valores giram em torno dessa linha de regressão.

Correlação do Python: guia para criar recursos visuais

Este não é um visual muito bonito no momento, mas ainda podemos otimizá-lo para obter um melhor. Por exemplo, podemos passar um estilo usando a variável Matplotlib. Podemos alterar o estilo para fundo escuro usando o código plt.style.use('dark_background').

Correlação do Python: guia para criar recursos visuais

Pegue o mesmo gráfico de regressão e passe algumas palavras-chave para nossa dispersão e linha. Vamos usar a cor vermelha e uma largura de linha de 1 para nossa linha de regressão. Isso é escrito como line_kws={“color” : “red”, 'linewidth' : 1).

Para nossas palavras-chave de dispersão, vamos definir a cor como branco, a cor da borda como cinza e a opacidade como 0,4 para ser escrita como scatter_kws={“color” : “branco”, 'edgecolor' : 'cinza', 'alfa' : 0,4 ).

Correlação do Python: guia para criar recursos visuais

Esses parâmetros nos dão uma visão um pouco diferente mostrada abaixo.

Correlação do Python: guia para criar recursos visuais

Correlação Python: Criando uma Matriz de Correlação

Até agora, o que vimos foram gráficos de dispersão com apenas duas variáveis, mas também podemos querer ver todas as nossas correlações de variáveis.

Isso é feito usando nosso conjunto de dados com uma função de quadro de dados chamada correlação representada como dataset.corr. E o que vamos obter é uma matriz que nos mostra as correlações em cada uma dessas variáveis.

Correlação do Python: guia para criar recursos visuais

Os números na tabela acima representam a correlação de Pearson , que se concentra na relação linear entre todas essas variáveis.

Mas se não tivermos certeza se nossas variáveis estão totalmente correlacionadas linearmente, podemos usar um tipo diferente de correlação que se concentra mais no impacto do que na parte linear. É chamada de correlação de Spearman .

Correlação do Python: guia para criar recursos visuais

E podemos ver informações sobre todas essas coisas pressionando Shift + Tab. Se você rolar para baixo, podemos ver a correlação de classificação de Spearman, o coeficiente de correlação de Pearson e várias maneiras diferentes de medir nossos dados.

Correlação do Python: guia para criar recursos visuais

Olhando para a nossa matriz de correlação anterior, sabemos que o preço e o quilate estão muito bem correlacionados.

Correlação do Python: guia para criar recursos visuais

Eles são do nosso gráfico aqui, mostrando que são bastante lineares em 0,92.

Correlação do Python: guia para criar recursos visuais

Agora, se usarmos a correlação de Spearman, o impacto ou a classificação será um pouco maior em 0,96.

Correlação do Python: guia para criar recursos visuais

Esses diferentes tipos de correlações nos permitem captar diferentes atributos de correlação entre essas variáveis.

Correlação Múltipla x Variável Única

Às vezes, não queremos ver uma matriz porque estamos mais preocupados com a correlação de todas as variáveis com uma única variável (por exemplo, preço).

O que podemos fazer então é isolar o preço usando dataset.corr seguido de 'price' .

Correlação do Python: guia para criar recursos visuais

Agora, podemos ver que o preço está correlacionado com todas as nossas diferentes variáveis numéricas nesta tabela. E a razão pela qual podemos querer fazer isso é para gráficos visuais.

Então, vamos ver como visualizar nossa matriz de correlação com um mapa de calor.

Correlação do Python: criando um mapa de calor

Podemos passar essa variável de correlação para um mapa de calor Seaborn usando a função sns.heatmap.

Correlação do Python: guia para criar recursos visuais

Isso nos dará um mapa de calor parecido com este.

Correlação do Python: guia para criar recursos visuais

Novamente, podemos adicionar parâmetros de acordo com nossa preferência. Podemos passar o parâmetro linewidths=1 e adicionar anotações usando annot=True .

Correlação do Python: guia para criar recursos visuais

E você pode ver que nosso mapa de calor agora parece bem diferente. No momento, temos um bom mapa de calor.

Correlação do Python: guia para criar recursos visuais

Podemos ver a utilidade de adicionar as linhas e as anotações. Novamente, se pressionarmos Shift + Tab, todos os diferentes parâmetros que podem entrar serão exibidos.

Em seguida, tente adicionar method='spearman ' em nosso código, assim você saberá como usar um tipo diferente de correlação dependendo do seu caso de uso.

Correlação do Python: guia para criar recursos visuais

Mapa de calor com uma variável

Em seguida, isolamos uma variável e criamos um mapa de calor com a correlação indo de negativa para positiva.

Correlação do Python: guia para criar recursos visuais

Isso nos dará este mapa de calor abaixo.

Correlação do Python: guia para criar recursos visuais

Podemos definitivamente mudar o estilo também. Por exemplo, podemos usar o parâmetro cmap como cmap='coolwarm' . Isso altera as cores para frias e quentes e também elimina nosso fundo preto.

Correlação do Python: guia para criar recursos visuais

Se clicarmos em Executar , obteremos este mapa de calor abaixo. Para frio, temos o azul e para quente, temos as barras vermelhas.

Correlação do Python: guia para criar recursos visuais

Também podemos mudar a direção para alinhar nosso mapa com a barra de cores. Isso é feito editando nosso parâmetro sort_values e adicionando ascending=False .

Correlação do Python: guia para criar recursos visuais

Isso irá do mais correlacionado (a barra vermelha) ao menos correlacionado (a barra azul).

Correlação do Python: guia para criar recursos visuais

Correlação do Python: criando um visual de escada

Uma maneira avançada de visualizar nossa correlação é usar uma máscara para bloquear todas as correlações que já fizemos.

Podemos fazer isso com Numpy, usando algumas funções TRUE e FALSE para fazer uma escada visual para nossas correlações.

Correlação do Python: guia para criar recursos visuais

Veja como os resultados devem ser.

Correlação do Python: guia para criar recursos visuais

Vamos ver como podemos canalizar isso para o LuckyTemplates.

Visual da escada no LuckyTemplates

Primeiro, abra o LuckyTemplates. Eu trouxe um conjunto de dados de abacate para que possamos ver um visual diferente. Você pode ver esse conjunto de dados no painel Campos. Inicialize o visual Python clicando no ícone Python no painel Visualizações.

Correlação do Python: guia para criar recursos visuais

Precisamos criar o conjunto de dados adicionando todas as variáveis numéricas indicadas com ? . Adicione-as clicando nas caixas de seleção ao lado dessas variáveis.

Correlação do Python: guia para criar recursos visuais

Agora que temos um conjunto de dados, podemos ir para nosso notebook Jupyter e copiar esse código que tínhamos anteriormente.

Correlação do Python: guia para criar recursos visuais

Em seguida, copiaremos o código para o editor de script Python no LuckyTemplates.

Correlação do Python: guia para criar recursos visuais

Em seguida, escolheremos nosso visual, que seria o visual da escada. Voltaremos ao Jupyter, copiaremos o código que usamos para nosso visual de escada.

Correlação do Python: guia para criar recursos visuais

Cole o código no editor de script Python.

Correlação do Python: guia para criar recursos visuais

A última coisa a fazer é garantir que estamos usando plt.show , que é necessário em seu script Python. Adicione plt.show na última linha do código e clique no ícone de execução no canto superior direito do editor de script.

Correlação do Python: guia para criar recursos visuais

Para um visual maior, estique um pouco a caixa para que possamos ver o script rodando no canto. Temos nosso visual para nosso mapa de calor, que parece muito bom.

Correlação do Python: guia para criar recursos visuais

E no LuckyTemplates, podemos definitivamente ver como esse visual pode mudar de acordo com o conjunto de dados. Por exemplo, podemos clicar no ícone Slicer no painel Visualizações e ir para Type no painel Fields.

Isso nos dará os dois tipos em nosso conjunto de dados, o convencional e o orgânico . Se clicarmos em um tipo, digamos orgânico , você verá que o mapa de calor muda.

Correlação do Python: guia para criar recursos visuais

As alterações também serão aplicadas quando clicarmos no tipo convencional a seguir.

Correlação do Python: guia para criar recursos visuais

Lembre-se de que precisamos ter uma variável categórica no conjunto de dados do nosso script Python para que esses filtros funcionem. Como podemos ver, o conjunto de dados que criamos incluiu o tipo , permitindo-nos filtrar o visual dessa maneira.

Correlação do Python: guia para criar recursos visuais

Construindo seus relacionamentos de modelo de dados no LuckyTemplates
Análise de texto em Python | Uma introdução
aos scripts Python nos relatórios de dados do LuckyTemplates

Conclusão

Neste blog, você aprendeu a visualizar correlações em Python e LuckyTemplates usando diferentes métodos, como correlação de Pearson e correlação de classificação de Spearman.

Agora, você pode criar gráficos de dispersão, gráficos de regressão, matriz de correlação, mapas de calor e visuais de escada para obter o melhor visual para seu conjunto de dados. Você também pode usar uma variedade de parâmetros para melhorar os estilos e visuais.

Tudo de bom,

Deixar um comentário

Colunas calculadas no SharePoint | Uma visão geral

Descubra a importância das colunas calculadas no SharePoint e como elas podem realizar cálculos automáticos e obtenção de dados em suas listas.

Atributos pré-atentivos: como isso pode afetar seu relatório

Descubra todos os atributos pré-atentivos e saiba como isso pode impactar significativamente seu relatório do LuckyTemplates

Calcular Dias de Estoque Zero – LuckyTemplates Inventory Management Insights

Aprenda a contar o número total de dias em que você não tinha estoque por meio dessa técnica eficaz de gerenciamento de inventário do LuckyTemplates.

Usando exibições de gerenciamento dinâmico (DMV) no DAX Studio

Saiba mais sobre as exibições de gerenciamento dinâmico (DMV) no DAX Studio e como usá-las para carregar conjuntos de dados diretamente no LuckyTemplates.

Variáveis e expressões dentro do editor do Power Query

Este tutorial irá discutir sobre Variáveis e Expressões dentro do Editor do Power Query, destacando a importância de variáveis M e sua sintaxe.

Como calcular a diferença em dias entre compras usando o DAX no LuckyTemplates

Aprenda a calcular a diferença em dias entre compras usando DAX no LuckyTemplates com este guia completo.

Calculando a média no LuckyTemplates: isolando os resultados do dia da semana ou do fim de semana usando o DAX

Calcular uma média no LuckyTemplates envolve técnicas DAX para obter dados precisos em relatórios de negócios.

O que é self em Python: exemplos do mundo real

Como salvar e carregar um arquivo RDS em R

Você aprenderá como salvar e carregar objetos de um arquivo .rds no R. Este blog também abordará como importar objetos do R para o LuckyTemplates.

Primeiros N dias úteis revisitados - uma solução de linguagem de codificação DAX

Neste tutorial de linguagem de codificação DAX, aprenda como usar a função GENERATE e como alterar um título de medida dinamicamente.

Correlação do Python: guia para criar recursos visuais

Deixar um comentário

Colunas calculadas no SharePoint | Uma visão geral

Atributos pré-atentivos: como isso pode afetar seu relatório

Calcular Dias de Estoque Zero – LuckyTemplates Inventory Management Insights

Usando exibições de gerenciamento dinâmico (DMV) no DAX Studio

Variáveis ​​e expressões dentro do editor do Power Query

Como calcular a diferença em dias entre compras usando o DAX no LuckyTemplates

Calculando a média no LuckyTemplates: isolando os resultados do dia da semana ou do fim de semana usando o DAX

O que é self em Python: exemplos do mundo real

Como salvar e carregar um arquivo RDS em R

Primeiros N dias úteis revisitados - uma solução de linguagem de codificação DAX

Variáveis e expressões dentro do editor do Power Query