Colunas calculadas no SharePoint | Uma visão geral
Descubra a importância das colunas calculadas no SharePoint e como elas podem realizar cálculos automáticos e obtenção de dados em suas listas.
No blog de hoje, veremos o processo de visualização da correlação do Python e como importar esses visuais para o LuckyTemplates. Você pode assistir ao vídeo completo deste tutorial na parte inferior deste blog.
Índice
Entendendo as Correlações
Aqui está uma bela imagem mostrando os diferentes tipos de correlações.
Começando da esquerda, temos a correlação positiva perfeita , o que significa que tem um valor de correlação de 1. Em seguida, é seguida por correlações positivas em ordem decrescente levando a 0.
O gráfico do meio não mostra nenhuma correlação sugerindo um valor de correlação igual a 0.
Finalmente, o lado direito apresenta valores de correlações negativas decrescentes a partir de 0. O gráfico mais à direita é a correlação negativa perfeita que possui um valor de correlação de -1.
Pacotes para correlação Python
Nós estaremos usando quatro pacotes para este tutorial. Nosso primeiro pacote é o Pandas para ser usado para manipulação de dados e salvo como variável pd .
Para visualização, usaremos o Matplotlib , salvo como variável plt para facilitar o uso dessas funções. Seaborn , nossa biblioteca de visualização estatística, será salva como sns . E por último, Numpy , a ser salvo como np , será usado para álgebra linear.
Para os dados, usaremos um conjunto de dados de amostra em Seaborn. Em seguida, usando a variável sns, traremos o conjunto de dados de diamantes conforme mostrado abaixo. .
Atributos dos Dados
Podemos visualizar os atributos de nossos dados usando a função dataset.info . Esta função nos mostra todos os diferentes tipos de dados, conforme visto na última coluna abaixo.
Observe que a correlação só funciona em variáveis numéricas, portanto, vamos olhar para as variáveis numéricas na maioria das vezes. No entanto, também aprenderemos como utilizar algumas das variáveis categóricas para visualização.
O conjunto de dados de correlação do Python
Usando a função head escrita como dataset.head , podemos obter as cinco primeiras linhas de nossos dados, que devem se parecer com isso.
Temos o quilate na primeira coluna, seguido pelas variáveis categóricas corte , cor e clareza e, em seguida, valores numéricos para o restante dos dados.
Correlação do Python: criando um gráfico de dispersão
Ao visualizar correlações e olhar para duas variáveis, geralmente olhamos para gráficos de dispersão .
Assim, usando a biblioteca Seaborn, criamos nosso gráfico de dispersão usando a função de gráfico de dispersão onde passamos os dados que salvamos acima como data=dataset . Em seguida, identificamos as variáveis X e Y— quilate e preço , respectivamente.
Aqui está nosso gráfico de dispersão feito com a biblioteca Seaborn.
Você pode ver que esse gráfico de dispersão é bastante denso. Isso porque temos cerca de 54.000 linhas de dados e os pontos não necessariamente são representados da melhor forma.
Podemos pressionar as teclas Shift + Tab para ver as diferentes maneiras de estilizar o gráfico de dispersão. Ele nos mostrará uma lista de diferentes parâmetros que podemos adicionar ao nosso gráfico de dispersão.
Rolar mais para baixo nos dará informações sobre o que cada um dos parâmetros listados faz.
Parâmetros Adicionais do Gráfico de Dispersão
Vamos mergulhar um pouco. Podemos fazer a largura de linha = 0 porque as linhas brancas em nosso primeiro gráfico de dispersão, mostrado abaixo, obscurecem as coisas.
Também queremos ajustar o alfa para podermos controlar a opacidade. Vamos usar alpha=0.2 para nosso exemplo. Mas é claro que você também pode alterar isso para 0,1.
Se adicionarmos esses parâmetros e clicarmos em Executar , você verá que nosso gráfico de dispersão fica mais opaco sem as linhas brancas.
Você pode brincar com os parâmetros para obter o melhor visual que procura.
Usando as Variáveis Categóricas
Também podemos utilizar algumas de nossas variáveis categóricas para melhorar nossos recursos visuais. Por exemplo, sabemos que nossos dados têm um corte para nosso diamante.
O que podemos fazer é passar nessa categoria de corte usando o parâmetro hue como hue='cut'. Isso nos permitirá visualizar esses pontos mudando as cores.
Claro, podemos adicionar mais parâmetros como o alfa, por exemplo. Podemos adicioná-lo novamente, definir como 0,2 e ver como isso muda o visual. Vamos clicar em Executar e você verá uma pequena diferença.
Podemos brincar com os parâmetros para obter o visual que estamos procurando. Também podemos usar categorias diferentes, como clareza, que nos dá as categorias de clareza e também uma visão ligeiramente diferente dessa dispersão.
Correlação com outras variáveis
Você também pode estar interessado em saber como outros valores estão correlacionados além do preço e do quilate. Então, se olharmos para um gráfico de dispersão para tabela , que é a dimensão numérica desse diamante e profundidade , podemos ver que não há relação linear de um para um.
Também podemos olhar para duas outras variáveis, como profundidade e preço . Com base no gráfico, podemos ver que os centros de dados em torno da área do meio.
Correlação do Python: criando um gráfico de regressão
Vamos avançar para o que chamamos de gráfico de regressão que nos permite avaliar a relação linear entre duas variáveis.
Portanto, em vez da função de gráfico de dispersão, usaremos a função regplot desta vez. Passaremos na mesma estrutura - nossos dados, em seguida, as variáveis X e Y.
O resultado mostra uma linha que mede a relação linear entre as variáveis. Também é evidente como nossos valores giram em torno dessa linha de regressão.
Este não é um visual muito bonito no momento, mas ainda podemos otimizá-lo para obter um melhor. Por exemplo, podemos passar um estilo usando a variável Matplotlib. Podemos alterar o estilo para fundo escuro usando o código plt.style.use('dark_background').
Pegue o mesmo gráfico de regressão e passe algumas palavras-chave para nossa dispersão e linha. Vamos usar a cor vermelha e uma largura de linha de 1 para nossa linha de regressão. Isso é escrito como line_kws={“color” : “red”, 'linewidth' : 1).
Para nossas palavras-chave de dispersão, vamos definir a cor como branco, a cor da borda como cinza e a opacidade como 0,4 para ser escrita como scatter_kws={“color” : “branco”, 'edgecolor' : 'cinza', 'alfa' : 0,4 ).
Esses parâmetros nos dão uma visão um pouco diferente mostrada abaixo.
Correlação Python: Criando uma Matriz de Correlação
Até agora, o que vimos foram gráficos de dispersão com apenas duas variáveis, mas também podemos querer ver todas as nossas correlações de variáveis.
Isso é feito usando nosso conjunto de dados com uma função de quadro de dados chamada correlação representada como dataset.corr. E o que vamos obter é uma matriz que nos mostra as correlações em cada uma dessas variáveis.
Os números na tabela acima representam a correlação de Pearson , que se concentra na relação linear entre todas essas variáveis.
Mas se não tivermos certeza se nossas variáveis estão totalmente correlacionadas linearmente, podemos usar um tipo diferente de correlação que se concentra mais no impacto do que na parte linear. É chamada de correlação de Spearman .
E podemos ver informações sobre todas essas coisas pressionando Shift + Tab. Se você rolar para baixo, podemos ver a correlação de classificação de Spearman, o coeficiente de correlação de Pearson e várias maneiras diferentes de medir nossos dados.
Olhando para a nossa matriz de correlação anterior, sabemos que o preço e o quilate estão muito bem correlacionados.
Eles são do nosso gráfico aqui, mostrando que são bastante lineares em 0,92.
Agora, se usarmos a correlação de Spearman, o impacto ou a classificação será um pouco maior em 0,96.
Esses diferentes tipos de correlações nos permitem captar diferentes atributos de correlação entre essas variáveis.
Correlação Múltipla x Variável Única
Às vezes, não queremos ver uma matriz porque estamos mais preocupados com a correlação de todas as variáveis com uma única variável (por exemplo, preço).
O que podemos fazer então é isolar o preço usando dataset.corr seguido de 'price' .
Agora, podemos ver que o preço está correlacionado com todas as nossas diferentes variáveis numéricas nesta tabela. E a razão pela qual podemos querer fazer isso é para gráficos visuais.
Então, vamos ver como visualizar nossa matriz de correlação com um mapa de calor.
Correlação do Python: criando um mapa de calor
Podemos passar essa variável de correlação para um mapa de calor Seaborn usando a função sns.heatmap.
Isso nos dará um mapa de calor parecido com este.
Novamente, podemos adicionar parâmetros de acordo com nossa preferência. Podemos passar o parâmetro linewidths=1 e adicionar anotações usando annot=True .
E você pode ver que nosso mapa de calor agora parece bem diferente. No momento, temos um bom mapa de calor.
Podemos ver a utilidade de adicionar as linhas e as anotações. Novamente, se pressionarmos Shift + Tab, todos os diferentes parâmetros que podem entrar serão exibidos.
Em seguida, tente adicionar method='spearman ' em nosso código, assim você saberá como usar um tipo diferente de correlação dependendo do seu caso de uso.
Mapa de calor com uma variável
Em seguida, isolamos uma variável e criamos um mapa de calor com a correlação indo de negativa para positiva.
Isso nos dará este mapa de calor abaixo.
Podemos definitivamente mudar o estilo também. Por exemplo, podemos usar o parâmetro cmap como cmap='coolwarm' . Isso altera as cores para frias e quentes e também elimina nosso fundo preto.
Se clicarmos em Executar , obteremos este mapa de calor abaixo. Para frio, temos o azul e para quente, temos as barras vermelhas.
Também podemos mudar a direção para alinhar nosso mapa com a barra de cores. Isso é feito editando nosso parâmetro sort_values e adicionando ascending=False .
Isso irá do mais correlacionado (a barra vermelha) ao menos correlacionado (a barra azul).
Correlação do Python: criando um visual de escada
Uma maneira avançada de visualizar nossa correlação é usar uma máscara para bloquear todas as correlações que já fizemos.
Podemos fazer isso com Numpy, usando algumas funções TRUE e FALSE para fazer uma escada visual para nossas correlações.
Veja como os resultados devem ser.
Vamos ver como podemos canalizar isso para o LuckyTemplates.
Visual da escada no LuckyTemplates
Primeiro, abra o LuckyTemplates. Eu trouxe um conjunto de dados de abacate para que possamos ver um visual diferente. Você pode ver esse conjunto de dados no painel Campos. Inicialize o visual Python clicando no ícone Python no painel Visualizações.
Precisamos criar o conjunto de dados adicionando todas as variáveis numéricas indicadas com ? . Adicione-as clicando nas caixas de seleção ao lado dessas variáveis.
Agora que temos um conjunto de dados, podemos ir para nosso notebook Jupyter e copiar esse código que tínhamos anteriormente.
Em seguida, copiaremos o código para o editor de script Python no LuckyTemplates.
Em seguida, escolheremos nosso visual, que seria o visual da escada. Voltaremos ao Jupyter, copiaremos o código que usamos para nosso visual de escada.
Cole o código no editor de script Python.
A última coisa a fazer é garantir que estamos usando plt.show , que é necessário em seu script Python. Adicione plt.show na última linha do código e clique no ícone de execução no canto superior direito do editor de script.
Para um visual maior, estique um pouco a caixa para que possamos ver o script rodando no canto. Temos nosso visual para nosso mapa de calor, que parece muito bom.
E no LuckyTemplates, podemos definitivamente ver como esse visual pode mudar de acordo com o conjunto de dados. Por exemplo, podemos clicar no ícone Slicer no painel Visualizações e ir para Type no painel Fields.
Isso nos dará os dois tipos em nosso conjunto de dados, o convencional e o orgânico . Se clicarmos em um tipo, digamos orgânico , você verá que o mapa de calor muda.
As alterações também serão aplicadas quando clicarmos no tipo convencional a seguir.
Lembre-se de que precisamos ter uma variável categórica no conjunto de dados do nosso script Python para que esses filtros funcionem. Como podemos ver, o conjunto de dados que criamos incluiu o tipo , permitindo-nos filtrar o visual dessa maneira.
Construindo seus relacionamentos de modelo de dados no LuckyTemplates
Análise de texto em Python | Uma introdução
aos scripts Python nos relatórios de dados do LuckyTemplates
Conclusão
Neste blog, você aprendeu a visualizar correlações em Python e LuckyTemplates usando diferentes métodos, como correlação de Pearson e correlação de classificação de Spearman.
Agora, você pode criar gráficos de dispersão, gráficos de regressão, matriz de correlação, mapas de calor e visuais de escada para obter o melhor visual para seu conjunto de dados. Você também pode usar uma variedade de parâmetros para melhorar os estilos e visuais.
Tudo de bom,
Descubra a importância das colunas calculadas no SharePoint e como elas podem realizar cálculos automáticos e obtenção de dados em suas listas.
Descubra todos os atributos pré-atentivos e saiba como isso pode impactar significativamente seu relatório do LuckyTemplates
Aprenda a contar o número total de dias em que você não tinha estoque por meio dessa técnica eficaz de gerenciamento de inventário do LuckyTemplates.
Saiba mais sobre as exibições de gerenciamento dinâmico (DMV) no DAX Studio e como usá-las para carregar conjuntos de dados diretamente no LuckyTemplates.
Este tutorial irá discutir sobre Variáveis e Expressões dentro do Editor do Power Query, destacando a importância de variáveis M e sua sintaxe.
Aprenda a calcular a diferença em dias entre compras usando DAX no LuckyTemplates com este guia completo.
Calcular uma média no LuckyTemplates envolve técnicas DAX para obter dados precisos em relatórios de negócios.
O que é self em Python: exemplos do mundo real
Você aprenderá como salvar e carregar objetos de um arquivo .rds no R. Este blog também abordará como importar objetos do R para o LuckyTemplates.
Neste tutorial de linguagem de codificação DAX, aprenda como usar a função GENERATE e como alterar um título de medida dinamicamente.