Função Seaborn em Python para visualizar a distribuição de uma variável

Ao trabalhar com um conjunto de dados composto por várias variáveis, é melhor entender como elas diferem e interagem umas com as outras. Neste tutorial, vou demonstrar como você pode usar a função Seaborn em Python para visualizar alternativas para a distribuição de uma variável. Você pode assistir ao vídeo completo deste tutorial na parte inferior deste blog.

Índice

Usando a função Seaborn em Python

Vou demonstrar isso no conjunto de dados MPG, que está disponível na Seaborn. Portanto, vamos em frente e importamos todos os pacotes de que precisamos, bem como todos os dados de que precisamos. Vamos ver a distribuição da variável MPG aqui e como elas variam. As duas maneiras comuns de fazer isso são o histograma e o boxplot .

Função Seaborn em Python para visualizar a distribuição de uma variável

Vou usar a função displot (DIS para distribuição). Então, preciso especificar qual conjunto de dados é e qual variável vamos colocar no eixo X. E com isso, temos a distribuição.

Isso é muito bom. Isso é muito fácil de ver toda a distribuição e a forma. Algumas deficiências com essa visualização da distribuição. Uma delas é que o número de compartimentos que estamos usando é indiscutivelmente arbitrário. A outra coisa é que não podemos necessariamente saber instantaneamente qual é a média da variável.

Função Seaborn em Python para visualizar a distribuição de uma variável

O bom do Seaborn é que, depois de configurar a variável que desejo, onde e qual conjunto de dados estou usando, é realmente plug-and-chug para criar uma nova visualização. Agora vamos para o boxplot. Boxplot não usa caixas.

A ideia aqui é que podemos ver o valor do quartil com muita clareza, especificamente a mediana, e vemos os outros valores do quartil. Vemos que há um outlier, e este é um enredo muito preciso. O boxplot do problema é que ele é preciso com coisas que geralmente muitos usuários corporativos provavelmente não se importam.

Função Seaborn em Python para visualizar a distribuição de uma variável

Portanto, esse gráfico é um pouco difícil para pessoas não estatísticas obterem muito valor. E, novamente, está agregando os dados, então estamos perdendo muitos detalhes. É difícil saber exatamente como isso se parece. Podemos ver que há um outlier. Podemos ver que a maioria dos valores estão aqui. O histograma nos dá uma maneira mais intuitiva de ver isso.

Ambos são bons enredos. Ambos têm seus propósitos. Vejamos algumas alternativas usando Seaborn para visualizar. Vamos nos ater ao MPG para a distribuição dessa variável.

Semelhante ao boxplot, você pode ver aqui que a mediana está claramente marcada. Também vemos a faixa de quartil e podemos ver melhor qual é a distribuição geral. Isso também é como um histograma. É chamado de plotagem de estimativa de densidade do kernel ou plotagem do KDE. É uma versão suave do histograma. Não estamos usando nenhum binning arbitrário. Tudo é suavizado em uma faixa contínua aqui.

Função Seaborn em Python para visualizar a distribuição de uma variável

Isso é uma espécie de híbrido dessas duas abordagens e realmente cuida de algumas das deficiências. No entanto, dependendo do seu público, eles podem realmente ter dificuldade em olhar para isso. Eles podem não estar acostumados, mas traz alguns benefícios para as abordagens tradicionais.

Nessa abordagem, não estamos mais agregando os dados. Cada ponto individual é plotado. Isso leva elementos do gráfico de dispersão, certo? Se você pensar em um gráfico de dispersão, plotamos cada ponto individual nas coordenadas X e Y.

Função Seaborn em Python para visualizar a distribuição de uma variável

Por último, temos o stripplot . O que estamos fazendo aqui é pegar essa distribuição e espalhar aleatoriamente. Este é um processo aleatório. Não estamos mais tentando fazer essa forma de distribuição. O problema com isso é que temos todos esses aglomerados colidindo uns com os outros, então isso pode não ser bom dependendo do que você está tentando fazer. Talvez você queira colorir por grupo ou algo assim, então existe uma opção para isso.

Função Seaborn em Python para visualizar a distribuição de uma variável

Podemos alterar o jitter para 0,25 e ver que conforme aumentamos o jitter, esses pontos se espalham um pouco mais.

Função Seaborn em Python para visualizar a distribuição de uma variável

No entanto, toda vez que eu os executo, eles parecem um pouco diferentes. Portanto, se você quiser se livrar disso e torná-lo sempre o mesmo, poderá importar numpy como np . O que isso faz é o que chamamos de definir uma semente aleatória.

Toda vez que executo algo relacionado a números aleatórios, ele usará os mesmos números aleatórios. As coisas não mudam aleatoriamente quando você o executa novamente. Isso pode ser bom para qualquer tipo de simulação que você esteja fazendo, o que acontece muito em ciência de dados e análises com essa visualização também. Então agora, toda vez que executo esse gráfico, vamos obter a mesma aparência disso.

Função Seaborn em Python para visualizar a distribuição de uma variável

Também posso adicionar aqui a origem Y, e agora vemos que estamos criando uma distribuição bivariada. Estamos pegando a distribuição de quilometragem e segmentando por origem.

Função Seaborn em Python para visualizar a distribuição de uma variável


Como usar o script Python no LuckyTemplates
Script Python nos relatórios de dados do LuckyTemplates
Conjuntos de dados em Pandas com ProfileReport() | Python no LuckyTemplates

Conclusão

Estas são alternativas para visualizar as distribuições de uma variável. Todos eles têm seus prós e contras. Isso não quer dizer que nunca use o boxplot ou o histograma, mas apenas que aqui estão algumas outras opções, dependendo do que você está tentando mostrar.

Eles são todos tão fáceis de fazer quanto qualquer um dos outros quando estamos usando a função Seaborn em Python. Se você quiser saber mais sobre Python , confira os links abaixo.

Tudo de bom!

Leave a Comment

Colunas calculadas no SharePoint | Uma visão geral

Colunas calculadas no SharePoint | Uma visão geral

Descubra a importância das colunas calculadas no SharePoint e como elas podem realizar cálculos automáticos e obtenção de dados em suas listas.

Atributos pré-atentivos: como isso pode afetar seu relatório

Atributos pré-atentivos: como isso pode afetar seu relatório

Descubra todos os atributos pré-atentivos e saiba como isso pode impactar significativamente seu relatório do LuckyTemplates

Calcular Dias de Estoque Zero – LuckyTemplates Inventory Management Insights

Calcular Dias de Estoque Zero – LuckyTemplates Inventory Management Insights

Aprenda a contar o número total de dias em que você não tinha estoque por meio dessa técnica eficaz de gerenciamento de inventário do LuckyTemplates.

Usando exibições de gerenciamento dinâmico (DMV) no DAX Studio

Usando exibições de gerenciamento dinâmico (DMV) no DAX Studio

Saiba mais sobre as exibições de gerenciamento dinâmico (DMV) no DAX Studio e como usá-las para carregar conjuntos de dados diretamente no LuckyTemplates.

Variáveis ​​e expressões dentro do editor do Power Query

Variáveis ​​e expressões dentro do editor do Power Query

Este tutorial irá discutir sobre Variáveis e Expressões dentro do Editor do Power Query, destacando a importância de variáveis M e sua sintaxe.

Como calcular a diferença em dias entre compras usando o DAX no LuckyTemplates

Como calcular a diferença em dias entre compras usando o DAX no LuckyTemplates

Aprenda a calcular a diferença em dias entre compras usando DAX no LuckyTemplates com este guia completo.

Calculando a média no LuckyTemplates: isolando os resultados do dia da semana ou do fim de semana usando o DAX

Calculando a média no LuckyTemplates: isolando os resultados do dia da semana ou do fim de semana usando o DAX

Calcular uma média no LuckyTemplates envolve técnicas DAX para obter dados precisos em relatórios de negócios.

O que é self em Python: exemplos do mundo real

O que é self em Python: exemplos do mundo real

O que é self em Python: exemplos do mundo real

Como salvar e carregar um arquivo RDS em R

Como salvar e carregar um arquivo RDS em R

Você aprenderá como salvar e carregar objetos de um arquivo .rds no R. Este blog também abordará como importar objetos do R para o LuckyTemplates.

Primeiros N dias úteis revisitados - uma solução de linguagem de codificação DAX

Primeiros N dias úteis revisitados - uma solução de linguagem de codificação DAX

Neste tutorial de linguagem de codificação DAX, aprenda como usar a função GENERATE e como alterar um título de medida dinamicamente.