Colunas calculadas no SharePoint | Uma visão geral
Descubra a importância das colunas calculadas no SharePoint e como elas podem realizar cálculos automáticos e obtenção de dados em suas listas.
Ao trabalhar com um conjunto de dados composto por várias variáveis, é melhor entender como elas diferem e interagem umas com as outras. Neste tutorial, vou demonstrar como você pode usar a função Seaborn em Python para visualizar alternativas para a distribuição de uma variável. Você pode assistir ao vídeo completo deste tutorial na parte inferior deste blog.
Índice
Usando a função Seaborn em Python
Vou demonstrar isso no conjunto de dados MPG, que está disponível na Seaborn. Portanto, vamos em frente e importamos todos os pacotes de que precisamos, bem como todos os dados de que precisamos. Vamos ver a distribuição da variável MPG aqui e como elas variam. As duas maneiras comuns de fazer isso são o histograma e o boxplot .
Vou usar a função displot (DIS para distribuição). Então, preciso especificar qual conjunto de dados é e qual variável vamos colocar no eixo X. E com isso, temos a distribuição.
Isso é muito bom. Isso é muito fácil de ver toda a distribuição e a forma. Algumas deficiências com essa visualização da distribuição. Uma delas é que o número de compartimentos que estamos usando é indiscutivelmente arbitrário. A outra coisa é que não podemos necessariamente saber instantaneamente qual é a média da variável.
O bom do Seaborn é que, depois de configurar a variável que desejo, onde e qual conjunto de dados estou usando, é realmente plug-and-chug para criar uma nova visualização. Agora vamos para o boxplot. Boxplot não usa caixas.
A ideia aqui é que podemos ver o valor do quartil com muita clareza, especificamente a mediana, e vemos os outros valores do quartil. Vemos que há um outlier, e este é um enredo muito preciso. O boxplot do problema é que ele é preciso com coisas que geralmente muitos usuários corporativos provavelmente não se importam.
Portanto, esse gráfico é um pouco difícil para pessoas não estatísticas obterem muito valor. E, novamente, está agregando os dados, então estamos perdendo muitos detalhes. É difícil saber exatamente como isso se parece. Podemos ver que há um outlier. Podemos ver que a maioria dos valores estão aqui. O histograma nos dá uma maneira mais intuitiva de ver isso.
Ambos são bons enredos. Ambos têm seus propósitos. Vejamos algumas alternativas usando Seaborn para visualizar. Vamos nos ater ao MPG para a distribuição dessa variável.
Semelhante ao boxplot, você pode ver aqui que a mediana está claramente marcada. Também vemos a faixa de quartil e podemos ver melhor qual é a distribuição geral. Isso também é como um histograma. É chamado de plotagem de estimativa de densidade do kernel ou plotagem do KDE. É uma versão suave do histograma. Não estamos usando nenhum binning arbitrário. Tudo é suavizado em uma faixa contínua aqui.
Isso é uma espécie de híbrido dessas duas abordagens e realmente cuida de algumas das deficiências. No entanto, dependendo do seu público, eles podem realmente ter dificuldade em olhar para isso. Eles podem não estar acostumados, mas traz alguns benefícios para as abordagens tradicionais.
Nessa abordagem, não estamos mais agregando os dados. Cada ponto individual é plotado. Isso leva elementos do gráfico de dispersão, certo? Se você pensar em um gráfico de dispersão, plotamos cada ponto individual nas coordenadas X e Y.
Por último, temos o stripplot . O que estamos fazendo aqui é pegar essa distribuição e espalhar aleatoriamente. Este é um processo aleatório. Não estamos mais tentando fazer essa forma de distribuição. O problema com isso é que temos todos esses aglomerados colidindo uns com os outros, então isso pode não ser bom dependendo do que você está tentando fazer. Talvez você queira colorir por grupo ou algo assim, então existe uma opção para isso.
Podemos alterar o jitter para 0,25 e ver que conforme aumentamos o jitter, esses pontos se espalham um pouco mais.
No entanto, toda vez que eu os executo, eles parecem um pouco diferentes. Portanto, se você quiser se livrar disso e torná-lo sempre o mesmo, poderá importar numpy como np . O que isso faz é o que chamamos de definir uma semente aleatória.
Toda vez que executo algo relacionado a números aleatórios, ele usará os mesmos números aleatórios. As coisas não mudam aleatoriamente quando você o executa novamente. Isso pode ser bom para qualquer tipo de simulação que você esteja fazendo, o que acontece muito em ciência de dados e análises com essa visualização também. Então agora, toda vez que executo esse gráfico, vamos obter a mesma aparência disso.
Também posso adicionar aqui a origem Y, e agora vemos que estamos criando uma distribuição bivariada. Estamos pegando a distribuição de quilometragem e segmentando por origem.
Como usar o script Python no LuckyTemplates
Script Python nos relatórios de dados do LuckyTemplates
Conjuntos de dados em Pandas com ProfileReport() | Python no LuckyTemplates
Conclusão
Estas são alternativas para visualizar as distribuições de uma variável. Todos eles têm seus prós e contras. Isso não quer dizer que nunca use o boxplot ou o histograma, mas apenas que aqui estão algumas outras opções, dependendo do que você está tentando mostrar.
Eles são todos tão fáceis de fazer quanto qualquer um dos outros quando estamos usando a função Seaborn em Python. Se você quiser saber mais sobre Python , confira os links abaixo.
Tudo de bom!
Descubra a importância das colunas calculadas no SharePoint e como elas podem realizar cálculos automáticos e obtenção de dados em suas listas.
Descubra todos os atributos pré-atentivos e saiba como isso pode impactar significativamente seu relatório do LuckyTemplates
Aprenda a contar o número total de dias em que você não tinha estoque por meio dessa técnica eficaz de gerenciamento de inventário do LuckyTemplates.
Saiba mais sobre as exibições de gerenciamento dinâmico (DMV) no DAX Studio e como usá-las para carregar conjuntos de dados diretamente no LuckyTemplates.
Este tutorial irá discutir sobre Variáveis e Expressões dentro do Editor do Power Query, destacando a importância de variáveis M e sua sintaxe.
Aprenda a calcular a diferença em dias entre compras usando DAX no LuckyTemplates com este guia completo.
Calcular uma média no LuckyTemplates envolve técnicas DAX para obter dados precisos em relatórios de negócios.
O que é self em Python: exemplos do mundo real
Você aprenderá como salvar e carregar objetos de um arquivo .rds no R. Este blog também abordará como importar objetos do R para o LuckyTemplates.
Neste tutorial de linguagem de codificação DAX, aprenda como usar a função GENERATE e como alterar um título de medida dinamicamente.