Colunas calculadas no SharePoint | Uma visão geral
Descubra a importância das colunas calculadas no SharePoint e como elas podem realizar cálculos automáticos e obtenção de dados em suas listas.
Este blog demonstrará como usar um gráfico de distribuição cumulativa , também conhecido como função de distribuição cumulativa empírica ou gráficos ECDF, e mostrará as vantagens de usar essa variação de gráfico em relação a outros tipos de gráfico. Você pode assistir ao vídeo completo deste tutorial na parte inferior deste blog .
A maioria das pessoas prefere gráficos ECDF em vez de para visualizar os dados à medida que plotam cada ponto de dados diretamente, e esse recurso facilita a interação do usuário com o gráfico. Hoje, você aprenderá como usar um ECDF em Python e LuckyTemplates e melhorar suas apresentações e relatórios sobre distribuição de dados.
Índice
Tipos de Parcelas de Distribuição
Vou começar filtrando meus dados em um determinado dia, sábado, e podemos ver abaixo todos esses gráficos Python usados para descrever as distribuições. Temos aqui nosso gráfico ECDF, um histograma, um gráfico KDE e um gráfico Box.
Todos esses gráficos descrevem como os dados são espalhados ou distribuídos. Por exemplo, se descermos e olharmos para o histograma, podemos ver que a maioria dessas caixas altas estará onde nossos dados estão situados.
Por volta de US$ 3,50, temos o compartimento mais alto para nossos dados de dicas em nosso conjunto de dados abaixo.
Também podemos usar um gráfico do KDE que nos fornece uma métrica diferente ao observar a distribuição. O histograma lida com a contagem que estará nessas caixas, enquanto o KDE lida com a densidade.
Com um gráfico do KDE, você pode dizer onde está a maioria dos nossos dados identificando a maior densidade ou a maior protuberância no gráfico, se desejar. Na imagem acima, podemos dizer que está distribuído entre US$ 2 e US$ 4.
O mesmo vale para um gráfico de caixa, que mostra que a distribuição é de US$ 2 a US$ 4, e é aí que a maioria dos nossos dados estará. Ele usa uma mediana, a linha horizontal que divide a caixa, para nos dar uma ideia de onde está a maior distribuição.
E então, temos o gráfico ECDF onde no lado esquerdo do eixo y, você pode ver a palavra Proporção , representando nossos percentis. Com base no gráfico, a $ 3,50, estamos analisando cerca de 50% de nossos dados, e a $ 5 e abaixo é onde 80% de nossos dados são distribuídos.
Código do gráfico do histograma
Agora vou mostrar o código para cada um desses gráficos, começando pelo histograma. Todos eles têm codificação muito semelhante e repetível , então você pode puxá-los rapidamente usando um código, como um modelo.
Primeiro precisamos importar Seaborn e salvá-lo como sb, seguido por matplotlib.pyplot como plt. Usaremos um estilo de plano de fundo chamado ggplot e a variável matplotlib para passar em diferentes estilos.
Por exemplo, na imagem abaixo, podemos ver que na 11ª linha, estamos adicionando um título para o histograma e os tamanhos dos ticks nas linhas seguintes. Os yticks e xticks representam os tamanhos x e y de acordo.
Na 14ª linha, usamos uma variável Seaborn para passar a função que traz aquele gráfico em particular, como o histplot no exemplo acima, que representa um gráfico de histograma. Em seguida, passamos os dados da 4ª linha para a função como um conjunto de dados.
Qualquer coisa que você trouxer para os valores representa seu conjunto de dados e eliminará as duplicatas. Em seguida, usaremos x para as dicas e um matiz que , junto com seaborn, permite separar seus dados por categoria. Se voltarmos ao nosso visual, veremos que ele possui categorias, incluindo o, tempo ou fumante.
Gráfico do KDEName
Para o gráfico do KDE, tudo é quase idêntico. Só precisamos passar um novo parâmetro chamado shade para ter aquela aparência sombreada. Fora isso, o matiz, os dados e o resto são os mesmos.
Com o gráfico de caixa, ele é muito semelhante a outros gráficos, exceto por algumas pequenas diferenças. Aqui usamos a função boxplot onde x é o dia e y são as dicas. Também não estamos usando matiz para este gráfico.
Portanto, é a mesma estrutura do gráfico ECDF e a única diferença está na variável Seaborn, onde passamos um gráfico ECDF e usamos matiz como dia. Mas também podemos mudar essa tonalidade para outra categoria que temos, como fumante.
Se passarmos esta categoria, terminaremos com um gráfico ECDF que tem duas linhas diferentes. Nessas distribuições, podemos ver que os fumantes têm mais em relação à nossa largura de linha específica.
Os não fumantes têm cem por cento desses dados abaixo de US$ 6, enquanto os fumantes têm US$ 6. Curiosamente, nossos fumantes podem estar deixando uma gorjeta maior em um determinado dia.
Estilizando Gráficos ECDF
Agora podemos estilizar ainda mais nossos gráficos ECDF para torná-los mais apresentáveis. Na imagem abaixo estão diferentes parcelas do ECDF. Na primeira plotagem, aumentei as linhas e usei uma paleta de cores diferente.
No primeiro gráfico, usei diferentes parâmetros dentro da função. Como vocês podem ver abaixo, passei a paleta como verão e a largura da linha como 5.
Também comparei sábado e domingo, por isso existem duas linhas verdes diferentes. Aqui podemos ver que a gorjeta de US$ 3 está no percentil 45 para domingo e no percentil 70 para quinta-feira, o que nos diz que as pessoas tendem a deixar gorjetas mais altas no domingo.
Também podemos alternar os eixos X e Y, trocar a proporção e a ponta dentro de nosso gráfico e alterar a paleta, como na imagem abaixo.
Aqui podemos ver que a gorjeta de $ 2 está no percentil 20 para domingo, que é a linha roxa no gráfico. Portanto, os dados são os mesmos da parcela ECDF anterior e apenas a apresentação é diferente.
Agora temos outro gráfico com o mesmo conjunto de dados e retém as posições dos eixos originais, conforme mostrado na imagem acima. A diferença desta vez é que a direção das linhas está invertida.
Estilo de Gráficos ECDF
Se olharmos o código, tudo o que estamos fazendo é passar no parâmetro complementar equals = true. Essa ação nos permitirá dizer que na faixa de $ 2 e acima é onde 80% de nossos dados são distribuídos, em vez de dizer que abaixo da faixa de $ 2 é onde 20% de nossos dados são distribuídos. Novamente, são os mesmos dados com uma aparência ou forma diferente de apresentá-los.
E em nosso quarto e último gráfico ECDF, estamos usando Contagem em vez de proporção.
Essa abordagem é útil quando temos mais do que alguns gráficos. Olhando para a coluna de contagem na imagem abaixo, podemos ver que não há muitas observações na sexta-feira, o que nos diz que as pessoas não estão deixando muitas gorjetas nesse dia.
Fundamentos do Código de Parcelas ECDF
Se olharmos o código, você encontrará Seaborn , que é o principal para criar esse enredo específico. Também temos matplotlib.pyplot para estilo, que você pode salvar como uma variável chamada plt .
Podemos usar essa variável para criar estilos diferentes para nosso gráfico específico, como adicionar títulos e tamanhos de fonte. A parte principal do seu código será a função de plotagem ECDF que trazemos com Seaborn.
Gráfico de dispersão no script R: como criar e importar
funções definidas pelo usuário em Python | Uma visão geral
GGPLOT2 em R: visualizações com ESQUISSE
Conclusão
Essas foram as maneiras pelas quais você pode usar diferentes gráficos de distribuição, incluindo gráficos de histograma, KDE, caixa e ECDF. Você também aprendeu quatro maneiras de apresentar um gráfico ECDF usando o mesmo conjunto de dados. Você pode usar qualquer abordagem, dependendo de sua preferência.
Lembre-se sempre de trazer as bibliotecas necessárias para criar seu enredo e usar a função certa. Depois disso, é só uma questão de mudar os aspectos visuais e estilísticos do seu enredo, como o posicionamento dos eixos e os matizes.
Tudo de bom,
Descubra a importância das colunas calculadas no SharePoint e como elas podem realizar cálculos automáticos e obtenção de dados em suas listas.
Descubra todos os atributos pré-atentivos e saiba como isso pode impactar significativamente seu relatório do LuckyTemplates
Aprenda a contar o número total de dias em que você não tinha estoque por meio dessa técnica eficaz de gerenciamento de inventário do LuckyTemplates.
Saiba mais sobre as exibições de gerenciamento dinâmico (DMV) no DAX Studio e como usá-las para carregar conjuntos de dados diretamente no LuckyTemplates.
Este tutorial irá discutir sobre Variáveis e Expressões dentro do Editor do Power Query, destacando a importância de variáveis M e sua sintaxe.
Aprenda a calcular a diferença em dias entre compras usando DAX no LuckyTemplates com este guia completo.
Calcular uma média no LuckyTemplates envolve técnicas DAX para obter dados precisos em relatórios de negócios.
O que é self em Python: exemplos do mundo real
Você aprenderá como salvar e carregar objetos de um arquivo .rds no R. Este blog também abordará como importar objetos do R para o LuckyTemplates.
Neste tutorial de linguagem de codificação DAX, aprenda como usar a função GENERATE e como alterar um título de medida dinamicamente.