Функция Seaborn в Python для визуализации распределения переменных

При работе с набором данных, состоящим из нескольких переменных, лучше иметь возможность понять, как они различаются и взаимодействуют друг с другом. В этом уроке я собираюсь продемонстрировать, как вы можете использовать функцию Seaborn в Python для визуализации альтернатив распределению переменной. Вы можете посмотреть полное видео этого урока в нижней части этого блога.

Оглавление

Использование функции Seaborn в Python
Заключение

Использование функции Seaborn в Python

Я продемонстрирую это на наборе данных MPG, который доступен в Seaborn. Итак, давайте продолжим и импортируем все необходимые нам пакеты, а также любые данные, которые нам нужны. Здесь мы рассмотрим распределение переменной MPG и то, как они меняются. Двумя распространенными способами сделать это являются гистограмма и блочная диаграмма .

Функция Seaborn в Python для визуализации распределения переменных

Поэтому я собираюсь использовать функцию отображения (DIS для распространения). Затем мне нужно указать, что это за набор данных и какую переменную мы собираемся поместить на ось X. И с этим у нас есть дистрибутив.

Это очень хорошо. Это очень легко увидеть все распределение и форму. Однако у этой визуализации распределения есть пара недостатков. Во-первых, количество используемых нами бинов, возможно, произвольно. Другое дело, что мы не всегда можем сразу узнать, каково среднее значение переменной.

Функция Seaborn в Python для визуализации распределения переменных

Хорошая вещь с Seaborn заключается в том, что как только я настроил, какую переменную я хочу, где и какой набор данных я использую, он действительно готов к работе с новой визуализацией. Теперь мы собираемся перейти к boxplot. Boxplot не использует бункеры.

Идея здесь в том, что мы можем очень четко видеть значение квартиля, в частности медиану, и мы видим другие значения квартиля. Мы видим выброс, и это очень точный график. Проблема заключается в том, что он точен с вещами, которые, как правило, не волнуют многих бизнес-пользователей.

Функция Seaborn в Python для визуализации распределения переменных

Таким образом, этот сюжет немного сложен для людей, не связанных со статистикой, чтобы действительно получить большую ценность. И снова это агрегирование данных, поэтому мы теряем много деталей. Трудно точно сказать, как это выглядит. Мы видим, что есть выброс. Мы видим, что большинство значений здесь. Гистограмма дает нам более интуитивный способ взглянуть на это.

Это оба хорошие сюжеты. У них обоих есть свои цели. Давайте рассмотрим некоторые альтернативы использования Seaborn для визуализации. Мы собираемся придерживаться MPG для распределения этой переменной.

Как и в случае с коробчатой диаграммой, здесь четко обозначена медиана. Мы также видим диапазон квартилей и можем лучше понять, каково общее распределение. Это тоже что-то вроде гистограммы. Это называется графиком оценки плотности ядра или графиком KDE. Это сглаженная версия гистограммы. Мы не используем произвольный биннинг. Здесь все сглажено до непрерывного диапазона.

Функция Seaborn в Python для визуализации распределения переменных

Это своего рода гибрид этих двух подходов, который действительно устраняет некоторые недостатки. Однако, в зависимости от вашей аудитории, им может быть действительно трудно смотреть на это. Возможно, они не привыкли к этому, но у него есть некоторые преимущества по сравнению с традиционными подходами.

При таком подходе мы больше не собираем данные. Наносится каждая отдельная точка. Это требует элементов точечной диаграммы, верно? Если вы думаете о точечной диаграмме, мы наносим каждую отдельную точку на координаты X и Y.

Функция Seaborn в Python для визуализации распределения переменных

Наконец, у нас есть стрипплот . Что мы здесь делаем, так это берем это распределение и случайным образом рассеиваем. Это случайный процесс. Мы больше не пытаемся сделать такую форму распределения. Проблема в том, что у нас есть все эти скопления, сталкивающиеся друг с другом, так что это может быть нехорошо в зависимости от того, что вы пытаетесь сделать. Может быть, вы хотите раскрасить их по группам или что-то в этом роде, так что для этого есть возможность.

Функция Seaborn в Python для визуализации распределения переменных

Мы можем изменить джиттер на 0,25 и увидеть, что по мере увеличения джиттера эти точки немного расширяются.

Функция Seaborn в Python для визуализации распределения переменных

Однако каждый раз, когда я запускаю их, они будут выглядеть немного иначе. Итак, если вы хотите избавиться от этого и сделать его одинаковым каждый раз, вы можете импортировать numpy как np . Это то, что называется установкой случайного начального числа.

Каждый раз, когда я запускаю что-то, связанное со случайными числами, будут использоваться одни и те же случайные числа. Вещи не меняются случайным образом при повторном запуске. Это может быть полезно для любого типа моделирования, которое вы делаете, что также часто происходит в науке о данных и аналитике с этой визуализацией. Так что теперь, каждый раз, когда я запускаю этот сюжет, мы будем получать один и тот же вид.

Функция Seaborn в Python для визуализации распределения переменных

Я также могу добавить сюда происхождение Y, и теперь мы видим, что мы создаем бивариантный дистрибутив. Мы берем распределение пробега и сегментируем его по происхождению.

Функция Seaborn в Python для визуализации распределения переменных

Как использовать скрипт Python в LuckyTemplates
Скрипты Python в LuckyTemplates Data Reports
Наборы данных в Pandas с ProfileReport() | Python в LuckyTemplates

Заключение

Это альтернативы визуализации распределений одной переменной. Все они имеют свои плюсы и минусы. Это не означает, что никогда не используйте блочную диаграмму или гистограмму, но это просто говорит о том, что есть еще несколько вариантов, в зависимости от того, что вы пытаетесь показать.

Их все так же легко сделать, как и любые другие, когда мы используем функцию Seaborn в Python. Если вы хотите узнать больше о Python , перейдите по ссылкам ниже.

Всего наилучшего!

Оставить комментарий

Расчет недельных продаж с помощью DAX в LuckyTemplates

Расчет недельных продаж с помощью DAX в LuckyTemplates

В этом руководстве показано, как в конечном итоге можно рассчитать разницу между еженедельными результатами продаж с помощью DAX в LuckyTemplates.

Что такое self в Python: примеры из реального мира

Что такое self в Python: примеры из реального мира

Что такое self в Python: примеры из реального мира

Как сохранить и загрузить файл RDS в R

Как сохранить и загрузить файл RDS в R

Вы узнаете, как сохранять и загружать объекты из файла .rds в R. В этом блоге также рассказывается, как импортировать объекты из R в LuckyTemplates.

Новый взгляд на первые N рабочих дней — решение для языка кодирования DAX

Новый взгляд на первые N рабочих дней — решение для языка кодирования DAX

В этом руководстве по языку программирования DAX вы узнаете, как использовать функцию GENERATE и как динамически изменять название меры.

Продемонстрируйте идеи с помощью метода многопоточных динамических визуализаций в LuckyTemplates

Продемонстрируйте идеи с помощью метода многопоточных динамических визуализаций в LuckyTemplates

В этом учебном пособии рассказывается, как использовать технику многопоточных динамических визуализаций для создания аналитических сведений из динамических визуализаций данных в ваших отчетах.

Лучшие советы по использованию приложений в онлайн-службе LuckyTemplates

Лучшие советы по использованию приложений в онлайн-службе LuckyTemplates

Я хочу показать, как онлайн-служба LuckyTemplates Apps может помочь в управлении различными отчетами и аналитическими данными, созданными из различных источников.

Введение в фильтрацию контекста в LuckyTemplates

Введение в фильтрацию контекста в LuckyTemplates

В этой статье я пройдусь по контексту фильтра. Контекст фильтра — одна из основных тем, с которой должен ознакомиться любой пользователь LuckyTemplates.

Анализ изменений маржи прибыли с течением времени — аналитика с LuckyTemplates и DAX

Анализ изменений маржи прибыли с течением времени — аналитика с LuckyTemplates и DAX

Узнайте, как рассчитать изменения вашей прибыли, используя такие методы, как разветвление показателей и объединение формул DAX в LuckyTemplates.

Идеи материализации кэшей данных в DAX Studio

Идеи материализации кэшей данных в DAX Studio

В этом руководстве будут обсуждаться идеи материализации кэшей данных и то, как они влияют на производительность DAX при предоставлении результатов.

Бизнес-отчетность с использованием LuckyTemplates

Бизнес-отчетность с использованием LuckyTemplates

Если вы все еще используете Excel до сих пор, то сейчас самое подходящее время, чтобы начать использовать LuckyTemplates для своих бизнес-отчетов.