Что такое self в Python: примеры из реального мира
Что такое self в Python: примеры из реального мира
При работе с набором данных, состоящим из нескольких переменных, лучше иметь возможность понять, как они различаются и взаимодействуют друг с другом. В этом уроке я собираюсь продемонстрировать, как вы можете использовать функцию Seaborn в Python для визуализации альтернатив распределению переменной. Вы можете посмотреть полное видео этого урока в нижней части этого блога.
Оглавление
Использование функции Seaborn в Python
Я продемонстрирую это на наборе данных MPG, который доступен в Seaborn. Итак, давайте продолжим и импортируем все необходимые нам пакеты, а также любые данные, которые нам нужны. Здесь мы рассмотрим распределение переменной MPG и то, как они меняются. Двумя распространенными способами сделать это являются гистограмма и блочная диаграмма .
Поэтому я собираюсь использовать функцию отображения (DIS для распространения). Затем мне нужно указать, что это за набор данных и какую переменную мы собираемся поместить на ось X. И с этим у нас есть дистрибутив.
Это очень хорошо. Это очень легко увидеть все распределение и форму. Однако у этой визуализации распределения есть пара недостатков. Во-первых, количество используемых нами бинов, возможно, произвольно. Другое дело, что мы не всегда можем сразу узнать, каково среднее значение переменной.
Хорошая вещь с Seaborn заключается в том, что как только я настроил, какую переменную я хочу, где и какой набор данных я использую, он действительно готов к работе с новой визуализацией. Теперь мы собираемся перейти к boxplot. Boxplot не использует бункеры.
Идея здесь в том, что мы можем очень четко видеть значение квартиля, в частности медиану, и мы видим другие значения квартиля. Мы видим выброс, и это очень точный график. Проблема заключается в том, что он точен с вещами, которые, как правило, не волнуют многих бизнес-пользователей.
Таким образом, этот сюжет немного сложен для людей, не связанных со статистикой, чтобы действительно получить большую ценность. И снова это агрегирование данных, поэтому мы теряем много деталей. Трудно точно сказать, как это выглядит. Мы видим, что есть выброс. Мы видим, что большинство значений здесь. Гистограмма дает нам более интуитивный способ взглянуть на это.
Это оба хорошие сюжеты. У них обоих есть свои цели. Давайте рассмотрим некоторые альтернативы использования Seaborn для визуализации. Мы собираемся придерживаться MPG для распределения этой переменной.
Как и в случае с коробчатой диаграммой, здесь четко обозначена медиана. Мы также видим диапазон квартилей и можем лучше понять, каково общее распределение. Это тоже что-то вроде гистограммы. Это называется графиком оценки плотности ядра или графиком KDE. Это сглаженная версия гистограммы. Мы не используем произвольный биннинг. Здесь все сглажено до непрерывного диапазона.
Это своего рода гибрид этих двух подходов, который действительно устраняет некоторые недостатки. Однако, в зависимости от вашей аудитории, им может быть действительно трудно смотреть на это. Возможно, они не привыкли к этому, но у него есть некоторые преимущества по сравнению с традиционными подходами.
При таком подходе мы больше не собираем данные. Наносится каждая отдельная точка. Это требует элементов точечной диаграммы, верно? Если вы думаете о точечной диаграмме, мы наносим каждую отдельную точку на координаты X и Y.
Наконец, у нас есть стрипплот . Что мы здесь делаем, так это берем это распределение и случайным образом рассеиваем. Это случайный процесс. Мы больше не пытаемся сделать такую форму распределения. Проблема в том, что у нас есть все эти скопления, сталкивающиеся друг с другом, так что это может быть нехорошо в зависимости от того, что вы пытаетесь сделать. Может быть, вы хотите раскрасить их по группам или что-то в этом роде, так что для этого есть возможность.
Мы можем изменить джиттер на 0,25 и увидеть, что по мере увеличения джиттера эти точки немного расширяются.
Однако каждый раз, когда я запускаю их, они будут выглядеть немного иначе. Итак, если вы хотите избавиться от этого и сделать его одинаковым каждый раз, вы можете импортировать numpy как np . Это то, что называется установкой случайного начального числа.
Каждый раз, когда я запускаю что-то, связанное со случайными числами, будут использоваться одни и те же случайные числа. Вещи не меняются случайным образом при повторном запуске. Это может быть полезно для любого типа моделирования, которое вы делаете, что также часто происходит в науке о данных и аналитике с этой визуализацией. Так что теперь, каждый раз, когда я запускаю этот сюжет, мы будем получать один и тот же вид.
Я также могу добавить сюда происхождение Y, и теперь мы видим, что мы создаем бивариантный дистрибутив. Мы берем распределение пробега и сегментируем его по происхождению.
Как использовать скрипт Python в LuckyTemplates
Скрипты Python в LuckyTemplates Data Reports
Наборы данных в Pandas с ProfileReport() | Python в LuckyTemplates
Заключение
Это альтернативы визуализации распределений одной переменной. Все они имеют свои плюсы и минусы. Это не означает, что никогда не используйте блочную диаграмму или гистограмму, но это просто говорит о том, что есть еще несколько вариантов, в зависимости от того, что вы пытаетесь показать.
Их все так же легко сделать, как и любые другие, когда мы используем функцию Seaborn в Python. Если вы хотите узнать больше о Python , перейдите по ссылкам ниже.
Всего наилучшего!
Что такое self в Python: примеры из реального мира
Вы узнаете, как сохранять и загружать объекты из файла .rds в R. В этом блоге также рассказывается, как импортировать объекты из R в LuckyTemplates.
В этом руководстве по языку программирования DAX вы узнаете, как использовать функцию GENERATE и как динамически изменять название меры.
В этом учебном пособии рассказывается, как использовать технику многопоточных динамических визуализаций для создания аналитических сведений из динамических визуализаций данных в ваших отчетах.
В этой статье я пройдусь по контексту фильтра. Контекст фильтра — одна из основных тем, с которой должен ознакомиться любой пользователь LuckyTemplates.
Я хочу показать, как онлайн-служба LuckyTemplates Apps может помочь в управлении различными отчетами и аналитическими данными, созданными из различных источников.
Узнайте, как рассчитать изменения вашей прибыли, используя такие методы, как разветвление показателей и объединение формул DAX в LuckyTemplates.
В этом руководстве будут обсуждаться идеи материализации кэшей данных и то, как они влияют на производительность DAX при предоставлении результатов.
Если вы все еще используете Excel до сих пор, то сейчас самое подходящее время, чтобы начать использовать LuckyTemplates для своих бизнес-отчетов.
Что такое шлюз LuckyTemplates? Все, что тебе нужно знать