Что такое self в Python: примеры из реального мира
Что такое self в Python: примеры из реального мира
В этом блоге будет показано, как использовать кумулятивный график распределения , также известный как эмпирическая кумулятивная функция распределения или графики ECDF, и продемонстрируются преимущества использования этого варианта графика по сравнению с другими типами графиков. Вы можете посмотреть полное видео этого урока внизу этого блога .
Большинство людей предпочитают графики ECDF для визуализации данных, поскольку они отображают каждую точку данных напрямую, и эта функция упрощает взаимодействие пользователя с графиком. Сегодня вы узнаете, как использовать ECDF в Python и LuckyTemplates, а также улучшите свои презентации и отчеты о распределении данных.
Оглавление
Виды распределительных участков
Я начну с фильтрации своих данных в определенный день, субботу, и ниже мы увидим все эти графики Python, используемые для описания распределений. У нас есть наш график ECDF, гистограмма, график KDE и график Box.
Все эти графики будут описывать, как данные распространяются или распределяются. Например, если мы спустимся вниз и посмотрим на гистограмму, мы увидим, что большинство этих высоких ячеек будут там, где находятся наши данные.
Приблизительно в 3,50 доллара у нас самый высокий уровень данных о чаевых в нашем наборе данных ниже.
Мы также можем использовать график KDE, который дает нам другую метрику при рассмотрении распределения. Гистограмма имеет дело с количеством, которое будет в этих ячейках, в то время как KDE имеет дело с плотностью.
С графиком KDE вы можете сказать, где находится большая часть наших данных, отметив наибольшую плотность или самую высокую выпуклость на графике, если хотите. Итак, на изображении выше мы можем сказать, что он распределяется где-то между 2 и 4 долларами.
То же самое относится и к блочной диаграмме, которая показывает, что распределение составляет от 2 до 4 долларов, и именно здесь будет большая часть наших данных. Он использует медиану, горизонтальную линию, разделяющую поле, чтобы дать нам представление о том, где находится самое большое распределение.
И затем у нас есть график ECDF, где слева от оси Y вы можете увидеть слово Proportion , представляющее наши процентили. Судя по графику, при цене 3,50 доллара мы просматриваем около 50% наших данных, а при цене 5 долларов и ниже распределяется 80% наших данных.
Код графика гистограммы
Теперь я покажу вам код для каждого из этих графиков, начиная с гистограммы. Все они имеют очень похожий и повторяемый код , так что вы можете быстро подтянуть их, используя один код, как шаблон.
Сначала нам нужно импортировать Seaborn и сохранить его как sb, а затем matplotlib.pyplot как plt. Мы будем использовать фоновый стиль, называемый ggplot , и эту переменную matplotlib для передачи в разных стилях.
Например, на изображении ниже мы видим, что в 11-й строке мы добавляем заголовок для гистограммы и размеры делений в следующих строках. Yticks и xticks представляют размеры x и y соответственно .
В 14-й строке мы используем переменную Seaborn для передачи функции , которая вводит этот конкретный график, например, график в приведенном выше примере, который представляет собой график гистограммы. Затем мы передаем данные из 4-й строки в функцию в виде набора данных.
Все, что вы вводите в значения, представляет ваш набор данных и удаляет дубликаты. Затем мы будем использовать x для подсказок и оттенок , который вместе с морским цветом позволяет вам разделить ваши данные по категориям. Если мы вернемся к нашему визуальному элементу, мы увидим, что у него есть категории, в том числе время или курильщик.
KDE-сюжет
Для сюжета KDE все практически идентично. Нам нужно только передать новый параметр, называемый затенением, чтобы получить этот затененный вид. В остальном оттенок, данные и все остальное одинаковы.
С графиком Box он в основном похож на другие графики, за исключением нескольких незначительных отличий. Здесь мы используем функцию boxplot , где x — день, а y — советы. Мы также не используем оттенок для этого графика.
Таким образом, это та же структура, что и у графика ECDF, и единственная разница заключается в переменной Seaborn, где мы передаем график ECDF и используем оттенок в качестве дня. Но мы также можем изменить этот оттенок на другую категорию, которая у нас есть, например, на курильщика.
Если мы передадим эту категорию, мы получим график ECDF с двумя разными линиями. В этих распределениях мы видим, что у курильщиков больше относительно ширины нашей линии.
У некурящих сто процентов этих данных ниже 6 долларов, а у курильщиков — 6 долларов. Интересно, что наши курильщики могут оставлять более крупные чаевые в определенный день.
Стилизация графиков ECDF
Теперь мы можем дополнительно стилизовать наши графики ECDF, чтобы сделать их более презентабельными. На изображении ниже представлены разные графики ECDF. В первом сюжете я сделал линии крупнее и использовал другую цветовую палитру.
В первом графике я использовал разные параметры внутри функции. Как вы можете видеть ниже, я передал палитру как лето и ширину линии как 5.
Я также сравнил субботу и воскресенье, поэтому есть две разные зеленые линии. Здесь мы видим, что чаевые в размере 3 долларов находятся на уровне 45-го процентиля для воскресенья и 70-го процентиля для четверга, что говорит нам о том, что люди, как правило, оставляют более высокие чаевые в воскресенье.
Мы также можем переключать оси X и Y, менять пропорции и кончик внутри нашего графика и менять палитру, как на изображении ниже.
Здесь мы видим, что чаевые в размере 2 долларов находятся на уровне 20-го процентиля для воскресенья, что является фиолетовой линией на графике. Таким образом, данные совпадают с предыдущим графиком ECDF, отличается только представление.
Теперь у нас есть другой график с тем же набором данных и сохраняет исходные положения осей, как показано на изображении выше. Разница на этот раз в том, что направление линий инвертировано.
Стиль графиков ECDF
Если мы посмотрим на код, все, что мы делаем, это передаем дополнительный параметр equals = true. Это действие позволит нам сказать, что в диапазоне 2 долларов США и выше распределяется 80% наших данных, вместо того, чтобы говорить, что диапазон ниже 2 долларов США — это место, где распространяется 20% наших данных. Опять же, это одни и те же данные с другим видом или способом их представления.
И на нашем четвертом и последнем графике ECDF мы используем количество вместо пропорции.
Этот подход полезен, когда у нас есть несколько участков. Глядя на столбец подсчета на изображении ниже, мы видим, что в пятницу не так много наблюдений, что говорит нам о том, что люди не оставляют много чаевых в этот день.
Основы кода для построения графиков ECDF
Если мы посмотрим на код, вы найдете Seaborn , что является основным для создания этого конкретного сюжета. У нас также есть matplotlib.pyplot для стилей, которые вы можете сохранить как переменную с именем plt .
Затем мы можем использовать эту переменную для создания различных стилей для нашего конкретного графика, таких как добавление заголовков и размеров шрифта. Основная часть вашего кода будет вашей функцией графика ECDF, которую мы привносим с Seaborn.
точечная диаграмма в сценарии R: создание и импорт
пользовательских функций Python | Обзор
GGPLOT2 в R: визуализация с помощью ESQUISSE
Заключение
Это были способы, которыми вы можете использовать различные графики распределения, включая гистограммы, графики KDE, Box и ECDF. Вы также узнали четыре способа представления графика ECDF с использованием того же набора данных. Вы можете использовать любой подход в зависимости от ваших предпочтений.
Всегда не забывайте брать с собой необходимые библиотеки для создания графика и использовать правильную функцию. После этого остается только изменить визуальные и стилистические аспекты вашего сюжета, такие как позиционирование оси и оттенки.
Всего наилучшего,
Что такое self в Python: примеры из реального мира
Вы узнаете, как сохранять и загружать объекты из файла .rds в R. В этом блоге также рассказывается, как импортировать объекты из R в LuckyTemplates.
В этом руководстве по языку программирования DAX вы узнаете, как использовать функцию GENERATE и как динамически изменять название меры.
В этом учебном пособии рассказывается, как использовать технику многопоточных динамических визуализаций для создания аналитических сведений из динамических визуализаций данных в ваших отчетах.
В этой статье я пройдусь по контексту фильтра. Контекст фильтра — одна из основных тем, с которой должен ознакомиться любой пользователь LuckyTemplates.
Я хочу показать, как онлайн-служба LuckyTemplates Apps может помочь в управлении различными отчетами и аналитическими данными, созданными из различных источников.
Узнайте, как рассчитать изменения вашей прибыли, используя такие методы, как разветвление показателей и объединение формул DAX в LuckyTemplates.
В этом руководстве будут обсуждаться идеи материализации кэшей данных и то, как они влияют на производительность DAX при предоставлении результатов.
Если вы все еще используете Excel до сих пор, то сейчас самое подходящее время, чтобы начать использовать LuckyTemplates для своих бизнес-отчетов.
Что такое шлюз LuckyTemplates? Все, что тебе нужно знать