Как загрузить образцы наборов данных в Python

Как загрузить образцы наборов данных в Python

В этом посте мы рассмотрим, как загружать образцы наборов данных в Python. Это может показаться не самой гламурной темой, но на самом деле это очень важно. В идеале у вас должно быть несколько наборов данных на Python, на которых вы сможете практиковаться, изучая новые концепции. Вы можете посмотреть полное видео этого урока в нижней части этого блога.

Если вы собираетесь поделиться своим кодом , задокументировать то, что вы сделали , или вам нужна помощь , это действительно хорошая идея использовать общедоступный набор данных для создания того, что называется минимально воспроизводимым примером .

У вас будет готовый код или сценарий, который кто-то другой в Интернете может запустить и помочь вам с этим. Если вы не создадите эти минимально воспроизводимые примеры , вы получите пламя в таких местах, как переполнение стека, что может быть немного шокирующим, если вы не знакомы с ним.

Как загрузить образцы наборов данных в Python

Давайте рассмотрим несколько способов создания этих минимально воспроизводимых примеров и получения наборов данных. Есть несколько пакетов, которые вы можете использовать для загрузки готового набора данных в Python и совместного использования этого кода.

Мы рассмотрим три пакета, которые являются наиболее распространенными. Давайте запустим пустой блокнот Jupyter и начнем.

Как загрузить образцы наборов данных в Python

Оглавление

Загрузить наборы данных в Python из Sklearn

Первый, который мы рассмотрим, называется Sklearn . Если вы используете Anaconda, вам не нужно загружать это. Если вам нужна дополнительная помощь по Python, в LuckyTemplates есть , на который вы можете подписаться.

Я предполагаю, что вы уже знаете о таких вещах, как пакеты, и начнем с этого. Мы собираемся добавить pandas и Sklearn, в частности, подмодуль набора данных.

Как загрузить образцы наборов данных в Python

Мы собираемся привести несколько таких наборов данных. Scikit-learn — библиотека данных машинного обучения — называет их игрушечными наборами данных. Мы собираемся загрузить Бостон, набор данных о ценах на жилье. Когда мы вносим это, нам нужно иметь его в качестве фрейма данных.

Нам нужно фактически указать, что данные и столбцы поступают из набора данных Scikit-learn, и разделить переменные функций и целевые переменные.

Как загрузить образцы наборов данных в Python

Мы получим это как фрейм данных, чтобы мы могли работать и делать с ним разные вещи. Panda — отличный пакет, который стоит знать пользователю LuckyTemplates.

Загрузить наборы данных в Python из наборов данных Vega

Еще один вариант, который мы можем изучить, — это пакет наборов данных Vega. Этого нет в Anaconda, но мы можем установить его через PIP. Это то, что мы будем вводить в командной строке, чтобы установить наборы данных Vega, а также установить или импортировать локальный модуль данных.

Как загрузить образцы наборов данных в Python

Некоторые из них вы действительно можете получить, но вам понадобится подключение к Интернету. Мы добавим те, которые установлены локально, импортировав локальные данные и запустив их.

Как загрузить образцы наборов данных в Python

Как видите, наборов данных довольно много. Некоторые из них представляют собой временные ряды, в то время как некоторые из них имеют категориальные или непрерывные переменные. Давайте выберем набор данных cars во фрейме данных, чтобы мы могли запустить на нем метод head.

Как загрузить образцы наборов данных в Python

Теперь у нас есть еще один образец набора данных, который мы можем использовать и делиться им.

Как загрузить образцы наборов данных в Python

Загрузить наборы данных в Python из Seaborn

Seaborn — еще один пакет, доступный в дистрибутиве Anaconda. По умолчанию Seaborn больше всего известен визуализацией данных, но у него также есть отличные образцы наборов данных, которые вы можете использовать. Это то, что мы будем вводить, чтобы получить наборы данных.

Как загрузить образцы наборов данных в Python

Как видите, наборов данных здесь довольно много. Мы продолжим и воспользуемся набором данных пингвинов и снова получим первые несколько строк.

Как загрузить образцы наборов данных в Python

В результате мы получили еще один набор данных для практики.

Как загрузить образцы наборов данных в Python

Идея здесь не только в том, чтобы иметь наборы данных для практики. Если мы видим какие-то пропущенные значения, у нас возникают проблемы с удалением наборов данных, желание заполнить категориальную переменную или показать пример другим людям без предоставления конфиденциальных данных, вы можете просто использовать один из этих общедоступных наборов данных, которые очень, очень просты. для людей, чтобы использовать и делиться. Это идея минимально воспроизводимого примера.

LuckyTemplates со сценариями Python для создания таблиц дат
Python в LuckyTemplates: как установить и настроить
Python I для пользователей LuckyTemplates — новый курс на образовательной платформе LuckyTemplates

Заключение

Напомним, что есть три места, где можно искать образцы наборов данных. Scikit-learn — это пакет машинного обучения. Это немного сложнее преобразовать, но если вы занимаетесь вещами, связанными с машинным обучением, это то, что вам нужно. Наборы данных Vega также имеют довольно большое количество наборов данных, особенно если вы используете этот метод для получения наборов данных из Интернета, но его относительно сложно загрузить, поэтому вам просто нужно использовать PIP, а не предварительно установить его с Anaconda. Seaborn — это лучшее место, потому что он загружает фрейм данных и обладает большой гибкостью, когда дело доходит до использования наборов образцов данных и воспроизводимых примеров.

В Stack Overflow также есть руководство о том, как написать хороший минимально воспроизводимый пример или MRE, так что ознакомьтесь с ним, если хотите опубликовать что-то в Интернете.

Знание того, где взять хорошие наборы данных и поделиться хорошим MRE, является действительно важным навыком для аналитика.

Если вам понравился контент, описанный в этом руководстве, подпишитесь на телеканал LuckyTemplates. У нас постоянно появляется огромное количество контента от меня и ряда создателей контента, и все они посвящены улучшению того, как вы используете LuckyTemplates и Power Platform.


Что такое self в Python: примеры из реального мира

Что такое self в Python: примеры из реального мира

Что такое self в Python: примеры из реального мира

Как сохранить и загрузить файл RDS в R

Как сохранить и загрузить файл RDS в R

Вы узнаете, как сохранять и загружать объекты из файла .rds в R. В этом блоге также рассказывается, как импортировать объекты из R в LuckyTemplates.

Новый взгляд на первые N рабочих дней — решение для языка кодирования DAX

Новый взгляд на первые N рабочих дней — решение для языка кодирования DAX

В этом руководстве по языку программирования DAX вы узнаете, как использовать функцию GENERATE и как динамически изменять название меры.

Продемонстрируйте идеи с помощью метода многопоточных динамических визуализаций в LuckyTemplates

Продемонстрируйте идеи с помощью метода многопоточных динамических визуализаций в LuckyTemplates

В этом учебном пособии рассказывается, как использовать технику многопоточных динамических визуализаций для создания аналитических сведений из динамических визуализаций данных в ваших отчетах.

Введение в фильтрацию контекста в LuckyTemplates

Введение в фильтрацию контекста в LuckyTemplates

В этой статье я пройдусь по контексту фильтра. Контекст фильтра — одна из основных тем, с которой должен ознакомиться любой пользователь LuckyTemplates.

Лучшие советы по использованию приложений в онлайн-службе LuckyTemplates

Лучшие советы по использованию приложений в онлайн-службе LuckyTemplates

Я хочу показать, как онлайн-служба LuckyTemplates Apps может помочь в управлении различными отчетами и аналитическими данными, созданными из различных источников.

Анализ изменений маржи прибыли с течением времени — аналитика с LuckyTemplates и DAX

Анализ изменений маржи прибыли с течением времени — аналитика с LuckyTemplates и DAX

Узнайте, как рассчитать изменения вашей прибыли, используя такие методы, как разветвление показателей и объединение формул DAX в LuckyTemplates.

Идеи материализации кэшей данных в DAX Studio

Идеи материализации кэшей данных в DAX Studio

В этом руководстве будут обсуждаться идеи материализации кэшей данных и то, как они влияют на производительность DAX при предоставлении результатов.

Бизнес-отчетность с использованием LuckyTemplates

Бизнес-отчетность с использованием LuckyTemplates

Если вы все еще используете Excel до сих пор, то сейчас самое подходящее время, чтобы начать использовать LuckyTemplates для своих бизнес-отчетов.

Что такое шлюз LuckyTemplates? Все, что тебе нужно знать

Что такое шлюз LuckyTemplates? Все, что тебе нужно знать

Что такое шлюз LuckyTemplates? Все, что тебе нужно знать