Набор данных Python: применение повторяющихся кодов

В этом блоге вы узнаете, как применять повторяющиеся коды или функции к наборам данных Python для получения одинакового типа выходных данных. Это поможет вам работать более эффективно и прилагать меньше усилий при извлечении определенных данных из разных наборов данных. В этом уроке мы собираемся использовать существующий код, который я ранее создал в качестве примера.

Вы также узнаете, как создавать копии наборов данных, чтобы не повредить исходную версию набора данных, импортировать библиотеки и функции с помощью повторяющихся кодов и создавать визуализацию в LuckyTemplates .

Для этого блога я рекомендую вам постоянно получать CSV- файл и переносить его в LuckyTemplates. Я также покажу, как мы можем перенести этот CSV-файл и поместить его прямо в LuckyTemplates на тот случай, если вам придется это сделать.

Оглавление

Получение CSV-файла в LuckyTemplates

Чтобы перенести файл CSV в LuckyTemplates, первое, что вам нужно сделать, это щелкнуть меню « Получить данные » на ленте «Главная» .

Набор данных Python: применение повторяющихся кодов

После нажатия появится раскрывающееся меню, и вы должны выбрать в меню опцию « Текст/CSV ».

Набор данных Python: применение повторяющихся кодов

После того, как вы выберете опцию « Text / CSV », откроется окно, в котором мы можем выбрать файл, который мы хотим перенести в LuckyTemplates. Для этого примера воспользуемся файлом набора данных IMDB

Набор данных Python: применение повторяющихся кодов

Открыв файл IMDB Dataset.csv , вы увидите другое окно, в котором отображаются данные внутри этого файла. Так как этот файл содержит большой объем данных, он отображает только часть данных.

Первое, что мы собираемся сделать в этом файле, это преобразовать его. Для этого просто нажмите « Преобразовать данные » в правой нижней части окна.

Набор данных Python: применение повторяющихся кодов

Создание копии набора данных Python

Прежде чем вносить какие-либо изменения в этот набор данных, важно сделать копию исходного набора данных. Для этого просто щелкните правой кнопкой мыши набор данных. 

Набор данных Python: применение повторяющихся кодов

Затем в меню выберите « Копировать ».

Набор данных Python: применение повторяющихся кодов

Наконец, щелкните правой кнопкой мыши панель «Запросы » и выберите « Вставить » из вариантов.

Набор данных Python: применение повторяющихся кодов

После выполнения этих шагов у вас должна быть копия исходного набора данных IMDB на панели запросов .

Набор данных Python: применение повторяющихся кодов

Преобразование набора данных путем запуска скрипта Python

Преобразовав CSV-файл, вы сможете разбить большое количество наборов данных Python на более мелкие. Мы можем сделать это, применив некоторый скрипт Python в этом файле.

Но сначала мы должны убедиться, что заголовки правильно выровнены. Нажмите на меню «Главная» , затем найдите параметр « Использовать первую строку в качестве заголовков » и щелкните по нему.

Набор данных Python: применение повторяющихся кодов

После выбора параметра « Использовать первую строку в качестве заголовков » заголовки теперь изменились на данные из предыдущих первых строк, а именно « обзор » и « отношение ».

Набор данных Python: применение повторяющихся кодов

Затем перейдите в меню Transform и нажмите на опцию « Run Python Script » в группе опций « Scripts ».

Набор данных Python: применение повторяющихся кодов

После этого появится окно « Запустить скрипт Python ». В этом окне вы можете запустить любой сценарий Python, который вы хотите, чтобы преобразовать текущий файл, который вы используете. В этом примере я собираюсь уменьшить набор данных, выполнив следующий код.

Набор данных Python: применение повторяющихся кодов

Я использовал функцию .iloc в наборе данных, чтобы выбрать определенные строки и столбцы из набора данных IMDB. Затем в параметрах я выбрал все первые 500 строк и все столбцы в наборе данных IMDB. Я сохранил его в переменной с именем « набор данных ».

После выполнения скрипта мы должны увидеть «набор данных», представляющий собой переменную, которую мы создали на предыдущем шаге. Он содержит данные, которые мы изменили с помощью скрипта Python.

Набор данных Python: применение повторяющихся кодов

Проверка набора данных

Чтобы открыть таблицу набора данных , просто нажмите « Таблица » в столбце «Значение » .

Набор данных Python: применение повторяющихся кодов

Мы видим, что этот набор данных теперь сократился до 500 строк .

Набор данных Python: применение повторяющихся кодов

Теперь, когда мы разбили наш набор данных Python на 500 строк, следующее, что мы собираемся сделать, — это импортировать нужные нам библиотеки. Мы сделаем это, используя ту же процедуру, что и при изменении содержимого набора данных IMDB. Это сделано для того, чтобы убедиться, что наш код может быть управляемым в определенных сценариях с меньшим количеством изменений.

Импорт библиотек и функций с использованием повторяющихся кодов

Чтобы импортировать библиотеки, вернемся к нашему блокноту и скопируем нужные нам библиотеки. Имейте в виду, что до этого урока я уже создал эти библиотеки, которые мы собираемся скопировать. Я просто повторно использую их, чтобы вы ясно представляли себе использование функций как повторяющихся кодов.

Набор данных Python: применение повторяющихся кодов

Как только библиотеки будут скопированы, вставьте их в окно « Выполнить скрипт Python » и не забудьте в конце скрипта  включить строку « from collections import Counter ».

Набор данных Python: применение повторяющихся кодов

Затем мы скопируем функцию очистки данных из нашей записной книжки и добавим ее в скрипт Python в LuckyTemplates.

Набор данных Python: применение повторяющихся кодов

Мы добавим его под библиотеки. 

Набор данных Python: применение повторяющихся кодов

Мы также скопируем код для вызова только что добавленной функции.

Набор данных Python: применение повторяющихся кодов

Затем вставьте его в скрипт Python в LuckyTemplates.

Набор данных Python: применение повторяющихся кодов

Создание таблиц данных

Теперь, когда мы добавили код для вызова функции очистки данных , нам нужно изменить « df2 » на « dataset », а « title » на « review ». Мы сделали это из-за изменений, которые мы внесли в набор данных.

Мы изменили «df2» на « набор данных », потому что мы сохранили данные с 500 строками в «наборе данных». Затем для «заголовка» мы обновили его до «обзор» в результате изменения заголовков столбцов.

С добавлением этих кодов мы должны получить или сгенерировать 3 таблицы: данные1 для частоты слов, данные2 для частоты биграмм и данные3 для частоты триграмм.

Набор данных Python: применение повторяющихся кодов

Вы также можете сделать еще одну копию этого измененного набора данных IMDB (2) , чтобы открыть другую таблицу позже.

Набор данных Python: применение повторяющихся кодов

Теперь в наборе данных IMDB (2) давайте откроем таблицу data1

Набор данных Python: применение повторяющихся кодов

 Как только таблица data1 открыта, мы можем увидеть список слов, а также их частоту.

Набор данных Python: применение повторяющихся кодов

Как видите, мы можем выполнять определенные процедуры из основного набора данных с использованием повторяющихся кодов, которые мы взяли из Jupyter Notebook. С помощью этих повторяющихся кодов мы можем преобразовать набор данных Python и создать таблицу частоты слов, частоты биграмм и частоты триграмм без повторного ввода кодов.

В наборе данных IMDB (3) давайте откроем таблицу data2 , чтобы увидеть частоту биграмм.

Набор данных Python: применение повторяющихся кодов

В таблице частот биграмм вы можете увидеть « br », включенный в список. Вероятно, это связано с HTML-кодом. Мы можем просто вернуться и добавить что-то еще, но мы не будем этого делать в этом уроке.

Теперь, когда данные загружены с помощью повторяющихся кодов, мы можем начать визуализировать их в LuckyTemplates. Например, гистограмма для частотности каждого слова. 

Набор данных Python: применение повторяющихся кодов


Пользовательские функции Python | Обзор
списка Python и циклов For в LuckyTemplates
Использование Python в LuckyTemplates | Набор данных и строковая функция

Заключение

Подводя итог, повторяющиеся коды могут помочь вам выполнять определенные процедуры с набором данных с меньшими усилиями. Вы узнали, как использовать повторяющиеся коды для преобразования набора данных Python в LuckyTemplates. Вы также могли использовать функцию .iloc , чтобы указать строки и столбцы, которые будут выбраны при изменении набора данных.

Кроме того, вы создали копии наборов данных и создали визуализацию с помощью гистограммы. Эта визуализация основана на наборах данных Python, которые мы создали и изменили с помощью повторяющихся кодов.

Всего наилучшего,

Гаэллим

Leave a Comment

Расчет недельных продаж с помощью DAX в LuckyTemplates

Расчет недельных продаж с помощью DAX в LuckyTemplates

В этом руководстве показано, как в конечном итоге можно рассчитать разницу между еженедельными результатами продаж с помощью DAX в LuckyTemplates.

Что такое self в Python: примеры из реального мира

Что такое self в Python: примеры из реального мира

Что такое self в Python: примеры из реального мира

Как сохранить и загрузить файл RDS в R

Как сохранить и загрузить файл RDS в R

Вы узнаете, как сохранять и загружать объекты из файла .rds в R. В этом блоге также рассказывается, как импортировать объекты из R в LuckyTemplates.

Новый взгляд на первые N рабочих дней — решение для языка кодирования DAX

Новый взгляд на первые N рабочих дней — решение для языка кодирования DAX

В этом руководстве по языку программирования DAX вы узнаете, как использовать функцию GENERATE и как динамически изменять название меры.

Продемонстрируйте идеи с помощью метода многопоточных динамических визуализаций в LuckyTemplates

Продемонстрируйте идеи с помощью метода многопоточных динамических визуализаций в LuckyTemplates

В этом учебном пособии рассказывается, как использовать технику многопоточных динамических визуализаций для создания аналитических сведений из динамических визуализаций данных в ваших отчетах.

Введение в фильтрацию контекста в LuckyTemplates

Введение в фильтрацию контекста в LuckyTemplates

В этой статье я пройдусь по контексту фильтра. Контекст фильтра — одна из основных тем, с которой должен ознакомиться любой пользователь LuckyTemplates.

Лучшие советы по использованию приложений в онлайн-службе LuckyTemplates

Лучшие советы по использованию приложений в онлайн-службе LuckyTemplates

Я хочу показать, как онлайн-служба LuckyTemplates Apps может помочь в управлении различными отчетами и аналитическими данными, созданными из различных источников.

Анализ изменений маржи прибыли с течением времени — аналитика с LuckyTemplates и DAX

Анализ изменений маржи прибыли с течением времени — аналитика с LuckyTemplates и DAX

Узнайте, как рассчитать изменения вашей прибыли, используя такие методы, как разветвление показателей и объединение формул DAX в LuckyTemplates.

Идеи материализации кэшей данных в DAX Studio

Идеи материализации кэшей данных в DAX Studio

В этом руководстве будут обсуждаться идеи материализации кэшей данных и то, как они влияют на производительность DAX при предоставлении результатов.

Бизнес-отчетность с использованием LuckyTemplates

Бизнес-отчетность с использованием LuckyTemplates

Если вы все еще используете Excel до сих пор, то сейчас самое подходящее время, чтобы начать использовать LuckyTemplates для своих бизнес-отчетов.