Python 數據集:應用可重複代碼

Python 數據集:應用可重複代碼

在此博客中,您將了解如何將可重複代碼或函數應用於Python 數據集 以生成相同類型的輸出。這將幫助您更高效地從不同的數據集中提取某些數據。在本教程中,我們將使用我之前創建的現有代碼作為示例。

您還將了解如何製作數據集副本以避免損壞數據集的原始版本、使用可重複代碼導入庫和函數,以及在 LuckyTemplates 中創建可視化效果

對於此博客,我建議您始終獲取CSV文件並將其傳輸到 LuckyTemplates。我還將演示如何將此 CSV 文件導入 LuckyTemplates,以備不時之需。

目錄

在 LuckyTemplates 中獲取 CSV 文件

要將 CSV 文件導入 LuckyTemplates,您要做的第一件事是單擊主頁功能區中的“獲取數據”菜單。

Python 數據集:應用可重複代碼

單擊後,將出現一個下拉菜單,您必須從菜單中選擇“文本/CSV ”選項。

Python 數據集:應用可重複代碼

選擇“文本/CSV ”選項後,將打開一個窗口,我們可以在其中選擇要導入 LuckyTemplates 的文件。對於此示例,讓我們使用IMDB 數據集文件。 

Python 數據集:應用可重複代碼

打開IMDB Dataset.csv文件後,您將看到另一個顯示該文件內數據的窗口。由於此文件包含大量數據,因此僅預覽部分數據。

我們要在這個文件中做的第一件事是轉換它。為此,只需單擊窗口右下角的“轉換數據”選項。

Python 數據集:應用可重複代碼

複製 Python 數據集

在我們對此數據集進行任何更改之前,重要的是製作原始數據集的副本。為此,只需右鍵單擊數據集。 

Python 數據集:應用可重複代碼

然後從菜單中選擇“複製”。

Python 數據集:應用可重複代碼

最後,右鍵單擊查詢”面板,然後從選項中選擇“粘貼”。

Python 數據集:應用可重複代碼

應用這些步驟後,您應該在“查詢”面板中擁有原始IMDB 數據集的副本。

Python 數據集:應用可重複代碼

通過運行 Python 腳本轉換數據集

通過轉換 CSV 文件,您將能夠將大量 Python 數據集分解為較小的數據集。我們可以通過在此文件中應用一些 Python 腳本來做到這一點。

但首先,我們必須確保標題正確排列。單擊主頁菜單,然後查找“使用第一行作為標題”選項並單擊它。

Python 數據集:應用可重複代碼

點擊“ Use First Row as Headers ”選項後,標題現在變成了之前第一行的數據,即“ review ”和“ sentiment ”。

Python 數據集:應用可重複代碼

接下來,轉到“轉換”菜單,然後單擊“腳本”選項組中的“運行 Python 腳本”選項。

Python 數據集:應用可重複代碼

之後,會彈出一個“ Run Python Script ”窗口。在此窗口中,您可以運行所需的任何 Python 腳本以轉換您正在使用的當前文件。對於此示例,我將通過運行以下代碼來縮小數據集。

Python 數據集:應用可重複代碼

我在數據集上使用.iloc函數從 IMDB 數據集中選擇特定的行和列。然後,在參數中,我選擇了IMDB 數據集中的所有前500 行和所有列。我將它存儲在一個名為“數據集”的變量中。

執行腳本後,我們應該看到“數據集”,這是我們在上一步中創建的變量。它包含我們使用 Python 腳本更改的數據。

Python 數據集:應用可重複代碼

檢查數據集

要打開數據集表,只需單擊“”列下的“” 。

Python 數據集:應用可重複代碼

我們可以看到這個數據集現在減少到500 行

Python 數據集:應用可重複代碼

現在我們已經將Python數據集分解為 500 行,接下來我們要做的是導入我們需要的庫。我們將使用與更改 IMDB 數據集內容相同的程序來完成此操作。這是為了確保我們的代碼在某些情況下可以通過更少的改動進行管理。

使用可重複代碼導入庫和函數

要導入庫,讓我們回到我們的筆記本並複制我們需要的庫。請記住,在本教程之前,我已經創建了這些我們將要復制的庫。我只是為了讓您清楚地了解函數作為可重複代碼的用法而重新使用它們。

Python 數據集:應用可重複代碼

複製庫後,將它們粘貼到“運行Python腳本”窗口中,不要忘記在腳本末尾 包含“ from collections import Counter ”行。

Python 數據集:應用可重複代碼

然後,我們將從筆記本中復制數據清理功能並將其添加到LuckyTemplates 中的Python腳本中。

Python 數據集:應用可重複代碼

我們將把它添加到庫下面。 

Python 數據集:應用可重複代碼

我們還將復制調用剛剛添加的函數的代碼。

Python 數據集:應用可重複代碼

然後將其粘貼到 LuckyTemplates 中的 Python 腳本中。

Python 數據集:應用可重複代碼

生成數據表

現在我們已經添加了調用數據清理功能的代碼,我們需要將“ df2 ”更改為“ dataset ”,將“ title ”更改為“ review ”。由於我們在數據集中所做的更改,我們這樣做了。

我們將“df2”更改為“ dataset ”,因為我們在“dataset”中存儲了 500 行的數據。然後對於“title”,由於更改了列的標題,我們將其更新為“review”。

添加這些代碼後,我們應該能夠獲取或生成 3 個表,分別是詞頻數據data1 、二元詞頻數據data2和三詞頻數數據 data3

Python 數據集:應用可重複代碼

您還可以製作此更改後的IMDB 數據集 (2)的另一個副本,以便稍後打開另一個表。

Python 數據集:應用可重複代碼

現在在IMDB 數據集 (2)中,讓我們打開data1 。 

Python 數據集:應用可重複代碼

打開data1 表 後,我們可以看到單詞列表以及頻率。

Python 數據集:應用可重複代碼

如您所見,我們能夠使用從 Jupyter Notebook 中獲取的可重複代碼來執行主數據集中的某些過程。 有了這些可重複的代碼,我們就可以轉換 Python 數據集並生成詞頻、二元詞頻和三元詞頻表,而無需重新輸入代碼。

IMDB Dataset (3)中,讓我們打開data2 表來查看二元組頻率。

Python 數據集:應用可重複代碼

在二元組頻率表中,您可以看到列表中包含“ br ”。這可能與 HTML 代碼有關。我們可以簡單地返回並添加其他內容,但我們不打算在本教程中這樣做。

現在數據已在可重複代碼的幫助下加載,我們可以開始在 LuckyTemplates 中對其進行可視化。例如,每個單詞出現頻率的 條形圖。

Python 數據集:應用可重複代碼


Python 用戶定義函數 |
LuckyTemplates 中的 Python 列表和 For 循環概述
在 LuckyTemplates 中使用 Python | 數據集和字符串函數

結論

總而言之,可重複代碼可以幫助您更輕鬆地對數據集執行某些過程。你已經學習瞭如何利用可重複代碼在 LuckyTemplates 中轉換 Python 數據集 。您還可以使用.iloc 函數指定在更改數據集時要選擇的行和列。

此外,您還創建了數據集的副本並使用條形圖創建了可視化效果。此可視化基於我們在可重複代碼的幫助下創建和更改的 Python 數據集。

一切順利,

蓋林


在 Power Automate 中執行直到循環控制

在 Power Automate 中執行直到循環控制

了解有關 Do Until 循環控制如何在 Power Automate 流中工作的基礎過程,並熟悉所需的變量。

使用 Deneb 為 LuckyTemplates 製作自定義視覺對象

使用 Deneb 為 LuckyTemplates 製作自定義視覺對象

受限於 LuckyTemplates 中提供的標準視覺效果?學習使用 Deneb 和 Vega-Lite 為 LuckyTemplates 創建自定義視覺對象,提升您的數據可視化能力。

在 Power Automate Desktop 中將日期添加到文件名

在 Power Automate Desktop 中將日期添加到文件名

在此博客中,您將了解如何使用 Power Automate Desktop 自動將日期添加到文件名的開頭或結尾。

Power Query:如何快速添加註釋

Power Query:如何快速添加註釋

找出幾種不同的方法在 Power Query 中添加註釋,這對於不喜歡記筆記的人非常有幫助。

Power Apps – SharePoint 集成指南

Power Apps – SharePoint 集成指南

在此博客中,您將了解 MS Power Apps 界面的基礎知識並了解 Power Apps-SharePoint 集成的過程。

什麼是 Python 中的自我:真實世界的例子

什麼是 Python 中的自我:真實世界的例子

什麼是 Python 中的自我:真實世界的例子

如何在 R 中保存和加載 RDS 文件

如何在 R 中保存和加載 RDS 文件

您將學習如何在 R 中保存和加載 .rds 文件中的對象。本博客還將介紹如何將對像從 R 導入 LuckyTemplates。

回顧前 N 個工作日——DAX 編碼語言解決方案

回顧前 N 個工作日——DAX 編碼語言解決方案

在此 DAX 編碼語言教程中,了解如何使用 GENERATE 函數以及如何動態更改度量標題。

在 LuckyTemplates 中使用多線程動態視覺技術展示見解

在 LuckyTemplates 中使用多線程動態視覺技術展示見解

本教程將介紹如何使用多線程動態可視化技術從報告中的動態數據可視化中創建見解。

LuckyTemplates 篩選上下文簡介

LuckyTemplates 篩選上下文簡介

在本文中,我將貫穿過濾器上下文。篩選上下文是任何 LuckyTemplates 用戶最初應該了解的主要主題之一。