什麼是 Python 中的自我:真實世界的例子
什麼是 Python 中的自我:真實世界的例子
在此博客中,您將了解如何將可重複代碼或函數應用於Python 數據集 以生成相同類型的輸出。這將幫助您更高效地從不同的數據集中提取某些數據。在本教程中,我們將使用我之前創建的現有代碼作為示例。
您還將了解如何製作數據集副本以避免損壞數據集的原始版本、使用可重複代碼導入庫和函數,以及在 LuckyTemplates 中創建可視化效果。
對於此博客,我建議您始終獲取CSV文件並將其傳輸到 LuckyTemplates。我還將演示如何將此 CSV 文件導入 LuckyTemplates,以備不時之需。
目錄
在 LuckyTemplates 中獲取 CSV 文件
要將 CSV 文件導入 LuckyTemplates,您要做的第一件事是單擊主頁功能區中的“獲取數據”菜單。
單擊後,將出現一個下拉菜單,您必須從菜單中選擇“文本/CSV ”選項。
選擇“文本/CSV ”選項後,將打開一個窗口,我們可以在其中選擇要導入 LuckyTemplates 的文件。對於此示例,讓我們使用IMDB 數據集文件。
打開IMDB Dataset.csv文件後,您將看到另一個顯示該文件內數據的窗口。由於此文件包含大量數據,因此僅預覽部分數據。
我們要在這個文件中做的第一件事是轉換它。為此,只需單擊窗口右下角的“轉換數據”選項。
複製 Python 數據集
在我們對此數據集進行任何更改之前,重要的是製作原始數據集的副本。為此,只需右鍵單擊數據集。
然後從菜單中選擇“複製”。
最後,右鍵單擊“查詢”面板,然後從選項中選擇“粘貼”。
應用這些步驟後,您應該在“查詢”面板中擁有原始IMDB 數據集的副本。
通過運行 Python 腳本轉換數據集
通過轉換 CSV 文件,您將能夠將大量 Python 數據集分解為較小的數據集。我們可以通過在此文件中應用一些 Python 腳本來做到這一點。
但首先,我們必須確保標題正確排列。單擊主頁菜單,然後查找“使用第一行作為標題”選項並單擊它。
點擊“ Use First Row as Headers ”選項後,標題現在變成了之前第一行的數據,即“ review ”和“ sentiment ”。
接下來,轉到“轉換”菜單,然後單擊“腳本”選項組中的“運行 Python 腳本”選項。
之後,會彈出一個“ Run Python Script ”窗口。在此窗口中,您可以運行所需的任何 Python 腳本以轉換您正在使用的當前文件。對於此示例,我將通過運行以下代碼來縮小數據集。
我在數據集上使用.iloc函數從 IMDB 數據集中選擇特定的行和列。然後,在參數中,我選擇了IMDB 數據集中的所有前500 行和所有列。我將它存儲在一個名為“數據集”的變量中。
執行腳本後,我們應該看到“數據集”,這是我們在上一步中創建的變量。它包含我們使用 Python 腳本更改的數據。
檢查數據集
要打開數據集表,只需單擊“值”列下的“表” 。
我們可以看到這個數據集現在減少到500 行。
現在我們已經將Python數據集分解為 500 行,接下來我們要做的是導入我們需要的庫。我們將使用與更改 IMDB 數據集內容相同的程序來完成此操作。這是為了確保我們的代碼在某些情況下可以通過更少的改動進行管理。
使用可重複代碼導入庫和函數
要導入庫,讓我們回到我們的筆記本並複制我們需要的庫。請記住,在本教程之前,我已經創建了這些我們將要復制的庫。我只是為了讓您清楚地了解函數作為可重複代碼的用法而重新使用它們。
複製庫後,將它們粘貼到“運行Python腳本”窗口中,不要忘記在腳本末尾 包含“ from collections import Counter ”行。
然後,我們將從筆記本中復制數據清理功能並將其添加到LuckyTemplates 中的Python腳本中。
我們將把它添加到庫下面。
我們還將復制調用剛剛添加的函數的代碼。
然後將其粘貼到 LuckyTemplates 中的 Python 腳本中。
生成數據表
現在我們已經添加了調用數據清理功能的代碼,我們需要將“ df2 ”更改為“ dataset ”,將“ title ”更改為“ review ”。由於我們在數據集中所做的更改,我們這樣做了。
我們將“df2”更改為“ dataset ”,因為我們在“dataset”中存儲了 500 行的數據。然後對於“title”,由於更改了列的標題,我們將其更新為“review”。
添加這些代碼後,我們應該能夠獲取或生成 3 個表,分別是詞頻數據data1 、二元詞頻數據data2和三詞頻數數據 data3。
您還可以製作此更改後的IMDB 數據集 (2)的另一個副本,以便稍後打開另一個表。
現在在IMDB 數據集 (2)中,讓我們打開data1 表。
打開data1 表 後,我們可以看到單詞列表以及頻率。
如您所見,我們能夠使用從 Jupyter Notebook 中獲取的可重複代碼來執行主數據集中的某些過程。 有了這些可重複的代碼,我們就可以轉換 Python 數據集並生成詞頻、二元詞頻和三元詞頻表,而無需重新輸入代碼。
在IMDB Dataset (3)中,讓我們打開data2 表來查看二元組頻率。
在二元組頻率表中,您可以看到列表中包含“ br ”。這可能與 HTML 代碼有關。我們可以簡單地返回並添加其他內容,但我們不打算在本教程中這樣做。
現在數據已在可重複代碼的幫助下加載,我們可以開始在 LuckyTemplates 中對其進行可視化。例如,每個單詞出現頻率的 條形圖。
Python 用戶定義函數 |
LuckyTemplates 中的 Python 列表和 For 循環概述
在 LuckyTemplates 中使用 Python | 數據集和字符串函數
結論
總而言之,可重複代碼可以幫助您更輕鬆地對數據集執行某些過程。你已經學習瞭如何利用可重複代碼在 LuckyTemplates 中轉換 Python 數據集 。您還可以使用.iloc 函數指定在更改數據集時要選擇的行和列。
此外,您還創建了數據集的副本並使用條形圖創建了可視化效果。此可視化基於我們在可重複代碼的幫助下創建和更改的 Python 數據集。
一切順利,
蓋林
什麼是 Python 中的自我:真實世界的例子
您將學習如何在 R 中保存和加載 .rds 文件中的對象。本博客還將介紹如何將對像從 R 導入 LuckyTemplates。
在此 DAX 編碼語言教程中,了解如何使用 GENERATE 函數以及如何動態更改度量標題。
本教程將介紹如何使用多線程動態可視化技術從報告中的動態數據可視化中創建見解。
在本文中,我將貫穿過濾器上下文。篩選上下文是任何 LuckyTemplates 用戶最初應該了解的主要主題之一。
我想展示 LuckyTemplates Apps 在線服務如何幫助管理從各種來源生成的不同報告和見解。
了解如何在 LuckyTemplates 中使用度量分支和組合 DAX 公式等技術計算利潤率變化。
本教程將討論數據緩存物化的想法,以及它們如何影響 DAX 在提供結果時的性能。
如果直到現在你還在使用 Excel,那麼現在是開始使用 LuckyTemplates 來滿足你的業務報告需求的最佳時機。
什麼是 LuckyTemplates 網關?所有你必須知道的