如何在 Python 中加載示例數據集

如何在 Python 中加載示例數據集

在這篇文章中,我們將研究如何在 Python 中加載示例數據集。這可能看起來不是最迷人的話題,但它實際上非常重要。理想情況下,您將擁有一些 Python 數據集,您可以在學習新概念時練習這些數據集。您可以在本博客底部觀看本教程的完整視頻。

如果您要共享您的代碼記錄您所做的工作需要幫助,那麼使用普遍可用的數據集來構建所謂的最小可重現示例確實是個好主意。

您將擁有一個預先捆綁的代碼或腳本,互聯網上的其他人可以運行並幫助您。如果您不生成這些最低限度可重現的示例,您就會在 Stack Overflow 等地方遭到抨擊,如果您不熟悉它,可能會有點震驚。

如何在 Python 中加載示例數據集

讓我們看一下構建這些可重現性最低的示例並獲取數據集的幾種方法。您可以使用一些包將預製數據集加載到 Python 中並共享該代碼。

我們將查看三個最常見的軟件包。讓我們啟動一個空白的 Jupyter notebook 並開始吧。

如何在 Python 中加載示例數據集

目錄

從 Sklearn 在 Python 中加載數據集

我們要看的第一個叫做Sklearn。如果您使用的是 Anaconda,則不需要下載它。如果您需要有關 Python 的更多幫助,LuckyTemplates 確實有一個,您可以註冊。

我假設您已經了解包之類的東西,然後從那裡開始。我們將引入 pandas 和 Sklearn,特別是數據集子模塊。

如何在 Python 中加載示例數據集

我們將帶來其中的一些數據集。Scikit-learn——一個機器學習數據庫——稱它們為玩具數據集。我們將加載波士頓,這是一個房價數據集。當我們引入它時,我們需要將它作為數據框。

我們需要實際指定數據和列來自 Scikit-learn 數據集,並將特徵變量和目標變量分開。

如何在 Python 中加載示例數據集

我們將把它作為數據框輸入,這樣我們就可以對其進行操作和做不同的事情。作為 LuckyTemplates 用戶,Panda 是一個非常棒的軟件包。

在 Python 中從 Vega 數據集加載數據集

我們可以學習的另一個選項是 Vega 數據集包。這個在 Anaconda 上不可用,但我們可以通過 PIP 安裝它。這就是我們將在命令行上輸入的內容,用於安裝 Vega 數據集,以及安裝或導入本地數據模塊。

如何在 Python 中加載示例數據集

其中一些您實際上可以獲得,但您需要網絡連接。我們將通過導入本地數據並運行它來引入本地安裝的那些。

如何在 Python 中加載示例數據集

如您所見,有相當多的數據集。其中一些是時間序列,而其中一些具有分類或連續變量。讓我們在數據框中選擇汽車數據集,以便我們可以在其上運行 head 方法。

如何在 Python 中加載示例數據���

現在,我們有另一個可以使用和共享的示例數據集。

如何在 Python 中加載示例數據集

從 Seaborn 在 Python 中加載數據集

Seaborn 是 Anaconda 發行版中提供的另一個軟件包。默認情況下,Seaborn 以數據可視化而聞名,但它也有一些很棒的示例數據集供您使用。這是我們將鍵入以獲取數據集的內容。

如何在 Python 中加載示例數據集

如您所見,這裡有相當多的數據集。我們將繼續使用企鵝數據集並再次獲取前幾行。

如何在 Python 中加載示例數據集

結果是我們練習的另一個數據集。

如何在 Python 中加載示例數據集

這裡的想法不僅僅是讓數據集進行練習。如果我們看到一些缺失值,刪除數據集時遇到問題,想要填充分類變量或向其他人展示示例而不提供一些敏感數據,您可以使用這些公開訪問的數據集之一,這些數據集非常非常簡單供人們使用和分享。這就是最小可重現示例的想法。

使用 Python 腳本創建日期表的 LuckyTemplates Power
BI 中的 Python:如何為 LuckyTemplates 用戶安裝和設置
Python I – LuckyTemplates 教育平台中的新課程

結論

回顧一下,可以在三個地方查找示例數據集。Scikit-learn是一個機器學習包。轉換起來有點困難,但如果您正在做與機器學習相關的事情,那麼這裡就是您要去的地方。Vega 數據集也有相當多的數據集,特別是如果您使用該方法從 Web 獲取數據集,但它相對難以加載,因此您只需要使用 PIP 而不是使用 Anaconda 預安裝它。Seaborn是最佳選擇,因為它加載數據框,並且在使用示例數據集和可重現示例方面具有很多通用性。

Stack Overflow 也有一個關於如何編寫一個好的最小可重現示例或 MRE 的教程,所以如果您想在線發布一些東西,請檢查一下。

知道從哪裡獲得好的數據集並分享好的 MRE 是作為分析師必須具備的一項非常重要的技能。

如果您喜歡本教程中涵蓋的內容,請訂閱 LuckyTemplates 電視頻道​​。我和一系列內容創作者一直在發布大量內容,所有內容都致力於改進您使用 LuckyTemplates 和 Power Platform 的方式。


什麼是 Python 中的自我:真實世界的例子

什麼是 Python 中的自我:真實世界的例子

什麼是 Python 中的自我:真實世界的例子

如何在 R 中保存和加載 RDS 文件

如何在 R 中保存和加載 RDS 文件

您將學習如何在 R 中保存和加載 .rds 文件中的對象。本博客還將介紹如何將對像從 R 導入 LuckyTemplates。

回顧前 N 個工作日——DAX 編碼語言解決方案

回顧前 N 個工作日——DAX 編碼語言解決方案

在此 DAX 編碼語言教程中,了解如何使用 GENERATE 函數以及如何動態更改度量標題。

在 LuckyTemplates 中使用多線程動態視覺技術展示見解

在 LuckyTemplates 中使用多線程動態視覺技術展示見解

本教程將介紹如何使用多線程動態可視化技術從報告中的動態數據可視化中創建見解。

LuckyTemplates 篩選上下文簡介

LuckyTemplates 篩選上下文簡介

在本文中,我將貫穿過濾器上下文。篩選上下文是任何 LuckyTemplates 用戶最初應該了解的主要主題之一。

使用 LuckyTemplates 在線服務中的應用程序的最佳技巧

使用 LuckyTemplates 在線服務中的應用程序的最佳技巧

我想展示 LuckyTemplates Apps 在線服務如何幫助管理從各種來源生成的不同報告和見解。

隨著時間的推移分析利潤率變化——使用 LuckyTemplates 和 DAX 進行分析

隨著時間的推移分析利潤率變化——使用 LuckyTemplates 和 DAX 進行分析

了解如何在 LuckyTemplates 中使用度量分支和組合 DAX 公式等技術計算利潤率變化。

DAX Studio 中數據緩存的物化想法

DAX Studio 中數據緩存的物化想法

本教程將討論數據緩存物化的想法,以及它們如何影響 DAX 在提供結果時的性能。

使用 LuckyTemplates 進行業務報告

使用 LuckyTemplates 進行業務報告

如果直到現在你還在使用 Excel,那麼現在是開始使用 LuckyTemplates 來滿足你的業務報告需求的最佳時機。

什麼是 LuckyTemplates 網關?所有你必須知道的

什麼是 LuckyTemplates 網關?所有你必須知道的

什麼是 LuckyTemplates 網關?所有你必須知道的