使用 ProfileReport() 的 Pandas 中的數據集 | LuckyTemplates 中的 Python

使用 ProfileReport() 的 Pandas 中的數據集 | LuckyTemplates 中的 Python

作為數據分析師,您將遇到的最常見問題之一是探索給定數據集的最佳方式是什麼。這是一個重要的考慮因素,主要是如果您想將所有數據放在一份報告中,以便您自己或您的團隊輕鬆解讀。在本教程中,我將演示如何使用 ProfileReport() 在 Pandas 中高效地探索數據集。您可以在本博客底部觀看本教程的完整視頻。

當你得到一個數據集時,你會怎麼做?你如何探索數據集?首先,如果您想將所有內容放在一個易於閱讀的報告中,供您自己、同事等使用,您需要考慮很多事情。

首先,你要考慮它們是什麼類型的變量,因為這會影響你分析它們的方式和對待它們的方式。數據意味著給定的東西。因此,缺少的將是我們沒有的數據。另一件事是形象化這些關係。他們看起來怎麼樣?我們希望儘早並經常使用這種可視化功能。

這些是很多環環相扣的複雜問題。好消息是,有可用的分析報告功能可以為我們提供這些答案。那麼,讓我們看看 Python 中的所有內容。

目錄

使用 ProfileReport() 函數探索 Pandas 中的數據集

首先,我們要加載數據集。

使用 ProfileReport() 的 Pandas 中的數據集 |  LuckyTemplates 中的 Python

然後,從pandas_profiling中,我們將導入這個叫做配置文件報告的東西。現在,如果你在這裡遇到錯誤,你可能需要安裝它。我正在使用蟒蛇。我建議你也使用它。讓我們運行它,然後打印它。

使用 ProfileReport() 的 Pandas 中的數據集 |  LuckyTemplates 中的 Python

所以就在這裡。我們有一個概述。這為我們提供了變量類型的細分。我們已經獲得了數據集統計信息。我們看到行列數,等等。這份報告的好處在於它就像一個一站式商店,而且看起來也非常好。它有一個非常吸引人的介紹。

使用 ProfileReport() 的 Pandas 中的數據集 |  LuckyTemplates 中的 Python

我們在這裡向下滾動,我們有Variables。我們得到了可視化效果,我們可以切換有關變量的更多詳細信息。我們有一些標誌可以指出可能有點不尋常的事情。我們也收到了這些警報,許多其他功能將為我們提供更多信息。而且,這是針對每個變量的。

使用 ProfileReport() 的 Pandas 中的數據集 |  LuckyTemplates 中的 Python

當我們繼續向下滾動時,我們會找到交互,它在其中創建散點圖以可視化數據。

使用 ProfileReport() 的 Pandas 中的數據集 |  LuckyTemplates 中的 Python

然後,我們得到了Correlations,它總結了這種關係。

使用 ProfileReport() 的 Pandas 中的數據集 |  LuckyTemplates 中的 Python

接下來是Missing Values,這是非常重要的。如您所見,我們這裡確實有一些缺失值,我們想知道為什麼。這裡的這些可視化旨在幫助我們做到這一點。我們可以單擊每個視覺對象並分析數據。

使用 ProfileReport() 的 Pandas 中的數據集 |  LuckyTemplates 中的 Python

最後,我們有樣品。我們可以通過多種方式獲得它,但這只是打印出前幾行,這一點很好理解。

使用 ProfileReport() 的 Pandas 中的數據集 |  LuckyTemplates 中的 Python


Pandas 中用於多級或分層數據的 MultiIndex
如何在 Python 中加載示例數據集
LuckyTemplates 中的 Python:如何安裝和設置

結論

這就是您使用 ProfileReport() 函數在 Pandas 中探索數據集的方式。有很多方法可以對數據進行切片和切塊。考慮數據排列的所有組合。這不會為您做所有事情,但這是一個非常好的開始。

當我們探索數據時,它實際上是一個迭代過程。沒有像我們想要的那樣一勞永逸的靈丹妙藥。然而,ProfilerReport() 確實是一個很棒的工具。我們得到了很多信息,而只有一行代碼。這是一個免費的工具,所以我希望你能在自己的工作中使用它。讓我們知道你是怎麼做到的。

一切順利!


什麼是 Python 中的自我:真實世界的例子

什麼是 Python 中的自我:真實世界的例子

什麼是 Python 中的自我:真實世界的例子

如何在 R 中保存和加載 RDS 文件

如何在 R 中保存和加載 RDS 文件

您將學習如何在 R 中保存和加載 .rds 文件中的對象。本博客還將介紹如何將對像從 R 導入 LuckyTemplates。

回顧前 N 個工作日——DAX 編碼語言解決方案

回顧前 N 個工作日——DAX 編碼語言解決方案

在此 DAX 編碼語言教程中,了解如何使用 GENERATE 函數以及如何動態更改度量標題。

在 LuckyTemplates 中使用多線程動態視覺技術展示見解

在 LuckyTemplates 中使用多線程動態視覺技術展示見解

本教程將介紹如何使用多線程動態可視化技術從報告中的動態數據可視化中創建見解。

LuckyTemplates 篩選上下文簡介

LuckyTemplates 篩選上下文簡介

在本文中,我將貫穿過濾器上下文。篩選上下文是任何 LuckyTemplates 用戶最初應該了解的主要主題之一。

使用 LuckyTemplates 在線服務中的應用程序的最佳技巧

使用 LuckyTemplates 在線服務中的應用程序的最佳技巧

我想展示 LuckyTemplates Apps 在線服務如何幫助管理從各種來源生成的不同報告和見解。

隨著時間的推移分析利潤率變化——使用 LuckyTemplates 和 DAX 進行分析

隨著時間的推移分析利潤率變化——使用 LuckyTemplates 和 DAX 進行分析

了解如何在 LuckyTemplates 中使用度量分支和組合 DAX 公式等技術計算利潤率變化。

DAX Studio 中數據緩存的物化想法

DAX Studio 中數據緩存的物化想法

本教程將討論數據緩存物化的想法,以及它們如何影響 DAX 在提供結果時的性能。

使用 LuckyTemplates 進行業務報告

使用 LuckyTemplates 進行業務報告

如果直到現在你還在使用 Excel,那麼現在是開始使用 LuckyTemplates 來滿足你的業務報告需求的最佳時機。

什麼是 LuckyTemplates 網關?所有你必須知道的

什麼是 LuckyTemplates 網關?所有你必須知道的

什麼是 LuckyTemplates 網關?所有你必須知道的