使用 ProfileReport() 的 Pandas 中的數據集 | LuckyTemplates 中的 Python

使用 ProfileReport() 的 Pandas 中的數據集 | LuckyTemplates 中的 Python

作為數據分析師,您將遇到的最常見問題之一是探索給定數據集的最佳方式是什麼。這是一個重要的考慮因素,主要是如果您想將所有數據放在一份報告中,以便您自己或您的團隊輕鬆解讀。在本教程中,我將演示如何使用 ProfileReport() 在 Pandas 中高效地探索數據集。您可以在本博客底部觀看本教程的完整視頻。

當你得到一個數據集時,你會怎麼做?你如何探索數據集?首先,如果您想將所有內容放在一個易於閱讀的報告中,供您自己、同事等使用,您需要考慮很多事情。

首先,你要考慮它們是什麼類型的變量,因為這會影響你分析它們的方式和對待它們的方式。數據意味著給定的東西。因此,缺少的將是我們沒有的數據。另一件事是形象化這些關係。他們看起來怎麼樣?我們希望儘早並經常使用這種可視化功能。

這些是很多環環相扣的複雜問題。好消息是,有可用的分析報告功能可以為我們提供這些答案。那麼,讓我們看看 Python 中的所有內容。

目錄

使用 ProfileReport() 函數探索 Pandas 中的數據集

首先,我們要加載數據集。

使用 ProfileReport() 的 Pandas 中的數據集 |  LuckyTemplates 中的 Python

然後,從pandas_profiling中,我們將導入這個叫做配置文件報告的東西。現在,如果你在這裡遇到錯誤,你可能需要安裝它。我正在使用蟒蛇。我建議你也使用它。讓我們運行它,然後打印它。

使用 ProfileReport() 的 Pandas 中的數據集 |  LuckyTemplates 中的 Python

所以就在這裡。我們有一個概述。這為我們提供了變量類型的細分。我們已經獲得了數據集統計信息。我們看到行列數,等等。這份報告的好處在於它就像一個一站式商店,而且看起來也非常好。它有一個非常吸引人的介紹。

使用 ProfileReport() 的 Pandas 中的數據集 |  LuckyTemplates 中的 Python

我們在這裡向下滾動,我們有Variables。我們得到了可視化效果,我們可以切換有關變量的更多詳細信息。我們有一些標誌可以指出可能有點不尋常的事情。我們也收到了這些警報,許多其他功能將為我們提供更多信息。而且,這是針對每個變量的。

使用 ProfileReport() 的 Pandas 中的數據集 |  LuckyTemplates 中的 Python

當我們繼續向下滾動時,我們會找到交互,它在其中創建散點圖以可視化數據。

使用 ProfileReport() 的 Pandas 中的數據集 |  LuckyTemplates 中的 Python

然後,我們得到了Correlations,它總結了這種關係。

使用 ProfileReport() 的 Pandas 中的數據集 |  LuckyTemplates 中的 Python

接下來是Missing Values,這是非常重要的。如您所見,我們這裡確實有一些缺失值,我們想知道為什麼。這裡的這些可視化旨在幫助我們做到這一點。我們可以單擊每個視覺對象並分析數據。

使用 ProfileReport() 的 Pandas 中的數據集 |  LuckyTemplates 中的 Python

最後,我們有樣品。我們可以通過多種方式獲得它,但這只是打印出前幾行,這一點很好理解。

使用 ProfileReport() 的 Pandas 中的數據集 |  LuckyTemplates 中的 Python


Pandas 中用於多級或分層數據的 MultiIndex
如何在 Python 中加載示例數據集
LuckyTemplates 中的 Python:如何安裝和設置

結論

這就是您使用 ProfileReport() 函數在 Pandas 中探索數據集的方式。有很多方法可以對數據進行切片和切塊。考慮數據排列的所有組合。這不會為您做所有事情,但這是一個非常好的開始。

當我們探索數據時,它實際上是一個迭代過程。沒有像我們想要的那樣一勞永逸的靈丹妙藥。然而,ProfilerReport() 確實是一個很棒的工具。我們得到了很多信息,而只有一行代碼。這是一個免費的工具,所以我希望你能在自己的工作中使用它。讓我們知道你是怎麼做到的。

一切順利!


在 Power Automate 中執行直到循環控制

在 Power Automate 中執行直到循環控制

了解有關 Do Until 循環控制如何在 Power Automate 流中工作的基礎過程,並熟悉所需的變量。

使用 Deneb 為 LuckyTemplates 製作自定義視覺對象

使用 Deneb 為 LuckyTemplates 製作自定義視覺對象

受限於 LuckyTemplates 中提供的標準視覺效果?學習使用 Deneb 和 Vega-Lite 為 LuckyTemplates 創建自定義視覺對象,提升您的數據可視化能力。

在 Power Automate Desktop 中將日期添加到文件名

在 Power Automate Desktop 中將日期添加到文件名

在此博客中,您將了解如何使用 Power Automate Desktop 自動將日期添加到文件名的開頭或結尾。

Power Query:如何快速添加註釋

Power Query:如何快速添加註釋

找出幾種不同的方法在 Power Query 中添加註釋,這對於不喜歡記筆記的人非常有幫助。

Power Apps – SharePoint 集成指南

Power Apps – SharePoint 集成指南

在此博客中,您將了解 MS Power Apps 界面的基礎知識並了解 Power Apps-SharePoint 集成的過程。

什麼是 Python 中的自我:真實世界的例子

什麼是 Python 中的自我:真實世界的例子

什麼是 Python 中的自我:真實世界的例子

如何在 R 中保存和加載 RDS 文件

如何在 R 中保存和加載 RDS 文件

您將學習如何在 R 中保存和加載 .rds 文件中的對象。本博客還將介紹如何將對像從 R 導入 LuckyTemplates。

回顧前 N 個工作日——DAX 編碼語言解決方案

回顧前 N 個工作日——DAX 編碼語言解決方案

在此 DAX 編碼語言教程中,了解如何使用 GENERATE 函數以及如何動態更改度量標題。

在 LuckyTemplates 中使用多線程動態視覺技術展示見解

在 LuckyTemplates 中使用多線程動態視覺技術展示見解

本教程將介紹如何使用多線程動態可視化技術從報告中的動態數據可視化中創建見解。

LuckyTemplates 篩選上下文簡介

LuckyTemplates 篩選上下文簡介

在本文中,我將貫穿過濾器上下文。篩選上下文是任何 LuckyTemplates 用戶最初應該了解的主要主題之一。