什麼是 Python 中的自我:真實世界的例子
什麼是 Python 中的自我:真實世界的例子
作為數據分析師,您將遇到的最常見問題之一是探索給定數據集的最佳方式是什麼。這是一個重要的考慮因素,主要是如果您想將所有數據放在一份報告中,以便您自己或您的團隊輕鬆解讀。在本教程中,我將演示如何使用 ProfileReport() 在 Pandas 中高效地探索數據集。您可以在本博客底部觀看本教程的完整視頻。
當你得到一個數據集時,你會怎麼做?你如何探索數據集?首先,如果您想將所有內容放在一個易於閱讀的報告中,供您自己、同事等使用,您需要考慮很多事情。
首先,你要考慮它們是什麼類型的變量,因為這會影響你分析它們的方式和對待它們的方式。數據意味著給定的東西。因此,缺少的將是我們沒有的數據。另一件事是形象化這些關係。他們看起來怎麼樣?我們希望儘早並經常使用這種可視化功能。
這些是很多環環相扣的複雜問題。好消息是,有可用的分析報告功能可以為我們提供這些答案。那麼,讓我們看看 Python 中的所有內容。
目錄
使用 ProfileReport() 函數探索 Pandas 中的數據集
首先,我們要加載數據集。
然後,從pandas_profiling中,我們將導入這個叫做配置文件報告的東西。現在,如果你在這裡遇到錯誤,你可能需要安裝它。我正在使用蟒蛇。我建議你也使用它。讓我們運行它,然後打印它。
所以就在這裡。我們有一個概述。這為我們提供了變量類型的細分。我們已經獲得了數據集統計信息。我們看到行列數,等等。這份報告的好處在於它就像一個一站式商店,而且看起來也非常好。它有一個非常吸引人的介紹。
我們在這裡向下滾動,我們有Variables。我們得到了可視化效果,我們可以切換有關變量的更多詳細信息。我們有一些標誌可以指出可能有點不尋常的事情。我們也收到了這些警報,許多其他功能將為我們提供更多信息。而且,這是針對每個變量的。
當我們繼續向下滾動時,我們會找到交互,它在其中創建散點圖以可視化數據。
然後,我們得到了Correlations,它總結了這種關係。
接下來是Missing Values,這是非常重要的。如您所見,我們這裡確實有一些缺失值,我們想知道為什麼。這裡的這些可視化旨在幫助我們做到這一點。我們可以單擊每個視覺對象並分析數據。
最後,我們有樣品。我們可以通過多種方式獲得它,但這只是打印出前幾行,這一點很好理解。
Pandas 中用於多級或分層數據的 MultiIndex
如何在 Python 中加載示例數據集
LuckyTemplates 中的 Python:如何安裝和設置
結論
這就是您使用 ProfileReport() 函數在 Pandas 中探索數據集的方式。有很多方法可以對數據進行切片和切塊。考慮數據排列的所有組合。這不會為您做所有事情,但這是一個非常好的開始。
當我們探索數據時,它實際上是一個迭代過程。沒有像我們想要的那樣一勞永逸的靈丹妙藥。然而,ProfilerReport() 確實是一個很棒的工具。我們得到了很多信息,而只有一行代碼。這是一個免費的工具,所以我希望你能在自己的工作中使用它。讓我們知道你是怎麼做到的。
一切順利!
什麼是 Python 中的自我:真實世界的例子
您將學習如何在 R 中保存和加載 .rds 文件中的對象。本博客還將介紹如何將對像從 R 導入 LuckyTemplates。
在此 DAX 編碼語言教程中,了解如何使用 GENERATE 函數以及如何動態更改度量標題。
本教程將介紹如何使用多線程動態可視化技術從報告中的動態數據可視化中創建見解。
在本文中,我將貫穿過濾器上下文。篩選上下文是任何 LuckyTemplates 用戶最初應該了解的主要主題之一。
我想展示 LuckyTemplates Apps 在線服務如何幫助管理從各種來源生成的不同報告和見解。
了解如何在 LuckyTemplates 中使用度量分支和組合 DAX 公式等技術計算利潤率變化。
本教程將討論數據緩存物化的想法,以及它們如何影響 DAX 在提供結果時的性能。
如果直到現在你還在使用 Excel,那麼現在是開始使用 LuckyTemplates 來滿足你的業務報告需求的最佳時機。
什麼是 LuckyTemplates 網關?所有你必須知道的