ProfileReport() を使用したパンダのデータセット | LuckyTemplates の Python

ProfileReport() を使用したパンダのデータセット | LuckyTemplates の Python

データ アナリストとして遭遇する最も一般的な質問の 1 つは、特定のデータ セットを調査する最適な方法は何かということです。これは主に、すべてのデータを自分自身またはチームが解釈しやすいレポートにまとめたい場合に重要な考慮事項です。このチュートリアルでは、ProfileReport() を使用して Pandas でデータセットを効率的に探索する方法を説明します。このチュートリアルの完全なビデオは、このブログの下部でご覧いただけます。

データセットを渡されたとき、あなたは何をしますか? データセットをどのように探索しますか? まず、自分自身や同僚などのために読みやすいレポートにまとめたい場合は、考慮すべきことがたくさんあります。

まず、それらがどのような種類の変数であるかを考えます。それは変数の分析方法と扱い方に影響するからです。データとは与えられたものを意味します。つまり、不足しているのは、私たちが持っていないデータということになります。もう一つは、その関係性を視覚化することです。彼らはどんな見た目ですか?私たちは、その視覚化機能を早期かつ頻繁に活用したいと考えています。

これらは多くの複雑な質問が絡み合っています。良いのは、これらの答えを提供してくれるプロファイリング レポート機能が利用できることです。それでは、これらすべてを Python で見てみましょう。

目次

ProfileReport() 関数を使用して Pandas でデータセットを探索する

まず、データセットを読み込みます。

ProfileReport() を使用したパンダのデータセット |  LuckyTemplates の Python

次に、pandas_profilingから、プロファイル レポートと呼ばれるものをインポートします。ここでエラーが発生した場合は、おそらくインストールする必要があります。アナコンダを使っています。それも使うことをお勧めします。これを実行して印刷してみましょう。

ProfileReport() を使用したパンダのデータセット |  LuckyTemplates の Python

それで、ここにあります。概要 があります。これにより、変数の型の内訳がわかります。データセットの統計情報が得られました。行の数、列の数などが表示されます。このレポートの良い点は、ワンストップショップのようであり、見た目も非常に優れていることです。とても魅力的なプレゼンテーションです。

ProfileReport() を使用したパンダのデータセット |  LuckyTemplates の Python

ここで下にスクロールすると、「変数」が表示されます。視覚化が得られ、変数に関する詳細を切り替えることができます。少し珍しい可能性のあるものを示すフラグがあります。これらのアラートや、より多くの情報を提供する他の多くの機能もあります。そして、これは単一の変数ごとに当てはまります。

ProfileReport() を使用したパンダのデータセット |  LuckyTemplates の Python

さらに下にスクロールしていくと、データを視覚化するための散布図が作成された Interactions が見つかります。

ProfileReport() を使用したパンダのデータセット |  LuckyTemplates の Python

そして、関係を要約したCorrelationsが得られます。

ProfileReport() を使用したパンダのデータセット |  LuckyTemplates の Python

次は欠損値です。これは非常に重要です。ご覧のとおり、ここには欠損値がいくつかあります。その理由を知りたいと思います。ここでのこれらの視覚化は、それを支援することを目的としています。各ビジュアルをクリックしてデータを分析できます。

ProfileReport() を使用したパンダのデータセット |  LuckyTemplates の Python

最後にサンプルをご紹介します。これはさまざまな方法で取得できますが、ここでは最初の数行を出力するだけなので、知っておくとよいでしょう。

ProfileReport() を使用したパンダのデータセット |  LuckyTemplates の Python


マルチレベルまたは階層データ用の Pandas の MultiIndex
Python でサンプル データセットを読み込む方法
LuckyTemplates の Python: インストールおよびセットアップする方法

結論

これが、ProfileReport() 関数を使用して Pandas でデータセットを探索する方法です。データをスライスアンドダイスする方法はたくさんあります。データの順列のすべての組み合わせを考えてください。これですべてができるわけではありませんが、非常に良いスタートです。

データを調査するとき、それは実際には反復的なプロセスです。私たちが望んでいるほど、一度で完成する魔法の薬はありません。ただし、ProfilerReport() は本当に優れたツールです。わずか 1 行のコードで大量の情報を取得できます。無料で使えるツールですので、ぜひご自身の仕事に活用していただければと思います。その方法を教えてください。

ではごきげんよう!


Power Automate の文字列関数: Substring と IndexOf

Power Automate の文字列関数: Substring と IndexOf

Microsoft フローで使用できる 2 つの複雑な Power Automate String 関数、substring 関数とindexOf 関数を簡単に学習します。

LuckyTemplates でビジュアル ツールチップを作成する

LuckyTemplates でビジュアル ツールチップを作成する

LuckyTemplates ツールチップを使用すると、より多くの情報を 1 つのレポート ページに圧縮できます。効果的な視覚化の手法を学ぶことができます。

Power Automate で HTTP 要求を行う

Power Automate で HTTP 要求を行う

Power Automate で HTTP 要求を作成し、データを受信する方法を学んでいます。

LuckyTemplates で日付テーブルを作成する方法

LuckyTemplates で日付テーブルを作成する方法

LuckyTemplates で簡単に日付テーブルを作成する方法について学びましょう。データの分析と視覚化のための効果的なツールとして活用できます。

2 つの方法による SharePoint 列の検証

2 つの方法による SharePoint 列の検証

SharePoint 列の検証の数式を使用して、ユーザーからの入力を制限および検証する方法を学びます。

SharePoint リストを Excel または CSV ファイルにエクスポート

SharePoint リストを Excel または CSV ファイルにエクスポート

SharePoint リストを Excel ファイルおよび CSV ファイルにエクスポートする方法を学び、さまざまな状況に最適なエクスポート方法を決定できるようにします。

Power Automate のオンプレミス データ ゲートウェイ

Power Automate のオンプレミス データ ゲートウェイ

ユーザーがコンピューターから離れているときに、オンプレミス データ ゲートウェイを使用して Power Automate がデスクトップ アプリケーションにアクセスできるようにする方法を説明します。

DAX 数式での LASTNONBLANK の使用

DAX 数式での LASTNONBLANK の使用

DAX 数式で LASTNONBLANK 関数を使用して、データ分析の深い洞察を得る方法を学びます。

CROSSJOIN 関数の使用方法 – LuckyTemplates および DAX チュートリアル

CROSSJOIN 関数の使用方法 – LuckyTemplates および DAX チュートリアル

LuckyTemplates で予算分析とレポートを実行しながら、CROSSJOIN 関数を使用して 2 つのデータ テーブルをバインドする方法を学びます。

TREATAS 関数を使用して LuckyTemplates で仮想リレーションシップを作成する

TREATAS 関数を使用して LuckyTemplates で仮想リレーションシップを作成する

このチュートリアルでは、LuckyTemplates TREATAS を使用して数式内に仮想リレーションシップを作成する方法を説明します。