ProfileReport() を使用したパンダのデータセット | LuckyTemplates の Python

ProfileReport() を使用したパンダのデータセット | LuckyTemplates の Python

データ アナリストとして遭遇する最も一般的な質問の 1 つは、特定のデータ セットを調査する最適な方法は何かということです。これは主に、すべてのデータを自分自身またはチームが解釈しやすいレポートにまとめたい場合に重要な考慮事項です。このチュートリアルでは、ProfileReport() を使用して Pandas でデータセットを効率的に探索する方法を説明します。このチュートリアルの完全なビデオは、このブログの下部でご覧いただけます。

データセットを渡されたとき、あなたは何をしますか? データセットをどのように探索しますか? まず、自分自身や同僚などのために読みやすいレポートにまとめたい場合は、考慮すべきことがたくさんあります。

まず、それらがどのような種類の変数であるかを考えます。それは変数の分析方法と扱い方に影響するからです。データとは与えられたものを意味します。つまり、不足しているのは、私たちが持っていないデータということになります。もう一つは、その関係性を視覚化することです。彼らはどんな見た目ですか?私たちは、その視覚化機能を早期かつ頻繁に活用したいと考えています。

これらは多くの複雑な質問が絡み合っています。良いのは、これらの答えを提供してくれるプロファイリング レポート機能が利用できることです。それでは、これらすべてを Python で見てみましょう。

目次

ProfileReport() 関数を使用して Pandas でデータセットを探索する

まず、データセットを読み込みます。

ProfileReport() を使用したパンダのデータセット |  LuckyTemplates の Python

次に、pandas_profilingから、プロファイル レポートと呼ばれるものをインポートします。ここでエラーが発生した場合は、おそらくインストールする必要があります。アナコンダを使っています。それも使うことをお勧めします。これを実行して印刷してみましょう。

ProfileReport() を使用したパンダのデータセット |  LuckyTemplates の Python

それで、ここにあります。概要 があります。これにより、変数の型の内訳がわかります。データセットの統計情報が得られました。行の数、列の数などが表示されます。このレポートの良い点は、ワンストップショップのようであり、見た目も非常に優れていることです。とても魅力的なプレゼンテーションです。

ProfileReport() を使用したパンダのデータセット |  LuckyTemplates の Python

ここで下にスクロールすると、「変数」が表示されます。視覚化が得られ、変数に関する詳細を切り替えることができます。少し珍しい可能性のあるものを示すフラグがあります。これらのアラートや、より多くの情報を提供する他の多くの機能もあります。そして、これは単一の変数ごとに当てはまります。

ProfileReport() を使用したパンダのデータセット |  LuckyTemplates の Python

さらに下にスクロールしていくと、データを視覚化するための散布図が作成された Interactions が見つかります。

ProfileReport() を使用したパンダのデータセット |  LuckyTemplates の Python

そして、関係を要約したCorrelationsが得られます。

ProfileReport() を使用したパンダのデータセット |  LuckyTemplates の Python

次は欠損値です。これは非常に重要です。ご覧のとおり、ここには欠損値がいくつかあります。その理由を知りたいと思います。ここでのこれらの視覚化は、それを支援することを目的としています。各ビジュアルをクリックしてデータを分析できます。

ProfileReport() を使用したパンダのデータセット |  LuckyTemplates の Python

最後にサンプルをご紹介します。これはさまざまな方法で取得できますが、ここでは最初の数行を出力するだけなので、知っておくとよいでしょう。

ProfileReport() を使用したパンダのデータセット |  LuckyTemplates の Python


マルチレベルまたは階層データ用の Pandas の MultiIndex
Python でサンプル データセットを読み込む方法
LuckyTemplates の Python: インストールおよびセットアップする方法

結論

これが、ProfileReport() 関数を使用して Pandas でデータセットを探索する方法です。データをスライスアンドダイスする方法はたくさんあります。データの順列のすべての組み合わせを考えてください。これですべてができるわけではありませんが、非常に良いスタートです。

データを調査するとき、それは実際には反復的なプロセスです。私たちが望んでいるほど、一度で完成する魔法の薬はありません。ただし、ProfilerReport() は本当に優れたツールです。わずか 1 行のコードで大量の情報を取得できます。無料で使えるツールですので、ぜひご自身の仕事に活用していただければと思います。その方法を教えてください。

ではごきげんよう!


Python における Self とは: 実際の例

Python における Self とは: 実際の例

Python における Self とは: 実際の例

RでRDSファイルを保存してロードする方法

RでRDSファイルを保存してロードする方法

R の .rds ファイルからオブジェクトを保存および読み込む方法を学習します。このブログでは、R から LuckyTemplates にオブジェクトをインポートする方法についても説明します。

最初の N 営業日の再考 – DAX コーディング言語ソリューション

最初の N 営業日の再考 – DAX コーディング言語ソリューション

この DAX コーディング言語チュートリアルでは、GENERATE 関数の使用方法とメジャー タイトルを動的に変更する方法を学びます。

LuckyTemplates のマルチスレッド動的ビジュアル手法を使用したインサイトのショーケース

LuckyTemplates のマルチスレッド動的ビジュアル手法を使用したインサイトのショーケース

このチュートリアルでは、マルチスレッド動的ビジュアル手法を使用して、レポート内の動的データ視覚化から洞察を作成する方法について説明します。

LuckyTemplates のフィルター コンテキストの概要

LuckyTemplates のフィルター コンテキストの概要

この記事では、フィルター コンテキストについて説明します。フィルター コンテキストは、LuckyTemplates ユーザーが最初に学習する必要がある主要なトピックの 1 つです。

LuckyTemplates Online Service でアプリを使用する際の最良のヒント

LuckyTemplates Online Service でアプリを使用する際の最良のヒント

LuckyTemplates Apps オンライン サービスが、さまざまなソースから生成されたさまざまなレポートや分析情報の管理にどのように役立つかを示したいと思います。

時間の経過に伴う利益率の変化を分析する – LuckyTemplates と DAX を使用した分析

時間の経過に伴う利益率の変化を分析する – LuckyTemplates と DAX を使用した分析

LuckyTemplates でのメジャー分岐や DAX 数式の結合などの手法を使用して、利益率の変化を計算する方法を学びます。

DAX Studio でのデータ キャッシュのマテリアライゼーションのアイデア

DAX Studio でのデータ キャッシュのマテリアライゼーションのアイデア

このチュートリアルでは、データ キャッシュの具体化のアイデアと、それが結果を提供する際の DAX のパフォーマンスにどのように影響するかについて説明します。

LuckyTemplates を使用したビジネス レポート

LuckyTemplates を使用したビジネス レポート

これまで Excel を使用している場合は、ビジネス レポートのニーズに合わせて LuckyTemplates の使用を開始するのに最適な時期です。

LuckyTemplates ゲートウェイとは何ですか? 知っておくべきことすべて

LuckyTemplates ゲートウェイとは何ですか? 知っておくべきことすべて

LuckyTemplates ゲートウェイとは何ですか? 知っておくべきことすべて