Python でサンプルデータセットをロードする方法

この投稿では、Python でサンプルデータセットをロードする方法を見ていきます。これはあまり魅力的なトピックではないように思えるかもしれませんが、実際には非常に重要です。理想的には、新しい概念を学習するときに練習できる Python のデータセットがいくつかあるはずです。このチュートリアルの完全なビデオは、このブログの下部でご覧いただけます。

コードを共有したり、行ったことを文書化したり、ヘルプが必要な場合は、一般に入手可能なデータセットを使用して、いわゆる最小限の再現可能なサンプルを構築することをお勧めします。

事前にバンドルされたコードまたはスクリプトが用意されており、インターネット上の他の誰かがそれを実行して支援することができます。これらの最小限の再現性のあるサンプルを作成しないと、Stack Overflow などで炎上することになります。これに慣れていない場合は、少しショックを受けるかもしれません。

Python でサンプルデータセットをロードする方法

これらの最小限の再現可能な例を構築し、データセットを取得するいくつかの方法を見てみましょう。事前に作成されたデータセットを Python にロードし、そのコードを共有するために使用できるパッケージがいくつかあります。

最も一般的な 3 つのパッケージを見ていきます。空の Jupyter ノートブックを起動して始めましょう。

Python でサンプルデータセットをロードする方法

Sklearn から Python でデータセットをロードする
Vega データセットから Python でデータセットをロードする
Seaborn から Python でデータセットをロードする
結論

Sklearn から Python でデータセットをロードする

最初に見てみるのはSklearnと呼ばれるものです。Anaconda を使用している場合は、これをダウンロードする必要はありません。Python についてさらにサポートが必要な場合は、LuckyTemplates にサインアップできるがあります。

パッケージなどについてはすでにご存知であることを前提として、そこから説明していきます。pandas と Sklearn、特にデータセットサブモジュールを導入します。

Python でサンプルデータセットをロードする方法

これらのデータセットをいくつか紹介します。機械学習データライブラリであるScikit-learn は、それらをおもちゃのデータセットと呼んでいます。住宅価格データセットであるボストンをロードします。これを取り込むときは、データフレームとして持つ必要があります。

データと列が Scikit-learn データセットから取得されていることを実際に指定し、特徴変数とターゲット変数を分離する必要があります。

Python でサンプルデータセットをロードする方法

これをデータフレームとして取得して、操作したり、さまざまな操作を実行したりできるようにします。Panda は、LuckyTemplates ユーザーとして知っておくべき非常に優れたパッケージです。

Vega データセットから Python でデータセットをロードする

私たちが学ぶことができるもう 1 つのオプションは、Vega データセットパッケージです。これは Anaconda では利用できませんが、PIP 経由でインストールできます。これは、Vega データセットをインストールし、ローカルデータモジュールをインストールまたはインポートするためにコマンドラインに入力するものです。

Python でサンプルデータセットをロードする方法

これらの一部は実際に入手できますが、Web 接続が必要です。ローカルデータをインポートして実行することで、ローカルにインストールされているものを取り込みます。

Python でサンプルデータセットをロードする方法

ご覧のとおり、かなりの数のデータセットがあります。これらの中には時系列のものもありますが、カテゴリ変数または連続変数を持つものもあります。head メソッドを実行できるように、データフレーム内の車のデータセットを選択しましょう。

Python でサンプルデータセットをロードする方法

これで、使用および共有できる別のサンプルデータセットができました。

Python でサンプルデータセットをロードする方法

Seaborn から Python でデータセットをロードする

Seaborn は、Anaconda ディストリビューションで利用できる別のパッケージです。デフォルトでは、Seaborn はデータ視覚化で最もよく知られていますが、使用できる優れたサンプルデータセットもいくつかあります。これは、データセットを取得するために入力するものです。

Python でサンプルデータセットをロードする方法

ご覧のとおり、ここにはかなりの数のデータセットがあります。ペンギンデータセットを使用して、最初の数行を再度取得します。

Python でサンプルデータセットをロードする方法

その結果、練習用の別のデータセットが得られます。

Python でサンプルデータセットをロードする方法

ここでの考え方は、単に練習用のデータセットを用意するということではありません。欠損値が見つかった場合、データセットの削除に問題がある場合、カテゴリ変数を埋めたい場合、または機密データを提供せずに他の人に例を示したい場合は、これらの公的にアクセス可能なデータセットの 1 つを使用するだけで、非常に簡単です。人々が使用し、共有できるように。これが、最小限の再現可能な例のアイデアです。

Python スクリプトを使用した LuckyTemplates で日付テーブルを作成する LuckyTemplates の
Python: LuckyTemplates ユーザー向けに Python I をインストールしてセットアップする方法
– LuckyTemplates 教育プラットフォームの新しいコース

結論

要約すると、サンプルデータセットを探す場所は 3 つあります。Scikit-learnは機械学習パッケージです。変換するのは少し難しいですが、機械学習に関連することを行っている場合は、ここを参照してください。特に、Web からデータセットを取得する方法を使用する場合、 Vega データセットにはかなりの数のデータセットがありますが、読み込みが比較的難しいため、Anaconda にプリインストールされているのではなく PIP を使用する必要があります。Seabornは、データフレームをロードし、サンプルデータセットと再現可能な例を使用する点で多用途性を備えているため、最適です。

Stack Overflow には、最小限の再現性を備えた優れたサンプルまたは MRE を作成する方法に関するチュートリアルもあるので、オンラインで何かを投稿しようとしている場合は、それを確認してください。

優れたデータセットをどこで入手できるかを知り、優れた MRE を共有することは、アナリストとして非常に重要なスキルです。

この特定のチュートリアルで取り上げたコンテンツを気に入っていただけた場合は、LuckyTemplates TV チャンネルに登録してください。私自身やさまざまなコンテンツ作成者からの膨大な量のコンテンツが常に公開されており、その全員が LuckyTemplates と Power Platform の使用方法を改善することに専念しています。