Python でサンプル データセットをロードする方法

Python でサンプル データセットをロードする方法

この投稿では、Python でサンプル データ セットをロードする方法を見ていきます。これはあまり魅力的なトピックではないように思えるかもしれませんが、実際には非常に重要です。理想的には、新しい概念を学習するときに練習できる Python のデータセットがいくつかあるはずです。このチュートリアルの完全なビデオは、このブログの下部でご覧いただけます。

コードを共有したり、行ったことを文書化したり、ヘルプが必要な場合は、一般に入手可能なデータセットを使用して、いわゆる最小限の再現可能なサンプルを構築することをお勧めします。

事前にバンドルされたコードまたはスクリプトが用意されており、インターネット上の他の誰かがそれを実行して支援することができます。これらの最小限の再現性のあるサンプルを作成しないと、Stack Overflow などで炎上することになります。これに慣れていない場合は、少しショックを受けるかもしれません。

Python でサンプル データセットをロードする方法

これらの最小限の再現可能な例を構築し、データセットを取得するいくつかの方法を見てみましょう。事前に作成されたデータセットを Python にロードし、そのコードを共有するために使用できるパッケージがいくつかあります。

最も一般的な 3 つのパッケージを見ていきます。空の Jupyter ノートブックを起動して始めましょう。

Python でサンプル データセットをロードする方法

目次

Sklearn から Python でデータセットをロードする

最初に見てみるのはSklearnと呼ばれるものです。Anaconda を使用している場合は、これをダウンロードする必要はありません。Python についてさらにサポートが必要な場合は、LuckyTemplates にサインアップできるがあります。

パッケージなどについてはすでにご存知であることを前提として、そこから説明していきます。pandas と Sklearn、特にデータセット サブモジュールを導入します。

Python でサンプル データセットをロードする方法

これらのデータセットをいくつか紹介します。機械学習データ ライブラリであるScikit-learn は、それらをおもちゃのデータ セットと呼んでいます。住宅価格データセットであるボストンをロードします。これを取り込むときは、データフレームとして持つ必要があります。

データと列が Scikit-learn データセットから取得されていることを実際に指定し、特徴変数とターゲット変数を分離する必要があります。

Python でサンプル データセットをロードする方法

これをデータ フレームとして取得して、操作したり、さまざまな操作を実行したりできるようにします。Panda は、LuckyTemplates ユーザーとして知っておくべき非常に優れたパッケージです。

Vega データセットから Python でデータセットをロードする

私たちが学ぶことができるもう 1 つのオプションは、Vega データセット パッケージです。これは Anaconda では利用できませんが、PIP 経由でインストールできます。これは、Vega データセットをインストールし、ローカル データ モジュールをインストールまたはインポートするためにコマンド ラインに入力するものです。

Python でサンプル データセットをロードする方法

これらの一部は実際に入手できますが、Web 接続が必要です。ローカル データをインポートして実行することで、ローカルにインストールされているものを取り込みます。

Python でサンプル データセットをロードする方法

ご覧のとおり、かなりの数のデータセットがあります。これらの中には時系列のものもありますが、カテゴリ変数または連続変数を持つものもあります。head メソッドを実行できるように、データ フレーム内の車のデータセットを選択しましょう。

Python でサンプル データセットをロードする方法

これで、使用および共有できる別のサンプル データセットができました。

Python でサンプル データセットをロードする方法

Seaborn から Python でデータセットをロードする

Seaborn は、Anaconda ディストリビューションで利用できる別のパッケージです。デフォルトでは、Seaborn はデータ視覚化で最もよく知られていますが、使用できる優れたサンプル データセットもいくつかあります。これは、データセットを取得するために入力するものです。

Python でサンプル データセットをロードする方法

ご覧のとおり、ここにはかなりの数のデータセットがあります。ペンギン データ セットを使用して、最初の数行を再度取得します。

Python でサンプル データセットをロードする方法

その結果、練習用の別のデータセットが得られます。

Python でサンプル データセットをロードする方法

ここでの考え方は、単に練習用のデータセットを用意するということではありません。欠損値が見つかった場合、データセットの削除に問題がある場合、カテゴリ変数を埋めたい場合、または機密データを提供せずに他の人に例を示したい場合は、これらの公的にアクセス可能なデータセットの 1 つを使用するだけで、非常に簡単です。人々が使用し、共有できるように。これが、最小限の再現可能な例のアイデアです。

Python スクリプトを使用した LuckyTemplates で日付テーブルを作成する LuckyTemplates の
Python: LuckyTemplates ユーザー向けに Python I をインストールしてセットアップする方法
– LuckyTemplates 教育プラットフォームの新しいコース

結論

要約すると、サンプル データセットを探す場所は 3 つあります。Scikit-learnは機械学習パッケージです。変換するのは少し難しいですが、機械学習に関連することを行っている場合は、ここを参照してください。特に、Web からデータセットを取得する方法を使用する場合、 Vega データセットにはかなりの数のデータセットがありますが、読み込みが比較的難しいため、Anaconda にプリインストールされているのではなく PIP を使用する必要があります。Seabornは、データ フレームをロードし、サンプル データ セットと再現可能な例を使用する点で多用途性を備えているため、最適です。

Stack Overflow には、最小限の再現性を備えた優れたサンプルまたは MRE を作成する方法に関するチュートリアルもあるので、オンラインで何かを投稿しようとしている場合は、それを確認してください。

優れたデータセットをどこで入手できるかを知り、優れた MRE を共有することは、アナリストとして非常に重要なスキルです。

この特定のチュートリアルで取り上げたコンテンツを気に入っていただけた場合は、LuckyTemplates TV チャンネルに登録してください。私自身やさまざまなコンテンツ作成者からの膨大な量のコンテンツが常に公開されており、その全員が LuckyTemplates と Power Platform の使用方法を改善することに専念しています。


Power Automate の文字列関数: Substring と IndexOf

Power Automate の文字列関数: Substring と IndexOf

Microsoft フローで使用できる 2 つの複雑な Power Automate String 関数、substring 関数とindexOf 関数を簡単に学習します。

LuckyTemplates でビジュアル ツールチップを作成する

LuckyTemplates でビジュアル ツールチップを作成する

LuckyTemplates ツールチップを使用すると、より多くの情報を 1 つのレポート ページに圧縮できます。効果的な視覚化の手法を学ぶことができます。

Power Automate で HTTP 要求を行う

Power Automate で HTTP 要求を行う

Power Automate で HTTP 要求を作成し、データを受信する方法を学んでいます。

LuckyTemplates で日付テーブルを作成する方法

LuckyTemplates で日付テーブルを作成する方法

LuckyTemplates で簡単に日付テーブルを作成する方法について学びましょう。データの分析と視覚化のための効果的なツールとして活用できます。

2 つの方法による SharePoint 列の検証

2 つの方法による SharePoint 列の検証

SharePoint 列の検証の数式を使用して、ユーザーからの入力を制限および検証する方法を学びます。

SharePoint リストを Excel または CSV ファイルにエクスポート

SharePoint リストを Excel または CSV ファイルにエクスポート

SharePoint リストを Excel ファイルおよび CSV ファイルにエクスポートする方法を学び、さまざまな状況に最適なエクスポート方法を決定できるようにします。

Power Automate のオンプレミス データ ゲートウェイ

Power Automate のオンプレミス データ ゲートウェイ

ユーザーがコンピューターから離れているときに、オンプレミス データ ゲートウェイを使用して Power Automate がデスクトップ アプリケーションにアクセスできるようにする方法を説明します。

DAX 数式での LASTNONBLANK の使用

DAX 数式での LASTNONBLANK の使用

DAX 数式で LASTNONBLANK 関数を使用して、データ分析の深い洞察を得る方法を学びます。

CROSSJOIN 関数の使用方法 – LuckyTemplates および DAX チュートリアル

CROSSJOIN 関数の使用方法 – LuckyTemplates および DAX チュートリアル

LuckyTemplates で予算分析とレポートを実行しながら、CROSSJOIN 関数を使用して 2 つのデータ テーブルをバインドする方法を学びます。

TREATAS 関数を使用して LuckyTemplates で仮想リレーションシップを作成する

TREATAS 関数を使用して LuckyTemplates で仮想リレーションシップを作成する

このチュートリアルでは、LuckyTemplates TREATAS を使用して数式内に仮想リレーションシップを作成する方法を説明します。