Python でサンプル データセットをロードする方法

Python でサンプル データセットをロードする方法

この投稿では、Python でサンプル データ セットをロードする方法を見ていきます。これはあまり魅力的なトピックではないように思えるかもしれませんが、実際には非常に重要です。理想的には、新しい概念を学習するときに練習できる Python のデータセットがいくつかあるはずです。このチュートリアルの完全なビデオは、このブログの下部でご覧いただけます。

コードを共有したり、行ったことを文書化したり、ヘルプが必要な場合は、一般に入手可能なデータセットを使用して、いわゆる最小限の再現可能なサンプルを構築することをお勧めします。

事前にバンドルされたコードまたはスクリプトが用意されており、インターネット上の他の誰かがそれを実行して支援することができます。これらの最小限の再現性のあるサンプルを作成しないと、Stack Overflow などで炎上することになります。これに慣れていない場合は、少しショックを受けるかもしれません。

Python でサンプル データセットをロードする方法

これらの最小限の再現可能な例を構築し、データセットを取得するいくつかの方法を見てみましょう。事前に作成されたデータセットを Python にロードし、そのコードを共有するために使用できるパッケージがいくつかあります。

最も一般的な 3 つのパッケージを見ていきます。空の Jupyter ノートブックを起動して始めましょう。

Python でサンプル データセットをロードする方法

目次

Sklearn から Python でデータセットをロードする

最初に見てみるのはSklearnと呼ばれるものです。Anaconda を使用している場合は、これをダウンロードする必要はありません。Python についてさらにサポートが必要な場合は、LuckyTemplates にサインアップできるがあります。

パッケージなどについてはすでにご存知であることを前提として、そこから説明していきます。pandas と Sklearn、特にデータセット サブモジュールを導入します。

Python でサンプル データセットをロードする方法

これらのデータセットをいくつか紹介します。機械学習データ ライブラリであるScikit-learn は、それらをおもちゃのデータ セットと呼んでいます。住宅価格データセットであるボストンをロードします。これを取り込むときは、データフレームとして持つ必要があります。

データと列が Scikit-learn データセットから取得されていることを実際に指定し、特徴変数とターゲット変数を分離する必要があります。

Python でサンプル データセットをロードする方法

これをデータ フレームとして取得して、操作したり、さまざまな操作を実行したりできるようにします。Panda は、LuckyTemplates ユーザーとして知っておくべき非常に優れたパッケージです。

Vega データセットから Python でデータセットをロードする

私たちが学ぶことができるもう 1 つのオプションは、Vega データセット パッケージです。これは Anaconda では利用できませんが、PIP 経由でインストールできます。これは、Vega データセットをインストールし、ローカル データ モジュールをインストールまたはインポートするためにコマンド ラインに入力するものです。

Python でサンプル データセットをロードする方法

これらの一部は実際に入手できますが、Web 接続が必要です。ローカル データをインポートして実行することで、ローカルにインストールされているものを取り込みます。

Python でサンプル データセットをロードする方法

ご覧のとおり、かなりの数のデータセットがあります。これらの中には時系列のものもありますが、カテゴリ変数または連続変数を持つものもあります。head メソッドを実行できるように、データ フレーム内の車のデータセットを選択しましょう。

Python でサンプル データセットをロードする方法

これで、使用および共有できる別のサンプル データセットができました。

Python でサンプル データセットをロードする方法

Seaborn から Python でデータセットをロードする

Seaborn は、Anaconda ディストリビューションで利用できる別のパッケージです。デフォルトでは、Seaborn はデータ視覚化で最もよく知られていますが、使用できる優れたサンプル データセットもいくつかあります。これは、データセットを取得するために入力するものです。

Python でサンプル データセットをロードする方法

ご覧のとおり、ここにはかなりの数のデータセットがあります。ペンギン データ セットを使用して、最初の数行を再度取得します。

Python でサンプル データセットをロードする方法

その結果、練習用の別のデータセットが得られます。

Python でサンプル データセットをロードする方法

ここでの考え方は、単に練習用のデータセットを用意するということではありません。欠損値が見つかった場合、データセットの削除に問題がある場合、カテゴリ変数を埋めたい場合、または機密データを提供せずに他の人に例を示したい場合は、これらの公的にアクセス可能なデータセットの 1 つを使用するだけで、非常に簡単です。人々が使用し、共有できるように。これが、最小限の再現可能な例のアイデアです。

Python スクリプトを使用した LuckyTemplates で日付テーブルを作成する LuckyTemplates の
Python: LuckyTemplates ユーザー向けに Python I をインストールしてセットアップする方法
– LuckyTemplates 教育プラットフォームの新しいコース

結論

要約すると、サンプル データセットを探す場所は 3 つあります。Scikit-learnは機械学習パッケージです。変換するのは少し難しいですが、機械学習に関連することを行っている場合は、ここを参照してください。特に、Web からデータセットを取得する方法を使用する場合、 Vega データセットにはかなりの数のデータセットがありますが、読み込みが比較的難しいため、Anaconda にプリインストールされているのではなく PIP を使用する必要があります。Seabornは、データ フレームをロードし、サンプル データ セットと再現可能な例を使用する点で多用途性を備えているため、最適です。

Stack Overflow には、最小限の再現性を備えた優れたサンプルまたは MRE を作成する方法に関するチュートリアルもあるので、オンラインで何かを投稿しようとしている場合は、それを確認してください。

優れたデータセットをどこで入手できるかを知り、優れた MRE を共有することは、アナリストとして非常に重要なスキルです。

この特定のチュートリアルで取り上げたコンテンツを気に入っていただけた場合は、LuckyTemplates TV チャンネルに登録してください。私自身やさまざまなコンテンツ作成者からの膨大な量のコンテンツが常に公開されており、その全員が LuckyTemplates と Power Platform の使用方法を改善することに専念しています。


Python における Self とは: 実際の例

Python における Self とは: 実際の例

Python における Self とは: 実際の例

RでRDSファイルを保存してロードする方法

RでRDSファイルを保存してロードする方法

R の .rds ファイルからオブジェクトを保存および読み込む方法を学習します。このブログでは、R から LuckyTemplates にオブジェクトをインポートする方法についても説明します。

最初の N 営業日の再考 – DAX コーディング言語ソリューション

最初の N 営業日の再考 – DAX コーディング言語ソリューション

この DAX コーディング言語チュートリアルでは、GENERATE 関数の使用方法とメジャー タイトルを動的に変更する方法を学びます。

LuckyTemplates のマルチスレッド動的ビジュアル手法を使用したインサイトのショーケース

LuckyTemplates のマルチスレッド動的ビジュアル手法を使用したインサイトのショーケース

このチュートリアルでは、マルチスレッド動的ビジュアル手法を使用して、レポート内の動的データ視覚化から洞察を作成する方法について説明します。

LuckyTemplates のフィルター コンテキストの概要

LuckyTemplates のフィルター コンテキストの概要

この記事では、フィルター コンテキストについて説明します。フィルター コンテキストは、LuckyTemplates ユーザーが最初に学習する必要がある主要なトピックの 1 つです。

LuckyTemplates Online Service でアプリを使用する際の最良のヒント

LuckyTemplates Online Service でアプリを使用する際の最良のヒント

LuckyTemplates Apps オンライン サービスが、さまざまなソースから生成されたさまざまなレポートや分析情報の管理にどのように役立つかを示したいと思います。

時間の経過に伴う利益率の変化を分析する – LuckyTemplates と DAX を使用した分析

時間の経過に伴う利益率の変化を分析する – LuckyTemplates と DAX を使用した分析

LuckyTemplates でのメジャー分岐や DAX 数式の結合などの手法を使用して、利益率の変化を計算する方法を学びます。

DAX Studio でのデータ キャッシュのマテリアライゼーションのアイデア

DAX Studio でのデータ キャッシュのマテリアライゼーションのアイデア

このチュートリアルでは、データ キャッシュの具体化のアイデアと、それが結果を提供する際の DAX のパフォーマンスにどのように影響するかについて説明します。

LuckyTemplates を使用したビジネス レポート

LuckyTemplates を使用したビジネス レポート

これまで Excel を使用している場合は、ビジネス レポートのニーズに合わせて LuckyTemplates の使用を開始するのに最適な時期です。

LuckyTemplates ゲートウェイとは何ですか? 知っておくべきことすべて

LuckyTemplates ゲートウェイとは何ですか? 知っておくべきことすべて

LuckyTemplates ゲートウェイとは何ですか? 知っておくべきことすべて