Panda の時系列データ

このチュートリアルでは、Pandas を使用して時系列データをリサンプリングする方法を学習します。このチュートリアルのビデオ全体は、このブログの下部でご覧いただけます。

このリサンプリングという考え方は何でしょうか? これは時系列データに関連しており、これから行うことは、そのデータが報告される頻度を変更することです。たとえば、年間値を月次または週次に変更したり、時間ごとのデータを日次に変更したりできます。つまり、階層内のレベルを変更しています。

これは、より信頼性の高い傾向、サンプルサイズ、季節性を取得するなど、さまざまな理由で使用できます。一部のレポートでは、あるレベルの階層と別のレベルの階層を使用する方が合理的です。

さらに、リサンプリングは、異なるデータソースがあり、時系列データの結合を実行する必要がある場合に役立ちます。これは、階層内の不一致に対処する場合にも役立ちます。

Panda の時系列データ

これをさらに細分化すると、ダウンサンプリングとアップサンプリングがあります。

ダウンサンプリングは、レポートの頻度を減らすことです。値を少なくするために 1 秒から 1 時間に変換したり、月から四半期にダウンサンプリングしたりすることが考えられます。

一方、アップサンプリングは、レポートの頻度を月レベルから日レベルまで増やすことです。この例については後ほど説明します。

Panda の時系列データ

Pandas を使用して時系列データをリサンプリングする方法
アップサンプリングを使用して値を取得する
結論

Pandas を使用して時系列データをリサンプリングする方法

これを Pandas でどのように行うのでしょうか?

まず、時系列データ列のインデックスを変更します。次に、補間を使用してアップサンプリングして値を埋め、ダウンサンプリングして値を集計してロールアップできます。

Panda の時系列データ

Jupyter Notebook Python に移動して、Pandas でこれを確認してみましょう。

まず、import pandas as pdと入力して Pandas を使用し、続いてimport seaborn as sns を入力して視覚化し、import matplotlib.pyplot as plt を入力してSeaborn の視覚化をカスタマイズします。

次に行うことは、vega_datasets import data からデータを取得することです。サンプルソースを入手するには最適な場所です。また、 sp = data.sp500()とsp.head() ライブラリを取得します。

Panda の時系列データ

これまでのデータは次のとおりです。毎日の収益と価格が表示されます。

Panda の時系列データ

インデックスを日付列に設定するには、「sp.set_index(['date'], inplace=True)」と入力し、もう一度sp.headを呼び出します。

Panda の時系列データ

アップサンプリングを使用して値を取得する

次に、より多くの値を取得するには、アップサンプリングを使用しましょう。毎日のデータがあるので、sp [['price']] という最も単純な関数を使用して時間単位まで下げることができます。('H').ffill () を再サンプルしてから実行します。H は時間を表し、M は月を表し、D は日を表します。これについて詳しくは、Pandas のドキュメントを参照してください。

ご覧のとおり、1 月 1 日午前 0 時の価格は 1394.46 で、その後の午前 1 時から午前 4 時までの時間と同じです。別の例は 1 月 2 日で、終値は 1366.42 です。

Panda の時系列データ