Zeitreihendaten in Pandas

In diesem Tutorial erfahren Sie, wie Sie Zeitreihendaten mit Pandas erneut abtasten. Das vollständige Video dieses Tutorials können Sie unten in diesem Blog ansehen .

Was ist diese Idee des Resamplings? Dies hängt mit Zeitreihendaten zusammen und wir werden die Häufigkeit ändern, mit der diese Daten gemeldet werden. Ändern Sie beispielsweise den Jahreswert in einen Monats- oder Wochenwert oder die Stundendaten in einen Tageswert. Kurz gesagt, wir verändern die Ebene in der Hierarchie.

Dies kann aus verschiedenen Gründen genutzt werden, z. B. um zuverlässigere Trends , Stichprobengrößen und Saisonalität zu erhalten . Bei einigen Berichten ist es sinnvoller, wenn wir eine Ebene der Hierarchie gegenüber einer anderen verwenden.

Darüber hinaus kann Resampling hilfreich sein, wenn Sie über unterschiedliche Datenquellen verfügen und Zeitreihendaten zusammenführen müssen. Dies hilft auch beim Umgang mit einer Diskrepanz in der Hierarchie .

Zeitreihendaten in Pandas

Um dies weiter aufzuschlüsseln, haben wir Downsampling und Upsampling.

Durch Downsampling soll die Häufigkeit der Berichterstattung verringert werden . Dabei kann es sich beispielsweise um die Umrechnung von einer Sekunde in eine Stunde handeln, um weniger Werte zu erhalten, oder um ein Downsampling von Monat zu Quartal.

Andererseits soll durch Upsampling die Häufigkeit der Berichterstattung von der Monatsebene bis auf den Tag erhöht werden . Wir werden später noch mehr Beispiele dafür haben.

Zeitreihendaten in Pandas

Inhaltsverzeichnis

So berechnen Sie Zeitreihendaten mithilfe von Pandas neu
Verwenden von Upsampling zum Abrufen von Werten
Abschluss

So berechnen Sie Zeitreihendaten mithilfe von Pandas neu

Wie machen wir das in Pandas?

Zunächst ändern wir den Index in unsere Zeitreihendatenspalte . Dann können wir mithilfe der Interpolation ein Upsampling durchführen, das die Werte ausfüllt, und ein Downsampling durchführen, um ein Rollup durchzuführen, indem wir die Werte aggregieren.

Zeitreihendaten in Pandas

Gehen wir zu Jupyter Notebook Python und testen es mit Pandas.

Zunächst verwenden wir Pandas, indem wir import pandas as pd eingeben , gefolgt von import seaborn as sns, um es zu visualisieren, und import matplotlib.pyplot as plt, um die Seaborn-Visualisierung anzupassen .

Als nächstes müssen Sie die Daten aus vega_datasets import data abrufen . Es ist ein schöner Ort, um Beispielquellen zu erhalten. Außerdem erhalten wir die Bibliothek sp = data.sp500 () und sp.head () .

Zeitreihendaten in Pandas

Hier sind unsere bisherigen Daten. Wir haben die täglichen Renditen und Preise für jeden Tag.

Zeitreihendaten in Pandas

Um den Index auf die Datumsspalte festzulegen, geben Sie sp.set_index(['date'], inplace=True) ein und rufen Sie dann sp.head erneut auf.

Zeitreihendaten in Pandas

Verwenden von Upsampling zum Abrufen von Werten

Um dann mehr Werte zu erhalten, verwenden wir Upsampling. Da wir die Daten für jeden Tag haben, können wir mit der einfachsten Funktion sp [['price']] auf die Stunde genau gehen. resample ('H').ffill ( ) und führe es dann aus. H steht für Stunde, M für Monat, D für Tag und so weiter. Weitere Informationen hierzu finden Sie in der Pandas-Dokumentation .

Wie wir sehen können, beträgt der Preis am 1. Januar um Mitternacht 1394,46, genau wie in den folgenden Stunden von 1:00 Uhr bis 4:00 Uhr. Ein weiteres Beispiel ist der 2. Januar, wo der Schlusskurs 1366,42 beträgt.

Zeitreihendaten in Pandas

Es gibt andere Möglichkeiten, dies zu tun, auch wenn der Wert auf Stundenebene nicht verfügbar ist. Außerdem gibt es ausgefeiltere Möglichkeiten als nur eine Vorwärtsfüllung durchzuführen . In unserem Beispiel haben wir die grundlegende Methode zur Upsampling-Interpolation durchgeführt.

Als nächstes gehen wir zum Downsampling über, indem wir avg_month = sp [['price]].resample ('M').mean ( ) und dann avg_month.head ( ) eingeben und zur Überprüfung ausführen.

Wie dargestellt, können wir den letzten Tag jedes Monats und den Durchschnittspreis sehen. Wir können die Stichproben verkleinern, um weniger Werte zu erhalten, was wir Downsizing nennen.

Zeitreihendaten in Pandas

Um dies zu veranschaulichen, geben wir „Re-Plot“ der gezeichneten Dimensionen ein. Dann folgt sns.lineplot . Das Liniendiagramm funktioniert besser mit einer längeren X-Achse, während der Y-Wert den durchschnittlichen monatlichen Preis darstellt.

Führen Sie dies aus, um den Durchschnittspreis für den Monat anzuzeigen.

Zeitreihendaten in Pandas

Auch hier gibt es viele verschiedene Möglichkeiten, dies zu tun. Wenn wir beispielsweise den niedrigsten Preis pro Quartal wissen möchten, müssen wir nur „quarter_low“ und dann „quarter_low.head“ eingeben, um ihn auszuführen.

Dort sehen wir nun den vierteljährlich niedrigsten Wert, der in jedem Quartal gefunden wurde. So führen Sie ein Resample durch.

Zeitreihendaten in Pandas

Umgang mit fehlenden Daten in Python mithilfe der Interpolationsmethode
MultiIndex in Pandas für mehrstufige oder hierarchische Datendatensätze
in Pandas mit ProfileReport | Python in LuckyTemplates

Abschluss

Um das Ganze abzurunden: Pandas ist wirklich für Resampling und Zeitreihendaten konzipiert . Wenn Sie an Zeitreihendaten arbeiten und unterschiedliche Granularitäten haben, kann Resampling sehr hilfreich sein.

Lesen Sie außerdem unbedingt die Pandas-Dokumentation zur Resample-Methode, um viele verschiedene Möglichkeiten kennenzulernen. Wir haben uns die Grundlagen angeschaut, aber Sie können Dinge wie zweiwöchentlich, den letzten Arbeitstag des Monats und weitere Optionen für das Resampling tun.

Alles Gute,

George Mount

Einen Kommentar hinterlassen

Streudiagramm-Visualisierungen mit Charticulator

In diesem Tutorial erfahren Sie, wie Sie mit Charticulator eine Streudiagramm-Visualisierung für Ihren LuckyTemplates-Bericht erstellen und entwerfen.

PowerApps-Suchfeld: So fügen Sie es hinzu und passen es an

Erfahren Sie, wie Sie ein PowerApps-Suchfeld von Grund auf erstellen und es an das Gesamtthema Ihrer App anpassen.

Power Automate String-Funktionen: Substring und IndexOf

Erlernen Sie ganz einfach zwei komplizierte Power Automate String-Funktionen, die in Microsoft Flows verwendet werden können – die Funktionen substring und indexOf.

Power Query M: Abwechselndes 0-1-Muster in der Datumstabelle

Dieses Tutorial konzentriert sich auf die Power Query M-Funktion „number.mod“, um ein abwechselndes 0-1-Muster in der Datumstabelle zu erstellen.

Prognosetechnik: Erkundung der Prognoselogik in LuckyTemplates-Modellen

In diesem Tutorial führe ich eine Prognosetechnik durch, bei der ich meine tatsächlichen Ergebnisse mit meinen Prognosen vergleiche und sie kumulativ betrachte.

Speichern Sie E-Mail-Anhänge in SharePoint mit Power Automate

In diesem Blog erfahren Sie, wie Sie mit Power Automate E-Mail-Anhänge automatisch in SharePoint speichern und E-Mails anschließend löschen.

Führen Sie eine Bis-Loop-Steuerung in Power Automate durch

Erfahren Sie, wie die Do Until Schleifensteuerung in Power Automate funktioniert und welche Schritte zur Implementierung erforderlich sind.

Berechnen eines gleitenden Durchschnitts in LuckyTemplates mithilfe von DAX

In diesem Tutorial erfahren Sie, wie Sie mithilfe der ALLSELECTED-Funktion einen dynamischen gleitenden Durchschnitt in LuckyTemplates berechnen können.

Berechnen Sie dynamisch eine laufende oder kumulative LuckyTemplates-Summe

Durch diesen Artikel erhalten wir ein klares und besseres Verständnis für die dynamische Berechnung einer laufenden oder kumulativen Gesamtsumme in LuckyTemplates.

Power Automate auf jede Aktion in Workflows anwenden

Erfahren und verstehen Sie die Bedeutung und ordnungsgemäße Verwendung der Power Automate-Aktionssteuerung „Auf jede anwenden“ in unseren Microsoft-Workflows.