So speichern und laden Sie eine RDS-Datei in R
Sie erfahren, wie Sie Objekte aus einer .rds-Datei in R speichern und laden. In diesem Blog wird auch behandelt, wie Sie Objekte aus R in LuckyTemplates importieren.
Interpolation ist eine Methode zum Generieren von Punkten zwischen gegebenen Punkten. In diesem Tutorial werde ich zeigen, wie Sie Interpolation zum Umgang mit fehlenden Daten in Python verwenden können. Das vollständige Video dieses Tutorials können Sie unten in diesem Blog ansehen.
In Python ist Interpolation eine Technik, die hauptsächlich dazu verwendet wird, fehlende Werte im Datenrahmen oder in der Datenreihe bei der Vorverarbeitung von Daten zu unterstellen. Ich zeige, wie Sie diese Methode verwenden können, um fehlende Datenpunkte in Ihren Daten mithilfe von Python in LuckyTemplates zu schätzen.
Wenn wir uns hier unten unsere Originaldaten ansehen, die im oberen Diagramm dargestellt sind, können wir feststellen, dass es viele Lücken oder fehlende Daten gibt, die wir nicht grafisch darstellen können, weil dort nichts vorhanden ist. Aber in der unteren Grafik können wir sehen, dass wir einige Schätzungen vorgenommen haben, um herauszufinden, wie diese Daten aussehen könnten. Die tatsächlichen Daten werden in Hellblau dargestellt, während die interpolierten Daten in Dunkelblau dargestellt werden.
Es gibt verschiedene Arten von Schätzungen, die wir durchführen werden. Wir werden eine lineare Interpolation, eine Nearest-Interpolation und dann eine gewichtete Zeitinterpolation durchführen. Jedes davon wird uns leicht unterschiedliche Ergebnisse liefern.
Im obigen Beispiel wird die gewichtete Zeitinterpolation verwendet, die fast genauso aussieht wie die lineare Interpolation, mit der Ausnahme, dass diese auf der Grundlage der Tage gewichtet wird. Linear schätzte die Daten basierend auf der Steigung zwischen diesen beiden Datenpunkten. Die Nearest-Interpolation verfügt über eine flachere Art der Schätzung, wie Sie unten sehen können. Dabei haben wir uns den nächstgelegenen Wert angesehen und konnten abschätzen, was zwischen diesen beiden liegt.
Gehen wir also zu einem Jupyter-Notebook und bringen es ein.
Inhaltsverzeichnis
Verwendung der Interpolation beim Umgang mit fehlenden Daten in Python
Sie könnten den Skripteditor verwenden, um alles als Skript auszuführen, aber es ist einfacher. Sie erhalten mehr Feedback in Ihrem Jupyter-Notizbuch. Lassen Sie uns also dokumentieren, was wir tun. Wenn wir dies kopieren und in unseren Python-Skripteditor einfügen, ist es sehr sauber und klar.
Importieren wir die gewünschten Bibliotheken, importieren wir Pandas und speichern sie als variable PD. Wir werden Numpy importieren und als Variable NP speichern. Pandas ist eine Datenmanipulationsbibliothek, während Numpy uns auch die Datenmanipulation ermöglicht und uns etwas lineare Algebra bietet.
Wir möchten unseren Datensatz einbringen und diesen als Variable df speichern . Und wir werden einfach die Pandas-Variable ( pd ) und die Funktion read.csv verwenden. Dann kopieren wir die Datei und fügen sie dort ein, wo sie auf unserem PC vorhanden ist. Meins befindet sich in meinem Arbeitsverzeichnis, also muss ich nur „machines.csv“ schreiben und das in Klammern einschließen.
Und werfen wir einen Blick auf unseren Datensatz, indem wir einfach die Variable df verwenden. Wie Sie sehen, gilt dies vom 1. bis zum 25. Jahr 2022. Bis zum 15. sind es aufeinanderfolgende Tage, und dann fehlen am 19. vier Tage, am 22. fehlen drei Tage und am 25. zwei Tage.
An den übersprungenen Tagen fehlen keine Daten. Das sind einfach keine Daten in unserem Datensatz. Wir werden uns mit fehlenden Daten befassen, die mit diesen NaN-Werten oder ohne Werten dargestellt werden .
Nachdem wir nun unseren Datensatz haben, verwenden wir unsere verschiedenen Interpretationsarten und speichern sie als unterschiedliche Spalten. Wir können sehen, dass wir ein Objekt haben , das durch einen Text dargestellt wird, und dass wir auch einen Float haben.
Ich werde die Datumsspalte mithilfe der Klammernotation isolieren. Dann werde ich „equals“ verwenden, um dies zuzuweisen. Ich werde die Variable pd verwenden und dann einfach die Funktion to_datetime verwenden. Und dann schließe ich diese Funktion mit der Klammer ab und füge die Spalte „Datum“ hinzu.
Wir können sehen, dass wir jetzt das Datum als richtigen Datentyp haben.
Wir haben hier einen Index, der durch die Zahlen 1 bis 18 angegeben wird. Wenn wir „Linear“ verwenden, werden diese Zahlen verwendet, um eine lineare Verbindung zwischen den vorhandenen Datenpunkten herzustellen. Wir möchten aber auch eine zeitgewichtete Interpolation verwenden können, die die Zeit betrachtet und uns die Ergebnisse basierend auf den tatsächlichen Tagen liefert. Wir möchten die Datumsspalte als Index festlegen, damit wir sie verwenden können.
Ich werde meine Datenrahmenvariable (df) verwenden und set_index ausführen. Wir müssen einen Parameter namens „inplace“ übergeben, um sicherzustellen, dass er dauerhaft übergeben wird. Ich verwende also „inplace equal true“ und drücke dann die Umschalttaste und gebe die Eingabetaste ein. Und damit sehen Sie, dass der numerische Index verschwunden ist und wir einen Datetime-Index haben.
Jetzt können wir mit dem Aufbau der gewünschten Spalten beginnen. Erstellen wir eine Spalte, in der wir den nächstgelegenen Datenpunkt interpolieren, wodurch diese fehlenden Werte mit dem nächstgelegenen Wert gefüllt werden. Wir möchten eine Spalte namens „users_nearest“ erstellen und diese einer Benutzerspalte zuweisen .
Wir möchten eine Spalte namens user_nearest erstellen und diese einer Benutzerspalte zuweisen. Und da wir diese Spalte nun isoliert haben, können wir die Interpolationsfunktion verwenden und die Umschalt-Tab-Taste drücken, um zu sehen, welche Parameter diese Funktion annimmt. Es gibt viele verschiedene Arten von Methoden.
Sie können sehen, dass die Standardeinstellung linear ist. Wenn Sie möchten, dass alle verschiedenen Methoden angezeigt werden, finden Sie darin Informationen. Sie können dies ganz nach oben öffnen und es gibt hier viele Informationen, die Ihnen viele Einblicke geben. Aber es ist immer besser, auf die Pandas-Website zu gehen und sich die verschiedenen Arten von Interpolationen anzusehen.
Jetzt übergeben wir die gewünschte Methode und verwenden die Methode „Nearest Interpolation“. Alles, was wir tun müssen, ist, dies auszuführen, und Sie können sehen, dass eine Spalte erstellt wird. Wenn wir uns diese bestimmte Zeile ansehen, können wir darin einen fehlenden Wert erkennen. Und Sie können sehen, dass dort interpoliert wurde, wo der nächstgelegene Wert genommen und hier hinzugefügt wurde. Wie Sie sehen, fehlen uns für diese bestimmte Zeile keine Werte mehr.
Kopieren wir dies nun zweimal und ändern wir die Namen dieser Spalten in user_linear und user_time . Wir werden auch die Methoden ändern, um sie an unsere Überschriften anzupassen. Wir können verschieben und eingeben, und Sie können sehen, dass wir drei Spalten basierend auf verschiedenen Arten von Interpolationsmethoden erstellt haben.
Als nächstes möchte ich eine weitere bestimmte Spalte erstellen, die es uns ermöglicht, anzugeben, welche davon leer sind, wie eine Markierung in unseren Daten. Wir werden dafür Numpy verwenden.
Also erstellen wir einfach eine neue Spalte mit dem Namen df und nennen sie dann flag. Wir werden das mit diesem Gleichheitszeichen zuweisen. Dann verwenden wir np , unsere Numpy-Variable. Und dann verwenden wir die Where- Funktion, die eine bedingte Funktion ist. Wir legen die Bedingung fest und erhalten dann ein Beispiel für wahr und falsch. Wir verwenden Double Equals, was in Python gleich ist. Wenn es wahr ist, sagen wir „Fehlende Daten“ . Die andere Option ist Data .
Wir können diese Flagge in unserem Bild verwenden. Sobald wir in Ihrem Notizbuch sind, gehen Sie zu „Transformieren“ und klicken Sie auf „Python-Skript ausführen“. Jetzt gibt es ein paar verschiedene Schritte. Wir müssen dafür sorgen, dass dies in der LuckyTemplates- Umgebung funktioniert .
Wir haben alle unsere Codes hier und müssen noch ein paar Schritte hinzufügen. Erstens müssen wir, wenn wir uns mit Datum und Uhrzeit befassen, einen Fehlerparameter hinzufügen, der besagt, dass wir Fehler erzwingen oder versuchen können, sie zu ändern. Deshalb setze ich hier „ errors equal“ und dann „coerce“ in Klammern . Als nächstes müssen wir die Datensatzvariable als df neu zuweisen.
Wenn wir auf „OK“ klicken, erhalten wir eine weitere Fehlermeldung, und wir müssen Folgendes tun, um das Problem zu beheben. Wenn wir unsere Schritte durchgehen, darf unser Datum nicht formatiert sein. Wir lassen Python mit den Datumsangaben arbeiten, da Datumsangaben für jede Plattform einzigartig sind. Als erstes müssen wir Changed Type entfernen .
Wir haben die Spalte „Datum“ nicht, da das Datum der Index ist. Also kehren wir zu unserem Python-Skript zurück und setzen dann einfach unseren Index df.reset_index zurück . Wir sagen, dass wir es in dieser Klammer auf die Umgehung der Datumsspalte zurücksetzen möchten, und dann möchten wir inplace = true ausführen .
Und jetzt haben wir das Datum und alle unsere anderen Datentypen sind vollständig.
Wenn wir das visuell darstellen, sieht es in drei verschiedenen Interpolationsmethoden beim Umgang mit fehlenden Daten in Python so aus.
Währungskurse in LuckyTemplates: Umgang mit fehlenden Daten
Python-Skripting in LuckyTemplates-Datenberichten
So laden Sie Beispieldatensätze in Python
Abschluss
In diesem Tutorial haben Sie drei Interpolationsmethoden für den Umgang mit fehlenden Daten in Python kennengelernt . Wir haben die Methoden der linearen, der nächsten und der gewichteten Zeitinterpolation besprochen.
Ich hoffe, dass Sie dies nützlich finden und es in Ihrer eigenen Arbeit anwenden. Für weitere Details können Sie sich das vollständige Video-Tutorial unten ansehen und über die Links unten weitere verwandte Inhalte zum Umgang mit fehlenden Daten in Python finden.
Alles Gute!
Gaelim
Sie erfahren, wie Sie Objekte aus einer .rds-Datei in R speichern und laden. In diesem Blog wird auch behandelt, wie Sie Objekte aus R in LuckyTemplates importieren.
Was ist Self in Python: Beispiele aus der Praxis
In diesem Tutorial zur DAX-Codierungssprache erfahren Sie, wie Sie die GENERATE-Funktion verwenden und einen Kennzahltitel dynamisch ändern.
In diesem Tutorial erfahren Sie, wie Sie mithilfe der Multi-Threaded-Dynamic-Visuals-Technik Erkenntnisse aus dynamischen Datenvisualisierungen in Ihren Berichten gewinnen.
In diesem Artikel werde ich den Filterkontext durchgehen. Der Filterkontext ist eines der Hauptthemen, über die sich jeder LuckyTemplates-Benutzer zunächst informieren sollte.
Ich möchte zeigen, wie der LuckyTemplates Apps-Onlinedienst bei der Verwaltung verschiedener Berichte und Erkenntnisse aus verschiedenen Quellen helfen kann.
Erfahren Sie, wie Sie Ihre Gewinnmargenänderungen mithilfe von Techniken wie Kennzahlenverzweigung und der Kombination von DAX-Formeln in LuckyTemplates ermitteln.
In diesem Tutorial werden die Ideen der Materialisierung von Datencaches und deren Auswirkungen auf die Leistung von DAXs bei der Bereitstellung von Ergebnissen erläutert.
Wenn Sie bisher noch Excel verwenden, ist dies der beste Zeitpunkt, LuckyTemplates für Ihre Geschäftsberichtsanforderungen zu verwenden.
Was ist LuckyTemplates Gateway? Alles was du wissen musst