So speichern und laden Sie eine RDS-Datei in R
Sie erfahren, wie Sie Objekte aus einer .rds-Datei in R speichern und laden. In diesem Blog wird auch behandelt, wie Sie Objekte aus R in LuckyTemplates importieren.
Dieses Tutorial ist eine Fortsetzung der Diskussion über das dplyr- Paket. Sie erfahren, wie Sie Zeilen in R anordnen, filtern und gruppieren.
In der vorherigen Lektion ging es um Spaltenoperationen. Dieses Mal liegt der Schwerpunkt auf Zeilenoperationen in dplyr .
Wir behandeln die Grundlagen, darunter das Sortieren und Filtern eines Datensatzes sowie das Aggregieren und Zusammenfassen von Datensätzen . Um Ihnen einen Überblick darüber zu geben, was Sie in dieser Lektion erwartet, stellen Sie sich eine Pivot-Tabelle in MS Excel vor.
Inhaltsverzeichnis
Einstieg
Öffnen Sie ein neues R-Skript in RStudio.
Ähnlich wie in der Lektion zu Spaltenoperationen wird in dieser Demonstration das Lahman-Datensatzpaket verwendet . Laden Sie es herunter, indem Sie eine schnelle Google-Suche durchführen.
Um das Lahman-Paket in R zu importieren, führen Sie „library (Lahman)“ aus . Um das dplyr- Paket zu aktivieren, führen Sie „library (tidyverse)“ aus . Denken Sie außerdem daran, dass eine bewährte Methode für Namenskonventionen in R die Verwendung von Kleinbuchstaben ist, also weisen Sie Teams den Teams zu .
Grundfunktionen für Zeilenoperationen
1. Reihen in R anordnen
Die erste Zeilenoperation in dpylr ist „arrang()“ . Mit dieser Funktion können Sie Zeilen neu anordnen. Es funktioniert, indem zuerst der Datenrahmen df und dann die angegebenen Felder angeordnet werden.
Sortieren wir zum Beispiel nach teamID . Führen Sie „arrange (teams, teamID)“ aus .
Wenn Sie möchten, dass sie in absteigender Reihenfolge angeordnet werden, müssen Sie die Funktion desc () verwenden.
Wenn Sie beispielsweise in absteigender Reihenfolge nach Jahr sortieren möchten, führen Sie „arrange (teams, desc(yearID))“ aus .
Wenn Sie dies tun, weisen Sie die Ausgabe nicht wieder Teams zu . Sie sehen gerade das Ergebnis in der Konsole.
Es ist auch möglich, nach mehreren Kriterien zu sortieren. Wenn Sie beispielsweise nach Team-ID und dann nach Jahres-ID in absteigender Reihenfolge sortieren möchten, müssen Sie nur diesen Code ausführen:
Wenn Sie Zeilen sortieren, ändern Sie nicht die Daten. Die Daten werden nur verschoben. Es wird nichts hinzugefügt oder entfernt.
2. Zeilen in R filtern
Die Filterfunktion ( ) fügt je nach den ausgewählten Kriterien Daten hinzu oder entfernt sie. Sein Grundcode ist:
Als Beispiel rufen wir alle Daten ab, bei denen die Jahres-ID größer oder gleich 2000 ist. Folgen Sie dem Format der Filterfunktion und geben Sie die erforderlichen Informationen ein. Führen Sie es dann aus. Vergessen Sie nicht, dies einem neuen Objekt zuzuweisen. In diesem Fall wurde es der Moderne zugeordnet .
Um zu überprüfen, ob die Zeilen tatsächlich gefiltert wurden, können Sie die Funktion dim() verwenden . Es gibt die Anzahl der Zeilen und Spalten im Datenrahmen an.
Wenn Sie dim (teams) ausführen , sehen Sie, dass der Datenrahmen 2.955 Zeilen und 48 Spalten hat.
Wenn Sie die Funktion dim auf modern ausführen , werden Sie feststellen, dass die Anzahl der Zeilen auf 630 reduziert wurde, während die Anzahl der Spalten gleich bleibt.
Die Zeilen wurden gekürzt, da einige der Datensätze über das Jahr 2000 hinausgehen.
Es ist auch möglich, Zeilen in R nach mehreren Feldern zu filtern. Sie müssen die AND- und OR- Anweisungen verwenden.
Lassen Sie uns beispielsweise Teams nach Bereich filtern. In diesem Fall wird ein neues Objekt Ohio erstellt. Die Filterkriterien lauten, dass teamID nur Cleveland UND Cincinnati umfassen sollte.
Sie müssen das doppelte Gleichheitszeichen ( == ) verwenden, um die Gleichheit zu überprüfen. Wenn Sie nur ein Gleichheitszeichen verwenden, betrachtet R es als Zuweisungsoperator. Verwenden Sie das kaufmännische Und-Zeichen ( & ), um AND darzustellen .
Zur Kontrolle verwenden Sie die Dimmfunktion . Sie werden sehen, dass die Anzahl der Zeilen 0 beträgt.
Das bedeutet, dass es keine Teams gibt, bei denen beide in Cleveland und Cincinnati ansässig sind.
Als nächstes versuchen wir es mit Cleveland ODER Cincinnati. Der ODER-Operator wird durch den Pipe-Operator ( | ) dargestellt . Sie müssen also lediglich das kaufmännische Und durch den Pipe-Operator ersetzen und ihn dann ausführen. Führen Sie anschließend die Dimmfunktion erneut aus.
Sie werden sehen, dass es 251 Zeilen statt null gibt.
Was passiert nun, wenn Sie vergessen, ein doppeltes Gleichheitszeichen zu verwenden und stattdessen nur eines verwenden? Folgendes passiert:
RStudio zeigt in der Konsole eine sehr hilfreiche Fehlermeldung an, die Sie daran erinnert, das doppelte Gleichheitszeichen zu verwenden.
3. Zeilen in R gruppieren und zusammenfassen
Mit der Funktion „Gruppieren nach“ ( ) können Sie Datensätze nach ausgewählten Spalten aggregieren und dann basierend auf dieser Aggregation eine weitere Spalte zusammenfassen.
Die Funktion „Gruppe nach ( )“ folgt diesem Algorithmus:
Lassen Sie uns beispielsweise nach Team-ID gruppieren und sie einem neuen Objekt zuweisen. In diesem Fall heißt das neue Objekt teams_ID . Drucken Sie es dann aus.
In der Konsole werden Sie feststellen, dass in der ersten Zeile steht, dass es sich um ein tibble handelt .
Ein Tibble ist eine deutliche Verbesserung gegenüber dem Basisdatenrahmen. Es handelt sich um eine Funktion im Paket, die das, was sofort verfügbar ist, erweitert und verbessert.
Die zweite Zeile ist Groups . Daher sind die Daten jetzt nach der Spalte „teamID“ gruppiert.
Und damit können Sie jetzt die Funktion „Zusammenfassen“ ( ) für diese Gruppen verwenden.
Hinweis: Die Zusammenfassungsfunktion kann entweder mit einem s oder z erfolgen und hängt von der Verwendung von britischem oder amerikanischem Englisch ab.
Lassen Sie uns beispielsweise die Team-ID zusammenfassen und einige grundlegende zusammenfassende Statistiken erhalten. Suchen wir nach dem Mittelwert, dem Minimum und dem Maximum der Siege für jedes Team. Denken Sie daran, den gesamten Code zu markieren, bevor Sie „ Ausführen“ wählen .
Anschließend können Sie in der Konsole sehen, dass eine Zusammenfassung der Statistiken jedes Teams angezeigt wird. Dies ist einer Pivot-Tabelle sehr ähnlich, in der Sie Daten aggregieren und zusammenfassen.
Datenrahmen in R: Erlernen der Grundlagen
Faktorstufen in R: Verwendung kategorialer und ordinaler Variablen
Hinzufügen, Entfernen und Umbenennen von Spalten in R mit dplyr
Abschluss
Um es noch einmal zusammenzufassen: Zwei Operationen in dplyr wurden besprochen. Ein früheres Tutorial konzentrierte sich auf Spaltenoperationen. In der Zwischenzeit haben Sie in dieser aktuellen Lektion gezeigt, wie Sie Zeilenoperationen mit dem dplyr- Paket in RStudio durchführen. Insbesondere haben Sie gelernt, wie man Zeilen in R anordnet, filtert und gruppiert.
Als nächstes müssen Sie lernen, wie Sie diese beiden Operationen kombinieren können. Die Verwendung aller bisher erlernten Funktionen wird Ihnen bei der Codeerstellung in R sehr hilfreich sein. Eine hilfreichere Technik wäre jedoch eine Pipeline. Dies wird dazu beitragen, dass alles zusammenfließt. Schauen Sie sich also unbedingt auch die nächsten Tutorials an.
Sie erfahren, wie Sie Objekte aus einer .rds-Datei in R speichern und laden. In diesem Blog wird auch behandelt, wie Sie Objekte aus R in LuckyTemplates importieren.
Was ist Self in Python: Beispiele aus der Praxis
In diesem Tutorial zur DAX-Codierungssprache erfahren Sie, wie Sie die GENERATE-Funktion verwenden und einen Kennzahltitel dynamisch ändern.
In diesem Tutorial erfahren Sie, wie Sie mithilfe der Multi-Threaded-Dynamic-Visuals-Technik Erkenntnisse aus dynamischen Datenvisualisierungen in Ihren Berichten gewinnen.
In diesem Artikel werde ich den Filterkontext durchgehen. Der Filterkontext ist eines der Hauptthemen, über die sich jeder LuckyTemplates-Benutzer zunächst informieren sollte.
Ich möchte zeigen, wie der LuckyTemplates Apps-Onlinedienst bei der Verwaltung verschiedener Berichte und Erkenntnisse aus verschiedenen Quellen helfen kann.
Erfahren Sie, wie Sie Ihre Gewinnmargenänderungen mithilfe von Techniken wie Kennzahlenverzweigung und der Kombination von DAX-Formeln in LuckyTemplates ermitteln.
In diesem Tutorial werden die Ideen der Materialisierung von Datencaches und deren Auswirkungen auf die Leistung von DAXs bei der Bereitstellung von Ergebnissen erläutert.
Wenn Sie bisher noch Excel verwenden, ist dies der beste Zeitpunkt, LuckyTemplates für Ihre Geschäftsberichtsanforderungen zu verwenden.
Was ist LuckyTemplates Gateway? Alles was du wissen musst