Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Dieses Tutorial ist eine Fortsetzung der Diskussion über das dplyr- Paket. Sie erfahren, wie Sie Zeilen in R anordnen, filtern und gruppieren.

In der vorherigen Lektion ging es um Spaltenoperationen. Dieses Mal liegt der Schwerpunkt auf Zeilenoperationen in dplyr .

Wir behandeln die Grundlagen, darunter das Sortieren und Filtern eines Datensatzes sowie das Aggregieren und Zusammenfassen von Datensätzen . Um Ihnen einen Überblick darüber zu geben, was Sie in dieser Lektion erwartet, stellen Sie sich eine Pivot-Tabelle in MS Excel vor.

Inhaltsverzeichnis

Einstieg

Öffnen Sie ein neues R-Skript in RStudio.

Ähnlich wie in der Lektion zu Spaltenoperationen wird in dieser Demonstration das Lahman-Datensatzpaket verwendet . Laden Sie es herunter, indem Sie eine schnelle Google-Suche durchführen.

Um das Lahman-Paket in R zu importieren, führen Sie „library (Lahman)“ aus . Um das dplyr- Paket zu aktivieren, führen Sie „library (tidyverse)“ aus . Denken Sie außerdem daran, dass eine bewährte Methode für Namenskonventionen in R die Verwendung von Kleinbuchstaben ist, also weisen Sie Teams den Teams zu .

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Grundfunktionen für Zeilenoperationen

1. Reihen in R anordnen

Die erste Zeilenoperation in dpylr ist „arrang()“ . Mit dieser Funktion können Sie Zeilen neu anordnen. Es funktioniert, indem zuerst der Datenrahmen df und dann die angegebenen Felder angeordnet werden.

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Sortieren wir zum Beispiel nach teamID . Führen Sie „arrange (teams, teamID)“ aus .

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Wenn Sie möchten, dass sie in absteigender Reihenfolge angeordnet werden, müssen Sie die Funktion desc () verwenden.

Wenn Sie beispielsweise in absteigender Reihenfolge nach Jahr sortieren möchten, führen Sie „arrange (teams, desc(yearID))“ aus .

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Wenn Sie dies tun, weisen Sie die Ausgabe nicht wieder Teams zu . Sie sehen gerade das Ergebnis in der Konsole.

Es ist auch möglich, nach mehreren Kriterien zu sortieren. Wenn Sie beispielsweise nach Team-ID und dann nach Jahres-ID in absteigender Reihenfolge sortieren möchten, müssen Sie nur diesen Code ausführen:

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Wenn Sie Zeilen sortieren, ändern Sie nicht die Daten. Die Daten werden nur verschoben. Es wird nichts hinzugefügt oder entfernt.

2. Zeilen in R filtern

Die Filterfunktion ( ) fügt je nach den ausgewählten Kriterien Daten hinzu oder entfernt sie. Sein Grundcode ist:

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Als Beispiel rufen wir alle Daten ab, bei denen die Jahres-ID größer oder gleich 2000 ist. Folgen Sie dem Format der Filterfunktion und geben Sie die erforderlichen Informationen ein. Führen Sie es dann aus. Vergessen Sie nicht, dies einem neuen Objekt zuzuweisen. In diesem Fall wurde es der Moderne zugeordnet .

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Um zu überprüfen, ob die Zeilen tatsächlich gefiltert wurden, können Sie die Funktion dim() verwenden . Es gibt die Anzahl der Zeilen und Spalten im Datenrahmen an.

Wenn Sie dim (teams) ausführen , sehen Sie, dass der Datenrahmen 2.955 Zeilen und 48 Spalten hat.

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Wenn Sie die Funktion dim auf modern ausführen , werden Sie feststellen, dass die Anzahl der Zeilen auf 630 reduziert wurde, während die Anzahl der Spalten gleich bleibt.

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Die Zeilen wurden gekürzt, da einige der Datensätze über das Jahr 2000 hinausgehen.

Zeilen nach mehreren Feldern filtern

Es ist auch möglich, Zeilen in R nach mehreren Feldern zu filtern. Sie müssen die AND- und OR- Anweisungen verwenden.

Lassen Sie uns beispielsweise Teams nach Bereich filtern. In diesem Fall wird ein neues Objekt Ohio erstellt. Die Filterkriterien lauten, dass teamID nur Cleveland UND Cincinnati umfassen sollte.

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Sie müssen das doppelte Gleichheitszeichen ( == ) verwenden, um die Gleichheit zu überprüfen. Wenn Sie nur ein Gleichheitszeichen verwenden, betrachtet R es als Zuweisungsoperator. Verwenden Sie das kaufmännische Und-Zeichen ( & ), um AND darzustellen .

Zur Kontrolle verwenden Sie die Dimmfunktion . Sie werden sehen, dass die Anzahl der Zeilen 0 beträgt.

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Das bedeutet, dass es keine Teams gibt, bei denen beide in Cleveland und Cincinnati ansässig sind.

Als nächstes versuchen wir es mit Cleveland ODER Cincinnati. Der ODER-Operator wird durch den Pipe-Operator ( | ) dargestellt . Sie müssen also lediglich das kaufmännische Und durch den Pipe-Operator ersetzen und ihn dann ausführen. Führen Sie anschließend die Dimmfunktion erneut aus.

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Sie werden sehen, dass es 251 Zeilen statt null gibt.

Was passiert nun, wenn Sie vergessen, ein doppeltes Gleichheitszeichen zu verwenden und stattdessen nur eines verwenden? Folgendes passiert:

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

RStudio zeigt in der Konsole eine sehr hilfreiche Fehlermeldung an, die Sie daran erinnert, das doppelte Gleichheitszeichen zu verwenden.

3. Zeilen in R gruppieren und zusammenfassen

Mit der Funktion „Gruppieren nach“ ( ) können Sie Datensätze nach ausgewählten Spalten aggregieren und dann basierend auf dieser Aggregation eine weitere Spalte zusammenfassen.

Die Funktion „Gruppe nach ( )“ folgt diesem Algorithmus:

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Lassen Sie uns beispielsweise nach Team-ID gruppieren und sie einem neuen Objekt zuweisen. In diesem Fall heißt das neue Objekt teams_ID . Drucken Sie es dann aus.

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

In der Konsole werden Sie feststellen, dass in der ersten Zeile steht, dass es sich um ein tibble handelt .

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Ein Tibble ist eine deutliche Verbesserung gegenüber dem Basisdatenrahmen. Es handelt sich um eine Funktion im Paket, die das, was sofort verfügbar ist, erweitert und verbessert.

Die zweite Zeile ist Groups . Daher sind die Daten jetzt nach der Spalte „teamID“ gruppiert.

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Und damit können Sie jetzt die Funktion „Zusammenfassen“ ( ) für diese Gruppen verwenden.

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Hinweis: Die Zusammenfassungsfunktion kann entweder mit einem s oder z erfolgen und hängt von der Verwendung von britischem oder amerikanischem Englisch ab.

Lassen Sie uns beispielsweise die Team-ID zusammenfassen und einige grundlegende zusammenfassende Statistiken erhalten. Suchen wir nach dem Mittelwert, dem Minimum und dem Maximum der Siege für jedes Team. Denken Sie daran, den gesamten Code zu markieren, bevor Sie „ Ausführen“ wählen .

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Anschließend können Sie in der Konsole sehen, dass eine Zusammenfassung der Statistiken jedes Teams angezeigt wird. Dies ist einer Pivot-Tabelle sehr ähnlich, in der Sie Daten aggregieren und zusammenfassen.


Datenrahmen in R: Erlernen der Grundlagen
Faktorstufen in R: Verwendung kategorialer und ordinaler Variablen
Hinzufügen, Entfernen und Umbenennen von Spalten in R mit dplyr

Abschluss

Um es noch einmal zusammenzufassen: Zwei Operationen in dplyr wurden besprochen. Ein früheres Tutorial konzentrierte sich auf Spaltenoperationen. In der Zwischenzeit haben Sie in dieser aktuellen Lektion gezeigt, wie Sie Zeilenoperationen mit dem dplyr- Paket in RStudio durchführen. Insbesondere haben Sie gelernt, wie man Zeilen in R anordnet, filtert und gruppiert.

Als nächstes müssen Sie lernen, wie Sie diese beiden Operationen kombinieren können. Die Verwendung aller bisher erlernten Funktionen wird Ihnen bei der Codeerstellung in R sehr hilfreich sein. Eine hilfreichere Technik wäre jedoch eine Pipeline. Dies wird dazu beitragen, dass alles zusammenfließt. Schauen Sie sich also unbedingt auch die nächsten Tutorials an.


So speichern und laden Sie eine RDS-Datei in R

So speichern und laden Sie eine RDS-Datei in R

Sie erfahren, wie Sie Objekte aus einer .rds-Datei in R speichern und laden. In diesem Blog wird auch behandelt, wie Sie Objekte aus R in LuckyTemplates importieren.

Was ist Self in Python: Beispiele aus der Praxis

Was ist Self in Python: Beispiele aus der Praxis

Was ist Self in Python: Beispiele aus der Praxis

First N Business Days Revisited – Eine DAX-Codierungssprachenlösung

First N Business Days Revisited – Eine DAX-Codierungssprachenlösung

In diesem Tutorial zur DAX-Codierungssprache erfahren Sie, wie Sie die GENERATE-Funktion verwenden und einen Kennzahltitel dynamisch ändern.

Präsentieren Sie Einblicke mithilfe der Multi-Threaded-Dynamic-Visuals-Technik in LuckyTemplates

Präsentieren Sie Einblicke mithilfe der Multi-Threaded-Dynamic-Visuals-Technik in LuckyTemplates

In diesem Tutorial erfahren Sie, wie Sie mithilfe der Multi-Threaded-Dynamic-Visuals-Technik Erkenntnisse aus dynamischen Datenvisualisierungen in Ihren Berichten gewinnen.

Einführung in den Filterkontext in LuckyTemplates

Einführung in den Filterkontext in LuckyTemplates

In diesem Artikel werde ich den Filterkontext durchgehen. Der Filterkontext ist eines der Hauptthemen, über die sich jeder LuckyTemplates-Benutzer zunächst informieren sollte.

Beste Tipps zur Verwendung der Apps im LuckyTemplates-Onlinedienst

Beste Tipps zur Verwendung der Apps im LuckyTemplates-Onlinedienst

Ich möchte zeigen, wie der LuckyTemplates Apps-Onlinedienst bei der Verwaltung verschiedener Berichte und Erkenntnisse aus verschiedenen Quellen helfen kann.

Analysieren Sie Gewinnmargenänderungen im Laufe der Zeit – Analysen mit LuckyTemplates und DAX

Analysieren Sie Gewinnmargenänderungen im Laufe der Zeit – Analysen mit LuckyTemplates und DAX

Erfahren Sie, wie Sie Ihre Gewinnmargenänderungen mithilfe von Techniken wie Kennzahlenverzweigung und der Kombination von DAX-Formeln in LuckyTemplates ermitteln.

Materialisierungsideen für Datencaches in DAX Studio

Materialisierungsideen für Datencaches in DAX Studio

In diesem Tutorial werden die Ideen der Materialisierung von Datencaches und deren Auswirkungen auf die Leistung von DAXs bei der Bereitstellung von Ergebnissen erläutert.

Geschäftsberichte mit LuckyTemplates

Geschäftsberichte mit LuckyTemplates

Wenn Sie bisher noch Excel verwenden, ist dies der beste Zeitpunkt, LuckyTemplates für Ihre Geschäftsberichtsanforderungen zu verwenden.

Was ist LuckyTemplates Gateway? Alles was du wissen musst

Was ist LuckyTemplates Gateway? Alles was du wissen musst

Was ist LuckyTemplates Gateway? Alles was du wissen musst