Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Dieses Tutorial ist eine Fortsetzung der Diskussion über das dplyr- Paket. Sie erfahren, wie Sie Zeilen in R anordnen, filtern und gruppieren.

In der vorherigen Lektion ging es um Spaltenoperationen. Dieses Mal liegt der Schwerpunkt auf Zeilenoperationen in dplyr .

Wir behandeln die Grundlagen, darunter das Sortieren und Filtern eines Datensatzes sowie das Aggregieren und Zusammenfassen von Datensätzen . Um Ihnen einen Überblick darüber zu geben, was Sie in dieser Lektion erwartet, stellen Sie sich eine Pivot-Tabelle in MS Excel vor.

Inhaltsverzeichnis

Einstieg

Öffnen Sie ein neues R-Skript in RStudio.

Ähnlich wie in der Lektion zu Spaltenoperationen wird in dieser Demonstration das Lahman-Datensatzpaket verwendet . Laden Sie es herunter, indem Sie eine schnelle Google-Suche durchführen.

Um das Lahman-Paket in R zu importieren, führen Sie „library (Lahman)“ aus . Um das dplyr- Paket zu aktivieren, führen Sie „library (tidyverse)“ aus . Denken Sie außerdem daran, dass eine bewährte Methode für Namenskonventionen in R die Verwendung von Kleinbuchstaben ist, also weisen Sie Teams den Teams zu .

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Grundfunktionen für Zeilenoperationen

1. Reihen in R anordnen

Die erste Zeilenoperation in dpylr ist „arrang()“ . Mit dieser Funktion können Sie Zeilen neu anordnen. Es funktioniert, indem zuerst der Datenrahmen df und dann die angegebenen Felder angeordnet werden.

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Sortieren wir zum Beispiel nach teamID . Führen Sie „arrange (teams, teamID)“ aus .

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Wenn Sie möchten, dass sie in absteigender Reihenfolge angeordnet werden, müssen Sie die Funktion desc () verwenden.

Wenn Sie beispielsweise in absteigender Reihenfolge nach Jahr sortieren möchten, führen Sie „arrange (teams, desc(yearID))“ aus .

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Wenn Sie dies tun, weisen Sie die Ausgabe nicht wieder Teams zu . Sie sehen gerade das Ergebnis in der Konsole.

Es ist auch möglich, nach mehreren Kriterien zu sortieren. Wenn Sie beispielsweise nach Team-ID und dann nach Jahres-ID in absteigender Reihenfolge sortieren möchten, müssen Sie nur diesen Code ausführen:

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Wenn Sie Zeilen sortieren, ändern Sie nicht die Daten. Die Daten werden nur verschoben. Es wird nichts hinzugefügt oder entfernt.

2. Zeilen in R filtern

Die Filterfunktion ( ) fügt je nach den ausgewählten Kriterien Daten hinzu oder entfernt sie. Sein Grundcode ist:

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Als Beispiel rufen wir alle Daten ab, bei denen die Jahres-ID größer oder gleich 2000 ist. Folgen Sie dem Format der Filterfunktion und geben Sie die erforderlichen Informationen ein. Führen Sie es dann aus. Vergessen Sie nicht, dies einem neuen Objekt zuzuweisen. In diesem Fall wurde es der Moderne zugeordnet .

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Um zu überprüfen, ob die Zeilen tatsächlich gefiltert wurden, können Sie die Funktion dim() verwenden . Es gibt die Anzahl der Zeilen und Spalten im Datenrahmen an.

Wenn Sie dim (teams) ausführen , sehen Sie, dass der Datenrahmen 2.955 Zeilen und 48 Spalten hat.

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Wenn Sie die Funktion dim auf modern ausführen , werden Sie feststellen, dass die Anzahl der Zeilen auf 630 reduziert wurde, während die Anzahl der Spalten gleich bleibt.

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Die Zeilen wurden gekürzt, da einige der Datensätze über das Jahr 2000 hinausgehen.

Zeilen nach mehreren Feldern filtern

Es ist auch möglich, Zeilen in R nach mehreren Feldern zu filtern. Sie müssen die AND- und OR- Anweisungen verwenden.

Lassen Sie uns beispielsweise Teams nach Bereich filtern. In diesem Fall wird ein neues Objekt Ohio erstellt. Die Filterkriterien lauten, dass teamID nur Cleveland UND Cincinnati umfassen sollte.

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Sie müssen das doppelte Gleichheitszeichen ( == ) verwenden, um die Gleichheit zu überprüfen. Wenn Sie nur ein Gleichheitszeichen verwenden, betrachtet R es als Zuweisungsoperator. Verwenden Sie das kaufmännische Und-Zeichen ( & ), um AND darzustellen .

Zur Kontrolle verwenden Sie die Dimmfunktion . Sie werden sehen, dass die Anzahl der Zeilen 0 beträgt.

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Das bedeutet, dass es keine Teams gibt, bei denen beide in Cleveland und Cincinnati ansässig sind.

Als nächstes versuchen wir es mit Cleveland ODER Cincinnati. Der ODER-Operator wird durch den Pipe-Operator ( | ) dargestellt . Sie müssen also lediglich das kaufmännische Und durch den Pipe-Operator ersetzen und ihn dann ausführen. Führen Sie anschließend die Dimmfunktion erneut aus.

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Sie werden sehen, dass es 251 Zeilen statt null gibt.

Was passiert nun, wenn Sie vergessen, ein doppeltes Gleichheitszeichen zu verwenden und stattdessen nur eines verwenden? Folgendes passiert:

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

RStudio zeigt in der Konsole eine sehr hilfreiche Fehlermeldung an, die Sie daran erinnert, das doppelte Gleichheitszeichen zu verwenden.

3. Zeilen in R gruppieren und zusammenfassen

Mit der Funktion „Gruppieren nach“ ( ) können Sie Datensätze nach ausgewählten Spalten aggregieren und dann basierend auf dieser Aggregation eine weitere Spalte zusammenfassen.

Die Funktion „Gruppe nach ( )“ folgt diesem Algorithmus:

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Lassen Sie uns beispielsweise nach Team-ID gruppieren und sie einem neuen Objekt zuweisen. In diesem Fall heißt das neue Objekt teams_ID . Drucken Sie es dann aus.

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

In der Konsole werden Sie feststellen, dass in der ersten Zeile steht, dass es sich um ein tibble handelt .

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Ein Tibble ist eine deutliche Verbesserung gegenüber dem Basisdatenrahmen. Es handelt sich um eine Funktion im Paket, die das, was sofort verfügbar ist, erweitert und verbessert.

Die zweite Zeile ist Groups . Daher sind die Daten jetzt nach der Spalte „teamID“ gruppiert.

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Und damit können Sie jetzt die Funktion „Zusammenfassen“ ( ) für diese Gruppen verwenden.

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Hinweis: Die Zusammenfassungsfunktion kann entweder mit einem s oder z erfolgen und hängt von der Verwendung von britischem oder amerikanischem Englisch ab.

Lassen Sie uns beispielsweise die Team-ID zusammenfassen und einige grundlegende zusammenfassende Statistiken erhalten. Suchen wir nach dem Mittelwert, dem Minimum und dem Maximum der Siege für jedes Team. Denken Sie daran, den gesamten Code zu markieren, bevor Sie „ Ausführen“ wählen .

Ordnen, filtern und gruppieren Sie Zeilen in R mit Dplyr

Anschließend können Sie in der Konsole sehen, dass eine Zusammenfassung der Statistiken jedes Teams angezeigt wird. Dies ist einer Pivot-Tabelle sehr ähnlich, in der Sie Daten aggregieren und zusammenfassen.


Datenrahmen in R: Erlernen der Grundlagen
Faktorstufen in R: Verwendung kategorialer und ordinaler Variablen
Hinzufügen, Entfernen und Umbenennen von Spalten in R mit dplyr

Abschluss

Um es noch einmal zusammenzufassen: Zwei Operationen in dplyr wurden besprochen. Ein früheres Tutorial konzentrierte sich auf Spaltenoperationen. In der Zwischenzeit haben Sie in dieser aktuellen Lektion gezeigt, wie Sie Zeilenoperationen mit dem dplyr- Paket in RStudio durchführen. Insbesondere haben Sie gelernt, wie man Zeilen in R anordnet, filtert und gruppiert.

Als nächstes müssen Sie lernen, wie Sie diese beiden Operationen kombinieren können. Die Verwendung aller bisher erlernten Funktionen wird Ihnen bei der Codeerstellung in R sehr hilfreich sein. Eine hilfreichere Technik wäre jedoch eine Pipeline. Dies wird dazu beitragen, dass alles zusammenfließt. Schauen Sie sich also unbedingt auch die nächsten Tutorials an.


Streudiagramm-Visualisierungen mit Charticulator

Streudiagramm-Visualisierungen mit Charticulator

In diesem Tutorial erfahren Sie, wie Sie mit Charticulator eine Streudiagramm-Visualisierung für Ihren LuckyTemplates-Bericht erstellen und entwerfen.

PowerApps-Suchfeld: So fügen Sie es hinzu und passen es an

PowerApps-Suchfeld: So fügen Sie es hinzu und passen es an

Erfahren Sie, wie Sie ein PowerApps-Suchfeld von Grund auf erstellen und es an das Gesamtthema Ihrer App anpassen.

Power Automate String-Funktionen: Substring und IndexOf

Power Automate String-Funktionen: Substring und IndexOf

Erlernen Sie ganz einfach zwei komplizierte Power Automate String-Funktionen, die in Microsoft Flows verwendet werden können – die Funktionen substring und indexOf.

Power Query M: Abwechselndes 0-1-Muster in der Datumstabelle

Power Query M: Abwechselndes 0-1-Muster in der Datumstabelle

Dieses Tutorial konzentriert sich auf die Power Query M-Funktion „number.mod“, um ein abwechselndes 0-1-Muster in der Datumstabelle zu erstellen.

Prognosetechnik: Erkundung der Prognoselogik in LuckyTemplates-Modellen

Prognosetechnik: Erkundung der Prognoselogik in LuckyTemplates-Modellen

In diesem Tutorial führe ich eine Prognosetechnik durch, bei der ich meine tatsächlichen Ergebnisse mit meinen Prognosen vergleiche und sie kumulativ betrachte.

Speichern Sie E-Mail-Anhänge in SharePoint mit Power Automate

Speichern Sie E-Mail-Anhänge in SharePoint mit Power Automate

In diesem Blog erfahren Sie, wie Sie mit Power Automate E-Mail-Anhänge automatisch in SharePoint speichern und E-Mails anschließend löschen.

Führen Sie eine Bis-Loop-Steuerung in Power Automate durch

Führen Sie eine Bis-Loop-Steuerung in Power Automate durch

Erfahren Sie, wie die Do Until Schleifensteuerung in Power Automate funktioniert und welche Schritte zur Implementierung erforderlich sind.

Berechnen eines gleitenden Durchschnitts in LuckyTemplates mithilfe von DAX

Berechnen eines gleitenden Durchschnitts in LuckyTemplates mithilfe von DAX

In diesem Tutorial erfahren Sie, wie Sie mithilfe der ALLSELECTED-Funktion einen dynamischen gleitenden Durchschnitt in LuckyTemplates berechnen können.

Berechnen Sie dynamisch eine laufende oder kumulative LuckyTemplates-Summe

Berechnen Sie dynamisch eine laufende oder kumulative LuckyTemplates-Summe

Durch diesen Artikel erhalten wir ein klares und besseres Verständnis für die dynamische Berechnung einer laufenden oder kumulativen Gesamtsumme in LuckyTemplates.

Power Automate auf jede Aktion in Workflows anwenden

Power Automate auf jede Aktion in Workflows anwenden

Erfahren und verstehen Sie die Bedeutung und ordnungsgemäße Verwendung der Power Automate-Aktionssteuerung „Auf jede anwenden“ in unseren Microsoft-Workflows.