Pandas Drop Index-Spalte: Mit Beispielen erklärt

Pandas ist eine weit verbreitete Python-Bibliothek zur Datenbearbeitung und -analyse. Eine wesentliche Funktionalität, die Pandas Ihnen bieten kann, ist die Möglichkeit, die Struktur eines Datensatzes zu ändern. Insbesondere das Löschen von Indizes in einem DataFrame ist ein entscheidender Vorgang bei der Arbeit mit Datensätzen. Es ermöglicht Ihnen, unerwünschte Zeilen oder Spalten aus den Daten zu entfernen.

Um einen Index mit Pandas zu löschen, können Sie die Methoden .drop() und .reset_index() verwenden. Mit der Methode .drop() können Sie bestimmte Zeilen oder Spalten entfernen. Andererseits können Sie mit der Methode .reset_index() den Index entfernen und auf den Standard-RangeIndex zurücksetzen.

In diesem Artikel besprechen wir die Verwendung dieser Methoden zum Löschen von Indizes in Pandas-DataFrames. Wir gehen verschiedene Beispiele durch, um zu demonstrieren, wie man die Struktur eines Datensatzes effektiv manipulieren kann, um verschiedenen analytischen Anforderungen gerecht zu werden. Anhand dieser Beispiele erhalten Sie ein tieferes Verständnis dafür, wie die Pandas-Bibliothek zur Datenmanipulation genutzt werden kann.

Lasst uns loslegen!

Inhaltsverzeichnis

Pandas Drop Index verstehen
So arbeiten Sie mit Indizes in Pandas
- 1. So stellen Sie den Index ein und setzen ihn zurück
  - Einen neuen Index festlegen
  - Zurücksetzen der Indexwerte
- 2. Weitere Operationen mit Indexspalte
So behandeln Sie Fehler bei der Verwendung der Drop-Funktion in Pandas
- 1. Umgang mit KeyError
- 2. So arbeiten Sie mit doppelten Zeilen
Abschließende Gedanken

Pandas Drop Index verstehen

Bevor wir uns mit dem Löschen von Indizes mit Pandas befassen, ist es sehr wichtig, dass Sie verstehen, was ein Pandas-DataFrame ist. Darüber hinaus sollten Sie auch mit dem Konzept von Indizes und Spalten in einem Pandas DataFrame vertraut sein.

Pandas Drop Index-Spalte: Mit Beispielen erklärt

In diesem Abschnitt behandeln wir die Grundlagen eines Pandas-DataFrames, Index und Spalten. Anschließend sehen wir uns ein Beispiel für das Löschen eines Index mithilfe von Pandas an.

1. Was ist ein Pandas-Datenrahmen?

Pandas ist eine Open-Source-Python-Bibliothek, die leistungsstarke Tools zur Datenbearbeitung und -analyse bereitstellt. Eine seiner wichtigsten Datenstrukturen ist der DataFrame .

Ein Pandas DataFrame ist eine zweidimensionale Datenstruktur mit beschrifteten Achsen (Zeilen und Spalten). Sie können sich einen DataFrame als eine pythonische Objektdarstellung einer SQL-Tabelle oder einer Excel-Tabelle vorstellen.

Das Folgende ist ein typischer Pandas-DataFrame:

Pandas Drop Index-Spalte: Mit Beispielen erklärt

2. Was sind Indizes und Spalten?

In einem Pandas-DataFrame dient der Index als „Adresse“ für Datenpunkte. Es bietet eine Möglichkeit, auf Daten im gesamten DataFrame zuzugreifen und diese zu organisieren. Dabei kann es sich entweder um die von Pandas zugewiesene Standard-Ganzzahlsequenz oder um einen benutzerdefinierten benutzerdefinierten Index handeln.

Spalten sind die Variablen, die verschiedene Datentypen im DataFrame hosten. Jede Spalte besteht im Wesentlichen aus einer Reihe von Daten. Es kann verschiedene Datentypen wie Ganzzahlen, Gleitkommazahlen oder Zeichenfolgen enthalten. Die Beschriftung der Spalte, allgemein als Spaltenname bezeichnet, identifiziert diese Datenreihe.

In einem Pandas-DataFrame umfasst die Datenmanipulation häufig die Arbeit mit den Zeilenbeschriftungen (Indizes) oder Spaltenbeschriftungen.

Zu den gängigen Vorgängen, die Sie mit einem Multi-Index-DataFrame ausführen können, gehören das Auswählen, Umbenennen und Löschen von Zeilen oder Spalten basierend auf ihren Beschriftungen.

3. So löschen Sie eine Indexspalte mit Pandas

In Pandas können Sie die DataFrame-Methode reset_index() verwenden , um den Index zu löschen und zurückzusetzen.

Angenommen, wir haben den folgenden DataFrame:

Pandas Drop Index-Spalte: Mit Beispielen erklärt

Um die Indexspalte zu löschen, können wir den folgenden Code verwenden:

df.reset_index(drop=True)

Nachdem Sie diesen Code ausgeführt haben, erhalten Sie das folgende Beispiel:

Pandas Drop Index-Spalte: Mit Beispielen erklärt

In der Ausgabe können Sie sehen, dass der Index gelöscht und durch die ursprünglichen Indexwerte ersetzt wird.

Sie können in Pandas auch die Drop- Methode verwenden , um bestimmte Beschriftungen aus Zeilen oder Spalten zu entfernen.

Die Syntax für diese Methode lautet:

DataFrame.drop(labels=None, *, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')

Im Folgenden sind die wichtigsten Parameter der Drop- Methode aufgeführt:

Etiketten : Die zu entfernenden Etiketten. Abhängig vom Achsenparameter können es entweder Zeilen oder Spalten sein .
Achse : Bestimmt, ob aus Zeilen ( 0 oder 'Index' ) oder Spalten ( 1 oder 'Spalten' ) gelöscht werden soll .
index : Eine Alternative zur Angabe von axis=0 . Ermöglicht die Angabe der zu entfernenden Zeilenbeschriftungen.
columns : Eine Alternative zur Angabe von axis=1 . Ermöglicht die Angabe der zu entfernenden Spaltenbezeichnungen.
inplace : Wenn auf True gesetzt , wird der Vorgang an Ort und Stelle ausgeführt, was bedeutet, dass der ursprüngliche DataFrame geändert wird. Bei False (Standard) wird ein neuer DataFrame mit entfernten angegebenen Beschriftungen zurückgegeben.
Fehler : Steuert, wie mit fehlenden Beschriftungen umgegangen wird. Bei „raise“ (Standard) wird ein Fehler ausgelöst, wenn keine Labels gefunden werden. Bei „coerce“ werden fehlende Beschriftungen stillschweigend ignoriert.

Angenommen, wir haben den folgenden DataFrame:

Pandas Drop Index-Spalte: Mit Beispielen erklärt

Wir möchten die Zeile mit Index 1 löschen. Um dies mit der Drop-Methode zu tun, können Sie den folgenden Code schreiben, beginnend mit import pandas:

import pandas as pd

# Drop row with index 1
df.drop(1, axis=0)

Das Argument axis=0 der Drop- Funktion teilt dem Interpreter mit, dass wir eine zeilenweise Operation ausführen. Das zweite Argument 1 ist der Zeilenindex. Es weist den Interpreter an, die Zeile mit Index 1 zu löschen.

Nach der obigen Operation erhalten wir den folgenden DataFrame:

Pandas Drop Index-Spalte: Mit Beispielen erklärt

Nehmen wir nun an, wir möchten die Spalte mit Age als Spaltenüberschrift aus unserem DataFrame löschen. Um dies zu erreichen, können wir den folgenden Code schreiben:

# Drop column 'Age'
df.drop('Age', axis=1)

Das Argument axis=1 teilt dem Interpreter mit, dass wir eine spaltenweise Operation durchführen. Das Argument „Alter“ weist den Interpreter an, die Spalte mit dem Namen „Alter“ zu löschen.

Nachdem Sie den obigen Code ausgeführt haben, erhalten Sie den folgenden DataFrame:

Pandas Drop Index-Spalte: Mit Beispielen erklärt

So löschen Sie mehrere Zeilen und Spalten

Das obige Beispiel zeigt das Löschen einer einzelnen Zeile oder Spalte. Was ist, wenn Sie mehrere Zeilen oder Spalten löschen möchten?

Um dies zu erreichen, verwenden wir denselben Code mit einigen geringfügigen Änderungen. Anstatt einen einzelnen Wert zu verwenden, können wir der Drop-Funktion eine Liste von Argumenten bereitstellen, um mehrere Zeilen und Spalten gleichzeitig zu entfernen.

Nehmen wir an, ich möchte die ersten beiden Zeilen in unserem DataFrame löschen. Um dies zu erreichen, können wir den folgenden Code verwenden:

# Dropping first 2 rows by index
df = df.drop([0, 1], axis=0)

In diesem Code weisen wir den Interpreter an, die Zeilen 0 und 1 zu löschen. Die Ausgabe dieses Codes ist unten angegeben:

Pandas Drop Index-Spalte: Mit Beispielen erklärt

Sie können sehen, dass sich die Zeilen 0 und 1 nicht mehr im DataFrame befinden.

Lassen Sie uns auch die Spalten „Abteilung“ und „Gehalt“ löschen. Dazu können wir den folgenden Code verwenden:

# Dropping columns by name
df = df.drop(['Salary', 'Department'], axis=1)

In diesem Python- Skript bitten wir den Interpreter, die Spalten mit Gehalt und Abteilung als Spaltenüberschriften zu löschen. Die Ausgabe dieses Codes ist unten angegeben:

Pandas Drop Index-Spalte: Mit Beispielen erklärt

Dies ist unser letzter DataFrame. Insgesamt haben wir mit der Drop-Methode zwei Zeilen und zwei Spalten aus unserem DataFrame gelöscht.

Um mehr über MultiIndex in Pandas zu erfahren, schauen Sie sich das folgende Video an:

So löschen Sie Zeilen und Spalten mit Inplace

Im vorherigen Beispiel können Sie sehen, dass wir zunächst Änderungen am DataFrame vornehmen und ihn dann als neuen DataFrame speichern. Dies ist jedoch keine effiziente Methode zum Löschen von Zeilen und Spalten.

Eine weitere Alternative zum Löschen von Zeilen und Spalten besteht darin, das Inplace- Argument der Drop-Funktion auf True zu setzen .

Indem Sie den Inplace- Parameter auf True setzen , können Sie den DataFrame dauerhaft ändern, ohne ihn neu zuweisen zu müssen.

Dies ist beim Umgang mit großen DataFrames nützlich, da dadurch Speicher gespart werden kann, da die Erstellung eines neuen DataFrames vermieden wird.

Das Folgende ist ein Beispiel für das Löschen von Zeilen und Spalten mit inplace :

# Dropping rows by index inplace
df.drop(labels=[0, 1], axis=0, inplace=True)

# Dropping columns by name inplace
df.drop(['Salary', 'Department'], axis=1, inplace=True)

Die Ausgabe des obigen Codes ist unten angegeben:

Pandas Drop Index-Spalte: Mit Beispielen erklärt

Hier können Sie sehen, dass wir keinen neuen DataFrame erstellen, sondern Änderungen am ursprünglichen vornehmen.

So arbeiten Sie mit Indizes in Pandas

In diesem Abschnitt besprechen wir, wie man mit Indizes in einem Pandas- DataFrame arbeitet. Wir werden die folgenden zwei Unterabschnitte behandeln:

Index setzen und zurücksetzen
ID- und Indexspalte

1. So stellen Sie den Index ein und setzen ihn zurück

Ein wichtiger Aspekt bei der Arbeit mit Pandas ist das Verständnis, wie Indexspalten festgelegt und zurückgesetzt werden. Ein Index ist eine Schlüsselkennung für jede Zeile und es gibt Fälle, in denen Sie ihn möglicherweise ändern möchten.

Einen neuen Index festlegen

Um einen neuen Index festzulegen, können Sie die Methode set_index() verwenden . Die Syntax von set_index ist unten angegeben:

df.set_index('column_name', inplace=True)

Das Argument inplace=True bedeutet hier, dass wir Änderungen am vorhandenen DataFrame vornehmen.

Um dies zu demonstrieren, verwenden wir den folgenden DataFrame:

Pandas Drop Index-Spalte: Mit Beispielen erklärt

Nehmen wir an, wir möchten die Spalte „Name“ zum Index unseres DataFrame machen. Um dies zu erreichen, können wir den folgenden Code verwenden:

df.set_index('Name', inplace=True)

Dieses Python-Skript macht Name zum Index unseres DataFrame. Die Ausgabe dieses Codes ist unten angegeben:

Pandas Drop Index-Spalte: Mit Beispielen erklärt

Zurücksetzen der Indexwerte

Um den Index auf sein Standardformat zurückzusetzen (d. h. einen RangeIndex von 0 bis zur Länge des DataFrame minus 1), können Sie die Methode reset_index() verwenden.

Die Syntax von reset_index() ist unten angegeben:

df.reset_index(drop=True, inplace=True)

Durch Festlegen von drop=True wird die aktuelle Indexspalte entfernt, während inplace=True sicherstellt, dass die Änderungen direkt auf den DataFrame angewendet werden, ohne dass eine neue erstellt wird.

Wenn wir diesen Code auf den vorherigen DataFrame anwenden, erhalten wir die folgende Ausgabe:

Pandas Drop Index-Spalte: Mit Beispielen erklärt

Sie können sehen, dass der Name, der zuvor unser Index war, auf die Standardwerte zurückgesetzt wird.

2. Weitere Operationen mit Indexspalte

Wenn Sie einen DataFrame beispielsweise aus einer CSV-Datei importieren, können Sie den Parameter index_col verwenden , um eine Spalte anzugeben, die als Index verwendet werden soll.

Die Syntax von index_col ist unten angegeben:

df = pd.read_csv('data.csv', index_col='column_name')

Wenn Sie außerdem einen DataFrame ohne die Indexspalte exportieren möchten, können Sie den Indexparameter auf False setzen.

Die Syntax für diese Methode ist unten angegeben:

df.to_csv('output.csv', index=False)

Nachdem Sie nun die Methode zum Löschen von Indizes verstanden haben, schauen wir uns im nächsten Abschnitt an, wie Sie mit Fehlern umgehen können, wenn Sie die Drop-Funktion verwenden.

So behandeln Sie Fehler bei der Verwendung der Drop-Funktion in Pandas

In diesem Abschnitt untersuchen wir, wie mit Fehlern und Sonderfällen umgegangen wird, wenn die Drop- Funktion von Pandas zum Entfernen von Indexspalten aus einem DataFrame verwendet wird.

Im Einzelnen besprechen wir Folgendes:

Umgang mit KeyError
Arbeiten mit doppelten Zeilen

1. Umgang mit KeyError

Wenn Sie die Drop- Funktion in Pandas verwenden, kann ein KeyError auftreten, wenn der angegebene Index oder die angegebene Spalte nicht im DataFrame gefunden wird.

Um das Auftreten dieses Fehlers zu verhindern, können Sie den Fehlerparameter verwenden . Der Fehlerparameter hat zwei Optionen: „raise“ und „ignore“. Standardmäßig ist es auf „raise“ eingestellt, was bedeutet, dass ein KeyError ausgelöst wird, wenn der angegebene Index oder die angegebene Spalte nicht gefunden wird.

Sie können es jedoch auf „ignorieren“ setzen, wenn Sie den Fehler unterdrücken und mit der Ausführung des Codes fortfahren möchten.

Angenommen, wir haben den folgenden DataFrame. Versuchen wir, eine Zeile zu löschen, die im DataFrame nicht vorhanden ist, und sehen, was passiert:

# Attempt to drop a non-existent index, will raise KeyError
# df.drop(5, inplace=True)

Das Python-Skript gibt den folgenden Fehler aus:

Um solche Fehler zu beheben, stellen Sie sicher, dass Sie sich auf Zeilen beziehen, die im Datensatz vorhanden sind.

2. So arbeiten Sie mit doppelten Zeilen

Bei der Datenbereinigung besteht eine wichtige Aufgabe darin, nach Duplikaten zu suchen und diese zu entfernen.

Der Umgang mit doppelten Zeilen in einem DataFrame kann die Komplexität erhöhen, wenn die Drop- Funktion verwendet wird.

Wenn Sie Zeilen basierend auf duplizierten Indexwerten löschen möchten, können Sie die Duplikatfunktion verwenden und dann die boolesche Indizierung verwenden, um nur die nicht duplizierten Zeilen auszuwählen.

Angenommen, wir haben den folgenden DataFrame:

Pandas Drop Index-Spalte: Mit Beispielen erklärt

Sie können sehen, dass unser Datensatz doppelte Indizes enthält. Um die Duplikate zu entfernen, identifizieren wir zunächst die doppelten Werte mit dem folgenden Code:

# Find duplicated index values
duplicated_rows = df.index.duplicated(keep='first')

Danach wählen wir nur die nicht duplizierten Zeilen aus und speichern sie im vorherigen DataFrame mit dem folgenden Code:

# Select only non-duplicated rows
df = df[~duplicated_rows]

Die endgültige Ausgabe ist unten angegeben:

Die endgültige Ausgabe enthält keine doppelten Zeilen mehr.

Abschließende Gedanken

Während Sie Ihre Reise in den Bereichen Datenwissenschaft und Analyse fortsetzen, wird sich das Verständnis für die Manipulation und Verwaltung von Daten als die wichtigste Fähigkeit erweisen.

Ein wichtiger Teil davon ist die Beherrschung von Vorgängen wie dem Löschen von Indizes in Pandas. Zu wissen, wie man einen Index zurücksetzt oder löscht, ist ein wichtiger Schritt zur Bereinigung, Transformation und Gewinnung wertvoller Erkenntnisse aus Ihren Daten.

Indem Sie lernen, wie Sie Indizes löschen, können Sie Ihre DataFrames effektiver umgestalten. Sie können außerdem sauberere Datensätze erstellen, die einfacher zu lesen und zu analysieren sind. Darüber hinaus kann das Zurücksetzen von Indizes beim Zusammenführen oder Verketten mehrerer DataFrames von entscheidender Bedeutung sein, da es zu Indexkonflikten kommen kann.

Die Möglichkeit, Indizes zu löschen, ermöglicht Ihnen eine größere Kontrolle und Flexibilität über Ihre Datensätze!

Einen Kommentar hinterlassen

Streudiagramm-Visualisierungen mit Charticulator

In diesem Tutorial erfahren Sie, wie Sie mit Charticulator eine Streudiagramm-Visualisierung für Ihren LuckyTemplates-Bericht erstellen und entwerfen.

PowerApps-Suchfeld: So fügen Sie es hinzu und passen es an

Erfahren Sie, wie Sie ein PowerApps-Suchfeld von Grund auf erstellen und es an das Gesamtthema Ihrer App anpassen.

Power Automate String-Funktionen: Substring und IndexOf

Erlernen Sie ganz einfach zwei komplizierte Power Automate String-Funktionen, die in Microsoft Flows verwendet werden können – die Funktionen substring und indexOf.

Power Query M: Abwechselndes 0-1-Muster in der Datumstabelle

Dieses Tutorial konzentriert sich auf die Power Query M-Funktion „number.mod“, um ein abwechselndes 0-1-Muster in der Datumstabelle zu erstellen.

Prognosetechnik: Erkundung der Prognoselogik in LuckyTemplates-Modellen

In diesem Tutorial führe ich eine Prognosetechnik durch, bei der ich meine tatsächlichen Ergebnisse mit meinen Prognosen vergleiche und sie kumulativ betrachte.

Speichern Sie E-Mail-Anhänge in SharePoint mit Power Automate

In diesem Blog erfahren Sie, wie Sie mit Power Automate E-Mail-Anhänge automatisch in SharePoint speichern und E-Mails anschließend löschen.

Führen Sie eine Bis-Loop-Steuerung in Power Automate durch

Erfahren Sie, wie die Do Until Schleifensteuerung in Power Automate funktioniert und welche Schritte zur Implementierung erforderlich sind.

Berechnen eines gleitenden Durchschnitts in LuckyTemplates mithilfe von DAX

In diesem Tutorial erfahren Sie, wie Sie mithilfe der ALLSELECTED-Funktion einen dynamischen gleitenden Durchschnitt in LuckyTemplates berechnen können.

Berechnen Sie dynamisch eine laufende oder kumulative LuckyTemplates-Summe

Durch diesen Artikel erhalten wir ein klares und besseres Verständnis für die dynamische Berechnung einer laufenden oder kumulativen Gesamtsumme in LuckyTemplates.

Power Automate auf jede Aktion in Workflows anwenden

Erfahren und verstehen Sie die Bedeutung und ordnungsgemäße Verwendung der Power Automate-Aktionssteuerung „Auf jede anwenden“ in unseren Microsoft-Workflows.