Coluna de índice de queda do Pandas: explicada com exemplos

Pandas é uma biblioteca Python amplamente usada para manipulação e análise de dados. Uma funcionalidade essencial que os pandas podem fornecer é a capacidade de modificar a estrutura de um conjunto de dados. Especificamente, descartar índices em um DataFrame é uma operação crucial ao trabalhar com conjuntos de dados. Ele permite que você remova linhas ou colunas indesejadas dos dados.

Para descartar um índice com pandas, você pode usar os métodos .drop() e .reset_index(). O método .drop() permite remover linhas ou colunas específicas. Por outro lado, o método .reset_index() permite remover o índice e redefini-lo para o RangeIndex padrão.

Neste artigo, discutiremos o uso desses métodos para descartar índices em Pandas DataFrames. Passaremos por vários exemplos para demonstrar como manipular efetivamente a estrutura de um conjunto de dados para atender a diferentes necessidades analíticas. Por meio desses exemplos, você obterá uma compreensão mais profunda de como a biblioteca pandas pode ser utilizada para manipulação de dados.

Vamos entrar nisso!

Índice

Compreendendo o índice de queda do Pandas
Como trabalhar com índices em Pandas
- 1. Como definir e redefinir o índice
  - Definir um novo índice
  - Redefinindo os valores do índice
- 2. Outras operações com coluna de índice
Como lidar com erros ao usar a função Drop em Pandas
- 1. Como lidar com KeyError
- 2. Como trabalhar com linhas duplicadas
Pensamentos finais

Compreendendo o índice de queda do Pandas

Antes de mergulharmos na queda de índice com pandas, é muito importante que você entenda o que é um DataFrame de pandas. Além disso, você também deve estar familiarizado com o conceito de índices e colunas em um Pandas DataFrame.

Coluna de índice de queda do Pandas: explicada com exemplos

Nesta seção, abordaremos o básico de um DataFrame, índice e colunas do pandas. Em seguida, veremos um exemplo de como descartar um índice usando pandas.

1. O que é um Pandas Dataframe?

Pandas é uma biblioteca Python de código aberto que fornece ferramentas de análise e manipulação de dados de alto desempenho. Uma de suas principais estruturas de dados é o DataFrame .

Um DataFrame pandas é uma estrutura de dados bidimensional com eixos rotulados (linhas e colunas). Você pode pensar em um DataFrame como uma representação de objeto Python de uma tabela SQL ou uma planilha do Excel.

O seguinte é um típico DataFrame de pandas:

Coluna de índice de queda do Pandas: explicada com exemplos

2. O que são índices e colunas?

Em um DataFrame pandas, o índice serve como um 'endereço' para pontos de dados. Ele fornece um meio de acessar e organizar dados no DataFrame. Pode ser a sequência de números inteiros padrão atribuída pelos pandas ou um índice personalizado definido pelo usuário.

As colunas são as variáveis que hospedam diferentes tipos de dados no DataFrame. Cada coluna é essencialmente uma série de dados. Ele pode conter diversos tipos de dados, como inteiros, floats ou strings. O rótulo da coluna, geralmente chamado de nome da coluna, identifica essa série de dados.

Em um DataFrame pandas, a manipulação de dados geralmente envolve trabalhar com os rótulos de linha (índices) ou rótulos de coluna.

Algumas operações comuns que você pode executar com um DataFrame de vários índices incluem selecionar, renomear e descartar linhas ou colunas com base em seus rótulos.

3. Como descartar a coluna de índice com Pandas

Em pandas, você pode usar o método reset_index() do DataFrame para descartar e redefinir o índice.

Suponha que temos o seguinte DataFrame:

Coluna de índice de queda do Pandas: explicada com exemplos

Para descartar a coluna de índice, podemos usar o seguinte código:

df.reset_index(drop=True)

Depois de executar este código, você obterá o exemplo abaixo:

Coluna de índice de queda do Pandas: explicada com exemplos

Na saída, você pode ver que o índice foi descartado e substituído pelos valores de índice originais.

Você também pode usar o método drop em pandas para remover rótulos especificados de linhas ou colunas.

A sintaxe desse método é:

DataFrame.drop(labels=None, *, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')

A seguir estão os principais parâmetros do método drop :

labels : Os rótulos a serem removidos. Pode ser linhas ou colunas, dependendo do parâmetro do eixo .
axis : Determina se deve ser descartado de linhas ( 0 ou 'index' ) ou colunas ( 1 ou 'columns' ).
index : Uma alternativa para especificar axis=0 . Permite indicar os rótulos das linhas a remover.
colunas : Uma alternativa para especificar axis=1 . Permite indicar os rótulos das colunas a remover.
inplace : Se definido como True , a operação será executada no local, significando que o DataFrame original será modificado. Se False (padrão), um novo DataFrame com os rótulos especificados removidos será retornado.
errors : controla como lidar com rótulos ausentes. Se 'aumentar' (padrão), um erro será gerado quando os rótulos não forem encontrados. Se 'coagir' , os rótulos ausentes serão silenciosamente ignorados.

Suponha que temos o seguinte DataFrame:

Coluna de índice de queda do Pandas: explicada com exemplos

Gostaríamos de descartar a linha com índice 1. Para fazer isso usando o método drop, você pode escrever o seguinte código, começando com import pandas:

import pandas as pd

# Drop row with index 1
df.drop(1, axis=0)

O argumento axis=0 da função drop informa ao interpretador que estamos realizando uma operação em linha. O segundo argumento 1 é o índice da linha. Ele diz ao interpretador para descartar a linha com índice 1.

Após a operação acima, obtemos o seguinte DataFrame:

Coluna de índice de queda do Pandas: explicada com exemplos

Agora, digamos que gostaríamos de descartar a coluna com Idade como cabeçalho da coluna de nosso DataFrame. Para conseguir isso, podemos escrever o seguinte código:

# Drop column 'Age'
df.drop('Age', axis=1)

O argumento axis=1 informa ao interpretador que estamos executando uma operação em coluna. O argumento 'Age' diz ao interpretador para descartar a coluna com o nome 'Age'.

Depois de executar o código acima, você obterá o seguinte DataFrame:

Coluna de índice de queda do Pandas: explicada com exemplos

Como descartar várias linhas e colunas

O exemplo acima demonstra a eliminação de uma única linha ou coluna. E se você quiser descartar várias linhas ou colunas?

Para conseguir isso, usaremos o mesmo código com algumas pequenas alterações. Em vez de usar um único valor, podemos fornecer uma lista de argumentos para a função drop para remover várias linhas e colunas de uma só vez.

Digamos que eu queira descartar as 2 primeiras linhas em nosso DataFrame. Para conseguir isso, podemos usar o seguinte código:

# Dropping first 2 rows by index
df = df.drop([0, 1], axis=0)

Neste código, estamos dizendo ao interpretador para descartar as linhas 0 e 1. A saída deste código é dada abaixo:

Coluna de índice de queda do Pandas: explicada com exemplos

Você pode ver que as linhas 0 e 1 não estão mais no DataFrame.

Vamos também descartar as colunas Departamento e Salário. Para fazer isso, podemos usar o seguinte código:

# Dropping columns by name
df = df.drop(['Salary', 'Department'], axis=1)

Neste script Python , pedimos ao interpretador para descartar as colunas com Salário e Departamento como cabeçalhos de coluna. A saída deste código é dada abaixo:

Coluna de índice de queda do Pandas: explicada com exemplos

Este é o nosso DataFrame final. No total, excluímos duas linhas e duas colunas de nosso DataFrame usando o método drop.

Para saber mais sobre MultiIndex em pandas, confira o seguinte vídeo:

Como descartar linhas e colunas com Inplace

No exemplo anterior, você pode ver que primeiro fazemos alterações no DataFrame e depois o salvamos como um novo DataFrame. No entanto, essa não é uma maneira eficiente de descartar linhas e colunas.

Outra alternativa para descartar linhas e colunas é definir o argumento inplace da função drop como True .

Ao definir o parâmetro inplace como True , você pode modificar permanentemente o DataFrame sem precisar reatribuí-lo.

Isso é útil ao lidar com grandes DataFrames, pois pode economizar memória evitando a criação de um novo DataFrame.

Veja a seguir um exemplo de eliminação de linhas e colunas com inplace :

# Dropping rows by index inplace
df.drop(labels=[0, 1], axis=0, inplace=True)

# Dropping columns by name inplace
df.drop(['Salary', 'Department'], axis=1, inplace=True)

A saída do código acima é dada abaixo:

Coluna de índice de queda do Pandas: explicada com exemplos

Aqui, você pode ver que não estamos criando nenhum novo DataFrame, mas fazendo alterações no original.

Como trabalhar com índices em Pandas

Nesta seção, discutiremos como trabalhar com índices em um Pandas DataFrame. Abordaremos as duas subseções a seguir:

Definir e redefinir o índice
Coluna de ID e índice

1. Como definir e redefinir o índice

Um aspecto importante de trabalhar com pandas é entender como definir e redefinir colunas de índice. Um índice é um identificador de chave para cada linha e há instâncias em que você pode querer alterá-lo.

Definir um novo índice

Para definir um novo índice, você pode usar o método set_index() . A sintaxe de set_index é dada abaixo:

df.set_index('column_name', inplace=True)

O argumento inplace=True aqui significa que estamos fazendo alterações no DataFrame existente.

Para demonstrar isso, usaremos o seguinte DataFrame:

Coluna de índice de queda do Pandas: explicada com exemplos

Digamos que gostaríamos de tornar a coluna Name o índice do nosso DataFrame. Para conseguir isso, podemos usar o seguinte código:

df.set_index('Name', inplace=True)

Este script Python fará de Name o índice do nosso DataFrame. A saída deste código é dada abaixo:

Coluna de índice de queda do Pandas: explicada com exemplos

Redefinindo os valores do índice

Para redefinir o índice para seu formato padrão (ou seja, um RangeIndex de 0 ao comprimento do DataFrame menos 1), você pode usar o método reset_index() .

A sintaxe de reset_index() é dada abaixo:

df.reset_index(drop=True, inplace=True)

Ao definir drop=True , a coluna de índice atual será removida, enquanto inplace=True garante que as alterações sejam aplicadas diretamente ao DataFrame sem criar um novo.

Quando aplicamos este código ao DataFrame anterior, obtemos a seguinte saída:

Coluna de índice de queda do Pandas: explicada com exemplos

Você pode ver que o Nome, que anteriormente era nosso índice, foi redefinido para os valores padrão.

2. Outras operações com coluna de índice

Ao importar um DataFrame de, digamos, um arquivo CSV, você pode usar o parâmetro index_col para especificar uma coluna a ser usada como seu índice.

A sintaxe de index_col é dada abaixo:

df = pd.read_csv('data.csv', index_col='column_name')

Além disso, se você deseja exportar um DataFrame sem a coluna de índice, pode definir o parâmetro de índice como Falso.

A sintaxe para este método é dada abaixo:

df.to_csv('output.csv', index=False)

Agora que você entende o método para descartar o índice, vamos ver como você pode lidar com erros ao usar a função drop na próxima seção.

Como lidar com erros ao usar a função Drop em Pandas

Nesta seção, exploraremos como lidar com erros e casos especiais ao usar a função drop do pandas para remover colunas de índice de um DataFrame.

Especificamente, discutiremos o seguinte:

Manipulando KeyError
Trabalhando com linhas duplicadas

1. Como lidar com KeyError

Ao usar a função drop em pandas, você pode encontrar um KeyError se o índice ou coluna especificada não for encontrada no DataFrame.

Para evitar que esse erro ocorra, você pode usar o parâmetro errors . O parâmetro errors possui duas opções: 'raise' e 'ignore'. Por padrão, ele é definido como 'raise', o que significa que um KeyError será gerado se o índice ou a coluna especificada não for encontrada.

No entanto, você pode configurá-lo para 'ignorar' se quiser suprimir o erro e continuar executando o código.

Suponha que temos o seguinte DataFrameVamos tentar descartar uma linha que não existe no DataFrame e ver o que acontece:

# Attempt to drop a non-existent index, will raise KeyError
# df.drop(5, inplace=True)

O script Python dará o seguinte erro:

Para lidar com esses erros, verifique se você está se referindo às linhas presentes no conjunto de dados.

2. Como trabalhar com linhas duplicadas

Ao limpar os dados, uma tarefa importante é procurar duplicatas e removê-las.

Lidar com linhas duplicadas em um DataFrame pode adicionar complexidade ao usar a função drop .

Se você deseja descartar linhas com base em valores de índice duplicados, pode usar a função duplicada e, em seguida, usar a indexação booleana para selecionar apenas as linhas não duplicadas.

Suponha que temos o seguinte DataFrame:

Coluna de índice de queda do Pandas: explicada com exemplos

Você pode ver que temos índices duplicados em nosso conjunto de dados. Para remover as duplicatas, primeiro identificaremos os valores duplicados com o seguinte código:

# Find duplicated index values
duplicated_rows = df.index.duplicated(keep='first')

Depois disso, vamos selecionar apenas as linhas não duplicadas e armazená-las no DataFrame anterior com o seguinte código:

# Select only non-duplicated rows
df = df[~duplicated_rows]

A saída final é dada abaixo:

A saída final não tem mais linhas duplicadas.

Pensamentos finais

À medida que você continua sua jornada de ciência e análise de dados, entender como manipular e gerenciar dados é uma habilidade que se mostrará a mais importante.

Dominar operações como soltar índices em pandas é uma parte fundamental disso. Saber como redefinir ou descartar um índice é um trampolim para limpar, transformar e obter informações valiosas de seus dados.

Ao aprender a descartar índices, você poderá remodelar seus DataFrames com mais eficiência. Você também poderá criar conjuntos de dados mais limpos, mais fáceis de ler e analisar. Além disso, a redefinição de índices pode ser crucial ao mesclar ou concatenar vários DataFrames, onde podem surgir conflitos de índice.

A capacidade de descartar índices permite que você tenha maior controle e flexibilidade sobre seus conjuntos de dados!

Deixar um comentário

Colunas calculadas no SharePoint | Uma visão geral

Descubra a importância das colunas calculadas no SharePoint e como elas podem realizar cálculos automáticos e obtenção de dados em suas listas.

Atributos pré-atentivos: como isso pode afetar seu relatório

Descubra todos os atributos pré-atentivos e saiba como isso pode impactar significativamente seu relatório do LuckyTemplates

Calcular Dias de Estoque Zero – LuckyTemplates Inventory Management Insights

Aprenda a contar o número total de dias em que você não tinha estoque por meio dessa técnica eficaz de gerenciamento de inventário do LuckyTemplates.

Usando exibições de gerenciamento dinâmico (DMV) no DAX Studio

Saiba mais sobre as exibições de gerenciamento dinâmico (DMV) no DAX Studio e como usá-las para carregar conjuntos de dados diretamente no LuckyTemplates.

Variáveis e expressões dentro do editor do Power Query

Este tutorial irá discutir sobre Variáveis e Expressões dentro do Editor do Power Query, destacando a importância de variáveis M e sua sintaxe.

Como calcular a diferença em dias entre compras usando o DAX no LuckyTemplates

Aprenda a calcular a diferença em dias entre compras usando DAX no LuckyTemplates com este guia completo.

Calculando a média no LuckyTemplates: isolando os resultados do dia da semana ou do fim de semana usando o DAX

Calcular uma média no LuckyTemplates envolve técnicas DAX para obter dados precisos em relatórios de negócios.

O que é self em Python: exemplos do mundo real

Como salvar e carregar um arquivo RDS em R

Você aprenderá como salvar e carregar objetos de um arquivo .rds no R. Este blog também abordará como importar objetos do R para o LuckyTemplates.

Primeiros N dias úteis revisitados - uma solução de linguagem de codificação DAX

Neste tutorial de linguagem de codificação DAX, aprenda como usar a função GENERATE e como alterar um título de medida dinamicamente.

Coluna de índice de queda do Pandas: explicada com exemplos

Deixar um comentário

Colunas calculadas no SharePoint | Uma visão geral

Atributos pré-atentivos: como isso pode afetar seu relatório

Calcular Dias de Estoque Zero – LuckyTemplates Inventory Management Insights

Usando exibições de gerenciamento dinâmico (DMV) no DAX Studio

Variáveis ​​e expressões dentro do editor do Power Query

Como calcular a diferença em dias entre compras usando o DAX no LuckyTemplates

Calculando a média no LuckyTemplates: isolando os resultados do dia da semana ou do fim de semana usando o DAX

O que é self em Python: exemplos do mundo real

Como salvar e carregar um arquivo RDS em R

Primeiros N dias úteis revisitados - uma solução de linguagem de codificação DAX

Variáveis e expressões dentro do editor do Power Query