Como encontrar duplicatas no Pandas DataFrame (com exemplos)

Exemplo 1: Encontrar linhas duplicadas em todas as colunas
Exemplo 2: Encontrar linhas duplicadas em colunas específicas
Exemplo 3: Localizar linhas duplicadas numa coluna

Pode utilizar a função duplicated() para encontrar valores duplicados num DataFrame do pandas.

Esta função utiliza a seguinte sintaxe básica:

 #encontrar linhas duplicadas em todas as colunas duplicateRows = df[df. duplicated ()] #encontrar linhas duplicadas em colunas específicas duplicateRows = df[df. duplicated ([' col1 ', ' col2 '])]

Os exemplos seguintes mostram como utilizar esta função na prática com o seguinte DataFrame do pandas:

 import pandas as pd #create DataFrame df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B'], ' points ': [10, 10, 12, 12, 15, 17, 20, 20], ' assists ': [5, 5, 7, 9, 12, 9, 6, 6]}) #view DataFrame print (df) team points assists 0 A 10 5 1 A 10 5 2 A 12 7 3 A 12 9 4 B 15 12 5 B 17 9 6 B 20 6 7 B 20 6

Exemplo 1: Encontrar linhas duplicadas em todas as colunas

O código a seguir mostra como encontrar linhas duplicadas em todas as colunas do DataFrame:

 #identificar linhas duplicadas linhas duplicadas = df[df. duplicated ()] #ver linhas duplicadas linhas duplicadas equipa pontos assistências 1 A 10 5 7 B 20 6

Existem duas linhas que são duplicados exactos de outras linhas no DataFrame.

Note que também podemos utilizar o argumento keep='last' para apresentar as primeiras linhas duplicadas em vez das últimas:

 #identificar linhas duplicadas linhas duplicadas = df[df. duplicated (keep=' last ')] #ver linhas duplicadas print (linhas duplicadas) equipa pontos assistências 0 A 10 5 6 B 20 6

Exemplo 2: Encontrar linhas duplicadas em colunas específicas

O código seguinte mostra como encontrar linhas duplicadas apenas nas colunas "equipa" e "pontos" do DataFrame:

 #identificar linhas duplicadas nas colunas 'equipa' e 'pontos' duplicateRows = df[df. duplicated ([' equipa ', ' pontos '])] #ver linhas duplicadas print (duplicateRows) equipa pontos assistências 1 A 10 5 3 A 12 9 7 B 20 6

Há três linhas em que os valores das colunas "equipa" e "pontos" são duplicados exactos das linhas anteriores.

Exemplo 3: Localizar linhas duplicadas numa coluna

O código seguinte mostra como encontrar linhas duplicadas apenas na coluna "equipa" do DataFrame:

 #identificar linhas duplicadas na coluna 'equipa' duplicateRows = df[df. duplicated ([' equipa '])] #ver linhas duplicadas print (duplicateRows) equipa pontos assistências 1 A 10 5 2 A 12 7 3 A 12 9 5 B 17 9 6 B 20 6 7 B 20 6

Há um total de seis linhas em que os valores na coluna "equipa" são duplicados exactos das linhas anteriores.

Saravá Cultural

Como encontrar duplicatas no Pandas DataFrame (com exemplos)

Exemplo 1: Encontrar linhas duplicadas em todas as colunas

Exemplo 2: Encontrar linhas duplicadas em colunas específicas

Exemplo 3: Localizar linhas duplicadas numa coluna

Por Saravá Cultural

Postagem Relacionada

Veja também

Como adicionar títulos a gráficos no Pandas (com exemplos)

Como aumentar o tamanho do gráfico no Matplotlib

Como calcular um intervalo de confiança para um rácio de probabilidades

Como calcular uma percentagem ponderada no Excel