- Exemplo 1: Encontrar linhas duplicadas em todas as colunas
- Exemplo 2: Encontrar linhas duplicadas em colunas específicas
- Exemplo 3: Localizar linhas duplicadas numa coluna
Pode utilizar a função duplicated() para encontrar valores duplicados num DataFrame do pandas.
Esta função utiliza a seguinte sintaxe básica:
#encontrar linhas duplicadas em todas as colunas duplicateRows = df[df. duplicated ()] #encontrar linhas duplicadas em colunas específicas duplicateRows = df[df. duplicated ([' col1 ', ' col2 '])]
Os exemplos seguintes mostram como utilizar esta função na prática com o seguinte DataFrame do pandas:
import pandas as pd #create DataFrame df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B'], ' points ': [10, 10, 12, 12, 15, 17, 20, 20], ' assists ': [5, 5, 7, 9, 12, 9, 6, 6]}) #view DataFrame print (df) team points assists 0 A 10 5 1 A 10 5 2 A 12 7 3 A 12 9 4 B 15 12 5 B 17 9 6 B 20 6 7 B 20 6
Exemplo 1: Encontrar linhas duplicadas em todas as colunas
O código a seguir mostra como encontrar linhas duplicadas em todas as colunas do DataFrame:
#identificar linhas duplicadas linhas duplicadas = df[df. duplicated ()] #ver linhas duplicadas linhas duplicadas equipa pontos assistências 1 A 10 5 7 B 20 6
Existem duas linhas que são duplicados exactos de outras linhas no DataFrame.
Note que também podemos utilizar o argumento keep='last' para apresentar as primeiras linhas duplicadas em vez das últimas:
#identificar linhas duplicadas linhas duplicadas = df[df. duplicated (keep=' last ')] #ver linhas duplicadas print (linhas duplicadas) equipa pontos assistências 0 A 10 5 6 B 20 6
Exemplo 2: Encontrar linhas duplicadas em colunas específicas
O código seguinte mostra como encontrar linhas duplicadas apenas nas colunas "equipa" e "pontos" do DataFrame:
#identificar linhas duplicadas nas colunas 'equipa' e 'pontos' duplicateRows = df[df. duplicated ([' equipa ', ' pontos '])] #ver linhas duplicadas print (duplicateRows) equipa pontos assistências 1 A 10 5 3 A 12 9 7 B 20 6
Há três linhas em que os valores das colunas "equipa" e "pontos" são duplicados exactos das linhas anteriores.
Exemplo 3: Localizar linhas duplicadas numa coluna
O código seguinte mostra como encontrar linhas duplicadas apenas na coluna "equipa" do DataFrame:
#identificar linhas duplicadas na coluna 'equipa' duplicateRows = df[df. duplicated ([' equipa '])] #ver linhas duplicadas print (duplicateRows) equipa pontos assistências 1 A 10 5 2 A 12 7 3 A 12 9 5 B 17 9 6 B 20 6 7 B 20 6
Há um total de seis linhas em que os valores na coluna "equipa" são duplicados exactos das linhas anteriores.