Problème :
Comment supprimer les lignes en doublon dans une dataframe Pandas pour garder seulement les lignes uniques ?
Solution :
Utiliser la méthode drop_duplicates :
df_lignes_uniques = df.drop_duplicates()
Exemple :
Faisons un exemple trivial pour voir l’effet de drop_duplicates.
Dans un premier temps on définit une dataframe juste pour l’exemple, avec une ligne en double.
import pandas as pd
df = pd.DataFrame(data={
"Nom" : ["Durand", "Dupont", "Durand"],
"Prénom" : ["Alice", "Bob", "Alice"]
})
print(df)

Appliquons la méthode drop_duplicates. À noter qu’elle ne fonctionne pas en place par défaut.
df_lignes_uniques = df.drop_duplicates()
print(df_lignes_uniques)

La ligne 2, qui était en double avec la ligne 0, a été supprimée.

Laisser un commentaire