La Data Science

Tout sur la data

Garder seulement les lignes uniques d’une dataframe avec Pandas

Problème :

Comment supprimer les lignes en doublon dans une dataframe Pandas pour garder seulement les lignes uniques ?

Solution :

Utiliser la méthode drop_duplicates :

df_lignes_uniques = df.drop_duplicates()

Exemple :

Faisons un exemple trivial pour voir l’effet de drop_duplicates.

Dans un premier temps on définit une dataframe juste pour l’exemple, avec une ligne en double.

import pandas as pd

df = pd.DataFrame(data={
    "Nom" : ["Durand", "Dupont", "Durand"],
    "Prénom" : ["Alice", "Bob", "Alice"]
    })

print(df)

Appliquons la méthode drop_duplicates. À noter qu’elle ne fonctionne pas en place par défaut.

df_lignes_uniques = df.drop_duplicates()

print(df_lignes_uniques)

La ligne 2, qui était en double avec la ligne 0, a été supprimée.

Jean MP