Créer un Dataset pour faire de la Régression en Python

Problème :

Comment créer un dataset exemple qui permet de faire de la régression avec Python?

Solution :

Plutôt que de vous mettre à choisir un dataset parmi des milliers juste pour tester votre implémentation de la régression linéaire, vous pouvez générer vous-même un dataset pour faire de la régression, grâce à scikit-learn.

Utiliser la fonction make_regression de sklearn.datasets.

Exemple :

from sklearn.datasets import make_regression
X, Y, coef = make_regression(
n_samples=200, # Nombre d'échantillons retournés.
n_features=1, # Nombre de features retournés pour chacun des échantillons.
n_informative=1, # Nombre de features utilisés pour générer le dataset.
n_targets=1, # Nombre de variables à prédire.
bias=-2, # Biais.
noise=1, # Ecart-type du bruit gaussien rajouté au Y généré.
coef=True, # Indique si l'on veut retourner le coefficient directeur.
)

Compléments :

  • Attention, n_features et n_informative ne sont pas la même chose, puisque, en pratique, on peut disposer d’un dataset généré par deux variables indépendantes, mais n’avoir à disposition qu’une seule variable pour entraîner un modèle.

Laisser un commentaire