La Data Science

Tout sur la data

Créer un Dataset pour faire de la Régression en Python

Problème :

Comment créer un dataset exemple qui permet de faire de la régression avec Python?

Solution :

Plutôt que de vous mettre à choisir un dataset parmi des milliers juste pour tester votre implémentation de la régression linéaire, vous pouvez générer vous-même un dataset pour faire de la régression, grâce à scikit-learn.

Utiliser la fonction make_regression de sklearn.datasets.

Exemple :

	from sklearn.datasets import make_regression

	X, Y, coef = make_regression(
	n_samples=200, # Nombre d'échantillons retournés.
	n_features=1, # Nombre de features retournés pour chacun des échantillons.
	n_informative=1, # Nombre de features utilisés pour générer le dataset.
	n_targets=1, # Nombre de variables à prédire.
	bias=-2, # Biais.
	noise=1, # Ecart-type du bruit gaussien rajouté au Y généré.
	coef=True, # Indique si l'on veut retourner le coefficient directeur.
	)

view raw make-regression-dataset.py hosted with ❤ by GitHub

Compléments :

Attention, n_features et n_informative ne sont pas la même chose, puisque, en pratique, on peut disposer d’un dataset généré par deux variables indépendantes, mais n’avoir à disposition qu’une seule variable pour entraîner un modèle.

Jean MP

3 janvier 2023

Datasets, Python, Régression

Créer un Dataset pour faire de la Régression en Python

Partager :

Laisser un commentaire Annuler la réponse.