Vous êtes sur la page 1sur 3

Master Data Science & Big Data

Année 2022-2023
TP : Machine Learning

Régression Linéaire Simple et Multiple et La


Régression Logistique

 Régression Linéaire Simple


Le but de ce TP est l’application des concepts étudies sur La régression Linéaire
Simple.
1- Importer les bibliothèques numpy, pandas et matplotlib.pyplot
2- Importer la dataset Salary_Data et visualiser les données
3- Spécifier X les Features de la dataset et y l’Outcome avec la fonction
iloc
4- Diviser le dataset entre le Training set et le Test set en utilisant
train_test_split de la bibliothèque sklearn.model_selection
5- Construire le modèle sous le nom : regressor
6- Faire la prédicition de X_test dans une variabe y_pred
7- Prédire le salaire pour 15 ans d’expérience
8- À l’aide de la fonction plt.scatter, afficher le nuage des points de
X_test, y_test en couleur rouge
9- Afficher le Salaire vs Expérience de X_train, regressor(X_train) en
couleur bleu.
10- Qu’est-ce que vous constatez ?
11- Donner les valeurs des paramètres de l’équation y=ax+b
12- Evaluer le modèle à travers le R2_score, mse et rmse
13- Donner le min et le max de y

Régression Linéaire Multiple


1- Importer les bibliothèques numpy, pandas et matplotlib.pyplot
2- Importer la dataset 50_Startups et visualiser les données

Bonne Chance !
3- Spécifier X les Features de la dataset et y l’Outcome avec la fonction
iloc
4- Gérer les variables catégoriques
5- Diviser le dataset entre le Training set et le Test set
6- Construire le modèle et faire l’entrainement sur X_train, y_train
7- Faire la predicition de y_pred
8- Faire la prediction sur np.array([[1,0,0, 130000, 140000, 300000]])
9- Donner les valeurs de l’intercept et le coef
10- Calculer le r2 score
11- Essayer de trouver un modele mais avec moins de variables en
utilisant RFE de sklearn.feature_selection

 Régression Logistique

C’est le cas d'une entreprise qui détient un data set qui contient des
informations sur des clients qui ont acheté ou non des voitures après
avoir reçu une publicité sur les réseaux sociaux. Nous devons construire
un modèle qui nous aide à prédire les acheteurs potentiels pour leur
envoyer des publicités ciblées.

1- Importer les librairies


2- Importer et visualiser le dataset Social_Network_Ads.csv, ses
colonnes et les valeurs uniques de Purchased
3- Donner par rapport à la colonne Gender « Male, Female » le nombre
de purchased
4- Spécifier à l’aide de iloc le X et le y
5- Gérer les données manquantes s’ils existent et aussi les variables
catégoriques
6- Diviser le dataset entre le Training set et le Test set
7- Etablir le Feature Scaling
8- Construire le modèle de Régression Logistique
9- Faire les nouvelles prédictions sur X_test
10- Afficher la matrice de confusion
11- Evaluer le modèle à travers,L’accuracy, La précision score, le recall
et le F1_score.

Bonne Chance !
12- Afficher la courbe ROC , que constatez vous à partier de ces
résultats
13- Effectuez la validation croisée en donnant à cv la valeur de 5
14- Utiliser la technique de Hyperparameter Tuning afin d’optimiser
les résultats et afficher les best params, et le best_score
15- Donner les mesures accuracy ..etc utilisés avant encore une fois
16- Utiliser le RandomizedSearchCV avec :
from scipy.stats import uniform
C = uniform(loc=0, scale=4) # une distribution entre 0 et 4
parameters_2 = {"C":C}
17- Donner cv_random.best_params et cv_random.best_score
18- Visualiser les résultats
19- Donner l’intecept et le coef.

Bonne Chance !

Vous aimerez peut-être aussi