Académique Documents
Professionnel Documents
Culture Documents
Apprentissage automatique
Apprentissage supervisé
Prédiction
Gorgoumack SAMBE
Objectifs
Objectif général
Sélectionner, appliquer et évaluer un modèle de prédiction
(régression).
Objectifs
Objectif général
Sélectionner, appliquer et évaluer un modèle de prédiction
(régression).
Objectifs spéciques
1 Appliquer et évaluer une régression linéaire simple ;
2 Appliquer et évaluer une régression linéaire multiple ;
Les bases
Régression simple
étude de la relation 1 entre deux variables X et Y quantitatives.
trouver une fonction f telle que y ≈ f (x)
i.e. y = f (x) + , minimal.
1. Explication/prédiction
5/17 Gorgoumack SAMBE Apprentissage automatique
Régression linéaire simple
Régression linéaire multiple
Les bases
Régression simple
étude de la relation 1 entre deux variables X et Y quantitatives.
trouver une fonction f telle que y ≈ f (x)
i.e. y = f (x) + , minimal.
1. Explication/prédiction
5/17 Gorgoumack SAMBE Apprentissage automatique
Régression linéaire simple
Régression linéaire multiple
Les bases
Régression simple
étude de la relation 1 entre deux variables X et Y quantitatives.
trouver une fonction f telle que y ≈ f (x)
i.e. y = f (x) + , minimal.
Exemples
y : note de langage C, x : note d'algorithmique
y : tension artérielle , x : age
1. Explication/prédiction
5/17 Gorgoumack SAMBE Apprentissage automatique
Régression linéaire simple
Régression linéaire multiple
Exemple
y : tension artérielle, x : age
covariance entre x et y
1
cov (x, y ) = Σni=1 (xi − x)(yi − y )
n
moyenne de x/moyenne de y
1 1
x= Σni=1 xi y= Σni=1 yi
n n
variance de x
1
σx2 = Σni=1 (xi − x)2
n
9/17 Gorgoumack SAMBE Apprentissage automatique
Régression linéaire simple
Régression linéaire multiple
Qualité du modèle
Décomposition de la variance
Σi (yi − y )2 = Σi (yi − ŷi )2 + Σi (ŷi − y )2
SCT = Σi (yi − y )2 Somme des carrés totaux
SCE = Σi (ŷi − y )2 Somme des carrés expliqués par le modèle
SCR = Σi (yi − ŷi )2 Somme des carrés résiduels
Qualité
2
du modèle −y
⇒ Coecient de détermination : R 2
2
R = SCE
SCT
Σ
=(ŷ i ) i
Σi (yi −y )2
= 1 − RSE
R2 → 1 le modèle est de bonne qualité
R2 → 0 le modèle n'est pas bon.
Python sklearn
Classe : LinearRegression
from sklearn.linear_model import LinearRegression
modele=LinearRegression()
apprentissage
modele.t(X,y)
paramètres (coecient,ordonnée à l'origine)
modele.coef_
modele.intercept_
prédiction
modele.predict(X)
qualité du modèle 4
modele.score(X,y)
Exemple
import numpy as np
from sklearn.datasets import make_regression
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
X,y=make_regression(n_samples=100,n_features=1,noise=5)
print(np.corrcoef(X,y,rowvar=False))
X_train, X_test, y_train, y_test =
train_test_split(X, y, test_size = 0.2, random_state=5)
modele_simple=LinearRegression()
modele_simple.fit(X,y) #Apprentissage
print(modele_simple.coef_,modele_simple.intercept_) #coefficient
#prediction sur le jeu test
y_test_predict=modele_simple.predict(X_test)
# qualité du modèle : R2
r2=modele_simple.score(X_train,y_train)
#validation du modèle : MSE/RMSE
mse = mean_squared_error(y_test, y_test_predict)
RMSE=np.sqrt(mse)
print('MSE=',mse)
print('RMSE=',RMSE)
Les bases
Méthode
Estimateur des moindres carrés
β̂ = (X 0 X )−1 X 0 Y
2 Qualité du modèle
coecient de détermination : R2
3 Validation du modèle
MSE,RMSE, . . .
Sélection de variables
1 Objectif : avoir un "bon modèle" avec le minimum de
variables :
bonne capacité de prédiction
avec les variables les plus inuentes (corrélation avec la cible)
sans variable superue (colinéarité des descripteurs)
2 Sélection d'un sous-ensemble de variables parmi X1 , . . . , Xn−1
méthodes ascendantes (backward) : par incorporation ;
méthodes descendantes (forward) : par retrait ;
méthodes mixtes (stepwise).
3 Plusieurs méthodes
Exemple : méthodes basées sur la statistique de Fisher F
2
Rp+(j) −Rp2
Fp+(j) = (n − p − 1) 2
1−Rp+(j)
Rp2 : r2 du modèle à p variables
2
Rp+(j) : r2 du modèle à p variables + la variable (j)