Vous êtes sur la page 1sur 50

Chapitre 2

Régression linéaire

55
Plan du chapitre

1. Régression linéaire simple


2. Régression linéaire multiple
3. Sélection des caractéristiques
4. Evaluation
5. Régularisation

56
Régression linéaire
Un algorithme d’apprentissage supervisé càd qu’à partir de la variable
cible ou de la variable à expliquer (la variable dépendante) (Y), le
modèle a pour but de faire une prédiction grâce à des variables
indépendantes dites explicatives (X) ou prédictives.
Un modèle de régression linéaire: un modèle de machine learning
dont la variable cible (Y) est quantitative tandis que la variable X peut
être quantitative ou qualitative.
Exemple: Prédire la valeur d’une maison en fonction de sa superficie,
sa localisation, la possibilité de parking ou non

57
Régression linéaire
Régression linéaire: un algorithme qui consiste à trouver une droite qui se
rapproche le plus possible d’un ensemble de points représentant les
données d’entraînement (Training Set).

 Les points en orange: les données d’entraînement (input data), représentés par le couple
variables prédictives; valeurs observées (le prix d’une maison par exemple).
Trouver une droite tel que,
Trouver une droite qui soit le plus proche possible de tous les points de nos données
58
d’apprentissage.
Régression linéaire
Trouver une fonction dite de prédiction ou une fonction coût qui décrit la relation
entre X et Y c’est-à-dire qu’à partir de valeurs connues de X, on arrive à donner une
prédiction des valeurs de Y.
 Exemple

59
Vérification graphique
 Savoir si le modèle linéaire est convenable pour l’étude du phénomène.

Il semble approprié d’utiliser le modèle linéaire pour la première image et pas pour
la deuxième qui ne laisse transparaitre aucune tendance connue.
60
Modèle de la régression linéaire

61
Modèle de régression linéaire simple
Position du problème
Exemple de régression simple
Expliquer le rendement de maïs Y (en quintal) à partir de la quantité d'engrais
utilisé (en kilo) sur des parcelles de terrain similaires.

62
Modèle de régression linéaire simple
Exemple 2 de régression simple: valeur du salaire en fonction des années d’expérience

 Exemple 3: Une entreprise veut mener une étude sur la relation entre les dépenses hebdomadaires en
publicité et le volume des ventes qu’elle réalise

63
Modèle de régression linéaire simple

 A partir d’un échantillon de n couples de points (xi ,yi ) i.i.d (indépendants et


identiquement distribués), expliquer (prédire) les valeurs de Y en fonction des valeurs
prises par X
estimer a et b
 permet de résumer toute l’information qui n’est pas prise en compte dans la relation
linéaire entre Y et X (problèmes de spécifications, approximation de la linéarité, résumer
les variables qui sont absentes...)

64
Estimateur des moindres carrés ordinaires
(Ordinary least squares)
• Critère des moindres carrés : trouver les valeurs de a et b qui
minimise la somme des carrés des écarts entre les vraies valeurs de Y
et les valeurs prédites avec le modèle de prédiction.

65
Estimateur des moindres carrés ordinaires
(Ordinary least squares)

66
Estimateur des moindres carrés ordinaires
(Ordinary least squares)

67
Exemple de rendements agricole

68
Exemple Volume des ventes en fonction des coûts
publicitaires

69
Estimateur des moindres carrés ordinaires
(Ordinary least squares)
 Remarques
• â Peut s’écrire autrement

où 𝐶𝑜𝑣(X,Y) est la covariance empirique entre les xi et les yi et 𝜎 est la variance empirique des xi.

• L’expression de b indique que la droite de la régression linéaire passe par le centre de gravité du nuage
de points (le point moyen défini par le couple (X,Ȳ)).

70
Estimateur des moindres carrés ordinaires
(Ordinary least squares)
Erreur et résidus :
• Erreur = définie dans la spécification du modèle ;
• Résidus = erreurs observées sur les données

71
Régression linéaire Multiple
 Exemple

72
Régression linéaire Multiple
 Exemple 2

73
Modèle de la régression linéaire multiple
La variable dépendante yi est réelle, les p variables xi,k, k=1,..,p sont quantitatives (ou éventuellement qualitatives
encodées)

74
Modèle de la régression linéaire multiple
 Ecriture matricielle du modèle

75
Méthode des moindres carrés ordinaires
 Méthode des moindres carrés: trouver les meilleurs paramètres qui minimisent la somme des
erreurs au carré entre les valeurs observées et les valeurs fournies par le modèle

 Rappel de formules utiles

76
Estimateur des moindres carrés ordinaires

77
Estimateur des moindres carrés ordinaires

78
Estimateur des moindres carrés ordinaires
 Exemple

79
Régression linéaire multiple – Descente de gradient

80
Algorithme descente de gradient

81
Taux d’apprentissage (learning rate)
 Pour trouver le bon Learning Rate, il n’existe malheureusement pas de formule magique. Le
plus souvent, on doit tâtonner et essayer plusieurs valeurs avant de trouver la bonne. On
appelle ça l’Hyperparameter Tuning (le réglage des hyper-paramètres).
 Néanmoins, un bon Learning Rate se situe souvent aux alentours des .
 Taux fixe ou taux décroissant au fil du processus d’apprentissage
 Améliorer le dispositif en faisant évoluer le taux au fil des itérations ( fort au début pour
accélérer la convergence, faible à la fin pour améliorer la précision)

82
Régression linéaire multiple-exemple

83
Méthodes de sélection des variables de la régression linéaire
Dans une régression linéaire multiple, on cherche à prédire/expliquer une variable réponse y à l’aide de p
variables explicatives, Xi, i=1…p.
réduire au maximum l’ensemble des variables explicatives tout en préservant la qualité
prédictive/explicative du modèle
 Objectif : Sélectionner parmi les p variables explicatives les q ≤ p variables qui donnent le “meilleur” modèle
pour prédire Y.
Comment?
 Définir un critère qui permet de comparer deux modèles n’ayant pas nécessairement le même nombre de
variables explicatives ou une fonction d’évaluation permettant de mesurer la capacité d'une variable ou d'un
ensemble de variables exogènes à déterminer la variable endogène
 Définir un critère d’arrêt.
On parle de procédure de choix de modèle

84
Critère d’évaluation
 L'optimalité d'un sous-ensemble est relative à la fonction d'évaluation utilisée.
 Plusieurs critères d’évaluation peuvent être utilisés:
• Critères d’information : C'est la quantité d'information apportée par une variable sur la variable
endogène. La variable, ayant le gain d'information le plus élevé, sera préférée aux autres variables.
Le gain d'information est la différence entre l'incertitude a priori et l'incertitude a posteriori.
exp: entropie de Shannon (information mutuelle)
• Critères de distance: Ces mesures s'intéressent au pouvoir discriminant d'une variable.
exp: Critère de Gini
• Critères d’indépendance: Ils regroupent toutes les mesures de corrélation ou d'association. Ils
permettent de calculer le degré avec lequel une variable exogène est associée à une variable
endogène
exp: le test statistique p-value
• Critères de précision: Ils utilisent le classifieur comme fonction d'évaluation. Le classifieur choisit,
parmi tous les sous-ensembles de variables, celui qui est à l'origine de la meilleure précision
prédictive.

85
Critère d’arrêt
 Un critère d'arrêt pourra être de plusieurs sortes :
• un nombre prédéfini de variables sélectionnées. Ce type de critère d'arrêt nous parait difficile à
utiliser. En effet, il est rare que le nombre optimal de variables soit connu à l'avance. Cependant,
certaines contraintes techniques ou calculatoires peuvent induire un nombre fixe de variables à
sélectionner.
• un nombre d'itérations préfixé. Ce genre de critère permet de limiter le temps de calcul. Bien
sûr, le résultat obtenu ne sera pas forcément optimal.
• un seuil relatif à l’obtention de l’ensemble optimal selon le critère d’évaluation: l'ajout ou la
suppression d'une variable ne produit aucun sous-ensemble plus performant

L'itération continue jusqu'à ce que le critère d'arrêt soit satisfait. Le processus de sélection
de variables s'arrête en fournissant le sous-ensemble obtenu à la procédure de validation.

86
p-value
 La « valeur p » ou « p-value » (probability value) est une valeur qui découle d’un test statistique fait
pour savoir le risque que les différences entre deux séries d’observations soient dues au hasard
 P-value: p(résultat se produit au hasard): risque d’erreur très élevé
Chance importante que le résultat est dû au hasard
Hypothèse: Xd a une influence sur y
 Plus la valeur de la p-value est faible, plus la différence entre les deux mesures a des chances d’être
significative, c’est-à-dire de ne pas être due au hasard.
• p > 0,05 : très probablement dû au hasard, la différence entre les deux séries d’observation n’est
pas significative.
• 0,05 ≤ p < 0,01 : faiblement significatif (*)
• 0,01 ≤ p < 0,005 : significatif (**)
• p ≤ 0,005 : fortement significatif (***)

87
Méthodes de construction d’un modèle
 Deux types d’algorithmes sont résumés ci-dessous par ordre croissant de temps de calcul nécessaire
c’est-à-dire par nombre croissant de modèles considérés parmi les 2p et donc par capacité croissante
d’optimalité.
 Méthodes de construction pas à pas
- Sélection (forward): Cette stratégie part d'un ensemble vide. Les variables sont ajoutées une à une. A
chaque itération, la variable optimale suivant un certain critère est ajoutée. Le processus s'arrête soit
quand il n'y a plus de variable à ajouter, soit quand un certain critère est satisfait. Une fois qu'une variable a
été ajoutée, la FS ne peut la retirer.
- Élimination (backward): Cette stratégie part de l'ensemble initial de variables. A chaque itération, une
variable est enlevée de l'ensemble. Cette variable est telle que sa suppression donne le meilleur sous-
ensemble selon un critère particulier. Une fois la variable supprimée, il est impossible de la réintégrer.
- Elimination bidirectionnelle: Cette stratégie combine les deux méthodes précédentes, introduction et
élimination, au sens où le processus commence par une démarche ascendante (introduction progressive),
mais si la contribution d’une variable déjà introduite tombe en dessous du critère d’élimination, elle est
retirée du modèle.
 Méthode de construction global
utilisé pour comparer tous les modèles possibles en cherchant à optimiser l’un des critères.
88
Méthode FORWARD (ascendante)

89
Méthode BACKWARD (descendante)

90
Méthode d’élimination bidirectionnelle

91
Méthode global

92
Evaluation globale de la régression

93
Evaluation globale de la régression

94
R2 ajustée

95
Sur-apprentissage
 Sur-apprentissage (Overfitting) : un modèle trop spécialisé sur les données du Training Set et qui se
généralisera mal.
 Scénarios:
 l'algorithme d'apprentissage automatique utilise un ensemble de données d'apprentissage
beaucoup plus grand que l'ensemble de test
 l'algorithme d'apprentissage automatique utilise trop de paramètres pour modéliser les données
d'entraînement

Le tracé en bleu représente une fonction de prédiction


qui passe par toutes les données du Training Set (points
en vert). On voit bien que la fonction est instable
(grande variance) et qu’elle s’écarte beaucoup des
points rouges qui représentent des données non vues
lors de la phase d’apprentissage (Test Set).
Faible biais et grande variance (différence
d'ajustement (variabilité) entre l'ensemble de données
d'apprentissage et l'ensemble de données de test) Figure: Sur-apprentissage 96
Sur-apprentissage

Figure: Sur-apprentissage
97
Sous-apprentissage
Le sous-apprentissage (Underfitting): le modèle prédictif généré lors de la phase d’apprentissage s’adapte mal
aux données d’entrainement.
Le coût d’erreur en phase d’apprentissage reste grand.
Le modèle prédictif ne se généralisera pas bien non plus sur les données qu’il n’a pas encore vu.
Le modèle souffre d’Underfitting il souffre d’un grand biais et d’une faible variance
 Scénarios:
 L'ensemble d'apprentissage comporte beaucoup moins d'observations
que de variables, cela peut entraîner des modèles d'apprentissage
automatique sous-ajustés
l'algorithme d'apprentissage automatique ne peut trouver aucune
relation entre les données d'entrée et la variable de sortie
 Le modèle présuppose une hypothèse forte lors de sa modélisation.
Exemple: supposer que le prix d’un appartement est linéairement
corrélé à sa superficie la fonction de prédiction ne prend en compte
que la superficie de la maison comme variable d’entrée et la fonction de
prédiction sera sous forme d’une droite rigide.
modèle assez pauvre (car il ne prend en compte que la superficie)
et ne sera pas suffisant pour prédire précisément le prix d’un appartement Figure: Sous-apprentissage
dans la vie réelle.
98
Sous-apprentissage et sur-apprentissage

Figure: Problèmes de modélisation

99
Régularisation
 Objectif : éviter le sur-apprentissage c.-à-d. apprendre de l’échantillon de données d’apprentissage, mais pas
trop… (pas de sur dépendance)

 Quelle principe? Accepter une légère augmentation du biais pour obtenir une réduction plus que proportionnelle
de la variance
 Comment? Diriger (réguler) un peu plus fermement la modélisation en imposant des contraintes sur les
paramètres estimés de la régression (contraintes sur les valeurs que pourront prendre les âj dans leur ensemble
pour éviter qu’elles soient totalement erratiques)
le modèle sera plus performant puisqu’on diminue l’erreur de prédiction espérée

 Deux types de régularisation:

 Régularisation L2 Régression Ridge


 Régularisation L1 Régression Lasso

100
Régularisation

Figure: Régularisation Ridge


101
Régression Ridge
Ajouter une contrainte sur les coefficients lors de la modélisation pour maîtriser l’amplitude de leurs valeurs (« pour
éviter qu’elles partent dans tous les sens »)

On parle de « shrinkage » (rétrécissement) : on rétrécit les plages de valeurs que peuvent prendre les paramètres
estimés.
Les variables xj doivent être centrées et réduites (zj ) pour éviter que les variables à forte variance aient trop d’influence
La variable cible y doit être centrée pour évacuer la constante de la régression (qui ne doit pas être pénalisée), la cible y
peut être éventuellement réduite aussi : nous travaillerons alors sur les paramètres βj
• (𝜏 → 0) βj → 0
• (𝜏→ +∞) βRidge = βMCO
102
Régression Ridge
 La régression ridge peut être écrite, de manière totalement équivalente :

103
Régression Lasso

Quel intérêt par rapport à Ridge ? LASSO peut faire office de dispositif de sélection de variables en annulant certains
coefficients βj : les variables associées à (βj = 0) sont de facto exclues du modèle prédictif.
104

Vous aimerez peut-être aussi