Cours : Apprentissage
Artificiel
Niveau : L3CS
Chapitre 2: Régression linéaire et
logistique
présenté par:
Mohamed Sahbi Bahroun
Année Universitaire 2021/2022 1
Deux familles de techniques
Méthodes Méthodes
Descriptives Prédictives
Analyse en Composantes Principales
ACP Arbres de Décisions
Réseaux de Neurones
2
Plan
1) Introduction
4) Régression logistique
3
1. Introduction
4
Objectifs
Méthode d’apprentissage supervisé qui a pour objectif d’estimer une variable cible Y
sont connues. Pour la donnée de test : Les Xi sont connues et le Y est à estimer
5
Types de régression
Régression
Linéaire Logistique
Simple Multiple
Simple Multiple
Binaire multinomiale
6
Regression linéaire vs logistique
• Regression linéaire :
Etudier le lien entre une Variable à Expliquer (VAE) quantitative Y et
{Xj } j = 1...p variables explicatives quantitatives
Régression linéaire Simple : une seule variable explicative, p=1
Régression linéaire Multiple : plusieurs variables explicatives, p>=2
• Regression logistique :
Etudier le lien entre une Variable à Expliquer (VAE) qualitative Y et
{Xj } j = 1...p variables explicatives quantitatives ou qualitatives
Regression logistique simple : Malade = f(age)
Régression logistique multiple : Malade= f(age, fume, diabéte, hypertention)
Régression logistique binaire : Malade ϵ {oui, non}
Régression logistique multinomiale : Malade ϵ {stade 1, stade 2, stade 3, …..}
7
Objectifs
L’analyse de la régression permet d’étudier le type de relation pouvant exister
entre une certaine variable (dépendante) dont on veut expliquer les valeurs et une ou
indépendantes.
8
Regression Vs correlation
• Dans la corrélation on étudie le changement d’une variable en fonction d’une autre variable
force de l'association, mais nous voulons être en mesure de pouvoir faire des prédictions.
9
correlation
: Coefficient de corrélation (Pearson) entre deux variables aléatoires X
et Y (populations). Permet d’expliquer comment Y varie en fonction de X
2 échantillons x et y de moyennes et y
x
n
( x x )( y
i i y)
r estimateur de r ( x, y ) n
i 1
n
(x x) ( y
i 1
i
2
i 1
i y)2
11
2. Régression linéaire simple
12
Objectifs de la régression linéaire
Le modèle de prédiction LINEAIRE consiste à estimer la valeur d’une
variable continue (dite ≪ à expliquer ≫,≪ cible ≫, en fonction de la valeur d’un
certain nombre d’autres variables (dites ≪ explicatives ≫, ≪ de contrôle ≫, ou
≪ indépendantes ≫)
Cette variable ≪ cible ≫ peut être par exemple :
le poids : en fonction de la taille
le prix d’un appartement : en fonction de sa superficie
la consommation d’électricité : en fonction de la température extérieure
13
Besoins
Pour estimer la relation entre une variable dépendante (Y) quantitative
et plusieurs variables indépendantes (X1, X2, …)
Un modèle de régression d'une variable expliquée sur une ou plusieurs
variables explicatives dans lequel on fait l'hypothèse que la fonction qui
relie les variables explicatives à la variable expliquée est linéaire selon un
ensemble de paramètres.
Dans ce modèle linéaire simple : X et Y deux variables continues
Les valeurs xi de X sont contrôlées et sans erreur de mesure
On observe les valeurs correspondantes y1, …, yn de Y
Exemples :
X peut être le temps et Y une grandeur mesurée à différentes dates
Y peut être la différence de potentiel mesurée aux bornes d’une résistance pour
différentes valeurs de l’intensité X du courant
14
Régression linéaire simple
Equation de régression linéaire simple :
Cette équation précise la façon dont la variable dépendante Y est reliée à
la seule variable explicative X :
Y 0 1X
Où β0, β 1 sont les paramètres et ε est un bruit aléatoire représentant le
terme d’erreur.
Y
VI Variable
dépendante
Simple
régression
15
Exemple de régression linéaire
simple
Y f (X1,)
poids taille
16
Calcul des coefficients estimateurs par
la méthode des moindres carrés
17
Calcul des coefficients estimateurs par
la méthode des moindres carrés
18
Calcul des coefficients estimateurs par
la méthode des moindres carrés
19
Calcul des coefficients estimateurs par
la méthode des moindres carrés
y^i
xi
21
Processus d’estimation : méthode
des moindres carrés
Estimation des coefficients de
régression / méthode des moindres
carrés ordinaires :
n n
( i
i
2 y yˆ
i
) 2
i1 i1
22
Calcul des coefficients estimateurs par
la méthode des moindres carrés
23
Calcul des coefficients estimateurs par
la méthode des moindres carrés
24
Exemple
Fonction population = f(superficie) pour 27 pays européens
26
Régression linéaire simple
8
yi
7
ŷi yi y
yi yˆ i
6
y yˆ i y
y
n
SST ( yi y ) 2
4
i 1
xi
n
2 3 4 5 6 7 8 SSE ( yi yˆ i ) 2
i 1
x
n
27
COEFFICIENT DE DETERMINATION - R²
R2 = SSR/SST coefficient de détermination ou pourcentage de variance
expliquée par la régression
Propriétés
Permet de juger de la qualité de la
régression
0 R 2
1
Idéal R² = 1
Mauvaise régression: R² = 0
n Quand p=1 R² = r²
i
( ˆ
y y ) 2
r : coefficient de corrélation linéaire
R 2 i n1 Pour le pain: r=-0.76 donc R²= (-0.76)²
( yi y ) 2
i 1
28
Étalonnage d’un appareil de mesure
variété référence infrarouge
Ami 8.6 9.1
Apollo 11.1 12.4 Variable explicative : Taux de protéine de
Arminda 11.6 12.5
Artaban 10.9 10.1 26 variétés de blé (TP)
Avital 10 10.6
Baroudeur
Beauchamp
11.6
10.4
11.5
10.8
-Variable à expliquer spectre proche
CWRS
Camp-Remy
11.6
12.9
11.3
11.6
infrarouge SPIR
Carolus 9 8.2
Castan 13.1 12.9
Centauro 10.3 10.4
Courtot 13.1 13.3
Duck 11.6 11.3
Manital 14 13.7
Recital1 11.5 11.1
Recital2 10.5 9.8
Rossini 9.7 9.1
Scipion 11 11.6 Données / droite de régression
Sidéral
Sleipjner
11.6
12
11.5
13.2
y = 0.157+0.981x R²=0.785
14.2
Soissons1 10.6 10.1
Soissons2 10 10.3 13.2
Tango = 11.5 11.5
12.2
Thésée 10.1 9.2
infrarouge
Win 11.8 11.5 11.2
10.2
9.2
8.2
8.6 9.6 10.6 11.6 12.6 13.6 14.6
référence
29
Étalonnage d’un appareil de mesure
my=11.56 13.2
= 12.2
infrarouge
y= 1.3+0.91 x 11.2
R2=
10.2
9.2
8.2
8.6 9.6 10.6 11.6 12.6 13.6 14.6
référence
30
3. Régression linéaire multiple
31
Tableau de données
Individus 1 à n (ex : j)
Variables Y, X1 à Xp (dont Xi)
Variables
Y X1 X2 … Xi …
Individus
1
2
…
j yj x1,j x2,j xi,j
…
n
35
Principe
35
Régression linéaire multiple
Equation de régression multiple :
Cette équation précise la façon dont la variable dépendante est reliée aux
variables explicatives :
Relations entre
VI à éviter
x₁
PS: on suppose l’indépendance linéaire des Xi
x₂
Y
Variable
x₃ Multiple régression dépendante
xp
34
Régression linéaire multiple
a₁ : la pente de la variable 1
a₂ : la pente de la variable 2
a₃ : la pente de la variable 3
• Les variables ap : la pente de la variable p
x , x , x ,….,xp = Variables explicatives continues x : la variable indépendante 1
ou catégorielles (variables indépendantes) x : la variable indépendante 2
y = la seule variable à expliquer continue (variable x : la variable indépendante 3
dépendante) . Y représente les valeurs possibles xp : la variable indépendante p
de la variable dépendante qui peuvent être
b: la constante
expliquées par le modèle général de régression.
Ɛ : erreur
Par contre Ɛ ne peut être expliquée par ce même
y: la variable dépendante
modèle,
En termes plus clairs, la relation entre x1, x2, x3…xp et y est matérialisée
par une ligne droite dont les pentes sont « a , a , a , … ap » et la constante
est b .
35
Exemple de Régression linéaire
multiple
1ère exemple
température intérieure (ti)=f[température extérieure (te) , humidité relative
(H%), vitesse de l’aire, l’isolation thermique ].
ti= a (te)+ a (H%)+ a (va) + a4(it)+ b
2ème exemple
Revenu (y)= a (expérience en année)+ a ( niveau scolaire en année)+ b
36
REGRESSION LINEAIRE MULTIPLE (MLR)
Explication de la consommation de « fuel »
On veut modéliser la consommation d ’un agent énergétique en fonction de
facteurs explicatifs :
• La température moyenne sur un mois est une explication de la consommation
• L ’épaisseur de l ’isolation en est un autre
Gallons/Month Avrg. Temp (oF) Insolation (Inches)
37
REGRESSION LINEAIRE MULTIPLE (MLR)
Influence de
Observation i de la
Terme constant l ’isolation
consommation
mensuelle
Influence de la
température Erreur
aléatoire
34
REGRESSION LINEAIRE MULTIPLE (MLR)
35
REGRESSION LINEAIRE MULTIPLE (MLR)
35
Principe Régression linéaire multiple (RLM)
Variable Y, quantitative :
Dite « à expliquer » (ou « dépendante », « exogène », « réponse »,
« diagnostique »)
Fonctionne avec distribution quelconque, transformations possibles (ex : log)
Variables Xi, quantitatives ou binaires :
Dites « explicatives » (ou « indépendantes », « endogènes », « prédicteurs »)
Fonctionne avec distribution quelconque, transformation aussi possible
Risques de cette méthode (corrigés à postériori) :
Si Y peu lié aux Xi : faible pouvoir explicatif du modèle
Diagnostic : calculer le coefficient R²
Si utilisation de trop de variables explicatives Xi : surajustement
Solution : calculer un indice de parcimonie et utiliser une procédure pas-à-pas
Si certaines variables Xi trop corrélées entre elles : modèle instable
Solution : explorer les corrélations entre variables
Si relation des Xi sur Y non linéaire : modèle inadapté
Diagnostic : regarder la distribution des résidus
Si présence d’individus trop influents : estimation du modèle faussée
Diagnostic : calculer la distance de Cook de chaque individu
35
REGRESSION LINEAIRE MULTIPLE (MLR)
Préparer la variable Y :
- +/- transformation
35
REGRESSION LINEAIRE MULTIPLE (MLR)
Modèle final
Préparer la variable Y : Réalisation
- +/- transformation de la Résultat = liste des
régression coefficients bi et une
une 1ére fois p valeur par
coefficient.
Préparer les variables Xi :
- Vérifier si des variables très
corrélées, alors supprimer
certaines Xi (ou autres
solutions hors programme)
filtrage a priori : utiliser
seulement les Xi avec p<0.2
dans une analyse bivariée
35
REGRESSION LINEAIRE MULTIPLE (MLR)
Modèle final
Préparer la variable Y : Réalisation
- +/- transformation de la Résultat = liste des
régression coefficients bi et une
une 1ére fois p valeur par
coefficient.
Préparer les variables Xi : Selon le cas :
- Vérifier si des variables très • une seule exécution
corrélées, alors supprimer • itérations manuelles
certaines Xi (ou autres • itérations automatiques
(procédure pas-à-pas)
solutions hors programme)
filtrage a priori : utiliser Filtrage a posteriori des Xi,
seulement les Xi avec p<0.2 par exemple :
dans une analyse bivariée
-Ne garder que les Xi dont
bi≠0 significativement
(p<5%)
-Garder le nombre de Xi qui
minimise un indice de
parcimonie, AIC ou BIC
Variable qui ne sert pas
au modéle de prédiction
35
REGRESSION LINEAIRE MULTIPLE (MLR)
Modèle final
Préparer la variable Y : Réalisation
- +/- transformation de la Résultat = liste des
régression coefficients bi et une
une 1ére fois p valeur par
coefficient.
Préparer les variables Xi : Selon le cas :
- +/- transformations • une seule exécution
- +/- si très corrélées, • itérations manuelles
Vérifier la validité
supprimer certaines Xi (ou • itérations automatiques
(procédure pas-à-pas)
autres solutions hors X -Coefficient de
programme) Filtrage a posteriori des Xi, détermination R²
- +/- filtrage a priori : utiliser par exemple : X -Résidus
seulement les Xi avec p<0.2
dans une analyse bivariée
X -Individus marginaux
-Ne garder que les Xi dont
bi≠0 significativement
(p<5%) Interdit !!
-Garder le nombre de Xi qui
minimise un indice de Ecrire et
parcimonie, AIC ou BIC interpréter
Variable qui ne sert pas l’équation
au modéle de prédiction
35
Résultat de la RLM
38
Signification de R²
Interprétation :
Valeur de 0% (si modèle non explicatif) à 100% (si prédiction parfaite)
^
Dans le cas de modèle que nous étudions ici, R²=r²=(Corr(Y, Y))²
Notion de parcimonie
En ajoutant des Xi, on améliorera souvent R² mais risque de
surajustement
Critères de parcimonie AIC (Akaike information criterion) et BIC
(bayesian information criterion) : traduisent la complexité du modèle
par rapport à sa valeur explicative
Pour choisir quelles Xi conserver : on peut minimiser AIC ou BIC
(fait dans les procédures pas-à-pas, qui sélectionnent
automatiquement les Xi à conserver, en les testant toutes)
38
Méthode de régression
48
Procédure pas-à-pas ou « Stepwise »
38
Coefficients de regression
SÉLECTION DES VARIABLES
RÉGRESSION PAS À PAS
DESCENDANTE (BACKWARD)
50
Démarche de modélisation
•estimer les paramètres « a » en exploitant les données
•évaluer la précision de ces estimateurs (biais, variance, convergence)
•mesurer le pouvoir explicatif global du modèle
•évaluer l'influence des variables dans le modèle
• globalement (toutes les p variables)
• individuellement (chaque variable)
• un bloc de variables (q variables, q ≤ p) [c’est une généralisation]
•sélectionner les variables les plus « pertinentes »
•évaluer la qualité du modèle lors de la prédiction (intervalle de prédiction)
• détecter les observations qui peuvent fausser ou influencer exagérément les résultats
(points atypiques).
51
EXEMPLE : CAS DE VENTES
SEMESTRIELLES
Variable à expliquer :
Y = Ventes semestrielles
Variables explicatives :
X1 = Marché total
X2 = Remises aux grossistes
X3 = Prix
X4 = Budget de Recherche
X5 = Investissement
X6 = Publicité
X7 = Frais de ventes
X8 = Total budget publicité de la branche
52
Etape 1
Model Summary
BR = Budget de Coefficientsa
Recherche Unstandardized
Coefficients
Coefficients
a
Unstandardized
Coefficients
Unstandardized
Coefficients
Unstandardized
Coefficients
58
Introduction à la régression
logistique
Etudier le lien entre une Variable à Expliquer (VAE) qualitative Y
ET
{Xj } j = 1...p variables explicatives quantitatives ou
qualitatives
59
Types de régression
Regression logistique simple : Malade = f(age)
Régression logistique multiple : Malade= f(age, fume,
diabéte, hypertention)
Régression logistique binaire : Malade ϵ {oui, non}
Régression logistique multinomiale : Malade ϵ {stade
1, stade 2, stade 3, …..}
60
Exemple de données
age coeur
50 presence
49 presence
46 presence
49 presence
62 presence
35 presence
67 absence
65 absence
47 absence
58 absence
57 absence
Y : (+ = presence,
59 absence
44 absence - = absence)
41 absence
54 absence
52 absence
57 absence
50 absence
X : age du patient
44 absence
(quantitative) 49 absence
61
Introduction à la régression logistique
Y VAE binaire (1 ou 0) Présence (ou absence) de maladie
cardiovasculaire. Une seule variable explicative quantitative X : l’age
(absice)
Représentation graphique
63
Utilisation du modèle linéaire
Si on modélise par une régression linéaire, P(Y =1/X )
]−∞;+∞[ normalement dans l’intervalle [0;1] > 100 % !!
25 30 35 40 45 50 55 60 65 70 75 80
< 0 % !!
64
Modélisation par une fonction
exponentielle logistique
La forme s’approprie le mieux à une fonction exponentielle logistique
Y Varie de 0 a 1 quand x varie de] - ∞ , +∞[
X → +∞ alors π(X ) → 1
X → −∞ alors π(X ) → 0
65
Fonction logistique
66
Fonction logistique
67
Fonction logistique
68
Fonction logistique
69
Modèle logistique
70
Côte : odds
Soit p la probabilité que l’événement aille lieu.
p = P(Y=1/X)
L’Odds (ou « cote ») est défini par:
71
Odds-Ratio : OR
Odds ratio (ou « rapport des cotes ») : C’est le rapport des
cotes des probabilités d’avoir la maladie pour ceux qui sont
exposés d’une part et ceux qui ne le sont pas.
Il mesure l’association entre l’exposition et la maladie
Signification:
• OR=1, la maladie est indépendante de l’exposition
• OR>1, la maladie est plus fréquente pour les individus qui sont
exposés.
• OR<1, la maladie est plus fréquente chez les personnes qui ne sont
pas exposés
72
Lien entre OR, Logit et les
Coefficients de régression
Donc
73
Exemple
0 .2
0 ln 1 . 386
1 0 .2
0 .6
1 ln 1 . 386 1 . 792
1 0 .6
74
Cas variable explicative
quantitative
Supposons
Données que X est une variable quantitative :
Principe
Découper X en déciles (intervalle de taille 10) par exemple
Pour chaque intervalle on calcule P(Y = 1/ X) (proportion de malades)
interprétation:
eβ est l'OR associe a un vieillissement de 1 an,
e10*β est l'OR associe a un vieillissement de 10 ans
75
Cas variable explicative qualitative
(+ de 2 modalités)
Cas des variables nominales :
Exemple : angine: { typique, atypique, asymptotique, non anginal}
1. Dans le tableau de contingence, On choisit une modalité de référence
(normal)
2. On prend une modalité de référence, et on calcule les odds-ratio par
rapport à cette modalité.
77
Bibliographie
[1] R Palm et A.F. Iemma, « Quelques alternatives à la régression classique dans le
cadre de la colinéarité », Revue de statistique appliquée, vol. 43, no 2, 1995, p. 5-
33 (lire en ligne [archive])
[2] Thierry Foucart, « Colinéarité et régression linéaire », Mathématiques et sciences
humaines, vol. 1, no 173, 2006, p. 5-25 (lire en ligne [archive])
[3] J.P. Nakache, J. Confais, Statistique Explicative Appliquée, Technip, 2003 (Partie
2)
[4] Pierre-François Verhulst, « Recherches mathématiques sur la loi d'accroissement
de la population », Nouveaux Mémoires de l'Académie Royale des Sciences et
Belles-Lettres de Bruxelles, no 18, 1845, p. 1-42
[5] Ken Train, Discrete Choice Methods with Simulation, Cambridge University
Press, 30 juin 2009, 2e éd., 408 p. (ISBN 978-0521747387) p. 34-75 (Chapitre 3)
[6] Andrew Gelman et Jennifer Hill, Data Analysis Using Regression And
Multilevel/Hierarchical Models, Cambridge University Press, coll. « Analytical
Methods for Social Research », 18 décembre 2006, 1re éd., 648 p. (ISBN 978-
0521686891) (Chapitre 5)
78