Chap2 Regression

Université de Tunis Elmanar
Institut Supérieur d’Informatique
Cours : Apprentissage
Artificiel
Niveau : L3CS
Chapitre 2: Régression linéaire et
logistique
présenté par:
Mohamed Sahbi Bahroun
Année Universitaire 2021/2022 1
Deux familles de techniques
Méthodes Méthodes
Descriptives Prédictives
Analyse en Composantes Principales
ACP Arbres de Décisions
Méthodes des Centres Mobiles

K-Means Régression
Linéaire, Logistique
Classification Ascendante Hiérarchique
CAH
Analyse Discriminante
Réseaux de Neurones
2
Plan
1) Introduction
2) Régression linéaire simple
3) Regression linéaire multiple
4) Régression logistique
3
1. Introduction
4
Objectifs
 Méthode d’apprentissage supervisé qui a pour objectif d’estimer une variable cible Y
(variable à expliquer) en fonction de P variables explicatives Xi

X1 X2 Xp Y
I1 . . . . .
Données I2 . . . . .
d’apprentiss
age . . . . . .
. . . . . .
In . . . . .
Donnée de It . . . . ?
test
La base d’apprentissage est composée de n individus. Pour ces données les variables Y
sont connues. Pour la donnée de test : Les Xi sont connues et le Y est à estimer
5
Types de régression
Régression
Linéaire Logistique
Simple Multiple
Simple Multiple
Binaire multinomiale
6
Regression linéaire vs logistique
• Regression linéaire :
Etudier le lien entre une Variable à Expliquer (VAE) quantitative Y et
{Xj } j = 1...p variables explicatives quantitatives
 Régression linéaire Simple : une seule variable explicative, p=1
 Régression linéaire Multiple : plusieurs variables explicatives, p>=2
• Regression logistique :
Etudier le lien entre une Variable à Expliquer (VAE) qualitative Y et
{Xj } j = 1...p variables explicatives quantitatives ou qualitatives
Regression logistique simple : Malade = f(age)
Régression logistique multiple : Malade= f(age, fume, diabéte, hypertention)
Régression logistique binaire : Malade ϵ {oui, non}
Régression logistique multinomiale : Malade ϵ {stade 1, stade 2, stade 3, …..}
7
Objectifs
 L’analyse de la régression permet d’étudier le type de relation pouvant exister
entre une certaine variable (dépendante) dont on veut expliquer les valeurs et une ou
plusieurs autres variables qui servent à cette explication (variables indépendantes)
 En d’autres termes, l’analyse de la régression permet d’étudier les
variations de la variable dépendante en fonction des variations connues des variables
indépendantes.
 De détecter les individus atypiques
8
Regression Vs correlation
• Dans la corrélation on étudie le changement d’une variable en fonction d’une autre variable
(une augumente, l’autre diminue par exemple)
• La régression nous donne un pas au-delà de la corrélation qui s’intéresse seulement à la
force de l'association, mais nous voulons être en mesure de pouvoir faire des prédictions.
9
correlation
 : Coefficient de corrélation (Pearson) entre deux variables aléatoires X
et Y (populations). Permet d’expliquer comment Y varie en fonction de X
2 échantillons x et y de moyennes et y
x
n
 ( x  x )( y
i i  y)
r estimateur de  r ( x, y )  n
i 1
n
 (x  x)  ( y
i 1
i
2
i 1
i  y)2
 r est toujours compris entre -1 et + 1.
 si r proche de + 1 ou - 1 , x et y sont bien corrélées; le nuage de points

est presque aligné le long d'une droite (croissante si r > 0, décroissante si r
< 0).
 r = 0 Pas de lien linéaire entre x et y

10
Pourquoi la Regression
• la relation doit être linéaire entre la variable explicative et à expliquer (à prédire)
• Les variables explicatives (variables indépendantes) et la variable à expliquer
(variable dépendante) sont indépendantes
• Les variables explicatives sont indépendantes entre elles.
• Les variables indépendants ne doivent pas avoir de relation linéaire parfaite
entre elles ( pas de multicolinéarité parfaite)
• la distribution de la variable à expliquer y et les variables explicatives x₁, x₂,
x₃,…..xp suivent une loi normale dans le cas où l’une de ces dernières est continue.
• Un bon modèle de régression comprend un nombre optimal de variables
indépendantes, cela signifie qu’il faut prendre les meilleurs variables indépendantes
en vue d’une prédiction fiable.
• Le modèle doit prendre en compte des variables énoncées dans les objectifs
• Une variable indépendante pourrait être exclue du modèle si le degré d’association
avec la variable indépendante n’est pas assez fort.
11
2. Régression linéaire simple
12
Objectifs de la régression linéaire
 Le modèle de prédiction LINEAIRE consiste à estimer la valeur d’une
variable continue (dite ≪ à expliquer ≫,≪ cible ≫, en fonction de la valeur d’un
certain nombre d’autres variables (dites ≪ explicatives ≫, ≪ de contrôle ≫, ou
≪ indépendantes ≫)
 Cette variable ≪ cible ≫ peut être par exemple :
 le poids : en fonction de la taille
 le prix d’un appartement : en fonction de sa superficie
 la consommation d’électricité : en fonction de la température extérieure
13
Besoins
 Pour estimer la relation entre une variable dépendante (Y) quantitative
et plusieurs variables indépendantes (X1, X2, …)
 Un modèle de régression d'une variable expliquée sur une ou plusieurs
variables explicatives dans lequel on fait l'hypothèse que la fonction qui
relie les variables explicatives à la variable expliquée est linéaire selon un
ensemble de paramètres.
 Dans ce modèle linéaire simple : X et Y deux variables continues
 Les valeurs xi de X sont contrôlées et sans erreur de mesure
 On observe les valeurs correspondantes y1, …, yn de Y
Exemples :
 X peut être le temps et Y une grandeur mesurée à différentes dates
 Y peut être la différence de potentiel mesurée aux bornes d’une résistance pour
différentes valeurs de l’intensité X du courant
14
Régression linéaire simple
Equation de régression linéaire simple :
Cette équation précise la façon dont la variable dépendante Y est reliée à
la seule variable explicative X :
Y   0   1X  
Où β0, β 1 sont les paramètres et ε est un bruit aléatoire représentant le
terme d’erreur.
Y
VI Variable
dépendante
Simple
régression
15
Exemple de régression linéaire
simple
Y  f (X1,)
poids taille
Estimer la consommation de carburant en fonction de la vitesse
16
Calcul des coefficients estimateurs par
la méthode des moindres carrés
Chaque individu i est caractérisé par un couple de

coordonnées (xi, yi) et est représenté par un point sur le
graphique. L’ensemble des individus (données
d’apprentissage) forme un nuage de points.
17
La droite de régression Y = α + βX est la droite qui résume le mieux le

nuage de points. Intuitivement, il s’agit de la droite dont les points du
nuage sont en moyenne les plus proches (c’est-à-dire la droite qui passe
à la plus faible distance de chaque point du nuage, en moyenne).
18
La distance d’un point à la droite est la distance verticale entre

l’ordonnée du point observé (xi, yi) et l’ordonnée du point correspondant
sur la droite (xi, ^yi) . Cette distance d’un point à la droite (yi - ^yi) peut
être positive ou négative et la somme des distances à la droite s’annule.
19
y^i
xi
Pour s’affranchir du signe, on calcule la somme des carrés des distances de

chaque point à la droite. La droite de régression est la droite qui minimise la
somme des carrés des écarts. Elle est aussi appelée droite des moindres
carrés.
20
Une particularité de la droite de régression est de passer par le point

moyen théorique de coordonnée (mx, my).
21
Processus d’estimation : méthode
des moindres carrés
Estimation des coefficients de
régression / méthode des moindres
carrés ordinaires :
Le principe de l’estimation des

coefficients de régression :
n n
  ( i
i

2 y  yˆ
i
) 2
i1 i1
22
23
L’estimateur de l’ordonnée à l’origine a est déduit de la

pente b et des coordonnées du point moyen (mx, my) :
a = my – b mx
24
Exemple
Fonction population = f(superficie) pour 27 pays européens
On voit qu’il y a probablement une relation linéaire croissante entre la

population et la superficie.
25
EXemple
En estimant la pente de la droite de régression aux moindres
carrés :
Ce calcul donne une estimation de l’augmentation moyenne

de la population lorsque le territoire augmente d’un km2 .
β0 = 1, 96.
26
Régression linéaire simple
8
yi
7
ŷi yi  y
yi  yˆ i
6
y yˆ i  y
y
n
SST   ( yi  y ) 2
4
i 1
xi
n
2 3 4 5 6 7 8 SSE   ( yi  yˆ i ) 2
i 1
x
n
SST  SSR  SSE SSR   ( yˆ i  y ) 2

i 1
27
COEFFICIENT DE DETERMINATION - R²
 R2 = SSR/SST coefficient de détermination ou pourcentage de variance
expliquée par la régression
Propriétés
 Permet de juger de la qualité de la
régression
0  R 2
 1
 Idéal R² = 1
 Mauvaise régression: R² = 0
n Quand p=1 R² = r²
 i
( ˆ
y  y ) 2
r : coefficient de corrélation linéaire
R 2  i n1 Pour le pain: r=-0.76 donc R²= (-0.76)²
 ( yi  y ) 2
i 1
28
Étalonnage d’un appareil de mesure
variété référence infrarouge
Ami 8.6 9.1
Apollo 11.1 12.4 Variable explicative : Taux de protéine de
Arminda 11.6 12.5
Artaban 10.9 10.1 26 variétés de blé (TP)
Avital 10 10.6
Baroudeur
Beauchamp
11.6
10.4
11.5
10.8
-Variable à expliquer spectre proche
CWRS
Camp-Remy
11.6
12.9
11.3
11.6
infrarouge SPIR
Carolus 9 8.2
Castan 13.1 12.9
Centauro 10.3 10.4
Courtot 13.1 13.3
Duck 11.6 11.3
Manital 14 13.7
Recital1 11.5 11.1
Recital2 10.5 9.8
Rossini 9.7 9.1
Scipion 11 11.6 Données / droite de régression
Sidéral
Sleipjner
11.6
12
11.5
13.2
y = 0.157+0.981x R²=0.785
14.2
Soissons1 10.6 10.1
Soissons2 10 10.3 13.2
Tango = 11.5 11.5
12.2
Thésée 10.1 9.2
infrarouge
Win 11.8 11.5 11.2
10.2
9.2
8.2
8.6 9.6 10.6 11.6 12.6 13.6 14.6
référence
29
Étalonnage d’un appareil de mesure
TP SPIR Variable explicative : Taux de protéine de

Ami 8.6 9.1 26 variétés de blé (TP)
Apolio 11.1 12.4 -Variable à expliquer spectre proche
Aminda 11.6 12.5 infrarouge SPIR
Artaban 10.9 10.1
Avital 14 13.7
Barroudeur 13.1 ?
Données / droite de régression

mx=11.24 R²=0.785
14.2
my=11.56 13.2
= 12.2
infrarouge
y= 1.3+0.91 x 11.2
R2=
10.2
9.2
8.2
8.6 9.6 10.6 11.6 12.6 13.6 14.6
référence
30
3. Régression linéaire multiple
31
Tableau de données
 Individus 1 à n (ex : j)
 Variables Y, X1 à Xp (dont Xi)
Variables
Y X1 X2 … Xi …
Individus
1
2
…
j yj x1,j x2,j xi,j
…
n
35
Principe
 Méthode supervisée multivariée « phare » en médecine :

 Explication : dans un jeu de données, expliquer une variable
Y quantitative par des variables Xi quantitatives ou binaires
Effet « ajusté » des variables Xi sur Y (identifie et isole l’effet
propre de chaque Xi dans le modéle de prediction de Y) .
 Prédiction : ensuite seulement, Y étant inconnue, prédire la
valeur ^y, avec intervalle de confiance, d’un nouvel individu j
dont les valeurs xi,j sont connues
 Procédé (exemple avec 3 variables X1, X2 et X3) :
 Mise au point du modèle explicatif
Y=b0 + b1.X1 + b2.X2 + b3.X3+
 Possibilité de prédiction avec la formule
Y^=b0 + b1.X1 + b2.X2 + b3.X3
 Erreur de prédiction observée dans l’échantillon
= résidu =Y^-Y
35
Régression linéaire multiple
Equation de régression multiple :
Cette équation précise la façon dont la variable dépendante est reliée aux
variables explicatives :
Relations entre
VI à éviter
x₁
PS: on suppose l’indépendance linéaire des Xi
x₂
Y
Variable
x₃ Multiple régression dépendante
xp
34
Régression linéaire multiple
a₁ : la pente de la variable 1
a₂ : la pente de la variable 2
a₃ : la pente de la variable 3
• Les variables ap : la pente de la variable p
 x , x , x ,….,xp = Variables explicatives continues x : la variable indépendante 1
ou catégorielles (variables indépendantes) x : la variable indépendante 2
 y = la seule variable à expliquer continue (variable x : la variable indépendante 3
dépendante) . Y représente les valeurs possibles xp : la variable indépendante p
de la variable dépendante qui peuvent être
b: la constante
expliquées par le modèle général de régression.
Ɛ : erreur
Par contre Ɛ ne peut être expliquée par ce même
y: la variable dépendante
modèle,
En termes plus clairs, la relation entre x1, x2, x3…xp et y est matérialisée
par une ligne droite dont les pentes sont « a , a , a , … ap » et la constante
est b .
35
Exemple de Régression linéaire
multiple
1ère exemple
température intérieure (ti)=f[température extérieure (te) , humidité relative
(H%), vitesse de l’aire, l’isolation thermique ].
ti= a (te)+ a (H%)+ a (va) + a4(it)+ b
2ème exemple
Revenu (y)= a (expérience en année)+ a ( niveau scolaire en année)+ b
36
REGRESSION LINEAIRE MULTIPLE (MLR)
Explication de la consommation de « fuel »
On veut modéliser la consommation d ’un agent énergétique en fonction de
facteurs explicatifs :
• La température moyenne sur un mois est une explication de la consommation
• L ’épaisseur de l ’isolation en est un autre
Gallons/Month Avrg. Temp (oF) Insolation (Inches)
275.30 40.00 3.00

363.80 27.00 3.00
164.30 40.00 10.00
40.80 73.00 6.00
94.30 64.00 6.00
230.90 34.00 6.00
366.70 9.00 6.00
300.60 8.00 10.00
237.80 23.00 10.00
121.40 63.00 3.00
31.40 65.00 10.00
203.50 41.00 6.00
441.10 21.00 3.00
323.00 38.00 3.00
52.50 58.00 10.00
37
Un modèle de régression linéaire
yi 1 xi1 2 xi2 i
Influence de
Observation i de la
Terme constant l ’isolation
consommation
mensuelle
Influence de la
température Erreur
aléatoire
34
n observations yi p variables xj continues n>p
Modèle fuel : n=15 p=2
Pour chaque observation : yi    1 xi1  .....   p xip   i
Coefficients inconnus terme d’erreur non

observé
35
35
Principe Régression linéaire multiple (RLM)
 Variable Y, quantitative :
 Dite « à expliquer » (ou « dépendante », « exogène », « réponse »,
« diagnostique »)
 Fonctionne avec distribution quelconque, transformations possibles (ex : log)
 Variables Xi, quantitatives ou binaires :
 Dites « explicatives » (ou « indépendantes », « endogènes », « prédicteurs »)
 Fonctionne avec distribution quelconque, transformation aussi possible
 Risques de cette méthode (corrigés à postériori) :
 Si Y peu lié aux Xi : faible pouvoir explicatif du modèle
 Diagnostic : calculer le coefficient R²
 Si utilisation de trop de variables explicatives Xi : surajustement
 Solution : calculer un indice de parcimonie et utiliser une procédure pas-à-pas
 Si certaines variables Xi trop corrélées entre elles : modèle instable
 Solution : explorer les corrélations entre variables
 Si relation des Xi sur Y non linéaire : modèle inadapté
 Diagnostic : regarder la distribution des résidus
 Si présence d’individus trop influents : estimation du modèle faussée
 Diagnostic : calculer la distance de Cook de chaque individu
35
Préparer la variable Y :
- +/- transformation
Préparer les variables Xi :

- Vérifier si des variables très
corrélées, alors supprimer
certaines Xi (ou autres
solutions hors programme)
- filtrage a priori : utiliser
seulement les Xi avec p<0.2
dans une analyse bivariée
Variable qui ne sert pas

au modéle de prédiction
35
Modèle final
Préparer la variable Y : Réalisation
- +/- transformation de la Résultat = liste des
régression coefficients bi et une
une 1ére fois p valeur par
coefficient.
Préparer les variables Xi :
- Vérifier si des variables très
corrélées, alors supprimer
certaines Xi (ou autres
filtrage a priori : utiliser

35
Modèle final
coefficient.
Préparer les variables Xi : Selon le cas :
- Vérifier si des variables très • une seule exécution
corrélées, alors supprimer • itérations manuelles
certaines Xi (ou autres • itérations automatiques
(procédure pas-à-pas)
filtrage a priori : utiliser Filtrage a posteriori des Xi,
seulement les Xi avec p<0.2 par exemple :
-Ne garder que les Xi dont
bi≠0 significativement
(p<5%)
-Garder le nombre de Xi qui
minimise un indice de
parcimonie, AIC ou BIC
35
Modèle final
coefficient.
Préparer les variables Xi : Selon le cas :
- +/- transformations • une seule exécution
- +/- si très corrélées, • itérations manuelles
Vérifier la validité
supprimer certaines Xi (ou • itérations automatiques
(procédure pas-à-pas)
autres solutions hors X -Coefficient de
programme) Filtrage a posteriori des Xi, détermination R²
- +/- filtrage a priori : utiliser par exemple : X -Résidus
X -Individus marginaux
-Ne garder que les Xi dont
bi≠0 significativement
(p<5%) Interdit !!
-Garder le nombre de Xi qui
minimise un indice de Ecrire et
parcimonie, AIC ou BIC interpréter
Variable qui ne sert pas l’équation
35
Résultat de la RLM
 Les résultats sont simples :

 Liste des coefficients bi
 La p valeur indique si une variable est significative
 Autrement dit, ces variables Xi ont un effet significatif si p<5% (l’équation

n’est vraie qu’en les prenant tous, mais on peut très bien tenter une nouvelle
régression en filtrant les variables Xi sur ce critère)
 « intercept » = une pseudo-variable qui vaudrait toujours « 1 », son
coefficient est la constante b0 du modèle
Paramètre Coefficient p valeur
 Exemple : Intercept -114 0.005
 Expliquer Y par X1 et X2 X1 0.308 < 0.0001
 Modèle :
X2 2.68 0.33
Y = -114 + 0.308*X1 + 2.68*X2
 X1 est significativement associée à Y. Effet ajusté : en moyenne, chaque fois
que X1 augmente de 1, Y augmente de 0.308
 X2 n’est pas significativement associée à Y. Effet ajusté : en moyenne,
chaque fois que X2 augmente de 1, Y augmente de 2.68
38
Signification de R²
 Interprétation :
 Valeur de 0% (si modèle non explicatif) à 100% (si prédiction parfaite)

^
Dans le cas de modèle que nous étudions ici, R²=r²=(Corr(Y, Y))²
 Notion de parcimonie
 En ajoutant des Xi, on améliorera souvent R² mais risque de
surajustement
 Critères de parcimonie AIC (Akaike information criterion) et BIC
(bayesian information criterion) : traduisent la complexité du modèle
par rapport à sa valeur explicative
 Pour choisir quelles Xi conserver : on peut minimiser AIC ou BIC
(fait dans les procédures pas-à-pas, qui sélectionnent
automatiquement les Xi à conserver, en les testant toutes)
38
Méthode de régression
1. la méthode pas-à-pas ascendante (forward stepwise)

- On part du modèle nul sans variable.
- On effectue p régressions linéaires simples et on sélectionne le modèle qui
minimise le critère AIC.
- On effectue p − 1 régressions linéaires avec 2 variables explicatives et on
sélectionne le modèle qui minimise le critère AIC.
- On recommence jusqu’à ce que le critère AIC ne diminue plus.
2. la méthode pas-à-pas decendante (backward stepwise)

On part cette fois du modèle complet à p variables explicatives et on supprime
pas à pas les variables. Le test d’arrêt et le critère sont les mêmes que pour la
procédure ascendante.
48
Procédure pas-à-pas ou « Stepwise »
 Exemple de pas-à-pas descendant sur une régression à 14 vairables :

 Modèle avec 14 variables X => AIC=2254.16
 Essai de suppression de chacune des 14 variables (14 nouvelles
régressions) => la suppression de la variable X4 diminue le plus l’AIC
 Modèle sans X4 => AIC=2252.16
 (idem sur les 13 variables restantes)
 Modèle sans X4 et X9 => AIC=2250.44
 (idem sur les 12 variables restantes)
 Modèle sans X4, X9 et X7 => AIC=2248.76
 Ensuite, toute autre tentative de suppression d’une variable fait remonter
l’AIC, la procédure s’arrête donc là.
 Types de pas-à-pas
 Ceci illustre le pas-à-pas descendant
 Il existe aussi le pas-à-pas ascendant, et le bidirectionnel
 Avantage : choix automatique, le plus efficace en termes statistiques
 Inconvénients : pas forcément le choix le plus pertinent
38
Coefficients de regression
SÉLECTION DES VARIABLES
RÉGRESSION PAS À PAS
DESCENDANTE (BACKWARD)
i. On part du modèle complet.
ii. A chaque étape, on enlève la variable Xj ayant l’apport le plus
faible à condition que cet apport soit non significatif
50
Démarche de modélisation
•estimer les paramètres « a » en exploitant les données
•évaluer la précision de ces estimateurs (biais, variance, convergence)
•mesurer le pouvoir explicatif global du modèle
•évaluer l'influence des variables dans le modèle
• globalement (toutes les p variables)
• individuellement (chaque variable)
• un bloc de variables (q variables, q ≤ p) [c’est une généralisation]
•sélectionner les variables les plus « pertinentes »
•évaluer la qualité du modèle lors de la prédiction (intervalle de prédiction)
• détecter les observations qui peuvent fausser ou influencer exagérément les résultats
(points atypiques).
51
EXEMPLE : CAS DE VENTES
SEMESTRIELLES
Variable à expliquer :
Y = Ventes semestrielles
Variables explicatives :
X1 = Marché total
X2 = Remises aux grossistes
X3 = Prix
X4 = Budget de Recherche
X5 = Investissement
X6 = Publicité
X7 = Frais de ventes
X8 = Total budget publicité de la branche
52
Etape 1
Model Summary
Adjusted Std. Error of

Model R R Square R Square the Estimate
1 .898a .806 .752 256.29
a. Predictors: (Constant), Total publicité de la branche,
Marché total, Remises aux grossistes, Budget de
recherche, Investissements, Publicité, Prix, Frais de
ventes
TPUB = Total budget publicité de la branche
Coefficientsa
Unstandardized
Coefficients
Model B Std. Error T Sig.

1 (Constant) 3129.231 641.355 4.879 .000
MT 4.423 1.588 2.785 .009
RG 1.676 3.291 .509 .614
PRIX -13.526 8.305 -1.629 .114
BR -3.410 6.569 -.519 .608
INV 1.924 .778 2.474 4.679 .019
PUB 8.547 1.826 .540 .000
FV 1.497 2.771 .593
TPUB -2.15E-02 .401 -.054 .958
a. Dependent Variable: VENTES

53
Etape 2
Model Summaryb

1 .898a .806 .760 251.99
a. Predictors: (Constant), Frais de ventes, Remises aux
grossistes, Publicité, Investissements, Budget de
recherche, Prix, Marché total
b. Dependent Variable: Ventes
BR = Budget de Coefficientsa
Recherche Unstandardized
Coefficients
Model B Std. Error t Sig.

1 (Constant) 3115.648 579.517 5.376 .000
MT 4.426 1.561 2.836 .008
RG 1.706 3.191 .535 .597
PRIX -13.445 8.029 -1.675 .104
BR -3.392 6.451 -.526 .603
INV 1.931 .756 2.554 .016
PUB 8.558 1.784 4.798 .000
FV 1.482 2.710 .547 .588
a.
Dependent Variable: VENTES
54
Etape 3
Model
Summaryb
1 .897a .804 .766 249.04
a. Predictors: (Constant), Frais de ventes, Remises aux
grossistes, Publicité, Investissements, Prix, Marché
total
Coefficients
a
Unstandardized
Coefficients

1 (Constant) 3137.547 571.233 5.493 .000
MT 4.756 1.412 3.368 .002
RG 1.705 3.153 .541 .593
PRIX -14.790 7.521 -1.966 .058
INV 1.885 .742 2.539 4.837 .016
PUB 8.519 1.761 .000
FV .950 2.484 .382 .705
a.
Dependent
Variable: VENTES
Etape 4
Model Summaryb

1 .896a .803 .772 245.69
a. Predictors: (Constant), Publicité, Remises aux
grossistes, Marché total, Investissements, Prix
RG = Remises aux grossistes Coefficientsa
Unstandardized
Coefficients

1 (Constant) 3084.009 546.374 5.645 .000
MT 5.222 .704 7.415 .000
RG 1.700 3.111 .546 .589
PRIX -13.467 6.589 -2.044 .049
INV 1.984 .686 2.893 .007
PUB 8.328 1.666 4.998 .000
a.
Dependent Variable: VENTES
Condition d’arrêt
Toutes les « Signification » < 0.05

Coefficientsa
Unstandardized
Coefficients

1 (Constant) 3084.009 546.374 5.645 .000
MT 5.222 .704 7.415 .000
RG 1.700 3.111 6.589 .546 .589
PRIX -13.467 .686 -2.044 .049
INV 1.984 1.666 2.893 4.998 .007
PUB 8.328 .000
a. Dependent Variable: VENTES 57

4. Régression logistique
58
Introduction à la régression
logistique
Etudier le lien entre une Variable à Expliquer (VAE) qualitative Y
ET
{Xj } j = 1...p variables explicatives quantitatives ou
qualitatives
Trés utilisé dans le domaine :

 Médecine : étude des facteurs d’infection, causes de décès ou de survie
des patients
 Sciences humaines et sociales : cas de divorce, risque de sucide, ..etc
 Econométrie : risque d’investissement, risque de crédit …etc
59
Types de régression
 Regression logistique simple : Malade = f(age)
 Régression logistique multiple : Malade= f(age, fume,
diabéte, hypertention)
 Régression logistique binaire : Malade ϵ {oui, non}
 Régression logistique multinomiale : Malade ϵ {stade
1, stade 2, stade 3, …..}
Cours basé uniquement sur la régression logistique

binaire car :
Reg. Multinomiale : peut être vue comme plusieurs
régressions logistiques binaires. L’interprétation et le calcul
des coefficients est plus difficile.
60
Exemple de données
age coeur
50 presence
49 presence
46 presence
49 presence
62 presence
35 presence
67 absence
65 absence
47 absence
58 absence
57 absence
Y : (+ = presence,
59 absence
44 absence - = absence)
41 absence
54 absence
52 absence
57 absence
50 absence
X : age du patient
44 absence
(quantitative) 49 absence
61
Introduction à la régression logistique
Y VAE binaire (1 ou 0) Présence (ou absence) de maladie
cardiovasculaire. Une seule variable explicative quantitative X : l’age
(absice)
Représentation graphique
Remarque : Pas vraiment intéressant, pas d’échelle naturelle VAE

qualitative
62
Idée
Modéliser les modalités de Y (présence ou absence de maladie) en

Id´ee
termes de % ou en terme de probabilité de tomber malade en fonction

de l’âge du patient? On regarde cette évolution.
63
Utilisation du modèle linéaire
Si on modélise par une régression linéaire, P(Y =1/X )
]−∞;+∞[ normalement dans l’intervalle [0;1] > 100 % !!
25 30 35 40 45 50 55 60 65 70 75 80
< 0 % !!
64
Modélisation par une fonction
exponentielle logistique
La forme s’approprie le mieux à une fonction exponentielle logistique
Y Varie de 0 a 1 quand x varie de] - ∞ , +∞[
X → +∞ alors π(X ) → 1
X → −∞ alors π(X ) → 0
65
Fonction logistique
66
Fonction logistique
67
Fonction logistique
68
Fonction logistique
69
Modèle logistique
70
Côte : odds
 Soit p la probabilité que l’événement aille lieu.
p = P(Y=1/X)
 L’Odds (ou « cote ») est défini par:
 Dans le groupe de personnes qui sont exposés, on a a/b fois plus de

chances d’avoir une maladie cardiaque que de ne pas en avoir.
 Dans le groupe de personnes qui ne sont pas exposés, on a c/d fois plus de
chances d’avoir une maladie cardiaque que de ne pas en avoir.
71
Odds-Ratio : OR
Odds ratio (ou « rapport des cotes ») : C’est le rapport des
cotes des probabilités d’avoir la maladie pour ceux qui sont
exposés d’une part et ceux qui ne le sont pas.
Il mesure l’association entre l’exposition et la maladie
Signification:
• OR=1, la maladie est indépendante de l’exposition
• OR>1, la maladie est plus fréquente pour les individus qui sont
exposés.
• OR<1, la maladie est plus fréquente chez les personnes qui ne sont
pas exposés
72
Lien entre OR, Logit et les
Coefficients de régression
Donc
73
Exemple
 0 .2 
 0  ln     1 . 386
 1  0 .2 
 0 .6 
 1  ln    1 . 386  1 . 792
 1  0 .6 
74
Cas variable explicative
quantitative
 Supposons
Données que X est une variable quantitative :
Principe
Découper X en déciles (intervalle de taille 10) par exemple
Pour chaque intervalle on calcule P(Y = 1/ X) (proportion de malades)
interprétation:
eβ est l'OR associe a un vieillissement de 1 an,
e10*β est l'OR associe a un vieillissement de 10 ans
Exemple : X : age en dizaines d'annees et OR = 2.

Passer de 60 a 70 ans multiplie par 2 le risque de maladie
75
Cas variable explicative qualitative
(+ de 2 modalités)
Cas des variables nominales :
Exemple : angine: { typique, atypique, asymptotique, non anginal}
1. Dans le tableau de contingence, On choisit une modalité de référence
(normal)
2. On prend une modalité de référence, et on calcule les odds-ratio par
rapport à cette modalité.
Odds(+/-) 2.000 0.102 2.778 0.241

OR(x/_non_anginal) 8.286 0.421 11.508
Surcroît de risque de présence de maladie lorsque la douleur à la

poitrine n’est pas de type « non anginale ».
3. Pour k modalités, on traite (K-1) tableaux 2 x 2.
76
Cas variable explicative qualitative
(+ de 2 modalités)
Traduire cela dans la régression logistique ?
 Utiliser un codage disjonctif 0/1 en prenant une modalité de référence.
 Les coefficients sont des log(Odds-Ratio) par rapport à la modalité de
référence.
Attribute Coef. Coef. Signif.

Constant -1.4213
typ_angine 8.2857 0.0281
atyp_angine 0.4213 0.1502
asympt 11.508 0
77
Bibliographie
[1] R Palm et A.F. Iemma, « Quelques alternatives à la régression classique dans le
cadre de la colinéarité », Revue de statistique appliquée, vol. 43, no 2, 1995, p. 5-
33 (lire en ligne [archive])
[2] Thierry Foucart, « Colinéarité et régression linéaire », Mathématiques et sciences
humaines, vol. 1, no 173, 2006, p. 5-25 (lire en ligne [archive])
[3] J.P. Nakache, J. Confais, Statistique Explicative Appliquée, Technip, 2003 (Partie
2)
[4] Pierre-François Verhulst, « Recherches mathématiques sur la loi d'accroissement
de la population », Nouveaux Mémoires de l'Académie Royale des Sciences et
Belles-Lettres de Bruxelles, no 18, 1845, p. 1-42
[5] Ken Train, Discrete Choice Methods with Simulation, Cambridge University
Press, 30 juin 2009, 2e éd., 408 p. (ISBN 978-0521747387) p. 34-75 (Chapitre 3)
[6] Andrew Gelman et Jennifer Hill, Data Analysis Using Regression And
Multilevel/Hierarchical Models, Cambridge University Press, coll. « Analytical
Methods for Social Research », 18 décembre 2006, 1re éd., 648 p. (ISBN 978-
0521686891) (Chapitre 5)
78

Chap2 Regression

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chap2 Regression

Transféré par

Droits d'auteur :

Formats disponibles

Université de Tunis Elmanar

Institut Supérieur d’Informatique

Méthodes des Centres Mobiles

2) Régression linéaire simple

3) Regression linéaire multiple

(variable à expliquer) en fonction de P variables explicatives Xi

plusieurs autres variables qui servent à cette explication (variables indépendantes)

 En d’autres termes, l’analyse de la régression permet d’étudier les

variations de la variable dépendante en fonction des variations connues des variables

 De détecter les individus atypiques

(une augumente, l’autre diminue par exemple)

• La régression nous donne un pas au-delà de la corrélation qui s’intéresse seulement à la

 r est toujours compris entre -1 et + 1.

 si r proche de + 1 ou - 1 , x et y sont bien corrélées; le nuage de points

 r = 0 Pas de lien linéaire entre x et y

Estimer la consommation de carburant en fonction de la vitesse

Chaque individu i est caractérisé par un couple de

La droite de régression Y = α + βX est la droite qui résume le mieux le

La distance d’un point à la droite est la distance verticale entre

Pour s’affranchir du signe, on calcule la somme des carrés des distances de

Une particularité de la droite de régression est de passer par le point

Le principe de l’estimation des

L’estimateur de l’ordonnée à l’origine a est déduit de la

On voit qu’il y a probablement une relation linéaire croissante entre la

Ce calcul donne une estimation de l’augmentation moyenne

SST  SSR  SSE SSR   ( yˆ i  y ) 2

TP SPIR Variable explicative : Taux de protéine de

Données / droite de régression

 Méthode supervisée multivariée « phare » en médecine :

275.30 40.00 3.00

Un modèle de régression linéaire

yi 1 xi1 2 xi2 i

n observations yi p variables xj continues n>p

Modèle fuel : n=15 p=2

Pour chaque observation : yi    1 xi1  .....   p xip   i

Coefficients inconnus terme d’erreur non

Préparer les variables Xi :

Variable qui ne sert pas

Variable qui ne sert pas

 Les résultats sont simples :

 Autrement dit, ces variables Xi ont un effet significatif si p<5% (l’équation

1. la méthode pas-à-pas ascendante (forward stepwise)

2. la méthode pas-à-pas decendante (backward stepwise)

 Exemple de pas-à-pas descendant sur une régression à 14 vairables :

i. On part du modèle complet.

ii. A chaque étape, on enlève la variable Xj ayant l’apport le plus

faible à condition que cet apport soit non significatif

Adjusted Std. Error of

Model B Std. Error T Sig.

a. Dependent Variable: VENTES

Adjusted Std. Error of

Model B Std. Error t Sig.

Model B Std. Error t Sig.

Adjusted Std. Error of

RG = Remises aux grossistes Coefficientsa

Model B Std. Error t Sig.

Toutes les « Signification » < 0.05

Model B Std. Error t Sig.

a. Dependent Variable: VENTES 57

Trés utilisé dans le domaine :

Cours basé uniquement sur la régression logistique

Remarque : Pas vraiment intéressant, pas d’échelle naturelle VAE

Modéliser les modalités de Y (présence ou absence de maladie) en

termes de % ou en terme de probabilité de tomber malade en fonction