Chap6 Regression

Université Internationale de Tunis
Cours : Enquête et fouille de

données
Chapitre 6: Régression linéaire et

logistique
présenté par:
Mohamed Sahbi Bahroun
1
Deux familles de techniques
Méthodes Méthodes
Descriptives Prédictives
Analyse en Composantes Principales
ACP Arbres de Décisions
Méthodes des Centres Mobiles

K-Means Régression
Linéaire, Logistique
Classification Ascendante Hiérarchique
CAH
Analyse Discriminante
Réseaux de Neurones
2
Plan
1) Introduction
2) Régression linéaire simple
3) Regression linéaire multiple
4) Régression logistique
3
1. Introduction
4
Objectifs
 Méthode d’apprentissage supervisé qui a pour objectif d’estimer une variable cible Y
(variable à expliquer) en fonction de P variables explicatives Xi

X1 X2 Xp Y
I1 . . . . .
Données I2 . . . . .
d’apprentiss
age . . . . . .
. . . . . .
In . . . . .
Donnée de It . . . . ?
test
La base d’apprentissage est composée de n individus. Pour ces données les variables Y
sont connues. Pour la donnée de test : Les Xi sont connues et le Y est à estimer
5
Types de régression
Régression
Linéaire Logistique
Simple Multiple
Simple Multiple
Binaire multinomiale
6
Regression linéaire vs logistique
• Regression linéaire :
Etudier le lien entre une Variable à Expliquer (VAE) quantitative Y et
{Xj } j = 1...p variables explicatives quantitatives
 Régression linéaire Simple : une seule variable explicative, p=1
 Régression linéaire Multiple : plusieurs variables explicatives, p>=2
• Regression logistique :
Etudier le lien entre une Variable à Expliquer (VAE) qualitative Y et
{Xj } j = 1...p variables explicatives quantitatives ou qualitatives
Regression logistique simple : Malade = f(age)
Régression logistique multiple : Malade= f(age, fume, diabéte, hypertention)
Régression logistique binaire : Malade ϵ {oui, non}
Régression logistique multinomiale : Malade ϵ {stade 1, stade 2, stade 3, …..}
7
Objectifs
 L’analyse de la régression permet d’étudier le type de relation pouvant exister
entre une certaine variable (dépendante) dont on veut expliquer les valeurs et une ou
plusieurs autres variables qui servent à cette explication (variables indépendantes)
 En d’autres termes, l’analyse de la régression permet d’étudier les
variations de la variable dépendante en fonction des variations connues des variables
indépendantes.
 De détecter les individus atypiques
8
Regression Vs correlation
• Dans la corrélation on étudie le changement d’une variable en fonction d’une autre variable
(une augumente, l’autre diminue par exemple)
• La régression nous donne un pas au-delà de la corrélation qui s’intéresse seulement à la
force de l'association, mais nous voulons être en mesure de pouvoir faire des prédictions.
9
correlation
 : Coefficient de corrélation (Pearson) entre deux variables aléatoires X
et Y (populations). Permet d’expliquer comment Y varie en fonction de X
2 échantillons x et y de moyennes et y
x
n
 ( x  x )( y
i i  y)
r estimateur de  r ( x, y )  n
i 1
n
 (x  x)  ( y
i 1
i
2
i 1
i  y ) 2
 r est toujours compris entre -1 et + 1.
 si r proche de + 1 ou - 1 , x et y sont bien corrélées; le nuage de points

est presque aligné le long d'une droite (croissante si r > 0, décroissante si r
< 0).
 r = 0 Pas de lien linéaire entre x et y

10
Pourquoi la Regression
• la relation doit être linéaire entre la variable explicative et à expliquer (à prédire)
• Les variables explicatives (variables indépendantes) et la variable à expliquer
(variable dépendante) sont indépendantes
• Les variables explicatives sont indépendantes entre elles.
• Les variables indépendants ne doivent pas avoir de relation linéaire parfaite
entre elles ( pas de multicolinéarité parfaite)
• la distribution de la variable à expliquer y et les variables explicatives x₁, x₂,
x₃,…..xp suivent une loi normale dans le cas où l’une de ces dernières est continue.
• Un bon modèle de régression comprend un nombre optimal de variables
indépendantes, cela signifie qu’il faut prendre les meilleurs variables indépendantes
en vue d’une prédiction fiable.
• Le modèle doit prendre en compte des variables énoncées dans les objectifs
• Une variable indépendante pourrait être exclue du modèle si le degré d’association
avec la variable indépendante n’est pas assez fort.
11
2. Régression linéaire simple
12
Objectifs de la régression linéaire
 Le modèle de prédiction LINEAIRE consiste à estimer la valeur d’une
variable continue (dite ≪ à expliquer ≫,≪ cible ≫, en fonction de la valeur d’un
certain nombre d’autres variables (dites ≪ explicatives ≫, ≪ de contrôle ≫, ou
≪ indépendantes ≫)
 Cette variable ≪ cible ≫ peut être par exemple :
 le poids : en fonction de la taille
 le prix d’un appartement : en fonction de sa superficie
 la consommation d’électricité : en fonction de la température extérieure
13
Besoins
 Pour estimer la relation entre une variable dépendante (Y) quantitative
et plusieurs variables indépendantes (X1, X2, …)
 Un modèle de régression d'une variable expliquée sur une ou plusieurs
variables explicatives dans lequel on fait l'hypothèse que la fonction qui
relie les variables explicatives à la variable expliquée est linéaire selon un
ensemble de paramètres.
 Dans ce modèle linéaire simple : X et Y deux variables continues
 Les valeurs xi de X sont contrôlées et sans erreur de mesure
 On observe les valeurs correspondantes y1, …, yn de Y
Exemples :
 X peut être le temps et Y une grandeur mesurée à différentes dates
 Y peut être la différence de potentiel mesurée aux bornes d’une résistance pour
différentes valeurs de l’intensité X du courant
14
Régression linéaire simple
Equation de régression linéaire simple :
Cette équation précise la façon dont la variable dépendante Y est reliée à
la seule variable explicative X :
Y     X 
0 1
Où β0, β 1 sont les paramètres et ε est un bruit aléatoire représentant le

terme d’erreur.
Y
VI Variable
dépendante
Simple
régression
15
Exemple de régression linéaire
simple
Y  f (X1,)
poids taille
Estimer la consommation de carburant en fonction de la vitesse
16
Calcul des coefficients estimateurs par
la méthode des moindres carrés
Chaque individu i est caractérisé par un couple de

coordonnées (xi, yi) et est représenté par un point sur le
graphique. L’ensemble des individus (données
d’apprentissage) forme un nuage de points.
17
La droite de régression Y = α + βX est la droite qui résume le mieux le

nuage de points. Intuitivement, il s’agit de la droite dont les points du
nuage sont en moyenne les plus proches (c’est-à-dire la droite qui passe
à la plus faible distance de chaque point du nuage, en moyenne).
18
La distance d’un point à la droite est la distance verticale entre

l’ordonnée du point observé (xi, yi) et l’ordonnée du point correspondant
sur la droite (xi, ^yi) . Cette distance d’un point à la droite (yi - ^yi) peut
être positive ou négative et la somme des distances à la droite s’annule.
19
yî
xi
Pour s’affranchir du signe, on calcule la somme des carrés des distances de

chaque point à la droite. La droite de régression est la droite qui minimise la
somme des carrés des écarts. Elle est aussi appelée droite des moindres
carrés.
20
Une particularité de la droite de régression est de passer par le point

moyen théorique de coordonnée (mx, my).
21
Processus d’estimation : méthode
des moindres carrés
Estimation des coefficients de
régression / méthode des moindres
carrés ordinaires :
Le principe de l’estimation des

coefficients de régression :
n n
  ( i
i

2 y  yˆ
i
) 2
i1 i1
22
23
L’estimateur de l’ordonnée à l’origine a est déduit de la

pente b et des coordonnées du point moyen (mx, my) :
a = my – b mx
24
Exemple
Fonction population = f(superficie) pour 27 pays européens
On voit qu’il y a probablement une relation linéaire croissante entre la

population et la superficie.
25
EXemple
En estimant la pente de la droite de régression aux moindres
carrés :
Ce calcul donne une estimation de l’augmentation moyenne

de la population lorsque le territoire augmente d’un km2 .
β0 = 1, 96.
26
Régression linéaire simple
8
yi
7
ŷi yi  y
yi  yˆ i
6
y yˆ i  y
y
n
SST   ( yi  y ) 2
4
i 1
xi
n
2 3 4 5 6 7 8 SSE   ( yi  yˆ i ) 2
i 1
x
n
SST  SSR  SSE SSR   ( yˆ i  y ) 2

i 1
27
COEFFICIENT DE DETERMINATION - R²
 R2 = SSR/SST coefficient de détermination ou pourcentage de variance
expliquée par la régression
Propriétés
 Permet de juger de la qualité de la
régression
0  R 2
 1
 Idéal R² = 1
 Mauvaise régression: R² = 0
n Quand p=1 R² = r²
 ( yî  y ) 2
r : coefficient de corrélation linéaire
R 2  i n1 Pour le pain: r=-0.76 donc R²= (-0.76)²
 ( yi  y ) 2
i 1
28
Étalonnage d’un appareil de mesure
variété référence infrarouge
Ami 8.6 9.1
Apollo 11.1 12.4 Variable explicative : Taux de protéine de
Arminda 11.6 12.5
Artaban 10.9 10.1 26 variétés de blé (TP)
Avital 10 10.6
Baroudeur
Beauchamp
11.6
10.4
11.5
10.8
-Variable à expliquer spectre proche
CWRS
Camp-Remy
11.6
12.9
11.3
11.6
infrarouge SPIR
Carolus 9 8.2
Castan 13.1 12.9
Centauro 10.3 10.4
Courtot 13.1 13.3
Duck 11.6 11.3
Manital 14 13.7
Recital1 11.5 11.1
Recital2 10.5 9.8
Rossini 9.7 9.1
Scipion 11 11.6 Données / droite de régression
Sidéral
Sleipjner
11.6
12
11.5
13.2
y = 0.157+0.981x R²=0.785
14.2
Soissons1 10.6 10.1
Soissons2 10 10.3 13.2
Tango = 11.5 11.5
12.2
Thésée 10.1 9.2
infrarouge
Win 11.8 11.5 11.2
10.2
9.2
8.2
8.6 9.6 10.6 11.6 12.6 13.6 14.6
référence
29
Étalonnage d’un appareil de mesure
TP SPIR Variable explicative : Taux de protéine de

Ami 8.6 9.1 26 variétés de blé (TP)
Apolio 11.1 12.4 -Variable à expliquer spectre proche
Aminda 11.6 12.5 infrarouge SPIR
Artaban 10.9 10.1
Avital 14 13.7
Barroudeur 13.1 ?
Données / droite de régression

mx=11.24 R²=0.785
14.2
my=11.46 13.2
12.2
infrarouge
y= 1.3+0.91 x 11.2
R2=
10.2
9.2
8.2
8.6 9.6 10.6 11.6 12.6 13.6 14.6
référence
30
4. Régression logistique
31
Introduction à la régression
logistique
Etudier le lien entre une Variable à Expliquer (VAE) qualitative Y
ET
{Xj } j = 1...p variables explicatives quantitatives ou
qualitatives
Trés utilisé dans le domaine :

 Médecine : étude des facteurs d’infection, causes de décès ou de survie
des patients
 Sciences humaines et sociales : cas de divorce, risque de sucide, ..etc
 Econométrie : risque d’investissement, risque de crédit …etc
32
Types de régression
 Regression logistique simple : Malade = f(age)
 Régression logistique multiple : Malade= f(age, fume,
diabéte, hypertention)
 Régression logistique binaire : Malade ϵ {oui, non}
 Régression logistique multinomiale : Malade ϵ {stade
1, stade 2, stade 3, …..}
Cours basé uniquement sur la régression logistique

binaire car :
Reg. Multinomiale : peut être vue comme plusieurs
régressions logistiques binaires. L’interprétation et le calcul
des coefficients est plus difficile.
33
Exemple de données
age coeur
50 presence
49 presence
46 presence
49 presence
62 presence
35 presence
67 absence
65 absence
47 absence
58 absence
57 absence
Y : (+ = presence,
59 absence
44 absence - = absence)
41 absence
54 absence
52 absence
57 absence
50 absence
X : age du patient
44 absence
(quantitative) 49 absence
34
Introduction à la régression logistique
Y VAE binaire (1 ou 0) Présence (ou absence) de maladie
cardiovasculaire. Une seule variable explicative quantitative X : l’age
(absice)
Représentation graphique
Remarque : Pas vraiment intéressant, pas d’échelle naturelle VAE

qualitative
35
Idée
Modéliser les modalités de Y (présence ou absence de maladie) en

Idée
termes de % ou en terme de probabilité de tomber malade en fonction

de l’âge du patient? On regarde cette évolution.
36
Utilisation du modèle linéaire
Si on modélise par une régression linéaire, P(Y =1/X )
]−∞;+∞[ normalement dans l’intervalle [0;1] > 100 % !!
25 30 35 40 45 50 55 60 65 70 75 80
< 0 % !!
37
Modélisation par une fonction
exponentielle logistique
La forme s’approprie le mieux à une fonction exponentielle logistique
Y Varie de 0 a 1 quand x varie de] - ∞ , +∞[
X → +∞ alors π(X ) → 1
X → −∞ alors π(X ) → 0
38
Fonction logistique
39
Fonction logistique
40
Fonction logistique
41
Fonction logistique
42
Modèle logistique
43
Côte : odds
 Soit p la probabilité que l’événement aille lieu.
p = P(Y=1/X)
 L’Odds (ou « cote ») est défini par:
 Dans le groupe de personnes qui sont exposés, on a a/b fois plus de

chances d’avoir une maladie cardiaque que de ne pas en avoir.
 Dans le groupe de personnes qui ne sont pas exposés, on a c/d fois plus de
chances d’avoir une maladie cardiaque que de ne pas en avoir.
44
Odds-Ratio : OR
Odds ratio (ou « rapport des cotes ») : C’est le rapport des
cotes des probabilités d’avoir la maladie pour ceux qui sont
exposés d’une part et ceux qui ne le sont pas.
Il mesure l’association entre l’exposition et la maladie
Signification:
• OR=1, la maladie est indépendante de l’exposition
• OR>1, la maladie est plus fréquente pour les individus qui sont
exposés.
• OR<1, la maladie est plus fréquente chez les personnes qui ne sont
pas exposés
45
Lien entre OR, Logit et les
Coefficients de régression
Donc
46
Exemple
 0 .2 
 0  ln     1 . 386
 1  0 .2 
 0 .6 
 1  ln    1 . 386  1 . 792
 1  0 .6 
47
Cas variable explicative
quantitative
 Supposons
Données que X est une variable quantitative :
Principe
Découper X en déciles (intervalle de taille 10) par exemple
Pour chaque intervalle on calcule P(Y = 1/ X) (proportion de malades)
interprétation:
eβ est l'OR associe a un vieillissement de 1 an,
e10*β est l'OR associe a un vieillissement de 10 ans
Exemple : X : age en dizaines d'annees et OR = 2.

Passer de 60 a 70 ans multiplie par 2 le risque de maladie
48
Cas variable explicative qualitative
(+ de 2 modalités)
Cas des variables nominales :
Exemple : angine: { typique, atypique, asymptotique, non anginal}
1. Dans le tableau de contingence, On choisit une modalité de référence
(normal)
2. On prend une modalité de référence, et on calcule les odds-ratio par
rapport à cette modalité.
Odds(+/-) 2.000 0.102 2.778 0.241

OR(x/_non_anginal) 8.286 0.421 11.508
Surcroît de risque de présence de maladie lorsque la douleur à la

poitrine n’est pas de type « non anginale ».
3. Pour k modalités, on traite (K-1) tableaux 2 x 2.
49
Cas variable explicative qualitative
(+ de 2 modalités)
Traduire cela dans la régression logistique ?
 Utiliser un codage disjonctif 0/1 en prenant une modalité de référence.
 Les coefficients sont des log(Odds-Ratio) par rapport à la modalité de
référence.
Attribute Coef. Coef. Signif.

Constant -1.4213
typ_angine 8.2857 0.0281
atyp_angine 0.4213 0.1502
asympt 11.508 0
50
Bibliographie
[1] R Palm et A.F. Iemma, « Quelques alternatives à la régression classique dans le
cadre de la colinéarité », Revue de statistique appliquée, vol. 43, no 2, 1995, p. 5-
33 (lire en ligne [archive])
[2] Thierry Foucart, « Colinéarité et régression linéaire », Mathématiques et sciences
humaines, vol. 1, no 173, 2006, p. 5-25 (lire en ligne [archive])
[3] J.P. Nakache, J. Confais, Statistique Explicative Appliquée, Technip, 2003 (Partie
2)
[4] Pierre-François Verhulst, « Recherches mathématiques sur la loi d'accroissement
de la population », Nouveaux Mémoires de l'Académie Royale des Sciences et
Belles-Lettres de Bruxelles, no 18, 1845, p. 1-42
[5] Ken Train, Discrete Choice Methods with Simulation, Cambridge University
Press, 30 juin 2009, 2e éd., 408 p. (ISBN 978-0521747387) p. 34-75 (Chapitre 3)
[6] Andrew Gelman et Jennifer Hill, Data Analysis Using Regression And
Multilevel/Hierarchical Models, Cambridge University Press, coll. « Analytical
Methods for Social Research », 18 décembre 2006, 1re éd., 648 p. (ISBN 978-
0521686891) (Chapitre 5)
51

Chap6 Regression

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chap6 Regression

Transféré par

Droits d'auteur :

Formats disponibles

Université Internationale de Tunis

Cours : Enquête et fouille de

Chapitre 6: Régression linéaire et

Méthodes des Centres Mobiles

2) Régression linéaire simple

3) Regression linéaire multiple

(variable à expliquer) en fonction de P variables explicatives Xi

plusieurs autres variables qui servent à cette explication (variables indépendantes)

 En d’autres termes, l’analyse de la régression permet d’étudier les

variations de la variable dépendante en fonction des variations connues des variables

 De détecter les individus atypiques

(une augumente, l’autre diminue par exemple)

• La régression nous donne un pas au-delà de la corrélation qui s’intéresse seulement à la

 r est toujours compris entre -1 et + 1.

 si r proche de + 1 ou - 1 , x et y sont bien corrélées; le nuage de points

 r = 0 Pas de lien linéaire entre x et y

Où β0, β 1 sont les paramètres et ε est un bruit aléatoire représentant le

Estimer la consommation de carburant en fonction de la vitesse

Chaque individu i est caractérisé par un couple de

La droite de régression Y = α + βX est la droite qui résume le mieux le

La distance d’un point à la droite est la distance verticale entre

Pour s’affranchir du signe, on calcule la somme des carrés des distances de

Une particularité de la droite de régression est de passer par le point

Le principe de l’estimation des

L’estimateur de l’ordonnée à l’origine a est déduit de la

On voit qu’il y a probablement une relation linéaire croissante entre la

Ce calcul donne une estimation de l’augmentation moyenne

SST  SSR  SSE SSR   ( yˆ i  y ) 2

TP SPIR Variable explicative : Taux de protéine de

Données / droite de régression

Trés utilisé dans le domaine :

Cours basé uniquement sur la régression logistique

Remarque : Pas vraiment intéressant, pas d’échelle naturelle VAE

Modéliser les modalités de Y (présence ou absence de maladie) en

termes de % ou en terme de probabilité de tomber malade en fonction

 Dans le groupe de personnes qui sont exposés, on a a/b fois plus de

Exemple : X : age en dizaines d'annees et OR = 2.

Odds(+/-) 2.000 0.102 2.778 0.241

Surcroît de risque de présence de maladie lorsque la douleur à la

Attribute Coef. Coef. Signif.

Vous aimerez peut-être aussi