Vous êtes sur la page 1sur 51

Université Internationale de Tunis

Cours : Enquête et fouille de


données

Chapitre 6: Régression linéaire et


logistique
présenté par:
Mohamed Sahbi Bahroun
1
Deux familles de techniques
Méthodes Méthodes
Descriptives Prédictives
Analyse en Composantes Principales
ACP Arbres de Décisions

Méthodes des Centres Mobiles


K-Means Régression
Linéaire, Logistique
Classification Ascendante Hiérarchique
CAH
Analyse Discriminante

Réseaux de Neurones

2
Plan

1) Introduction

2) Régression linéaire simple

3) Regression linéaire multiple

4) Régression logistique

3
1. Introduction

4
Objectifs
 Méthode d’apprentissage supervisé qui a pour objectif d’estimer une variable cible Y

(variable à expliquer) en fonction de P variables explicatives Xi


X1 X2 Xp Y
I1 . . . . .
Données I2 . . . . .
d’apprentiss
age . . . . . .
. . . . . .
In . . . . .
Donnée de It . . . . ?
test
La base d’apprentissage est composée de n individus. Pour ces données les variables Y

sont connues. Pour la donnée de test : Les Xi sont connues et le Y est à estimer

5
Types de régression
Régression

Linéaire Logistique

Simple Multiple
Simple Multiple

Binaire multinomiale

6
Regression linéaire vs logistique
• Regression linéaire :
Etudier le lien entre une Variable à Expliquer (VAE) quantitative Y et
{Xj } j = 1...p variables explicatives quantitatives
 Régression linéaire Simple : une seule variable explicative, p=1
 Régression linéaire Multiple : plusieurs variables explicatives, p>=2

• Regression logistique :
Etudier le lien entre une Variable à Expliquer (VAE) qualitative Y et
{Xj } j = 1...p variables explicatives quantitatives ou qualitatives
Regression logistique simple : Malade = f(age)
Régression logistique multiple : Malade= f(age, fume, diabéte, hypertention)
Régression logistique binaire : Malade ϵ {oui, non}
Régression logistique multinomiale : Malade ϵ {stade 1, stade 2, stade 3, …..}

7
Objectifs
 L’analyse de la régression permet d’étudier le type de relation pouvant exister

entre une certaine variable (dépendante) dont on veut expliquer les valeurs et une ou

plusieurs autres variables qui servent à cette explication (variables indépendantes)

 En d’autres termes, l’analyse de la régression permet d’étudier les

variations de la variable dépendante en fonction des variations connues des variables

indépendantes.

 De détecter les individus atypiques

8
Regression Vs correlation
• Dans la corrélation on étudie le changement d’une variable en fonction d’une autre variable

(une augumente, l’autre diminue par exemple)

• La régression nous donne un pas au-delà de la corrélation qui s’intéresse seulement à la

force de l'association, mais nous voulons être en mesure de pouvoir faire des prédictions.

9
correlation
 : Coefficient de corrélation (Pearson) entre deux variables aléatoires X
et Y (populations). Permet d’expliquer comment Y varie en fonction de X

2 échantillons x et y de moyennes et y
x
n

 ( x  x )( y
i i  y)
r estimateur de  r ( x, y )  n
i 1
n

 (x  x)  ( y
i 1
i
2

i 1
i  y ) 2

 r est toujours compris entre -1 et + 1.

 si r proche de + 1 ou - 1 , x et y sont bien corrélées; le nuage de points


est presque aligné le long d'une droite (croissante si r > 0, décroissante si r
< 0).

 r = 0 Pas de lien linéaire entre x et y


10
Pourquoi la Regression
• la relation doit être linéaire entre la variable explicative et à expliquer (à prédire)
• Les variables explicatives (variables indépendantes) et la variable à expliquer
(variable dépendante) sont indépendantes
• Les variables explicatives sont indépendantes entre elles.
• Les variables indépendants ne doivent pas avoir de relation linéaire parfaite
entre elles ( pas de multicolinéarité parfaite)
• la distribution de la variable à expliquer y et les variables explicatives x₁, x₂,
x₃,…..xp suivent une loi normale dans le cas où l’une de ces dernières est continue.
• Un bon modèle de régression comprend un nombre optimal de variables
indépendantes, cela signifie qu’il faut prendre les meilleurs variables indépendantes
en vue d’une prédiction fiable.
• Le modèle doit prendre en compte des variables énoncées dans les objectifs
• Une variable indépendante pourrait être exclue du modèle si le degré d’association
avec la variable indépendante n’est pas assez fort.

11
2. Régression linéaire simple

12
Objectifs de la régression linéaire
 Le modèle de prédiction LINEAIRE consiste à estimer la valeur d’une
variable continue (dite ≪ à expliquer ≫,≪ cible ≫, en fonction de la valeur d’un
certain nombre d’autres variables (dites ≪ explicatives ≫, ≪ de contrôle ≫, ou
≪ indépendantes ≫)
 Cette variable ≪ cible ≫ peut être par exemple :
 le poids : en fonction de la taille
 le prix d’un appartement : en fonction de sa superficie
 la consommation d’électricité : en fonction de la température extérieure

13
Besoins
 Pour estimer la relation entre une variable dépendante (Y) quantitative
et plusieurs variables indépendantes (X1, X2, …)
 Un modèle de régression d'une variable expliquée sur une ou plusieurs
variables explicatives dans lequel on fait l'hypothèse que la fonction qui
relie les variables explicatives à la variable expliquée est linéaire selon un
ensemble de paramètres.
 Dans ce modèle linéaire simple : X et Y deux variables continues
 Les valeurs xi de X sont contrôlées et sans erreur de mesure
 On observe les valeurs correspondantes y1, …, yn de Y
Exemples :
 X peut être le temps et Y une grandeur mesurée à différentes dates
 Y peut être la différence de potentiel mesurée aux bornes d’une résistance pour
différentes valeurs de l’intensité X du courant
14
Régression linéaire simple
Equation de régression linéaire simple :
Cette équation précise la façon dont la variable dépendante Y est reliée à
la seule variable explicative X :

Y     X 
0 1

Où β0, β 1 sont les paramètres et ε est un bruit aléatoire représentant le


terme d’erreur.

Y
VI Variable
dépendante
Simple
régression

15
Exemple de régression linéaire
simple
Y  f (X1,)

poids taille

Estimer la consommation de carburant en fonction de la vitesse

16
Calcul des coefficients estimateurs par
la méthode des moindres carrés

Chaque individu i est caractérisé par un couple de


coordonnées (xi, yi) et est représenté par un point sur le
graphique. L’ensemble des individus (données
d’apprentissage) forme un nuage de points.

17
Calcul des coefficients estimateurs par
la méthode des moindres carrés

La droite de régression Y = α + βX est la droite qui résume le mieux le


nuage de points. Intuitivement, il s’agit de la droite dont les points du
nuage sont en moyenne les plus proches (c’est-à-dire la droite qui passe
à la plus faible distance de chaque point du nuage, en moyenne).

18
Calcul des coefficients estimateurs par
la méthode des moindres carrés

La distance d’un point à la droite est la distance verticale entre


l’ordonnée du point observé (xi, yi) et l’ordonnée du point correspondant
sur la droite (xi, ^yi) . Cette distance d’un point à la droite (yi - ^yi) peut
être positive ou négative et la somme des distances à la droite s’annule.

19
Calcul des coefficients estimateurs par
la méthode des moindres carrés

y^i

xi

Pour s’affranchir du signe, on calcule la somme des carrés des distances de


chaque point à la droite. La droite de régression est la droite qui minimise la
somme des carrés des écarts. Elle est aussi appelée droite des moindres
carrés.
20
Calcul des coefficients estimateurs par
la méthode des moindres carrés

Une particularité de la droite de régression est de passer par le point


moyen théorique de coordonnée (mx, my).

21
Processus d’estimation : méthode
des moindres carrés
Estimation des coefficients de
régression / méthode des moindres
carrés ordinaires :

Le principe de l’estimation des


coefficients de régression :

n n

  ( i
i

2 y  yˆ
i
) 2

i1 i1

22
Calcul des coefficients estimateurs par
la méthode des moindres carrés

23
Calcul des coefficients estimateurs par
la méthode des moindres carrés

L’estimateur de l’ordonnée à l’origine a est déduit de la


pente b et des coordonnées du point moyen (mx, my) :
a = my – b mx

24
Exemple
Fonction population = f(superficie) pour 27 pays européens

On voit qu’il y a probablement une relation linéaire croissante entre la


population et la superficie.
25
EXemple
En estimant la pente de la droite de régression aux moindres
carrés :

Ce calcul donne une estimation de l’augmentation moyenne


de la population lorsque le territoire augmente d’un km2 .
β0 = 1, 96.

26
Régression linéaire simple
8
yi
7

ŷi yi  y
yi  yˆ i
6

y yˆ i  y
y

n
SST   ( yi  y ) 2
4

i 1
xi
n
2 3 4 5 6 7 8 SSE   ( yi  yˆ i ) 2
i 1
x
n

SST  SSR  SSE SSR   ( yˆ i  y ) 2


i 1

27
COEFFICIENT DE DETERMINATION - R²
 R2 = SSR/SST coefficient de détermination ou pourcentage de variance
expliquée par la régression

Propriétés
 Permet de juger de la qualité de la
régression
0  R 2
 1
 Idéal R² = 1
 Mauvaise régression: R² = 0

n Quand p=1 R² = r²
 ( yˆi  y ) 2
r : coefficient de corrélation linéaire
R 2  i n1 Pour le pain: r=-0.76 donc R²= (-0.76)²
 ( yi  y ) 2

i 1

28
Étalonnage d’un appareil de mesure
variété référence infrarouge
Ami 8.6 9.1
Apollo 11.1 12.4 Variable explicative : Taux de protéine de
Arminda 11.6 12.5
Artaban 10.9 10.1 26 variétés de blé (TP)
Avital 10 10.6
Baroudeur
Beauchamp
11.6
10.4
11.5
10.8
-Variable à expliquer spectre proche
CWRS
Camp-Remy
11.6
12.9
11.3
11.6
infrarouge SPIR
Carolus 9 8.2
Castan 13.1 12.9
Centauro 10.3 10.4
Courtot 13.1 13.3
Duck 11.6 11.3
Manital 14 13.7
Recital1 11.5 11.1
Recital2 10.5 9.8
Rossini 9.7 9.1
Scipion 11 11.6 Données / droite de régression
Sidéral
Sleipjner
11.6
12
11.5
13.2
y = 0.157+0.981x R²=0.785
14.2
Soissons1 10.6 10.1
Soissons2 10 10.3 13.2
Tango = 11.5 11.5
12.2
Thésée 10.1 9.2

infrarouge
Win 11.8 11.5 11.2

10.2

9.2

8.2
8.6 9.6 10.6 11.6 12.6 13.6 14.6
référence

29
Étalonnage d’un appareil de mesure

TP SPIR Variable explicative : Taux de protéine de


Ami 8.6 9.1 26 variétés de blé (TP)
Apolio 11.1 12.4 -Variable à expliquer spectre proche
Aminda 11.6 12.5 infrarouge SPIR
Artaban 10.9 10.1
Avital 14 13.7
Barroudeur 13.1 ?

Données / droite de régression


mx=11.24 R²=0.785
14.2

my=11.46 13.2

12.2

infrarouge
y= 1.3+0.91 x 11.2

R2=
10.2

9.2

8.2
8.6 9.6 10.6 11.6 12.6 13.6 14.6
référence

30
4. Régression logistique

31
Introduction à la régression
logistique
Etudier le lien entre une Variable à Expliquer (VAE) qualitative Y
ET
{Xj } j = 1...p variables explicatives quantitatives ou
qualitatives

Trés utilisé dans le domaine :


 Médecine : étude des facteurs d’infection, causes de décès ou de survie
des patients
 Sciences humaines et sociales : cas de divorce, risque de sucide, ..etc
 Econométrie : risque d’investissement, risque de crédit …etc

32
Types de régression
 Regression logistique simple : Malade = f(age)
 Régression logistique multiple : Malade= f(age, fume,
diabéte, hypertention)
 Régression logistique binaire : Malade ϵ {oui, non}
 Régression logistique multinomiale : Malade ϵ {stade
1, stade 2, stade 3, …..}

Cours basé uniquement sur la régression logistique


binaire car :
Reg. Multinomiale : peut être vue comme plusieurs
régressions logistiques binaires. L’interprétation et le calcul
des coefficients est plus difficile.

33
Exemple de données
age coeur
50 presence
49 presence
46 presence
49 presence
62 presence
35 presence
67 absence
65 absence
47 absence
58 absence
57 absence
Y : (+ = presence,
59 absence
44 absence - = absence)
41 absence
54 absence
52 absence
57 absence
50 absence
X : age du patient
44 absence
(quantitative) 49 absence

34
Introduction à la régression logistique
Y VAE binaire (1 ou 0) Présence (ou absence) de maladie
cardiovasculaire. Une seule variable explicative quantitative X : l’age
(absice)
Représentation graphique

Remarque : Pas vraiment intéressant, pas d’échelle naturelle VAE


qualitative
35
Idée

Modéliser les modalités de Y (présence ou absence de maladie) en


Id´ee

termes de % ou en terme de probabilité de tomber malade en fonction


de l’âge du patient? On regarde cette évolution.

36
Utilisation du modèle linéaire
Si on modélise par une régression linéaire, P(Y =1/X )
]−∞;+∞[ normalement dans l’intervalle [0;1] > 100 % !!

25 30 35 40 45 50 55 60 65 70 75 80

< 0 % !!
37
Modélisation par une fonction
exponentielle logistique
La forme s’approprie le mieux à une fonction exponentielle logistique
Y Varie de 0 a 1 quand x varie de] - ∞ , +∞[
X → +∞ alors π(X ) → 1
X → −∞ alors π(X ) → 0

38
Fonction logistique

39
Fonction logistique

40
Fonction logistique

41
Fonction logistique

42
Modèle logistique

43
Côte : odds
 Soit p la probabilité que l’événement aille lieu.
p = P(Y=1/X)
 L’Odds (ou « cote ») est défini par:

 Dans le groupe de personnes qui sont exposés, on a a/b fois plus de


chances d’avoir une maladie cardiaque que de ne pas en avoir.
 Dans le groupe de personnes qui ne sont pas exposés, on a c/d fois plus de
chances d’avoir une maladie cardiaque que de ne pas en avoir.

44
Odds-Ratio : OR
Odds ratio (ou « rapport des cotes ») : C’est le rapport des
cotes des probabilités d’avoir la maladie pour ceux qui sont
exposés d’une part et ceux qui ne le sont pas.
Il mesure l’association entre l’exposition et la maladie

Signification:
• OR=1, la maladie est indépendante de l’exposition
• OR>1, la maladie est plus fréquente pour les individus qui sont
exposés.
• OR<1, la maladie est plus fréquente chez les personnes qui ne sont
pas exposés

45
Lien entre OR, Logit et les
Coefficients de régression

Donc

46
Exemple

 0 .2 
 0  ln     1 . 386
 1  0 .2 
 0 .6 
 1  ln    1 . 386  1 . 792
 1  0 .6 

47
Cas variable explicative
quantitative
 Supposons
Données que X est une variable quantitative :
Principe
Découper X en déciles (intervalle de taille 10) par exemple
Pour chaque intervalle on calcule P(Y = 1/ X) (proportion de malades)
interprétation:
eβ est l'OR associe a un vieillissement de 1 an,
e10*β est l'OR associe a un vieillissement de 10 ans

Exemple : X : age en dizaines d'annees et OR = 2.


Passer de 60 a 70 ans multiplie par 2 le risque de maladie

48
Cas variable explicative qualitative
(+ de 2 modalités)
Cas des variables nominales :
Exemple : angine: { typique, atypique, asymptotique, non anginal}
1. Dans le tableau de contingence, On choisit une modalité de référence
(normal)
2. On prend une modalité de référence, et on calcule les odds-ratio par
rapport à cette modalité.

Odds(+/-) 2.000 0.102 2.778 0.241


OR(x/_non_anginal) 8.286 0.421 11.508

Surcroît de risque de présence de maladie lorsque la douleur à la


poitrine n’est pas de type « non anginale ».
3. Pour k modalités, on traite (K-1) tableaux 2 x 2.
49
Cas variable explicative qualitative
(+ de 2 modalités)
Traduire cela dans la régression logistique ?
 Utiliser un codage disjonctif 0/1 en prenant une modalité de référence.
 Les coefficients sont des log(Odds-Ratio) par rapport à la modalité de
référence.

Attribute Coef. Coef. Signif.


Constant -1.4213
typ_angine 8.2857 0.0281
atyp_angine 0.4213 0.1502
asympt 11.508 0

50
Bibliographie
[1] R Palm et A.F. Iemma, « Quelques alternatives à la régression classique dans le
cadre de la colinéarité », Revue de statistique appliquée, vol. 43, no 2, 1995, p. 5-
33 (lire en ligne [archive])
[2] Thierry Foucart, « Colinéarité et régression linéaire », Mathématiques et sciences
humaines, vol. 1, no 173, 2006, p. 5-25 (lire en ligne [archive])
[3] J.P. Nakache, J. Confais, Statistique Explicative Appliquée, Technip, 2003 (Partie
2)
[4] Pierre-François Verhulst, « Recherches mathématiques sur la loi d'accroissement
de la population », Nouveaux Mémoires de l'Académie Royale des Sciences et
Belles-Lettres de Bruxelles, no 18, 1845, p. 1-42
[5] Ken Train, Discrete Choice Methods with Simulation, Cambridge University
Press, 30 juin 2009, 2e éd., 408 p. (ISBN 978-0521747387) p. 34-75 (Chapitre 3)
[6] Andrew Gelman et Jennifer Hill, Data Analysis Using Regression And
Multilevel/Hierarchical Models, Cambridge University Press, coll. « Analytical
Methods for Social Research », 18 décembre 2006, 1re éd., 648 p. (ISBN 978-
0521686891) (Chapitre 5)

51

Vous aimerez peut-être aussi