Académique Documents
Professionnel Documents
Culture Documents
Réseaux de Neurones
2
Plan
1) Introduction
4) Régression logistique
3
1. Introduction
4
Objectifs
Méthode d’apprentissage supervisé qui a pour objectif d’estimer une variable cible Y
sont connues. Pour la donnée de test : Les Xi sont connues et le Y est à estimer
5
Types de régression
Régression
Linéaire Logistique
Simple Multiple
Simple Multiple
Binaire multinomiale
6
Regression linéaire vs logistique
• Regression linéaire :
Etudier le lien entre une Variable à Expliquer (VAE) quantitative Y et
{Xj } j = 1...p variables explicatives quantitatives
Régression linéaire Simple : une seule variable explicative, p=1
Régression linéaire Multiple : plusieurs variables explicatives, p>=2
• Regression logistique :
Etudier le lien entre une Variable à Expliquer (VAE) qualitative Y et
{Xj } j = 1...p variables explicatives quantitatives ou qualitatives
Regression logistique simple : Malade = f(age)
Régression logistique multiple : Malade= f(age, fume, diabéte, hypertention)
Régression logistique binaire : Malade ϵ {oui, non}
Régression logistique multinomiale : Malade ϵ {stade 1, stade 2, stade 3, …..}
7
Objectifs
L’analyse de la régression permet d’étudier le type de relation pouvant exister
entre une certaine variable (dépendante) dont on veut expliquer les valeurs et une ou
indépendantes.
8
Regression Vs correlation
• Dans la corrélation on étudie le changement d’une variable en fonction d’une autre variable
force de l'association, mais nous voulons être en mesure de pouvoir faire des prédictions.
9
correlation
: Coefficient de corrélation (Pearson) entre deux variables aléatoires X
et Y (populations). Permet d’expliquer comment Y varie en fonction de X
2 échantillons x et y de moyennes et y
x
n
( x x )( y
i i y)
r estimateur de r ( x, y ) n
i 1
n
(x x) ( y
i 1
i
2
i 1
i y ) 2
11
2. Régression linéaire simple
12
Objectifs de la régression linéaire
Le modèle de prédiction LINEAIRE consiste à estimer la valeur d’une
variable continue (dite ≪ à expliquer ≫,≪ cible ≫, en fonction de la valeur d’un
certain nombre d’autres variables (dites ≪ explicatives ≫, ≪ de contrôle ≫, ou
≪ indépendantes ≫)
Cette variable ≪ cible ≫ peut être par exemple :
le poids : en fonction de la taille
le prix d’un appartement : en fonction de sa superficie
la consommation d’électricité : en fonction de la température extérieure
13
Besoins
Pour estimer la relation entre une variable dépendante (Y) quantitative
et plusieurs variables indépendantes (X1, X2, …)
Un modèle de régression d'une variable expliquée sur une ou plusieurs
variables explicatives dans lequel on fait l'hypothèse que la fonction qui
relie les variables explicatives à la variable expliquée est linéaire selon un
ensemble de paramètres.
Dans ce modèle linéaire simple : X et Y deux variables continues
Les valeurs xi de X sont contrôlées et sans erreur de mesure
On observe les valeurs correspondantes y1, …, yn de Y
Exemples :
X peut être le temps et Y une grandeur mesurée à différentes dates
Y peut être la différence de potentiel mesurée aux bornes d’une résistance pour
différentes valeurs de l’intensité X du courant
14
Régression linéaire simple
Equation de régression linéaire simple :
Cette équation précise la façon dont la variable dépendante Y est reliée à
la seule variable explicative X :
Y X
0 1
Y
VI Variable
dépendante
Simple
régression
15
Exemple de régression linéaire
simple
Y f (X1,)
poids taille
16
Calcul des coefficients estimateurs par
la méthode des moindres carrés
17
Calcul des coefficients estimateurs par
la méthode des moindres carrés
18
Calcul des coefficients estimateurs par
la méthode des moindres carrés
19
Calcul des coefficients estimateurs par
la méthode des moindres carrés
y^i
xi
21
Processus d’estimation : méthode
des moindres carrés
Estimation des coefficients de
régression / méthode des moindres
carrés ordinaires :
n n
( i
i
2 y yˆ
i
) 2
i1 i1
22
Calcul des coefficients estimateurs par
la méthode des moindres carrés
23
Calcul des coefficients estimateurs par
la méthode des moindres carrés
24
Exemple
Fonction population = f(superficie) pour 27 pays européens
26
Régression linéaire simple
8
yi
7
ŷi yi y
yi yˆ i
6
y yˆ i y
y
n
SST ( yi y ) 2
4
i 1
xi
n
2 3 4 5 6 7 8 SSE ( yi yˆ i ) 2
i 1
x
n
27
COEFFICIENT DE DETERMINATION - R²
R2 = SSR/SST coefficient de détermination ou pourcentage de variance
expliquée par la régression
Propriétés
Permet de juger de la qualité de la
régression
0 R 2
1
Idéal R² = 1
Mauvaise régression: R² = 0
n Quand p=1 R² = r²
( yˆi y ) 2
r : coefficient de corrélation linéaire
R 2 i n1 Pour le pain: r=-0.76 donc R²= (-0.76)²
( yi y ) 2
i 1
28
Étalonnage d’un appareil de mesure
variété référence infrarouge
Ami 8.6 9.1
Apollo 11.1 12.4 Variable explicative : Taux de protéine de
Arminda 11.6 12.5
Artaban 10.9 10.1 26 variétés de blé (TP)
Avital 10 10.6
Baroudeur
Beauchamp
11.6
10.4
11.5
10.8
-Variable à expliquer spectre proche
CWRS
Camp-Remy
11.6
12.9
11.3
11.6
infrarouge SPIR
Carolus 9 8.2
Castan 13.1 12.9
Centauro 10.3 10.4
Courtot 13.1 13.3
Duck 11.6 11.3
Manital 14 13.7
Recital1 11.5 11.1
Recital2 10.5 9.8
Rossini 9.7 9.1
Scipion 11 11.6 Données / droite de régression
Sidéral
Sleipjner
11.6
12
11.5
13.2
y = 0.157+0.981x R²=0.785
14.2
Soissons1 10.6 10.1
Soissons2 10 10.3 13.2
Tango = 11.5 11.5
12.2
Thésée 10.1 9.2
infrarouge
Win 11.8 11.5 11.2
10.2
9.2
8.2
8.6 9.6 10.6 11.6 12.6 13.6 14.6
référence
29
Étalonnage d’un appareil de mesure
my=11.46 13.2
12.2
infrarouge
y= 1.3+0.91 x 11.2
R2=
10.2
9.2
8.2
8.6 9.6 10.6 11.6 12.6 13.6 14.6
référence
30
4. Régression logistique
31
Introduction à la régression
logistique
Etudier le lien entre une Variable à Expliquer (VAE) qualitative Y
ET
{Xj } j = 1...p variables explicatives quantitatives ou
qualitatives
32
Types de régression
Regression logistique simple : Malade = f(age)
Régression logistique multiple : Malade= f(age, fume,
diabéte, hypertention)
Régression logistique binaire : Malade ϵ {oui, non}
Régression logistique multinomiale : Malade ϵ {stade
1, stade 2, stade 3, …..}
33
Exemple de données
age coeur
50 presence
49 presence
46 presence
49 presence
62 presence
35 presence
67 absence
65 absence
47 absence
58 absence
57 absence
Y : (+ = presence,
59 absence
44 absence - = absence)
41 absence
54 absence
52 absence
57 absence
50 absence
X : age du patient
44 absence
(quantitative) 49 absence
34
Introduction à la régression logistique
Y VAE binaire (1 ou 0) Présence (ou absence) de maladie
cardiovasculaire. Une seule variable explicative quantitative X : l’age
(absice)
Représentation graphique
36
Utilisation du modèle linéaire
Si on modélise par une régression linéaire, P(Y =1/X )
]−∞;+∞[ normalement dans l’intervalle [0;1] > 100 % !!
25 30 35 40 45 50 55 60 65 70 75 80
< 0 % !!
37
Modélisation par une fonction
exponentielle logistique
La forme s’approprie le mieux à une fonction exponentielle logistique
Y Varie de 0 a 1 quand x varie de] - ∞ , +∞[
X → +∞ alors π(X ) → 1
X → −∞ alors π(X ) → 0
38
Fonction logistique
39
Fonction logistique
40
Fonction logistique
41
Fonction logistique
42
Modèle logistique
43
Côte : odds
Soit p la probabilité que l’événement aille lieu.
p = P(Y=1/X)
L’Odds (ou « cote ») est défini par:
44
Odds-Ratio : OR
Odds ratio (ou « rapport des cotes ») : C’est le rapport des
cotes des probabilités d’avoir la maladie pour ceux qui sont
exposés d’une part et ceux qui ne le sont pas.
Il mesure l’association entre l’exposition et la maladie
Signification:
• OR=1, la maladie est indépendante de l’exposition
• OR>1, la maladie est plus fréquente pour les individus qui sont
exposés.
• OR<1, la maladie est plus fréquente chez les personnes qui ne sont
pas exposés
45
Lien entre OR, Logit et les
Coefficients de régression
Donc
46
Exemple
0 .2
0 ln 1 . 386
1 0 .2
0 .6
1 ln 1 . 386 1 . 792
1 0 .6
47
Cas variable explicative
quantitative
Supposons
Données que X est une variable quantitative :
Principe
Découper X en déciles (intervalle de taille 10) par exemple
Pour chaque intervalle on calcule P(Y = 1/ X) (proportion de malades)
interprétation:
eβ est l'OR associe a un vieillissement de 1 an,
e10*β est l'OR associe a un vieillissement de 10 ans
48
Cas variable explicative qualitative
(+ de 2 modalités)
Cas des variables nominales :
Exemple : angine: { typique, atypique, asymptotique, non anginal}
1. Dans le tableau de contingence, On choisit une modalité de référence
(normal)
2. On prend une modalité de référence, et on calcule les odds-ratio par
rapport à cette modalité.
50
Bibliographie
[1] R Palm et A.F. Iemma, « Quelques alternatives à la régression classique dans le
cadre de la colinéarité », Revue de statistique appliquée, vol. 43, no 2, 1995, p. 5-
33 (lire en ligne [archive])
[2] Thierry Foucart, « Colinéarité et régression linéaire », Mathématiques et sciences
humaines, vol. 1, no 173, 2006, p. 5-25 (lire en ligne [archive])
[3] J.P. Nakache, J. Confais, Statistique Explicative Appliquée, Technip, 2003 (Partie
2)
[4] Pierre-François Verhulst, « Recherches mathématiques sur la loi d'accroissement
de la population », Nouveaux Mémoires de l'Académie Royale des Sciences et
Belles-Lettres de Bruxelles, no 18, 1845, p. 1-42
[5] Ken Train, Discrete Choice Methods with Simulation, Cambridge University
Press, 30 juin 2009, 2e éd., 408 p. (ISBN 978-0521747387) p. 34-75 (Chapitre 3)
[6] Andrew Gelman et Jennifer Hill, Data Analysis Using Regression And
Multilevel/Hierarchical Models, Cambridge University Press, coll. « Analytical
Methods for Social Research », 18 décembre 2006, 1re éd., 648 p. (ISBN 978-
0521686891) (Chapitre 5)
51