Académique Documents
Professionnel Documents
Culture Documents
La liaison
causale
Non causale
Éliminer
Éviter les
Les v.expli.
redondances
Sans effet
Sur la
v.cible
1
I. Cas de deux v.a. quantitatives
1. Exemple :
● X : dépenses mensuelles en publicité
●Y : ventes mensuelles
Visualisation des données : nuage de points(Diagramme
de dispersion, scatter plot)
Lien positif
entre les deux
variables
publicité
2
Intérêt : idée sur la modélisation Y=f(X) ou X=f(Y).
2. Mesure de corrélation
But : quantifier la liaison entre X et Y.
Le coefficient de covariance
n
• 1
Déf : cov( X , Y ) c Y ( w ) Y X ( w ) X
XY i i
n i 1
1 n
[ Y ( wi )X ( wi )] Y X
n i 1
CXY est une forme bilinéaire symétrique, la forme quadratique
associée est la var :
• Propriètés et Remarques :
Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)
Inégalité de Cauchy schwartz :
rXY 1
=0 =1
Il existe (a,b,c) tq :
Indépendance linéaire
(nuage de pts circulaire
rXY aX+bY+c=0
Ou // à un des axes) (nuage de pts rect.)
sinon
Tester la signification
de rXY
4
Seuil critique r ( n 2, ) pour un coefficient de corrélation simple
5
Interprétation d’un rXY :
• Si r est significatif alors :
□ 100|r|% des variations de X(resp. Y) sont
contrôlées par Y(resp. X),
□ Le signe de r sens de variation
• Une liaison non linéaire n’est pas mesurée par r.
Indépendance linéaire
6
II. Cas de deux variables qualitatives
1. Les données et leur présentation
x1 y1
x2 y2
X Y
xr yc
y1 … yj ..yc total
x1 n1.
… c
nl . nlj l 1; r
xl nlj nl. j 1
r Effectifs marginaux
.. n.h nih h 1; c
i 1
xr nlh : effectif conjoint ((l 1; r) (h 1; c))
total n.j n
7
2. Exemple: Enquête auprès de 200 étudiants
• Variable X: Provenance des étudiants,
3 modalités: R1;R2;R3 (3 régions).
• Variable Y : Choix de l'université
3 modalités: U1;U2;U3 (3 universités).
• Tableau de contingence:
8
3. Tableau des fréquences relatives F
n jk
f jk j 1; r k 1; c
n
9
• Exemple :
10
estimation de la probabilité conditionnelle:
P(Y=k/X=j)
Exemple :
12
4. Situation d'indépendance
Si 2 variables aléatoires X et Y sont indépendantes,
alors
j 1,2,.., r et k 1,2,.., c:
a. P( X j , Y k ) P( X j ) P(Y k )
b. P(Y k / X j ) P(Y k )
c. P( X j / Y k ) P( X j )
• L’échantillon de taille n nous permet d'estimer ces
quantités, dès lors sous l'hypothèse d'indépendance,
on devrait avoir :
a. f jk f j . f.k ( j , k ) 1,..., r 1,2,..., c
f jk
b. f k / j f .k j , k
f j.
f jk
c. f j / k f j. j , k
f .k
Ainsi tous les proils-lignes et les proils-colonnes sont pratiquement
égaux.
13
• On définit donc les fréquences théoriques vérifiant l’hypothèse
d’indépendance :
• Exemple :
Effectifs et effectifs théoriques
14
5. Représentation graphique des deux profils
1000
3,5
800
3,0
2,5
600 2,0
1,5
1,0
Occurrences
400 VAR00
,5
satisfaction
0,0
Occurrences
1 2
Sexe du répondant
Exemple de dépendance
15
• Exemple :
16
• Interprétations :
ejk>0↔njk>n*jk ↔ fjk>f*jk
ejk<0↔njk<n*jk ↔ fjk<f*jk
→ On dit que les modalités j de X et k de Y se repoussent
Exemple : Les modalités R2 et U3 s’attirent fortement alors que les
modalités R2 et U1 se repoussent fortement.
7. Mesure d’association
Déf: khi-deux de contingence :
2
nl . n.h
lh
n
r c
n
2
l 1 h 1
nl . n.h
n
r
n
c
nlh
2
1
l 1 h 1 nl . n.h
17
Remarques :
• Le khi-deux de contingence est positif
• Test de signification :
On rejette l'hypothèse d'indépendance entre X et Y avec une erreur
de 1ière espèce de α% si :
Exemple :
2 2
( r 1)( c 1);1
2 38.7692
Sous H 0 : 2 42 ;
Règle de comporteme nt :
au niveau 1% ; 42;0.99 13.28
18
• Le khi-deux de contingence n’est pas majoré
max
2
nmin r , c 1
On peut déduire la quantité V de Cramer :
2
V
max
2
V intensité
0 Nulle
0-0.2 Faible
0.2-0.4 Moyenne
0.4-0.7 Forte
0.7-1 Très forte
1 parfaite
19
III. Cas d’une variable qualitative et d’une quantitative
1) Données et notations
X : v.a. qualitative supposée à r modalités notées : x1,..,xl,…,xr.
Y : v.a. quantitative.
El E / X xl
sous échantillon d’individu possédant xl
nl : |El|
Yl : Y El restriction de Y à El.
Yl
1
nl
Y ; l
2
1
nl
Y Y
l
2
El El
Par exemple :
Y : le salaire et X : le niveau de diplôme
Y X bachelier
:le salaire moyen pour un
travailleur ayant un diplôme de bachelier
20
2) Étude de la liaison
a. Représentation graphique : Boîtes parallèles
24 12,5
22
12,0
20
11,5
18
16 11,0
14
10,5
12
VAR00003
VAR00002
10,0
10
8 9,5
N= 3 3 N= 3 3
1 2 1 2
VAR00001 VAR00001
n Y
r 2 r
1 1
Y Y n
2 2
l l l l
n l 1 n l 1
E R
2 2
21
donnent une décomposition de la moyenne et de la variance de
Y sur la partition définie par X.
E : 2
Variance expliquée (ou interclasse)
E2
Y / X 2
Y 2
Interprétation : pourcentage de la variance expliquée par la
connaissance de la variable X.
Propriétés :
0 Y / X 1
2
Y / X 0 E 0 Y 1 ... Yr Y
2 2
absence de liaison
Y / X 1 R 0 les individus de chaque classe ont une même valeur
2 2
22
CHAPITR IV :
MODELE DE REGRESSION
LINEAIRE SIMPLE
23
1. Introduction
24
• 2.Exemple :
Le directeur d’une grande
entreprise cherche à expliquer les ventes
mensuelles (en milliers de $) par le score
au test d’aptitude des vendeurs :
25
Ventes mensuelles Score au test d’aptitude
30 84
20 71
24 71
18 65
26 80
24 74
26 76
20 68
30 80
22 75
28 78
26 77
26
3. Modèle de régression linéaire simple
Y
Ajustement du modèle Y=aX+b X
PREVISION
27
La droite des moindres carrés
1600
On cherche
1400
yˆ aˆx bˆ
1200
â et b̂
valeur
observée yi1000 Minimisant
erreur ei
800 n
i
valeur
prédite
ŷi * e 2
600
i 1
400
200
Prix
0
0 100 200 300
xi
Surface
28
Les étapes d’une étude de régression
1. La spécification du modèle;
2. L’estimation du modèle;
3. La vérification du modèle;
4. L’application du modèle.
29
Y i aX i b : distance verticale
de i à la droite de régression (y ax b).
solution : (â, b̂) :
c
â XY2
b̂ Y - âX
sX
yˆ i aˆX i bˆ : valeur ajustée ;
E(Ŷ) EY Y .
eˆi Y i yˆ i : résidus.
• Hypothèses : Les résidus théorique vérifient :
• H1 : ils sont de moyenne nulle
• H2 : homoscédasticité
• H3 : non corrélées
• H4 : distribués suivant une loi normale
• Propriétés
31
Prix (en
milliers
Localisation Surface d'euros) 1600
1 censier 28 130 16
2 contrescarpe 50 280
3 rue saint-simon 106 650 1400
4 rapp 196 800
5 saint-andré des arts 55 268 1200
6 5-ième, près quais 190 790
7 gobelins 110 500 25
1000 18
8 gobelins 60 320
9 censier 48 250
64
10 panthéon 35 250 800
32
Identification des outliers
au niveau du Prix au mètre carré
9000
Panthéon (10)
7000 Jardins de l'observatoire
6000
5000
4000
3000
2000
N= 28
33
La droite des moindres carrés
1600
16
1400
1200
25
1000 18
64
800
3
600
27 7
1119 21
400 81217
2 24 23
10 9145
15 22
200 113
2628
20
0
0 100 200 300
Surface
34
Résultats SPSS
Coefficientsa
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) -29.466 41.246 -.714 .481
Surface 5.353 .414 .930 12.931 .000
a. Dependent Variable: Prix (en milliers d'euros)
ANOVAb
Sum of
Model Squares df Mean Square F Sig.
1 Regression 2527208 1 2527207.505 167.210 .000a
Residual 392963.2 26 15113.970
Total 2920171 27
a. Predictors: (Constant), Surface
b. Dependent Variable: Prix (en milliers d'euros)
35
Résultats SPSS
Résidu Prix Valeur
Numéro standardisé (en milliers €) prédite Résidu
1 0.078 130 120.42 9.58
2 0.340 280 238.19 41.81
3 0.911 650 537.97 112.03
4 -1.788 800 1019.75 -219.75
5 0.025 268 264.96 3.04
6 -1.608 790 987.64 -197.64
7
8
-0.483
0.230
500
320
559.38
291.72
-59.38
28.28
Modèle :
9 0.183 250 227.49 22.51 Prix calculé
10 0.749 250 157.89 92.11
11 -0.658 350 430.91 -80.91 = -29.466 + 5.353 Surface
12 -0.150 300 318.49 -18.49
13 0.107 155 141.84 13.16
14 -0.032 245 248.90 -3.90
15 0.125 200 184.66 15.34
16 1.120 1500 1362.36 137.64
n
i 392963.2
17 -0.165 325 345.26 -20.26
2
18
19
2.873
-0.605
950
378
596.85
452.32
353.15
-74.32
e
20 -0.432 78 131.13 -53.13 i 1
21 -1.282 375 532.62 -157.62
22 -0.398 200 248.90 -48.90
23 -1.048 270 398.79 -128.79
24 0.027 295 291.72 3.28
25 2.196 990 719.98 270.02
26 0.060 85 77.60 7.40
27 -0.088 495 505.85 -10.85
28 -0.288 85 120.42 -35.42
36
Coefficient de détermination R2,
Coefficient de corrélation R
A) Formule de décomposition
( yi y) ( ŷi y) ei
2 2 2
37
Résultats SPSS
Model Summary
R
0 R
S
P
*
0 S
8 N
*
C
(
38
Le R2 mesure la force de la liaison linéaire entre X et Y
1) 0 R2 1
3) R2 = 0
2) R2 = 1
Y
Y * *
* * * *
* y *
* * *
* * *
* *
*
X
X
39
Le R2 mesure la force de la liaison linéaire entre X
et Y
120
60
40
20
0 Rsq = 0.0000
Y
-20 -10 0 10 20
40
La corrélation R mesure la force et
le sens de la liaison linéaire entre X et Y
Y Y
* * *
* * **
* * *
* * *
*
X X
aˆ 0 aˆ 0
R0 R0
41
Exemple de corrélation
non significative
l
9000 a
18
F
8000
9 P
P
10 25
97000
S
8 N
3
6000 16
2
15
9
8 On a 30,9 chances sur 100 de
13 524 27
5000 1 14 12
17 7 se tromper en affirmant qu’il
26 19 64
4000 22
11
21
existe une liaison linéaire entre
28
23
le prix au m2 et la surface.
3000
20
42
Le modèle statistique de la régression simple
Yi = axi + b + i
• On suppose que les les aléas i sont indépendants les uns des
autres.
43
Le modèle de la régression simple
Y y = ax + b
Loi de Y x + 1.96
*
x= ax+b
95% des
x - 1.96
valeurs de Y
*
x X
44
Estimation de a, b et
• Estimation de a et b :
aˆ estimation de a
bˆ estimation de b
• Estimation de :
1 n 2
ˆ
2
i
n 2 i 1
e estimation de 2
ˆ ˆ 2 estimation de
45
Prévision de Y
46
Résultat pour x
• Estimation de x = E(Y | X=x) :
ˆ bˆ
ˆ x ax
• Intervalle de confiance de x au niveau 95 % :
1 (x x) 2
yˆ t 0.975 (n 2)
ˆ n
n (x i x) 2
i 1
ˆ
Formule approchée : ŷ 2
n
47
Résultats SPSS
Prix INF95% SUP95% INF95% SUP95%
Numéro Localisation Surface (en milliers €) Prédiction Moyenne Moyenne Individu Individu
1 censier 28 130 120.42 53.96 186.89 -140.88 381.72
2 contrescarpe 50 280 238.19 183.08 293.30 -20.45 496.84
3 rue saint-simon 106 650 537.97 486.14 589.80 280.00 795.94
4 rapp 196 800 1019.75 911.87 1127.64 744.99 1294.52
5 saint-andré des arts 55 268 264.96 211.84 318.07 6.73 523.18
6 5-ième, près quais 190 790 987.64 884.31 1090.96 714.62 1260.65
7 gobelins 110 500 559.38 506.13 612.63 301.13 817.64
8 gobelins 60 320 291.72 240.33 343.12 33.85 549.60
9 censier 48 250 227.49 171.51 283.47 -31.34 486.32
10 panthéon 35 250 157.89 95.43 220.36 -102.42 418.21
11 rue madame 86 350 430.91 383.05 478.77 173.71 688.10
12 rue de seine 65 300 318.49 268.51 368.47 60.89 576.09
13 panthéon 32 155 141.84 77.69 205.98 -118.88 402.55
14 sèvres-babylone 52 245 248.90 194.62 303.18 -9.57 507.37
15 montparnasse 40 200 184.66 124.85 244.47 -75.03 444.35
16 rue d'assas 260 1500 1362.36 1203.80 1520.91 1064.03 1660.69
17 saint-germain 70 325 345.26 296.36 394.15 87.86 602.65
18 ile saint-louis 117 950 596.85 540.72 652.99 337.99 855.72
19 jussieu 90 378 452.32 404.12 500.52 195.06 709.58
20 quartier-latin 30 78 131.13 65.84 196.42 -129.87 392.13
21 montparnasse 105 375 532.62 481.11 584.12 274.72 790.52
22 rue mazarine 52 200 248.90 194.62 303.18 -9.57 507.37
23 censier 80 270 398.79 350.99 446.58 141.60 655.97
24 assas luxembourg 60 295 291.72 240.33 343.12 33.85 549.60
25 jardins de l'observatoire 140 990 719.98 651.50 788.46 458.16 981.80
26 rue de savoie 20 85 77.60 6.23 148.96 -184.99 340.19
27 près luxembourg 100 495 505.85 455.78 555.92 248.23 763.47
28 gobelins 28 85 120.42 53.96 186.89 -140.88 381.72
48
Résultat graphique pour
les intervalles de confiance
Prix vs Surface (28 obs.) : Intervalle de confiance à 95%
1600
1400
1200
1000
800
600
400
200
Prix
0
0 100 200 300
Surface
49
Intervalle de confiance de la moyenne
x = ax + b pour une liaison non significative
9000
8000
7000
6000
5000
y 4000
Prix au m2
3000
2000
0 100 200 300
Surface
50
Résultat pour y
• Prévision de y pour x fixé :
yˆ aˆx bˆ
• Intervalle de prévision de y à 95 % pour x fixé :
1 ( x x )2
yˆ t0.975 (n 2) ˆ 1 n
n ( xi x ) 2
i 1
51
• Pour une valeur x fixée de X
x=ax+b est le modèle théorique
– ˆ bˆ:
ˆ x ax
» Estime x
» Sert à prédire Y lorsque X=x (modèle
empirique)
52
Résultat graphique pour
les intervalles de prévision
1400 Observations
atypiques
1200
Jardins de l‘Observatoire
1000
Prix (en milliers d‘Euros)
Ile Saint-louis
800
600
400
200
0
0 100 200 300
Surface
53
Observation atypique
• Une observation est atypique (outlier) si elle n’appartient pas à son
propre intervalle de prévision :
1 (x x)2
y [ ŷ t 0.975 (n 2) ˆ 1 n ]
n i 1 ( x i x ) 2
54
Résultats SPSS
Prix Résidu INF 95% SUP 95%
NUMERO Surface Prédiction Résidu
(en milliers d’€) standardisé Individuel Individuel
1 28 130 120.42 9.58 0.08 -140.88 381.72
2 50 280 238.19 41.81 0.34 -20.45 496.84
3 106 650 537.97 112.03 0.91 280.00 795.94
4 196 800 1019.75 -219.75 -1.79 744.99 1294.52
5 55 268 264.96 3.04 0.02 6.73 523.18
6 190 790 987.64 -197.64 -1.61 714.62 1260.65
7 110 500 559.38 -59.38 -0.48 301.13 817.64
8 60 320 291.72 28.28 0.23 33.85 549.60
9 48 250 227.49 22.51 0.18 -31.34 486.32
10 35 250 157.89 92.11 0.75 -102.42 418.21
11 86 350 430.91 -80.91 -0.66 173.71 688.10
12 65 300 318.49 -18.49 -0.15 60.89 576.09
13 32 155 141.84 13.16 0.11 -118.88 402.55
14 52 245 248.90 -3.90 -0.03 -9.57 507.37
15 40 200 184.66 15.34 0.12 -75.03 444.35
16 260 1500 1362.36 137.64 1.12 1064.03 1660.69
17 70 325 345.26 -20.26 -0.16 87.86 602.65
18 117 950 596.85 353.15 2.87 337.99 855.72
19 90 378 452.32 -74.32 -0.60 195.06 709.58
20 30 78 131.13 -53.13 -0.43 -129.87 392.13
21 105 375 532.62 -157.62 -1.28 274.72 790.52
22 52 200 248.90 -48.90 -0.40 -9.57 507.37
23 80 270 398.79 -128.79 -1.05 141.60 655.97
24 60 295 291.72 3.28 0.03 33.85 549.60
25 140 990 719.98 270.02 2.20 458.16 981.80
26 20 85 77.60 7.40 0.06 -184.99 340.19
27 100 495 505.85 -10.85 -0.09 248.23 763.47
28 28 85 120.42 -35.42 -0.29 -140.88 381.72
55