Vous êtes sur la page 1sur 55

Chap III : Analyse Statistique bivariée

 Données : X et Y deux v.a. observées sur n u.s


 Objectif : mettre en évidence une éventuelle
variation de X et Y

La liaison

causale
Non causale

v.cible Expl. V.explicatives

Éliminer
Éviter les
Les v.expli.
redondances
Sans effet
Sur la
v.cible
1
I. Cas de deux v.a. quantitatives
1. Exemple :
● X : dépenses mensuelles en publicité
●Y : ventes mensuelles
Visualisation des données : nuage de points(Diagramme
de dispersion, scatter plot)

Lien positif
entre les deux
variables

publicité

2
Intérêt : idée sur la modélisation Y=f(X) ou X=f(Y).
2. Mesure de corrélation
But : quantifier la liaison entre X et Y.
Le coefficient de covariance
  
n
• 1
Déf : cov( X , Y )  c   Y ( w )  Y X ( w )  X
XY i i
n i 1

1 n
 [  Y ( wi )X ( wi )]  Y  X
n i 1
 CXY est une forme bilinéaire symétrique, la forme quadratique
associée est la var :
• Propriètés et Remarques :
Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)
 Inégalité de Cauchy schwartz :

(Cov( X , Y )) 2  Var ( X )Var (Y )


 CXY dépend des unités de mesures.
 La covariance sera positive (négative) s’il existe une relation
croissante (décroissante) entre les 2 variables.
Le coefficient de corrélation linéaire
 étude numérique de la manière dont les deux v.a varient
simultanément.
3
• Déf.
c
cor ( X ,Y )  r  s XY où s  0, s  0
XY X sY X Y
• Propriétés :
 X  X Y Y  X  X
rXY  cov , , ( : v.c.r )
 rXY
 sX sY  sX
ne dépend pas des unités de mesure

rXY  1
=0 =1
Il existe (a,b,c) tq :
Indépendance linéaire
(nuage de pts circulaire
rXY aX+bY+c=0
Ou // à un des axes) (nuage de pts rect.)
sinon

Tester la signification
de rXY

4
Seuil critique r (  n  2,  ) pour un coefficient de corrélation simple

5
Interprétation d’un rXY :
• Si r est significatif alors :
□ 100|r|% des variations de X(resp. Y) sont
contrôlées par Y(resp. X),
□ Le signe de r sens de variation
• Une liaison non linéaire n’est pas mesurée par r.

r>0 r<0 Pas de corr. mais


r significatif
dépendance

Indépendance linéaire

6
II. Cas de deux variables qualitatives
1. Les données et leur présentation
x1 y1
x2 y2

X Y

xr yc
y1 … yj ..yc total
x1 n1.
… c
nl .   nlj l  1; r
xl nlj nl. j 1
r Effectifs marginaux
.. n.h   nih h  1; c
i 1
xr nlh : effectif conjoint ((l  1; r) (h  1; c))
total n.j n

7
2. Exemple: Enquête auprès de 200 étudiants
• Variable X: Provenance des étudiants,
3 modalités: R1;R2;R3 (3 régions).
• Variable Y : Choix de l'université
 3 modalités: U1;U2;U3 (3 universités).
• Tableau de contingence:

8
3. Tableau des fréquences relatives F
n jk
f jk  j  1; r k  1; c
n

• Les fréquences relatives marginales sont données par:


n j.
f j.  j  1; r
n
n. k
f .k  k  1; c
n
• Remarquons que:
• f est une estimation de P(X=j,Y=k)
jk

• f j. est une estimation de P(X=j)

• f .k est une estimation de P(Y=k)

9
• Exemple :

4. Tableaux des fréquences conditionnelles


a. Tableau des profils-lignes:
• Proportion des individus présentant la modalité k de Y parmi les
individus ayant la modalité j de X

10
 estimation de la probabilité conditionnelle:
P(Y=k/X=j)
Exemple :

b. Tableau des profils-colonnes:


Proportion des individus présentant la modalité j de X parmi
les individus ayant la modalité k de Y
11
 estimation de la probabilité conditionnelle :
P(X=j/Y=k)
Exemple :

12
4. Situation d'indépendance
Si 2 variables aléatoires X et Y sont indépendantes,
alors
j  1,2,.., r et k  1,2,.., c:
a. P( X  j , Y  k )  P( X  j ) P(Y  k )
b. P(Y  k / X  j )  P(Y  k )
c. P( X  j / Y  k )  P( X  j )
• L’échantillon de taille n nous permet d'estimer ces
quantités, dès lors sous l'hypothèse d'indépendance,
on devrait avoir :
a. f jk  f j . f.k ( j , k )  1,..., r 1,2,..., c
f jk
b. f k / j   f .k j , k
f j.
f jk
c. f j / k   f j. j , k
f .k
Ainsi tous les proils-lignes et les proils-colonnes sont pratiquement
égaux.
13
• On définit donc les fréquences théoriques vérifiant l’hypothèse
d’indépendance :

• Exemple :
Effectifs et effectifs théoriques

14
5. Représentation graphique des deux profils

1000

3,5
800
3,0

2,5

600 2,0

1,5

1,0

Occurrences
400 VAR00
,5
satisfaction
0,0
Occurrences

1 2

200 Pas très heureux


VAR00001

Plutôt heureux Exemple d’indépendance


0 Très heureux
Homme Femme

Sexe du répondant
Exemple de dépendance

6. La matrice des écarts à l’indépendance :


E=N-N*=(ejk)
Où N est la matrice des effectifs observées et N* la matrice des effectifs
théoriques en situation d’indépendance.

15
• Exemple :

16
• Interprétations :
ejk>0↔njk>n*jk ↔ fjk>f*jk

→ On dit que les modalités j de X et k de Y s’attirent

ejk<0↔njk<n*jk ↔ fjk<f*jk
→ On dit que les modalités j de X et k de Y se repoussent
Exemple : Les modalités R2 et U3 s’attirent fortement alors que les
modalités R2 et U1 se repoussent fortement.
7. Mesure d’association
Déf: khi-deux de contingence :
2
 nl . n.h 
 lh
n  
   
r c
n
2
l 1 h 1
nl . n.h
n
 r
 n  
c
nlh 
2
 1

 l 1 h 1 nl . n.h 
17
Remarques :
• Le khi-deux de contingence est positif
• Test de signification :
On rejette l'hypothèse d'indépendance entre X et Y avec une erreur
de 1ière espèce de α% si :

Exemple :
 
2 2
( r 1)( c 1);1

 2  38.7692
Sous H 0 :  2   42 ;
Règle de comporteme nt :
au niveau   1% ;  42;0.99  13.28

Donc on conclut au rejet de l’hypothèse nulle c’est qu’il y’a


dépendance entre les régions et le choix de l’université.

18
• Le khi-deux de contingence n’est pas majoré
 max
2
 nmin r , c   1
 On peut déduire la quantité V de Cramer :
2
V 
 max
2

Qui permet d’évaluer l’intensité de la liaison de deux variables


qualitatives sans avoir recours à une table statistique.
Cette quantité intègre le nombre de degré de liberté par l’intermédiaire
de  max
2

V intensité
0 Nulle
0-0.2 Faible
0.2-0.4 Moyenne
0.4-0.7 Forte
0.7-1 Très forte
1 parfaite
19
III. Cas d’une variable qualitative et d’une quantitative
1) Données et notations
X : v.a. qualitative supposée à r modalités notées : x1,..,xl,…,xr.
Y : v.a. quantitative.

El    E / X    xl 
sous échantillon d’individu possédant xl
nl : |El|
Yl : Y El restriction de Y à El.

Yl 
1
nl
 Y  ;  l
2

1
nl
 Y    Y 
l
2

 El El

Par exemple :
Y : le salaire et X : le niveau de diplôme

Y X bachelier
:le salaire moyen pour un
travailleur ayant un diplôme de bachelier

20
2) Étude de la liaison
a. Représentation graphique : Boîtes parallèles
24 12,5

22
12,0

20

11,5
18

16 11,0

14
10,5

12
VAR00003

VAR00002
10,0
10

8 9,5
N= 3 3 N= 3 3

1 2 1 2

VAR00001 VAR00001

Exemple : Cas de présence de liaison Exemple : Cas d’absence de liaison

b. Mesure de l’intensité de la dépendance de Y en X


• Formules de décomposition
r
1
Y 
n
n Yl 1
l l

 n Y 
r 2 r
1 1
Y  Y  n
2 2
l l l l
n l 1 n l 1

E  R
2 2

21
 donnent une décomposition de la moyenne et de la variance de
Y sur la partition définie par X.
E : 2
Variance expliquée (ou interclasse)

 R2 : Variance résiduelle (ou intra classe)


Rapport de corrélation
C’est un indice de liaison entre X et Y défini par :

 E2
Y / X 2 
Y 2
Interprétation : pourcentage de la variance expliquée par la
connaissance de la variable X.
 Propriétés :
 0  Y / X  1
2

 Y / X  0   E  0  Y 1  ...  Yr  Y
2 2

absence de liaison
 Y / X  1   R  0  les individus de chaque classe ont une même valeur
2 2

 plus Y / X est proche de 1 plus Y explique bien X.


2

22
CHAPITR IV :
MODELE DE REGRESSION
LINEAIRE SIMPLE

23
1. Introduction

• L’analyse de régression est une méthode statistique qui


permet d’étudier le type de relation pouvant exister entre
une certaine variable dont on veut expliquer les valeurs et
une ou plusieurs autres variables qui servent à cette
explication En régression simple, on utilise une seule
variable explicative alors qu’on en utilise plusieurs en
régression multiple.
• On cherchera à établir une relation fonctionnelle de type
statistique.
• Dans la cas de dépendance linéaire on parle de régression
linéaire.

24
• 2.Exemple :
Le directeur d’une grande
entreprise cherche à expliquer les ventes
mensuelles (en milliers de $) par le score
au test d’aptitude des vendeurs :

25
Ventes mensuelles Score au test d’aptitude
30 84
20 71
24 71
18 65
26 80
24 74
26 76
20 68
30 80
22 75
28 78
26 77

26
3. Modèle de régression linéaire simple

Y
Ajustement du modèle Y=aX+b X

PREVISION

27
La droite des moindres carrés

1600
On cherche
1400
yˆ  aˆx  bˆ
1200
â et b̂
valeur
observée yi1000 Minimisant
erreur ei
800 n
i
valeur
prédite
ŷi * e 2
600
i 1
400

200
Prix

0
0 100 200 300
xi
Surface
28
Les étapes d’une étude de régression

1. La spécification du modèle;
2. L’estimation du modèle;
3. La vérification du modèle;
4. L’application du modèle.

29
Y i   aX i   b  : distance verticale
de i à la droite de régression (y  ax  b).
solution : (â, b̂) :
c
â  XY2
b̂  Y - âX
sX
yˆ i  aˆX i   bˆ : valeur ajustée ;
E(Ŷ)  EY   Y .
eˆi  Y i   yˆ i : résidus.
• Hypothèses : Les résidus théorique vérifient :
• H1 : ils sont de moyenne nulle
• H2 : homoscédasticité
• H3 : non corrélées
• H4 : distribués suivant une loi normale

• Propriétés

La variable causale X et la variable résiduelle E sont non


corrélées (cov(X,E)=0). 30
Cas Prix d’un appartement
1. CENSIER, bas de R. Mouffetard, pied-à-terre, 2. CONTRESCARPE, imm. Ancien, pierre de taille,
28m2, tt confort. Visite vendredi, samedi, dim. beau duplex caractère, 50m2, poutres, refait neuf,
130.000 € à discuter. Facilités 280.000 €
3. R. St-Simon, en pleine verdure, calme, plein soleil, 4. RAPP 7P., 196m2 standing, 9 fenêtres plein soleil,
Superbe appt 4p., 106m2, cuis. aménagée, s. de 800.000 €.
bains moderne, chff. cent. Parfait état.
Px 650.000 à discuter. Agence s’abstenir. Direct.
Propriétaire.
5. R. St André-des-Arts, beau liv + chbre, imm. XVIIIe 6. 5e PRES QUAIS, 7 pces, 190m2 caractère,
siècle, 55m2, 268.000 €. standing, 790.000 €
7. GOBELINS, Beau 5p., 110m2, gd cft, soleil, 8. GOBELINS, et. élevé, calme, asc., 2 pièces, 60m2,
500.000 € 320.000 €
9. CENSIER, très grand studio + entrée 48m2, tt cft, 10. PANTHEON, 7e étage, ascenseur, grand studio
ensoleillé, calme, bel imm., 250.000 € 35m2 + terrasse. Vue. 250.000 €.
2 2
11. RUE MADAME, 3P. + Serv., 86m , 350.000 €. 12. RUE DE SEINE, 3P., tt cft, 65m , calme, soleil,
300.000 €.
13. PANTHEON, bel imm., verdure, magnifique studio 14. SEVRES BAB, 1er ét., 2P., gde cuis., bns, 52m2,
32m2, caractère, 155.000 €. état neuf, 245.000 €.
15. MONTPARNASSE, Part. vend atelier d’artiste 16. RUE D’ASSAS, imm. gd standing, bel appart
40m2, duplex, vue imprenable, tout confort, 260m2, triple récept. + 5 ch., tt cft (travaux) 2 park.,
Prix 200.000 €. 2 ch. Serv., Prix 1.500.000 € à déb.
17. BD St-GERMAIN, 4P., 70m2, à amén., 4e ét., 18. ILE St-LOUIS, Lux. appt., 117m2, en duplex,
325.000 €. gde récept., gde chambre, 2 sdb, Terras., parf. et.,
décor tr. bon goût, 950.000 €.
19. JUSSIEU, Charme, gd 3 pces, 90m2, 378.000 €. 20. QUARTIER LATIN, 30m2 à aménager,
prix 78.000 €.
2 e 2
21. MONTPARNASSE, Imm. p.d.t., 4-5 P., 105m , 22. RUE MAZARINE, 4 ét., sans ascens., 52m à
bon état, 375.000 €. rénover. Prix total 200.000 €.
23. CENSIER, Bel imm., 4P. 80m2, tt cft, petits travaux, 24. ASSAS LUXEMBOURG, 3P. 60m2 s/arbres, imm.
270.000 €. caractère, 295.000 €.
25. SUR JARDINS OBSERVATOIRE, 140m2, grand 26. RUE DE SAVOIE, 4e ét., Studio 20m2, dche,
charme, 990.000 €. 85.000 €. crédit possible.
27. PRES LUXEMBOURG, Bel imm., pierre de taille, 28. Mo GOBELINS, studio, cuis., s. de bains, 28m2,
Appartement 100m2, salon, sal. à manger, calme. Prix 85.000 €.
2 chbres, office, cuis., bains, chf. cent., asc.,
prix : 495.000 €.

31
Prix (en
milliers
Localisation Surface d'euros) 1600
1 censier 28 130 16
2 contrescarpe 50 280
3 rue saint-simon 106 650 1400
4 rapp 196 800
5 saint-andré des arts 55 268 1200
6 5-ième, près quais 190 790
7 gobelins 110 500 25
1000 18
8 gobelins 60 320
9 censier 48 250
64
10 panthéon 35 250 800

Prix (en milliers d'euros)


11 rue madame 86 350 3
12 rue de seine 65 300
600
13 panthéon 32 155 27 7
14 sèvres-babylone 52 245
15 19 21
11
montparnasse 40 200 400 8 17
16 rue d'assas 260 1500 252412 23
10 914
17 saint-germain 70 325 15 22
18 ile saint-louis 117 950
200 113
2628
20
19 jussieu 90 378
0
20 quartier-latin 30 78
21 montparnasse 105 375 0 100 200 300
22 rue mazarine 52 200
23 censier 80 270 Surface
24 assas luxembourg 60 295
25 jardins de l'observatoire 140 990
26 rue de savoie 20 85
27 près luxembourg 100 495
28 gobelins 28 85

32
Identification des outliers
au niveau du Prix au mètre carré
9000

8000 Ile saint-louis

Panthéon (10)
7000 Jardins de l'observatoire

6000

5000

4000

3000

2000
N= 28

Prix du mètre carré

33
La droite des moindres carrés

1600
16

1400

1200

25
1000 18

64
800
3

600
27 7

1119 21
400 81217
2 24 23
10 9145
15 22
200 113
2628
20
0
0 100 200 300

Surface

34
Résultats SPSS

Coefficientsa

Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) -29.466 41.246 -.714 .481
Surface 5.353 .414 .930 12.931 .000
a. Dependent Variable: Prix (en milliers d'euros)

ANOVAb

Sum of
Model Squares df Mean Square F Sig.
1 Regression 2527208 1 2527207.505 167.210 .000a
Residual 392963.2 26 15113.970
Total 2920171 27
a. Predictors: (Constant), Surface
b. Dependent Variable: Prix (en milliers d'euros)

35
Résultats SPSS
Résidu Prix Valeur
Numéro standardisé (en milliers €) prédite Résidu
1 0.078 130 120.42 9.58
2 0.340 280 238.19 41.81
3 0.911 650 537.97 112.03
4 -1.788 800 1019.75 -219.75
5 0.025 268 264.96 3.04
6 -1.608 790 987.64 -197.64
7
8
-0.483
0.230
500
320
559.38
291.72
-59.38
28.28
Modèle :
9 0.183 250 227.49 22.51 Prix calculé
10 0.749 250 157.89 92.11
11 -0.658 350 430.91 -80.91 = -29.466 + 5.353 Surface
12 -0.150 300 318.49 -18.49
13 0.107 155 141.84 13.16
14 -0.032 245 248.90 -3.90
15 0.125 200 184.66 15.34
16 1.120 1500 1362.36 137.64
n

 i  392963.2
17 -0.165 325 345.26 -20.26
2
18
19
2.873
-0.605
950
378
596.85
452.32
353.15
-74.32
e
20 -0.432 78 131.13 -53.13 i 1
21 -1.282 375 532.62 -157.62
22 -0.398 200 248.90 -48.90
23 -1.048 270 398.79 -128.79
24 0.027 295 291.72 3.28
25 2.196 990 719.98 270.02
26 0.060 85 77.60 7.40
27 -0.088 495 505.85 -10.85
28 -0.288 85 120.42 -35.42

36
Coefficient de détermination R2,
Coefficient de corrélation R
A) Formule de décomposition

 ( yi  y)   ( ŷi  y)   ei
2 2 2

Somme des Somme des Somme des


carrés totale carrés expliquée carrés
(Total Sum of (Regression Sum of résiduelle
Squares) Squares) (Residual Sum of
Squares)
 i
( ŷ  y ) 2
C) R = signe(
â )R 2
B) R2 =
 i
( y  y ) 2

37
Résultats SPSS

Model Summary

Adjusted Std. Error of


Model R R Square R Square the Estimate
1 .930a .865 .860 122.939
a. Predictors: (Constant), Surf ace
|R|
l a

R
0 R
S
P
*
0 S
8 N
*
C
(

38
Le R2 mesure la force de la liaison linéaire entre X et Y

1) 0  R2  1

3) R2 = 0
2) R2 = 1
Y
Y * *
* * * *
* y *
* * *
* * *
* *
*
X
X
39
Le R2 mesure la force de la liaison linéaire entre X
et Y

120

100 Modèle non linéaire:


Y = aX2 + bX
80

60

40

20

0 Rsq = 0.0000
Y

-20 -10 0 10 20

40
La corrélation R mesure la force et
le sens de la liaison linéaire entre X et Y

Y Y
* * *
* * **
* * *
* * *
*
X X
aˆ  0 aˆ  0
R0 R0
41
Exemple de corrélation
non significative

l
9000 a
18
F
8000
9 P
P
10 25
97000
S
8 N
3
6000 16
2

15
9
8 On a 30,9 chances sur 100 de
13 524 27
5000 1 14 12
17 7 se tromper en affirmant qu’il
26 19 64
4000 22
11
21
existe une liaison linéaire entre
28
23
le prix au m2 et la surface.
3000
20

2000 Rsq = 0.0397


On considère donc que la
0 100 200 300 corrélation (.199) entre le prix
Surface au m2 et la surface n’est pas
significative.
En rouge la droite des moindres carrés,
en bleu la droite y = prix au m2 moyen

42
Le modèle statistique de la régression simple

• Chaque valeur observée yi est considérée comme une


réalisation d’une variable aléatoire Yi définie par :

Yi = axi + b + i

où i est un terme aléatoire suivant une loi normale


N(0, ).

• On suppose que les les aléas i sont indépendants les uns des
autres.

43
Le modèle de la régression simple

Modèle : Y = aX + b +  , avec   N(0, )

Y y = ax + b
Loi de Y x + 1.96
*
x= ax+b
95% des
x - 1.96
valeurs de Y
*

x X

44
Estimation de a, b et 

• Estimation de a et b :
aˆ  estimation de a
bˆ  estimation de b
• Estimation de  :

1 n 2
ˆ 
2
i
n  2 i 1
e  estimation de  2

ˆ  ˆ 2  estimation de 

45
Prévision de Y

 Modèle : Y = aX + b +  , avec   N(0, )


x= E(Y | X = x) = ax + b

 Problème 1 : Calculer une estimation et un intervalle de


confiance au niveau de confiance 95 % de la moyenne x de
Y lorsque X est fixé à x.

 Soit y une future valeur de Y pour X fixé à x.


 Problème 2 : Calculer une prévision et un intervalle
contenant 95 % des futures valeurs de Y lorsque X est fixé
à x.

46
Résultat pour x
• Estimation de x = E(Y | X=x) :

ˆ  bˆ
ˆ x  ax
• Intervalle de confiance de x au niveau 95 % :

1 (x  x) 2
yˆ  t 0.975 (n  2)  
ˆ  n
n  (x i  x) 2
i 1

ˆ
Formule approchée : ŷ  2
n

47
Résultats SPSS
Prix INF95% SUP95% INF95% SUP95%
Numéro Localisation Surface (en milliers €) Prédiction Moyenne Moyenne Individu Individu
1 censier 28 130 120.42 53.96 186.89 -140.88 381.72
2 contrescarpe 50 280 238.19 183.08 293.30 -20.45 496.84
3 rue saint-simon 106 650 537.97 486.14 589.80 280.00 795.94
4 rapp 196 800 1019.75 911.87 1127.64 744.99 1294.52
5 saint-andré des arts 55 268 264.96 211.84 318.07 6.73 523.18
6 5-ième, près quais 190 790 987.64 884.31 1090.96 714.62 1260.65
7 gobelins 110 500 559.38 506.13 612.63 301.13 817.64
8 gobelins 60 320 291.72 240.33 343.12 33.85 549.60
9 censier 48 250 227.49 171.51 283.47 -31.34 486.32
10 panthéon 35 250 157.89 95.43 220.36 -102.42 418.21
11 rue madame 86 350 430.91 383.05 478.77 173.71 688.10
12 rue de seine 65 300 318.49 268.51 368.47 60.89 576.09
13 panthéon 32 155 141.84 77.69 205.98 -118.88 402.55
14 sèvres-babylone 52 245 248.90 194.62 303.18 -9.57 507.37
15 montparnasse 40 200 184.66 124.85 244.47 -75.03 444.35
16 rue d'assas 260 1500 1362.36 1203.80 1520.91 1064.03 1660.69
17 saint-germain 70 325 345.26 296.36 394.15 87.86 602.65
18 ile saint-louis 117 950 596.85 540.72 652.99 337.99 855.72
19 jussieu 90 378 452.32 404.12 500.52 195.06 709.58
20 quartier-latin 30 78 131.13 65.84 196.42 -129.87 392.13
21 montparnasse 105 375 532.62 481.11 584.12 274.72 790.52
22 rue mazarine 52 200 248.90 194.62 303.18 -9.57 507.37
23 censier 80 270 398.79 350.99 446.58 141.60 655.97
24 assas luxembourg 60 295 291.72 240.33 343.12 33.85 549.60
25 jardins de l'observatoire 140 990 719.98 651.50 788.46 458.16 981.80
26 rue de savoie 20 85 77.60 6.23 148.96 -184.99 340.19
27 près luxembourg 100 495 505.85 455.78 555.92 248.23 763.47
28 gobelins 28 85 120.42 53.96 186.89 -140.88 381.72

48
Résultat graphique pour
les intervalles de confiance
Prix vs Surface (28 obs.) : Intervalle de confiance à 95%

1600

1400

1200

1000

800

600

400

200
Prix

0
0 100 200 300

Surface

49
Intervalle de confiance de la moyenne
x = ax + b pour une liaison non significative

9000

8000

7000

6000

5000

y 4000
Prix au m2

3000

2000
0 100 200 300

Surface

La droite y = y appartient à la zone de confiance des Y moyens


Donc la liaison entre Y et X n’est pas significative.

50
Résultat pour y
• Prévision de y pour x fixé :

yˆ  aˆx  bˆ
• Intervalle de prévision de y à 95 % pour x fixé :

1 ( x  x )2
yˆ  t0.975 (n  2)  ˆ  1   n
n  ( xi  x ) 2
i 1

Formule approchée : ŷ  2ˆ

51
• Pour une valeur x fixée de X
x=ax+b est le modèle théorique

– ˆ  bˆ:
ˆ x  ax

» Estime x
» Sert à prédire Y lorsque X=x (modèle
empirique)

52
Résultat graphique pour
les intervalles de prévision

Intervalle de prévision individuelle à 95%


1600

1400 Observations
atypiques
1200

Jardins de l‘Observatoire
1000
Prix (en milliers d‘Euros)

Ile Saint-louis

800

600

400

200

0
0 100 200 300

Surface

53
Observation atypique
• Une observation est atypique (outlier) si elle n’appartient pas à son
propre intervalle de prévision :

1 (x  x)2
y  [ ŷ  t 0.975 (n  2)  ˆ  1   n ]
n i 1 ( x i  x ) 2

• En utilisant la formule approchée :

y  [ ŷ  2ˆ ] soit e  y  ŷ  2ˆ


• Conclusion : Une observation i est un outlier si son résidu
standardisé eiest supérieur à 2 en valeur absolue.(généralement
̂
éliminée pour rendre la prévision plus opérationnelle)

54
Résultats SPSS
Prix Résidu INF 95% SUP 95%
NUMERO Surface Prédiction Résidu
(en milliers d’€) standardisé Individuel Individuel
1 28 130 120.42 9.58 0.08 -140.88 381.72
2 50 280 238.19 41.81 0.34 -20.45 496.84
3 106 650 537.97 112.03 0.91 280.00 795.94
4 196 800 1019.75 -219.75 -1.79 744.99 1294.52
5 55 268 264.96 3.04 0.02 6.73 523.18
6 190 790 987.64 -197.64 -1.61 714.62 1260.65
7 110 500 559.38 -59.38 -0.48 301.13 817.64
8 60 320 291.72 28.28 0.23 33.85 549.60
9 48 250 227.49 22.51 0.18 -31.34 486.32
10 35 250 157.89 92.11 0.75 -102.42 418.21
11 86 350 430.91 -80.91 -0.66 173.71 688.10
12 65 300 318.49 -18.49 -0.15 60.89 576.09
13 32 155 141.84 13.16 0.11 -118.88 402.55
14 52 245 248.90 -3.90 -0.03 -9.57 507.37
15 40 200 184.66 15.34 0.12 -75.03 444.35
16 260 1500 1362.36 137.64 1.12 1064.03 1660.69
17 70 325 345.26 -20.26 -0.16 87.86 602.65
18 117 950 596.85 353.15 2.87 337.99 855.72
19 90 378 452.32 -74.32 -0.60 195.06 709.58
20 30 78 131.13 -53.13 -0.43 -129.87 392.13
21 105 375 532.62 -157.62 -1.28 274.72 790.52
22 52 200 248.90 -48.90 -0.40 -9.57 507.37
23 80 270 398.79 -128.79 -1.05 141.60 655.97
24 60 295 291.72 3.28 0.03 33.85 549.60
25 140 990 719.98 270.02 2.20 458.16 981.80
26 20 85 77.60 7.40 0.06 -184.99 340.19
27 100 495 505.85 -10.85 -0.09 248.23 763.47
28 28 85 120.42 -35.42 -0.29 -140.88 381.72

55

Vous aimerez peut-être aussi