Vous êtes sur la page 1sur 63

Techniques quantitatives - Programme

statistique descriptive loi normale autres lois usuelles (Bernoulli, binomiale, Poisson) distribution dchantillonnage tests de comparaison (de moyennes, de proportions, du ) analyse de variance ( 1 et plusieurs facteurs) corrlation & rgressions (simple et multiple) 9 x 3h de (cours + TD) : J. LEVEQUE (jleveque@let.ish-lyon.cnrs.fr) bibliographie : V. Giard : Statistiques appliques la gestion, Economica (8me dition) 1

Statistique descriptive : gnralits


Objectif : Mettre en regard des donnes les unes par rapport aux autres Dfinitions : population : ensemble tudi individus : composants de la population (personnes, dplacements) caractre : proprit des individus - qualitatif = non mesurable (couleur, mode de transport...) - quantitatif = mesurable par une variable statistique discrte (ge en annes, dure en heures du dplacement) continue (ge en secondes, dure en secondes du dplacement) distribution : rpartition des individus dune population vis-vis dun caractre donn 2

Statistique descriptive : la synthse par graphiques


caractre qualitatif : diagramme secteurs ou en barres
rpartition des parts de march entre 3 concurrents au 1er trimestre
rpartition des parts de march entre 3 concurrents (par trimestre)
100% 90%

21%

80% 70% 60%

47%

50% 40% 30% 20%

32%

10% 0% 1er trim. 2e trim. 3e trim. 4e trim.

produit 1

produit 2

produit 3

produit 1

produit 2

produit 3

Statistique descriptive : la synthse par graphiques


caractre quantitatif, variable discrte : diagramme en barres chelle en effectifs ou en frquence
nombre d'articles achets par 300 clients
160 140 120 100 80 60 40 20 0

rpartition du nombre d'articles achets par 300 clients 50% 45% 40% 35% 30% 25% 20% 15% 10% 5% 0%
e es es es

ar tic le s

ar tic le s

ar tic le s

ar tic le s

ar tic le s

ar ti c le

rt i cl

rti cl

rti cl

1a

ar tic l

5a

rti cl

3a

4a

6a

rti cl

es

es

Statistique descriptive : la synthse par graphiques


caractre quantitatif, variable continue : histogramme, nuage de points, courbe(s), aires
rpartition des achats dans un magasin en fonction du montant

moyenne

mode

15

25

mdiane

35

Statistique descriptive : la synthse par paramtres


caractres qualitatifs : frquence de la modalit i : f i = caractres quantitatifs : - paramtres de tendance centrale : n xj moyenne : x = j=1 sous XL : =MOYENNE(A1:A150) n mdiane : valeur intermdiaire sous XL : =MEDIANE (A1:A150) mode : valeur la plus souvent prise par une variable sous XL : =MODE(A1:A150)
6

ni n

Statistique descriptive : la synthse par paramtres


caractres quantitatifs : - paramtres de tendance centrale - paramtres de dispersion : variance : =

(x
j=1

x )

sous XL : =VAR.P(A1:A150)

cart-type () sous XL : =ECARTYPEP(A1:A150)

- coefficient de variation : (de prfrence faible) x


des rsultats directement intelligibles, permettant une 1re approche dun ensemble de donnes
7

Loi normale : prsentation


Une loi largement suivie : lorsque la valeur des variables est affecte par un trs grand nombre de causes indpendantes, effet additif, chacune ayant un effet ngligeable par rapport lensemble des autres. Ex : dure de vie de composants moyenne dun chantillon, quelle quen soit la distribution une bonne approximation de lois de distribution de variables discrtes (binmiale, Poisson)
8

Loi normale : dfinitions


Dfinition par les paramtres : x; N( x; )
xx /2
2

1 .e Densit de probabilit : f ( x ) = 2

quelques densits de probabilit de lois normales


0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 -3

N(1,5;0,5)

N(0;1)

N(6;1) N(7;2)

-2

-1

10

11
9

Loi normale : dfinitions


xx forme centre-rduite : N(0,1) suivie par t =
densit de probabilit et fonction de rpartition de la loi normale centre-rduite
1 0,8 0,6 0,4 0,2 0
1 -3 -1 1, 8 2, 2 0, 2 0, 6 -1 ,4 -2 ,6 -2 ,2 -1 ,8 -0 ,2 -0 ,6 1, 4 2, 6 3
10

Loi normale : proprits


moyenne = mdiane = mode la somme de variables alatoires indpendantes qui suivent 2 N ( x1 , 1 ) et N ( x 2 , 2 ) suit N( x1 + x 2 , 1 + 2 ) 2 quelques grandeurs utiles connatre :
densit de probabilit de la loi normale centre-rduite
0,5 0,4 0,3 0,2
68 % 50 %

0,1 0
-3 -1 -2 ,6 -2 ,2 -1 ,8 -1 ,4 -0 ,6

95 %
0, 2 1, 8 -0 ,2 2, 2 2, 6 0, 6 1, 4

-1,96

-1 -2/3

2/3

1,96

11

Loi normale : calcul de probabilit


la main : utilisation des tables et de la symtrie (cf ph.) si t > 0, la table donne les valeurs de P (T < t) si t < 0, P (T < t) = 1-P (T < |t|) et, dans tous les cas, P (T > t) = 1-P (T < t) P (T t) = P (T < t) et P (T t) = P (T > t) P (t1 < T < t2) = P (T < t2) - P (T < t1) sous XL : P(X < x ) = LOI.NORMALE( x; X; ; VRAI) et inversement :

x = LOI.NORMALE.INVERSE(P(X < x); X; )

12

Lois usuelles de distributions discrtes : loi de Bernoulli


Processus de Bernoulli : 2 rsultats possibles chaque preuve : succs (1) ou chec (0) le rsultat de chaque preuve est indpendant du prcdent la probabilit de succs (p) est constante au cours du processus Rsultats : P(X = x) = px.q(1-x) (avec q = 1-p) x =p = p.q
13

Lois usuelles de distributions discrtes : loi binomiale


Applications : lorsquon sintresse au nombre de succs (k) pouvant apparatre au cours dun processus de Bernoulli de n preuves probabilit dachat sur n clients ventuels, de paiement de n factures, Rsultats : P(X = k) = C x = n.p = n.p.q = n.p.(1-p) la somme de variables suivant B(n1,p) et B(n2,p) suit B(n1+n2,p)
14

k k (n-k) = n p .q

n! pk.(1-p)(n-k) k!(n k )!

Lois usuelles de distributions discrtes : loi binomiale


P(X=k) 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 0 1 2 3 k 4 5 6 7 distribution suivant B(7;0,3)

sous XL : P(X = k) =LOI.BINOMIALE(k;n;p;FAUX) P(X < k) =LOI.BINOMIALE(k-1;n;p;VRAI) et k / P(X k) > a =CRITERE.LOI.BINOMIALE(n;p;a)


15

Lois usuelles de distributions discrtes : loi de Poisson


Applications : rpartition dans des tranches gales de temps dvnements survenant au hasard dans le temps. probabilits darrives (de camions, clients, appels), daccidents, de pannes de machine, etc... Rsultats :

P(X = k ) = e
x= =

k k!

la somme de variables suivant P(1) et P(2) indpendantes 16 suit P(1+2)

Lois usuelles de distributions discrtes : loi de Poisson


P(X=k) 0,3 0,25 0,2 0,15 0,1 0,05 0 0 1 2 3 4 5 k 6 7 8 9 10 11 distribution suivant P(3)

sous XL : P(X = k) =LOI.POISSON(k;;FAUX) P(X < k) =LOI.POISSON(k-1;;VRAI)


17

Lois usuelles de distributions discrtes : loi de Poisson BONUS

reconnaissance empirique dune distribution de Poisson :

x = =
P(X = k ) = P(X = k 1) k

18

Lois usuelles de distributions discrtes : approximations : binomiale en Poisson


Conditions dapproximation : n grand (> 30 - 40) et p (ou q) petit (< 0,1 - 0,15) pour p petit, B(n,p) => P( = n.p)
approximation de B(30;0,1) par P(3)
0,25 0,2 0,15 0,1 0,05 0 0 2 4 6 8 10 binomiale(30;0,1) Poisson(3)

19

Lois usuelles de distributions discrtes : approximations : Poisson en normale


Condition dapproximation : grand (> 20)
P ( ) N ( , )
approximation d'une loi de Poisson par une loi normale
0,1 0,08 0,06 0,04 0,02 0 0 10 20 30 40 loi normale (20;20^0,5) Poisson (20)

20

Lois usuelles de distributions discrtes : approximations : binomiale en normale


Conditions dapproximation : n grand (> 30) et p moyen ([0,2 ; 0,8])
B(n , p) N(n.p, n.p.(1 p) )
approximation de B(30;0,3) par N(9;6,3^0,5)
0,18 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 0 5 10 15 20

loi normale (9;6,3^0,5) loi binomiale (30;0,3)

21

Lois usuelles de distributions discrtes : approximations : calcul de P(X = x) en loi normale BONUS
pour X valeurs entires, P(X = x) est approxime par le rectangle dintgration de la fonction de densit autour de x (intervalle [x - 0.5 ; x + 0.5]) :
P(X = x ) P(X = x + 0,5) P(X = x 0,5)

sous XL : P( X = x ) = LOI.NORMALE( x; x; ; FAUX) on calcule P(X<x) avec correction de continuit :

x 0,5 x P ( X < x ) P T <


22

Distribution dchantillonnage : introduction lestimation ponctuelle


Notion destimateur n (de ) sans biais : E ( n ) =
caractre qualitatif : estimateur de la proportion : frquence du tirage caractre quantitatif :

ni n

1 n estimateur de la moyenne : moyenne de lchantillon : X i n i =1 n 1 n 2 2 estimateur de la variance : 2 = n (X i X) = n 1 n n 1 i =1 sous XL : =VAR(A2:A101) et aussi =ECARTYPE(A2:A101)
23

Distribution dchantillonnage : introduction aux intervalles de confiance : exemple 1


Exemple : on veut vrifier que le taux T de factures mises, rgles en retard est toujours de 10 %. On effectue un test sur un chantillon alatoire de n = 900 factures ; on trouve t0,1, mais t0,1. Il faut savoir si cet cart la valeur attendue est significatif ou non. 0,1x 0,9 t B(900;0,1) N (0,1; ) = N (0,1;0,01) 900 Vrifions que la valeur de t observe appartient un intervalle de confiance 95 %
0,45 0,4

LOI.NORMALE.INVERSE(0,025;0,1;0,01) =0,0804 LOI.NORMALE.INVERSE(0,975;0,1;0,01) =0,1196

0,35 0,3 0,25 0,2 0,15 0,1 0,05 0

2,5 % 95% 0,0804

2,5 % 0,1196 t 24

Distribution dchantillonnage : introduction aux intervalles de confiance : exemple 1


La fourchette des frquences comprises entre 8 % et 12 % est appele intervalle de confiance 95 %. Les ensembles de valeurs extrieures sont les rgions critiques 95% est le coefficient de confiance. Si t [8 % ; 12 %], il faut rejeter lhypothse suivant laquelle T = 10%. Mais ce rejet peut tre effectu tort dans 5% des cas. Ces 5 % (=100-95%) correspondent au risque de 1re espce. Le risque de 2nde espce est dfini dans le cas o lobservation de t nous conduit confirmer T = 10 % tort.

25

Distribution dchantillonnage : introduction aux intervalles de confiance : exemple 1


Sous XL : =CRITERE.LOI.BINOMIALE(900;0,1;0,025) donne 73 (car P(X 73) 0,025 ) de mme, =CRITERE.LOI.BINOMIALE(900;0,1;0,975) donne 108 (car P( X > 108) 0,025 ) Ainsi, si lon a moins de 73 factures (sur 900) qui ont t rgles en retard, T est sans doute infrieur 10 %. Si on a plus de 108 factures rgles en retard, T est probablement suprieur 10 %. Si on a entre 73 et 108 factures rgles en retard, suivant la valeur observe, il est plus ou moins probable que T = 10 %.

26

Distribution dchantillonnage : introduction aux intervalles de confiance : exemple 1


0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0

2,5 % 95% 0,0804

2,5 %

0,1196

Si t [8,04 % ; 11,96 %], Si t [8,04 % ; 11,96 %], rejet de lhypothse H0, mais confirmation de lhypothse H0, risque (de 1re espce = 5 %) mais risque (de 2nde espce) de rejeter tort daccepter tort
27

Distribution dchantillonnage : introduction aux intervalles de confiance : exemple 2


On veut vrifier que lchantillon prcdent est reprsentatif en comparant le montant moyen observ m des 900 factures au montant moyen thorique qui suit N(5000 ; 2000). 2000 ) = N(5000;66,67) m N(5000; 900 Avec un risque de 1re espce de 5 %, on a lintervalle de confiance [4869 ; 5131] qui indique suivant la position relative de m si notre chantillon est reprsentatif ou non (avec une certaine erreur). =5000-INTERVALLE.CONFIANCE(0,05;2000;900) 28 =5000+INTERVALLE.CONFIANCE(0,05;2000;900)
Sous XL:

Distribution dchantillonnage : introduction aux intervalles de confiance


Rcapitulatif de la dmarche :
Dcision H0 est retenue Choix correct H0 (m=5000) Ralit Choix erron H1 (m5000) (erreur de 2nde espce) avec une probabilit Choix correct avec une probabilit (1-)
29

H0 est rejete au profit de H1 Choix erron (erreur de 1re espce) avec une probabilit

avec une probabilit (1-)

Distribution dchantillonnage : estimation par intervalle de confiance dune moyenne


On veut dterminer lintervalle de confiance de la moyenne dun caractre dune population-mre, connaissant celle dun chantillon (projection de rsultats aprs un test/sondage).
effectif moyenne cart-type population-mre N = 6725 M=? = 900 chantillon n = 100 mn = 3200 s = 1200
2

Nn * *2 m n N (M ; ) avec = . N 1 n Pour n = 100, * 90.

30

Distribution dchantillonnage : estimation par intervalle de confiance dune moyenne


On cherche les valeurs possibles de M qui laissent 95 % de chance dobserver dans lchantillon la valeur 3200.
sous XL, =3200INTERVALLE.CONFIANCE(0,05;900;100)

donne 3024<M<3376.
M 176 Prcision relative de lestimation : = = 5,5% fonction M 3200

Prcision absolue de lestimation : M = 176

du coefficient de confiance et de la taille de lchantillon.

Lestimation ponctuelle M = 3200 est connue avec une prcision qui a 95 % de chance dtre meilleure que 5,5 %. 31

Tests de choix entre deux proportions : prsentation du problme (taux de factures rgles en retard)
2 hypothses sur la proportion p nous amnent rsoudre un double problme de distribution dchantillonnage : H0 : population-mre caractrise par p0 = 0,10 0,10 0,90 * fn suit la loi N(p 0 ; 0 ) = N 0,10; n H1 : population-mre caractrise par p1 = 0,15 0,15 0,85 * fn suit la loi N(p1 ; 1 ) = N 0,15; n les paramtres : effectif de lchantillon : n risque de 1re espce : risque de 2nde espce : 32 valeur critique servant de rgle de dcision :

Tests de choix entre deux proportions : dtermination du problme


2 quations ramnent le problme fixer 2 paramtres : - 0,10 = t Si H 0 est vraie, 0,10 0,90 n - 0,15 = t Si H1 est vraie, 0,15 0,85 n choix des 2 inconnues du problme : n et (ou ) connus (fixs) => et (ou ) dterminer et (ou ) connus (fixs) => n et (ou ) dterminer n et connus (fixs) => et dterminer et connus (fixs) => et n dterminer
33

Tests de choix entre deux proportions : rsolution du problme (n, ) pour (, ) fixs
= 2,5 % (classique), = 0,54 % (impact financier suprieur) - 0,10 Si H 0 est vraie, t = 1,96 = 0,10 0,90 n - 0,15 Si H1 est vraie, t = 2,55 = 0,15 0,85 n en divisant membre membre, on calcule (= 0,1196), et n (= 900) partir de la valeur de et une des deux quations
34

Tests de choix entre deux proportions : dcision finale


Dcision suivant la valeur de f observe sur un chantillon de 900 factures f < 0,1196 => H0 est retenue Choix correct H0 (p = 0,10) Ralit Choix erron H1 (p = 0,15) (erreur de 2nde espce) avec une probabilit = 0,0054 Choix correct avec une probabilit (1-) = 0,9946 avec une probabilit (1-) = 0,975 f > 0,1196 => H0 est rejete au profit de H1 Choix erron (erreur de 1re espce) avec une probabilit = 0,025

35

Tests de choix entre deux moyennes : prsentation du problme (montant moyen des factures)
2 hypothses sur la moyenne M nous amnent rsoudre un double problme de distribution dchantillonnage : H0 : population-mre caractrise par M0 = 5000 et 0* = 2000 2000 m n N 5000; n H1 : population-mre caractrise par M1 = 5500 et 1* = 2100

2100 m n N 5500; n
on retrouve les mmes paramtres : n, , et
36

Tests de choix entre deux moyennes : dtermination du problme


2 quations ramnent le problme fixer 2 paramtres : - 5000 Si H 0 est vraie, 2000 = t

n - 5500 = t Si H1 est vraie, 2100 n choix des 2 inconnues du problme :


n et (ou ) connus (fixs) => et (ou ) dterminer et (ou ) connus (fixs) => n et (ou ) dterminer n et connus (fixs) => et dterminer et connus (fixs) => et n dterminer
37

Tests de choix entre deux moyennes : rsolution du problme (n, ) pour (, ) fixs
= 20 %, = 10 % (impact moindre)

- 5000 Si H 0 est vraie, t = 1,2816 = 2000 n - 5500 Si H1 est vraie, t = 0,8416 = 2100 n
en divisant membre membre, on calcule (= 5296), et n (= 75) partir de la valeur de et une des deux quations
38

Tests de choix entre deux moyennes : dcision finale


Dcision suivant la valeur de m observe sur un chantillon de 75 factures m < 5296 => H0 est retenue H0 (m = 5000 et = 2000) Ralit H1 (m = 5500 et = 2100) Choix erron (erreur de 2nde espce) avec une probabilit = 0,20 Choix correct avec une probabilit (1-) = 0,80 Choix correct avec une probabilit (1-) = 0,90 m > 5296 => H0 est rejete au profit de H1 Choix erron (erreur de 1re espce) avec une probabilit = 0,10

39

Test du : indpendance entre variables qualitatives : dmarche


Comparaison dune distribution de population suivant les modalits de 2 caractres qualitatifs, avec la distribution de la mme population, vis--vis des mmes modalits des mmes caractres supposs indpendants. Exemple :
Rpartition des chques selon leur valeur faible ville1 Rpartition des chques selon la place bancaire de compensation ville2 autres total moyen lev total

27 33 103 163

189 124 309 622

54 23 38 115

270 180 450 900


40

Test du : indpendance entre variables qualitatives : exemple


indpendance en probabilit : P E i et E j = P(E i ).P E j 163 270 . = 0,0543 = p1 Exemple : P(faible et ville1) = 900 900 leffectif de cet vnement est lesprance de B(900 ; 0,0543) soit np1 = 48,9 Rpartition des chques selon leur valeur
faible ville1 Rpartition des chques selon la place bancaire de compensation ville2 autres total moyen lev total

( )

27=>49

n2 =>np2 n3 =>np3

270 180 450 900


41

n4 =>np4 n5 =>np5 n6 =>np6 n7 =>np7 n8 =>np8 n9 =>np9 163 622 115

Test du : indpendance entre variables qualitatives : calcul


2 indicateur de proximit : cal = r

(n i n.pi )2
n.p i

i =1

2 2 Si cal < , on conserve lhypothse dindpendance H0

sinon, on rejette H0 : les caractres sont corrls.


2 est dfini par le risque de 1re espce, , et par le nombre de degrs de libert, (= (nbclassesi-1).(nbclassesj-1), ici) On le trouve dans des tables (cf photocopie) ou sous XL : =KHIDEUX.INVERSE(;)

=LOI.KHIDEUX(cal;) indique directement la probabilit 2 de dpasser cal: , ce qui vite davoir dterminer ce risque

42

Test du : indpendance entre variables qualitatives : calcul


Sous XL, une fonction peut raliser lensemble du test : =TEST.KHIDEUX(A1:C3;E1:G3) renvoie directement la probabilit que H0 soit vraie avec dans les cellules A1:C3 les donnes relles observes (ni) et dans les cellules E1:G3 les effectifs thoriques (n.pi)
2 cela permet dviter le calcul de cal

43

Test du : remarques
2 influence de la taille de lchantillon : cal est proportionnel n Il est donc plus facile daccepter H0 avec un petit chantillon.

effectif minimal de 5 individus pour chaque classe de la distribution thorique. Si tel nest pas le cas, procder des regroupement de modalits. dpend du nombre de classes pour chaque caractre => Attention aux comparaisons : tels caractres sont plus corrls que tels autres !!!
44

Test du : adquation de variables quantitatives discrtes une loi thorique


Mme dmarche applique chaque valeur ou groupe de valeurs de la variable, considrs comme des classes dune variable qualitative. Les effectifs thoriques (n.pi) sont calculs partir de la distribution thorique dont on veut vrifier ladquation. Nombre de degrs de libert : si le paramtre de la loi thorique est fix exognement, = nb classes 1 si k paramtre(s) de la loi thorique est(sont) obtenu(s) par estimation, = nb classes 1 k 45

Test du : adquation de variables quantitatives continues une loi thorique


Mme dmarche applique chaque intervalle de valeurs de la variable (souvent deffectifs gaux : dciles, etc), considrs comme des classes dune variable qualitative. Les effectifs thoriques (n.pi) sont calculs partir de la distribution thorique dont on veut vrifier ladquation. Nombre de degrs de libert : si le paramtre de la loi thorique est fix exognement, = nb classes 1 si k paramtre(s) de la loi thorique est(sont) obtenu(s) par estimation, = nb classes 1 k 46

Analyse de variance : introduction


Lanalyse de variance permet dtudier limpact de variables explicatives qualitatives sur une variable quantitative expliquer. Lanalyse de variance dtermine si la distribution de la population parmi les modalits de la variable explicative contribue rendre compte de la distribution de la variable expliquer. On quantifie le taux dexplication laide de lindicateur : pourcentage de variance explique.
47

Analyse de variance : exemple


variable explicative qualitative : hypermarch proximit variable quantitative expliquer : frquentation du magasin
i 1 2 3 4 5 6 7 8 chantillon j = 1 pas dhypermarch proximit 352 650 541 359 620 468 531 419 chantillon j = 2 hypermarch proximit 223 312 264 465 196 231 276 322
48

Analyse de variance : principe (BONUS)


On estime la variance de la distribution de la variable expliquer (quantitative) de 2 faons : partir de la variance de chaque chantillon j (intra-classe)

SCE int = = nk nk partir des moyennes des chantillons j (entre classes) 2 int
j=1i =1

(x ij x. j )2
(

k nj

2 ext

j=1

n j x . j x .. k 1

)2

SCE ext = k 1

49

Analyse de variance : principe (BONUS)


Si les chantillons j sont composs alatoirement 2 2 (la variable qualitative nexplique alors rien) : ext int Si la variable qualitative explique en partie la distribution de la variable quantitative, ext int 2 2

tot On a, (n 1) 2 = SCE tot = SCE ext + SCE int


on dfinit le pourcentage de variance explique : sous XL :

SCE ext SCE tot

Outils

Utilitaire danalyse

Analyse de variance
50

Analyse de variance : gnralisation


XL fournit pour chaque rgression linaire faite avec Outils Utilitaire danalyse Rgression linaire, tot 2 2 2 , ext et int On peut alors retrouver le pourcentage de variance explique par la rgression : r. On peut effectuer des analyses de variance 2 facteurs (explicatifs) et plus suivant la mme logique.

51

Corrlation et rgression : introduction


Les techniques de rgression permettent dtudier la corrlation entre variables quantitatives. Exemple de rgression linaire simple :
ventes 70 65 60 55 50 45 40 35 30 25 20 4 6

yi = a.x i + b

10

12

14

16

18

20

publicit

52

Corrlation et rgression : mthode des moindres carrs - dfinitions


On calcule une estimation linaire des yi : yi = a.x i + b

On dfinit lcart rsiduel (ou rsidu) : ei = yi yi yi = a.x i + b + ei

a et b sont calculs de faon minimiser la somme des n carrs des carts rsiduels ei2
y = a.x + b est la droite de rgression linaire (ou droite des moindres carrs).
i =1

a et b sont les coefficients de rgression.


53

Corrlation et rgression : mthode des moindres carrs - calculs


1 n x i .y i x .y cov(X; Y) n i =1 = BONUS : a = 1 n 2 var(X) 2 xi x n i =1

Sous XL, si les donnes de Y sont dans les cellules A1 A5, celles de X dans les cellules B1 B5, on peut calculer : la pente a =PENTE(A1:A5;B1:B5) lordonne en X=0 b =ORDONNEE.ORIGINE(A1:A5;B1:B5)
54

Corrlation et rgression : interprtation des rsultats


Prvision : si la linarisation est de qualit et si la relation causale est plausible, la description permet la prvision. ! La validit de lapproximation linaire suppose la stabilit de lenvironnement et des acteurs. ! Demeurer proximit de la plage de valeurs tudis Interprtation des carts rsiduels ei : influence de facteurs explicatifs supplmentaires influence dlments imprvisibles (rsultats alatoire) erreur de mesure
55

Corrlation et rgression : qualit de la rgression : coefficient de dtermination


coefficient de dtermination :
var iance exp lique (cov(X; Y )) 2 r = = var iance totale var(X ). var(Y )
2

il dfinit le pourcentage de variance de Y explique par X. coefficient de corrlation : r sous XL : r =COEFFICIENT.DETERMINATION(A1:A5;B1:B5) r =COEFFICIENT.CORRELATION(A1:A5;B1:B5)
56

Corrlation et rgression : BONUS : remarques sur r et r


! r ou r lev (corrlation) nimplique pas forcment de causalit !! X et Y simultanment dtermins par une autre variable !! X et Y peuvent navoir aucune origine commune et, cependant tre statistiquement corrles. !! Si le coefficient de variation est trs lev, seule une variable X donnant un excellent r expliquera correctement Y.
57

Corrlation et rgression : qualit de la rgression : le jugement graphique


40 35 30 25 20 15 10 5 0 0 10 20 30 40 50 60 70 80

Cas acceptable

58

Corrlation et rgression : qualit de la rgression : le jugement graphique


60 50 40 30 20 10 0 0 10 20 30 40 50 60 70 80

Point excentr Rgression avec tous les points

Rgression sans le point extrieur

Point excentr, souvent d une erreur de relev de donnes Il faut le(s) supprimer dans la rgression !
59

Corrlation et rgression : qualit de la rgression : le jugement graphique


35 30 25 20 15 10 5 0 0 10 20 30 40 50 60 70 80

Erreur de spcification du modle : la relation entre X et Y nest pas linaire (en tous cas pas sur lintervalle entier) !
60

Corrlation et rgression : qualit de la rgression : le jugement graphique


40 35 30 25 20 15 10 5 0 0 10 20 30 40 50 60 70 80

Point tirant la droite

!! Liaison statistique douteuse : un seul point tire la droite accrotre les observations ; prudence dans linterprtation
61

Corrlation et rgression : extensions du modle linaire


yi = a. ln x i + b + ei le 1er cas correspond un phnomne temporel taux de croissance stable (consommation sur un secteur porteur )

Modles semi-logarithmiques :

ln yi = a.x i + b + ei

le 2nd cas traduit une influence dcroissante de Y sur X (tudie avec la notion dlasticit)
180000 160000 140000 120000 100000 80000 60000 40000 20000 0 0 1 2 3 4 5 6

Modle doublement logarithmique : ln yi = a. ln x i + b + ei

62

Corrlation et rgression : rgression multiple


Mme principe avec souvent des modles logarithmiques : lnY = a1lnX1 + a2lnX2 + a3lnX3 + a4lnX4 +b, soit : Y = eb.X1a .X2a .X3a .X4a g
1 2 3 4

ou lnY = a1X1 + a2X2 + a3X3 + a4X4 +b ou Y = a1X1 + a2X2 + a3X3 + a4X4 +b Mmes indicateurs de qualit, etc Sous XL :

Outils

Utilitaire danalyse

Rgression linaire
63

Vous aimerez peut-être aussi