Académique Documents
Professionnel Documents
Culture Documents
statistique descriptive loi normale autres lois usuelles (Bernoulli, binomiale, Poisson) distribution dchantillonnage tests de comparaison (de moyennes, de proportions, du ) analyse de variance ( 1 et plusieurs facteurs) corrlation & rgressions (simple et multiple) 9 x 3h de (cours + TD) : J. LEVEQUE (jleveque@let.ish-lyon.cnrs.fr) bibliographie : V. Giard : Statistiques appliques la gestion, Economica (8me dition) 1
21%
47%
32%
produit 1
produit 2
produit 3
produit 1
produit 2
produit 3
rpartition du nombre d'articles achets par 300 clients 50% 45% 40% 35% 30% 25% 20% 15% 10% 5% 0%
e es es es
ar tic le s
ar tic le s
ar tic le s
ar tic le s
ar tic le s
ar ti c le
rt i cl
rti cl
rti cl
1a
ar tic l
5a
rti cl
3a
4a
6a
rti cl
es
es
moyenne
mode
15
25
mdiane
35
ni n
(x
j=1
x )
sous XL : =VAR.P(A1:A150)
1 .e Densit de probabilit : f ( x ) = 2
N(1,5;0,5)
N(0;1)
N(6;1) N(7;2)
-2
-1
10
11
9
0,1 0
-3 -1 -2 ,6 -2 ,2 -1 ,8 -1 ,4 -0 ,6
95 %
0, 2 1, 8 -0 ,2 2, 2 2, 6 0, 6 1, 4
-1,96
-1 -2/3
2/3
1,96
11
12
k k (n-k) = n p .q
n! pk.(1-p)(n-k) k!(n k )!
P(X = k ) = e
x= =
k k!
x = =
P(X = k ) = P(X = k 1) k
18
19
20
21
Lois usuelles de distributions discrtes : approximations : calcul de P(X = x) en loi normale BONUS
pour X valeurs entires, P(X = x) est approxime par le rectangle dintgration de la fonction de densit autour de x (intervalle [x - 0.5 ; x + 0.5]) :
P(X = x ) P(X = x + 0,5) P(X = x 0,5)
ni n
1 n estimateur de la moyenne : moyenne de lchantillon : X i n i =1 n 1 n 2 2 estimateur de la variance : 2 = n (X i X) = n 1 n n 1 i =1 sous XL : =VAR(A2:A101) et aussi =ECARTYPE(A2:A101)
23
2,5 % 0,1196 t 24
25
26
2,5 %
0,1196
Si t [8,04 % ; 11,96 %], Si t [8,04 % ; 11,96 %], rejet de lhypothse H0, mais confirmation de lhypothse H0, risque (de 1re espce = 5 %) mais risque (de 2nde espce) de rejeter tort daccepter tort
27
H0 est rejete au profit de H1 Choix erron (erreur de 1re espce) avec une probabilit
30
donne 3024<M<3376.
M 176 Prcision relative de lestimation : = = 5,5% fonction M 3200
Lestimation ponctuelle M = 3200 est connue avec une prcision qui a 95 % de chance dtre meilleure que 5,5 %. 31
Tests de choix entre deux proportions : prsentation du problme (taux de factures rgles en retard)
2 hypothses sur la proportion p nous amnent rsoudre un double problme de distribution dchantillonnage : H0 : population-mre caractrise par p0 = 0,10 0,10 0,90 * fn suit la loi N(p 0 ; 0 ) = N 0,10; n H1 : population-mre caractrise par p1 = 0,15 0,15 0,85 * fn suit la loi N(p1 ; 1 ) = N 0,15; n les paramtres : effectif de lchantillon : n risque de 1re espce : risque de 2nde espce : 32 valeur critique servant de rgle de dcision :
Tests de choix entre deux proportions : rsolution du problme (n, ) pour (, ) fixs
= 2,5 % (classique), = 0,54 % (impact financier suprieur) - 0,10 Si H 0 est vraie, t = 1,96 = 0,10 0,90 n - 0,15 Si H1 est vraie, t = 2,55 = 0,15 0,85 n en divisant membre membre, on calcule (= 0,1196), et n (= 900) partir de la valeur de et une des deux quations
34
35
Tests de choix entre deux moyennes : prsentation du problme (montant moyen des factures)
2 hypothses sur la moyenne M nous amnent rsoudre un double problme de distribution dchantillonnage : H0 : population-mre caractrise par M0 = 5000 et 0* = 2000 2000 m n N 5000; n H1 : population-mre caractrise par M1 = 5500 et 1* = 2100
2100 m n N 5500; n
on retrouve les mmes paramtres : n, , et
36
Tests de choix entre deux moyennes : rsolution du problme (n, ) pour (, ) fixs
= 20 %, = 10 % (impact moindre)
- 5000 Si H 0 est vraie, t = 1,2816 = 2000 n - 5500 Si H1 est vraie, t = 0,8416 = 2100 n
en divisant membre membre, on calcule (= 5296), et n (= 75) partir de la valeur de et une des deux quations
38
39
27 33 103 163
54 23 38 115
( )
27=>49
n2 =>np2 n3 =>np3
(n i n.pi )2
n.p i
i =1
=LOI.KHIDEUX(cal;) indique directement la probabilit 2 de dpasser cal: , ce qui vite davoir dterminer ce risque
42
43
Test du : remarques
2 influence de la taille de lchantillon : cal est proportionnel n Il est donc plus facile daccepter H0 avec un petit chantillon.
effectif minimal de 5 individus pour chaque classe de la distribution thorique. Si tel nest pas le cas, procder des regroupement de modalits. dpend du nombre de classes pour chaque caractre => Attention aux comparaisons : tels caractres sont plus corrls que tels autres !!!
44
SCE int = = nk nk partir des moyennes des chantillons j (entre classes) 2 int
j=1i =1
(x ij x. j )2
(
k nj
2 ext
j=1
n j x . j x .. k 1
)2
SCE ext = k 1
49
Outils
Utilitaire danalyse
Analyse de variance
50
51
yi = a.x i + b
10
12
14
16
18
20
publicit
52
a et b sont calculs de faon minimiser la somme des n carrs des carts rsiduels ei2
y = a.x + b est la droite de rgression linaire (ou droite des moindres carrs).
i =1
Sous XL, si les donnes de Y sont dans les cellules A1 A5, celles de X dans les cellules B1 B5, on peut calculer : la pente a =PENTE(A1:A5;B1:B5) lordonne en X=0 b =ORDONNEE.ORIGINE(A1:A5;B1:B5)
54
il dfinit le pourcentage de variance de Y explique par X. coefficient de corrlation : r sous XL : r =COEFFICIENT.DETERMINATION(A1:A5;B1:B5) r =COEFFICIENT.CORRELATION(A1:A5;B1:B5)
56
Cas acceptable
58
Point excentr, souvent d une erreur de relev de donnes Il faut le(s) supprimer dans la rgression !
59
Erreur de spcification du modle : la relation entre X et Y nest pas linaire (en tous cas pas sur lintervalle entier) !
60
!! Liaison statistique douteuse : un seul point tire la droite accrotre les observations ; prudence dans linterprtation
61
Modles semi-logarithmiques :
ln yi = a.x i + b + ei
le 2nd cas traduit une influence dcroissante de Y sur X (tudie avec la notion dlasticit)
180000 160000 140000 120000 100000 80000 60000 40000 20000 0 0 1 2 3 4 5 6
62
ou lnY = a1X1 + a2X2 + a3X3 + a4X4 +b ou Y = a1X1 + a2X2 + a3X3 + a4X4 +b Mmes indicateurs de qualit, etc Sous XL :
Outils
Utilitaire danalyse
Rgression linaire
63