Académique Documents
Professionnel Documents
Culture Documents
Statistiques appliques la
gestion
http://astroblog.typepad.fr/ebosia/
http://intranet.escem.fr/qcm/
engagementintgritcuriosithumilit
StatistiquesProbabilits
1
E. Bosia L. Gautier A. Rychalski
Contenu du cours
Introduction
lments de statistiques descriptives
univaries
lments de probabilits
Echantillonnage et estimations
Les tests
Principe gnral
Les tests de corrlation et dassociation
4
E. Bosia L. Gautier A. Rychalski
http://astroblog.typepad.fr/ebosia/
http://intranet.escem.fr/qcm
Evaluation
Introduction gnrale
engagementintgritcuriosithumilit
StatistiquesProbabilits
8
E. Bosia L. Gautier A. Rychalski
Vocabulaire de base
Population : ensemble de rfrence auquel
on sintresse
Population mre <> chantillon
Caractre :
Aspect particulier dun individu auquel on
sintresse .
On parle de variable
11
12
13
engagementintgritcuriosithumilit
StatistiquesProbabilits
15
E. Bosia L. Gautier A. Rychalski
Graphiques
Compression de linformation
Tableaux de distribution
17
E. Bosia L. Gautier A. Rychalski
18
E. Bosia L. Gautier A. Rychalski
Rponse
Foot
Jogging
Tennis
Natation
Gym
Natation
Foot
Tennis
..
Tableau de distribution
Modalits
xi
Foot
Jogging
Tennis
Natation
Autres
Total
effectifs frquences
ni
fi
90
32.14%
70
25.00%
50
17.86%
65
23.21%
5
1.79%
280
100%
19
E. Bosia L. Gautier A. Rychalski
Le tableau de distribution
Diagramme barres
0
9
10
11
12
14
15
18
30%
bleu
Diagramme secteurs
50%
rouge
jaune
20%
Diagramme figuratif.
20
E. Bosia L. Gautier A. Rychalski
Mesurables numriquement.
Exemples : nombre denfants, dpense
tlphonique mensuelle dun mnage,
quantit de vin bue par mois, note obtenue
au partiel de finance, etc.
Une chelle dattitude peut tre assimile
une variable quantitative.
Pas du tout
daccord
Pas
daccord
Moyennement
daccord
Daccord
Tout fait
daccord
n
..
Paramtres de
Tendance centrale
et de dispersion
Tableau
de distribution
Classes
[0;10[
[10;20[
[20;30[
Total
frquences
effectifs frquences cumules
ni
fi
Fi
18
23%
23%
35
46%
69%
24
31%
100%
77
100%
Ecart
Moyenne type
Variance
C.V.
Mdiane Fractile
Mode
Etendue
Ou plus directement
23
E. Bosia L. Gautier A. Rychalski
10
24
E. Bosia L. Gautier A. Rychalski
11
di =
ni
a i +1 a i
ou d i =
fi
a i +1 a i
27
12
d3
d2
d1
d4
a1 a2
a3
a4
a5
Age
28
29
E. Bosia L. Gautier A. Rychalski
13
Les graphiques
Diagramme barres
Diagramme secteurs
Lhistogramme
La courbe des frquences cumules ou
dcumules
30
E. Bosia L. Gautier A. Rychalski
Si on rsume .
nominale
qualitative
ordinale
variable
Intervalle (chelles)
discrte
quantitative
continue
31
E. Bosia L. Gautier A. Rychalski
14
Synthse chiffre
Synthse graphique
Ecrire une phrase
par variable
33
15
Tendance centrale.
Dispersion.
35
E. Bosia L. Gautier A. Rychalski
16
1
SK =
N
1
K=
N
xi x
i =1
N
xi x
i =1
N
Loi de Gauss
4
K = 3 Loi de Gauss
K > 3 Leptocurtie (PIC)
K < 3 Platicurtie
37
E. Bosia L. Gautier A. Rychalski
17
38
E. Bosia L. Gautier A. Rychalski
18
Paramtres de
tendance centrale
Moyenne
Mdiane
Mode
Paramtres de
dispersion
Ecart-Type
Variance
Coefficient de
variation
quantiles dordre p
Intervalles inter
quantiles
Etendue
40
E. Bosia L. Gautier A. Rychalski
engagementintgritcuriosithumilit
StatistiquesProbabilits
41
E. Bosia L. Gautier A. Rychalski
19
Variable (sous-entendue
Univers probabiliste
Variable alatoire
statistique)
frquence
La somme des
frquences vaut 1
La moyenne
La variance
L cart-type
Probabilit
La somme des
proba vaut 1
L esprance
La variance
L cart-type
42
E. Bosia L. Gautier A. Rychalski
20
engagementintgritcuriosithumilit
StatistiquesProbabilits
45
E. Bosia L. Gautier A. Rychalski
21
P( X = x) = e *
x!
Le paramtre doit tre constant dun essai lautre, cest-dire que les priodes tudies doivent tre homognes.
E( X ) =
46
E. Bosia L. Gautier A. Rychalski
10
2 proprits
E( X ) = V ( X ) =
x 1.
x
e
e
P( X = x )
x.( x 1)!
x
!
=
=
=
x 1
x 1
x
P(X = x 1)
e
e
( x 1)!
( x 1)!
47
22
P(X = x ) = C nx .p x .(1 p) ( n x ) =
E(X)= n.p
V(X) = n.p.q
n!
.p x .(1 p) ( n x )
x!(n x )!
51
E. Bosia L. Gautier A. Rychalski
23
Exemple
Vous jouez pile ou face. En quoi ce jeu est
il un processus binomial ?
En 10 lancers
Combien de pile attendez-vous ?
Quelle est la probabilit dobserver 5 pile ?
Quelle est la probabilit dobserver entre 4 et 6
pile inclus ?
52
E. Bosia L. Gautier A. Rychalski
P(X=x)
0.0010
0.0098
0.0439
0.1172
0.2051
0.2461
0.2051
0.1172
0.0439
0.0098
0.0010
P(x<=X)
0.0010
0.0107
0.0547
0.1719
0.3770
0.6230
0.8281
0.9453
0.9893
0.9990
1.0000
Loi binmiale P(X=x)
0.3000
0.2500
0.2000
0.1500
P(X=x)
0.1000
0.0500
1
10
11
53
24
Rsultat
Lorsquun seul essai est ralis, le jeu de
pile ou face suit une loi de Bernouilli qui
est un cas particulier de la loi binomiale
En 10 lancers
Combien de pile ? E(X) = n.p = 10*0.5 = 5
P(X=5) = C105 .p 5 .(1 p) (5)
10! 1 1
. .
5!(5)! 2 2
= 0.2461
55
E. Bosia L. Gautier A. Rychalski
25
engagementintgritcuriosithumilit
StatistiquesProbabilits
57
E. Bosia L. Gautier A. Rychalski
26
f(x)
x x+dx
f ( x ).dx = 1
x
59
E. Bosia L. Gautier A. Rychalski
27
60
E. Bosia L. Gautier A. Rychalski
x
61
E. Bosia L. Gautier A. Rychalski
28
f ( x )dx
62
E. Bosia L. Gautier A. Rychalski
En rsum
Il existe des fonctions de densit de probabilit
Elles permettent une reprsentation graphique
Elles ne permettent pas de calculer directement une
probabilit ponctuelle car P(X=x)=0
dintervalles)
63
E. Bosia L. Gautier A. Rychalski
29
Fonction de densit
de probabilit
(courbe en cloche)
Fonction de
rpartition (courbe
cumulative)
f (z) =
P( Z < t ) =
1
* e z / 2
2
t
1
* e z / 2 dz
2
Reprsentation graphique
La fonction de densit de probabilit : f (z) =
1
* e z / 2
2
0.45
0.4
0.35
0.3
0.25
0.2
0.15
-1.5
-1
-0.5
0.5
1.5
65
30
P( Z < t ) =
La fonction de rpartition
t
1
* e z / 2 dz
2
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
-1.5
-1
-0.5
0.5
1.5
66
E. Bosia L. Gautier A. Rychalski
31
Lapproche
Unilatrale
(1 ) = ?
Lapproche
Bilatrale
Quelle est la probabilit dobserver
une valeur comprise dans un
intervalle symtrique par rapport
la moyenne ?
(1 ) = ?
/2
/2
-t
68
E. Bosia L. Gautier A. Rychalski
Lapproche
Unilatrale
La probabilit dobserver une
valeur infrieure ??? est de 1 -
(1 )
t = ???
U
1
Lapproche
Bilatrale
La probabilit dobserver une
valeur comprise dans un intervalle
symtrique par rapport la moyenne
de bornes ???? est de 1 -
(1 )
/2
- t = ???
/2
t = ???
69
32
Exemple
Z est une V.A centre rduite. A laide des
tables de probabilit, calculez :
(calculez la valeur de t)
(calculez la valeur de t)
(calculez la valeur de t)
70
E. Bosia L. Gautier A. Rychalski
Rsultat
P(Z > 1.64) = 1- P(Z < 1.64) = 0.051
P(Z < -1.64) = P(Z > 1.64) = 0.051
P(- 1 < Z < 2) = P(Z > - 1) - P(Z > 2)
= P(Z < 1) [1- P(Z < 2)] = 0.818
P(-0.43 < Z < 0) = P(Z > - 0.43) P(Z > 0) = 0.166
P(Z < t) = 0.95
t = 1.645
t = 1.96
t = 1.96, - t = - 1.96
71
E. Bosia L. Gautier A. Rychalski
33
95%
97,5%
99,5%
0
+1,645
+1,96 +2,576
72
-1,645
-1.96
-2,576
90%
+1,645
95%
+1.96
99%
+2,576
73
E. Bosia L. Gautier A. Rychalski
34
X N( x , )
Fonction de densit
de probabilit
(courbe en cloche)
Fonction de
rpartition (courbe
cumulative)
f (x) =
1
2
P(X < t ) =
1
2
*e
1 x x
2
* e
1 x x
2
dx
74
E. Bosia L. Gautier A. Rychalski
75
E. Bosia L. Gautier A. Rychalski
35
xi x
76
E. Bosia L. Gautier A. Rychalski
Un exemple simple
77
E. Bosia L. Gautier A. Rychalski
36
On standardise
La loi de Gauss est une abstraction, pourtant
Alors Z a N (0;1)
Calculer P( X < 15) revient calculer P( Z <
Xx
15 x
)
Approche unilatrale
N ( x; )
95%
x + 1.645.
81
37
Loi normale
Approche unilatrale
N ( x; )
95%
x + 1.96.
97,5%
x + 2.576.
99,5%
x + 1.645.
82
Loi normale
Approche bilatrale
90%
95%
x 1.96.
x + 1.96.
99%
x 2.576.
x 1.645.
x + 2.576.
x + 1.645.
83
38
La loi de Student
84
Source: Statistique pour conomistes et gestionnaires , B. Tribout, 2007
39
1
2
3
4
5
Total
X note de finance
10
16
1
14
??
10
65
Intention
Individu Age
d'achat
1
23
3
2
33
2
3
26
1
4
45
5
5
55
3
6
62
5
7
77
4
??
8
??
Moyenne 46.63
3.38
86
E. Bosia L. Gautier A. Rychalski
Gar ons
Pour
Contre
Total
Filles
12
??
30
60
30
100
Total
??
??
16
28
18
46
87
E. Bosia L. Gautier A. Rychalski
40
Si Y = Z i2 alors Y 2
i =1
E(Y) = et V(Y) = 2.
90
3 d.d.l.
4 d.d.l.
0,15
5 d.d.l.
6 d.d.l.
0,1
7 d.d.l.
0,05
0
0
10
15
20
91
41
engagementintgritcuriosithumilit
StatistiquesProbabilits
92
E. Bosia L. Gautier A. Rychalski
Conditions :
Lorsque > 20
Approximation :
Conditions :
Si np > 5 et n(1-p)> 5
Approximation :
P( ) = N(; )
B( n; p ) = N ( np; np (1 p ) )
*
< 0,3
(1 p )
p
n
93
E. Bosia L. Gautier A. Rychalski
42
0.03
Loi normale
0.02
0.01
0
1
9 17 25 33 41 49 57 65 73 81 89 97
94
E. Bosia L. Gautier A. Rychalski
P(X=k)
0.04
Loi normale
0.03
0.02
0.01
0
1
13 19 25 31 37 43 49 55 61 67 73 79 85 91 97
95
E. Bosia L. Gautier A. Rychalski
43
=5
=10
=50
Loi N
Au risque dinsister...
Loi Binomiale
Loi HG
Loi de Poisson
Loi de Student
Etc
Loi normale
97
44
engagementintgritcuriosithumilit
StatistiquesProbabilits
102
E. Bosia L. Gautier A. Rychalski
45
Connu
Inconnu
prvisible
Inconnu
prvisible
Connu
Problme de distribution
dchantillonnage
Problme destimation
104
engagementintgritcuriosithumilit
StatistiquesProbabilits
105
E. Bosia L. Gautier A. Rychalski
46
106
E. Bosia L. Gautier A. Rychalski
Rsultat
107
47
Rsultat - suite
2. Il faut donc centrer et rduire pour se rattacher une loi de
Gauss N(0;1)
Calculer P(X > 540) revient calculer : P( Z >
540 520
)
15,8
P = 10.4%
108
z = 1,26
Autrement dit .
109
48
Les estimations
- Principe gnral
- Estimer une proportion
- Estimer une moyenne
engagementintgritcuriosithumilit
StatistiquesProbabilits
110
E. Bosia L. Gautier A. Rychalski
Principe gnral
n = taille de lchantillon
f = % observ sur lchantillon
x = moyenne observe de lchantillon
s = cart-type observ sur lchantillon
ESTIMATION
OBSERVATION
49
t2
112
E. Bosia L. Gautier A. Rychalski
engagementintgritcuriosithumilit
StatistiquesProbabilits
113
E. Bosia L. Gautier A. Rychalski
50
114
E. Bosia L. Gautier A. Rychalski
Finalement
Intervalle de confiance au
1
proportion p inconnue
n
2
f (1 f )
IC95% ( p) = f 1.96
95% dune proportion p
n
inconnue
115
E. Bosia L. Gautier A. Rychalski
51
Exemple
Un sondage a t ralis auprs dun chantillon
alatoire de 500 individus. Les intentions de vote pour
le candidat Dugenou sont de f = 54%
Estimez p laide d un I.C. 95%
Estimez p laide d un I.C. 99%
116
E. Bosia L. Gautier A. Rychalski
Rsultat
0.54(1 0.54)
IC95% ( p ) = 0.54 1.96
500
= le rayon de lestimation
95% = (1-) = le niveau de lestimation
Donc p [0.496;0.583]
117
E. Bosia L. Gautier A. Rychalski
52
Rsultat
0.54(1 0.54)
IC99% ( p) = 0.54 2.576
500
= le rayon de lestimation
99% = (1-) = le niveau de lestimation
Donc p [0.482;0.597]
118
E. Bosia L. Gautier A. Rychalski
Premire remarque
53
Seconde remarque
f u1
2
f (1 f )
Du niveau de confiance
que se fixe lanalyste
De la variabilit
du paramtre tudi
De la taille de lchantillon
On connat N.
Intervalle de confiance au niveau 1- pour une
proportion p inconnue (chantillon sans
remise).
IC1 ( p ) = f u
1
2
f (1 f ) N n
n
N
121
E. Bosia L. Gautier A. Rychalski
54
Exemple
Un sondage a t ralis auprs dun chantillon
alatoire de 60 tudiants. 18% dentre eux sont
gauchers (N = 400).
Estimez p laide d un I.C. 95%
Estimez p laide d un I.C. 99%
122
E. Bosia L. Gautier A. Rychalski
Rsultat
60
400
Donc p [0.09;0.29]
60
400
Donc p [0.062;0.297 ]
123
E. Bosia L. Gautier A. Rychalski
55
engagementintgritcuriosithumilit
StatistiquesProbabilits
124
E. Bosia L. Gautier A. Rychalski
s'
IC1(m) =X t
1 ;(n1)
n1
2
s'
IC1(m) =X u
1
n1
2
125
E. Bosia L. Gautier A. Rychalski
56
Exemple
Un sondage a t ralis auprs dun chantillon
alatoire de 101 tudiants de 1re anne. Leur taille
moyenne est de 170 cm avec un cart-type de 30 cm.
Estimez m laide dun I.C. 95%
Estimez m laide dun I.C. 99%
126
E. Bosia L. Gautier A. Rychalski
Rsultat
Donc m [164;176 ]
Donc m [162;178]
127
E. Bosia L. Gautier A. Rychalski
57
s'
X
u
1
n1
2
Du niveau de confiance
que se fixe lanalyste
De la variabilit
du paramtre tudi
De la taille de lchantillon
58
engagementintgritcuriosithumilit
StatistiquesProbabilits
130
E. Bosia L. Gautier A. Rychalski
But de la manoeuvre
131
E. Bosia L. Gautier A. Rychalski
59
60
Exemple
Lors dun rcent sondage, vous avez constat que 10%
des lecteurs avaient lintention de voter pour le candidat
Trucmuche.
Vous souhaitez effectuer un nouveau sondage.
Combien devez vous interroger dindividus pour
connatre la proportion p dlecteurs potentiels 4% prs
avec un niveau de confiance de 95% ?
Combien devez vous interroger dindividus pour
connatre la proportion p dlecteurs potentiels 2% prs
avec un niveau de confiance de 95% ?
135
E. Bosia L. Gautier A. Rychalski
61
Rsultat
Cas n1 : la proportion p dlecteurs potentiels 4%
prs avec un niveau de confiance de 95% ?
1.96
n = 0.1.(1 0.1).
= 217
0.04
1.96
n = 0.1.(1 0.1).
= 865
0.02
62
Sans remise
(5) Echantillon
sans remise
On connat N
n/N > 1/5 ou 1/7
n0
N
N + n0 1
u1
p0 q0 2
= no
engagementintgritcuriosithumilit
StatistiquesProbabilits
139
E. Bosia L. Gautier A. Rychalski
63
Essayons de la dcouvrir
140
E. Bosia L. Gautier A. Rychalski
C
E. Bosia L. Gautier A Rychalski
n
N
64
Spculation intellectuelle
N ( p;
pq
)
n
f
0%
chantillons
d opposants
100%
chantillons 143
E. Bosia de
L. partisans
Gautier A. Rychalski
65
Soit X le nombre de
rpondants positifs sur
un chantillon de n individus
Comme n grand et N
infini
Et la proportion de
X
positifs sur un chantillon f =
n
vaut f=X/n
X
X
B ( n; P )
N ( nP; nPQ )
N ( P;
PQ
)
n
En bref...
La distribution dchantillonnage des
proportions est la distribution que lon
observerait si lon constituait tous les
chantillons potentiellement ralisables
Elle suit une loi normale
66
p + ou 1.96
pq
n
95%
146
E. Bosia L. Gautier A. Rychalski
Donc :
Probabilit de 95% d observer une valeur f comprise dans
l intervalle
p 1.96
pq
pq
f p + 1.96
n
n
On additionne
+ 1 . 96
pq
n
On soustrait
1.96
pq
n
147
67
Je remplace...
pq par
f (1 f )
n
n
et j obtiens :
f 1.96
f (1 f )
p f + 1.96
n
f (1 f )
n
68
Etonnant, non ?
150
E. Bosia L. Gautier A. Rychalski
Probabilistes
Cot +++
Robustesse +++
Alatoire
simple
Ech. systmatique
En grappes
ou clustered
L chantillon
de convenance
Echantillon
boule de neige
Les Quotas
Stratifis
151
E. Bosia L. Gautier A. Rychalski
69
152
153
E. Bosia L. Gautier A. Rychalski
70
engagementintgritcuriosithumilit
StatistiquesProbabilits
Principe gnral
engagementintgritcuriosithumilit
StatistiquesProbabilits
71
Principe gnral
En bref :
72
P(40<=X<=60) = 95,4%
Processus binomial (100;0,5) classique
que l on peut approcher par une loi
normale de paramtres (50;5)
Conclusion :
Ho accept
95,4% est la puissance du test.
4,6% est le seuil du test.
En rsum
73
1/ Exprience alatoire
Cest le sondage
5/ Conclusion
Acceptation ou rejet de Ho
Covariation et corrlation
- Le test de corrlation
-
engagementintgritcuriosithumilit
StatistiquesProbabilits
74
75
La covariance
1 n
( Xi X ) * (Yi Y )
n i =1
Moyenne
Moyenne
des X
Temprature
en C
76
La corrlation linaire
r=
Cov ( X ;Y )
( X ) * (Y )
E. Bosia L. Gautier A. Rychalski
10
77
10
10
78
Corrlation faible
2.5
2
1.5
1
0.5
0
-0.5 0.5
2.5
4.5
6.5
8.5
10.5
Basiquement
79
Le test de corrlation
Etape 1 : le sondage
Individu
Age
1
2
3
4
5
6
7
8
etc
23
33
26
45
55
62
77
52
etc
Intention
3
2
1
5
3
5
4
4
etc
80
Hypothse nulle Ho
r=0
La corrlation observe entre les variables procde du hasard
dchantillonnage. Dans la population mre, ge et intention
dachat sont indpendants.
Hypothse alternative Ha
r<>0
La corrlation entre les variables ne procde pas du hasard
dchantillonnage. Elle est, au seuil de x% significativement non
nulle. Dans la population mre, ge et intention dachat sont
dpendantes, lge influenant positivement lintention dachat.
t=
r n2
1 r2
tcalc = 7,7
81
/2
(1 )
Ha
Ho
/2
Ha
1 ; n 2
2
E. Bosia L. Gautier A. Rychalski
Etape 5 : conclusion
Or tcalc = 7,7
82
- La distance du Khi
- Le test du Khi de Pearson
engagementintgritcuriosithumilit
StatistiquesProbabilits
83
La distance du Khi
F th
Effectif observ
Thorie
35
15
19
10
21
100
( Fth Fobs )
Fth
Ecart
20
20
20
20
20
100
Khi
15
-5
-1
-10
1
11.25
1.25
0.05
5
0.05
2
calc
( Fth Fobs )
Fth
E. Bosia L. Gautier A. Rychalski
84
engagementintgritcuriosithumilit
StatistiquesProbabilits
Prambule
85
Fth
c*l
=
n
86
Pause
publicitaire
Aux ditions
Publibook
Q1/Q2
Hommes
Femmes
Droit
?
?
310
Marketing
?
?
290
210
390
600
87
En fait !
Vous venez de construire un tableau d effectifs
thoriques qui correspond l hypothse d indpendance
entre vos deux variables.
Hommes
Femmes
Droit
Marketing
108.5
101.5
201.5
188.5
310
290
210
390
600
D o peut
provenir
ce type
d cart ?
Marketing
Hommes
120
90
210
Femmes
190
200
390
310
290
600
E. Bosia L. Gautier A. Rychalski
88
Etape 1 : le sondage
Droit
Hommes
Femmes
Total
120
190
310
Marketing Total
90
200
290
210
390
600
Hypothse nulle Ho
Au seuil de %, les variables sexe du
rpondant et prfrence pour un cours sont
indpendantes, non lies, non associes.
Hypothse alternative Ha
Au seuil de %, il existe une association
statistiquement significative entre les variables
(les variables sont dpendantes, lies, associes)
89
Autrement dit
Ho (indpendance)
Ha (association)
Droit
Marketing
Hommes
120
90
210
Femmes
190
200
390
310
290
600
210
390
600
Droit Marketing
1.22
1.30
0.66
0.70
3.88
( Fth Fobs ) 2
calcul =
Fth
2
Hommes
Femmes
90
2
calc
2
th
Le Khi thorique
dpend
Ho
Ha
Du seuil du test
(gnralement 5%)
Du nombre de d.d.l.
91
3,84 = ?
92