Vous êtes sur la page 1sur 61

STATISTIQUE DESCRIPTIVE

1 Introduction
La statistique dsigne lensemble des mthodes mathmatiques relatives
la collecte, la prsentation, lanalyse et lutilisation de donnes
statistiques. Ces oprations permettent de tirer des conclusions et de
prendre des dcisions dans les situations dincertitude quon rencontre
dans le domaine conomique, touristique, dans celui des aaires ou dans
dautres sciences sociales...
On distingue la statistique descriptive et la statistique inductive. La pre-
mire rsume, rcapitule, analyse un ensemble de donnes statistiques.
La seconde gnralise les rsultats observs sur un chantillon toute la
population.
2 Terminologie :
- La population est lensemble de tous les individus concerns par une
tude statistique
- On appelle chantillon toute partie de la population.
- On appelle individu chaque lment de la population.
- La taille reprsente le nombre dindividus dun chantillon ou dune
population. Elle est note n dans le cas dun chantillon et N dans le
cas dune population.
- Le caractre est laspect particulier que lon dsire tudier.
Exemple 2:
Concernant un groupe de personnes, on peut sintresser au caractre
ge, ou au caractre sexe ou encore leur nationnalit.
- On appelle modalits les direntes possibilits que peut prsenter un
caractre.
Exemple 3:

1
- Le sexe est un caractre deux modalits : fminin ou masculin
- Le caractre nombre de nuites dun htel peut tre gal 0; 1; 2; :::
- On dira dun caractre quil est qualitatif si ses modalits ne sexpriment
pas par un nombre.
Exemple 4 :
La religion, la nationalit,etc... sont des caractres qualitatifs.
- On dit dun caractre quil est quantitatif si ses modalits sont numriques.

Exemple 5 :
Lge , le poids , le salaire , . . . sont des caractres quantitatifs.
- On appelle srie statistique lensemble des direntes donnes associes
aux individus dun chantillon ou dune population.
Exemple 6:
- La srie suivante reprsente le nombre de nuites dun auberge durant
les quinze dernirs jours:

10 15 9 7 6 5 8 13 11 19 10 15 11 13 6

- La srie suivante reprsente le sexe de 10 touristes :

F F M M F F F M M F

2
3 Traitement des donnes
- Dune faon gnrale, on distingue trois tapes dans le traitement dune
srie statistique :
A) La synthse des rsultats laide dun tableau.
B) La reprsentation graphique du phnomne tudi.
C) Le calcul des mesures caractristiques.
Expliquons maintenant comment il faut procder dans chaque tape.
A) Tableaux statistiques

1) Cas dun caractre qualitatif


- La taille de lchantillon est n
- Les direntes modalits sont x1; x2; :::; xk .
- Chaque modalit constitue une classe .
- Le nombre dindividus qui appartiennent la classe xi sappelle leectif
(ou la frquence absolue ) de cette classe . Il est not fi. On a toujours

f1 + f2 + ::: + fk = n

fi
- La frquence relative de la classe xi est .
n
- Souvent on prfre exprimer la frquence relative en pourcentage ; pour
fi
cela, il su t de multiplier par 100.
n

3
Exemple : La srie statistique suivante reprsente ltat-civil dun
groupe de 20 touristes.
M C M V M M D V D M C V V V V C C C M M
o M; D; C et V reprsentent respectivement mari(e), divorc(e), cli-
bataire et veuf(ve).

Repartition d0un groupe de 20 touristes selon leur etat civil

fi fi
Etat-civil eectifs frq.relatives pourcentages 100
n n
M 7 0; 35 35
C 5 0; 25 25
V 6 0; 30 30
D 2 0; 10 10
Total 20 1 100

2) Cas dun caractre quantitatif discret :

- Un caractre quantitatif est discret si lensemble des valeurs direntes


quil peut prendre est inferieur 15.
Exemple 1:
- Le nombre denfants par famille est un caractre quantitatif discret, par
contre le caractre poids nest pas discret.

Pour llaboration du tableau de synthse on procde comme dans le cas


dun caractre qualitatif.
Exemple 2: La srie suivante donne le nombre denfants charge dans
16 familles.
0 1 0 0 2 1 3 0 1 2 0 1 2 2 2 4
4
Repartition de 16 familles selon le nombre d0enfants a charge

fi fi
nb.denf e fi freq.rel. pourcent 100 e. cumul Fi
n n
0 5 0; 3125 31; 25 5
1 4 0; 25 25 9
2 5 0; 3125 31; 25 14
3 1 0; 0625 6; 25 15
4 1 0; 0625 6; 25 16
Total 16 1 100 ///////////////////////////

- La colonne des eectifs cumuls Fi sobtient en additionnant leectif


dune classe leectif de chacune des classes qui la prcde , ainsi on a :
F1 = f1 , F2 = f1 + f2 , . . . , Fi = f1 + f2 + ::: + fi
Fi correspond au nombre de donnes de la srie dont la valeur est in-
frieure la classe xi.
3) Cas dun caractre quantitatif continu :

Un caractre quantitatif est continu sil peut prendre thoriquement nimporte


quelle valeur dans un intervalle donn.
Exemple 1 :La taille des individus et leur poids sont des caractres
quantitatifs continus.
Dans ce cas (ou dans le cas dun caractre discret avec beaucoup de
valeurs dierentes) la construction du tableau passe par les tapes suiv-
antes :
Etape 1 : Dterminer ltendue de la srie
Note e, ltendue de la srie est la dirence entre la plus grande valeur
et la plus petite valeur observe.
Etape 2 : Dterminer le nombre de classes
5
Not k, le nombre de classe doit se situer entre 5 et 15, et sil na pas t
impos on peut le dterminer partir de la formule de Sturges :
k = la valeur entire la plus rapproche de 1 + 3; 322 log10(n) o n est
le nombre de donnes de la srie.
Exemple 2 :
- Pour n = 15 on a 1 + 3; 322log10(15) = 4; 906::: donc k = 5 classes
- Pour n = 25 on a 1 + 3; 322log10(25) = 5; 643::: donc k = 6
classes
- Pour n = 1000 on a 1 + 3; 322log10(1000) = 10; 966::. donc k = 11
classes.
Etape 3 : Dterminer lamplitude des classes
Note c, lamplitude des classes ne doit pas contenir plus de chires aprs
la virgule que les donnes de la srie. Ainsi aprs avoir calculer le quotient
e
, il faut tronquer le rsultat pour liminer les dcimales non utiles et
k
additionner 1 au dernier chire.
e
Exemple 3: Si = 0; 9361 alors pour des donnes 2 chires aprs la
k
virgule c = 0; 94 mais pour des donnes entires c = 1.
Etape 4 : Construire les intervalles
Le premier intervalle est donn par [L1; L1+c[, Le deuxime intervalle est la
suite du premier et il est donn par [L1+c; L1+2c[: De cette manire
on construit les k-intervalles.
Etape 5 : Etablir la frquence des classes
Pour complter le tableau, il reste dterminer
borne infrieure + borne suprieure
- le centre des classes mi = .
2
- Les eectifs fi .

6
- Les eectifs cumuls Fi.
fi
- Les frquences relatives .
n
fi
- Les frquences relatives en pourcentages 100.
n
Exemple 4 : La srie suivante reprsente le nombre de nuites de 23
tablissements classs dans le grand Agadir par semaine:
271 516 414 242 510 190 490 450 390 430 360 360
450 460 453 509 489 412 410 453 460 405 373
Construire le tableau de frquences de cette srie.
Solution :
- Ltendue e = 516 190 = 326
- Le nombre de classes k : on a 1 + 3; 322log10(23) = 5; 523::: donc k = 6
classes.
e 326
- Lamplitude des classes : on a = = 54; 33::: donc c = 55
k 6
- Le premier intervalle : [190; 245[

fi fi
Nuites N centres mi eectifs fi e.cumuls Fi freq.rel. (%) 100
n n
190 N < 245 217; 5 2 2 0; 0869 8; 69
245 N < 300 272; 5 1 3 0; 0434 4; 34
300 N < 355 327; 5 0 3 0 0
355 N < 410 382; 5 5 8 0; 2173 21; 73
410 N < 465 437; 5 10 18 0; 4347 43; 47
465 N < 520 492; 5 5 23 0; 2173 21; 73

7
Exemple 2 : Le salaire horaire (en DH ) de 20 employs dun restaurant
dAgadir est donn par la srie suivante :

6; 80 6; 30 8; 25 6; 45 6; 30 6; 80 8; 30 5; 55 6; 00 5; 60
6; 75 8; 35 5; 75 6; 80 7; 30 6; 85 5; 70 5; 55 7; 25 7; 25
Construire la distribution de frquences de cette srie.
Solution :
- Ltendue : e = 8; 35 5; 55 = 2; 8
- Le nombre de classes k : on a 1 + 3; 322 log10(20) = 5; 322::: donc k = 5
classes
e 2; 8
- Lamplitude des classes c : on a = = 0; 56 donc c = 0; 57
k 5
- Le premier intervalle : [5; 55 ; 6; 12 [.

fi
Salaire S (en DH) centres mi e fi e.cum Fi freq.rel. %
n
5; 55 S < 6; 12 5; 835 6 6 0; 30 30
6; 12 S < 6; 69 6; 405 3 9 0; 15 15
6; 69 S < 7; 26 6; 975 7 16 0; 35 35
7; 26 S < 7; 83 7; 545 1 17 0; 05 5
7; 83 S < 8; 4 8; 115 3 20 0; 15 15

8
B) Reprsentation graphique
Il existe plusieurs faons de reprsenter graphiquement les rsultats dune
srie statistique. Nous verrons ici les formules les plus utilises.
1) Diagramme bandes rectangulaires.
Ce diagramme est adapt la reprsentation dun caractre qualitatif
ou quantitatif discret. Il est constitu par la juxtaposition de bandes
verticales ou la superposition de bandes horizontales; la hauteur ou la
longueur dune bande, sera proportionnelle la frquence de la modalit.
Exemple 1.

2) Histogramme.
Il convient bien la reprsentation dun caractre quantitatif continu,
lhistogramme est constitu par la juxtaposition de bandes rectangulaires
verticales, mais adjacentes. De plus chaque rectangle doit prsenter une
largeur quivalente lamplitude de la classe quil reprsente et la hauteur
proportionnelle la frquence.
Exemple 2.

3) Diagramme cerculaire.
Il convient bien tous les caractres quantitatif ou qualitatif, ce dia-
gramme est un disque dont les portions reprsentent les pourcentages
des classes.
Exemple 3.

C) Le calcul des mesures caractristiques.


Il est souvent ncessaire de rsumer de faon trs concise lensemble des
informations quon possde sur une srie statistique. Pour cela, on a
recours quelques mesures donnant une ide sur lordre de grandeur des
donnes ou sur ltalement de la srie.

9
On distingue deux types de mesures : les mesures de tendance centrale
et les mesures de dispersion .
1) les mesures de tendances centrales :
Les mesures de tendance centrales les plus importantes sont : la moyenne
arithmtique , la mdiane et le mode.
a) La moyenne arithmtique :
Pour calculer la moyenne arithmtique (on dira dans la suite moyenne
tout court ) dun ensemble de donnes, il su t de faire la somme de
celles-ci et de diviser par le nombre de donnes.
Notation

Dans le cas dune population la moyenne sera note


P
N
xi
i=1
=
N

et dans le cas dun chantillon elle sera note x :

P
n
xi
i=1
x=
n

Exemple 1
Les notes ( sur 20 ) obtenues par 10 tudiants en statistique sont :
2 2 8 9 10 12 8 13 12 13
On a donc:
2 + 2 + 8 + 9 + 10 + 12 + 8 + 13 + 12 + 13 89
x= = = 8; 9
10 10

10
- Si les donnes sont traites dans un tableau de frquences:

Cas discret :

fi
caractre xi eectifs fi freq.rel.
n
f1
x1 f1 n
f2
x2 f2 n
. . .
. . .
. . .
fk
xk fk n

dans ce cas la formule de la moyenne devient :

P
k
xifi
i=1
x=
n

Exemple 2
La distribution des notes des 10 tudiants de lexemple prcdent est :

11
fi
Notes xi eectifs fi freq.rel.
n
2 2 0; 2
8 2 0; 2
9 1 0; 1
10 1 0; 1
12 2 0; 2
13 2 0; 2
Total 10 1

2 2+2 8+1 9+1 10 + 2 12 + 2 13 89


x= = = 8; 9
10 10

Cas continu : Si les donnes sont groupes dans des intervalles de cen-
tres mi alors une aproximation de la moyenne est donne par

P
k
fi mi
i=1
x=
n

o k est le nombre de classes et n la taille de lchantillon.


Exemple 3
Le tableau suivant reprsente le chire daaires (en DH) ralis par 36
restaurants au cours dune journe.

Chire da. C (en DH) centres mi eectifs fi fimi


2000 C < 2500 2250 11 24750
2500 C < 3000 2750 9 24750
3000 C < 3500 3250 10 32500
3500 C < 4000 3750 6 22500
Total =============== 36 104500
12
104500
On a donc x = = 2902; 777::: = 2902; 78
36
Le chire daaires moyen de ses restaurants est donc approximativement
2902; 78 DH.

b) La mdiane.
- La mdiane est la valeur du caractre qui partage la srie en deux
parties gales : 50% de donnes lui sont infrieures ou gales et 50% lui
sont suprieures ou gales.
Notation : la mdiane sera note Me
- Calcul de la mdiane:
1emecas : Discret :
On dtermine tout dabord le premier eectif cumul Fi suprieur ou
n
gal . On distingue deux cas.
2
n
1er cas : Si Fi > alors la mdiane Me= xi:
2
n
2eme cas : Si Fi = alors la mdiane Me= xi+x i+1
:
2 2

Exercice 1 :Calculer la mdiane de la srie suivante :

xi 0 2 5 7 9 Total
fi 5 7 9 4 5 30

13
2emecas : Continu :
Dans ce cas, on dtermine dabord la classe qui contient la mdiane :
n
cest la premire classe dont leectif cumul est suprieur ou gal .
2
Si [Li , Li + c[ est la classe qui contient la mdiane, et si Fi est son
eectif cumul et Fi 1 leectif cumul de la classe qui la prcde alors
on a :

donc 0n 1
Fi 1
M e = Li + @ 2 Ac
Fi Fi 1

Exemple 3:
Reprenons lexemple du chire daaires des 36 restaurants .

Chire da. C en DH eectifs fi eectifs cumuls Fi


2000 C < 2500 11 11
2500 C < 3000 9 20
3000 C < 3500 10 30
3500 C < 4000 6 36

n
On a n = 36 donc = 18; la classe qui contient la mdiane est la
2
deuxime donc
18 11 7
Me = 2500+ 500 et par suite Me = 2500 + 500 = 2888; 88:::
20 11 9

Donc Me = 2888; 89 DH

c) Le mode .
14
Le mode dune srie de donnes est la valeur du caractre la plus frquente.
Le symbole utilis pour le noter est Mo, quil sagisse dun chantillon ou
dune population.
Lorsque les donnes sont groupes dans des intervalles, on utilise le centre
de la classe ayant la plus grande frquence comme approximation du
mode ou on parle tout simplement de la classe modale, cest--dire la
classe ayant la plus grande frquence
Exemple 1.

Le mode de la srie 2 3 4 2 2 est la valeur 2


La srie 2 2 3 4 3 2 3 a deux modes : 2 et 3
La srie 1 2 3 4 5 na pas de mode

2) Les mesures de dispersion

-La variance
Pour un chantillon de taille n, la variance, note s2, est dnie par
P
n
(xi x)2
i=1
s2 =
n
_
o xi reprsente la ime donnes et x la moyenne.
Exemple 1
Calculer la variance de la srie suivante : 8 8 10 12 12.
_ 8 + 8 + 10 + 12 + 12 50
On a x = = = 10 do
5 5

2 (8 10)2 + (8 10)2 + (10 10)2 + (12 10)2 + (12 10)2 4+4+0


s = =
5 5
3; 2

15
Exemple 2
Calculer la variance de la srie 6 7 10 13 14.

_ 6 + 7 + 10 + 13 + 14 50
On a x= = = 10
5 5

2 (6 10)2 + (7 10)2 + (10 10)2 + (13 10)2 + (14 10)2


do s = =
5
50
= 10:
5
Remarque:
les sries 8 8 10 12 12 et 6 7 10 13 14 ont la mme
moyenne 10, mais les carts des donnes par rapport la moyenne sont
plus grands dans la deuxime srie que dans la premire. Ceci se traduit
par une variance plus grande dans la deuxime srie.

- En gnral le calcul de la variance laide de sa formule est fastidieux,


cest pour cela quil est parfois intressant dappliquer la formule quiv-
alente suivante :

s2 = x 2 (x)2

Cette formule se retient facilement en disant que la variance est la moyenne


des carrs moins le carr de la moyenne.
Exemple 3
82 + 82 + 102 + 122 + 122
Pour la srie 8 8 10 12 12 on a x2 = =
5
516
= 103: 2
5
et (x)2 = 102 = 100 do s2 = 103; 2 100 = 3; 2

- Dans le cas o les donnes sont donnes dans un tableau de frquences


16
1emecas : Discret :

fi
caractre xi eectifs fi frquences relatives n
f1
x1 f1 n
f2
x2 f2 n
. . .
. . .
. . .
fk
xk fk n

alors

2 f1x21 + f2x22 + ::: + fk x2k f1x1 + f2x2::: + fk xk 2


s = ( )
n n

On peut crire encore


f1 2 f2 2 fk
s2 = x1 + x2 + ::: + x2k (x)2
n n n

Exercice 1
Calculer la variance de la distribution suivante:

17
fi
caractre xi eectifs fi frquences
n
2 2 0; 2
8 2 0; 2
9 1 0; 1
10 1 0; 1
12 2 0; 2
13 2 0; 2
Total 10 1

Solution
Pour le calcul de la variance , on organise le tableau comme suit :

xi fi fixi fix2i
2 2 4 8
8 2 16 128
9 1 9 81
10 1 10 100
12 2 24 288
13 2 26 338
Total 10 89 943

89 943
On a x= = 8; 9 et s2 = (8; 9)2 = 94; 3 79; 21 =
10 10
15; 09

2emecas : Continu : Lorsque les donnes sont groupes dans des in-
tervalle, on se contente dobtenir une approximation de la variance en
remplaant dans la formule les xi par les centres mi

18
2 f1m21 + f2m22 + ::: + fk m2k f1m1 + f2m2::: + fk mk 2
s = ( )
n n

19
REGRESSION ET CORRELATION

1 Introduction
Dans ce chapitre, on va tudier les relations, lorsquelles existent, entre
deux variables statistiques. Par exemple la relation entre publicit et
vente, ou entre le revenu et les dpenses.

2 : Rgression linaire simple


Nuage statistique : Considrons deux caractres numriques x et y. Si
partir dune tude mene sur un chantillon de taille n on obtient les
valeurs xi et yi, la reprsentation graphique dans le plan de lensemble
des points de coordonnes (xi; yi) pour i = 1; 2; ::::; n sappelle nuage
statistique.

x x1 x2 . . . . . . . xn
y y1 y2 . . . . . . . yn

A partir de ce nuage, il faut chercher exprimer la relation entre les deux


variables laide dune quation mathmatique. On pourrait le faire de
plus dune faon, mais on va se limiter ici la plus simple, cest--dire
lquation linaire de la forme

y = ax + b

- On appelle rgression linaire, lajustement dune droite au nuage sta-


tistique (xi; yi)
- Le problme consiste donc trouver une droite dquation y = ax + b
qui traduit, avec le plus de dlit, le lien entre x et y. Pour cela nous
20
allons utiliser une technique appele : la mthode des moindres carrs,
qui consiste minimiser la somme des carrs des distances Di verticales
entre la droite et chacun des points (xi; yi).
Tout calcul fait on trouve :

P
n
xi yi nx:y
a = i=1
Pn
x2i n (x)2
i=1
et
b= y ax:

o x et y sont respectivement les moyennes arithemtiques de x et de y:


Exemple : Une entreprise veut mener une tude pour connatre la re-
lation entre les dpenses hebdomadaires en publicit et le volume des
ventes quelle ralise. On a recueilli au cours des dix dernires semaines
les donnes suivantes :

X=Cot pub en103 DH 4 2 2.5 2 3 5 1 5.5 3.5 4.5


Y=Ventes en 103 DH 49.5 41 43 39 46 53 38 54 48.5 51.5

1) Trouver lquation de la droite de rgression des moindres carrs


2) Estimer le volume des ventes si la semaine prochaine on compte
dpenser 3500 DH en publicit.
3 : Sries chronologiques.
Lorsque la variable indpendante x reprsente le temps et la variable
y reprsente un facteur quelconque on dit quon a aaire une srie
chronologique. Dans ce cas la droite de rgression sappelle la droite de
tendance ou le trend

21
Mthode dajustement : Lorsque les direntes valeurs de x (le temps) se
suivent par le mme intervalle, on associe chaque valeur de x un code
comme suit :
- Si n est impair , les codes seront, 3; 2; 1; 0; 1; 2; 3, . O le code 0
n+1
est associ la valeur de x de rang
2
- Si n est pair , les codes seront, 5; 3; 1; 1; 3; 5; o le code 1 est
n
associ la valeur de x de rang + 1
2
Exemple 1
Donner les codes pour reprsenter la variable indpendante temps si on
a
ANNEES 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
1)
CODES -9 -7 -5 -3 -1 1 3 5 7 9

jours lundi mardi mercredi jeudi venderedi samdi dimanche


2)
CODES -3 -2 -1 0 1 2 3

mois novembre decembre janvier fervrier mars mai avril juin jui
3)
CODES -11 -9 -7 -5 -3 -1 1 3 5

Exercice 1
Une nouvelle boulangerie vient douvrir ses portes. La srie statistique
suivante donne le nombre de milliers de pains vendus au cours des dix
premires semaines :

Semaine x 1re 2re 3re 4re 5re 6re 7re 8re 9re 10re
Nb de pains(103) y 1,71 1.74 1.73 1.75 1.78 1.77 1.81 1.80 1.84 1.83

1) Trouver lquation de tendance.


22
2) Dterminer le nombre de pains qui va etre vendus la semaine prochaine.

4 : Coe cient de corrlation.


Ce coe cient va nous permettre daborder le problme du degr de dpen-
dance entre les deux variables x et y.
Considrons la srie statistique deux caractres :
x x1 x2 . . . . . . . xn
y y1 y2 . . . . . . . yn

Dnissons la covariance de x et y par : Cov(x; y) = xy x:y

Le coe cient de corrlation r est donn par la formule suivante :


Cov(x; y)
r=
s(x):s(y)

O s(x) et s(y) sont les cart-types des variables x et y.


Interprtation de r
1) On a toujours : 16r61
2) Si r > 0 alors il y a corrlation positive entre x et y, c--d si x
augmente alors y augmente.
3) Si r < 0 alors il y a corrlation ngative entre x et y, c--d si x
augmente alors y diminue.
4) Si r h 0 alors il ny a aucune corrlation entre x et y, les variables x
et y sont indpendantes.
5) Si r est voisin de 1 ou de 1, il y a une trs forte dpendance entre x
et y.

23
Exercice 1 : Intra 2000
La srie suivante reprsente le prix dune boite de sardines, fabrique par
une usine marocaine, au cours des dix dernires annes.
Annes 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
Prix y en DH 2.00 2.20 2.25 2.35 2.50 2.70 2.70 2.80 3.00 3.00

1) Trouver lquation de la droite de rgression.


2) Si la tendance continue estimer le prix dune boite pour lan 2001 et
pour lan 2002.
3) Calculer le coe cient de corrlation linaire r.
4) Que peut-on dire des estimations de la question 2
5) En quelle anne le prix dune boite atteindra les 4 DH.
Solution
On a n = 10 donc le code 1 sera attribu la sixime anne 1996:
Anne Code xi Prixyi en Dh x2i yi2 xi:yi
1991 -9 2.00 81 4.00 -18.00
1992 -7 2.20 49 4.84 -15.40
1993 -5 2.25 25 5.06 -11.25
1994 -3 2.35 9 5.52 -7.05
1995 -1 2.50 1 6.25 -2.50
1996 1 2.70 1 7.29 2.70
1997 3 2.70 9 7.29 8.10
1998 5 2.80 25 7.84 14.00
1999 7 3.00 49 9.00 21.00
2000 9 3.00 81 9.00 27.00
Total 0 25,50 330 66.095 18.60

1) Lquation de la droite de rgression :

24
Donc lquation de la droite est y = 2:55 + 0:056 x
2) - Lan 2001 a pour code x = 11, donc lestimation du prix est y =
2:55 + 0:056 11 = 3:166 DH.
- Lan 2002 a pour code x = 13, donc lestimation du prix est y =
2:55 + 0:056 13 = 3:278 DH.
3) Coe cient de corrlation :
On a Cov(x; y) = xy x:y = xy car donc x = 0
18:6
Cov(x; y) = = 1:86 , s2(x) = x2 (x)2 = 33 et s2(y) =
10
2
y2 (y) = 0:107
Cov(x; y) 1:86
Le coe cient de corrlation r = = ' 0; 98
s(x):s(y) 5:74 0:33
4) Puisque le coe cient de corrlation r est proche de 1 alors il y a une
forte dpendance linaire entre x et y , donc si la tendance continue , les
estimations de la question 2 seront bonnes .
5) Si le prix est de 4 DH , alors le code de lanne est donn par c--d
Or lan 2008 a pour code 25 et lan 2009 a pour code 27, donc le prix
atteindra les 4 DH vers la n de 2008.
Exercice 2 :( intra 2000)
Dans une entreprise on veut tudier la relation entre le revenu mensuel
et les dpenses mensuelles pour le transport. Pour cela, on a choisi un
chantillon de dix employs.
Les rsultats de lenqute sont dans le tableau suivant :
X = Rev mes en Dh 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5
Y= Dp en trans en Dh 500 500 475 450 570 525 725 300 625 800

1) Calculer lquation de la droite de rgression.

25
2) Estimer les dpenses en transport pour quelquun qui a un revenu
mensuel de 2500 DH.
3) Calculer le coe cient de corrlation.
4) Que peut-on dire de lestimation de la question 2.
Solution :
xi yi x2i yi2 xi yi
3 500 9 25000 1500
3.5 500 12.5 25000 1750
4 475 16 225625 1900
4.5 450 20.25 202500 2025
5 570 25 324900 2850
5.5 525 30.25 275625 2887.5
6 725 36 275625 4350
6.5 300 42.25 90000 1950
7 625 49 390625 4375
7.5 800 56.25 640000 6000
52.5 5470 266.25 3174900 29587.5
Lquation de la droite est donc y = 325:56 + 42:18 x
2) Si x = 2; 5 alors y = 325; 56 + 42; 18 2; 5 = 431; 01 DH
cov (x; y)
3) Le coe cient de corrlation : r = : O cov(x; y) = xy
s (x) s (y)
x:y , s2 (x) = x2 (x)2 et s2 (y) = y 2 (y)2 :

donc il y a une faible corrlation linaire entre x et y.

26
LES PROBABILITES

Introduction.
Aprs avoir appris traiter les rsultats dune enqute sur un chan-
tillon ( la premire partie) nous allons maintenant passer la question
importante, savoir, comment gnraliser les rsultats obtenus sur un
chantillon toute la population (statistique inductive). Pour cela nous
avons besoin de quelques notions en calcul des probabilits. Le prsent
chapitre sera donc juste un outil pour pouvoir aborder la statistique in-
ductive.
1 : Notions fondamentales.
Une exprience alatoire est un processus caractris par:

- i) on ne peut prdire son rsultat,


- ii) on peut dcrire priori lensemble de tous ses rsultat possibles.
Exemple 1
- Un investissement est une exprience alatoire dont les rsultats possi-
bles sont, soit R=rentable, soit N=non rentable.
- Lancer un d est une exprience alatoire dont les rsultats sont 1,2,3,4,5
ou 6.

Lespace chantionnal S associ une exprience alatoire est lensemble


de tous les rsultats possibles de cette exprience.
Exemple 2
- Dans le cas dun investissement S = fN,Rg
- Dans le cas du d, on a S = f1; 2; 3; 4; 5; 6g
Un vnement est un sous-ensemble de lespace S
27
On dira quun vnement A sest ralis lorsque le rsultat de exprience
alatoire est un lment de A:
Exemple 3
- Dans le cas du d, considrons lvnement A = obtenir une face paire.
On a A = f2; 4; 6g, et lvnement A sera ralis si le rsultat est 2 ou
4 ou 6.
Lvnement S est appel lvnement sr ( ou certain )
Lvnement ; est appel lvnement impossible.
Lorsquun vnement est compos dun seul lment, il est dit lmen-
taire.
Si A et B sont deux vnements alors,
- A [ B est lvnement qui se ralise si au moins un de ces deux vne-
ments se ralise
- A \ B est lvnement qui se ralise les deux vnements se ralisent.
- A (lire non A) est lvnement qui se ralise si lvnement A ne se
ralise pas.
2 : Probabilit dun vnement.
Une probabilit p sur un espace chantionnal S est une application qui
associe chaque vnement A un nombre p(A) vriant :
i) 0 p(A) 1
ii) p(S) = 1
iii) p(A [ B) = p(A) + p(B) pour tous les vnements A et B tels que
A \ B = ;:
2.1 Consquences immdiates.
_
a) Pour tout vnement A on a p(A) = 1 p(A)
b) On a toujours p(;) = 0

28
c) On a toujours p(A [ B) = p(A) + p(B) p(A \ B) quels que soient
les vnements A et B:
2.2 Cas particulier dquiprobabilit.
Lors dune exprience alatoire, il arrive souvent (pour des raisons physiques)
que les vnements lmentaires aient la mme chance de se raliser. Dans
ce cas on dit quil y a quiprobabilit des vnements lmentaires.
Si lespace chantionnal est S = fr1; r2; :::; rng et si A est un vnement
quelconque, p(A) est dni, dans le cas dquiprobabilit, par

card(A) nombre de cas favorables la ralisation de A


p(A) = =
card(S) nombre de cas possibles

On vrie facilement que


i) 0 p(A) 1
ii) p(S) = 1
iii) p(A [ B) = p(A) + p(B) si A \ B = ;
1 1
Donc on a bien une probabilit sur S et p(frig) = = :
card S n
Exemple 1.
On lance un d quilibr.
1) Calculer la probabilit davoir un rsultat pair.
2) Calculer la probabilit davoir un rsultat impair.
Solution :

29
On a S = f1; 2; 3; 4; 5; 6g : Puisque le d est quilibr, alors on peut
supposer quil ya quiprobabilit des vnements lmentaires.
Appelons A lvnement avoir un rsultat pairet B lvnement avoir
un rsultat impair. On a A = f2; 4; 6g et B = f1; 3; 5g
card A 3 1 card B 3 1
p(A) = = = et p(B) = = = :
card S 6 2 card S 6 2
Exercice 1
On lance une pice de monnaie quilibre 3 fois da le, et on observe
chaque fois le ct quelle prsente lorsquelle tombe.
1) Calculer la probabilit dobtenir au moins une fois le ct face.
2) Calculer la probabilit dobtenir exactement deux fois le ct face.
Solution :
Lespace chantillonnal est S = fF F F; F F P; F P F; F P P; P F F; P F P; P P F; P P

Comme la pice est quilibre, on peut supposer quil y a quiprobabilit


des vnements lmentaires.
1) Appelons A lvnement obtenir au moins une fois le ct face
On a

A = fF F F; F F P; F P F; F P P; P F F; P F P; P P F g
card A 7
et p(A) = = :
card S 8
Remarque 1 Pour calculer
_
p(A) il est parfois plus simple_dutiliser la
proprit p(A) = 1 p(A). En eet; dans le cas prsent on a A = fP P P g
1 7
donc p(A) = 1 =
8 8
2) Appelons B lvnement avoir exactement 2 fois le ct face

30
3
On a B = fF F P; F P F; P F F g donc p(B) = :
8
3:Analyse combinatoire:
Le cardinal de certains vnements complexes est souvent di cile cal-
culer. Les techniques danalyse combinatoire, que nous allons voir main-
tenant, vont nous faciliter cette tche dans beaucoup de cas.

3.1 Les arrangements.


Considrons un ensemble ni E n lments, et un entier p n: On
appelle arrangement de p lments pris parmi n, toute suite ordonne de
p lments dirents forme partir des n lments de E:
Exemple 2.
Soit E = fa; b; c; dg : Les dirents arrangements de 2 lments pris
parmi les 4 lments sont :
ab ac ad ba bc bd ca cb cd da db dc. Il y en a 12.
Thorme 1 :
Le nombre darrangements de p lments pris parmi n, not Apn, est donn
par :

n!
Apn =
(n p)!

o n! = 1 2 ::: n et par convention on pose 0! = 1


Exemple 3.
A24 est le nombre darrangements de 2 lments pris parmi 4.
4! 4!
A24 = = =3 4 = 12 cest ce quon a trouv dans lexemple
(4 2)! 2!
prcdent.
31
Exercice 2.
Au tierc, supposons quil ya 12 partants et quil ne peut y avoir dex
aequo.
1) Calculer la probabilit de gagner dans lordre si lon a pari une seule
fois sur 3 numros
2) Calculer la probabilit de gagner dans lordre ou dans le dsordre si
lon a pari une seule fois sur 3 numros.
Solution
Le rsultat de la course est un arrangement de 3 numros pris parmi 12.
12!
Donc card(S) = A312 = = 12 11 10 = 1320
9!
Supposons quil y a quiprobabilit des vnements lmentaires.
1) Posons A lvnement gagner dans lordre, on a card(A) = 1 ( il y
1
a un seul arrangement gagnant) , donc p(A) = = 0; 00075
1320
2) Si abc est le rsultat dans lordre alors acb; bac; bca; cab et cba sont
gagnant dans le dsordre . Au total il y a 6 arrangements gagnant dans
lordre ou dans le dsordre. La probabilit cherche est donc gale
6
= 0; 0045:
1320
3.2 Les permutations
- On appelle permutation de n lments de E , tout arrangement de n
lments pris parmi les n lments de E.
n!
- Le nombre de permutations de n lments est donc Ann = =
(n n)!
n!
= n!
0!
3.3 Les combinaisons.
- Considrons un ensemble ni E n lments, et un entier p n: On

32
appelle combinaison de p lments pris parmi n, tout ss-ensemble de p
lments dirents form partir des n lments de E:
Exemple 4.
Soit E = fa; b; c; dg
Les dierentes combinaisons de 2 lments pris parmi les 4 lments de
E sont :
fa; bg , fa; cg , fa; dg , fb; cg , fb; dg , fc; dg
Rappelons que dans un ensemble lordre dans lequel on crit les lments
na aucune importance.
Thorme 2 :
Le nombre de combinaisons de p lments pris parmi n, not Cnp; est
donn par

n!
Cnp =
p!(n p)!

Exemple 5.
Au jeu Loto, le parieur doit faire une slection de 6 numros parmi les
nombres de 1 49.
De combien de faons peut-il faire une mise?
Solution :
Une slection est une combinaison de 6 lments pris parmi les 49 ( car
6 49!
lordre na aucune importance). Il y a donc C49 = = 13983816
6!(49 6)!
faons de faire une mise.
1
La probabilit de gagner avec une mise est = 0; 000000071
13983816
4: Probabilit conditionnelle
33
Soit A un vnement dans le cadre dune exprience alatoire, et B
un vnement non impossible ( i.e p(B) 6= 0 ); alors la probabilit de
lvnement A sachant que lvnement B est dj ralis , note p(A=B)
, est donne par

p(A \ B)
p(A=B) =
p(B)

p(A=B) sappelle la probabilit de A par rapport B:

Exercice 1
Le tableau suivant prsente le comportement dun chantillon de touristes
par rapport une compagne publicitaire en faveur dun circuit de ran-
donn.
les touristes qui ont choisi le circuit nont pas choisi le circuit total
ont vu la pub 15 30 45
nont pas vu la pub 15 60 75
total 30 90 120

Si lon considre au hasard un touriste de cette chantillon :


1) Quelle est la probabilit quil ait choisi le circuit ?
2) Quelle est la probabilit quil ait choisi le circuit si elle a vu la public-
it?
3) Est-ce que la publicit a eu des eets positifs sur les touristes?
Solution
- Lchantillon contient 120 touristes au total; parmi elles 30 ( au total )
ont choisi le circuit.
1) Si on choisit un touriste au hasard ( sans aucune information suppl-

34
30 1
mentaire) la probabilit quil ait choisi le circuit est =
120 4
2) Si on choisit un touriste au hasard et si on sait quelle a vu la publicit
(il y en a 45 au total qui ont vu la pub parmi lesquelles 15 ont choisi le
circuit ) alors la probabilit quelle ait achet est 15 1
45 = 3

3) Puisque 13 > 14 donc la probabilit quun touriste choisi le circuit aprs


avoir vu la pub est suprieur la probabilit quun touriste prise au
hasard choisi le circuit; donc la publicit a eu des eets positifs sur les
touristes.
5 Les variables alatoires (v.a)
Soit S lespace chantionnal associ une exprience alatoire. Une
variable alatoire est une fonction de S dans R .
Gnralement une v.a sera dsign par X; Y; Z ou T:
Exemple 1
On lance une pice de monnaie trois fois, alors on a vu que

S = fF F F; F F P; F P F; F P P; P F F; P F P; P P F; P P P g

On peut considrer la v.a X qui compte le nombre de faces, on alors


X(F F F ) = 3 ; X(F F P ) = 2 ; X(F P F ) = 2; ::::X(P F P ) = 1 ; X(P P P ) =
0
Les valeurs possibles de X sont 0; 1; 2 et 3

5.1 Nouvelle notation pour les venements


Soit X une v.a . lcriture (X = a) dsignera lvnement f! 2 S : X(!) = ag

Exemple 2
Dans le cadre de lexemple prcdent on a :
35
(X = 3) = fF F F g ; (X = 2) = fF F P; F P F; P F F g ; (X = 1) =
fP F P; P P F; F P P g et (X = 0) = fP P P g :
1
- On peut donc parler de p(X = a); par exemple on a p(X = 3) = ;
8
3 3 1
p(X = 2) = ; p(X = 1) = et p(X = 0) =
8 8 8
- De mme on note par (X a); (a X b) ou (a X) les
vnements suivants:
(X a) = f! 2 S : X(!) ag

(a X b) = f! 2 S : a X(!) bg
(X a) = f! 2 S : X(!) ag :
Exemple 3
Toujours dans le cadre de lexemple prcdent on a
4 1
(X 1) = fP P P; P F P; P P F; F P P g et p(X 1) = = :
8 2
5.2 Remarque :
a) Comme pour les variables statistiques quantitatives, il y a deux types
de v.a : discrtes et continues.
b) Une v.a est discrte si lensemble des valeurs quelle peut prendre
est ni ou dnombrable, par contre si lensemble des ses valeurs est un
intervalle, elle sera dite continue.

36
LES LOIS D0USAGE COURANT

Dans ce chapitre, nous allons tudier trois exemples importants de vari-


ables alatoires obissant aux lois suivantes: binomiale, de Poisson et la
loi normale.

1 Variable alatoire discrte


Soit X une v.a discrte pouvant prendre les valeurs x1; x2; :::; xn . Posons
p(X = xi) = pi pour i = 1; 2; :::; n.
On appelle loi de la variable X (ou distribution de probabilit de X) le
tableau suivant:
X x1 x2 .... xn
p(X = xi) p1 p2 .... pn

Remarquons que cela est identique une distribution de frquences pour


une variable statistique o les probabilits pi remplacent les frquences
fi
relatives :
n
De mme que pour une variable statistique, on peut calculer la moyenne,
la variance et lcart-type dune v.a.
- La moyenne, appele aussi lesprance mathmatique et note E(X);dune
v.a X est dnie par

n
X
E(X) = pi xi
i=1

o les xi sont les valeurs de X et pi = p(X = xi) pour i = 1; 2; :::; n.


- La variance de X , note V ar(X) , est dnie par :

37
V ar(X) = E(X 2 ) (E(X))2

- Lcart-type de X , not (X); est dni comme la racine carre de la


variance:

p
(X) = V ar(X)

2 La loi binomiale.
Considrons une exprience qui na que deux rsultats possibles dont lun
est appel R (russite) et lautre est appel E (chec), avec p(R) = p et
p(E) = 1 p = q:
Ce genre dexprience sappelle exprience de Bernoulli.
Rptons cette exprience n fois et considrons la variable alatoire X
qui compte le nombre de russites au cours des n essais. Alors les valeurs
possibles pour X sont 0; 1; 2; :::; n; et on dmontre que la loi de probabilit
de X est donne par :

p(X = k) = Cnk pk q n k
k = 0; 1; 2; :::; n:

p(X = k) reprsente la probabilit davoir k russites aprs n essais.


Cette v.a est dite suivre la loi binomiale de paramtres n et p, et pour
dire cela en abrg on note X B(n; p)

On montre que si X B(n; p) alors


E(X) = np , V ar(X) = npq et
p
(X) = npq

Exemple 1.

38
Calculer la probabilit dobtenir 6 bonnes rponses dans un test de 10
questions o il y a 4 choix de rponses pour chacune delles, si lon choisit
les rponses tout fait au hasard.
Solution
Lexperience rpondre une question au hasard na que deux rsul-
1
tats:ou bien la rponse est juste R (russite) avec la probabilit ; ou
4
3
bien la rponse est fausse E (chec) avec la probabilit :
4
Cette experience se rpte 10 fois dans le test.
Considrons maintenant la v.a X qui compte le nombre de bonnes rponses.
Il est clair que
1
X B(n = 10; p = ):
4
La probabilit davoir 6 bonnes rponses est donc donne par p(X = 6):

6 1 6 3 10 6
On a alors p(X = 6) = C10 ( )( ) = 0; 0162
4 4
Exercice 1
Dans le cadre de lexemple prcdent, calculer :
1) la probabilit de navoir aucune bonne rponse,
2) la probabilit davoir au moins cinq bonnes rponses.
Solution
1) la probabilit de navoir aucune bonne rponse est donne par p(X =
0):

0 1 0 3 10
On a p(X = 0) = C10 ( ) ( ) = 0; 0563:
4 4
2) la probabilit davoir au moins 5 bonnes rponses est donne par

39
p(X 5):
Or p(X 5) = p(X = 5) + p(X = 6) + p(X = 7) + p(X = 8) + p(X =
9) + p(X = 10)
Pour acclrer ces calculs, on dispose dune table ( la n du livre) don-
nant les valeurs numriques de p(X = k) pour certaines valeurs de n et
p.
Aprs lecture de la table , on trouve
p(X 5) = 0; 0584+0; 0162+0; 0031+0; 0004+0; 000+0; 000 = 0; 0781
3 La loi de Poisson
Considrons un vnement R dont on sait (par exprience) quil se ralise
en moyenne fois dans un intervalle de temps t (ou dans une rgion D)
donn. Alors la v.a X qui compte le nombre de ralisation de lvnement
R dans lintervalle de temps t (ou dans la rgion D) a pour loi de
probabilit :

k
p(X = k) = e :
k!
pour k = 0; 1; 2; :::
p(X = k) est la probabilit que lvnement R se ralise k-fois dans
lintervalle de temps t (ou dans la rgion D)
Une telle v.a est dite suivre la loi de Poisson de paramtre ; et pour
exprimer cela on crit X Po( ):
p
On montre que si X Po( ) alors E(X) = V ar(X) = et (X) =
Exemple 2
On sait quil y a en moyenne 0; 2 avion qui atterrie laroport dAgadir
par minute. Soit X la variable alatoire qui compte le nombre davions
qui atterrissent Agadir par minute.
1) Quelles sont les caractristiques et la loi de probabilit de la variable
40
alatoire X ?
2) Quelle est la probabilit quil ny ait aucun avion qui atterrie Agadir
par minute?
3) Quelle est la probabilit quil y ait au moins un avion qui atterrie
Agadir en cinq minutes?
4) Quelle est la probabilit quil y ait au plus deux avions qui atterrissent
laroport dAgadir en quinze minutes?

3.1 Remarque importante


Soit X Po( ) . Il arrive souvent quon cherche la probabilit de voir
se raliser lvnement R en question pendant n t (ou dans la rgion
nD). Alors dans ce cas la v.a Y qui compte le nombre de ralisation de
R pendant n t ( ou nD) suit la loi Po(n ):

4 Variable alatoire continue


La loi de probabilit dune variable alatoire X continue est donne par
une fonction f appele densit de probabilit de X: Elle est reprsente
par une courbe continue et la probabilit p(a X b) est donne par la
surface comprise entre la courbe de f , laxe Ox et les droites verticales
x = a et x = b cest dire :
Z b
p(a X b) = f (x)dx:
a

La surface totale entre la courbe de f et laxe des x est videmment


gale 1
On dnit lesprance mathmatique, la variance et lcart type dune
variable continue comme suit:

41
Z +1
E(X) = xf (x)dx
1

Z +1
V ar(x) = x2 f (x)dx (E(x))2 = E(X 2 ) (E(X))2
1

p
(X) = V ar(X)

Dans la suite on aura besoin de la dnition suivante:


Une variable alatoire est dite centre si E(X) = 0 et elle est dite rduite
si V ar(X) = 1:
Si on a la fois E(X) = 0 et V ar(X) = 1 , elle sera dite centre rduite.
4.1 Remarque importante
Soit X est une v.a quelconque telle que E(X) = et (X) = ; alors la
X
variable Z = est une variable alatoire centre rduite cest-dire
que E(Z) = 0 et (Z) = 1
4.2 La loi normale centre rduite.
Une variable Z est dite normale centre rduite si sa densit de proba-
bilit est donne par :

x2
1
f (x) = p e 2
2

Pour dire quune variable alatoire Z suit une loi est normale centre
rduite, on crit

Z N (0; 1)

4.3 Propriets

42
La courbe de f est symtrique par rapport laxe des y car f est une
fonction paire.
La surface comprise entre la courbe et laxe des x est comme on la dj
dit est gale 1, donc laxe des y divise cette surface en deux parties
gales chacune vaut 0; 5
Pour calculer une probabilit, lorsque Z N (0; 1) , on se sert dune
table. Cette table donne seulement p(Z z0) pour z0 > 0 . cest--dire
elle donne la surface hachure.
Pour comprendre comment lire la table voici un exemple
Exemple 1.
Soit Z N (0; 1): Calculer p(Z 1; 65):
On utilise la table comme suit: on crit 1; 65 = 1; 6 + 0; 05. Puis au
croisement de la ligne 1; 6 et la colonne 0; 05 on lit la probabilit
p(Z 1; 65) = 0; 9505:

Pour calculer toutes les probabilits, mme celles qui ne sont pas donnes
par la table, par exemple p(Z 1; 65) ou p(Z 1; 36), on utilise les
propriets de f . Voici comment :
4.4 Calcul de p(Z z0) avec z0 ngatif.
Il est donn par la formule suivante :
p(Z z0 ) = 1 p(Z z0 ) ( z0 0)

La table nous donne p(Z z0) pour z0 0.

4.5 Calcul de p(Z z0). Il est donn par la formule suivante :

p(Z z0 ) = 1 p(Z z0 )

4.6 Calcul de p(z0 Z z1). Il est donn par la formule suivante


:
43
p(z0 Z z1 ) = p(Z z1 ) p(Z z0 )

44
ECHANTILLONNAGE ET ESTIMATION

Dans ce chapitre on va aborder le problme fondamental de la statis-


tique, savoir dvelopper des procds permettant de gnraliser toute
la population des rsultats observs sur un chantillon, tout en tant ca-
pable de mesurer les chances que ces gnralisations savrent exactes.
1: Echantillon alatoire
Dans la pratique, il est souvent impensable de faire porter notre tude
statistique sur lensemble de tous les individus de la population. On
procde alors par chantillonnage, cest--dire que lon restreint notre
tude une partie de la population.
Pour que les conclusions de notre tude soient valables, les chantil-
lons doivent tre reprsentatifs. Une des faons dobtenir un chantillon
reprsentatif est de procder un chantillonnage alatoire, ce qui re-
vient considrer que les individus de la population ont la mme chance
dappartenir un mme chantillon. Enn, pour obtenir un chantillon
alatoire, on attribue un numro chaque individu de la population; on
inscrit ces numros sur des petits morceaux de papier que lon place dans
une urne, puis on procde un tirage dans lurne.
Quand on a extrait un individu dune urne, avant de procder un nou-
veau tirage, on peut soit ly remettre (tirage avec remise), soit ne pas ly
remettre(tirage sans remise). Dans le deuxime cas, un individu ne peut
sortir quune seule fois.
Quand chaque individu dune population peut tre tir plus dune fois,
lchantillonnage est dit non exhaustif, dans le cas contraire il est dit
exhaustif.
2 Distribution dchantillonnage des moyennes
Supposons quun certain caractre numrique dans une population a
pour moyenne et dcart-type :
Considrons tous les chantillons de taille n, qui peuvent tre extrait au
hasard (avec ou sans remise).

45
Dsignons par x1; x2; ::: les moyennes du caractre dans lchantillon
1,2,...etc.
Considrons la variable alatoire X dont les valeurs possibles sont x1; x2; :::

La variable alatoire X sappelle distribution dchantillonnage des moyennes.

On montre les deux thormes suivants :


Thorme 1: Les caractristiques de X
a) Si le tirage est exhaustif dans une population de taille N , on a :
r
N n
E( X) = et ( X) = p
n N 1

b) Si le tirage est non exhaustif on a :

E( X) = et ( X) = p
n

Thorme 2: La loi de X
Si le caractre est normalement distribu dans la population ou si n 30.
Alors X suit la loi normale c--d X N ( ; 2(X))
Remarque.
r
N n
Le facteur qui sappelle facteur dexhaustivit peut tre pris
N 1 r
N n
gal 1 si n 0; 05N: Autrement dit = 1 si la taille de
N 1
lchantillon est infrieur 5% de la population.

46
Exemple 1
Supposons que le poids dune population de 60 tudiants dune universit
est normalement distibu avec une moyenne = 64 kg et une variance
2
= 20 kg2:
Un chantillon de 20 tudiants a t tir.
1) Trouver les caractristiques et la loi de probabilit de la distribution
dchantillonnage des moyennes X si le tirage a t eectu avec remise.
2) Mme question pour un tirage sans remise.
3) Trouver la probabilit quun chantillon de taille 20 tir avec remise
ait une moyenne suprieure ou gale 66 kg.
4) Trouver deux valeurs L1 et L2 situes distance gale de part et
dautres de = 64 telles que la probabilit que la moyenne dun chan-
tillon non exhaustif de 20 tudiants reste entre ses deux valeurs soit 0; 95.
Solution.
1) On est dans le cas non exhaustif, donc les caractristiques de X sont
( voir thorme 1)
p
20
E( X) = = 64 kg et ( X) = p = p = 1
n 20
Puisque la population est distribue normalement alors X N( ;
2
(X)) (voir thorme 2)

Donc ici X N (64 ; 1)

2) Si le tirage estpexhaustif
r alors le thorme 1 nous dit que E( X) = 64
20 60 20
kg et ( X) = p
20 60 1
ce qui donne ( X) = 0; 8234

47
2
Le thorme 2 nous assure que X N (64 ; (X) = 0; 6779)

3) Puisque le tirage est avec remise alors on est dans le cadre de la


question 1) donc X N (64; 1): La probabilit demande est P (X 66):
Pour la calculer faisons le changement de variable habituel
X X 64
Z= = donc X = Z + 64
(X) 1
On sait que dans ce cas Z N (0; 1)

P (X 66) = P (Z + 64 66)
= P (Z 2)
=1 P (Z 2)
=1 0; 9772
= 0; 0228:
4) La question signie quil faut chercher L1 et L2 telles que 64 L1 =
L2 64 et P (L1 X L2) = 0; 95 avec X N (64; 1) puisque le
tirage est avec remise.
X X 64
Pour cela posons encore Z = = donc X = Z + 64 On
(X) 1
a
0; 95 = P (L1 X L2 )
= P (L1 Z + 64 L2 )
= P (L1 64 Z L2 64) .
Puisque L1 et L2 doivent tre sym triques par rapport la moyenne
= 64 de X alors pour la variable alatoire Z ceci revient chercher t
> 0 tel que P ( t Z t) = 0; 95:
Dans ce cas on a :
48
P( t Z t) = P (Z t) P (Z t) = P (Z t)
[1 P (Z t)] = 0; 95
1+0;95
donc, P (Z t) = 2 = 0; 975
La table de la loi normale nous donne t = 1; 96 et par suite
On peut crire donc P (62; 04 X 65; 96) = 0; 95
Autrement dit lintervalle [62; 04 ; 65; 95] possde 95% de chance de con-
tenir la moyenne dun chantillon non exhaustif de taille 20.
Exercice 1
La dure de vie moyenne des ampoules lectriques produites par une usine
est de 800 heures avec un cart-type =40 heures: De cette population on
tire un chantillon de taille 25 pris sans remise(exhaustif). Trouver, en
supposant que la dure de vie des ampoules est distribue normalement:
1) P (X 785)

2) P (790 X 810)

3) L1et L2 symtriques par rapport = 800 telles que P (L1 X


L2) = 0; 90:
Exercice 2
Les rsultats de 200 tudiants un test de mathmatiques prsentent une
moyenne de 75 sur 100 et un cart-type de 10 . De cette population , on
prlve , sans remise, un chantillon de taille 50. Trouver:
1) La probabilit que le rsultat moyen de cet chantillon se situe entre
74 et 76.
2) Les limites L1 et L2 dun intervalle symtrique par rapport la
moyenne qui possde 99% des chances de contenir la moyenne de cet
chantillon.
Solutions
Exercice 1

49
On a = 800 h et = 40 h
Le tirage est exhaustif, donc on doit tenir compte du facteur dexhaustivit
puisque n = 25 < 30 . Mais on peut considrer que la population est
trs grande, donc n < 0; 05N (ce qui est logique puisque 25 ampoules
reprsente certainement moins de 5% de la production de lusine) et par
suite le facteur dexhaustivit peut tre pris gal 1. Do
40
E(X ) = 800 h et (X) = p = p = 8
n 25
La population est suppose normale donc X N (800 ; 64)

X X 800
Posons Z = = donc X = 8Z + 800 avec Z
(X) 8
N (0 ; 1)

1) P (X 785) = P (8Z + 800 785) = P (Z 1; 88) = 1 P (Z


1; 88) = 1 0; 9699 = 0; 0301:

2) P (790 X 810) = P (790 8Z + 800 810)


= P ( 1; 25 Z 1; 25)
= P (Z 1; 25) P (Z 1; 25)
= P (Z 1; 25) [1 P (Z 1; 25)]
= 2P (Z 1; 25) 1
= 2(0; 8944) 1
= 0; 7888
Cette probabilit signie quil y a 78; 88% de chances que la moyenne
dun chantillon exhaustif de taille 25 soit dans lintervalle [790 ; 785]
3) De la mme faon que dans lexemple du cours, on a :

50
L1 800
P (L1 X L2) = P (L1 8Z + 800 L2 ) = P ( Z
8
L2 800
) = 0; 90
8
Cherchons t > 0 tel que P ( t Z t) = 0; 90
1 + 0; 90
Ceci est quivalent P (Z t) = = 0; 95: la valeur de t la
2
plus proche dans la table est t = 1; 65
L1 800 L2 800
= 1; 65 et = 1; 65 Donc L1 = 786; 8 et L2 =
8 8
813; 2
Ceci signie quil y a 90% de chances que la moyenne dun chantillon de
taille 25 soit dans lintervalle [786; 8 ; 813; 2] :
Exercice 2
On a = 75 ; = 10 ; n = 50 et N = 200
r
N n
Le tirage est exhaustif donc E(X) = 75 et (X) = p =
r n N 1
10 200 50
p ' 1; 23
50 200 1

Puisque n = 50 > 30 alors X N (75 ; (1; 23)2)

X 75
Posons comme toujours Z = donc X = 1; 23Z+75 et Z
1; 23
N (0 ; 1)

1) P (74 X 76) = P (74 1; 23Z + 75 76)


74 75 76 75
= P( Z )
1; 23 1; 23
= P ( 0; 81 Z 0; 81)

51
= P (Z 0; 81) P (Z 0; 81)
= P (Z 0; 81) [1 P (Z 0; 81)]
= 2P (Z 0; 81) 1
= 2(0; 7910) 1
= 0; 5820

2) P (L1 X L2) = 0; 99
L1 75 L2 75
P (L1 1; 23Z + 75 L2 = 0; 99 =) P ( Z )=
1; 23 1; 23
0; 99
On cherche t > 0 tel que P ( t Z t) = 0; 99 et comme avant ceci
revient rsoudre lquation
1 + 0; 99
P (Z t) = = 0; 995 . La table de la loi normale nous donne
2
t = 2; 58 (la valeur la plus proche)
Donc
L1 75 L2 75
= 2; 58 et = 2; 58 =) L1 = 1; 23( 2; 58) + 75 = 71; 83L2 =
1; 23 1; 23
Lintervalle [L1 ; L2] a 99% de chances de contenir la moyenne dun
chantillon exhaustif de taille 50.
3 Estimation par intervalle de conance de la moyenne
Lors dune tude statistique, en gnral la moyenne de la population est
inconnue. Le problme qui nous intersse ici est de trouver un intervalle
[L1 ; L2] tel que la probabilit que appartienne cet intervalle soit
xe davance.
Dnition 1
On appelle intervalle de conance, un intervalle de la forme [L1 ; L2]
symtrique par rapport ayant une certaine probabilit de contenir

52
la moyenne :
Dnition 2
On appelle niveau de conance, not 1 , la probabilit qu lintervalle
de conance de contenir la moyenne : Le nombre sappelle le risque
derreur.
Mthode de calcul de L1 et L2
Si n 30 , ou si la population est distribue normalement avec connu,
on sait que dans ce cas que X N ( ; 2(X)):

X
Posons Z = , on sait qualors Z N (0; 1)
(X)
1eretape: on cherche dabord t > 0 tel que P ( t Z t) = 1 .
Voici comment:
On a P (Z t) P (Z t) = 1

P (Z t) [1 P (Z t)] = 1 donc P (Z t) = 1 et t
2
sera donn par la table de la loi normale.
X
2emetape: Une fois que t est connu, on peut crire que P ( t
(X)
t) = 1 donc
P (X t (X) X + t (X)) = 1

Pour un chantillon, la variable alatoire X prend la valeur x, donc

L1 = x t (X) L2 = x + t (X)

Si est inconnu, alors on peut prendre une valeur estim ponctuelle


pour ; cest--dire lcart-type trouv dans lchantillon.
Remarque
Pour le calcul de lintervalle de conance [L1; L2] on prendra les valeurs
de t suivantes:
53
t = 2; 58 si = 1%
t = 1; 96 si = 5%
t = 1; 65 si = 10%
Exemple
Une machine est rgle pour verser un certain mlange dans une boite
avec un cart-type de 3; 2 grammes. Parmi lensemble de la production,
on prlve au hasard, avec remise, 30 boites pour chacune delles on a not
le poids. Sachant que le poids moyen obtenu partir de lchantillon est
165 grammes, construire un intervalle de conance 95% pour le poids
moyen des boites remplies par cette machine.
Solution :
On a et L1 = x t (X) et L2 = x + t (X) avec x = 165g et
3; 2
puisque le tirage est non exhaustif alors (X) = p = p = 0; 584::
n 30
Comme 1 = 0; 95 alors = 0; 05 = 5% donc t = 1; 96
Donc L1 = 165 (1; 96)(0; 584) = 163; 86
L2 = 165 + (1; 96)(0; 584) = 166; 14
On a donc P ( 2 [163; 86 ; 166; 14]) = 0; 95
Autrement dit, on a 95% de chances que la moyenne appartienne
lintervalle [163; 86 ; 166; 14] :
Exercice 1
Etandonn que la moyenne et lcart-type de la dure de vie dun
tube cran de tlvision fabriqu par une compagnie sont inconnus, on
a prelev au hasard dans la production un chantillon de taille 36 pour
lequel on a obtenu une moyenne de 6 ans et un cart-type de 0; 8 an .
Construire un intervalle de conance 95% pour puis un intervalle de
conance 99%:
Exercice 2

54
Dans le but de se faire une ide sur le cacit dun nouveau mdicament
devant prolonger la dure du sommeil des gens, on a administr une dose
de ce mdicament 40 individus choisis au hasar. On a obtenu un temps
supplmentaire moyen de sommeil de 1; 6 heures avec un cart-type de
0; 4 heure pour ces individus. Construire un intervalle de conance
99% pour , le temps moyen de prolongation de sommeil caus par le
mdicament.
Solution :
Exercice 1
On a n = 36 ; x=6 et lcart-type de lchantillon s = 0; 8:
s
On a aussi L1 = x t (X) et L2 = x + t (X) o (X) = p =
n
0; 8
p = 0; 133::
36
Ici on a pas tenu compte du facteur dexhaustivit car on peut considrer
que la population est trs grande, et par suite la taille de lchantillon
reprsente moins de 5% de la taille de la population.
- Si = 5% alors t = 1; 96 donc
L1 = 6 (1; 96)(0; 133) = 5; 74
et
L2 = 6 + (1; 96)(0; 133) = 6; 26
Do P ( 2 [5; 74 ; 6; 26]) = 0; 95
- Si = 1% alors t = 2; 58 donc
L1 = 6 (2; 58)(0; 133) = 5; 66
L2 = 6 + (2; 58)(0; 133) = 6; 34
Do P ( 2 [5; 66 ; 6; 34]) = 0; 99
Exercice 2

55
s 0; 4
On a n = 40 ; x = 1; 6 et s = 0; 4 donc (X) = p p = 0; 06
n 40
Pour = 1% on a t = 2; 58 donc
L1 = x t (X) = 1; 6 (2; 58)(0; 06) = 1; 45

L2 = x + t (X) = 1; 6 + (2; 58)(0; 06) = 1; 75


Donc P ( 2 [1; 45 ; 1; 75]) = 0; 99
4 Distribution dchantillonnage des proportions
Considrons une population dans laquelle chaque individu possde ou
ne possde pas un caractre. Supposons que la proportion de ceux qui
possdent le caractre est p ( donc la proportion de ceux qui ne possdent
pas le caractre est 1 p)
Considrons tous les chantillons de taille n qui peuvent tre extrait de
la population . Pour chaque chantillon i dterminons la proportion fi
de ceux qui possedent le caractre.
La variable alatoire F dont les valeurs sont f1; f2; ::: est appele dis-
tribution dchantillonnage des proportions.
On a les thormes suivants:
Thorme 1
Si le tirage est sans remise (exhaustif) dans une population de taille N
alors
r r
p(1 p) N n
E(F ) = p et (F ) =
n N 1
Sinon on a
r
p(1 p)
E(F ) = p et (F ) =
n
Thorme 2

56
2
Si n 30 alors F N (p ; (F ))
Remarque
r
N n
Si n < 0; 05N le facteur dexhaustivit peut tre pris gal
N 1
1:
Exercice 1
Une certaine machine usine des pices. Dune faon gnrale, elle produit
3% de pices mauvaises. Un client reoit une caisse de 500 pices, en
provenance directe de la machine.
1) Quelle est la probabiulit quil trouve moins de 1% de pice mauvaises
linterieur de la caisse.
2) Quelle est la probabiulit quil trouve plus de 5% de pice mauvaises
linterieur de la caisse
Exercice 2
Calculer la probabilit pour que sur les 200 prochains accidents de
voiture sur les routes, il existe:
1) moins de30% dhommes,
2) plus de 80% dhommes
3) entre 40% et 60% dhommes sachant que, gnralement, sur cinq per-
sonnes accidentes il y a une femme.
Solution :
Exercice 1
Dune faon gnrale, la proportion de pices mauvaises est p = 3% =
0; 03: On peut considrer que lchantillon provient dune population trs
grande (donc n 0; 05N ) . La distibution dchantillonnage des propor-
tions F a donc les caractristiques suivantes:

57
r
p(1 p)
E(F ) = p = 0; 03 ; (F ) = =
r n
0; 03(1 0; 03)
' 0; 0076
500
F N (0; 03 ; (0; 0076)2)
F 0; 03
1) On doit calculer P (F < 0; 01); Pour cela posons Z =
0; 0076
On a P (F < 0; 01) = P (0; 0076Z + 0; 03 < 0; 01) = P (Z < 2; 63) =
1 P (Z < 2; 63) = 0; 0043:
2) La probabilit que le client trouve plus de 5% de pices mauvaises est
donne par P (F > 0; 05):
On a P (F > 0; 05) = P (0; 0076Z + 0; 03 > 0; 05) = P (Z > 2; 63) =
1 P (Z < 2; 63) = 0; 0043:
Exercice 2
4
Dsignons par p la proportion dhommes accidents. On a p = 5 = 0; 8:
On peut considrer que lchantillon de taille n = 200 provient dune
population trs grande (donc n < 0; 05N ), ce qui permet de prendre
le facteur dexhaustivit gal 1. La distribution dchantillonnage des
proportions a donc les caractristiques suivantes:
r r
p(1 p) 0; 8(1 0; 8)
E(F ) = 0; 8 ; (F ) = = ' 0; 028
n 200
Et comme n = 200 > 30 alors F N (0; 8 ; (0; 028)2)
1) La probabilit demande est donne par P (F < 0; 3):
F 0; 8
Posons Z= donc F = 0; 028Z + 0; 8 et Z N (0; 1)
0; 028

58
0; 3 0; 8
P (F < 0; 3) = P (0; 028Z + 0; 8 < 0; 3) = P (Z < ) = P (Z <
0; 028
17; 85) ' 0
2) De mme calculons P (F > 0; 8):
P (F > 0; 8) = P (0; 028Z + 0; 8 > 0; 8) = P (Z > 0) = 0; 5
3) Il faut calculer P (0; 4 < F < 0; 6):
P (0; 4 < F < 0; 6) = P (0; 4 < 0; 028Z + 0; 8 < 0; 6)
= P ( 14 < Z < 7) ' 0
5 Estimation par intervalle de conance de la proportion
Comme pour la moyenne, nous allons chercher deux valeurs L1 et L2
telles que la probabilit que p apparetienne [L1; L2] soit gale 1
o est le risque derreur x davance.
Si n 30 nous savons que la distribution dchantillonnage F suit la loi
normale N (p ; (F ) ):
F p
Posons Z = , on sait que Z N (0; 1)
(F )
Cherchons t > 0 tel que P ( t Z t) = 1

On a vu (voir 3 ) que ceci est equivalent P (Z t) = 1 et t est


2
donn par la table de la loi normale.
F p
On a donc P( t t) = 1 donc P (F t (F )
(F )
p F + t (F )) = 1
Pour un chantillon la variable alatoire prend la valeur f , donc
L1 = f t (F )
L2 = f + t (F )

59
Il reste pour calculer L1 et L2 estimer (F ) :
r r
f (1 f ) N n
On prend (F ) = si lon doit tenir compte du
n N 1 r
f (1 f )
facteur dexhaustivit, ou on prend (F ) = sinon .
n
Rappelons que f est la valeur de la proportion trouve dans lchantillon.
Exercice 1
90% des 150 personnes interroges sont des consommateurs dune marque
de lessive.
Construire un intervalle de conance 95% pour la proportion de lensemble
des consommateurs de cette lessive
Exercice 2
Dans un certain lac, un chantillon de 350 poissons pris laide dun
let comprend 70 truites. Construire un intervalle de conance pour la
proportion des truites dans ce lac.
1) avec un niveau de conance de 90%
2) avec un risque de 1%

Solution :
Exercice 1
Dans lchantillon de taille 150 on a trouv que la proportion est f = 0; 9:
On peut supposer que la population est trs grande (donc n < 0; 05N ),
donc dexhaustivit peut tre pris gal 1, et par suite (F ) =
r le facteur r
f (1 f ) 0; 9(1 0; 9)
= = 0; 024
n 150
Ici 1 = 0; 95 donc = 0; 05 = 5% et par suite t = 1; 96
Donc L1 = 0; 9 (1; 96)(0; 024) = 0; 85
60
L2 = 0; 9 + (1; 96)(0; 024) = 0; 95
Do P (p 2 [0; 85 ; 0; 95]) = 0; 95
Avec un niveau de conance de 95%, la proportion des consommateurs
se situe entre 85% et 95%:
Exercice 2
Dans lchantillon de taille n = 350 , la proportion des truites est f =
70
= 0; 2:
350
On peut supposer que la taille
r de la population
r (les poissons du lac) est
f (1 f ) 0; 2(1 0; 2)
trs grande donc (F ) = = = 0; 0213::: '
n 350
0; 021
1) Si = 10% ( c--d 1 = 0; 90) alors t = 1; 65 donc
L1 = 0; 2 (1; 65)(0; 021) = 0; 165 ' 0; 17
L2 = 0; 2 + (1; 65)(0; 021) = 0; 234 ' 0; 23
Avec un risque derreur de 10% , la proportion des truites dans le lac se
situe entre 17% et 23%.
2) Si = 1% alors t = 2; 58 donc L1 = 0; 2 (2; 58)(0; 021) = 0; 1458 '
0; 15 et
L2 = 0; 2 + (2; 58)(0; 021) = 0; 254 ' 0; 25
Avec un niveau de conance de 99%, la proportion des truites dans le lac
se situe entre 15% et 25%:

61

Vous aimerez peut-être aussi