Vous êtes sur la page 1sur 21

CHAPITRE 1 STATISTIQUE DESCRIPTIVE

I -Séries statistiques à un caractère


1-Vocabulaire de la statistique
Population : ensemble des éléments sur lequel porte l’étude.
Unité statistique ou individu : chaque élément de la population.
Caractère : propriété commune à tous les individus de la population.
Modalité : chaque valeur prise par le caractère.
Le caractère peut être :
- Qualitatif : s’il n’est pas une valeur numérique
- Quantitatif discret : s’il est numérique et il ne peut prendre que des
valeurs isolées.
- Quantitatif continu : s’il est numérique et il peut prendre un nombre
infini (ou un nombre élevé) de valeurs dans IR. Dans ce cas, pour
faire l’étude on regroupe ces valeurs en des intervalles disjoints de la
forme  a; b appelés classes.
Pour chaque classe  a; b , a est la borne inférieure et b la borne
supérieure.
Le nombre réel (b-a) est l’amplitude de la classe  a; b .
ab
La quantité en est le centre.
2
Effectif relatif à une modalité : le nombre d’individus de la population qui
présente cette modalité. On note ni

Effectif total : le nombre total des individus que la population contient. C’est la
p
somme de tous les effectifs relatifs N et on a N = n .
i 1
i

Fréquence relative à une modalité : c’est le nombre réel positif noté f i et


ni
défini par : fi  où ni est l’effectif de la modalité et N l’effectif total.
N

En multipliant par 100 les fréquences f i on obtient les pourcentages Fi avec


ni
Fi = 100 = 100 f i .
N
Effectifs cumulés et fréquences cumulées
Effectif cumulé croissant de rang i est la somme de tous les effectifs dont le
rang est inférieur ou égal à i.
Effectif cumulé décroissant de rang i est la somme de tous les effectifs dont le
rang est supérieur ou égal à i.
On définit de manière similaire les fréquences cumulées croissantes et les
fréquences cumulées décroissantes.
2-Description des séries statistiques
2-1 Tableau statistique
Sur une population, on étudie un caractère dont les valeurs (évolutions) sont
représentées dans un tableau de la forme.
Valeurs ou modalités xi x1 x2 … xp
Effectifs ni n1 n2 … np
La série statistique de modalités xi est notée ( xi ; ni ) ou bien ( x) quand il n’y a
pas de confusion.
2-2 Représentations graphiques
2-2-1 Caractère discret : diagramme à bâtons, polygone des effectifs,
polygones cumulatifs
2-2-2 Caractère continu : Histogramme, diagramme à bandes…
3-Caractéristiques d’une série statistique
3-1-Carctéristiques de position
1-1Définitions
Mode(s) : Valeur(s) de la variable ayant l’effectif le plus élevé.
Médiane : Valeur du caractère qui partage la série statistique ordonnée en
deux séries de même effectif.
Les quartiles : Valeurs du caractère qui partage la série statistique ordonnée
en quatre séries d’effectifs égaux. Il y a trois quartiles Q1 , Q2 et Q3 .
Remarque
On définit de façon analogue les déciles (qui sont au nombre de 9) et les
centiles (on a 99 centiles).
Moyenne arithmétique : c’est le nombre noté x et qui est défini par
1 p p
x  (ni xi )
N i 1
avec N   ni
i 1

Remarque
Dans le cas d’une série statistique à caractère continu xi est remplacé par le
centre de la classe numéro i.
2-2 Propriétés
Soit une série statistique ( xi ; ni ) de moyenne arithmétique x .La série statistique
( yi ; ni ) telle que yi  axi  b ; (a; b)  IR 2 a pour moyenne y  ax  b .

3-2-Caractéristiques de dispersion
3-2-1Définitions
Etendue : c’est l’écart entre la plus grande modalité et la plus petite.
1 p
Ecart moyen absolu : c’est la quantité  ni xi  x .
N i 1

Variance : la variance de la série statistique est le nombre réel positif ou nul


1 p 1 p 
 ni ( xi  x)2 ou bien V ( x) 
2
noté V ( x) et défini par : V ( x)  = ni ( xi )2  - x .
N i 1  N i 1 

Ecart type : c’est le nombre réel positif ou nul, noté  ( x ) et défini par
 ( x)  V ( x)

3-2-2 Propriétés
Soit une série statistique ( xi ; ni ) de variance V ( x) . Si ( yi ; ni ) est une série
statistique telle que yi  axi  b (a; b)  IR 2 alors V ( y)  a 2V ( x) et  ( y )  a  ( x)
II- Séries statistiques à deux variables.
1-Dédinitions
Nuages de points : Dans le plan muni d’un repère orthogonal, on construit les
points M i ( xi ; yi ) .

L’ensemble des points ainsi obtenu est appelé nuage de points.


1 p 1 p
Point moyen : C’est le point noté G( x ; y ) où x   ii
N i 1
( n x ) et y   ni yi .
N i 1

2-Ajustement affine d’un nuage de points


2-1 Méthode de Mayer
N
Le nuage de n points est divisé en deux séries regroupant d’une part les
2
N
premiers points et d’autre part les derniers points. On détermine ensuite les
2
points moyens G1 ( x1; y1 ) et G 2 ( x2 ; y2 ) dans les sous séries ainsi constituées.

La droite (G1G 2 ) est appelée droite de Mayer.

Remarques
1- La droite (G1G 2 ) passe par le point moyen G( x ; y )
2- Lorsque la série comporte un nombre impair de points, on met le point
central ou bien dans la première sous série ou bien dans la deuxième
sous série.
2-2 Méthode des moindres carrées
Soit la série double ( xi ; yi ) .On définit sur cette série :

La covariance qui est le nombre réel noté cov( x; y ) et défini par


1 p 1 p
cov( x; y ) =  i
N i 1
( x  x )( yi  y ) ou bien cov( x; y ) =  ( xi yi )
N i 1
- xy .

cov( x; y )
Et le coefficient de corrélation linéaire qui est le nombre réel r  .
 ( x) ( y )

Remarques
1) r   1;1
2) Si r =+1 ou -1 alors les points du nuage sont exactement alignés
3) On admet que si r  0,9 alors les points du nuage présentent un bon
degré d’alignement et un ajustement affine est justifié.
Droites de régression
Droite de régression de y en x
cov( x; y )
( Dy / x ) : y  ax  b avec a  et b  y  ax .
V ( x)
Droite de régression de x en y
cov( x; y )
( Dx / y ) : x  a ' y  b ' avec a '  et b '  x  a ' y .
V ( y)
Remarques
1) Les droites ( Dy / x ) et ( Dx / y ) passent par le point moyen G( x ; y ).
On a r 2  aa '
2)
3-Critère d’alignement de 3 points
y2  y1 y3  y1
Les points M1 (x1;y1 ) M 2 (x 2 ;y 2 ) et M3 (x 3 ;y3 ) sont alignés si 
x 2  x1 x 3  x1

Remarque
Si deux points sont déterminés et une des composants du troisième point est
connue, on utilise cette relation pour calculer l’autre composante inconnue.
TRAVAUX DIRIGES
EXERCICE 1
Le relevé du nombre d’interventions par jour d’une équipe de réparation est
donné par le tableau suivant
Nombre de demandes 15 18 19 20 21 22 23 24 25 26 27 28 29 30 32
Nombre de jours 1 1 2 2 4 6 6 7 9 8 4 4 3 1 1
1-Effectuer la représentation à bâtons de cette série.
2-Donner le mode
3- Calculer la moyenne, la variance et l’écart type
4-On regroupe les valeurs suivant les classes 15;18 18; 21  21; 24  24; 27
 27;30 30;33
Dresser le tableau des effectifs puis calculer la moyenne, la variance et l’écart
type
CHAPITRE 2 : LES LOIS USUELLES DE PROBABILITES

1 Les lois de probabilités discrètes


1-1loi de Bernoulli
1-1-1Définition
Une épreuve de Bernoulli est une expérience aléatoire à deux issues possibles :
succès et échec. En notant 1 pour succès et 0 pour échec, on a alors une variable
aléatoire X prenant uniquement les valeurs 1 ou 0.
Notons p la probabilité du succès. La probabilité de l’échec est alors q = 1- p .
La variable aléatoire X est appelée variable de Bernoulli et la loi de probabilité
de X est appelée e loi de Bernoulli.
1-1-2Caractéristiques
Soit X une variable aléatoire de Bernoulli dont la probabilité du succès est p et
celle de l’échec q = 1- p . On a : E(X) = p ; V(X) = pq et  X = pq

1-2 Loi binomiale


1-2-1 Définition
Considérons une répétition de n épreuves de Bernoulli indépendantes et de
même probabilité de succès p .
La variable aléatoire discrète X est égale au nombre de succès suit une loi
appelée loi binomiale de paramètres n et p . On écrit  (n ; p) .
Les valeurs prises par X sont les nombres entiers naturels compris entre 0 et n .
La loi de probabilité de X est donnée par la formule : P(X=k) = Ckn pk (1-p)n-k .
Remarque
X est la somme de variables aléatoires de Bernoulli : X=X +X +...+X .1 2 n

1-2-2 Caractéristiques
Si une variable aléatoire X suit une loi binomiale  (n ; p) alors
E(X) = np , V(X) = npq et X = npq
Où n est le nombre d’épreuves
p la probabilité de succès lors d’une épreuve ;
q = 1-p la probabilité de l’échec lors d’une épreuve.
EXERCICE 1
Un commerçant vend le même jour 6 magnétoscopes. La probabilité qu’un
appareil de ce type soit en bon état de fonctionnement au bout de 5 ans est 8/10.
Calculer la probabilité que 5 ans plus tard :
a) 4 magnétoscopes exactement soient en bon état.
b) Tous les magnétoscopes sont en bon état.
c) Au moins un magnétoscope soit en panne.

1-3 Loi de Poisson


1-3-1 Définition
Une variable aléatoire discrète X suit une loi de Poisson de paramètre m ( m > 0)
et on note 𝒫 (m), si ne prend que des valeurs entières positives ou nulles et si
mk
-m
P(X=k) = e .
k!
La loi de Poisson est souvent utilisée pour décrire des événements qui se
réalisent de façon aléatoire dans le temps ; le nombre de ruptures de stock d’un
produit, le nombre de pannes de machines, le nombre de personnes arrivant à un
guichet pendant une période T peuvent être considérés comme des variables
aléatoires suivant une loi de Poisson. Le paramètre m est le nombre moyen
d’apparitions de l’événement pendant la période T.

1-3-2 Caractéristiques
Si une variable aléatoire discrète X suit une loi de Poisson de paramètre 𝑚
notée 𝒫 (m) alors on a :
E(X) = 𝑚, V(X) = 𝑚 et X = m .
EXERCICE 2
Sur une année, un magasin est en rupture de stock d’un produit A en moyenne 3
semaines et d’un produit B en moyenne 2 semaines. Les approvisionnements se
font toutes les semaines et sont indépendants.
Soient X le nombre aléatoire de rupture de stock du produit A et Y le nombre
aléatoire de rupture du produit B.
Calculer les probabilités suivantes P(X  2) et P(Y  2) .
2 Les lois de probabilités continues
2-1-Loi uniforme
2-1-1 Définition
Une variable aléatoire continue X suit une loi uniforme sur l’intervalle a;b
si la fonction densité de probabilité f de X vérifie :
f(x)=
1
 x  a;b
b-a
et f(x)= 0  x  a;b  .
2-1-2 Caractéristiques
Si une variable aléatoire continue X suit une loi uniforme sur l’intervalle a;b
alors :
a+b (b-a)2
E(X) = et V(X) = .
2 12

2-2 Loi exponentielle


2-2-1Définition
Une variable aléatoire continue X suit une loi exponentielle de paramètre  ( 
>0) si la fonction densité de probabilité f de X vérifie :
f(x)=  e  si x  0 et f(x)= 0 si x < 0.
 x

2-2-2 Caractéristiques
Si une variable aléatoire continue X suit une loi exponentielle de paramètre  (
 >0) alors
1 1 1
E(X) = V(X) = et X = .
 2 

2-3Loi normale
2-3-1 Définition
Une variable aléatoire continue X suit une loi normale de paramètres m et 
notée N (m; ) si la fonction densité de probabilité f de X vérifie :
1 x m 2
1  ( )
f(x)= e 2  Pour tout nombre réel x .
 2
2-3-2 Loi normale centrée réduite
Lorsque m=0 et  =1, on obtient la fonction densité de probabilité
1  12 x2
f(x)= e et la loi normale de paramètres 0 et 1est appelée loi normale
2
centrée réduite et est notée N (0;1) .
La fonction de répartition F la loi normale centrée réduite généralement notée
 est définie par :
t
1  12 x2
F(t) =  (t) = P(T  t) = 
- 2
e dx .

Une table de répartition de la loi normale centrée réduite donne les


valeurs de  (t) pour t  0 .
Si t<0 alors on utilise la relation  (t)=1- ( t)
2-3-3 Propriété
Si une variable aléatoire continue X suit une loi normale de paramètres m et 
X-m
alors la variable aléatoire T= suit la loi normale centrée réduite N (0;1)

2-3-4 Caractéristiques
Si une variable aléatoire continue X suit une loi normale de paramètres
m et  notée N (m; ) alors on a : E(X) = m , V(X) =  2 et
 = .
X

Exercice 3 : Calculer P(X  6) , X suivant la loi normale de paramètres m=5 et  =2


Exercice 4 : X suit la loi normale de paramètres m=5 et  =2.
Pour quelle valeur de x a-t-on P(X  x)=0.95 .

3-Approximations des lois

Loi initiale Conditions d’approximation Loi d’approximation


 (n ; p) Si n  30 , p  0,1 et np  15 𝒫 (m) avec m = np
- Si n  30 et p et q sont proches de 0,5 Loi normale N (m; )
 (n ; p) - ou Si n  30 , np>15 et nq>15
avec m = np et  = npq
- ou encore Si n  30 et npq>10
𝒫 (m) si m > 15 Loi normale N (m; )
avec m = m et  = m
Remarque
En faisant l’approximation d’une loi discrète par une loi normale (on passe d’une
loi discrète à une loi continue) il faut effectuer une correction de continuité qui
consiste à remplacer P(X=k) pour la loi discrète par P(k-0,5  X  k+05) de la loi
continue.
Exemple
On lance 100 fois une pièce équilibrée.
Calculer la probabilité pour que le nombre de piles obtenus soit égal à 50.
Faire une approximation de la loi puis conclure.
EXERCICE 5
Une usine fabrique des pièces dont 2% ont un défaut A et 8% un défaut B (A et B
sont indépendants).
1- Calculer la probabilité pour qu’une pièce tirée au hasard
a- Présente les deux défauts
b- Ne présente aucun des deux défauts
c- Présente au moins un des deux défauts
d- Présente un et un seul des deux défauts
2- On prélève 200 pièces du stock. On note X la variable aléatoire égale au nombre de
pièces de cet échantillon qui présente le défaut A.
a- Quelle est la loi de probabilité de X ?
b- On admet que X suit une loi de Poison. Pourquoi cela est–il légitime ?
c- Quelle est le paramètre de cette loi ?
d- Calculer la probabilité pour que l’échantillon présente 10 pièces ayant le défaut A.
3- On prélève 300 pièces du stock. On admet que la variable aléatoire égale nombre
de pièces de cet échantillon présentant le défaut B suit une loi normale.
a- Pourquoi cette approximation est-elle possible ?
b- Quels sont les paramètres de cette loi ?
c- Calculer les probabilités suivantes P(Y<24) , P(20<Y<35) .
CHAPITRE 3 : ECHANTILLONNAGE ET ESTIMATION
I-) ECHANTILLONNAGE
1-) La loi des grands nombres
Quel que soit l’écart  que l’on considère, la probabilité que la fréquence des
succès ne s’écarte pas de plus de  de la fréquence théorique E(Fn ) tend vers 1
lorsque le nombre n d’épreuves tend vers l’infini.
Ce qui s’écrit :   > 0 lim P  E(Fn )-  Fn  E(Fn )+  = 1
n 

C’est ce résultat que l’on appelle la loi des grands nombres. Cette loi établit le
lien entre Statistique et Probabilité.
La probabilité d’un évènement s’identifie à la fréquence d’apparition de cet
événement sur un grand nombre d’épreuves indépendantes.

2-) Théorème de la limite centrée


Etant donné n variables aléatoires indépendantes X1 , X 2 ,…, X n suivant toutes la
même loi, de même espérance mathématique m et de même écart type  .
Lorsque n est grand ( n  30 ), la variable aléatoire X n = X1  X 2  ...  X n suit
n
approximativement la loi normale N (m; 
).
n

3-) Distribution d’échantillonnage


On prélève n éléments dans une population d’effectif N, de moyenne et d’écart
type de telle manière que le tirage d’un élément ne modifie pas la loi de
probabilité suivie par les autres. Ceci ne peut se faire que si l’on remet dans la
population l’élément tiré avant le tirage du suivant ce qui est souvent peu
réalisable, ou bien lorsque l’effectif N de la population est très grand. Dans ces
conditions la moyenne et l’écart type de la population restent constants et les
variables aléatoires X i associées à chaque élément de l’échantillon ainsi
constitué suivent tous la même loi de probabilité avec la même espérance
mathématique et le même écart type. Nous sommes alors dans les conditions
d’application du théorème de la limite centrée:
X i  X 2  ...  X n
La moyenne arithmétique X= des n variables aléatoires
n
associées aux n éléments de l’échantillon suit approximativement la loi normale
N (m;  ) lorsque n est assez grand (n>30).
n
Cas particuliers
–a) Si on sait que X suit une loi normale alors les variables aléatoires X i suivent
toutes la même loi normale N (m; ) et X n suit exactement la loi normale N

(m; ) même si n est petit.
n
–b) Si on ne connait pas la loi de X et si n est petit, on ne peut rien dire sur la loi
suivie par X n .
–c) Cas d’une population de faible effectif N. Il faut alors distinguer deux modes
de tirage des éléments constituant l’échantillon.
- Tirage avec remise ou tirage non exhaustif : la population n’est pas modifiée après
tirage d’un élément. On a encore E(X) = m et  =  X
n
- Tirage sans remise ou tirage exhaustif : chaque fois que l’on tire un élément de la
population, celle-ci s’en trouve modifiée.
N-n
Dans ce cas, on encore E(X) = m mais  =  .
X
n N-1
N-n
La quantité est appelée coefficient d’exhaustivité. Lorsque N tend vers
N-1
N-n 
l’infini tend vers 1 et on retrouve X = .
N-1 n

4-) Distribution des proportions dans les échantillons


Une population contient une proportion p d’éléments possédant une certaine
propriété. A un élément choisi au hasard dans cette population est associée une
variable aléatoire de Bernoulli X i : l’élément choisi possède la propriété X i =1 ou
ne la possède pas X i = 0.La probabilité pour que cet élément possède la propriété
est égale à la proportion p.
On prélève au hasard dans la population un échantillon de taille n. Le tirage se
fait avec remise de l’élément tiré afin de garder toujours la même proportion p
dans la population. Si la population est de grande quantité on considère qu’un
tirage avec remise équivaut à un tirage sans remisse ; La proportion d’éléments
possédant la propriété est alors à peine modifiée après tirage d’un élément.
Soit F la variable aléatoire égale à la proportion d’éléments possédant la
propriété dans l’échantillon de taille n
X1  X 2  ...  X n pq
F= .suit approximativement la loi normale N (p; ) lorsque n
n n
est grand.
EXERCICE1 Contrôle des déchets de fabrication
Une machine fabrique des produits en grande quantité. La proportion de déchet
est de l’ordre de 2 pour 1000. Un client commande 5000 produits et n’acceptera
la livraison que s’il trouve au maximum 6 produits défectueux. Quelle est la
probabilité que la commande soit acceptée.

EXERCICE2 Contrôle d’une production


Pour répondre à des critères de production déterminés par la direction de
l’entreprise, une machine est réglée pour remplir des paquets de café de 250 g en
moyenne avec un écart type de 5 g.
On prélève au hasard dans la production un échantillon de 50 paquets de café. La
moyenne des poids dans cet échantillon est de 248.4 g.
1-a) Déterminer l’intervalle de confiance de la moyenne au seuil de risque de 5%
ou au seuil de confiance de 95%.
-b) Peut-on affirmer que la production répond aux critères que l’entreprise s’est
fixé ?
Ou bien doit-on refuser toute la production et procéder à un réglage de la
machine ?
2-) Reprendre les questions précédentes pour seuil de risque de 2%.

II ESTIMATION
Pour connaitre les caractéristiques d’une population, on peut étudier séparément
chaque individu qui la compose. Cette méthode exhaustive est souvent
irréalisable. On procède alors par sondage. Un échantillon de la population est
prélevé. Les renseignements recueillis sur l’échantillon sont ensuite étendus à la
population totale. ; C’est le problème de l’estimation. Cette estimation peut se
faire de deux façons :
- Sans préciser l’erreur qui peut être commise : l’estimation est dite ponctuelle
- En précisant l’erreur commise : c’est l’estimation par intervalle de confiance
1-) Estimations ponctuelles
1-1) Estimation ponctuelle d’une moyenne.
Soit la moyenne inconnue m d’une variable aléatoire définie sur une population
mère et X la moyenne calculée sur un échantillon de taille n. La moyenne X
variant d’un échantillon à l’autre est une bonne estimation ponctuelle de m.

1-2) Estimation ponctuelle d’une proportion


Soit la proportion inconnue p d’une variable définie sur une population mère et f
la proportion calculée sur un échantillon de taille n. La proportion f variant d’un
échantillon à l’autre est une bonne estimation ponctuelle de p.

1-3) Estimation ponctuelle variance et d’un écart type


Soit  2 la variance et  l’écart type inconnus d’une variable définie sur une
population mère et  la variance calculée sur un échantillon de taille n.
2
e

n
Le nombre noté s 2 et défini par s 2   e2 est une estimation ponctuelle de la
n 1
variance
n
Le nombre s   e est une estimation ponctuelle de l’écart type
n 1
Exercice 3
Pour mieux gérer les demandes de crédit de sa clientèle, le directeur d’une
agence bancaire réalise une étude relative à la durée de traitement des dossiers.
Un échantillon aléatoire non exhaustif de 50 dossiers traités a donné ;
Durée en minutes 0;10 10;20  20;30 30; 40  40;50 50;60
Nombre 4 9 16 13 5 3
Calculer la moyenne et l’écart type des durées de traitement de cet
échantillon.
-2) En déduire une estimation ponctuelle de chacun des paramètres (moyenne et
écart type) de la population totale des dossiers traités.
-3) Donner une estimation ponctuelle de la proportion des demandes de la
population totale dont la durée de traitement est de plus de 40 minutes.

2-) Estimations par intervalle de confiance


L’objectif est de déterminer un intervalle centré sur une valeur de référence qui
contient le paramètre à estimer avec une probabilité c appelée seuil ou
coefficient de confiance. Le nombre  = 1 – c est appelé seuil ou coefficient de
risque.

Remarque
L’estimation par intervalle de confiance ne va concerner que la moyenne ou la
proportion.
2-1) Estimation par intervalle de confiance d’une moyenne
Soit m la moyenne inconnue d’une variable X définie sur la population mère et
X n la variable aléatoire qui associe à tout échantillon de taille n la moyenne de
cet échantillon.
Quand n>30 ou si X suit une loi normale, la variable aléatoire X n suit la loi
normale N (m;  )
n
On démontre que l’intervalle de confiance de la moyenne est
   
I =  m - t ; m + t
 n n 
Remarque
Si l’écart type de la population mère n’est pas connu alors il estimé par

et on obtient I = m - t
n s s 
s e ; m + t ou encore
n 1  n n 
 e e 
I =  m - t ; m + t
 n-1 n-1 
Exercice4 (suite de l’exercice 3)
1-Sachant que l’écart type de la durée de traitement des demandes de la
population est de 13 minutes, donner un intervalle de confiance de la moyenne à
95% et à 99% de confiance.
2-L’écart type de la durée de traitement des demandes de la population totale
étant inconnu, donner un intervalle de confiance de la moyenne à 95% et à 99%.

2-2) Estimation par intervalle de confiance d’une proportion


Soit p la proportion inconnue d’une variable X définie sur une population mère et
Fn la variable aléatoire qui associe à tout échantillon de taille n la fréquence des
éléments de cet échantillon qui possèdent une certaine propriété.
pq
Quand n  30 la variable aléatoire Fn suit la loi normale N (p; )
n
L’intervalle de confiance de la proportion au seuil de confiance c est:
 pq pq 
I = p - t ; p + t  avec
 n n 
Si f est l’estimation ponctuelle de la proportion p alors on obtient
 f(1-f) f(1-f) 
I = f - t  ; f + t 
 n n 
Exercice5 (suite de l’exercice3)
Déterminer au seuil de risque de 5%, un intervalle de confiance de la proportion
des demandes de la population totale dont la durée de traitement est de plus de
40 minutes.
CHAPITRE 4 : DECISION STATISTIQUE
L’analyse des échantillons doit permettre de prendre des décisions concernant la
population mère. On émet alors une hypothèse sur la valeur inconnue d’un
paramètre de la population. Cette hypothèse est ensuite testée statistiquement
sur un ou plusieurs échantillons.
A partir des résultats obtenus on se prononce sur la validité de l’hypothèse
choisie. L’hypothèse est acceptée ou rejetée.

1-Test relatif à une moyenne


La moyenne M d’une population est estimée à la valeur m avec un écart type  .
La moyenne observée sur un échantillon de taille 𝑛 est x . De cette observation
peut-on conclure que M est effectivement égale à m ?
Si la population suit une loi normale ou si l’effectif de l’échantillon est assez
grand, on peut répondre à cette question.
On suppose que la moyenne M de la population est égale à m. Cette hypothèse
est appelée hypothèse nulle et est notée H 0 . On teste H 0 en fixant un seuil de
risque  ou seuil de confiance c = 1 -  . La moyenne X n d’un échantillon de
taille n suit la loi normale N (m;  ) . Dans ces conditions, on peut alors
n
  
déterminer un intervalle I a de la forme m - t ; m + t appelé intervalle
 n n 
d’acceptation tel que P(X n  I) = 1 - .
Si x  Ia alors on accepte l’hypothèse H 0 .
Si x  I a alors on rejette l’hypothèse H 0 .
A l’hypothèse nulle H 0 ( M = m ) correspond une hypothèse alternative de la
forme :- - H1 (M  m) et le test est dit bilatéral.
- H1 (M > m) ou H1 (M < m) dans ce cas le test est dit unilatéral.

EXERCICE 1
Une production en série doit fournir des pièces de 10 mm de diamètre avec une
tolérance correspondant à un écart type de 0,10 mm
Un échantillon de 200 pièces donne une moyenne de 10.016mm.
Doit-on considérer la production conforme
–a) au seuil de 10% de risque ?
-b) au seuil de 5% de risque ?
-c) au seuil de 1% de risque ?

2-Test relatif à une fréquence


La fréquence d’apparition d’une certaine propriété dans une population est
estimée à p. Soit f la fréquence observée dans un échantillon de taille n.
Si n est assez grand la variable aléatoire F égale à la fréquence dans les
pq
échantillons de taille n suit la loi normale N (p; ).
n
L’hypothèse nulle H 0 est : « la fréquence dans la population est égale à p ».
On teste l’hypothèse H 0 en fixant un seuil de risque  .
 pq pq 
On détermine un intervalle d’acceptation I =  p - t ; p + t  tel que
 n n 
P ( F  Ia ) = 1 -  .
Si f  Ia alors on accepte l’hypothèse H 0 .
Si f  Ia alors on rejette l’hypothèse H 0 .

EXERCICE2
Une machine fabrique des produits dont 2% en général sont défectueux.
Dans un échantillon de 600 produits on a trouvé 16 produits défectueux.
Peut-on au seuil de 5% considérer que la proportion de produits défectueux dans
la population est effectivement égale à 2% ?

3-Comparaison de deux échantillons


3-1 Comparaison des moyennes
On dispose de deux échantillons de tailles, de moyennes et d’écart types connus
prélevés sur deux populations théoriquement identiques. Le problème est : les
deux échantillons appartiennent-ils effectivement à la même population ?
Pour y répondre, on compare les moyennes des échantillons.
Echantillon1 : taille n1 , moyenne m1 , écart type s1 .
Echantillon 2 : taille n2 , moyenne m2 , écart type s2 .
Si n1 et n2 sont assez grands, les deux distributions d’échantillonnages des
moyennes X1 et X 2 suivent une loi normale.
On teste l’hypothèse nulle H 0 : « les deux échantillons appartiennent à la même
population »
s12 s2 2
Donc E ( X1 ) = E ( X 2 ) et V ( X1 ) = V ( X2 ) =
n1 n2
Si l’effectif de la population mère est très grand les variables aléatoires X1 et X 2
sont indépendantes. Et la différence des moyennes d’échantillons Y  X1  X 2 suit
alors une loi normale et E ( Y) = E ( X1 ) - E ( X 2 ) = 0
s12 s2 2
V( Y) = V ( X1 ) + V ( X 2 ) = + .
n1 n2
s12 s2 2
Donc Y suit la loi normale N ( 0 ;  ).
n1 n2
Au seuil de risque  donné, on détermine l’intervalle I   t D ;  t D 
s12 s2 2
avec D =  , tel que P(  t D  Y  t D ) = 1 - 
n1 n2
Si la différence des moyennes observées dans les deux échantillons d = m1 - m2
appartient à l’intervalle I , l’hypothèse nulle H 0 est acceptée : les deux échantillons
sont représentatifs de la même population.
Si la différence d = m1 - m2 n’appartient pas à l’intervalle I , l’hypothèse nulle H 0 est
rejetée

EXERCICE 3
Deux entreprises fabriquent des machines d’un même type.
Un échantillon de 200 machines de la première entreprise a donné une durée de
vie moyenne de 12 000 heures avec un écart type de 1000 heures.
Un échantillon de 300 machines de la deuxième entreprise a donné une durée de
vie moyenne de 12500 heures avec un écart type de 2000 heures. Cette
différence est-elle significative au seuil de 5% ?

3-2 Comparaison des fréquences


Dans un échantillon de taille n1 la fréquence d’apparition d’une certaine
propriété est f1 .
Dans un deuxième échantillon de taille n2 , la fréquence est f 2 .
Soit p la fréquence théorique de la population. On suppose que n1 et n2 sont assez
grands. Alors la variable aléatoire F1 , fréquences dans les échantillons de taille n1 ,
f1 (1  f1 )
suit la loi normale N (0 ;  1 ) avec  1 = .
n1
De même F2 , fréquences dans les échantillons de taille n2 , suit la loi normale
f 2 (1  f 2 )
N (0 ;  2 ) avec  2 =
n2

La variable aléatoire F = F1 - F2 suit la loi normale N (0 ;  D )


avec  D =  12   2 2 = f1 (1  f1 )  f 2 (1  f 2 ) .
n1 n2
Au seuil de risque  donné, on détermine l’intervalle tel que Ia   t  D ;  t  D 
P(  t D  F  t D ) = 1 - 
Si la différence des fréquences observées appartient à l’intervalle I , l’hypothèse
« les deux échantillons proviennent de la même population » est acceptée au
risque  . Sinon elle est rejetée.

EXERCICE4
Un sondage d’opinion réalisé sur un échantillon de 1000 personnes a donné 38%
d’opinions favorables. Quelques temps plus tard un autre sondage réalisé
auprès de 1000 personnes a donné 41% d’opinions favorables. La différence des
fréquences observées est-elle significative au seuil de 5%
EVALUATION

EXERCICE 1
Un échantillon de 40 paquets a été prélevé dans la production d’une machine.
On a déterminé la masse de chacun de ces paquets.
Les résultats sont consignés dans le tableau ci-dessous.

Masse en Grammes 46 48 49 50 51 52

Nombre de paquets 6 9 13 8 3 1

1-a) Calculer la moyenne 𝑚𝑒 et l’écart type  e de cette série statistique.


-b) Déterminer une estimation ponctuelle de la moyenne et de l’écart type de la
population mère.
2-a) Déterminer la proportion 𝑓 des paquets dont la masse est supérieure à 50 g.
-b) Donner une estimation ponctuelle𝑓.
3 L’entreprise qui utilise cette machine l’avait réglée pour produire des paquets
de masse moyenne 50 g.
La production dont l’échantillon a été prélevé est-elle conforme aux objectifs de
l’entreprise au seuil de 5%?

EXERCICE 2
Le contrôle d’un échantillon𝑒1 prélevé d’une livraison d’un certain produit a
donné :
60 produits défectueux 1 200 produits contrôlés.
Un mois plus tard, un échantillon𝑒2 prélevé sur une autre livraison a donné : 120
défectueux sur 2000 produits contrôlés.
1-) Calculer les fréquences𝑓1 et𝑓2 respectives des produits défectueux dans les
échantillons 𝑒1 et𝑒2 .
2-) La différence observée est-elle significative au seuil de 5% de risque ?