Vous êtes sur la page 1sur 12

Support de cours de STATISTIQUE INFERENTIELLE

Année académique 2021 – 2022

MASTER 1 INFORMATIQUE Soir

STATISTIQUE INFERENTIELLE

Support de cours

✓ Un cours pédagogique

✓ Des exemples pour comprendre

✓ Des exercices pratiques pour s’entraîner

Enseignant : M. KELASSA KODJO

1
Support de cours de STATISTIQUE INFERENTIELLE

Avertissement

Ce document est conçu comme support de cours. Il ne possède ni la complétude ni l'exhaustivité


d'un livre, voire d’un polycopié, qu'il ne saurait remplacer.

Merci de contribuer à l’amélioration de ce document en :

➢ nous envoyant vos suggestions et critiques à notre adresse E-mail

➢ ou en déposant vos suggestions et critiques à l’administration de l’établissement.

2
Support de cours de STATISTIQUE INFERENTIELLE

SOMMAIRE

CH 1 : INTRODUCTION A LA STATISTIQUE INFERENTIELLE


I. Lois d'échantillonnage
II. Estimations
III. Exercices

CH 2 : TESTS STATISTIQUES
I. Tests d’hypothèses
II. Tests d’ajustement du chi-deux
III. Tests d’indépendance du chi-deux
III. Exercices

EXERCICES CORRIGES

REFERENCES BIBLIOGRAPHIQUES

3
Support de cours de STATISTIQUE INFERENTIELLE

CH 1 : INTRODUCTION A LA STATISTIQUE INFERENTIELLE

La statistique inférentielle étudie les valeurs caractéristiques d'une population à partir d'étude sur
des échantillons de cette population.

En effet pour étudier une population statistique, on peut recenser chacun des éléments de la
population, (cette méthode est souvent longue et coûteuse) ou bien examiner qu'une partie de la
population (échantillon) et en tirer informations sur la population totale, c'est la méthode des
sondages.
Cette méthode se compose en deux étapes :

L’échantillonnage (choix des échantillons) et l'estimation (utilisation des résultats observés sur
les échantillons pour induire des résultats sur la population mère)

I. Lois d'échantillonnage :
La théorie de l’échantillonnage consiste, connaissant des propriétés d’une population mère, à
déterminer des propriétés d’échantillons qui en sont extraits.

La constitution d’un échantillon peut s’effectuer :

- avec remise ; dans ce cas, l’échantillonnage est dit non exhaustif.


- sans remise ; dans ce cas, l’échantillonnage est dit exhaustif
Dans la plupart des cas, la population ayant un grand effectif, dans laquelle on tire une faible
proportion d’éléments, on assimile un tirage sans remise à un tirage avec remise.

Chaque échantillon de taille n constitué, avec ou sans remise, à partie d’une population mère
finie, forme une distribution statistique. Celle-ci peut être caractérisée par une moyenne, un
écart-type ou une proportion ( fréquence ). La série des valeurs obtenues pour l’une de ces
caractéristiques, à partir de l’ensemble des échantillons tirés de la population mère, constitue une
distribution d’échantillonnage de moyennes, d’écarts-type, de proportions.

De façon similaire, chaque distribution d’échantillonnage sera caractérisée par une moyenne ou
un écart-type.
4
Support de cours de STATISTIQUE INFERENTIELLE

1.1 Distribution d'échantillonnage des moyennes :


On considère une population mère et X une variable aléatoire définissant le caractère étudié de
cette population d'espérance mathématique E( X ) = m et d'écart type .
On prélève avec remise des échantillons ( non exhaustifs ) de taille n de cette population, ce qui
correspond à n variables aléatoires indépendantes X1, X2, X3, ..... , Xn de même loi que X.

La loi d'échantillonnage de taille n de la moyenne des n variables aléatoires peut être


approchée par la loi normale N ( m ; / ) pour n suffisamment grand ( n  30 ).
En effet :
E( ) = (1/n) (E(X1) + E(X2) + E(X3) + .....+ E(Xn ) ) = (1/n) (n E(X)) = E(X) = m
V( ) = (1/n²)(V(X1) + V(X2) + V(X3) + .....+ V(Xn ) ) = (1/n²) (n V(X)) = V(X)/n
( )= /
Remarques :
▪ Si la population mère est elle-même normale, on peut utiliser ce résultat même si n < 30.
▪ Lorsque les échantillons de taille n sont prélevés sans remise ( tirages exhaustifs ) dans une
 N −n 
population d’effectif N, on utilise le résultat précédent en prenant au lieu de .
n N −1 n
N −n
▪ est appelé « facteur d’exhaustivité »
N −1

Exemple 1 : Une machine automatique produit des pièces dont le poids moyen est 5 grammes
avec un écart-type de 0,25 grammes.
Le responsable de la production désire contrôler le poids de ces pièces et prélève à cet effet 100
pièces, à intervalles réguliers.
1) A quelle loi de probabilité obéit la variable aléatoire X de cette distribution
d’échantillonnage de moyenne ?
2) Calculer la probabilité que X soit au plus égale à 5,01 grammes.
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………

1.2 Distribution d'échantillonnage de la différence de moyennes :


Notons que les prélèvements d’échantillons sont avec remise ( tirages non exhaustifs ).
Désignons par X A la distribution d’échantillonnage de moyennes d’une population A
X B la distribution d’échantillonnage de moyennes d’une population B

5
Support de cours de STATISTIQUE INFERENTIELLE

Pour n A  30 et nB  30 , la variable aléatoire D = X A − X B suit approximativement une loi


normale
  A2  B2 
N  m A − mB ; + .
 n n 
 A B 

Remarques :

▪ Si la variable X est distribuée dans les populations A et B suivant une loi normale, alors la
variable aléatoire D = X A − X B obéit à une loi normale même si nA < 30 ou nB < 30.
▪ Les conditions d’application du facteur d’exhaustivité sont identiques à celles
précédemment définies.

Exemple 2 : Une société produit des briques dans deux unités : A et B. Ceux produits par
l’unité A permettent 150 allumages en moyenne avec un écart-type de 20 allumages. Les
briquets produits par B assurent 140 allumages en moyenne avec un écart-type de 15 allumages.
Le contrôleur de la société prélève 150 briquets de A et 200 briquets de B.

Calculer la probabilité que le nombre moyen d’allumage des briquets de l’échantillon de A soit
supérieur de plus de 15 au nombre moyen d’allumage de l’échantillon provenant de B.

……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………

1.3 Distribution d'échantillonnage des pourcentages ( fréquences ) :

On considère une population mère et A une classe (catégorie) de cette population c'est à dire
un sous ensemble de . Soit X une variable aléatoire à valeur dans {0 ; 1 } définie de la façon
suivante pour tout élément de : X( ) = 1 si A
X( ) = 0 si A

On a : P(X = 1) = P(A) = p où p représente la proportion ou fréquence d'éléments de catégorie


A dans la population .

P(X = 0) = P( ) = 1 - p = q où q représente la proportion ou fréquence d'éléments de


n'étant pas de catégorie A dans la population .

On prélève avec remise un échantillon ( non exhaustif ) de taille n de cette population, c'est à
dire n éléments de ; ce qui correspond à n variables aléatoires indépendantes X1, X2, X3,
..... , Xn de même loi que X.

On a : E(X) = 0 P(X = 0) + 1 P(X = 1) = p


V(X) = (0 - p)² P(X = 0) + (1 - p) P(X = 1) = p (1 - p) = pq

6
Support de cours de STATISTIQUE INFERENTIELLE

La variable aléatoire définie par = ( X1 + X2 + X3 + .....+ Xn ) / n


associe à tout échantillon de taille n la fréquence d'éléments de catégorie A de cet échantillon.
La loi d'échantillonnage de la fréquence d'éléments de catégorie A peut être approchée par la
pq
loi normale N ( p ; ) pour n suffisamment grand ( n  30 ) avec  = .
n
En effet :

Remarques :

▪ Si la population est distribuée selon une loi normale, alors la loi d’échantillonnage de la
fréquence obéit également à une loi normale même si n < 30 .
▪ Les conditions d’application du facteur d’exhaustivité sont identiques à celles précédemment
définies.
▪ Les remarques relatives aux lois de probabilités suivies par les distributions d’échantillonnage
de moyennes et de différences de moyennes s’appliquent également au cas des pourcentages.

Exemple 3 : Le responsable du service abonnement d’une chaîne de télévision codée constate


que 2 % des abonnés résilient leur contrat au terme d’un an. Le directeur de la chaîne prélève un
échantillon aléatoire de 200 abonnés.

- Calculer la probabilité que le nombre de résiliations au terme de l’année soit supérieur à 4 %.


- Calculer la probabilité que ce nombre soit au plus égal à 1 %.
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………

II. Estimation :
C’est le problème inverse de l’échantillonnage ; c'est-à-dire connaissant des renseignements sur
un ou plusieurs échantillons, on cherche à en déduire des informations sur la population mère.

2.1 Estimation ponctuelle :


a) Moyenne
De manière générale, on choisit la moyenne x e d’un échantillon prélevé au hasard dans une
population comme meilleure estimation ponctuelle de la moyenne inconnue m de cette
population mère : m = x e .

7
Support de cours de STATISTIQUE INFERENTIELLE

b) Pourcentage ( ou fréquence )
De même, on choisit le pourcentage f e des éléments possédant une certaine propriété dans un
échantillon prélevé aléatoirement dans une population mère comme meilleure estimation
ponctuelle du pourcentage inconnu p des éléments de cette population ayant cette propriété :
p = fe

c) Variance et Ecart-type
n
On choisit le nombre  e2 , où n est l’effectif et  e2 la variance d’un échantillon prélevé au
n −1
hasard dans une population mère , comme meilleure estimation ponctuelle de la variance
n
inconnue  2 de cette population :  2 =  e2 .
n −1
n
De même, on choisit le nombre  e , où n est l’effectif et  e l’écart-type d’un échantillon
n −1
prélevé au hasard dans une population mère , comme meilleure estimation ponctuelle de l’écart-
n
type inconnu  de cette population :  = e .
n −1

Exemple 4 :
Une société de distribution intégrée envisage d’implanter un supermarché à proximité d’un
centre urbain important. Elle entreprend de déterminer la loi de probabilité de la valeur
hebdomadaire des achats de la ménagère et procède au sondage de 40 d’entre elles.

La moyenne obtenue est x =


x i
= 47,53 € . L’étude fournit également :
n

 (x )
40
2
i −x = 15425,09 .
i =1
Le responsable de l’étude suppose que la population mère obéit à une loi normale ; il vous
demande d’en estimer les paramètres.
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………

2.2 Estimation par intervalle de confiance de la moyenne :


On considère une population telle que pour le caractère observé la moyenne m est inconnue et
l'écart type est connu. On souhaite estimer la moyenne m de la population à partir d'un
échantillon de taille n de moyenne connue .
Soit la variable aléatoire qui à chaque échantillon de taille n associe la moyenne de cet
échantillon.
On sait que suit approximativement une loi N( m ; / ) pour n suffisamment grand
( n > 30 ) ( voir loi d'échantillonnage )
Donc la variable aléatoire T définie par :
8
Support de cours de STATISTIQUE INFERENTIELLE

suit approximativement une loi normale centrée réduite N ( 0 ; 1 ) ( voir loi normale )

On cherche un intervalle de confiance de la moyenne, c'est à dire un intervalle tel que la


probabilité que la moyenne m appartienne à cet intervalle soit égale à où [0 ; 1]. On
appelle cet intervalle de confiance avec le coefficient de confiance ou avec le risque 1 - .
Le risque que l'on prend à dire que m appartient à cet intervalle est donc de 1 - .

Déterminons cet intervalle de confiance :


Soit t le nombre réel positif tel que P( - t T t ) = ; on a donc :
2 (t ) - 1 = d'où t est tel que (t ) = 1 - /2 et

L'intervalle de confiance de la moyenne m avec un coefficient de confiance de est :

2.3 Estimation de la fréquence par intervalle de confiance :


On considère une population telle que pour le caractère observé la proportion p d'une certaine
catégorie est inconnue. On souhaite estimer cette proportion p de cette classe population à partir
d'un échantillon de taille n dont la fréquence de la catégorie étudiée est f.

9
Support de cours de STATISTIQUE INFERENTIELLE

Soit F la variable aléatoire qui à chaque échantillon de taille n associe la fréquence du nombre
d'éléments qui appartiennent à la catégorie choisie.

On sait que F suit approximativement une loi N ( p ; = ) avec pour n suffisamment


grand ( n > 30 ) ( voir loi d'échantillonnage ) .

est l'écart type associé à la fréquence f de l'échantillon de taille n.

On se sert de l'estimation ponctuelle de puisque p est inconnue :

F-p
Donc la variable aléatoire T définie par : T = suit approximativement une loi
σ
normale centrée réduite N (0 ; 1) ( voir loi normale ) .
On cherche un intervalle de confiance de la fréquence p , c'est à dire un intervalle tel que la
probabilité que la fréquence p appartienne à cet intervalle soit égale à où [0 ; 1]. On
appelle cet intervalle de confiance avec le coefficient de confiance ou avec le risque 1 - .
Le risque que l'on prend à dire que p appartient à cet intervalle est donc de 1 - .

Déterminons cet intervalle de confiance :


Soit t le nombre réel positif tel que P( - t T t ) = . On a donc :
2 (t ) - 1 = d'où t est tel que (t ) = 1 - /2 et

L'intervalle de confiance de la fréquence p avec un coefficient de confiance de est :

10
Support de cours de STATISTIQUE INFERENTIELLE

III. Exercices

Exercice 1 : Estimations ponctuelles

A- (Estimation d’une moyenne, d’un écart-type)


Lors d’un concours radiophonique, on note X : le nombre de réponses reçues chaque jour. On suppose
que X ~ N(μ, σ). Durant 10 jours on a obtenu :
xi 200 240 190 150 220 180 170 230 210 210
Donner une estimation ponctuelle de μ et σ 2.

B- (Estimation d’une proportion)


Dans une population d’´etudiants AES, on a prélevé indépendamment 2 échantillons de taille n1 = 120, n2
= 150. On constate que 48 étudiants du premier échantillon et 66 du deuxième échantillon ont une
formation scientifique secondaire. Soit π la proportion d’´etudiants ayant suivi une formation scientifique.
Calculer 3 estimations ponctuelles de π.

Exercice 2 : Estimations par intervalle de confiance

A- A la suite d’une chaîne de fabrication, on a prélevé un échantillon de 30 pièces dont on a mesuré le


diamètre. Les résultats (en mm) sont donnés dans le tableau suivant :
Diamètre Nombre de pièces 1- Donner une estimation ponctuelle du diamètre moyen et de
200 – 201 2 son écart type pour les pièces fabriquées sur cette machine.
201 – 202 8
2- Déterminer pour ce diamètre moyen un intervalle de
202 – 203 10
confiance au seuil de 0,95.
203 – 204 7
204 – 205 3

B- A la suite d’une vérification des quelques fichiers disponibles à la direction de la CNPS, le responsable
a constaté des anomalies dans les informations données par certaines PME. Il relève alors 10 entreprises
et compte le nombre d’employés déclarés par chacune d’elles. Les résultats sont consignés dans le tableau
suivant :

Numéro de la PME 1 2 3 4 5 6 7 8 9 10
Nombre d’employés 25 30 15 12 4 18 3 9 14 20

1- On demande de déterminer le nombre moyen d’employés par PME avec un niveau de confiance
symétrique de 95%.
2- Même question si la taille de l’échantillon est de 60, la variance et la moyenne empiriques restant les
mêmes que celles obtenues à partir du tableau statistique.

11
Support de cours de STATISTIQUE INFERENTIELLE

12

Vous aimerez peut-être aussi