Vous êtes sur la page 1sur 260

Adil ELMARHOUM Mohamed DIOURI

Docteur en statistique Docteur Ingénieur


et informatique appliquée Président Fondateur de l’IGA

STATISTIQUES DECISIONNELLES
Exercices corrigés avec rappels de cours
COLLECTION SCIENCES TECHNIQUES ET MANAGEMENT

STATISTIQUES DECISIONNELLES
Exercices corrigés avec rappels de cours

Tous les droits sont réservés


Dépôt légal N° 2003/2163
I.S.B.N. 1954-409-51-3
Première édition 2003
Deuxième édition 2008

Les livres de la collection Sciences, Techniques et Management sont co-édités


par les éditions TOUBKAL et l’Institut supérieur du Génie Appliqué, IGA.
A la mémoire de Myriam
Pour que la mémoire demeure
Lorsque une âme
Pleure
Une autre âme
Est-il plus grand malheur !
M. DIOURI
A ma fille Zineb
A. ELMARHOUM
SOMMAIRE

LIMINAIRE 7

PARTIE 1 : ECHANTILLONNAGE STATISTIQUE 9


CH. 1. DETERMINATION DE L’ECHANTILLON 11
1.1. Position du problème. 11
1.2. Détermination de la taille de l’échantillon. 11
1.3. Méthodes d’échantillonnage. 15
1.4. Enoncés des exercices d’application. 19
1.5. Solutions des exercices d’application. 22

PARTIE 2 : LOI DE PROBABILITE D’ECHANTILLON 35


CH. 2. LOI DE PROBABILITE DE LA MOYENNE D’ECHANTILLON 37
2.1. Position du problème. 37
2.2. Population avec moyenne, variance et loi de probabilité. Connues. 38
2.3. Population avec moyenne et loi de probabilité. Connues. 39
2.4. Population avec moyenne, variance et loi de probabilité. Inconnues. 39
2.5. Loi de probabilité de la différence de deux moyennes. 40
2.6. Enoncés des exercices d’application. 41
2.7. Solutions des exercices d’application. 43
CH. 3. LOI DE PROBABILITE DE LA VARIANCE D’ECHANTILLON 55
3.1. Position du problème. 55
3.2. Enoncés des exercices d’application. 56
3.3. Solutions des exercices d’application. 58
CH. 4. LOI DE PROBABILITE DE LA PROPORTION D’ECHANTILLON 71
4.1. Position du problème. 71
4.2. Loi de probabilité selon l’échantillon. 72
4.3. Enoncés des exercices d’application. 73
4.4. Solutions des exercices d’application. 74

PARTIE 3 : PRINCIPE DE L’ESTIMATION 89


CH. 5. ESTIMATION DE LA MOYENNE D’UNE POPULATION 91
5.1. Estimation d’une moyenne. 91
5.2. Estimation de la somme de moyennes. 93
5.3. Enoncés des exercices d’application. 94
5.4. Solutions des exercices d’application. 98
CH. 6. ESTIMATION DE LA VARIANCE D’UNE POPULATION 115
6.1. Estimation d’une variance. 115
6.2. Estimation de la somme de variances. 117
6.3. Enoncés des exercices d’application. 117
6.4. Solutions des exercices d’application. 118
CH. 7. ESTIMATION DE LA PROPORTION D’UNE POPULATION 129
7.1. Estimation ponctuelle. 129
7.2. Estimation par intervalle de confiance. 129
7.3. Enoncés des exercices d’application. 130
7.4. Solutions des exercices d’application. 131

PARTIE 4 : TESTS STATISTIQUES 137


CH. 8. TESTS SUR LES MOYENNES 143
8.1. Test sur un échantillon. 143
8.2. Test sur deux échantillons. 145
8.3. Test sur plusieurs échantillons : analyse de la variance (ANOVA). 150
8.4. Enoncés des exercices d’application. 156
8.5. Solutions des exercices d’application. 161
CH. 9. TESTS SUR LES VARIANCES 183
9.1. Test sur un échantillon. 183
9.2. Test sur deux échantillons. 184
9.3. Enoncés des exercices d’application. 186
9.4. Solutions des exercices d’application. 188
CH. 10. TESTS SUR LES PROPORTIONS 199
10.1. Test sur un échantillon. 199
10.2. Test sur deux échantillons. 201
10.3. Test sur plusieurs échantillons. 203
10.4. Enoncés des exercices d’application. 206
10.5. Solutions des exercices d’application. 208
CH. 11. TESTS NON PARAMETRIQUES 223
11.1. Test de validité de loi de probabilité d’une distribution. 223
11.2. Test d’indépendance. 225
11.3. Enoncés des exercices d’application. 226
11.4. Solutions des exercices d’application. 230

TABLES STATISTIQUES 245

BIBLIOGRAPHIE 259
LIMINAIRE

Ce livre est sa 2ème édition, il est le 3e d’une trilogie des mêmes auteurs, dont 2 livres ont déjà
été édités, à savoir : « Statistique descriptive » et « Probabilités ».

Dans le présent ouvrage, les auteurs s’intéressent aux problèmes de l’échantillonnage


statistique, tant du point de vue des méthodes d’échantillonnage que de celui des estimations et
de tests statistiques.

Lorsqu’on souhaite collecter des informations sur une population, deux possibilités s’offrent :

- La première solution consiste à observer ou interroger tous les éléments de la population,


c’est ce qu’on appelle une enquête complète ou enquête exhaustive ou recensement ;

- La seconde solution consiste à observer ou interroger une partie de la population, c’est ce


qu’on appelle enquête partielle ou sondage. Les éléments de la population qui sont réellement
observés constituent l’échantillon et l’opération qui consiste à choisir ces éléments est appelée
échantillonnage.

L’alternative décrite ci-dessus se présente dans beaucoup de situations et le recours à la


deuxième solution c’est-à-dire l’enquête partielle est la pratique la plus courante.

Par rapport à l’enquête complète, l’enquête partielle offre une série d’avantages :

- Le coût global de l’enquête partielle est en général plus réduit que le coût global d’une
enquête complète ;

- L’enquête par sondage est plus rapide que l’enquête complète, surtout lorsque la
caractéristique étudiée présente des modifications assez importantes au cours du temps ;

- Les erreurs d’observations sont plus réduites que dans l’enquête exhaustive, du fait qu’il y
a moins de données à manipuler ;

- L’enquête partielle est, dans certaines situations particulières, la seule solution possible,
c’est le cas lorsque l’observation présente un caractère destructif.

7
Ainsi, la problématique des statistiques décisionnelles sera étudiée sous ses 3 aspects :

- D’abord, la détermination de l’échantillon (en taille et en qualité), en vue d’avoir les


informations sur la population mère à étudier. Ceci fera l’objet de la partie 1 avec son unique
chapitre 1.

- Ensuite, la détermination des lois de probabilité suivie par les paramètres de l’échantillon
(moyenne, variance et proportion). Ceci fera l’objet de la partie 2 et de ses chapitres 2, 3 et 4.

- Enfin, une fois l’échantillon et les lois de probabilité des paramètres déterminés,
réalisation des calculs sur les paramètres de la population mère étudiée. Ceci fera l’objet de la
partie 3 avec ses chapitres 5, 6 et 7 et de la partie 4 avec ses chapitres 8, 9, 10 et 11.

8
Statistiques décisionnelles Partie 1. Echantillonnage statistique

PARTIE 1
ECHANTILLONNAGE STATISTIQUE

Dans cette 1ère partie, nous nous proposons de résoudre tous les cas types de problèmes
d’échantillons extraits d’une population mère en respectant un certain nombre de contraintes.

- Contraintes de précision ;
- Contrainte de budget.

Nous aurons ainsi à déterminer la taille et la nature de l’échantillon qui donne les informations
souhaitées sur la population mère à étudier, avec la précision, fixée, au préalable et tout en
veillant à ne pas dépasser le budget alloué à l’étude.

9
Statistiques décisionnelles Partie 1. Echantillonnage statistique

10
Statistiques décisionnelles 1. Détermination de l’échantillon

CHAPITRE 1
DETERMINATION DE L’ECHANTILLON

1.1. POSITION DU PROBLEME.

La détermination d’un échantillon nécessite la détermination :

- de sa taille : nombre d’éléments à extraire de la population mère ;

- de la qualité de ses éléments : nature des éléments à extraire.

Les objectifs essentiels que doit remplir un échantillon sont de 2 sortes :

- Il doit être représentatif de la population mère, c’est-à-dire qu’il doit donner des
informations sur cette population avec la précision exigée ;

- Il doit avoir un coût compatible avec le budget disponible.

1.2. DETERMINATION DE LA TAILLE DE L’ECHANTILLON.

La détermination de la taille d’un échantillon dépend essentiellement de deux facteurs :

- La précision souhaitée : plus on souhaite des résultats précis, plus l’échantillon nécessaire
est important.

- Le budget disponible : plus on augmente la taille de l’échantillon, plus le coût de


l’enquête s’accroît.

La taille de l’échantillon doit être celle qui permet d’atteindre le meilleur équilibre entre le
risque d’erreurs d’échantillonnage, le coût induit par ces erreurs, et le coût de l’échantillonnage
lui-même.

11
Statistiques décisionnelles 1. Détermination de l’échantillon

1.2.1. Cas ou la loi de probabilité de la variable aléatoire n’est pas connue.

Dans ce cas on utilise l’inégalité de Bienaymé Tchebycheff, elle aboutit, en général, à des
échantillons de tailles élevées.

1.2.1.1. Taille d’échantillon pour estimer une moyenne.

- La taille de l’échantillon dépend de la précision souhaitée pour la généralisation des


résultats.

- La précision (ou erreur d’échantillonnage) s’exprime en valeur absolue ou relative. Elle


représente la largeur de l’intervalle de confiance de la moyenne. Soit  la moitié de cette
largeur.

Pour obtenir un maximum de fiabilité dans les résultats, on commence par se fixer une marge
d'erreur "" que l'on accepte ; on se fixe ensuite un seuil de confiance (1-), qui représente la
probabilité minimale pour que la moyenne calculée à partir de l’échantillon ne s’écarte pas de
la moyenne de la population de plus de . Ceci s’écrit :


P( X  m < )  1-

2
Ce qui donne : n
2 . 

avec :

n : Taille de l’échantillon ;
 : Précision souhaitée ;
 : Définit le seuil de confiance (1 -  )
 : Ecart- type d’échantillon, il est souvent inconnu, il faut avoir des informations
antérieures ou mener une étude pilote.

1.2.1.2. Taille d’échantillon pour estimer une proportion.

- La taille de l’échantillon dépend de la précision souhaitée pour la généralisation des


résultats.

- La précision (ou erreur d’échantillonnage) s’exprime en valeur absolue ou relative. Elle


représente la largeur de l’intervalle de confiance de la proportion. Soit  la moitié de cette
largeur.

12
Statistiques décisionnelles 1. Détermination de l’échantillon

Pour obtenir un maximum de fiabilité dans les résultats, on commence par se fixer une marge
d'erreur "" que l'on accepte ; on se fixe ensuite un seuil de confiance (1-), qui représente la
probabilité minimale pour que la fréquence calculée à partir de l’échantillon ne s’écarte pas de
la proportion dans la population de plus de . Ceci s’écrit :

P( f n  p < )  1-

p.q
Ce qui donne : n 
2 . 

avec :

n : Taille de l’échantillon ;
 : Précision souhaitée ;
 : Définit le seuil de confiance (1 -  )
p : Proportion dans la population (q = 1 – p). Elle est souvent inconnue, il faut avoir des
informations antérieures ou mener une étude pilote, sinon on utilise une proportion de 50 %.

1.2.2. Cas ou la loi de probabilité de la variable aléatoire est une loi normale.

Dans ce cas, on utilise la loi normale.

1.2.2.1. Taille d’échantillon pour estimer une moyenne.

1.2.2.1.1. Cas des prélèvements dans une population finie avec remise ou dans une population

infinie sans remise.

Pour obtenir un maximum de fiabilité dans les résultats, on commence par se fixer une marge
d'erreur "" que l'on accepte ; on se fixe ensuite un seuil de confiance (1-), qui représente la
probabilité minimale pour que la moyenne calculée à partir de l’échantillon ne s’écarte pas de
la moyenne de la population de plus de . Ceci s’écrit :

P( X  m < )  1-

2
Ce qui donne : n  Z 2 
1
2
2

13
Statistiques décisionnelles 1. Détermination de l’échantillon

1.2.2.1.2. Cas des prélèvements dans une population finie sans remise.

De la même manière, on trouve :

Z²  ² N
1-
n 2
 ² N  Z²  ²
1-
2

1.2.2.2. Taille d’échantillon pour estimer une proportion.

Pour obtenir un maximum de fiabilité dans les résultats, on commence par se fixer une marge
d'erreur "" que l'on accepte ; on se fixe ensuite un seuil de confiance (1-), qui représente la
probabilité minimale pour que la fréquence calculée à partir de l’échantillon ne s’écarte pas de
la proportion dans la population de plus de . Ceci s’écrit :

P( f n  p < )  1-

1.2.2.2.1. Cas des prélèvements dans une population finie avec remise ou dans une population

infinie sans remise.

p.q
On trouve : n  Z 2 
1
2
2

avec :

n : Taille de l’échantillon ;
 : Précision souhaitée ;
p : Proportion dans la population (q = 1 – p). Elle est souvent inconnue, il faut avoir des
informations antérieures ou mener une étude pilote, sinon on utilise une proportion de 50 %.

1.2.2.2.2. Cas des prélèvements dans une population finie sans remise.

Z²  pq N
1-
On trouve : n  2
² N  Z²  pq
1-
2

14
Statistiques décisionnelles 1. Détermination de l’échantillon

1.3. METHODES D’ECHANTILLONNAGE.

Pour que les résultats d’une enquête par sondage puissent être extrapolés à l’ensemble de la
population faisant l’objet de l’étude, il est indispensable que cette enquête soit conduite selon
des règles bien définies et que les calculs conduisant à ces extrapolations soient conformes à la
procédure d’échantillonnage utilisée.

L’échantillon choisi doit être le plus représentatif possible de la population étudiée, c’est-à-dire
le degré de correspondance entre l’information recueillie et ce que nous apprendrait un
recensement complet de la population dépend en grande partie de la façon dont l’échantillon a
été choisi.

La théorie moderne de l’échantillonnage nous propose une distinction fondamentale entre


échantillons basés sur la probabilité : échantillons probabilistes et échantillons non basés sur la
probabilité : échantillons non probabilistes ou empiriques.

1.3.1. METHODES D’ECHANTILLONNAGE PROBABILISTES.

1.3.1.1. Echantillonnage aléatoire simple.

Un échantillonnage est aléatoire si tous les individus de la population ont la même chance de
faire partie de l’échantillon ; il est simple si les prélèvements des individus sont réalisés
indépendamment les uns des autres.

En particulier, si la population est finie, cette définition correspond au tirage aléatoire avec
remise, qui permet de traiter les populations finies comme des populations infinies.

Pour prélever un échantillon aléatoire et simple il faut :

- Constituer la base de sondage qui correspond à la liste complète et sans répétition des
éléments de la population ;
- Numéroter ces éléments de 1 à N ;
- Procéder, à l’aide d’une table de nombres aléatoires ou d’un générateur de nombres
pseudo aléatoires à la sélection des unités différentes qui constitueront l’échantillon.

1.3.1.2. Echantillonnage stratifié.

L’échantillonnage stratifié est une technique qui consiste à subdiviser une population
hétérogène, d’effectif N, en P sous populations ou « strates » plus homogènes d’effectif Ni de
telle sorte que N= N1+N2+……. +Np. Un échantillon, d’effectif ni, est par la suite, prélevé
indépendamment au sein de chacune des strates en appliquant un plan d’échantillonnage au
choix de l’utilisateur. Le plus souvent, on procédera par un échantillonnage aléatoire et simple
à l’intérieur de chaque strate.

15
Statistiques décisionnelles 1. Détermination de l’échantillon

La stratification peut entraîner des gains de précision appréciables, elle facilite en outre les
opérations de collecte des données et fournit des informations pour différentes parties de la
population.

Pour la répartition de l’effectif total, n, de l’échantillon dans les différentes strates, la première
solution, dite proportionnelle, consiste à conserver la même fraction d’échantillonnage dans
chaque strate. Une seconde solution, dite optimale, tient compte du budget de l’enquête.

1.3.1.2.1. Répartition proportionnelle.

La répartition proportionnelle consiste à répartir la taille de l’échantillon n en utilisant la même


fraction de sondage f dans chacune des strates. Cette solution tient compte d’un seul facteur qui
est le poids de chaque strate.

Désignons par wi le poids de la strate et par f la fraction de sondage constante.

n Ni
f  wi 
N N

Le nombre d’unités à choisir dans chacune des strates est donc :

n i  w i .n  f .N i

1.3.1.2.2. Répartition optimale.

Cette deuxième solution consiste à répartir l’effort d’échantillonnage de façon inégale dans les
différentes strates. Elle tient compte de quatre facteurs :

- Budget total de l’enquête, G


- Poids de la strate, wi
- Coût de la collecte de l’information dans la strate, ci
- Dispersion à l’intérieur de la strate, mesurée par l’écart type i.

Le nombre d’unités à choisir dans chacune des strates est :

w i i G
ni  k avec k 
ci  w i i ci

16
Statistiques décisionnelles 1. Détermination de l’échantillon

1.3.1.3. Echantillonnage par degrés.

L’échantillonnage par degrés regroupe toute une série de plans d’échantillonnage caractérisés
par un système ramifié et hiérarchisé d’unités.

Dans le cas de deux degrés, par exemple, on considère que la population est constituée d’un
certain nombre d’unités de sondage du premier degré (unités primaires), chacune de ces unités
étant constituée d’un certain nombre d’unités du second degré. (Unités secondaires).

On réalise d’abord un échantillonnage d’unités du premier degré. Ensuite, dans chaque unité
sélectionnée au premier degré, on prélève un échantillon d’unités du second degré. Le mode de
sélection pouvant varier d’un degré à l’autre.

L’échantillonnage par degrés s’impose lorsqu’il est impossible d’inventorier les éléments de
toute la population et qu’il est possible d’énumérer les unités prélevées au premier degré. Il
permet une concentration du travail sur le terrain et donc une réduction des coûts.

Pour un même nombre total d’observations, il faut indiquer que l’échantillonnage aléatoire et
simple est plus précis que l’échantillonnage par degré.

1.3.1.4. Echantillonnage systématique.

L’échantillonnage systématique est une technique qui consiste à prélever des unités
d’échantillonnage situées à intervalles égaux. Le choix du premier individu détermine la
composition de tout l’échantillon.

Si on connaît l’effectif total de la population N et qu’on souhaite prélever un échantillon


d’effectif n, l’intervalle entre deux unités successives à sélectionner est donné par :

N
k (arrondi à l’entier le plus proche)
n

Connaissant k, on choisit le plus souvent, pour débuter, un nombre aléatoire, i, compris entre 1
et k. Le rang des unités sélectionnées est alors i, i+k, i+2k, i+3k, …

L’échantillonnage systématique est facile à préparer et, en général facile à exécuter, il réduit le
temps consacré à la localisation des unités sélectionnées.

Si les éléments de la population se présentent dans un ordre aléatoire (pas de tendance)


l’échantillonnage systématique est équivalent à l’échantillonnage aléatoire et simple. Par contre
si les éléments de la population présentent une tendance, l’échantillonnage systématique est
plus précis que l’échantillonnage aléatoire.

17
Statistiques décisionnelles 1. Détermination de l’échantillon

1.3.2. METHODES D’ECHANTILLONNAGE EMPIRIQUES.

1.3.2.1 Echantillonnage accidentel (ou de convenance).

Il s’agit d’un échantillon constitué d’individus qui se trouvaient accidentellement à l’endroit et


au moment où l’information a été collectée.

Les échantillons accidentels ne peuvent être considérés représentatifs d’aucune population. Il


est risqué de généraliser à une population donnée des résultats obtenus par un échantillon
accidentel.

1.3.2.2. Echantillonnage à priori.

C’est un échantillonnage par jugement à priori. Il consiste à sélectionner des individus dont on
pense, avant de les interroger, qu’ils peuvent détenir l’information.

Le risque de ce type d’échantillonnage est de considérer des individus, apparemment


représentatifs de la population étudiée.

1.3.2.3. Echantillonnage « Boule de neige »

Cette méthode est réservée aux populations composées d’individus dont l’identification est
difficile ou qui possèdent des caractéristiques rares.

La méthode consiste à faire construire l’échantillon par les individus eux-mêmes. Il suffit d’en
identifier un petit nombre initial et de leur demander de faire appel à d’autres individus
possédant les mêmes caractéristiques.

1.3.2.4. Echantillonnage par Quotas.

L’échantillonnage par quotas est l’échantillonnage non probabiliste le plus connu, et finalement
le mieux accepté comme substitut aux méthodes probabilistes dans le cas où ces dernières
rencontreraient des contraintes de base de sondage. Mais la représentativité de la population
étudiée reste douteuse.

L’échantillonnage par quotas consiste à étudier la structure de la population selon des critères
choisis (quotas) empiriquement. L’échantillon est ensuite construit de manière à constituer une
reproduction en miniature de la population sur ces critères.

L’échantillonnage par quotas est une forme simplifiée de l’échantillonnage stratifié à fraction
de sondage constante. Les quotas représentent les variables de stratification.

Une fois les quotas fixés, les individus sont sélectionnés à la convenance de l’enquêteur.

18
Statistiques décisionnelles 1. Détermination de l’échantillon

Les critères servant de base à la définition des quotas ne doivent pas être nombreux. Au-delà de
3 critères, la démarche devient complexe. Les quotas doivent être construits sur une base de
données fiables (statistiques disponibles) indiquant la répartition de la population sur les
critères choisis. Les critères les plus utilisés dans les études de marché sont économiques et
sociodémographiques en particulier l’âge, le sexe, la catégorie socioprofessionnelle, etc.

1.4. ENONCES DES EXERCICES D’APPLICATION.

1.4.1. Une enquête sur l'emploi a pour but d’estimer le taux d'activité dans un pays. Dans les
statistiques disponibles, la population active du pays est estimée à 10 millions de personnes sur
une population totale de 40 millions de personnes.
Déterminer la taille de l'échantillon si l'on accepte une erreur de 1%, avec une probabilité de
0,95.

1.4.2. On désire estimer le revenu mensuel moyen dans un secteur de production. Quelle doit
être la taille de l’échantillon de salariés à interroger pour que la moyenne empirique ne
s’éloigne pas de la moyenne de la population de 100 DH avec une probabilité au moins égale à
0,95 sachant que l’écart type est de 500 DH par salarié ?

1.4.3. On souhaite réaliser une enquête sur la consommation des ménages afin d’estimer la
dépense moyenne par ménage. Quelle doit être la taille de l’échantillon de ménages si la
population est composée de 5 millions de ménages et que l’erreur admise ne doit pas dépasser
10 DH avec une probabilité de 0,99 ?

L’écart type de la dépense des ménages est de 2000 DH.

1.4.4. On souhaite réaliser une enquête sur l’emploi afin d’estimer le taux de chômage. La
population active est de 5 millions de personnes. Quelle doit être la taille de l’échantillon pour
que la fréquence empirique ne s’éloigne pas du vrai taux de chômage de plus de 2% et ce avec
une probabilité de 0,95 ?
Une enquête récente avait donné un taux de chômage de 12 %.

1.4.5. Dans le cadre d'une étude socio-économique, on s'intéresse aux habitants de 18 unités
urbaines, réparties en deux régions.
a) En supposant que la variable aléatoire à laquelle nous nous intéressons suive une loi
normale et que l’enquête se déroule, au sein d’une population finie et n’exclut pas la possibilité
de sonder la même personne plusieurs fois, déterminer la taille n de l’échantillon.
On donne comme hypothèses de travail : une marge d’erreur admissible égale à 1% avec une
probabilité de 95% et un écart type du revenu égal à 0,114 calculé d’après un 1 er échantillon.

19
Statistiques décisionnelles 1. Détermination de l’échantillon

b) L'enquête doit donc comporter n interviews. Comme on dispose de 10 enquêteurs et qu'on


souhaite que chaque enquêteur n'opère que dans une seule unité urbaine et donc dans la même
région, on souhaite se limiter à l'étude de 10 unités urbaines. On suppose qu'un enquêteur peut
réaliser 10 interviews dans la même journée et que tous les enquêteurs ne réalisent pas
nécessairement le même nombre d’enquêtes. En fonction de la répartition des unités urbaines
par région et de leurs nombres d'habitants, déterminer le nombre n1 et n2 d’unités par région à
sonder (voir tableau page suivante).
c) En nous limitant aux unités les plus importantes dans chaque région, déterminer les unités à
sonder ainsi que le nombre d’interviews à réaliser dans chacune d’entre elles. Quel est le
nombre de jours nécessaire à une telle opération ?

Région 1 Région 2
N° Unités
Nombres d’habitants N° Unités urbaines Nombres d’habitants
urbaines
N° 1 93600 N° 09 117100
N° 2 45400 N° 10 107100
N° 3 38900 N° 11 61200
N° 4 36500 N° 12 51000
N° 5 35100 N° 13 43800
N° 6 32900 N° 14 38900
N° 7 28100 N° 15 37800
N° 8 26400 N° 16 33500
N° 17 25800
N° 18 25300

1.4.6. Dans une région regroupant environ 3 millions d’habitants réunis en 1530 communes, on
désire réaliser une enquête relative à la consommation moyenne des ménages pour le poste
alimentation.
a) Déterminer la taille de l'échantillon si l'on accepte une erreur de 1,16, avec une probabilité
de 0,95 et que l’on estime l’écart type égal à 10.
b) En effectuant une stratification basée sur la distribution de fréquences donnée dans le
tableau ci-dessous, combien d’interviews devrait-on réaliser dans chacune des catégories de
communes ?
c) Si de plus pour des raisons de facilité, on décidait de ne pas effectuer moins de 10 interviews
par commune, dans combien de communes différentes de chacune des catégories les
enquêteurs devraient-ils se rendre ?

20
Statistiques décisionnelles 1. Détermination de l’échantillon

Nombre d’habitants Nombre de communes


Moins de 1000[ 900
[ 1000 – 2000[ 300
[ 2000 – 5000[ 200
[ 5000 – 10000[ 80
[10000 – 20000[ 40
plus de 20000 10
Total 1530

1.4.7. Un sondage vise à étudier la notoriété d’une marque. Pour cela on dispose de 12
enquêteurs durant un mois.
a) Sachant que le rendement par jour et par enquêteur est distribué selon une loi normale
de moyenne 5, et d’écart type 1, déterminer la taille n o de l'échantillon retenu tel que : p(n
> no) = 0,025.
b) On propose de stratifier la population selon l’âge. Sachant que la population se répartit
comme indiqué, dans le tableau ci-dessous, déterminer la répartition de l'échantillon :

Moins de 20 Entre 20 et 30 Entre 30 et 60 Plus de 60


Age
ans ans ans ans
Effectifs 5500000 2500000 1250000 250000

1.4.8. On s’intéresse au pourcentage de fusibles défectueux dans un lot de 50 sacs contenant


chacun 10000 fusibles. Les sacs proviennent de différents fournisseurs qui affirment en général
que la proportion de fusibles défectueux ne dépasse pas 1%. L’erreur acceptée sur ce
pourcentage est de 0,1% avec un niveau de confiance 0,95.
a) Déterminer la taille de cet échantillon en utilisant l'inégalité de Bienaymé Tchebycheff, et en
supposant la normalité de la variable. Laquelle de ces deux tailles doit-on retenir ? et
pourquoi ?
b) Préciser dans chaque cas, le type de sondage dont il s'agit :
b1) Si on tire n fusibles en prélevant n/50 par sac.
b2) Si on choisit d'abord k sacs et on tire ensuite ni fusibles par sac.
b3) Si on mélange le contenu des 50 sacs, et on tire n fusibles.
c) Quel est le procédé de tirage, le mieux adapté ?

1.4.9. Un sondage vise une population d’entreprises réparties en quatre régions contenant
respectivement 360, 840, 600 et 1200 entreprises. Le budget réservé pour cette enquête est de
44 320 DH. Les écart-types sont estimés à 0,2 ; 0,1 ; 0,2 ; 0,4 respectivement pour les quatre
régions. Les coûts de réalisation par questionnaire sont respectivement de 225 DH, 196 DH,
400H et 324 DH.
a) Etablir une stratification optimale de l’échantillon à déterminer.
b) Préciser le niveau d’erreur que l’on doit accepter avec la taille de l’échantillon calculée, en
admettant un niveau de confiance de 0,99 et une proportion de 0,3.

21
Statistiques décisionnelles 1. Détermination de l’échantillon

1.4.10. Le budget alloué à une enquête est de 132500 DH. Cette enquête est destinée à estimer
le taux de chômage qu’on pense être à priori égal à 10 %. Les frais de déplacement quotidien
sont évalués à 1000 DH par enquêteur. La rémunération d’un enquêteur est de 170 DH par
jour. Les charges fixes sont de 20000 DH.
a) Déterminer la taille de l’échantillon si on tolère une erreur de moins de 1 % avec un niveau
de confiance de 95%
b) Déterminer la taille maximale permise par le budget alloué si le rendement par enquêteur est
de 6 questionnaires par jour.
c) Quel niveau d’erreur faut-il accepter si on réalise l’enquête avec le budget alloué ?

1.4.11. Nous disposons d’un montant de 10 000 dh pour enquêter auprès d’une population
stratifiée en deux strates ayant les caractéristiques suivantes :

Poids de la Coût de
Strates Effectif
strate
Ecart type
l’observation
Strate 1 2000 0,4 2 25
Strate 2 3000 0,6 0,7 36

Etablir la répartition optimale de l’échantillon.

1.4.12. Une machine automatique fabrique des entretoises destinées à un montage de


roulements. La longueur de ces entretoises doit être comprise, au sens large, entre 37,45 et
37,55 mm. La variable aléatoire X, qui associe à chaque entretoise sa longueur, est une variable
gaussienne de moyenne 37,50 mm.
a) Quel doit être l’écart type de la variable aléatoire X pour que 998 sur 1000 des pièces
fabriquées soient bonnes ?
b) On prélève un échantillon non exhaustif dans la production. Quel doit être l’effectif de cet
échantillon pour que la moyenne des longueurs des pièces prélevées appartienne à l’intervalle
fermé [37,495 ; 37,505] avec une probabilité de 0,95 ?

1.5. SOLUTIONS DES EXERCICES D’APPLICATION.

1.5.1. Solution de l’exercice 1.4.1.

Nous sommes dans le cas où la loi de probabilité du taux d’activité n’est pas connue. Nous
utilisons donc l’inégalité de Bienaymé Tchebycheff.

p.q
n
2 . 

avec p = 0,25 q = 0,75  = 1% et  = 5%


ce qui donne n = 37 500
22
Statistiques décisionnelles 1. Détermination de l’échantillon

Comme on le voit, l’inégalité de Bienaymé Tchebycheff aboutit à des échantillons de tailles


élevées.

1.5.2. Solution de l’exercice 1.4.2.

Nous sommes dans le cas où la loi de probabilité des revenus mensuels n’est pas connue. Nous
utilisons donc l’inégalité de Bienaymé Tchebycheff.

2
n
2 . 

avec  = 500  = 100 et  = 5%


ce qui donne n = 500

1.5.3. Solution de l’exercice 1.4.3.

Nous sommes dans le cas où la loi de probabilité de la dépense des ménages n’est pas connue.
Nous utilisons donc l’inégalité de Bienaymé Tchebycheff.

2
n
2 . 

avec  = 2 000  = 10 et  = 1%
ce qui donne n = 4 000 000

Comme on le voit, l’inégalité de Bienaymé Tchebycheff aboutit ici à un échantillon de taille


trop élevée, puisqu’il fait 4 millions pour une population de 5 millions. Nous devons, par
conséquent recourir au théorème central limite et accepter l’hypothèse vraisemblable que la loi
de probabilité que suit la variable aléatoire, dépense moyenne des ménages, peut être
approchée par une loi normale du fait que la population concernée est de 5 millions d’âmes.

Dans ce cas, on utilise l’égalité relative aux prélèvements sans remise dans une population
finie.

Z²  ² N
1-
n 2
 ² N  Z²  ²
1-
2

23
Statistiques décisionnelles 1. Détermination de l’échantillon

avec  = 2 000  = 10 N = 5 millions  = 1% et Z  = 2,58


1-
2

ce qui donne n = 252 795. Un tel échantillon représente environ 6,3 % de la taille de
l’échantillon trouvée grâce à l’inégalité de Bienaymé Tchebycheff et donc une très grande
économie, dans son traitement, par rapport au 1er échantillon.

1.5.4. Solution de l’exercice 1.4.4.

Nous sommes dans le cas où la loi de probabilité du taux de chômage n’est pas connue. Nous
utilisons donc l’inégalité de Bienaymé Tchebycheff.

p.q
n
2 . 

avec p = 0,12 q = 0,88  = 2% et  = 5%


ce qui donne n = 5 280 un tel échantillon représente environ 1 pour mille de la population
totale de 5 millions. Dans ce cas il n’est pas nécessaire de recourir au théorème central limite
pour essayer de réduire la taille de l’échantillon.

1.5.5. Solution de l’exercice 1.4.5.

a) Nous sommes dans le cas où la loi de probabilité de la variable aléatoire est la loi normale, la
population est finie et le tirage se fait avec remise. On utilise donc l’égalité :

2
n  Z2 
1
2 2

avec  = 0,05  = 0,114  = 0,01 et Z = 1,96


1 
2
ce qui donne n = 500

b) Considérons les 2 régions et essayons de déterminer, au prorata des nombres d’unités de


chaque région, les 10 unités qui seront concernées par les interviews.

24
Statistiques décisionnelles 1. Détermination de l’échantillon

CHOIX DES 10 UNITES


Régions R1 R2 Total
Nombre
8 10 18
d’unités total
% 44,44% 55,56% 100%
Nombre
d’unités de 4 6 10
l’échantillon

c) Considérons les 2 régions et essayons de répartir, au prorata de leurs nombres d’habitants,


les 500 interviews.

REPARTITION DES 500 INTERVIEWS


Régions R1 R2 Total
Nombre d’habitants
336900 541500 878400
total
% 38,35% 61,65% 100%
Nombre d’habitants
192 308 500
de l’échantillon
Arrondi à 10 près 190 310 500

Nous avons arrondi à 10 près pour que chacun des enquêteurs puissent réaliser 10 enquêtes par
jour.

Nous devons, d’abord choisir les 4 unités de la 1ère région et ensuite choisir les 190 personnes
dans ces 4 unités. On choisira les 4 plus grandes unités comme indiqué dans l’énoncé, nous
déterminerons enfin le nombre d’habitants à interviewer, dans chaque unité, au prorata de
l’importance des 4 unités choisies.

Région N°1 : Répartition des 190 interviews sur 4 unités et leurs


habitants
Nombre Nombre
Arrondis à
Unités d’habitants % d’habitants
10 près
total interviewés
U1 93600 44,67% 85 90
U2 45400 21,17% 40 40
U3 38900 18,14% 34 30
U4 36500 16,03% 31 30
Total 211400 100% 190 190

25
Statistiques décisionnelles 1. Détermination de l’échantillon

De même, nous devons, d’abord choisir les 6 unités de la 2ème région et ensuite choisir les 310
personnes dans ces 6 unités. On choisira les 6 plus grandes unités, nous déterminerons enfin le
nombre d’habitants à interviewer, dans chaque unité, au prorata de l’importance des 6 unités
choisies.

Région N°2 : Répartition des 300 interviews sur 6 unités et leurs


habitants
Nombre Nombre
Arrondis à
Unités d’habitants % d’habitants
10 près
total interviewés
U09 117100 27,94% 87 90
U10 107100 25,55% 80 80
U11 61200 14,60% 45 40
U12 51000 12,17% 39 40
U13 43800 10,45% 32 30
U14 38900 9,29% 27 30
Total 419100 100% 310 310

Ainsi, on mobilisera 4 enquêteurs pour la 1ère région, 1 enquêteur pour chaque unité, celui de
l’unité 1 passera plus de temps, 9 jours (10 interviews par jour) ; de même, on mobilisera 6
enquêteurs pour la 2ème région, 1 enquêteur pour chaque unité, celui de l’unité 09 passera plus
de temps, 9 jours (10 interviews par jour). L’opération durera donc 9 jours.

1.5.6. Solution de l’exercice 1.4.6.

a) Nous sommes dans le cas où la loi de probabilité de la consommation moyenne n’est pas
connue. Nous utilisons donc l’inégalité de Bienaymé Tchebycheff.

2
n
2 . 

avec  = 10  = 1,16 et  = 5%
ce qui donne n = 1487 qu’on peut arrondir à 1500

b) Effectuons une stratification où les catégories de commune constituent les strates.

L’échantillon de 1500 interviews sera réparti de façon proportionnelle sur les différentes
strates. En conservant la même fraction de sondage de chaque strate.

On détermine le nombre d’habitants dans chaque strate en se basant sur les centres de classes.

26
Statistiques décisionnelles 1. Détermination de l’échantillon

Nombre Centre de Nombre de Nombre Nombre


d’habitants classe communes d’habitants d’interviews
Moins de 1000[ 500 900 450000 218
[ 1000 – 2000[ 1500 300 450000 218
[ 2000 – 5000[ 3500 200 700000 339
[ 5000 – 10000[ 7500 80 600000 290
[10000 – 20000[ 15000 40 600000 290
plus de 20000 30000 10 300000 145
Total 1530 3100000 1500

La fraction de sondage : f = 1500 = 0,00048387


3100000
c) Pour visiter le plus grand nombre de communes, on fixe le nombre d’interviews à réaliser
par commune à 10 sauf pour la dernière catégorie de communes car elle ne contient que 10
communes qui seront toutes visitées, on réalisera alors 14 interviews par commune. Pour
déterminer le nombre de communes à visiter dans chacune des catégories de communes, il
suffit de diviser le nombre d’interviews par 10.

Nombre de
Catégories de Nombre Nombre
communes
communes d’interviews d’interviews
à visiter
Moins de 1000[ 218 22 220
[ 1000 – 2000[ 218 22 220
[ 2000 – 5000[ 339 34 340
[ 5000 – 10000[ 290 29 290
[ 10000 – 20000[ 290 29 290
plus de 20000 145 10 140
Total 1500 1500

1.5.7. Solution de l’exercice 1.4.7.

a) Le rendement de chaque enquêteur pendant 1 mois est de 150 interviews avec un écart type
de 5,5 interviews. Pour les 12 enquêteurs ce rendement est en moyenne de 1800 interviews
avec un écart type de 19 interviews.

p(n >no ) = 0,025 => p(n <no ) = 0,975

n 0 1800 = Z = 1,96
0,975
19
ce qui donne : no = 1838

27
Statistiques décisionnelles 1. Détermination de l’échantillon

b) Reprenons les données et calculons le poids de chaque tranche d’âge en effectuant une
répartition proportionnelle des 1838 interviews.

Moins de Entre 20 Entre 30 Plus de 60


Age Total
20 ans et 30 ans et 60 ans ans
Effectifs 5500000 2500000 1250000 250000 9500000
Poids en % 57,9 26,3 13,2 2,6 100
Taille 1064 484 242 48 1838
échantillon

1.5.8. Solution de l’exercice 1.4.8.

a) Dans le cas de l’utilisation de l’inégalité de Bienaymé Tchebycheff, on trouve :

p.q
n
2 . 

avec p = 0,01 q = 0,99  = 0,1% et  = 5%


ce qui donne n = 198000

Dans le cas de prélèvements sans remise dans une population finie, on trouve :

Z²  p.q N
1-
n 2
² N  Z²  p.q
1-
2

avec p = 0,01 q = 0,99  = 0,1% N = 500000  = 1% et Z  = 1,96


1-
2

ce qui donne n = 35344

Comme on le voit, l’inégalité de Bienaymé Tchebycheff aboutit ici à un échantillon de taille


trop élevée. Nous devons, par conséquent recourir au théorème central limite et accepter
l’hypothèse vraisemblable que la loi de probabilité que suit la variable aléatoire peut être
approchée par une loi normale du fait que la population concernée est grande.

b) Type de sondage.

b1) Si on tire n fusibles en prélevant n/50 par sac, il s’agit d’un échantillonnage stratifié
avec répartition proportionnelle.

28
Statistiques décisionnelles 1. Détermination de l’échantillon

b2) Si on choisit d'abord k sacs et on tire ensuite ni fusibles par sac, il s’agit
d’échantillonnage à deux degrés.
b3) Si on mélange le contenu des 50 sacs, et on tire n fusibles, il s’agit d’échantillonnage
aléatoire simple.

c) Le procédé de tirage, le mieux adapté est l’échantillonnage stratifié. Si le contenu des 50


sacs est homogène, on peut procéder par échantillonnage à deux degrés.

1.5.9. Solution de l’exercice 1.4.9.

a) La répartition optimale tient compte de quatre facteurs :

- Budget total de l’enquête, G = 44 320 dh


- Poids de la strate, wi
- Coût de la collecte de l’information dans la strate, ci
- Dispersion à l’intérieur de la strate, mesurée par l’écart type i.

Le nombre d’unités à choisir dans chacune des strates est :

w i i G
ni  k avec k 
ci  w i i ci

Reprenons les données de l’exercice dans un tableau synthétique.

Régions R1 R2 R3 R4 Total
Nombre d’entreprises 360 840 600 1200 3000
Poids de la strate, wi % 12% 28% 20% 40% 100%
Coût unitaire ci 225 196 400 324
l’écart type i. 0,2 0,1 0,2 0,4

A partir de ces données, nous pouvons calculer n :

G
k 
 w i i ci

44320
k=
0,12.0,2. 225  0,28.0,1. 196  0,2.0,2. 400  0,4.0,4. 324

k = 10000

29
Statistiques décisionnelles 1. Détermination de l’échantillon

ce qui donne :

0,12.0,2 0,28.0,1
n 1  10000 = 16 n 2  10000 = 20
225 196

0,2.0,2 0,4.0,4
n 3  10000 = 20 n 4  10000 = 89
400 324

ce qui donne n = n1 + n2 + n3 + n4 = 145

Ce qui nous permet de réaliser une stratification des entreprises de l’échantillon, région par
région :

Régions R1 R2 R3 R4 Total
Nombre d’entreprises 360 840 600 1200 3000
Echantillon 16 20 20 89 145

b) Nous sommes dans le cas où la loi de probabilité n’est pas connue. Nous utilisons donc
l’inégalité de Bienaymé Tchebycheff.

p.q p.q
n soit 
 .
2 n.

avec p = 0,3 q = 0,7 n = 145  = 1% et =?


ce qui donne  = 38 % ce qui est une marge d’erreur inacceptable.
1.5.10. Solution de l’exercice 1.4.10.

a) Nous sommes dans le cas où la loi de probabilité n’est pas connue. Nous utilisons donc
l’inégalité de Bienaymé Tchebycheff.

p.q
n
2 . 

avec p = 0,1 q = 0,9  = 5% et  = 1%


ce qui donne n = 18 000

30
Statistiques décisionnelles 1. Détermination de l’échantillon

b) Supposons n la taille de l’échantillon, NE le nombre d’enquêteurs et NJ le nombre de jours


nécessaires pour faire l’ensemble des interviews.

Nous avons les égalités suivantes :

132 500 = 20 000 + NE.(1000 + 170).NJ

n = 6 . NE . NJ

De ces 2 égalités, nous pouvons déduire :

n 6
 ce qui donne pour n = 576
112 500 1170

c) Si l’on réalise l’enquête avec le budget alloué, c'est-à-dire avec un échantillon de 576
éléments seulement, la marge d’erreur  est :

p.q p.q
n soit 
 .
2 n.

avec p = 0,1 q = 0,9  = 5% et n = 576

ce qui donne  = 5,6% une telle marge d’erreur est acceptable.


On peut donc se contenter d’un échantillon de 576 au lieu d’un échantillon de 18 000.

1.5.11. Solution de l’exercice 1.4.11.

La répartition optimale tient compte de quatre facteurs :

- Budget total de l’enquête, G = 10 000 dh.


- Poids de la strate, wi
- Coût de la collecte de l’information dans la strate, ci
- Dispersion à l’intérieur de la strate, mesurée par l’écart type i.

Le nombre d’unités à choisir dans chacune des strates est :

w i i G
ni  k avec k 
ci  w i i ci

31
Statistiques décisionnelles 1. Détermination de l’échantillon

Reprenons les données de l’exercice.

Strates Effectif Poids de la strate Ecart-type Coût de l’observation

Strate 1 2000 0,4 2 25


Strate 2 3000 0,6 0,7 36

A partir de ces données, nous pouvons calculer n :

G 10000
k  = = 1533,74
 w i i ci 0,4.2. 25  0,6.0,7. 36

ce qui donne :

0,4.2 0,6.0,7
n 1  1533,74 = 245 n 2  1533,74 = 107
25 36

ce qui donne n = n1 + n2 = 352

1.5.12. Solution de l’exercice 1.4.12.

a) La longueur des entretoises est une variable normale de moyenne 37,50 mm et d’écart type
 inconnu.

998 sur 1000 des pièces fabriquées sont bonnes si :

p(37,45 < X < 37,55) = 0,998

37,55  37,5 37,45  37,5


( ) - ( ) = 0,998
 

0,05 0,05
( ) - ( ) = 0,998
 

0,05 0,05
2.( ) - 1 = 0,998  ( ) = 0,999
 

0,05
= Z0,999 = 3,09 =>  = 0,016

32
Statistiques décisionnelles 1. Détermination de l’échantillon

b) La moyenne des longueurs des pièces prélevées appartient à l’intervalle fermé [37,495 ;
37,505] et signifie que :

 = (37,505 – 37,495) / 2 = 0,005

Nous sommes dans le cas où la loi de probabilité est la loi normale, on utilise donc l’égalité :

2
n  Z2 
1
2 2

avec  = 0,05  = 0,016  = 0,005 et Z  = 1,96


1
2
ce qui donne n = 40

33
Statistiques décisionnelles 1. Détermination de l’échantillon

34
Statistiques décisionnelles Partie 2. Loi de probabilité d’échantillon

PARTIE 2
LOI DE PROBABILITE D’ECHANTILLON

La notion de distribution d’échantillonnage est à la base des méthodes d’inférence statistique


dont les deux principales applications sont les problèmes d’estimation et ceux des tests
d’hypothèses.

Les premiers ont pour but d’estimer, à partir d’un échantillon, la valeur numérique d’un ou de
plusieurs paramètres de la population, et de déterminer la précision de cette ou de ces
estimations. Cela fera l’objet de la 3e partie avec ses chapitres 5, 6 et 7.

Les seconds ont pour but de vérifier la véracité d’une hypothèse, émise au départ, au sujet
d’une ou de plusieurs populations. Cela fera l’objet de la 4e partie avec ses chapitres 8, 9, 10 et
11.

Mais avant d’aborder les calculs d’estimation et de tests statistiques, il nous faudra déterminer
les lois de probabilités des paramètres d’échantillon, en effet :

A tout paramètre de population , on peut associer une série infinie de valeurs observées t, t’,
t ‘’, …, calculées à partir d’échantillons successifs de même effectif, prélevés dans des
conditions identiques. Ces valeurs peuvent être considérées comme des valeurs observées
d’une même variable aléatoire T et cette variable est fonction des différentes variables
aléatoires correspondant à chacun des individus de l’échantillon :

T = f (X1, X2, …, Xn)

En supposant que l’échantillon est aléatoire et simple, la variable aléatoire T possède une
distribution de probabilité, dite distribution d’échantillonnage. On peut donc calculer
l’espérance E(T) et la variance V(T) de cette distribution.

La distribution d’échantillonnage est donc la distribution des différentes valeurs que peut
prendre la variable aléatoire T, pour les différents échantillons possibles. Son écart type T est
appelé erreur standard.

35
Statistiques décisionnelles Partie 2. Loi de probabilité d’échantillon

Les principales distributions d’échantillonnage sont :

- la distribution d’échantillonnage de la moyenne,


- la distribution d’échantillonnage de la variance,
- la distribution d’échantillonnage de la proportion.

Cette partie sera consacrée à la détermination, chapitre après chapitre, des lois de distribution
d’échantillonnage sus-citées.

36
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon

CHAPITRE 2
LOI DE PROBABILITE DE LA MOYENNE D’ECHANTILLON

2.1. POSITION DU PROBLEME.

Dans ce chapitre, nous considérons une population mère d’où l’on extrait, successivement, des
échantillons de n éléments dont on détermine les moyennes :
n

 x i
a) x1, x2, x3, ………., xn avec x  i 1

n
n

 x' i

b) x1’, x2’, x3’, ………., xn’ avec x'  i 1


n
n

 x '' i

c) x1’’, x2’’, x3’’, ………., xn’’ avec x''  i 1


n

Les moyennes x , x' et x' ' sont généralement différentes.


On peut considérer la suite des premières observations x1, x1’, x1’’, … des différents
échantillons comme des valeurs observées d’une même variable aléatoire X1, la suite des
deuxièmes observations des différents échantillons comme des valeurs observées d’une même
variable aléatoire X2, etc.
  
Les moyennes observées x , x ' , x ' ' , … sont alors des valeurs observées d’une même variable

aléatoire X qui est fonction de X1, X2, …, Xn.
n

X
i 1
i

X
n
37
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon


Comme X1, X2, …, Xn, la variable aléatoire X possède une distribution de probabilité, dite
distribution d’échantillonnage de la moyenne. On peut donc calculer l’espérance et la variance
de cette distribution, en supposant que l’échantillon est aléatoire et simple, les variables
aléatoires X1, X2, …, Xn ont toutes la même distribution de probabilité, dont la moyenne est
désignée par m et la variance par ².

E(Xi) = m et V(Xi) = ²

2.2. CAS D’UNE POPULATION DONT ON CONNAIT LA MOYENNE, LA VARIANCE


ET LA LOI DE PROBABILITE.

2.2.1. Echantillon exhaustif.

Dans le cas d’une population finie d’effectif N, au sein de laquelle est prélevé, sans remise, un
échantillon aléatoire simple d’effectif n, l’espérance mathématique et la variance de la
moyenne sont :
n
 Xi n

n 
E( X ) = E( i 1
)= 1  E(Xi) = 1 nm = m
n i 1 n
 N  n 2
V( X ) =
N 1 n
L’erreur standard est alors : X   N n
n N 1
Dans ce cas, la loi de probabilité de la moyenne est normale de moyenne m et d’écart type
 Nn
  .
N 1

X
n

2.2.2. Echantillon non exhaustif.


n
 Xi n
E( X ) = E( i 1
)= 1  E(Xi) = 1 nm = m
n n i 1 n
n
 Xi
V(Xi) = 1 n ² = ²
n
V( X ) = V( i 1
)= 1 
n n² i 1 n² n

L’erreur standard est alors :   
X
n

38
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon

Dans ce cas la loi de probabilité de la moyenne est normale de moyenne m et d’écart type

 
 .
X
n

2.3. CAS D’UNE POPULATION DONT ON CONNAIT LA MOYENNE ET LA LOI DE


PROBABILITE.

^
 
E( X ) = m et V( X ) = ²
n
n 
^ (x i x)²
Avec : ²  n v(x) = i 1
n 1 n 1
^

L’erreur standard est alors :  X  

Dans ce cas la loi de probabilité de la moyenne est normale de moyenne m et d’écart type
^

X   .

2.4. CAS D’UNE POPULATION DONT ON NE CONNAIT NI LA MOYENNE, NI LA


VARIANCE NI LA LOI DE PROBABILITE.

^
 
E( X ) = m et V( X ) = ²
n
n 
^ (x i x)²
avec : ²  n v(x) = i 1
n 1 n 1
^

L’erreur standard est alors :  X  

39
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon

Si la distribution de la population mère est inconnue, le théorème central limite permet


d’affirmer que la distribution de la moyenne est asymptotiquement normale. Pour un effectif
suffisamment élevé, la moyenne d’un échantillon peut toujours être considérée comme une
variable approximativement normale. C’est généralement le cas lorsque l’effectif est supérieur
à 30. Dans le cas contraire (n  30), la moyenne d’un échantillon peut toujours être considérée
comme une variable de Student à (n-1) degré de liberté.

2.5. LOI DE PROBABILITE DE LA DIFFERENCE DE DEUX MOYENNES


D’ECHANTILLONS INDEPENDANTS.

 
La différence entre les moyennes observées des deux échantillons indépendants est : x1 - x 2
Une distinction est faite entre le cas de deux populations de variances inégales et le cas de deux
populations de variances égales.

2.5.1. Cas de deux populations de variances inégales

   
E( x1 - x 2 ) = m1-m2 V( x1 - x 2 ) = ²1  ² 2
n1 n 2
 
Pour des populations normales (variances connues), les variables x1 , x2 sont des variables
normales de moyennes respectivement m1 et m2 et d’écarts types respectivement 1 et
n1
2 . La différence entre les moyennes observées des deux échantillons indépendants est elle-
n2
même normale de moyenne (m1-m2) et d’écart type ²1  ² 2 .
n1 n 2
Si les distributions des populations mères sont inconnues, pour des effectifs suffisamment
élevés, la différence entre les moyennes peut toujours être considérée comme une variable
approximativement normale. C’est généralement le cas lorsque les effectifs sont supérieurs à
30. Dans le cas contraire, la différence entre les moyennes peut toujours être considérée comme
une variable de Student à (n1 + n2 - 2) degrés de liberté.

2.5.2. Cas de deux populations de variances égales

Dans le cas où les populations sont de variances égales, une estimation de la variance
commune aux deux populations est donnée par :

40
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon

 
^
² 
 (x i  x 1 )²   (x i  x 2 )²
n1  n 2  2
 
E( x1 - x 2 ) = m1 - m2
^ ^
 
V( x1 - x 2 ) = ²  ² = ² ( 1  1 )
^

n1 n 2 n1 n 2
Pour des populations normales, la différence entre les moyennes observées des deux
échantillons indépendants est elle-même normale de moyenne (m1-m2) et d’écart type
^
² ( 1  1 ) .
n1 n 2
Si les distributions des populations mères sont inconnues, pour des effectifs suffisamment
élevés, la différence entre les moyennes peut toujours être considérée comme une variable
approximativement normale. C’est généralement le cas lorsque les effectifs sont supérieurs à
30. Dans le cas contraire, la différence entre les moyennes peut toujours être considérée comme
une variable de Student à (n1 + n2 - 2) degrés de liberté.

2.6. ENONCES DES EXERCICES D’APPLICATION.

2.6.1. Quelle est l'espérance mathématique et quelle est la variance des résultats qu'on peut
obtenir quand on choisit au hasard et indépendamment dix nombres entiers de 1 à 9 et qu'on en
calcule la moyenne, en supposant que chacun des nombres de 1 à 9 a une même probabilité
d'être choisi et qu'un même nombre peut être choisi plusieurs fois sans aucune restriction ?

2.6.2. Une population est constituée des cinq nombres 2, 3, 6, 8, 11. On considère tous les
échantillons non exhaustifs possibles de taille deux de cette population. Trouver :
a) La moyenne de la population.
b) L’écart type de la population.
c) La moyenne de la distribution d'échantillonnage des moyennes.
d) L’écart type de la distribution d'échantillonnage des moyennes, c'est-à-dire l'erreur
quadratique moyenne des moyennes.
e) Reprendre les mêmes questions dans le cas d’un échantillon exhaustif.

2.6.3. On suppose que les poids de 3000 têtes d’ovins d'une ferme suivent une loi normale de
moyenne 38,0 kilogrammes et d’écart type 5,0 kilogrammes. Si l'on extrait 80 échantillons de
25 têtes chacun, quelle est la moyenne et l’écart type théoriques de la distribution
d'échantillonnage des moyennes pour :
a) Un échantillonnage non exhaustif ?
b) Un échantillonnage exhaustif ?

41
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon

c) Pour combien d'échantillons peut-on s'attendre à trouver une moyenne comprise entre 36,8
et 38,3 kilogrammes ?

2.6.4. Cinq cents rondelles ont un poids moyen de 5,02 grammes et un écart type de 0,30
gramme. Trouver la probabilité pour qu’un échantillon de 100 rondelles choisies au hasard ait
un poids total :
a) Compris entre 496 et 500 grammes.
b) Plus grand que 510 grammes.

2.6.5. Les batteries d'un fabricant A ont une durée de vie moyenne de 1400 heures avec un
écart-type de 200 heures, et celles d'un fabricant B ont une durée de vie moyenne de 1200
heures avec un écart-type de 100 heures. Si l'on teste des échantillons de 125 batteries pour
chaque marque, quelle est la probabilité pour que la marque A ait une durée de vie moyenne
qui soit au moins supérieure à celle de la marque B de :
a) 160 heures ?
b) 250 heures ?

2.6.6. Les piles d'une marque donnée pèsent 0,50 gramme avec un écart-type de 0,02 gramme.
Quelle est la probabilité pour que deux lots de 1000 piles chacun diffèrent entre eux de plus de
2 grammes ?

2.6.7. Un certain type d’ampoule électrique a une durée de vie moyenne de 1500 heures et un
écart type de 150 heures. Trois ampoules sont branchées de telle manière que, si l’une d’elles
est grillée, les autres continuent à fonctionner. En supposant que les durées de vie suivent une
loi de Laplace Gauss, quelle est la probabilité pour que l’éclairage fonctionne, en moyenne :
a) Au moins pendant 5000 heures ?
b) Au plus pendant 4200 heures ?

2.6.8. Les poids de 1500 pièces suivent une loi de probabilité normale de moyenne 22,40 kg et
d’écart type 0,048 kg Déterminer pour 300 échantillons aléatoires de taille 36 de cette
population la moyenne et l'écart type théorique de la distribution d'échantillonnage des
moyennes :
a) L'échantillonnage étant non exhaustif.
b) L’échantillonnage étant exhaustif.
c) Combien d'échantillons aléatoires ont leur moyenne comprise entre 22,39 et 22,41 kg ?

2.6.9. Les poids des colis reçus dans un grand magasin ont une moyenne de 300 kg et un écart
type de 50 kg, Quelle est la probabilité pour que 25 colis reçus au hasard et chargés sur un
monte-charge dépassent la limite de sécurité du monte-charge, qui est 8200 kilogrammes.

42
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon

2.6.10. A et B fabriquent deux types de câbles ayant comme charges de rupture respectives
4000 et 4500 kilogrammes avec des écarts-types de 300 et 200 kilogrammes. Si l'on teste 100
câbles de la marque A et 50 câbles de la marque B, quelle est la probabilité pour que la
résistance de rupture moyenne de B ait :
a) Au moins 600 kilogrammes de plus que A ?
b) Au moins 450 kilogrammes de plus que A ?

2.6.11. Une firme fabrique un bien dont la durée de vie est en moyenne 1800 heures avec un
écart type de 200 heures.
a) Trouver la probabilité qu'un échantillon aléatoire de 100 unités de ce bien ait une moyenne
de vie supérieure à 1825.
b) Trouver la probabilité qu'un échantillon aléatoire de 100 Unités de ce bien ait une moyenne
de vie de pas plus de 1775 et pas moins de 1760.

2.7. SOLUTIONS DES EXERCICES D’APPLICATION.

2.7.1. Solution de l’exercice 2.6.1.

Il s’agit du cas d’une population dont on connaît la moyenne et la variance. L’échantillon est
non exhaustif.


E( X ) = m = 1 23 45 6 7 89 = 5
9

 x i  x 2 = 1²  2² 3²  4² 5² 6² 7² 8² 9²


2
² = - 5² = 6,67
n 9

V( X ) = ² = 6,67 = 0,667
n 10

L’erreur standard est alors : X   = 0,667 = 0,82


n
2.7.2. Solution de l’exercice 2.6.2.

a) La moyenne de la population.

m= 23 6811 = 6
5

43
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon

b) L’écart type de la population.

 x i  x 2 = 2² 3² 6² 8² 11²


2
² = - 6² = 10,80
n 5
c) La moyenne de la distribution d'échantillonnage des moyennes.


E( X ) = m = 6

d) L’écart type de la distribution d'échantillonnage des moyennes, c'est-à-dire l'erreur standard.

Il s’agit du cas d’une population dont on connaît la moyenne et la variance. L’échantillon est
non exhaustif.


V( X ) = ² = 10,80 = 5,40
n 2

L’erreur standard est alors : X   = 5,40 = 2,32


n
e) Cas d’un échantillon exhaustif.

- Moyenne de la distribution d'échantillonnage des moyennes.


E( X ) = m = 6

- Ecart type de la distribution d'échantillonnage des moyennes.


V( X ) = N  n ² = 5 2 10,80 = 4,05
N 1 n 51 2

L’erreur standard est alors : 4,05 = 2,01

2.7.3. Solution de l’exercice 2.6.3.

Désignons par X le poids des ovins. X suit une loi normale de moyenne 38 kg et d’écart type 5
kg.

La taille de l’échantillon est n = 25

44
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon

a) Cas d’un échantillon non exhaustif.

Il s’agit d’une population dont on connaît la moyenne, la variance et la loi de probabilité.

- Moyenne de la distribution d'échantillonnage des moyennes.


E( X ) = m = 38 kg

- Ecart type de la distribution d'échantillonnage des moyennes.



V( X ) = ² = 5² = 1
n 25
L’erreur standard est alors : 1 = 1 kg.
b) Cas d’un échantillon exhaustif.

Il s’agit d’une population dont on connaît la moyenne, la variance et la loi de probabilité.

- Moyenne de la distribution d'échantillonnage des moyennes.


E( X ) = m = 38 kg

- Ecart type de la distribution d'échantillonnage des moyennes.


V( X ) =
Nn ² = 3000  25 5² = 0,992
N 1 n 3000  1 25

L’erreur standard est alors : 0,992 = 0,996 kg.

c) Nombre d'échantillons dont la moyenne est comprise entre 36,8 et 38,3 kilogrammes.

Calculons la probabilité que la moyenne soit comprise entre 36,8 et 38,3 kg. La moyenne suit
une loi normale de moyenne 38 et d’écart type 1 kg.

38,338 36,838
p(36,8 < x < 38,3) = ( ) - ( )
1 1

p(36,8 < x < 38,3) = (0,3) - (-1,2)

p(36,8 < x < 38,3) = 0,6179 – 0,1151 = 0,5028

45
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon

Nombre d'échantillons dont la moyenne est comprise entre 36,8 et 38,3 kilogrammes =
0,5028x80 = 40,22.

On peut s’attendre à avoir 40 à 41 échantillons dont la moyenne est comprise entre 36,8 et 38,3
kilogrammes.

2.7.4. Solution de l’exercice 2.6.4.

Déterminons la loi de probabilité de la moyenne.

Il s’agit d’une population dont on connaît la moyenne, la variance et la loi de probabilité.

- Moyenne de la distribution d'échantillonnage des moyennes.


E( X ) = m = 5,02 g

- Ecart type de la distribution d'échantillonnage des moyennes.


V( X ) =
Nn ² = 500  100 0,3² = 0,0007
N 1 n 500  1 100

L’erreur standard est alors : 0,0007 = 0,027 g.

a) Un poids total compris entre 496 et 500 g est équivalent à une moyenne comprise entre 4,96
et 5 g.


5  5,02 4,96  5,02
p(4,96 < x < 5) = ( ) - ( )
0,027 0,027


p(4,96 < x < 5) = (-0,74) - (-2,22)

p(4,96 < x < 5) = 0,2296 – 0,0132 = 0,2164
b) Un poids total plus grand que 510 g est équivalent à une moyenne plus grande que 5,10 g.


5,10  5,02
p( x > 5,10) = 1 - ( )
0,027


p( x > 5,10) = 1 - (2,96) = 1 – 0,9985 = 0,0015

46
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon

2.7.5. Solution de l’exercice 2.6.5.

Il s’agit de la différence de deux moyennes d’échantillons indépendants.

La différence entre les durées de vie moyennes observées des deux échantillons indépendants
² 1 ² 2
suit une loi normale de moyenne (m1-m2) et d’écart type  .
n1 n2

 
E( x1 - x 2 ) = m1 - m2 = 1400 – 1200 = 200 h
  ² 1 ² 2 200² 100²
V( x1 - x2 ) =  =  = 400
n1 n2 125 125

L’écart type est donc 400 = 20 h

La différence entre les durées de vie moyennes observées des deux échantillons indépendants
suit une loi normale de moyenne 200 heures et d’écart type 20 heures.

a) Probabilité pour que la marque A ait une durée de vie moyenne qui soit au moins supérieure
à celle de la marque B de 160 heures.

 
p( x1 - x 2 > 160) = 1 - ( 160 200 )
20
 
p( x1 - x 2 > 160) = 1 - (-2) = 0,9772
b) Probabilité pour que la marque A ait une durée de vie moyenne qui soit au moins supérieure
à celle de la marque B de 250 heures.

 
p( x1 - x 2 > 250) = 1 - ( 250 200 )
20
 
p( x1 - x 2 > 250) = 1 - (2,5) = 0,0062

47
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon

2.7.6. Solution de l’exercice 2.6.6.

Il s’agit de la différence de deux moyennes d’échantillons indépendants.

La différence entre les poids moyens observés des deux échantillons indépendants suit une loi
² 1 ² 2
normale de moyenne (m1-m2) et d’écart type  .
n1 n2

 
E( x1 - x 2 ) = m1 - m2 = 0,5 – 0,5 = 0 g
  ² 1 ² 2 0,02² 0,02²
V( x1 - x2 ) =  =  = 0,0000008
n1 n2 1000 1000

L’écart type est donc 0,00089 g.

La différence entre les poids moyens observés des deux échantillons indépendants suit une loi
normale de moyenne nulle et d’écart type 0,00089 gramme.

Les deux lots de 1000 pièces chacune différents de plus de 2 g ce qui donne un écart absolu
entre les moyennes de plus de 0,002 g.

   
p( x1 - x 2  > 0,002) = p(-0,002 < x1 - x 2 < 0,002)
 
0,002 0,002
p(-0,002 < x1 - x 2 < 0,002) = ( ) - (- )
0,00089 0,00089

 
p(-0,002 < x1 - x 2 < 0,002) = 2. (2,25) – 1
 
p(-0,002 < x1 - x 2 < 0,002) = 2. 0,9878 – 1 = 0,9756
2.7.7. Solution de l’exercice 2.6.7.

Désignons par X la durée de vie d’une ampoule. X suit une loi normale de moyenne 1500
heures et d’écart type 150 heures. L’éclairage va durer pendant le total des durées de vie des
trois ampoules.

48
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon

Désignons par Y la durée de vie totale.

Y=X+X+X

E(Y) = E(X) + E(X) + E(X) = 4500 h

V(Y) = V(X) + V(X) + V(X) = 150²+150²+150² = 67500

L’écart type de Y est donc 67500 = 259,81 h.

L’éclairage Y suit une loi normale de moyenne 4500 heures et d’écart type 259,81 heures.

a) Probabilité que l’éclairage fonctionne, en moyenne, au moins pendant 5000 heures.

p(Y >5000) = 1 - ( 5000 4500 )


259,81

p(Y >5000) = 1 - (1,92) = 0,0274

b) Probabilité que l’éclairage fonctionne, en moyenne, au plus pendant 4200 heures.

p(Y < 4200) = ( 4200 4500 )


259,81

p(Y < 4200) = (-1,15) = 0,1251

2.7.8. Solution de l’exercice 2.6.8.

Désignons par X le poids des pièces. X suit une loi normale de moyenne 22,40 kg et d’écart
type 0,048 kg.

La taille de l’échantillon est n = 36

a) Cas d’un échantillon non exhaustif.

Il s’agit d’une population dont on connaît la moyenne, la variance et la loi de probabilité.

- Moyenne de la distribution d'échantillonnage des moyennes.


E( X ) = m = 22,40 kg

49
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon

- Ecart type de la distribution d'échantillonnage des moyennes.


V( X ) = ² =
0,048²
= 0,0001
n 36

L’erreur standard est alors : 0,0001 = 0,008 kg.

b) Cas d’un échantillon exhaustif.

Il s’agit d’une population dont on connaît la moyenne, la variance et la loi de probabilité.

- Moyenne de la distribution d'échantillonnage des moyennes.


E( X ) = m = 22,40 kg

- Ecart type de la distribution d'échantillonnage des moyennes.


V( X ) = N  n ² = 150036 0,048² = 0,00006
N 1 n 15001 36

L’erreur standard est alors : 0,00006 = 0,00791 kg.

c) Nombre d'échantillons dont la moyenne est comprise entre 22,39 et 22,41 kilogrammes.

Calculons la probabilité pour que la moyenne soit comprise entre 22,39 et 22,41 kg. La
moyenne suit une loi normale de moyenne 22,40 et d’écart type 0,008 kg.


22,41 22,40 22,39 22,40
p(22,39 < x < 22,41) = ( ) - ( )
0,008 0,008

p(22,39 < x < 22,41) = (1,25) - (-1,25)

p(22,39 < x < 22,41) = 0,8944 – 0,1056 = 0,7888 = 78,88 %
Ce qui veut dire que 78,88 % des 300 échantillons qui ont leur moyenne comprise entre 22,39
kg et 22,41 kg soit : 0,7888 x 300 = 236,64.

On peut s’attendre à avoir 236 ou 237 échantillons dont la moyenne est comprise entre 22,39 et
22,41 kilogrammes.

50
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon

2.7.9. Solution de l’exercice 2.6.9.

Le poids des 25 colis reçus au hasard et chargés sur un monte-charge dépassent la limite de
sécurité du monte-charge, qui est 8200 kilogrammes si le poids moyen d’un colis dépasse 328
kg.

Déterminons la loi de probabilité de la moyenne.

Il s’agit d’une population dont on connaît la moyenne et la variance.

- Moyenne de la distribution d'échantillonnage des moyennes.


E( X ) = m = 300 kg

- Ecart type de la distribution d'échantillonnage des moyennes.


V( X ) = ² = 50² = 100
n 25

L’erreur standard est alors : 100 = 10 kg.



p( x > 328) = 1 - ( 328300 )
10

p( x > 328) = 1 - (2,80) = 1 – 0,9974 = 0,0026 = 0,26 %

2.7.10. Solution de l’exercice 2.6.10.

Il s’agit de la différence de deux moyennes d’échantillons indépendants.

La différence entre les durées de vie moyennes observées des deux échantillons indépendants

suit une loi normale de moyenne (m2-m1) et d’écart type ²1  ² 2 .


n1 n 2
 
E( x 2 - x1 ) = m2 - m1 = 4500 – 4000 = 500 kg
 
V( x 2 - x1 ) = ²1  ² 2 = 300²  200² = 1700
n1 n 2 100 50

51
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon

L’écart type est donc 1700 = 41,23 kg

La différence entre les durées de vie moyennes observées des deux échantillons indépendants
suit une loi normale de moyenne 500 kg et d’écart type 41,23 kg.

a) Probabilité pour que la marque B ait une charge de rupture d’au moins 600 kg de plus que la
marque A.

 
p( x 2 - x1 > 600) = 1 - ( 600500 )
41,23
 
p( x 2 - x1 > 600) = 1 - (2,43) = 0,0075
b) Probabilité pour que la marque B ait une charge de rupture d’au moins 450 kg de plus que la
marque A.

 
p( x 2 - x1 > 450) = 1 - ( 450500 )
41,23
 
p( x 2 - x1 > 450) = 1 - (-1,21) = 0,8869
2.7.11. Solution de l’exercice 2.6.11.

Désignons par X la durée de vie de moyenne 1800 heures avec un écart type de 200 heures.

Déterminons la loi de probabilité de la moyenne.

Il s’agit d’une population dont on connaît la moyenne et la variance.

- Moyenne de la distribution d'échantillonnage des moyennes.


E( X ) = m = 1800 h

- Ecart type de la distribution d'échantillonnage des moyennes.


V( X ) = ² = 200² = 400
n 100

L’erreur standard est alors : 400 = 20 h.

52
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon

a) Probabilité qu'un échantillon aléatoire de 100 unités de ce bien ait une moyenne de vie
supérieure à 1825.


p( x > 1825) = 1 - ( 18251800 )
20

p( x > 1825) = 1 - (1,25) = 0,1056

b) Probabilité qu'un échantillon aléatoire de 100 unités de ce bien ait une moyenne de vie de
pas plus de 1775 et pas moins de 1760.


p(1760 < x < 1775) = ( 17751800 ) - ( 17601800 )
20 20

p(1760 < x < 1775) = (-1,25) - (-2)

p(1760 < x < 1775) = 0,1056 – 0,0228 = 0,0828

53
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon

54
Statistiques décisionnelles 3. Loi de probabilité de la variance d’échantillon

CHAPITRE 3
LOI DE PROBABILITE DE LA VARIANCE D’ECHANTILLON

3.1. POSITION DU PROBLEME.

De la même manière que pour la moyenne, chacun des échantillons possède une variance :

n  n  n 
(x i  x)² (x i' x')² (x " x")²
i

v(x)  i 1 v(x')  i 1 v(x")  i 1


n n n
Ces variances peuvent être considérées comme des valeurs observées d’une même variable
aléatoire :

n 
(Xi X)²
V(X)  i 1
n
Comme X1, X2, …, Xn, la variable aléatoire V(X) possède une distribution de probabilité, dite
distribution d’échantillonnage de la variance. On peut donc calculer l’espérance mathématique
et la variance de cette distribution, en supposant que l’échantillon est aléatoire et simple, les
variables aléatoires X1, X2, …, Xn ont toutes la même distribution de probabilité, dont la
moyenne est désignée par m et la variance par ².

E(Xi) = m et V(Xi) = ²

on peut démontrer alors :

n 1
E(V(X)) =  σ²
n
55
Statistiques décisionnelles 3. Loi de probabilité de la variance d’échantillon

Pour la variance de la distribution d’échantillonnage de la variance, on démontre, dans le cas


d’une population normale :

2(n 1) 4
V(V(X)) = .

Dans le cas d’une population finie d’effectif N, au sein de laquelle est prélevé, sans remise, un
échantillon aléatoire est simple d’effectif n, l’espérance mathématique de la variance est :

N n 1
E(V(X)) =   σ²
N 1 n
En ce qui concerne la forme de la distribution d’échantillonnage de la variance, on peut
démontrer que dans le cas particulier d’une population normale, la variable aléatoire
n 
 (Xi  X)²
i 1
possède une distribution khi deux à (n-1) degré de liberté.
²
3.2. ENONCES DES EXERCICES D’APPLICATION.

3.2.1. Calculez la moyenne et l'écart type de la variance S², ainsi que la probabilité p(10 < S²
<20), en supposant que S² désigne la variance observée d'échantillons aléatoires et simple
d'effectif 10 extraits d'une population normale de moyenne égale à 15 et d’écart type égal à 4.

3.2.2. Quelle est l'espérance mathématique et quelle est la variance des résultats qu'on peut
obtenir quand on choisit au hasard et indépendamment dix nombres entiers de 1 à 9 et qu'on en
calcule la variance, en supposant que chacun des nombres de 1 à 9 a une même probabilité
d'être choisi et qu'un même nombre peut être choisi plusieurs fois sans aucune restriction ?

3.2.3. Une population est constituée des cinq nombres 2, 3, 6, 8, 11. On considère tous les
échantillons non exhaustifs possibles de taille deux de cette population. Trouver :
a) La moyenne de la population.
b) L’écart type de la population.
c) La moyenne de la distribution d'échantillonnage des variances.
d) L’écart type de la distribution d'échantillonnage des variances.
e) Trouver la moyenne de la distribution d'échantillonnage des variances dans le cas d’un
échantillon exhaustif.

56
Statistiques décisionnelles 3. Loi de probabilité de la variance d’échantillon

3.2.4. On suppose que les poids de 3000 têtes d’ovins d'une ferme suivent une loi normale de
moyenne 38,0 kilogrammes et d’écart type 5,0 kilogrammes. Si l'on extrait 80 échantillons de
25 têtes chacun :
a) Quelle est la moyenne et l’écart type théoriques de la distribution d'échantillonnage des
variances ?
b) Pour combien d'échantillons peut-on s'attendre à trouver un écart type compris entre 4 et 7
kilogrammes ?

3.2.5. Cinq cents rondelles ont un poids moyen de 5,02 grammes et un écart type de 0,30
gramme. Trouver la probabilité pour qu’un échantillon de 100 rondelles choisies au hasard ait
un écart type :
a) Compris entre 0,25 et 0,35 grammes.
b) Plus grand que 0,3 grammes.

3.2.6. Un certain type d’ampoule électrique a une durée de vie moyenne de 1500 heures et un
écart type de 150 heures. Trois ampoules sont branchées de telle manière que, si l’une d’elles
est grillée, les autres continuent à fonctionner. En supposant que les durées de vie suivent une
loi de Laplace Gauss, quelle est la probabilité pour que l’écart type de l’éclairage ne dépasse
pas :
a) 260 heures ?
b) 200 heures ?

3.2.7. Les poids de 1500 pièces suivent une loi de Laplace-Gauss de moyenne 22,40 kg et écart
type 0,048 kg.
a) Déterminer pour 300 échantillons aléatoires de taille 36 de cette population, la moyenne et
l'écart type théoriques de la distribution d'échantillonnage des variances.
b) Combien d'échantillons aléatoires ont-ils leur écart type compris entre 45 grammes et 50
grammes ?

3.2.8. Les poids des colis reçus dans un grand magasin ont une moyenne de 300 kg et un écart
type de 50 kg
a) Déterminer pour 25 colis reçus au hasard et chargés sur un monte-charge, la moyenne et
l'écart type théoriques de la distribution d'échantillonnage des variances.
b) Quelle est la probabilité pour que 25 colis reçus au hasard et chargés sur un monte-charge
aient un écart type qui dépasse 40 kg ?

3.2.9. A et B fabriquent deux types de câbles ayant comme charges de rupture respectives 4000
et 4500 kilogrammes avec des écarts-types de 300 et 200 kilogrammes. Si l'on teste 100 paires
de câbles des deux marques, quelle est la probabilité pour que la différence de résistance de
rupture entre les deux marques ait un écart type de :
a) Moins 350 kilogrammes ?
b) Moins 300 kilogrammes ?

57
Statistiques décisionnelles 3. Loi de probabilité de la variance d’échantillon

3.2.10. Une firme fabrique un bien dont la durée de vie est en moyenne 1800 heures avec un
écart type de 200 heures.
a) Quelle est la moyenne et l’écart type théoriques de la distribution d'échantillonnage des
variances pour des échantillons de taille 20 ?
b) Quelle est la moyenne et l’écart type théoriques de la distribution d'échantillonnage des
variances pour des échantillons de taille 50 ?
c) Trouver la probabilité qu'un échantillon aléatoire de 20 unités de ce bien ait un écart type de
vie supérieur à 220.
d) Trouver la probabilité qu'un échantillon aléatoire de 50 unités de ce bien ait un écart type de
vie supérieur à 220.

3.3. SOLUTIONS DES EXERCICES D’APPLICATION.

3.3.1. Solution de l’exercice 3.2.1.

Il s’agit d’une population normale de moyenne égale à 15 et d’écart type égal à 4.

m = 15 =4 et n = 10

n 1 10  1
E (V(X)) =  σ² =  4² = 14,4
n 10

2(n 1) 4 2(101) 4


V(V(X)) =  = 4 = 46,08
n² 10²

L’erreur standard est alors : 46,08 = 6,8

Dans le cas d’une population normale, la variable aléatoire n.S² possède une distribution khi
²
deux à 9 (n-1) degrés de liberté.

p(10 < S² <20) = p( 10.10 < 10.S² < 10.20 )


4² 4² 4²
p(10 < S² <20) = p(6,25 < ² < 12,50)

p(10 < S² <20) = p(² < 12,50) - p(² < 6,25)

58
Statistiques décisionnelles 3. Loi de probabilité de la variance d’échantillon

En consultant la table de la fonction de répartition de la loi Khi deux, à 9 degrés de liberté, on


trouve :

0,8 < p(² < 12,50) < 0,9 après interpolation linéaire on trouve :

p(² < 12,50) = 0,812

0,2 < p(² < 6,25) < 0,3 après interpolation linéaire on trouve :

p(² < 6,25) = 0,2861

p(10 < S² <20) = 0,812 – 0,2861 = 0.5259

3.3.2. Solution de l’exercice 3.2.2.

Il s’agit du cas d’une population dont on connaît la moyenne et la variance. L’échantillon est
non exhaustif.

La moyenne et la variance de la population sont :

m= 1 23 45 6 7 89 = 5


9

 x i  x 2 = 1²  2² 3²  4² 5² 6² 7² 8² 9²


2
² = - 5² = 6,67
n 9
m=5 ² = 6,67 et n = 10

n 1 10  1
E(V(X)) =  σ² =  6,67 = 6,003
n 10

2(n 1) 4 2(101)


V(V(X)) =  = .6.67² = 8,01
n² 10²

L’erreur standard est alors : 8,01 = 2,8

59
Statistiques décisionnelles 3. Loi de probabilité de la variance d’échantillon

3.3.3. Solution de l’exercice 3.2.3.

a) La moyenne de la population.

m= 23 6811 = 6
5
b) Ecart type de la population.

 x i  x 2 = 2² 3² 6² 8² 11²


2
² = - 6² = 10,80
n 5
c) La moyenne de la distribution d'échantillonnage des variances.

m=6 ² = 10,8 et n=2

n 1 2 1
E(V(X)) =  σ² =  10,8 = 5,4
n 2
d) L’écart type de la distribution d'échantillonnage des variances, c'est-à-dire l'erreur standard.

2(n 1) 4 2(21)


V(V(X)) =  = .10,8² = 58,32
n² 2²

L’erreur standard est alors : 58,32 = 7,64

e) Cas d’un échantillon exhaustif.

- Moyenne de la distribution d'échantillonnage des variances.

m=6 ² = 10,8 et n=2

N n 1 5 2 1
E(V(X)) =   σ² = 10,8 = 6,75
N 1 n 5 1 2
3.3.4. Solution de l’exercice 3.2.4.

Désignons par X le poids des ovins. X suit une loi normale de moyenne 38 kg et d’écart type 5
kg

La taille de l’échantillon est n = 25

60
Statistiques décisionnelles 3. Loi de probabilité de la variance d’échantillon

a) Moyenne et écart type théoriques de la distribution d'échantillonnage des variances.

Il s’agit d’une population dont on connaît la moyenne, la variance et la loi de probabilité.

- Moyenne de la distribution d'échantillonnage des variances.

m = 38 ² = 25 et n = 25

n 1 25  1
E(V(X)) =  σ² =  25 = 24
n 25
- Ecart type de la distribution d'échantillonnage des variances.

2(n 1) 4 2(251)


V(V(X)) =  = .25² = 48
n² 25²

L’erreur standard est alors : 48 = 6,9

b) Pour combien d'échantillons peut-on s'attendre à trouver un écart type compris entre 4 et 8
kilogrammes ?

n.V(X)
Dans le cas d’une population normale, la variable aléatoire possède une distribution
²
khi deux à 24 (n-1) degré de liberté.

25.V(X) 25.49
p(4² < V(X) < 7²) = p( 25.16 < < )
5² 5² 5²
p(4² < V(X) < 7²) = p(16 < ² < 49)

p(4² < V(X) < 7²) = p(² < 49) - p(² < 16)

En consultant la table de la fonction de répartition de la loi Khi deux, à 24 degrés de liberté, on


trouve :

0,995 < p(² < 49) < 0,999 après interpolation linéaire on trouve :

p(² < 49) = 0,997

61
Statistiques décisionnelles 3. Loi de probabilité de la variance d’échantillon

0,1 < p(² < 16) < 0,2 après interpolation linéaire on trouve :

p(² < 16) = 0,1125

p(4² < V(X) < 7²) = 0,997 – 0,1125 = 0,8845

Nombre d'échantillons dont l’écart type est compris entre 4 et 7 kilogrammes = 0,8845x80 =
70,76.

On peut s’attendre à avoir 70 ou 71 échantillons dont l’écart type est compris entre 4 et 7
kilogrammes.

3.3.5. Solution de l’exercice 3.2.5.

n.V(X)
Dans le cas d’une population normale, la variable aléatoire possède une distribution
²
khi deux à 99 (n-1) degré de liberté.

a) Ecart type compris entre 0,25 et 0,35 grammes.

100.0,25² 100.V(X) 100.0,35²


p(0,25² < V(X) < 0,35²) = p( < < )
0,3² 0,3² 0,3²

p(0,25² < V(X) < 0,35²) = p(69,44 < ² < 136,11)

p(0,25² < V(X) < 0,35²) = p(² < 136,11) - p(² < 69,44)

Le nombre de degré de liberté est très grand, on peut utiliser l’approximation par la loi normale
de moyenne 99 et d’écart type 2.99 =14.

136,1199
p(² < 136,11) = ( ) =  (2,65) = 0,9960
14
69,4499
p(² < 69,44) =  ( ) =  (2,11) = 0,0174
14
p(0,25² < V(X) < 0,35²) = 0,9960 – 0,0174 = 0,9786

b) Ecart type plus grand que 0,3 grammes.

p(V(X) > 0,3²) = 1 - p(V(X) < 0,3²)

62
Statistiques décisionnelles 3. Loi de probabilité de la variance d’échantillon

100.V(X) 100.0,3²
p(V(X) > 0,3²) = 1 - p(< < )
0 ,3 ² 0 ,3 ²

p(V(X) > 0,3²) = 1 - p(² < 100)

Le nombre de degré de liberté est très grand, on peut utiliser l’approximation par la loi normale
de moyenne 99 et d’écart type 2.99 =14.

p(² < 100) = (10099) = (0,07) = 0,5279


14
p(V(X) > 0,3²) = 1 – 0,5279 = 0,4721

3.3.6. Solution de l’exercice 3.2.6.

Désignons par X la durée de vie d’une ampoule. X suit une loi normale de moyenne 1500
heures et d’écart type 150 heures. L’éclairage va durer pendant le total des durées de vie des
trois ampoules.

Désignons par Y la durée de vie totale.

Y=X+X+X

E(Y) = E(X) + E(X) + E(X) = 4500 h

V(Y) = V(X) + V(X) + V(X) = 150²+150²+150² = 67500

L’écart type de Y est donc 67500 = 260 h.

L’éclairage Y suit une loi normale de moyenne 4500 heures et d’écart type 260 heures.

a) Probabilité que l’écart type de l’éclairage ne dépasse pas 260 heures.

3.V(X) 3.260²
p(V(Y) < 260²) = p( < )
260² 260²
p(V(Y) < 260²) = p(² < 3) = 0,7769

63
Statistiques décisionnelles 3. Loi de probabilité de la variance d’échantillon

b) Probabilité que l’écart type de l’éclairage ne dépasse pas 200 heures.

3.V(X) 3.200²
p(V(Y) < 200²) = p( < )
260² 260²
p(V(Y) < 200²) = p(² < 1,78) = 0,5893

3.3.7. Solution de l’exercice 3.2.7.

a) Moyenne et écart type théoriques de la distribution d'échantillonnage des variances.

Il s’agit d’une population normale de moyenne égale à 22,40 kg et d’écart type égal à 0,048 kg.

m = 22,40 kg  = 0,048 kg et n = 36

- Moyenne de la distribution d'échantillonnage des variances


n 1 36  1
E(V(X)) =  σ² =  0,048² = 0,022
n 36
- Ecart type de la distribution d'échantillonnage des variances

σ² 0,048²
V(V(X)) = 2.(n  1) = 2.(36 1) = 0,0005
n 36

b) Nombre d'échantillons qui ont leur écart type compris entre 45 grammes et 50 grammes.

n.V(X)
Dans le cas d’une population normale, la variable aléatoire possède une distribution
²
khi deux à 35 (n-1) degré de liberté.

36.0,045² 36.V(X) 36.0,05²


p(0,045² <V(X)< 0,050²) = p( < < )
0,048² 0,048² 0,048²

p(0,045² <V(X)< 0,050²) = p(31,64 < ² < 39,06)

p(0,045² <V(X)< 0,050²) = p(² < 39,06) - p(² < 31,64)

64
Statistiques décisionnelles 3. Loi de probabilité de la variance d’échantillon

Le nombre de degré de liberté est grand, de ce fait, et par application du théorème central
limite, on peut affirmer que la loi Khi deux tend vers une loi normale de paramètres k et
2k . Toutefois, la convergence vers la loi normale est relativement lente, l'approximation est
généralement satisfaisante lorsque k est supérieur à 100. Pour un nombre de degré de liberté
compris entre 30 et 100, on préfère faire usage de la racine carrée. On peut en effet utiliser la
transformation :

Z= 2²  2k  1

Pour p(² < 39,06) => Z = 2.39,06  2.351 = 0,53

p(² < 39,06)  p(Z < 0,53) = (0,53) = 0,7019

Pour p(² < 31,64) => Z = 2.31,64  2.351 = 0,35

p(² < 31,64)  p(Z < 0,35) = (0,35) = 0,6368

p(0,045² <V(X)< 0,050²) = 0,7019 – 0,6368 = 0,0651

Le nombre d'échantillons qui ont leur écart type compris entre 45 grammes et 50 grammes est :

300. 0,3398 = 102 échantillons.

3.3.8. Solution de l’exercice 3.2.8.

a) Moyenne et écart type théoriques de la distribution d'échantillonnage des variances.

Il s’agit d’une population normale de moyenne égale à 300 kg et d’écart type égal à 50 kg.

m = 300 kg  = 50 kg et n = 25

- Moyenne de la distribution d'échantillonnage des variances.

n 1 25  1
E(V(X)) =  σ² =  50² = 2400
n 25
- Ecart type de la distribution d'échantillonnage des variances.

σ² 50²
V(V(X)) = 2.(n  1) = 2.(25  1) = 693
n 25

65
Statistiques décisionnelles 3. Loi de probabilité de la variance d’échantillon

b) Probabilité pour que 25 colis reçus au hasard et chargés sur un monte-charge aient un écart
type qui dépasse 40 kg.

n.V(X)²
Dans le cas d’une population normale, la variable aléatoire possède une distribution
²
khi deux à 24 (n-1) degré de liberté.

p(V(X) > 40²) = 1 - p(V(X) < 40²)

25.V(X) 25.40²
p(V(X) > 40²) = 1 - p( < )
50² 50²
p(V(X) > 40²) = 1 - p(² < 16)

En consultant la table de la fonction de répartition de la loi Khi deux, à 24 degrés de liberté on


trouve :

0,1 < p(² < 16) < 0,5 après interpolation linéaire on trouve :

p(² < 16) = 0,1178

p(V(X) > 40²) = 1 – 0,1178 = 0,8822

3.3.9. Solution de l’exercice 3.2.9.

Il s’agit de la différence de résistance de rupture entre les deux échantillons indépendants.

La différence de résistance de rupture entre les deux marques suit une loi normale de moyenne
(m2-m1) et d’écart type ²1  ² 2 .

E(X2 – X1) = m2 - m1 = 4500 – 4000 = 500 kg

V(X2 – X1) = ²1  ² 2 = 300² + 200² = 130000

L’écart type est donc 130000 = 361 kg

La différence de résistance de rupture entre les deux marques suit une loi normale de moyenne
500 kg et d’écart type 361 kg.

66
Statistiques décisionnelles 3. Loi de probabilité de la variance d’échantillon

a) Probabilité pour que la différence de résistance de rupture entre les deux marques ait un
écart type de moins de 350 kg

100.V(X 2  X 1 ) 100.350²
p(V(X2 – X1) < 350²) = p( < )
361² 361²

p(V(X2 – X1) < 350²) = p(² < 94)

Le nombre de degré de liberté est très grand, on peut utiliser l’approximation par la loi normale
de moyenne 99 et d’écart type 2.99 =14.

p(² < 94) = (9499) = (0,36) = 0,3594


14
p(V(X2 – X1) < 350²) = 0,3594

b) Probabilité pour que la différence de résistance de rupture entre les deux marques ait un
écart type de moins de 300 kg.

100.V(X 2  X1) 100.300²


p(V(X2 – X1) < 300²) = p( < )
361² 361²
p(V(X2 – X1) < 300²) = p(² < 69,06)

Le nombre de degré de liberté est très grand, on peut utiliser l’approximation par la loi normale
de moyenne 99 et d’écart type 2.99 =14.

69,06  99
p(² < 69,06) =  ( ) =  (2,14) = 0,0162
14

p(V(X2 – X1) < 300²) = 0,0162

3.3.10. Solution de l’exercice 3.2.10.

Déterminons la loi de probabilité de la moyenne.

Il s’agit d’une population dont on connaît la moyenne et la variance.

67
Statistiques décisionnelles 3. Loi de probabilité de la variance d’échantillon

a) Moyenne et écart type théoriques de la distribution d'échantillonnage des variances pour des
échantillons de taille 20.

Désignons par X la durée de vie de moyenne 1800 heures avec un écart type de 200 heures.

m = 1800 h  = 200 h et n = 20

- Moyenne de la distribution d'échantillonnage des variances

n 1
E(V(X)) =  σ² = 20  1 x 200 2 = 38000
n 20

- Ecart type de la distribution d'échantillonnage des variances

V(V(X)) = 2.(n1) σ² = 2.(201) 200² = 12329


n 20

b) Moyenne et écart type théoriques de la distribution d'échantillonnage des variances pour des
échantillons de taille 50.

m = 1800 h  = 200 h et n = 50

- Moyenne de la distribution d'échantillonnage des variances

n 1 50  1
E(V(X)) =  σ² =  200² = 40000
n 50
- Ecart type de la distribution d'échantillonnage des variances

V(V(X)) = 2.(n 1) ² = 2.(501) 200² = 7920


n 50
On remarque qu’en augmentant la taille de l’échantillon, l’erreur standard de la variance
baisse.

c) Probabilité qu'un échantillon aléatoire de 20 unités de ce bien ait un écart type de vie
supérieur à 220.

p(V(X) > 220²) = 1 - p(V(X) < 220²)

20.V(X) 20.220²
p(V(X) > 220²) = 1 - p( < )
200² 200²
68
Statistiques décisionnelles 3. Loi de probabilité de la variance d’échantillon

p(V(X) > 220²) = 1 - p(² < 24,2)

En consultant la table de la fonction de répartition de la loi Khi deux, à 19 degrés de liberté on


trouve :

0,5 < p(² < 24,2) < 0,9 après interpolation linéaire on trouve :

p(² < 24,2) = 0,7645

p(V(X) > 220²) = 1 – 0,7645 = 0,2355

d) Probabilité qu'un échantillon aléatoire de 50 unités de ce bien ait un écart type de vie
supérieur à 220.

p(V(X) > 220²) = 1 - p(V(X) < 220²)

50.V(X) 50.220²
p(V(X) > 220²) = 1 - p( < )
200² 200²
p(V(X) > 220²) = 1 - p(² < 60,5)

Le nombre de degré de liberté est grand, de ce fait, et par application du théorème central
limite, on peut affirmer que la loi Khi deux tend vers une loi normale de paramètres k et
2k . Toutefois, la convergence vers la loi normale est relativement lente, l'approximation est
généralement satisfaisante lorsque k est supérieur à 100. Pour un nombre de degré de liberté
compris entre 30 et 100, on préfère faire usage de la racine carrée. On peut en effet utiliser la
transformation :

Z= 2²  2k  1

Z= 2.60,5  2.491 = 1,15

p(² < 60,5)  p(Z < 1,15) = (1,15) = 0,8749

p(V(X) > 220²) = 1 – 0,8749 = 0,1251

69
Statistiques décisionnelles 3. Loi de probabilité de la variance d’échantillon

3.3.11. Solution de l’exercice 3.2.11.

m = 6 m  = 0,10 et n = 40

- Moyenne de la distribution d’échantillonnage des variances

n 1
E(V(X)) =  σ² = 401 . 0,102 = 0,00975
n 40
- Ecart type de la distribution d’échantillonnage des variances

2 0,12
V (V(X))  2 (n  1) x  2 x 39 x  0,0022
n 40
b) Pour des échantillons de taille 60 on a :

- Moyenne de la distribution d’échantillonnage des variances

n 1
E(V(X)) =  σ² = 60  1 x 0,102  0,00983
n 60
- Ecart type de la distribution d’échantillonnage des variances

2 0,12
V (V(X))  2 (n  1) x  2 x 59 x  0,0018
n 60
c) On peut élasticités demandées, en effet pour une variation de 50 % de la taille des
échantillons on a :

- Une élasticité des moyennes de distribution d’échantillonnage des variances égale à :

0,00983  0,00975
  0,82 %
0,00975

- Une élasticité des écart-types de distribution d’échantillonnage des variances égale à :

0,0018  0,0022
  18,18 %
0,0022

70
Statistiques décisionnelles 4. Loi de probabilité de la proportion d’échantillon

CHAPITRE 4
LOI DE PROBABILITE DE LA PROPORTION D’ECHANTILLON

4.1. POSITION DU PROBLEME.

De même que pour la moyenne et pour la variance, si l’on considère une population infinie et
que l’on y prélève un échantillon aléatoire et simple d’effectif n, on désigne par Xn le nombre
d’individus possédant, dans chaque échantillon, le caractère étudié.

f n  X n est la fréquence ou proportion des individus possédant, dans l’échantillon, le


n
caractère étudié.

On désigne par p la proportion des individus possédant, dans la population, le caractère étudié.

Les échantillons successifs possèdent les fréquences :

fn  Xn f n' X n' fn" Xn"


n n n
Ces fréquences peuvent être considérées comme des valeurs observées d’une même variable
aléatoire :

fn  Xn
n
La variable aléatoire Fn possède une distribution de probabilité, dite distribution
d’échantillonnage de la proportion. On peut donc calculer l’espérance et la variance de cette
distribution, en supposant que l’échantillon est aléatoire et simple.

71
Statistiques décisionnelles 4. Loi de probabilité de la proportion d’échantillon

4.2. LOI DE PROBABILITE SELON L’ECHANTILLON.

4.2.1. Echantillon non exhaustif.

E(Fn) = E( X n ) = 1 E( X n ) = 1 n p = p
n n n

Xn 1 1 pq
V(Fn) = V(
n ) = n² V( X n ) = n² n p q = n

pq
σ Fn  est appelé erreur standard de la fréquence d’un échantillon aléatoire et simple.
n
En ce qui concerne la forme de cette distribution, on peut affirmer que la distribution de la
pq
proportion suit une loi normale de moyenne p et d’écart type σ Fn  à condition que la
n
taille de l’échantillon soit supérieure ou égale à 30 (n  30) et le produit n p  5.

4.2.2. Echantillon exhaustif.

Dans le cas d’une population finie d’effectif N, au sein de laquelle est prélevé, sans remise, un
échantillon aléatoire et simple d’effectif n, l’espérance mathématique et la variance de la
fréquence sont :

E(Fn) = E( X n ) = 1 E( X n ) = 1 n p = p
n n n

V(Fn) = V( X n ) = 1 V( X n ) = 1 N  n n p q = N  n pq
n n² n² N 1 N 1 n

Nn pq
L’erreur standard est alors :  Fn  
N 1 n

En ce qui concerne la forme de cette distribution, on peut affirmer que la distribution de la


Nn pq
proportion suit une loi normale de moyenne p et d’écart type  Fn   à
N 1 n
condition que la taille de l’échantillon soit supérieure ou égale à 30 (n  30) et le produit n p 
5.
72
Statistiques décisionnelles 4. Loi de probabilité de la proportion d’échantillon

4.3. ENONCES DES EXERCICES D’APPLICATION.

4.3.1. Lors d’élections, les résultats ont montré qu’un des candidats a obtenu 46 % des voix.
Déterminer la probabilité pour que le vote donne une majorité de voix en faveur de ce candidat
pour un échantillon de :

a) 200 personnes choisies au hasard parmi le corps électoral.


b) 1000 personnes choisies au hasard parmi le corps électoral .

4.3.2. Trouver la probabilité pour que parmi les 200 prochains enfants à naître :
a) Il y ait moins de 40 % de garçons.
b) Il y ait entre 43 % et 57 % de filles.
c) Il y ait plus de 54 % de garçons.

On supposera que la naissance d'un garçon et la naissance d'une fille sont équiprobables.

4.3.3. Etant donné 1000 échantillons de 200 enfants chacun, pour combien d'échantillons a-t-on
une chance de trouver :
a) Moins de 40 % de garçons.
b) Entre 40 % et 60 % de filles.
c) 53 % ou plus de filles ?

4.3.4. Les résultats d'une élection montrent qu'un des candidats a obtenu 65 % des voix.
Trouver la probabilité pour que deux échantillons aléatoires, chacun correspondant à 200
votants, indiquent plus de 10 % de différence dans les proportions de gens qui ont voté pour ce
candidat.

4.3.5. On s’intéresse au taux de réussite au sein d’une école.


a) On considère un échantillon de 35 étudiants, quelle est la probabilité d’avoir plus de 70 %
d’admis ?
b) On considère deux échantillons indépendants de 100 étudiants chacun, quelle est la
probabilité d’avoir plus de 15 % de différence dans les taux de réussite ?

4.3.6. On considère une élection municipale dans laquelle deux candidats ont obtenu
respectivement 34 % et 14 % des suffrages. Le nombre de votants est 12000.
On prend un échantillon de 100 personnes, quelle est la probabilité pour que le candidat 1 ait
plus de 25 % des suffrages et le candidat 2 ait plus de 20 % ?

4.3.7. Un 1er test a donné un taux de pièces défectueuses égal à 5 %. On réalise un test de
qualité sur un échantillon de 1000 pièces mécaniques.
a) Quelle est la probabilité pour que ce dernier test donne une fréquence de pièces défectueuses
inférieure ou égale à 1 %, 2 %, 3 %, 4 % et 5 % ?
b) Quelles sont ces probabilités avec un échantillon de 100 pièces seulement au lieu de 1000.
Interpréter ces résultats.
73
Statistiques décisionnelles 4. Loi de probabilité de la proportion d’échantillon

c) Quelle est la taille de l’échantillon pour que le taux de pièces défectueuses soit inférieur ou
égale à 4 % avec une probabilité de 98 % ? Interpréter ces résultats.

4.3.8. Une étude sur la notoriété d’une marque a porté sur un échantillon aléatoire de 400
personnes.
a) Quelle est la probabilité d’avoir un taux de notoriété qui dépasse 55 % ?
b) Calculer cette probabilité si on pense que la notoriété est de 60 %.

4.3.9. Un fournisseur affirme que le risque de vendre une pièce défectueuse est de 5 %. Pour
vérifier l’affirmation du fournisseur, un contrôle a porté sur un échantillon aléatoire de 300
pièces. L’affirmation du fournisseur est-elle plausible ?

4.3.10. 80 % des clients sont satisfaits, c’est ce que pense le directeur d’une société de service.
a) Quelle est la probabilité que sur un échantillon aléatoire de 200 clients, moins de 70 %
soient satisfaits ?
b) Un deuxième échantillon aléatoire de 300 clients est choisi indépendamment du premier
échantillon. Quelle est la probabilité d’avoir plus de 2 % de différence entre les taux de
satisfaction obtenus auprès des deux échantillons ?

4.4. SOLUTIONS DES EXERCICES D’APPLICATION.

4.4.1. Solution de l’exercice 4.3.1.

Soit F la variable aléatoire qui désigne la fréquence des électeurs qui voteront pour ce
candidat.
pq
La distribution d’échantillonnage de F suit une loi normale de moyenne p et d’écart type
n
à condition que la taille de l’échantillon soit supérieure ou égale à 30 (n30) et le produit n
p5.
pq pq
E(F) = p V(F) = σF 
n n

a) 200 personnes choisies au hasard parmi le corps électoral.

E(F) = 0,46

0,46.0,54 σ Fn  0,0012 = 0,035


V(F) = = 0,0012
200

74
Statistiques décisionnelles 4. Loi de probabilité de la proportion d’échantillon

n = 200 > 30 et le produit n p = 200 . 0,46 = 92 > 5. La distribution d’échantillonnage de F suit


donc une loi normale de moyenne 0,46 et d’écart type 0,035.

Le vote donnera une majorité de voix en faveur de ce candidat si la fréquence des


électeurs qui voteront pour ce candidat est supérieure ou égale à 50 %.
0,50,46
p(F  0,5) = 1 – p(F < 0,5) = p(Z < )
0,035

p(F  0,5) = 1 – (1,14) = 1 – 0,8729 = 0,1271 = 12,71 %

b) 1000 personnes choisies au hasard parmi le corps électoral.

E(F) = 0,46

0,46.0,54 σ Fn  0,0002484 = 0,016


V(F) = = 0,0002484
1000
n = 1000 > 30 et le produit n p = 1000.0,46 = 460 > 5. La distribution d’échantillonnage de F
suit donc une loi normale de moyenne 0,46 et d’écart type 0,016.

Le vote donnera une majorité de voix en faveur de ce candidat si la fréquence des

électeurs qui voteront pour ce candidat est supérieure ou égale à 50 %.

0,50,46
p(F  0,5) = 1 – p(F < 0,5) = p(Z < )
0,016
p(F  0,5) = 1 – (2,5) = 1 – 0,9938 = 0,0062 = 0,62 %

4.4.2. Solution de l’exercice 4.3.2.

Soit F la variable aléatoire qui désigne la fréquence des garçons parmi les 200 prochains

enfants à naître.

E(F) = p = 0,5

= 0,0013 σ F 
pq 0,5.0,5 0,0013 = 0,0354
V(F) = =
n 200
n = 200 > 30 et le produit n p = 200.0,5 = 100 > 5. La distribution d’échantillonnage de F suit
donc une loi normale de moyenne 0,5 et d’écart type 0,0354.
75
Statistiques décisionnelles 4. Loi de probabilité de la proportion d’échantillon

a) Probabilité pour que parmi les 200 prochains enfants à naître il y ait moins de 40 % de
garçons.

0,40,5
p(F < 0,4) = p(Z < ) = (-2,82) = 1 – 0,9976 = 0,0024
0,0354

b) Probabilité pour que parmi les 200 prochains enfants à naître il y ait entre 43 % et 57 % de
filles.

0,57 0,5 0,430,5


p(0,43 < F < 0,57) = p(Z < ) - p(Z < )
0,0354 0,0354

p(0,43 < F < 0,57) = (1,98) - (-1,98)

p(0,43 < F < 0,57) = 0,9761 – 0,0239 = 0,9522

c) Probabilité pour que parmi les 200 prochains enfants à naître il y ait plus de 54 % de
garçons.

0,540,5
p(F > 0,54) = 1 - p(Z < )
0,0354

p(F > 0,4) = 1 - (1,13) = 1 – 0,8708 = 0,1292

4.4.3. Solution de l’exercice 4.3.3.

Soit F la variable aléatoire qui désigne la fréquence des garçons parmi les 200 enfants de

l’échantillon.

E(F) = p = 0,5

V(F) =
pq 0,5.0,5
= = 0,0013 σ F  0,0013 = 0,0354
n 200
n = 200 > 30 et le produit n p = 200.0,5 = 100 > 5. La distribution d’échantillonnage de F suit
donc une loi normale de moyenne 0,5 et d’écart type 0,0354.

a) Nombre d’échantillon de moins de 40 % de garçons.

76
Statistiques décisionnelles 4. Loi de probabilité de la proportion d’échantillon

0,40,5
p(F < 0,4) = p(Z < )
0,0354
p(F < 0,4) = (-2,82) = 1 – 0,9976 = 0,0024

Nombre d’échantillon de moins de 40 % de garçons est :

1000 . 0,0024 = 2,4.

On peut s’attendre à 2 ou 3 échantillons qui auront moins de 40 % de garçons.

b) Nombre d’échantillon qui auront entre 40% et 60% de garçons.

0,600,5 0,400,5
p(0,40 < F < 0,60) = p(Z < ) - p(Z < )
0,0354 0,0354
p(0,40 < F < 0,60) = (2,82) - (-2,82)

p(0,40 < F < 0,60) = 0,9976 – 0,0024 = 0,9952

Nombre d’échantillon qui auront entre 40% et 60% de garçons est :

1000 . 0,9952 = 995,2.

On peut s’attendre à 995 échantillons qui auront entre 40 % et 60 % de garçons.

c) Nombre d’échantillon de 53 % ou plus de filles.

53 % ou plus de filles est équivalente à 47 % de garçons ou moins.

0,47 0,5
p(F < 0,47) = p(Z < )
0,0354
p(F < 0,47) = (-0,85) = 1 – 0,8023 = 0,1977

Nombre d’échantillon qui auront 53 % ou plus de filles est :

1000 . 0,1977 = 197,7

On peut s’attendre à 198 échantillons qui auront 53 % ou plus de filles.

77
Statistiques décisionnelles 4. Loi de probabilité de la proportion d’échantillon

4.4.4. Solution de l’exercice 4.3.4.

Soit F1 la variable aléatoire qui désigne la fréquence des gens du premier échantillon qui

ont voté pour ce candidat.

E(F1) = p = 0,65
pq 0,65.0,35 σ F1  0,0011 = 0,0337
V(F1) = = = 0,0011
n 200
n = 200 > 30 et le produit n p = 200.0,65 = 130 > 5. La distribution d’échantillonnage de F 1 suit
donc une loi normale de moyenne 0,65 et d’écart type 0,0337.

Soit F2 la variable aléatoire qui désigne la fréquence des gens du deuxième échantillon qui

ont voté pour ce candidat.

E(F2) = p = 0,65

pq 0,65.0,35 σ F2  0,0011 = 0,0337


V(F2) = = = 0,0011
n 200
n = 200 > 30 et le produit n p = 200.0,65 = 130 > 5. La distribution d’échantillonnage de F2 suit
donc une loi normale de moyenne 0,65 et d’écart type 0,0337.

Désignons par F la différence entre les fréquences des gens qui ont voté pour ce candidat dans
chaque échantillon.

E(F) = E(F1 – F2) = E(F1) – E(F2) = 0,65-0,65 = 0

V(F) = V(F1 – F2) = V(F1) – V(F2) = 0,0011+0,0011 = 0,0022

σ F  0,0022 = 0,0469

La distribution d’échantillonnage de F suit donc une loi normale de moyenne 0 et d’écart type
0,0469.

p( F1  F2 > 0,1) = p( F > 0,1) = 1 - p( F  0,1)

p( F1  F2 > 0,1) = 1 – p(-0,1  F  0,1)

78
Statistiques décisionnelles 4. Loi de probabilité de la proportion d’échantillon

0,10 0,10
p( F1  F2 > 0,1) = 1 – [p(Z  ) - p(Z  )]
0,0469 0,0469
p( F1  F2 > 0,1) = 1 – [(2,13) - (-2,13)]
p( F1  F2 > 0,1) = 1 – (0,9834 – 0,0166) = 0,0332

4.4.5. Solution de l’exercice 4.3.5.

a) Probabilité d’avoir plus de 70 % d’admis dans un échantillon de 35 étudiants.

Soit F la variable aléatoire qui désigne la fréquence des étudiants admis parmi les 35

étudiants de l’échantillon.

Puisqu’on n’a pas d’information sur le taux de réussite dans cette école, on le considère égal à
50 %.

E(F) = p = 0,5
pq 0,5.0,5
V(F) = = = 0,0071 σ F  0,0071 = 0,0845
n 35
n = 35 > 30 et le produit n p = 35.0,5 = 17,5 > 5. La distribution d’échantillonnage de F suit
donc une loi normale de moyenne 0,5 et d’écart type 0,0845.

0,7 0,5
p(F > 0,7) = 1 - p(Z < )
0,0845
p(F > 0,7) = 1 - (2,37) = 1 – 0,9911 = 0,0089

b) Probabilité d’avoir plus de 15 % de différence dans les taux de réussite de deux échantillons
indépendants de 100 étudiants chacun.

Soit F1 la variable aléatoire qui désigne la fréquence des étudiants admis parmi les 100

étudiants du premier échantillon.

E(F1) = p = 0,5
pq 0,5.0,5
V(F1) = = = 0,0025 σ F1  0,0025 = 0,05
n 100

79
Statistiques décisionnelles 4. Loi de probabilité de la proportion d’échantillon

n = 100 > 30 et le produit n p = 100.0,5 = 50 > 5. La distribution d’échantillonnage de F 1 suit


donc une loi normale de moyenne 0,5 et d’écart type 0,05.

Soit F2 la variable aléatoire qui désigne la fréquence des étudiants admis parmi les 100

étudiants du deuxième échantillon.

E(F2) = p = 0,5
pq 0,5.0,5
V(F2) = = = 0,0025 σ F2  0,0025 = 0,05
n 100
n = 100 > 30 et le produit n p = 100.0,5 = 50 > 5. La distribution d’échantillonnage de F 2 suit
donc une loi normale de moyenne 0,5 et d’écart type 0,05.

Désignons par F la différence dans les taux de réussite des deux échantillons indépendants de
100 étudiants chacun.

E(F) = E(F1 – F2) = E(F1) – E(F2) = 0,5-0,5 = 0

V(F) = V(F1 – F2) = V(F1) – V(F2) = 0,0025+0,0025 = 0,005


σ F  0,005 = 0,0707

La distribution d’échantillonnage de F suit donc une loi normale de moyenne 0 et d’écart type
0,0707.

p( F1  F2 > 0,15) = p( F > 0,15) = 1 - p( F  0,15)


p( F1  F2 > 0,15) = 1 – p(-0,15  F  0,15)
0,150 0,150
p( F1  F2 > 0,15) = 1 – [p(Z  ) - p(Z  )]
0,0707 0,0707
p( F1  F2 > 0,15) = 1 – [(2,12) - (-2,12)]
p( F1  F2 > 0,15) = 1 – (0,9830 – 0,0170) = 0,0340

4.4.6. Solution de l’exercice 4.3.6.

- Probabilité pour que le candidat 1 ait plus de 25 % des suffrages.

Soit F1 la variable aléatoire qui désigne la fréquence des votants qui voteront pour le

candidat 1.
80
Statistiques décisionnelles 4. Loi de probabilité de la proportion d’échantillon

E(F1) = p = 0,34

V(F1) = N  n pq = 12000100 0,34.0,66 = 0,0022


N 1 n 120001 100
σ F1  0,0022 = 0,0472

n = 100 > 30 et le produit n p = 100.0,34 = 34 > 5. La distribution d’échantillonnage de F 1 suit


donc une loi normale de moyenne 0,34 et d’écart type 0,0472.

0,250,34
p(F1 > 0,25) = 1 - ( )
0,0472
p(F1 > 0,25) = 1 - (-1,91) = 0,9719

- Probabilité pour que le candidat 2 ait plus de 20 % des suffrages.

Soit F2 la variable aléatoire qui désigne la fréquence des votants qui voteront pour le

candidat 2.

E(F2) = p = 0,14

V(F2) = N  n pq = 12000100 0,14.0,86 = 0,0012


N 1 n 120001 100
σ F2  0,0012 = 0,0346

n = 100 > 30 et le produit n p = 100.0,14 = 14 > 5. La distribution d’échantillonnage de F 1 suit


donc une loi normale de moyenne 0,14 et d’écart type 0,0346.

0,200,14
p(F2 > 0,20) = 1 - ( )
0,0346
p(F2 > 0,20) = 1 - (1,73) = 0,0418

4.4.7. Solution de l’exercice 4.3.7.

a) Probabilité pour que le dernier test donne une fréquence de pièces défectueuses inférieure ou
égale à 1 %, 2 %, 3 %, 4 % et 5 % dans un échantillon de 1000 pièces.

Soit F la variable aléatoire qui désigne la fréquence des pièces défectueuses dans

l’échantillon.

81
Statistiques décisionnelles 4. Loi de probabilité de la proportion d’échantillon

E(F) = p = 0,05
pq 0,05.0,95
V(F) = = = 0,0000475
n 1000
σ F  0,0000475 = 0,00689

n = 1000 > 30 et le produit n p = 1000.0,05 = 50 > 5. La distribution d’échantillonnage de F


suit donc une loi normale de moyenne 0,05 et d’écart type 0,00689.

0,010,05
p(F  0,01) = p(Z < ) = (-5,8) = 0
0,00689
0,020,05
p(F  0,02) = p(Z < ) = (-4,35) = 0
0,00689
0,030,05
p(F  0,03) = p(Z < ) = (-2,90) = 0,0019
0,00689
0,040,05
p(F  0,04) = p(Z < ) = (-1,45) = 0,0735
0,00689
0,050,05
p(F  0,05) = p(Z < ) = (0) = 0,5
0,00689
b) Probabilité pour que le dernier test donne une fréquence de pièces défectueuses inférieure ou
égale à 1 %, 2 %, 3 %, 4 % et 5 % dans un échantillon de 100 pièces.

Soit F la variable aléatoire qui désigne la fréquence des pièces défectueuses dans

l’échantillon.

E(F) = p = 0,05
pq 0,05.0,95
V(F) = = = 0,000475
n 100
σ F  0,000475 = 0,02179

n = 100 > 30 et le produit n p = 100.0,05 = 5. La distribution d’échantillonnage de F suit donc


une loi normale de moyenne 0,05 et d’écart type 0,02179.
0,010,05
p(F  0,01) = p(Z < ) = (-1,84) = 0,0329
0,02179

82
Statistiques décisionnelles 4. Loi de probabilité de la proportion d’échantillon

0,020,05
p(F  0,02) = p(Z < ) = (-1,38) = 0,0838
0,02179
0,030,05
p(F  0,03) = p(Z < ) = (-0,92) = 0,1788
0,02179
0,040,05
p(F  0,04) = p(Z < ) = (-0,46) = 0,3228
0,02179
0,050,05
p(F  0,05) = p(Z < ) = (0) = 0,5
0,02179
On constate que pour un échantillon de taille plus petite, les probabilités sont plus grandes.
Plus la taille de l’échantillon est grande plus le risque d’avoir des pièces défectueuses est
grand.

c) Taille de l’échantillon pour que le taux de pièces défectueuses soit inférieur ou égal à 4 %
avec une probabilité de 98 %.

Soit F la variable aléatoire qui désigne la fréquence des pièces défectueuses dans

l’échantillon de taille n.

E(F) = p = 0,05
pq 0,05.0,95 0,0475
V(F) = = =
n n n

0,0475 0,2179
F  
n n

p(F  0,04) = 0,98

0,040,05
p(Z < ) = 0,98
0,2179
n

0,040,05
( ) = 0,98
0,2179
n

83
Statistiques décisionnelles 4. Loi de probabilité de la proportion d’échantillon

0,040,05
= Z0,98 = 2,05 => n = 1996 pièces
0,2179
n

Un échantillon de 1996 pièces peut garantir 98 % de chances d’avoir moins de 4 % de pièces


défectueuses.

4.4.8. Solution de l’exercice 4.3.8.

a) Probabilité d’avoir un taux de notoriété qui dépasse 55 %

Soit F la variable aléatoire qui désigne la fréquence des personnes de l’échantillon qui

connaissent la marque.

Puisqu’on n’a pas d’information sur le taux de notoriété dans la population, on le considère
égal à 50 %.

E(F) = p = 0,5
pq 0,5.0,5 σ F  0,000625  0,025
V(F) = = = 0,000625
n 400
n = 400 > 30 et le produit n p = 400.0,5 = 200 > 5. La distribution d’échantillonnage de F suit
donc une loi normale de moyenne 0,5 et d’écart type 0,025.
0,550,5
p(F > 0,55) = 1 - p(Z < )
0,025
p(F > 0,55) = 1 - (2) = 0,0228

b) Probabilité d’avoir un taux de notoriété qui dépasse 60 % si on pense que la notoriété est de
60 %.

E(F) = p = 0,6

V(F) =
pq 0,6.0,4
= = 0,0006 σ F  0,0006  0,02449
n 400
0,550,6
p(F > 0,55) = 1 - p(Z < )
0,02449
p(F > 0,55) = 1 - (-2,04) = 0,9793

84
Statistiques décisionnelles 4. Loi de probabilité de la proportion d’échantillon

4.4.9. Solution de l’exercice 4.3.9.

Soit F la variable aléatoire qui désigne la fréquence des pièces défectueuses dans

l’échantillon.

E(F) = p = 0,05

pq 0,05.0,95
V(F) = = = 0,00016
n 300
σ F  0,00016  0,01258
n = 300 > 30 et le produit n p = 300.0,05 = 15 > 5. La distribution d’échantillonnage de F suit
donc une loi normale de moyenne 0,05 et d’écart type 0,01258.

L’affirmation du fournisseur est plausible si la probabilité d’avoir plus de 5 % de pièces


défectueuses est faible.

0,060,05
p(F  0,06) = 1 - p(Z < )
0,01258
p(F  0,06) = 1 - (0,79) = 0,2148

Le contrôle de 300 pièces donne 21,48 % de chances d’avoir 6 % ou plus de pièces


défectueuses. L’affirmation du fournisseur est probable à 78,52 %.

4.4.10. Solution de l’exercice 4.3.10.

a) Probabilité que sur un échantillon aléatoire de 200 clients, moins de 70 % soient satisfaits.

Soit F la variable aléatoire qui désigne la fréquence des clients de l’échantillon qui sont

satisfaits.

E(F) = p = 0,8
pq 0,8.0,2
V(F) = = = 0,0008
n 200
σ F  0,0008  0,02828

85
Statistiques décisionnelles 4. Loi de probabilité de la proportion d’échantillon

n = 200 > 30 et le produit n p = 200.0,8 = 160 > 5. La distribution d’échantillonnage de F suit


donc une loi normale de moyenne 0,8 et d’écart type 0,02828.

0 ,7  0 ,8
p(F < 0,7) = p(Z < )
0,02828
p(F < 0,7) = (-3,54) = 0,0002

b) Probabilité d’avoir plus de 2 % de différence entre les taux de satisfaction obtenus auprès
des deux échantillons.

Soit F’ la variable aléatoire qui désigne la fréquence des clients du deuxième échantillon

qui sont satisfaits.

E(F’) = p = 0,8
pq 0,8.0,2
V(F’) = = = 0,00053
n 300
σ F '  0,00053  0,02309
n = 300 > 30 et le produit n p = 300.0,8 = 240 > 5. La distribution d’échantillonnage de F suit
donc une loi normale de moyenne 0,8 et d’écart type 0,02309.

Désignons par F la différence dans les taux de satisfaction des deux échantillons indépendants.

E(F) = E(F – F’) = E(F) – E(F’) = 0,8-0,8 = 0


V(F) = V(F – F’) = V(F) + V(F’) = 0,0008+0,00053 = 0,00133

σ F  0,00133  0,03647
La distribution d’échantillonnage de F suit donc une loi normale de moyenne 0 et d’écart type
0,03647.

p( F F' > 0,02) = p( F > 0,02) = 1 - p( F  0,02)


p( F F' > 0,02) = 1 – p(-0,02  F  0,02)

86
Statistiques décisionnelles 4. Loi de probabilité de la proportion d’échantillon

0,020 0,020
p( F F' > 0,02) = 1 – [p(Z  ) - p(Z  )]
0,03647 0,03647
p( F F' > 0,02) = 1 – [(0,55) - (-0,55)]
p( F F' > 0,02) = 1 – (0,7088 – 0,2912) = 0,5824

87
Statistiques décisionnelles 4. Loi de probabilité de la proportion d’échantillon

88
Statistiques décisionnelles Partie 3. Principe de l’estimation

PARTIE 3
PRINCIPE DE L’ESTIMATION

Les premiers problèmes d’inférence statistique auxquels s’applique la théorie des distributions
d’échantillonnage sont les problèmes d’estimations. Le but poursuivi est d’estimer, à partir
d’un échantillon, la ou les valeurs numériques d’un ou de plusieurs paramètres de la population
considérée et de déterminer la précision de cette ou de ces estimations.

DEFINITION D’UN ESTIMATEUR.

Soient une population quelconque, dont la distribution de probabilité L(X) est fonction d’un
paramètre  : L(X) = f(X, ) et un échantillon aléatoire et simple d’effectif n extrait de cette
population.

On appelle estimateur du paramètre , toute fonction aléatoire des valeurs observées, X1, X2,
X3,…, Xn, susceptibles de servir à estimer 

Tn = f (X1, X2, …, Xn)

On appelle estimation les valeurs numériques t1, t2, …de cette variable aléatoire Tn.

QUALITES D’UN ESTIMATEUR.

Absence de biais

La première qualité d’un bon estimateur est l’absence d’erreur systématique ou de biais. Cette
qualité implique que la vraie valeur  doit être retrouvée en moyenne :

E(Tn) = 

Tout estimateur qui satisfait cette condition est dit sans biais ou non biaisé.

89
Statistiques décisionnelles Partie 3. Principe de l’estimation

Variance minimale

Une deuxième qualité d’un bon estimateur est de posséder une précision suffisante. Cette
précision peut être mesurée par le moment d’ordre deux par rapport à .

E[(Tn - )²]

Pour les estimateurs non biaisés, ce moment se confond avec la variance :

E[(Tn - )²] = V(Tn)

On peut démonter qu’à tout paramètre  correspond une valeur minimum de E[(Tn - )²].

La fonction qui correspond à ce minimum, définit l’estimateur de variance minimum.

90
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population

CHAPITRE 5
ESTIMATION DE LA MOYENNE D’UNE POPULATION

5.1. ESTIMATION D’UNE MOYENNE.

5.1.1. Estimation ponctuelle.

La meilleure estimation de la moyenne m d’une population, qui puisse être déduite d’un
échantillon aléatoire et simple, est la moyenne de l’échantillon.

^ _
m=X

La dispersion des différentes estimations possibles autour de cette moyenne générale, est
mesurée par l’erreur standard de la moyenne :

x 
n
Signalons dès à présent, comme nous le verrons, dans le chapitre suivant, que l’estimation
ponctuelle et sans biais de la variance d’une population mère, à partir des résultats obtenus
d’un échantillon simple et aléatoire est :
n 

^ n (x x)²i

²   v( x ) = i 1
n -1 n 1
5.1.2. Estimation par intervalle de confiance.

5.1.2.1. Cas d’une population normale.

Si on s’intéresse à la moyenne inconnue m d’une population normale d’écart type connu ,


l’estimation, par intervalle de confiance, consiste à déterminer, de part et d’autre de
  
l’estimateur X , les bornes X1 et X 2 d’un intervalle qui a un niveau de confiance (1-) de
contenir m.
91
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population

 
Les limites X1 et X 2 sont telles que :
   
p ( X1  m  X2 ) = 1 -  ou p (m < X1 ) = p (m > X 2 ) = /2

Si on désigne par Z1 la valeur de la variable normale centrée et réduite lue dans la table,
2
les limites de confiances sont :

  σ   σ
X1 = X - Z  et X2 = X + Z 
1- n 1 n
2 2

On notera l’intervalle de confiance :

 σ    
X Z  ou  x  Z1   ;xZ  
1 n 1
2  2 n 2 n

C’est un intervalle symétrique par rapport à la moyenne.

Dans le cas d’une population normale dont on ne connaît pas l’écart type, on utilise
l’estimation ponctuelle et sans biais de l’écart type, à savoir :

n
ˆ  V( x )
n 1

5.1.2.2. Cas d’une population de distribution inconnue.

Pour une population de distribution de probabilité inconnue (écart type  inconnu), on utilise la
quasi-variance comme estimation de la variance de la population.

L’estimation ponctuelle et sans biais de l’écart type est :

n
ˆ  V( x )
n 1

L’intervalle de confiance de la moyenne sera défini selon les cas.

92
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population

5.1.2.2.1. Cas d’un échantillon d’effectif inférieur à 30 (n < 30)

Dans ce cas, la moyenne d’un échantillon peut toujours être considérée comme une variable T
de Student à (n-1) degré de liberté.

La valeur Z  sera remplacée par la valeur T  à (n-1) degrés de liberté.


1- 1-
2 2
L’intervalle de confiance est alors :

^
 σ  ˆ ˆ 
X T  ou  x  T1   ;xT  
n 1
1-
2  2 n 2 n

5.1.2.2.2. Cas d’un échantillon d’effectif supérieur ou égal à 30 (n  30).

Dans ce cas, la moyenne d’un échantillon peut toujours être considérée comme une variable
approximativement normale. L’intervalle de confiance est alors :

^
 σ  ˆ ˆ 
X Z  ou  x  Z1   ;xZ  
n 1
1-
2  2 n 2 n

5.2. ESTIMATION DE LA SOMME DE MOYENNES.

La population objet d’étude peut être subdivisée en plusieurs strates dans lesquelles on choisit
des échantillons indépendants.

Désignons par :

N = Taille de la population
Ni = Taille de la strate i
n = Taille de l’échantillon global
ni = Taille de l’échantillon prélevé dans la strate i

5.2.1. Estimation ponctuelle.

La moyenne de chaque strate est estimée par la moyenne de l’échantillon de la strate.

m̂ i  x i

93
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population

i Ni  ni
avec une erreur standard  x  i
ni Ni  1

 i est l’écart type de la strate i

La moyenne globale de la population est estimée par :

 Ni xi
m̂  x 
 Ni

1 2 Ni  n i
La variance de x est : V (x)   ( N i2 i )
N 2
ni Ni  1

1  i2 N i  n i
L’erreur standard est : x  ( N i2 )
N ni Ni  1

5.2.2. Estimation par intervalle de confiance.

L’estimation par intervalle de confiance de la moyenne globale d’une population stratifiée


lorsque n  30, est donnée par :

X  Z1 / 2  x

x  m̂ 
Où Z1 / 2 est tel que p (  Z1 / 2 )  1  lu dans la table de la loi de probabilité
ˆ 2
normale centrée réduite.

5.3. ENONCES DES EXERCICES D’APPLICATION.

5.3.1. Le tableau suivant donne la distribution du nombre de pannes observées dans le


fonctionnement d’une machine au cours de 100 journées de travail.

a) Déduisez-en une estimation du nombre moyen de pannes par jour, en supposant que la
distribution théorique du nombre de pannes est une loi de poisson.
b) Donnez l’erreur standard du résultat obtenu.

94
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population

Nombres de pannes par jour Nombres de jours


0 53
1 32
2 11
3 3
4 1
Total 100

5.3.2. Lors d’un concours radiophonique, on note X le nombre de réponses reçues chaque jour.
On suppose que X suit une loi normale de paramètres m et . Durant les 10 premiers jours, on
a obtenu :
x1 = 200 ; x2 = 240 ; x3 = 190 ; x4 = 150 ; x5 = 220 ; x6 = 180 ; x7 = 170 ; x8 = 230 ; x9 =
210 et x10 = 210.
Déterminer une estimation ponctuelle de m.

5.3.3. Un échantillon de 15 étudiants d'une faculté a obtenu les notes suivantes :

13 ; 06 ; 12 ; 10 ; 10 ; 16 ; 02 ; 04 ; 11 ; 12 ; 12 ; 05 ; 07 ; 08 ; 13

a) Estimer la note moyenne pour l'ensemble des étudiants de la faculté.


b) Donner des estimations par intervalle de confiance pour la moyenne avec un risque d’erreur
de 5 %.

5.3.4. Dans une entreprise produisant un article déterminé, on veut estimer la durée de vie de
cet article en heures. À cette fin on a observé un échantillon de 16 unités dont les résultats sont
(en 1000 heures) :

1,10 1,05 1,25 1,08 1,35 1,15 1,30 1,25


1,30 1,35 1,15 1,32 1,05 1,25 1,10 1,15

a) Estimer la durée de vie moyenne d'un article.


b) Donner une estimation par intervalle de confiance pour la moyenne. ( α =5%).
c) Donner une estimation par intervalle de confiance pour la moyenne. ( α =10%).
d) Discuter la sensibilité de l’intervalle de confiance par rapport à une variation du risque
d’erreur.

5.3.5. Dans une station service, on suppose que le montant des chèques essence suit une loi
normale de paramètres m et . On considère un échantillon de taille n = 50 et on obtient une
moyenne de 130 Dh et un écart-type de 28 Dh.
Donner une estimation de m par un intervalle de confiance au niveau de confiance 95%.

95
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population

5.3.6. On donne la répartition des masses de 35 ressorts provenant d’une même fabrication :

masses (g) Nombre de Ressorts


[82 ; 84[ 4
[84 ; 86[ 6
[86 ; 88[ 6
[88 ; 90[ 6
[90 ; 92[ 8
[92 ; 94[ 2
[94 ; 96[ 2
[96 ; 98[ 1

X donnant le poids d’un ressort provenant de cette fabrication,


a) Donner une estimation ponctuelle de la moyenne des poids des ressorts fabriqués
b) Donner pour cette moyenne un intervalle de confiance au niveau de confiance 96%.

5.3.7. On veut estimer l’espérance mathématique m d’une variable aléatoire gaussienne X dont
on connaît l’écart type = 2,3. Quelle est la taille minimum de l’échantillon de X qui està
prendre si l’on veut obtenir pour m un intervalle de confiance de seuil 0,95 et dont la longueur
ne dépasse pas 0,1 ?

5.3.8. Un confiseur vend des boites de bonbons d’un certain modèle. On note X la masse d’une
boite pleine. Les pesées de 8 boites ont conduit aux masses (en kg) :

1,22 ; 1,23 ; 1,21 ; 1,19 ; 1,23 ; 1,24 ; 1,18 ; 1,21.

a) Donner pour m un intervalle de confiance au risque de 10 %.


b) En supposant que la variance de X soit connue et égale à la variance observée, donner pour
m un intervalle de confiance au seuil de confiance 95% et comparer avec le a).
c) On suppose maintenant que l’on a trouvé la même moyenne et la même variance
qu’observées mais avec 5 observations au lieu de 8. Reprendre les questions a) et b).

5.3.9. Après avoir pesé 12 pamplemousses d’une même provenance, on donne pour l’espérance
mathématique m du poids X d’un pamplemousse, l’intervalle de confiance au niveau de
confiance 95% : 390 g  m  520 g. En déduire la moyenne observée et l’écart type observé.

5.3.10. Un échantillon aléatoire de 50 notes (sur 100) dans une population de 200 a donné une
moyenne de 75 et un écart type de 10.
a) Quelles sont les limites de confiance à 94 % pour estimer la moyenne des 200 notes ?
b) Avec quel degré de confiance peut-on dire que la moyenne des 200 notes est de 75 plus ou
moins 1 ?

5.3.11. Un échantillon de 150 lampes de marque A a donné une durée de vie moyenne de 1400
heures et un écart type de 120 heures. Un échantillon de 200 lampes de marque B a donné une
96
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population

durée de vie moyenne de 1200 heures et un écart type de 80 heures. Déterminer les limites de
confiance à 95 % de la différence des durées de vie moyennes des marques A et B.

5.3.12. Une compagnie fabrique des roulements à billes ayant un poids moyen de 0,638 Kg et
un écart type de 0,012 Kg.
Calculer les limites de confiance des poids de lots comprenant 100 roulements chacun.
a) Avec un risque d’erreur de 1 %.
b) Avec un risque d’erreur de 10 %.
c) Discuter la sensibilité de la largeur de l’intervalle de confiance par rapport au risque
d’erreur.

5.3.13. Dans une population de 579 individus, divisée en quatre strates comprenant
respectivement 53 ; 190 ; 231 ; et 105 individus, on a prélevé un échantillon de 58 individus,
dont 10 dans la première strate, 14 dans la deuxième, 21 dans la troisième et 13 dans la
quatrième. En fonction des résultats suivants, estimer la moyenne de la population globale et
l’erreur standard de cette moyenne, en considérant l’échantillon comme :
a) Aléatoire et simple ;
b) Stratifié.

Strates Sommes Sommes des carrés


1 54 1004
2 127 3081
3 388 13270
4 553 39667

5.3.14. En vue d’estimer la note moyenne des élèves d’une école, on a choisi de façon aléatoire
et simple six classes, et dans chacune de ces classes on a choisi aléatoirement 4 élèves. En
fonction des résultats obtenus et repris ci-dessous :
a) Estimer la note moyenne des élèves de l’école ;
b) Déterminer l’intervalle de confiance à 95 % de cette estimation.

Classes
1 2 3 4 5 6
Elèves
1 11,69 11,79 11,84 12,30 11,83 11,95
2 12,32 11,97 11,59 11,91 11,77 11,87
3 12,32 12,07 11,25 12,05 12,15 11,65
4 11,90 12,06 11,80 12,23 11,66 11,87

97
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population

5.4. SOLUTIONS DES EXERCICES D’APPLICATION.

5.4.1. Solution de l’exercice 5.3.1.

a) L’estimation ponctuelle de la moyenne de la population mère est la moyenne de


l’échantillon considéré, à savoir, après calculs :

xi ni ni xi x i2 n i x i2
0 53 0 0 0
1 32 32 1 32
2 11 22 4 44
3 3 9 9 27
4 1 4 16 16
Somme 100 67 30 119
Somme / n 0,67 - 1,19
V(x) 0,7411
σ 0,86

^
m = 0,67
Avoir 0,67 panne par jour peut sembler bizarre du fait que le nombre de pannes doit être un
entier, mais le résultat que nous avons obtenu veut dire qu’en moyenne il y a un peu plus d’une
panne, tous les deux jours (exactement 2x0,67= 1,34).

b) L’écart type  de la population est inconnu, on utilise comme estimation ponctuelle est
sans biais de l’écart type :

n 100
σ̂  V(X)  x 0,7411  0,87
n 1 100  1

ˆ 0,87
L’erreur standard est mesurée par x    8,7 %
n 100

5.4.2. Solution de l’exercice 5.3.2.

L’estimation ponctuelle de la moyenne de la population mère est la moyenne de l’échantillon


considéré, à savoir, après calculs :

98
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population

^
m = 200 réponses par jour.
L’erreur standard de l’estimation est :


x 
n

L’écart type de la population est estimé par :

 (x i x) 2 σ̂ 27,89
ˆ   27,89 soit σ x    8,82
n 1 n 10

xi x i2
200 40 000
240 57 600
190 36 100
150 22 500
220 48 400
180 32 400
170 28 900
230 52 900
210 44 100
210 44 100
Somme 2 000 407 000
Somme / n 200 40 700
V(x) 700
n
ˆ  x V( x ) 27,89
n 1

99
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population

5.4.3. Solution de l’exercice 5.3.3.

a) L’estimation ponctuelle de la moyenne de la population mère est la moyenne de


l’échantillon considéré, à savoir, après calculs :

^
m = 9,4

ˆ 3,92
x    1,01
n 15

xi x i2
13 169
6 36
12 144
10 100
10 100
16 256
2 4
4 16
11 121
12 144
12 144
5 25
7 49
8 64
13 169
Somme 141 1541
Somme / n 9,40 102,73
V(x) 14,37
σ (x) 3,79
n
ˆ  x V( x ) 3,92
n 1

b) Comme la loi de probabilité est inconnue et que nous avons un échantillon de taille n < 30,
la moyenne de l’échantillon peut être considérée comme une variable aléatoire T de Student à
(n-1) degrés de liberté, soit 14.
T 0,05 à 14 degrés de liberté lu sur la table de Student est : 2,145
1-
2

100
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population

Les limites de l’intervalle de confiance sont :


^
 
X T 0 , 05
= 9,4  2,17
1 -
2 n
L’intervalle de confiance est alors : [7,23 ; 26,03]

5.4.4. Solution de l’exercice 5.3.4.

a) L’estimation ponctuelle de la moyenne de la population mère est la moyenne de


l’échantillon considéré, à savoir, après calculs :
xi x i2
1,1 1,21
1,05 1,1025
1,25 1,5625
1,08 1,1664
1,35 1,8225
1,15 1,3225
1,3 1,69
1,25 1,5625
1,3 1,69
1,35 1,8225
1,15 1,3225
1,32 1,7424
1,05 1,1025
1,25 1,5625
1,1 1,21
1,15 1,3225
Somme 19,20 23,21
Somme / n 1,2 1,45
V(x) 0,01
σ (x) 0,10
n
ˆ  x V( x ) 0,11
n 1

^
m = 1,2 soit une durée de vie de 1200 heures.

ˆ 0,11
L’erreur standard est : x    0,03
n 16
101
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population

b) Comme la loi de probabilité est inconnue et que nous avons un échantillon de taille n < 30,
la moyenne de l’échantillon peut être considérée comme une variable aléatoire T de Student à
15 degrés de liberté, (n – 1).

T 0,05 à 15 degrés de liberté lu sur la table de Student est : 2,131


1-
2

Les limites de l’intervalle de confiance sont :

^

σ
X T 0 , 05
= 1,2  0,06
1 -
2
n

L’intervalle de confiance de la durée de vie moyenne de l’article est alors : [1,14 ; 1,26] soit
[1140 h ; 1260 h]

c) L’intervalle de confiance à 10% seulement de risque est :

T 0,10 à 15 degrés de liberté lu sur la table de Student est : 1,753


1-
2

Les limites de l’intervalle de confiance sont :

^

σ
X T 0 , 05
= 1,2  0,05
1 -
2
n

L’intervalle de confiance de la durée de vie moyenne de l’article est alors : [1,15 ; 1,25] soit
[1150 h ; 1250 h]

d) On voit bien qu’en doublant le risque d’erreur, l’intervalle de confiance ne varie pas
tellement (une variation de 16,7 %) puisque sa largeur varie de 0,12 à 0,10.

5.4.5. Solution de l’exercice 5.3.5.

Dans le cas d’une population normale les limites de l’intervalle de confiance à 95% sont :

 
X Z 0 , 05
1-
2 n

102
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population

La lecture de la table normale centrée réduite donne Z 0 , 05


 1,96
1-
2

De même, l’estimation ponctuelle et sans biais de l’écart type est donnée par :

n
ˆ  . V( x )  28,28
n 1

 
X Z 0 , 05
= 130  7,84
1
2 n

L’intervalle est alors : [130-7,84 ; 130+7,84] = [122,16 ; 137,84]

5.4.6. Solution de l’exercice 5.3.6.

a) L’estimation ponctuelle de la moyenne de la population mère est la moyenne de


l’échantillon considéré, à savoir, après calculs :

^
m = 88,5 g

ˆ
x   0,063
n

xi ni ni xi ni x i2
83 4 332 27556
85 6 51 43350
87 6 522 45414
89 6 534 47526
91 8 728 66248
93 2 186 17298
95 2 190 18050
97 1 97 9409
Somme 35 3099 274851
Somme / n 88,5 7852,90
V(x) 13,6
σ (x) 3,68
n
ˆ  x V( x ) 3,74
n 1

103
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population

b) L’estimation par intervalle de confiance de la moyenne :

Comme nous ne connaissons pas la loi de probabilité de la variable aléatoire : poids du ressort
et comme l’échantillon a une taille de 36 > 30, cette loi de probabilité peut être approchée par
une normale.

La lecture de la table normale centrée réduite donne Z 0 , 04


 2,05
1
2

Les limites de l’intervalle de confiance sont :

^
 
X± Z 0 , 04
= 88,5  1,30
1 -
2 n

L’intervalle de confiance est alors : [87,2 ; 89,8].

5.4.7. Solution de l’exercice 5.3.7.

Nous utiliserons les limites de l’intervalle de confiance à 95% avec les données suivantes :

2,3 n
Z 0 , 05
= 0,05 => Z 0 , 05
= 0,05 = 1,960
1
2 n 1
2
2,3

Ce qui donne pour n = 8129

5.4.8. Solution de l’exercice 5.3.8.

a) L’estimation ponctuelle et sans biais de la moyenne des boîtes fabriquées par le confiseur est
la moyenne de l’échantillon considéré, à savoir après calcul :

xi x i2
1,22 1,4884
1,23 1,5129
1,21 1,4641
1,99 1,4161
1,23 1,5129
1,24 1,5376
1,18 1,3924
1,21 1,4641
Somme 9,71 11,7885
Somme / n 1,214 1,4736
104
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population

V(x) 0,0004
n
ˆ  x V( x ) 0,021
n 1

ˆ
m̂ = 1,214 kg par boite avec  x   0,007
n

Comme la loi de distribution des poids des boîtes n’est pas connue, elle peut être approchée par
une loi de Student à 7 degrés de liberté (n – 1).

La lecture de la table T 0 ,10  1,895


1
2

L’intervalle de confiance à 10 % est :

1,214  0,014 ou [1,2 ; 1,228]

b) Si la variance de la population est exactement celle de l’échantillon, alors l’intervalle de


confiance est, en remplaçant l’estimateur ̂ par  ( x ) :

1,214  0,013 ou 1,201 ; 1,227


c1) Si la taille de l’échantillon varie, l’estimateur sans biais de la moyenne varie aussi :

n
ˆ  . V( x )  0,022
n 1

La lecture de la table de Student avec 4 degrés de liberté donne : T 0,1  2,132 .


1
2
L’intervalle de confiance devient :

1,214  0,021 ou 1,193 ; 1,235


c2) Dans le cas où la variance de la population mère est exactement celle de l’échantillon,
l’intervalle de confiance devient :

1,214  0,018 ou 1,196 ; 1,232

105
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population

5.4.9. Solution de l’exercice 5.3.9.

En supposant, comme d’habitude que l’intervalle de confiance est symétrique par rapport à la
moyenne on peut donner la moyenne observée :

390  520
E (x)   455 g
2
La demi largeur de l’intervalle de confiance est égale, en prenant pour loi de probabilité de la
distribution des poids de pamplemousse, la loi de Student à 11 degrés de liberté (n – 1).

ˆ
455  390  65  T 0 , 05 .
1 n
2

Avec T 0 , 05  2,201 lu sur la table de Student, ce qui donne pour ̂ :


1
2

ˆ  102,30

n 1
et pour  (x)  ˆ  97,94
n

5.4.10 Solution de l’exercice 5.3.10.

Comme il s’agit de plus de 30 d’effectifs, nous pouvons considérer que la loi de distribution
des notes est une loi normale.

a) On lit sur la table normale centrée réduite : Z 0 , 06  1,88


1
2
L’estimation sans biais de  est :

n Nn
ˆ  V( x ) x  8,77
n 1 N 1

L’intervalle de confiance à 94 % est :

75  2,33 ou 72,67 ; 77,33

106
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population

b) Pour avoir une moyenne comprise entre 74 et 76, on doit avoir :

8,77
Z 
. 1  Z   0,81
1
2 50 1
2


Correspond pour la table normale centrée réduite à 1  0,791    0,42 .
2
Le degré de confiance est donc de 58 %.

5.4.11. Solution de l’exercice 5.3.11.

Il s’agit d’échantillons de tailles > 30, les lois de probabilités de distribution des durées de vie
peuvent être approchées par des lois normales.

Il en est de même de la loi de distribution de la différence des durées de vie.

L’estimateur sans biais de la moyenne des différences de durées de vie est :

m̂  m̂1  m̂ 2  1400 h  1200 h  200 h


n1 150
ˆ 1  x 1  x 120  120,4
n1  1 150  1
n2 200
ˆ 2  x 2  x 80  80,2
n2  1 200  1

L’écart type de la différence des durées de vie moyenne est estimé par :
ˆ ˆ
2
120,42
80,2 2 2

 1
 2
  11,35
n1 n 2 150 200

L’intervalle de confiance à 95 % de la différence des durées de vie moyennes des deux


marques A et B est :

200  1,96 x 11,35 ou [177,75 ; 222,25]

5.4.12. Solution de l’exercice 5.3.12.

Comme il s’agit de lots comprenant 100 roulements, on peut valablement approcher la loi de
probabilité des poids des roulements par une loi normale.

107
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population

a) L’intervalle de confiance à 99 % est, après lecture sur la table normale centrée réduite :

Z   2,58
1
2

0,638  0,0031 ou 0,635 ; 0,641


L’intervalle de confiance du poids du lot est : [63,5 kg ; 64,1 kg]

b) L’intervalle de confiance à 90 % est, après lecture sur la table normale centrée réduite :

Z   1,64
1
2

L’écart type de la population est connu :   0,012

L’intervalle de confiance du poids moyen est :

0,638  0,002 ou 0,636 ; 0,64


L’intervalle de confiance du poids du lot est : [63,6 kg ; 64 kg]

c) Pour une variation du risque d’erreur de :

0,99  0,90
9%
0,99
Nous obtenons une variation de l’intervalle de confiance de :

0,002  0,0031
  35 %
0,0031

On voit bien qu’une faible variation du risque d’erreur induit une forte variation de l’intervalle
de confiance.

5.4.13. Solution de l’exercice 5.3.13.

a) Echantillon aléatoire simple

La meilleure estimation de la moyenne m d’une population, qui puisse être déduite d’un
échantillon aléatoire et simple, est la moyenne de l’échantillon.

108
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population

58
xi 54  127  388  553
m̂  X = i 1
= = 19,34
n 58

La dispersion des différentes estimations possibles autour de cette moyenne générale, est
mesurée par l’erreur standard de la moyenne :

 = 

Nn
X
n N 1

L’écart type de la population peut être estimé par :

^
n.V(X)
 
n -1

58
xi² -
V(X)  i 1
- x²
n
1004  3081  13270  39667
V(X)  - 19,34² = 609,10
58

^
58.609,10
  =24,90
58 - 1

579  58
 = 24,90
 = 3,10
X
58 579  1

La moyenne de la population globale peut être estimée à 19,34 avec une erreur standard de
3,10.

b) Echantillon stratifié

On estime la moyenne de chaque strate par la moyenne calculée de l’échantillon de la strate.

ni
xi
m̂ i  X i = i 1
ni

109
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population

L’erreur standard de la moyenne :


^
Xi = i Ni n i
ni N i 1

L’écart type de la strate peut être estimé par :

^ n i.V(X)
i 
n i -1
ni
xi² -
V(X)  i 1
- xi ²
ni
Le tableau suivant regroupe les résultats des calculs pour chaque strate.


Strate Ni ni V(X)
^
i Xi
xi
1 53 10 5,4 71,24 8,9 2,56
2 190 14 9,07 137,78 12,18 3,14
3 231 21 18,48 290,54 17,47 3,64
4 105 13 42,54 1241,79 36,68 9,57
Total 579 58

La moyenne de la population globale peut être estimée par :

m 
^ Ni x i 53.5,4190.9,07  231.18,48105.42,54
=
 Ni 579
^
m = 18,56
L’erreur standard de l’estimation est :

Xi = V(x)

1 N i ²V(x i )
avec V( x ) =



V( x ) = 1 (53².2,56² + 190².3,14² + 231².3,64² + 105².9,57²)
579²

V( x ) = 6,24

110
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population

Xi = 6,24 = 2,5

La moyenne de la population globale peut être estimée à 18,56 avec une erreur standard de 2,5.

On peut constater que l’échantillonnage stratifié est plus précis que l’échantillonnage aléatoire
et simple.

5.4.14. Solution de l’exercice 5.3.14.

a) Estimation de la note moyenne de la classe.

On estime la moyenne de chaque classe par la moyenne calculée de l’échantillon de la classe.

ni
xi
m̂ i  X i = i 1
ni
L’erreur standard de la moyenne :

^
Xi = i
ni

L’écart type de la classe peut être estimé par :

^ n i.V(X)
i 
n i -1
ni
xi² -
V(X)  i 1
- xi ²
ni

111
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population

Le tableau suivant regroupe les résultats des calculs pour chaque classe.


Classe V(X) i
^
Xi
xi
1 12,06 0,07 0,32 0,16
2 11,97 0,01 0,13 0,06
3 11,62 0,05 0,27 0,13
4 12,12 0,02 0,18 0,09
5 11,85 0,03 0,21 0,11
6 11,84 0,01 0,13 0,06

En supposant des classes de même effectifs, la note moyenne de l’école peut être estimée par :

m 
^ xi 12,0611,97 11,6212,1211,8511,84
=
6 6
^
m = 11,91
L’erreur standard de l’estimation est :


Xi = V(x)


1 V(x i )
avec V( x ) =



V( x ) = 1 (0,16² + 0,06² + 0,13² + 0,09² + 0,11² + 0,06²)
36

V( x ) = 0,0019
Xi = 0,0019 = 0,044

La note moyenne de l’école peut être estimée à 11,91 avec une erreur standard de 0,044.

b) Intervalle de confiance de la note moyenne de l’école.

112
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population

La loi de la population est inconnue, la taille de l’échantillon est inférieure à 30. L’intervalle de
confiance est :
^

X  T1  
2 n
Au seuil de 5 %, la valeur de T0,975 avec 23 degrés de liberté lue dans la table de Student est :

T0,975 = 2,07

L’intervalle de confiance est :

11,91  2,07 . 0,044 = [11,82 ; 12].

113
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population

114
Statistiques décisionnelles 6. Estimation de la variance d’une population

CHAPITRE 6
ESTIMATION DE LA VARIANCE D’UNE POPULATION

6.1. ESTIMATION D’UNE VARIANCE.

6.1.1. Estimation ponctuelle.

Contrairement à la moyenne, la meilleure estimation de la variance ² d’une population, qui


puisse être déduite d’un échantillon aléatoire et simple, n’est pas la variance de l’échantillon
v(x). En effet, pour l’ensemble des échantillons qui peuvent être rencontrés, on ne retrouve pas,
en moyenne, la vraie valeur de la population, on obtient ainsi, en moyenne, une valeur
inférieure à la variance de la population.

 σ²
Le biais est : E(V(X)) - ² =
n

Ce biais peut être corrigé en multipliant la variance de l’échantillon par le facteur n . On


n1
obtient alors l’estimation :
n 

^ n  (x i  x )²
²   v( x ) = i 1

n 1 n 1

dont l’espérance mathématique est bien ².


^
n n n n 1
E(  ² ) = E(  v( x ) ) = E(v(x)) =  ² = ²
n 1 n 1 n 1 n
^
²  n v(x) est appelée quasi-variance, c’est un estimateur sans biais de la variance ² de
n 1
la population. La quasi-variance est désignée par σ² n 1

115
Statistiques décisionnelles 6. Estimation de la variance d’une population

L’erreur standard de cette estimation est, dans le cas d’une population normale :

^ 2
v( ²)  2 (n  1)
n
6.1.2. Estimation par intervalle de confiance.

Si on s’intéresse à la variance ² d’une population normale, l’estimation par intervalle de


confiance consiste à déterminer les bornes ²1 et ²2 d’un intervalle qui a un niveau de
confiance (1-) de contenir ².

Les limites ²1 et ²2 sont telles que :

p(²1  ²  ²2) = 1 - 

n 
(x i  x)²
i 1
Comme, pour une population normale, la variable aléatoire possède une
²
distribution khi deux à (n-1) degrés de liberté, on peut alors écrire :

n  n  n 
(x i  x)²
i 1
(x i x)²
i 1
(x i x)²
i 1
p(   )=1-
² 2 ² ²1
Les limites de confiances sont alors :

n  n 
(x  x)²
i 1
i (x  x)²
i 1
i

²1 = et ²2 =
²1  ² 
2 2

Les valeurs de ²  et ²1  sont à (n-1) degré de liberté, lus sur la table du  2 .
2 2

116
Statistiques décisionnelles 6. Estimation de la variance d’une population

6.2. ESTIMATION DE LA SOMME DE VARIANCES.

La population objet d’étude peut être subdivisée en plusieurs strates dans lesquelles on choisit
des échantillons indépendants.

Désignons par :

N = Taille de la population
Ni = Taille de la strate i
n = Taille de l’échantillon global
ni = Taille de l’échantillon prélevée dans la strate i

La variance de chaque strate est estimée par la quasi-variance :

ˆ i2 

 xi  xi 
ni  1
La variance globale de la population est estimée par :

ˆ 
2 
N i ˆ i2 N i x i  x

2

N N
6.3. ENONCES DES EXERCICES D’APPLICATION.

6.3.1. On reprend les données de l’exercice 5.3.1.


a) Déduire une estimation de l’écart type du nombre de pannes par jour.
b) Donner l’erreur standard du résultat obtenu.

6.3.2. On reprend les données de l’exercice 5.3.2.


Déterminer une estimation ponctuelle de .

6.3.3. On reprend les données de l’exercice 5.3.3.


a) Estimer l’écart type des notes de l'ensemble des étudiants de la faculté.
b) Donner une estimation par intervalle de confiance pour l’écart type. ( = 5 %).
c) Donner une estimation par intervalle de confiance pour l’écart type   1 %  .
d) Donner la sensibilité de la largeur de l’intervalle de confiance par rapport à une variation du
risque d’erreur  .

6.3.4. On reprend les données de l’exercice 5.3.4.


a) Estimer l’écart type de la durée de vie d'un article.
b) Donner une estimation par intervalle de confiance pour l’écart type avec  = 2 pour mille.

117
Statistiques décisionnelles 6. Estimation de la variance d’une population

6.3.5. On reprend les données de l’exercice 5.3.5.


Donner une estimation de  par un intervalle de confiance au niveau de confiance 90 %.

6.3.6. On reprend les données de l’exercice 5.3.6.


X donnant le poids d’un ressort provenant de cette fabrication,
a) Donner une estimation ponctuelle de V(X).
b) Donner pour V(X) un intervalle de confiance au niveau de confiance 95%.

6.3.7. On reprend les données de l’exercice 5.3.8.


a) Donner pour V(X) un intervalle de confiance au risque de 5%.
b) On suppose maintenant que l’on a trouvé la même variance observée mais avec 5
observations au lieu de 8. Reprendre la question a).
c) Discuter la sensibilité de l’intervalle de confiance par rapport à une variation de la taille de
l’échantillon.

6.3.8. On reprend les données de l’exercice 5.3.10.


Quelles sont les limites de confiance à 95 % pour estimer l’écart type des 200 notes ?

6.3.9. Une compagnie fabrique des roulements à billes ayant un poids moyen de 0,638 kg et un
écart type de 0,012 kg. Calculer les limites de confiance de l’écart type des poids de lots
comprenant 100 roulements chacun.
a) Avec un risque d’erreur de 1 %.
b) Avec un risque d’erreur de 5 %.
c) Discuter la sensibilité de l’intervalle de confiance en fonction de la variation du risque
d’erreur.

6.3.10. En fonction des données et résultats de l’exercice 5.3.13., estimer la variance de la


population globale en considérant l’échantillon comme :
a) Aléatoire et simple ;
b) Stratifié.

6.3.11. On reprend les données de l’exercice 5.3.14.


Estimer l’écart type des notes des élèves de l’école ;

6.4. SOLUTIONS DES EXERCICES D’APPLICATION.

6.4.1. Solution de l’exercice 6.3.1.

Nous reprenons les résultats des tableaux des calculs de la solution de l’exercice 5.3.1., page
127.

118
Statistiques décisionnelles 6. Estimation de la variance d’une population

a) L’estimation ponctuelle de l’écart type est, après calcul :


n
ˆ  x V( x )  0,87
n 1

b) L’erreur standard est, après calcul :

ˆ 2 0,87 2
V(ˆ 2 )  2 n  1  2 100  1  0,1065
n 100

V(σ̂)  0,1065  0,33

6.4.2. Solution de l’exercice 6.3.2.

On reprend le tableau des résultats de calculs de la solution de l’exercice 5.3.2., page 128.

L’estimation ponctuelle, sans biais, de l’écart type est, après calcul :

n
ˆ  x V( x )  27,89
n 1

L’erreur standard est :

27,89 2
V(ˆ )  2 x 10  1  18,16
10

6.4.3. Solution de l’exercice 6.3.3.

On reprend le tableau des résultats de calculs de la solution de l’exercice 5.3.3. page 129.

a) L’estimation ponctuelle, sans biais, de l’écart type des votes est, après calcul :

n
ˆ  x V( x )  3,92
n 1

b) L’estimation par intervalle de confiance de 5 % est comme suit :

La lecture de la table du  2 à 14 degrés de liberté donne  2 0 , 05  26,119 .


1
2

119
Statistiques décisionnelles 6. Estimation de la variance d’une population

 (x i  x) 2
Soit 12   8,25 et 1  2,87
 2 0 , 05
1
2

 20 , 05  5,629
2

 (x i  x) 2
Soit  22   38,29 et  2  6,19
 0 , 05
2

L’intervalle de confiance à 5 % de risque est [2,87 ; 6,19].

c) L’estimation par intervalle de confiance à 1 % de risque d’erreur est comme suit :

De même la lecture de table du  2 à 14 degrés de liberté donne 12  0, 01  31,319


2

 (x i  x) 2
Soit 12   6,88 et 1  2,62
 2 0 , 01
1
2

 20 , 01  4,075
2

 (x i  x) 2
Soit 12   52,90 et  2  7,27
 20 , 01
2

L’intervalle de confiance est [2,62 ; 7,27] à 1 % de risque d’erreur.

d) On voit qu’une variation de 5 % à 1 % (soit – 80 %) induit une variation de la largeur de


l’intervalle de confiance de 3,32 (= 6,19 – 2,87) à 4,65 (= 7,27 – 2,62) soit + 40 %.

6.4.4. Solution de l’exercice 6.3.4.

On reprend le tableau des résultats de calcul de la solution de l’exercice 5.3.4. page 131.

120
Statistiques décisionnelles 6. Estimation de la variance d’une population

a) L’estimation ponctuelle, sans biais, de la durée de vie est, après calcul :

n
ˆ  x V( x )  0,11 soit 110 h.
n 1

b) L’estimation par intervalle de confiance à 2 pour 1000 est comme suit :

La lecture de la table du  2 à 15 degrés de liberté donne :

2 0 , 002
 37,698
1
2

Σ(x i  x ) 2
Soit σ 12   0,0046 et 1  0,068
χ2 0,002
1
2

 20 , 002  3,483
2

Σ (x i  x ) 2
Soit σ 22   0,0499 et  2  0,223
χ 20,002
2

L’intervalle de confiance à 2 % de risque est [0,068 ; 0,223].

6.4.5. Solution de l’exercice 6.3.5.

L’estimation ponctuelle sans biais de l’écart type est donnée par :

n
ˆ  V( x )  28,28
n 1

Le nombre de degrés de liberté 49 est grand, on peut utiliser l’approximation de  2 par la


transformation :

2 
Z  2 x k 1 
2

2 
1,64  2 x 49  1 
2

 65,997
0 ,1
1 2
2

121
Statistiques décisionnelles 6. Estimation de la variance d’une population

 20 ,1 
 1,64  2 x 49  1 2

 33,693
2 2

12 

 xi  x 2


28 2 x 50
 593,97 et 1  24,37
 2 0 ,1 65,997
1
2

 22 

 xi  x 2


28 2 x 50
 1163,446 et  2  34,11
 20 ,1 33,693
2

L’intervalle de confiance à 10 % de risque est [24,37 ; 34,11].

6.4.6. Solution de l’exercice 6.3.6.

On reprend le tableau des résultats de calcul de la solution de l’exercice 5.3.6. page 133.

a) L’estimation ponctuelle de V(x) est :

n
σ̂ 2  x V(x)  14
n 1

b) L’intervalle de confiance en risque de 5 % est comme suit :

Les valeurs de  2 à 34 degrés de liberté peuvent être approximées par la transformation :

χ2 
Z  2k  1 
2

 2

1,96  2 x 34  1  2

 51,46
0 , 05
1 2
2

 2

 1,96  2 x 34  1  2

 19,38
0 , 05
2 2
 ( x i  x ) 2 14 x 34
Soit 12    9,25 et 1  3,04
 2 0 , 05 51,46
1
2

 ( x i  x ) 2 14 x 34
Soit  22    24,56 et  2  4,96
 20 , 05 19,38
2

L’intervalle de confiance de l’écart type [3,04 ; 4,96] à 5 % de risque d’erreur.

122
Statistiques décisionnelles 6. Estimation de la variance d’une population

6.4.7. Solution de l’exercice 6.3.7.

On reprend le tableau des résultats de calcul de la solution de l’exercice 5.3.8. page 135.

a) L’intervalle de confiance en risque de 5 % est donné comme suit :

La lecture de la table du  2 à 7 degrés de liberté donne :

2 0 , 05
 16,013
1
2

 (x i x) 2
Soit 12   0,0002 et σ 1  0,014
 2 0 , 05
1
2

 20 , 05  1,690
2

 (x i  x) 2
Soit  22   0,0019 et  2  0,044
 20 , 05
2

L’intervalle de confiance à 5 % du risque est [0,014 ; 0,044] à 5 % de risque d’erreur.

b) Si l’on n’a fait que 5 observations au lieu de 8, les résultats deviennent, après lecture de la
table de  2 à 4 degrés de liberté :

2 0 , 05
 11,143
1
2

 (x i  x) 2
Soit 12   0,0003 et 1  0,017
 2 0 , 05
1
2

 20 , 05  0,484
2

 (x i  x) 2
Soit  22   0,0066 et  2  0,081
 20 , 05
2

L’intervalle de confiance est [0,017 ; 0,081] à 5 % de risque d’erreur.

123
Statistiques décisionnelles 6. Estimation de la variance d’une population

c) La sensibilité de l’intervalle de confiance est :

Pour une variation de l’échantillon de 8 à 5 (soit – 37,5 %) la largeur de l’intervalle varie de


0,030 (= 0,044 – 0,014) à 0,064 (= 0,081 – 0,017) soit + 113 %.

6.4.8. Solution de l’exercice 6.3.8.

On reprend les résultats des calculs de la solution de l’exercice 5.3.10. page 138.

ˆ  8,77

La valeur  2 à 199 degrés de liberté peut être approximée par la loi normale de moyenne 199
et d’écart type 2 x 199  19,95 .

2 0 , 05
 199
1
2
Z 0 , 05
19,95 1
2

2 0 , 05
 1,96 x 19,95  199  238,10
1
2

 20 , 05  199
2
 Z 0 , 05
19,95 2

 20 , 05   1,96 x 19,95  199  159,90


2

12 

 xi  x 
2


8,77 2 x 199
 64,28 et 1  8,02
 2 0 , 05 238,10
1
2

 
2  xi  x  
2


8,77 2 x 199
 95,72 et  2  9,78
 20 , 05
2
159,90
2

L’intervalle de confiance est [8,02 ; 9,78] à 5 % de risque d’erreur.

124
Statistiques décisionnelles 6. Estimation de la variance d’une population

6.4.9. Solution de l’exercice 6.3.9.

  0,012 kg

Les valeurs de  2 à 99 degrés de liberté peuvent être approximées par la loi normale de
moyenne 99 et d’écart type 2 x 99  14 .

a) Risque d’erreur de 1 % :

2 0 , 01
 99
1
2
Z 0 , 01
 2 0 , 01
 2,58 x 14  99  135,12
14 1 1
2 2

Z 20 , 01  99
2
 Z 0 , 01   20 , 01   2,58 x 14  99  62,88
14 2 2

12 

 xi  x 
2


0,012 2 x 100
 0,0001 et 1  0,0103
 2 0 , 01 135,12
1
2

 22 

 xi  x 
2


0,012 2 x 100
 0,0002 et  2  0,0151
 20 , 01 62,88
2

L’intervalle de confiance est [0,0103 ; 0,0151] à 1 % de risque d’erreur.

b) Risque d’erreur de 5 % :

2 0 , 05
 99
1
2
Z 0 , 05
 2 0 , 05
 1,96 x 14  99  126,44
14 1 1
2 2

 20 , 05  99
2
 Z 0 , 05   20 , 05   1,96 x 14  99  71,56
14 2 2

 
2  xi  x  
2


0,012 2 x 100
 0,00011 et 1  0,0107
 2 0 , 05
1
126,44
1
2

125
Statistiques décisionnelles 6. Estimation de la variance d’une population

 22 

 xi  x 
2


0,012 2 x 100
 0,0002 et  2  0,0142
 20 , 05 71,56
2

L’intervalle de confiance est [0,0107 ; 0,0142] à 5 % de risque d’erreur.

c) La sensibilité de l’intervalle de confiance est :

Pour une variation du risque d’erreur de 1 % à 5 % (soit une augmentation de 400 %) la largeur
de l’intervalle de confiance varie de 0,0048 (= 0,0151 – 0,0103) à 0,0035 (= 0,0142 – 0,0107)
soit – 27 %.

6.4.10. Solution de l’exercice 6.3.10.

a) Echantillon aléatoire simple :

La variance de la population peut être estimée par :


^
n.V(X)
² 
n -1
58

x ² i -
V(X)  i 1
-x²
n
58
 x i
54  127  388  553
x= i 1
= = 19,34
n 58

1004  3081  13270  39667


V(X)  - 19,34² = 609,10
58

^
58.609,10
²  =619,79
58 - 1

b) Echantillon stratifié :

La variance de la strate peut être estimée par :

n i .V(X)
σ̂ 12 
ni -1

126
Statistiques décisionnelles 6. Estimation de la variance d’une population

ni

x ² i -
V(X)  i 1
- xi ²
ni

ni
 x i
xi = i 1

ni

Le tableau suivant regroupe les résultats des calculs pour chaque strate.

 ^
Strate Ni ni xi V(X) ² i
1 53 10 5,4 71,24 79,2
2 190 14 9,07 137,78 148,4
3 231 21 18,48 290,54 305,1
4 105 13 42,54 1241,79 1614,3
Total 579 58

La moyenne de la population globale peut être estimée par :


  N xi 53.5, 4  190.9,07  231.18, 48  105.42,54
i
x = = 18,56
 Ni 579

La variance de la population globale peut être estimée par :

^  
^  N i  ² i  N i ( x i  x )²
²  
N N

^ 53.79,2  190.148,4  231.305,1  105.1614,3


²  +
579

53.(5, 4  18,56)²  190.(9,07  18,56)²  231.(18, 48  18,56)²  105.( 42,54  18,56)²


579

^
 ² = 620,11

127
Statistiques décisionnelles 6. Estimation de la variance d’une population

6.4.11. Solution de l’exercice 6.3.11.

La variance de la classe peut être estimée par :

^ n i .V(X)
² i 
ni -1

ni

x ² i -
V(X)  i 1
- xi ²
ni

ni

 x i
xi = i 1

ni

Le tableau suivant regroupe les résultats des calculs pour chaque classe.

 ^
Classe xi V(X) ² i
1 12,06 0,07 0,1024
2 11,97 0,01 0,0169
3 11,62 0,05 0,0729
4 12,12 0,02 0,0324
5 11,85 0,03 0,0441
6 11,84 0,01 0,0169

En supposant des classes de même effectifs, la note moyenne de l’école peut être estimée par :



x
x i
=
12,06  11,97  11,62  12,12  11,85  11,84
6 6

x = 11,91
La variance de la population globale peut être estimée par :

 

N  N (x  x)²
^
^  ²i i
²  
i i
= 0,07
N N

^
L’écart type de la population globale peut être estimée par :  = 0,27.

128
Statistiques décisionnelles 7. Estimation de la proportion d’une population

CHAPITRE 7
ESTIMATION DE LA PROPORTION D’UNE POPULATION

7.1. ESTIMATION PONCTUELLE.

La meilleure estimation de la proportion p d’une population, qui puisse être déduite d’un
échantillon aléatoire et simple, est la fréquence de l’échantillon fn.

p̂  f n

La dispersion des différentes estimations possibles autour de cette proportion générale, est
mesurée par l’erreur standard de la proportion :

f n 1  f n 
f 
n
n

7.2. ESTIMATION PAR INTERVALLE DE CONFIANCE.

Si on s’intéresse à la proportion p, l’estimation par intervalle de confiance consiste à


déterminer de part et d’autre de l’estimateur fn les bornes p1 et p2 d’un intervalle qui a un
niveau de confiance (1-) de contenir p.

Les limites p1 et p2 sont telles que :

p(p1  p  p2) = 1 -  ou p(p < p1) = p(p > p2) = /2

Comme, la distribution de la proportion suit une loi normale de moyenne p et d’écart type
pq
 Fn  à condition que la taille de l’échantillon soit supérieure ou égale à 30 (n  30) et le
n
produit np  5, on peut écrire si on désigne par Z1 la valeur de la variable normale réduite
2
lue dans la table que les limites de l’intervalle de confiance sont :

129
Statistiques décisionnelles 7. Estimation de la proportion d’une population

p(1  p) p(1  p)
p1= fn - Z 
et p2 = fn + Z 
1 n 1 n
2 2

On notera l’intervalle de confiance :

p(1  p)
fn  Z 
1 n
2

 p (1  p) p (1  p) 
ou f n  Z 1   ; fn  Z  
 2 n 1
2 n 

On obtient ainsi un intervalle symétrique par rapport à fn.

7.3. ENONCES DES EXERCICES D’APPLICATION.

7.3.1. Dans une population d’étudiants en sociologie, on a prélevé, indépendamment, deux


échantillons de taille n1 = 120 et n2 = 150. On constate que 48 étudiants de l’échantillon 1 et
66 étudiants de l’échantillon 2 ont une formation secondaire scientifique. Soit p la proportion
d’étudiants de la population ayant une formation scientifique ; calculer trois estimations
ponctuelles de p.

7.3.2. Un promoteur désire étudier le nombre de garage qu'il est souhaitable de construire avec
un ensemble de logements, afin que les occupants puissent y ranger leur voiture. Pour cela il
fait effectuer une enquête par sondage auprès d'un échantillon de ménages susceptibles
d'habiter ces appartements.
a) On interroge un échantillon de 3238 ménages. On trouve parmi eux 1943 possesseurs d'une
voiture. Estimez, à partir de cet échantillon, la proportion des ménages ayant une voiture.
Degré de confiance 99 %.
b) À partir de la proportion estimée, combien de ménages faudrait-il interroger pour construire,
avec un risque d'erreur de 5 %, un intervalle de confiance d'amplitude 0,04 ?

7.3.3. On étudie le pourcentage d'utilisation d'une machine. 400 observations ont été effectuées
qui ont donné le résultat suivant :
 Machine marche : 320 observations.
 Machine arrêtée : 80 observations.
a) Entre quelles limites peut-on fixer le taux d'utilisation de la machine avec un degré de
confiance de 94 % ?
b) Combien doit-on faire d'observations pour obtenir le même pourcentage d'utilisation tout en
ayant, avec un risque d'erreur de 6 %, l’intervalle de confiance à [78,4 % ; 81,6 %] ?

130
Statistiques décisionnelles 7. Estimation de la proportion d’une population

7.3.4. Sur un échantillon de 400 adultes et de 600 adolescents ayant regardé un certain
programme de télévision, 100 adultes et 300 adolescents l’ont apprécié. Calculer les limites de
confiance à 99 % de la différence des fréquences des adultes et des adolescents qui ont regardé
et apprécié le programme.

7.3.5. On considère 2 échantillons tirés d’une même population et l’on désire calculer le taux
de participation à un vote.
Le 1er échantillon de taille 100 a donné 45 personnes ayant voté.
Le 2e échantillon de taille 200 a donné 96 personnes ayant voté.
a) Donner les 2 estimations ponctuelles des taux de participation au vote.
b) Donner pour chaque échantillon un intervalle de confiance de taux de participation au vote
avec un risque d’erreur de 1 %.
c) Donner la sensibilité de l’intervalle de confiance en fonction de la taille de l’échantillon.

7.3.6. Sur 100 clients d’un café, 85 demandent un café au petit déjeuner.
a) Donner une estimation ponctuelle de la proportion de clients qui prennent un café.
b) Donner l’intervalle de confiance à 1 % de risque d’erreur de cette proportion.
c) Donner l’intervalle de confiance à 5 % de risque d’erreur de cette proportion.
d) Discuter la sensibilité de l’intervalle de confiance en fonction du risque d’erreur.

7.4. SOLUTIONS DES EXERCICES D’APPLICATION.

7.4.1. Solution de l’exercice 7.3.1.

On se propose de déterminer 3 estimations ponctuelles de p.

a) Estimation à partir du 1er échantillon :

48
p1   0,40
120

L’erreur standard est :

0,40 x 0,60
p   0,045
1
120

b) Estimation à partir du 2e échantillon :

66
p2   0,44
150

131
Statistiques décisionnelles 7. Estimation de la proportion d’une population

0,44 x 0,56
L’erreur standard est  p   0,040
2
150

c) Estimation à partir de la sommation des 2 échantillons :

48  66 114
P3    0,42
120  150 270
0,42 x 0,58
L’erreur standard est :  p   0,030
270 3

On trouve bien 3 résultats qui ne sont pas trop différents.

7.4.2. Solution de l’exercice 7.3.2.

a) L’estimation ponctuelle de la proportion des personnes ayant une voiture, d’après les
données du 1er échantillon est :

1943
p  0,60
3238

L’estimation par intervalle de confiance au risque de 1 % de la proportion des personnes qui


ont une voiture est comme suit :

On utilisera la loi normale puisque l’échantillon a une taille de 3238 > 30 et que np = 1943 > 5.

Z 0 , 01
 2,575
1
2

p (1  p)
Soit Z 0 , 01  0,022
1 n
2

L’intervalle de confiance est [0,578 ; 0,622] à 1 % de risque d’erreur.

b) On suppose que la taille de l’échantillon qu’on va trouver est supérieure à 30 et que np > 5
pour que nous puissions utiliser la lecture de la table normale centrée réduite.

Z 0 , 05
 1,960
1
2

132
Statistiques décisionnelles 7. Estimation de la proportion d’une population

Pour avoir un intervalle de confiance à 5 % de risque d’erreur d’amplitude 0,04, on doit avoir :

p (1  p) 0,04
Z 0 , 05   0,02
1 n 2
2

p (1  p)
n  Z2 0 , 05
.  2305
1
2 0,02 2

On trouve bien n > 30 et np = 1383 > 5.

7.4.3. Solution de l’exercice 7.3.3.

a) L’estimation ponctuelle de taux d’utilisation de la machine est :

320
p  0,80
400

On utilisera la loi normale puisque l’échantillon a une taille de 400 et que np = 320 > 5.

Z 0 , 06
 1,88
1
2

p (1  p)
Z 0 , 06  0,038
1 n
2

L’intervalle de confiance à 6 % de risque est [0,762 ; 0,838].

b) Le nouvel intervalle de confiance à 6 % du risque d’erreur a une amplitude de 81,6 % - 78,4


% = 3,2 % = 0,032.

Donc :

p (1  p) 0,032
Z 0 , 06 .   0,016
1 n 2
2

p (1  p)
n  Z2 0 , 06
:  2209
1
2 0,016 2

On voit bien que n = 2209 est supérieur à 30 et que np = 1767 > 5 ce qui justifie notre
utilisation de la loi normale.

133
Statistiques décisionnelles 7. Estimation de la proportion d’une population

7.4.4. Solution de l’exercice 7.3.4.

La fréquence des adultes qui ont regardé et apprécié le programme est :

100
p1   0,25
400

L’erreur standard de cette estimation est :

0,25 x 0,75
p   0,0217
1
400

La fréquence des adolescents qui ont regardé et apprécié le programme est :

300
p2   0,5
600

L’erreur standard de cette estimation est :

0,5 x 0,5
p   0,0204
2
600

La différence des fréquences des adultes et des adolescents qui ont regardé et apprécié le
programme :

p 2  p 1  0,5  0,25  0,25

L’erreur standard est :

0,0217 2  0,0204 2  0,0298

Au seuil de 99 % Z 0 , 01
 2,575
1
2

L’intervalle de confiance est :

0,25  2,575 x 0,0298  0,25  0,08  0,17 ; 0,33

134
Statistiques décisionnelles 7. Estimation de la proportion d’une population

7.4.5. Solution de l’exercice 7.3.5.

a) Les estimations ponctuelles du taux de participation sont :

p1 = 0,45
p2 = 0,48

b) Les intervalles de confiance à 1 % de risque d’erreur sont, après lecture sur la table normale
centrée réduite puisque pour les 2 échantillons n > 30 et np > 5.

Z 0 , 01  2,575
1
2

p 1 (1  p 1 )
Z 0 , 01  0,128
1 n1
2

p 2 (1  p 2 )
Z 0 , 01  0,091
1 n2
2

L’intervalle de confiance du 1er échantillon est : [0,322 ; 0,578].

L’intervalle de confiance du 2e échantillon est : [0,389 ; 0,571].

c) Il est difficile de parler de sensibilité de l’intervalle de confiance puisque les proportions


diffèrent d’un échantillon à un autre.

Pour ce faire, nous allons supposer qu’en ayant augmenté la taille de l’échantillon de 100 à 200
la proportion p est restée inchangée, ce qui modifie quelque peu l’intervalle relatif au 2 e
échantillon puisqu’il devient :

p 1 (1  p 1 )
Z 0 , 01  0,091
1 n2
2

On voit qu’aux erreurs d’approximation près, on retrouve le même résultat qu’avec p 2.

Donc la sensibilité de l’intervalle de confiance en fonction de la taille de l’échantillon est


comme suit :

On fait passer la taille de l’échantillon de 100 à 200 (soit + 100 %) l’amplitude de l’intervalle
de confiance varie de 0,256 (2 x 0,128) à 0,182 (2 x 0,091) soit – 28,8 %.

135
Statistiques décisionnelles 7. Estimation de la proportion d’une population

7.4.6. Solution de l’exercice 7.3.6.

85
a) p   0,85
100

b) L’intervalle de confiance à 1 % de risque d’erreur est, puisque n > 30 et np > 5.

p (1  p)
Z 0 , 01
 2,575 et Z 0 , 01  0,092
1 1 n
2 2

L’intervalle de confiance est : [0,758 ; 0,942] à 1 % de risque d’erreur.

c) L’intervalle de confiance à 5 % de risque d’erreur est, puisque n > 30 et np > 5.

p (1  p)
Z 0 , 05  1,960 et Z 0 , 05  0,070
1 1 n
2 2

L’intervalle de confiance est : [0,78 ; 0,92] de risque d’erreur.

d) Ainsi en faisant varier le risque d’erreur de 1 % à 5 %, soit + 400 %, l’amplitude de


l’intervalle de confiance varie de 0,184 (2 x 0,092) à 0,140 (2 x 0,070) soit – 23,9 %.

136
Statistiques décisionnelles Partie 4. Tests statistiques

PARTIE 4
TESTS STATISTIQUES

PROBLEMATIQUE DES TESTS STATISTIQUES.

Un test statistique est une méthode permettant de prendre une décision à partir d’informations
fournies par un échantillon.

Les tests statistiques ou les tests d’hypothèses ont pour but de vérifier, à partir de données
observées dans un ou plusieurs échantillons, la validité de certaines hypothèses relatives à une
ou plusieurs populations.

On peut distinguer différents types de tests, en fonction des hypothèses qu’on peut faire.

- Les tests de comparaison à une norme ou tests de conformité sont destinés à comparer
entre eux une population théorique et un échantillon observé. Ils servent à vérifier si un
échantillon donné peut être considéré comme extrait d’une population possédant telle
caractéristique particulière (moyenne, variance, …). Le test se fait en vérifiant si la différence
entre la valeur observée et la valeur théorique du paramètre considéré peut être attribuée au
hasard ou non.

- Les tests d’homogénéité ou d’égalité ont pour but de comparer entre elles un certain
nombre de populations, à l’aide d’un même nombre d’échantillons.

- Les tests d’ajustement sont destinés à vérifier si un échantillon observé peut être extrait
d’une population donnée.

- Les tests d’indépendance ont pour but de contrôler, à partir d’un échantillon,
l’indépendance de deux ou plusieurs critères de classification, généralement qualitatifs.

137
Statistiques décisionnelles Partie 4. Tests statistiques

PRINCIPE GENERAL D’UN TEST STATISTIQUE.

Pour commencer, on émet une certaine hypothèse à tester, appelée hypothèse nulle,
généralement désignée par H0. Celle-ci suppose toujours l’égalité des caractéristiques
comparées.

L’hypothèse qui diffère de H0 est dite hypothèse alternative, généralement désignée par H1.

On mesure ensuite l’écart observé entre les caractéristiques comparées, et on calcule la


probabilité d’observer, si l’hypothèse nulle est vraie, un écart aussi important.

Si cette probabilité est relativement élevée, on considère l’hypothèse nulle comme plausible et
on l’accepte. Par contre si la probabilité calculée est faible, l’écart observé apparaît comme peu
compatible avec l’hypothèse nulle et on rejette celle-ci.

L’ensemble des valeurs observées pour lesquelles l’hypothèse H0 est admissible forme la
région d’acceptation. Les autres valeurs constituent la région de rejet. Les valeurs limites sont
appelées valeurs critiques.

La décision dépend donc de l’échantillon. Ainsi quelle que soit la décision prise, le hasard de
l’échantillonnage peut fausser les conclusions. Quatre situations doivent donc être envisagées :

- L’acceptation de l'hypothèse nulle alors qu'elle est vraie ;


- Le rejet de l'hypothèse nulle alors qu'elle est vraie ;
- L'acceptation de l'hypothèse nulle alors qu'elle est fausse ;
- Le rejet de l'hypothèse nulle alors qu'elle est fausse.

Dans le premier et le dernier cas, la conclusion obtenue est correcte, mais il n'en est
malheureusement pas de même dans les deux cas intermédiaires.

- L'erreur qui consiste à rejeter une hypothèse vraie est appelée erreur de première espèce et
désignée par RH0/H0.
- Accepter une hypothèse fausse est une erreur de seconde espèce, elle est désignée par
AH0/H1.

Les probabilités d’aboutir à de telles conclusions erronées sont les risques de première et de
deuxième espèce, désignés respectivement par  et .

 = p (RH0/H0)  = p (AH0/H1)

Le risque de première espèce  est appelé aussi seuil de signification du test, fixé très souvent
à 5 %. La probabilité complémentaire de  désigne le niveau de confiance du test.

138
Statistiques décisionnelles Partie 4. Tests statistiques

1- = p(AH0/H0)

La probabilité complémentaire de  désigne la puissance du test.

1- = p (RH/H1)

On peut présenter une table de décision comme suit :

Décisions prises
Accepter H0 Accepter H1
1- 
H0
Niveau de confiance erreur de première espèce
Hypothèse

vraie 1-
H1 erreur de deuxième
Puissance du test
espèce

La détermination des valeurs limites de la région d’acceptation de l’hypothèse nulle dépend de


l’hypothèse alternative H1, ainsi on distingue le test bilatéral et le test unilatéral.

a) Test bilatéral

Un test est dit bilatéral si la condition de rejet est indépendante du signe de l’écart observé
entre les caractéristiques comparées. Les hypothèses formulées du test bilatéral sont :

H 0 :  = t0 et H1 :   t0

 et t0 sont les caractéristiques comparées.


La règle de décision peut être représentée ainsi :

 < t0  = t0  > t0
Région de rejet de H0 Région d’acceptation de H0 Région de rejet de H0
A1 A2

A1 et A2 sont les valeurs critiques qui délimitent la région d’acceptation.

La région d’acceptation est donc l’intervalle [A1 ; A2].

p (A1  t0  A2) = 1 - 

p (t0 < A1) = p(t0 > A2) = /2

b) Test unilatéral

139
Statistiques décisionnelles Partie 4. Tests statistiques

Un test est dit unilatéral si l’hypothèse alternative désigne qu’une caractéristique est
strictement supérieure ou inférieure à l’autre. On parle respectivement de test unilatéral à droite
ou à gauche.

- Test unilatéral à droite

Les hypothèses formulées du test unilatéral à droite sont :

H 0 :  = t0 et H 1 :  > t0

La règle de décision peut être représentée ainsi :

  t0  > t0
Région d’acceptation de H0 Région de rejet de H0
A

A désigne la valeur critique qui délimite la région d’acceptation.

La région d’acceptation est donc l’intervalle - ; A].

p (t0  A) = 1 -  p(t0 > A) = 

- Test unilatéral à gauche

Les hypothèses formulées du test unilatéral à gauche sont :

H 0 :  = t0 et H 1 :  < t0

La règle de décision peut être représentée ainsi :

 < t0   t0
Région de rejet de H0 Région d’acceptation de H0
A

A désigne la valeur critique qui délimite la région d’acceptation.


La région d’acceptation est donc l’intervalle [A ; + [.

p(t0 < A) =  p(t0  A) = 1 - 

140
Statistiques décisionnelles Partie 4. Tests statistiques

RECAPITULATIF.

Pour récapituler, la démarche d’un test statistique se compose des étapes suivantes :

1. Formuler les hypothèses H0 et H1 ;


2. Fixer le seuil de signification  ;
3. Préciser la loi de probabilité de l’écart observé, appelé aussi variable de décision ;
4. Calculer la valeur numérique de la variable de décision ;
5. Déterminer les valeurs critiques qui délimitent la région d’acceptation ;
6. Prendre la décision et conclure.

141
Statistiques décisionnelles Partie 4. Tests statistiques

142
Statistiques décisionnelles 8. Tests sur les moyennes

CHAPITRE 8
TESTS SUR LES MOYENNES

8.1. TEST SUR UN ECHANTILLON.

8.1.1. Formulation de l’hypothèse nulle.

On attribue la valeur m0 pour la moyenne d’une population dont la vraie moyenne m est
inconnue, et on veut juger la validité de cette hypothèse.

Ce test a pour but de vérifier si la moyenne m d’une population est ou n’est pas égale à une
valeur donnée m0, appelée norme.

L’hypothèse nulle est donc : H0 m = m0

8.1.2. Variable de décision.

On extrait de la population un échantillon aléatoire et simple pour lequel la moyenne observée



x est, en général, différente de m0, il s’agit d’expliquer cette différence.
La variable de décision du test correspond à l’estimation de m qui est la moyenne de
l’échantillon :

VD = x

Pour une population normale d’écart type  connu, la variable de décision est elle-même

normale de moyenne m0 et d’écart type .
n

143
Statistiques décisionnelles 8. Tests sur les moyennes

La variable de décision centrée réduite est donc :


x - m0
VDR 
σ
n
VDR est alors une variable normale réduite N(0 ; 1).

Si la distribution de la population parent est inconnue, la quasi-variance sera utilisée comme


estimation de la variance de la population. Pour un effectif suffisamment élevé, la variable de
décision peut toujours être considérée comme une variable approximativement normale. C’est
généralement le cas lorsque l’effectif est supérieur à 30. Dans le cas contraire (n < 30), la
variable de décision réduite VDR peut toujours être considérée comme une variable de Student
à (n-1) degré de liberté.

8.1.3. Région d’acceptation.

La région d’acceptation dépend de l’hypothèse alternative H 1.

a) Test bilatéral :

H0 : m = m0 et H1 : m  m0

Les valeurs critiques qui délimitent la région d’acceptation sont, pour une distribution normale
réduite ou asymptotiquement normale réduite, Z1 et Z2 telles que :

p(Z1  VDR  Z2) = 1 - 

p(VDR < Z1) = /2  Z1 = Z


2

p(VDR > Z2) = /2  p(VDR  Z2) = 1-/2  Z2 = Z 


1
2

La région d’acceptation est donc l’intervalle [ Z  ; Z 


].
1
2 2

On accepte l’hypothèse nulle si la variable de décision réduite appartient à la région


d’acceptation. Sinon, c’est l’hypothèse alternative H1 qui est acceptée.

Remarque : Puisque la région d’acceptation est symétrique, on rejette l’hypothèse nulle si :

VDR  Z 
1
2

144
Statistiques décisionnelles 8. Tests sur les moyennes

b) Test unilatéral à droite :

H0 : m = m0 et H1 : m > m0

La valeur critique qui délimite la région d’acceptation est, pour une distribution normale
réduite ou asymptotiquement normale réduite, Z telle que :

p(VDR  Z) = 1 -   Z= Z1

La région d’acceptation est donc l’intervalle ]- ; Z1 ].

c) Test unilatéral à gauche :

H0 : m = m0 et H1 : m < m0

La valeur critique qui délimite la région d’acceptation est, pour une distribution normale
réduite ou asymptotiquement normale réduite, Z telle que :

p(VDR < Z) =   Z= Z

La région d’acceptation est donc l’intervalle [ Z  ; +[.

Remarque : Pour une distribution de probabilité inconnue, et lorsque l’effectif de

l’échantillon est inférieur à 30, la variable de décision réduite VDR peut toujours être

considérée comme une variable de Student à (n-1) degré de liberté. Les valeurs de Z sont

remplacées par les valeurs de T de la loi de Student avec (n-1) degré de liberté.

8.2. TEST SUR DEUX ECHANTILLONS.

8.2.1. Test de comparaison des moyennes de deux échantillons indépendants.

Ce test a pour but de comparer les moyennes de deux populations à l’aide de deux échantillons.

Soient deux échantillons aléatoires et non exhaustifs prélevés respectivement dans une
population 1 de moyenne inconnue m1 et dans une population 2 de moyenne inconnue m2.

145
Statistiques décisionnelles 8. Tests sur les moyennes

8.2.1.1. Formulation de l’hypothèse nulle.

Ce test a pour but de vérifier si la moyenne m1 d’une population est ou n’est pas égale à la
moyenne m2 d’une autre population.

L’hypothèse nulle est donc : H0 m1 = m2

8.2.1.2. Variable de décision.

La variable de décision du test correspond à la différence entre les moyennes observées des
deux échantillons :
 
VD = x 1 - x 2

Une distinction est faite entre le cas de deux populations de variances inégales et le cas de deux
populations de variances égales.

a) Cas de deux populations de variances inégales :


 
Pour des populations normales (variances connues), les variables x 1 - x 2 sont des variables
1 2
normales de moyennes respectivement m1 et m2 et d’écarts type respectivement et .
n1 n2
La variable de décision est elle-même normale de moyenne (m1-m2) et d’écart type
² 1 ² 2
 .
n1 n2

Sous l’hypothèse nulle, (m1-m2)=0. La variable de décision centrée réduite :


 
(x 1  x 2 )
VDR =
² 1 ² 2

n1 n2
VDR est donc une variable normale réduite N(0 ; 1).

Remarque : Si les distributions des populations parents sont inconnues, pour des effectifs
suffisamment élevés, la variable de décision peut toujours être considérée comme une variable
approximativement normale. C’est généralement le cas lorsque les effectifs sont supérieurs à
30. Dans le cas contraire, la variable de décision réduite VDR peut toujours être considérée
comme une variable de Student à (n1 + n2 - 2) degré de liberté.

146
Statistiques décisionnelles 8. Tests sur les moyennes

b) Cas de deux populations de variances égales :

Dans le cas où les populations sont de variances égales, une estimation de la variance
commune aux deux populations est donnée par :
 
^
² 
 (x i  x 1 )²   (x i  x 2 )²
n1  n 2  2
La variable de décision réduite devient :

   
(x 1  x 2 ) (x 1  x 2 )
VDR = =
^ ^ ^
1 1
² ² ² (  )
 n1 n 2
n1 n 2

 
(x 1  x 2 )
VDR =
 

 (x i  x 1 )²   (x
 x 2 )² 1 1
(  )
i

n1  n 2  2 n1 n 2

Remarque : Si les distributions des populations parents sont inconnues, pour des effectifs
suffisamment élevés, la variable de décision peut toujours être considérée comme une variable
approximativement normale. C’est généralement le cas lorsque les effectifs sont supérieurs à
30. Dans le cas contraire, la variable de décision réduite VDR peut toujours être considérée
comme une variable de Student à (n1 + n2 - 2) degré de liberté.

8.2.1.3. Région d’acceptation.

La région d’acceptation dépend de l’hypothèse alternative H 1.

a) Test bilatéral :

H0 : m1 = m2 et H1 : m1  m2

Les valeurs critiques qui délimitent la région d’acceptation sont, pour des distributions
normales réduites ou asymptotiquement normales réduites, Z1 et Z2 telles que :

p(Z1  VDR  Z2) = 1 - 

p(VDR < Z1) = /2  Z1 = Z


2

147
Statistiques décisionnelles 8. Tests sur les moyennes

p(VDR > Z2) = /2  p(VDR  Z2) = 1-/2  Z2 = Z 


1
2

La région d’acceptation est donc l’intervalle [ Z  ; Z 


].
1
2 2

On accepte l’hypothèse nulle si la variable de décision réduite appartient à la région


l’acceptation. Sinon, c’est l’hypothèse alternative H1 qui est acceptée.

Remarque : Puisque la région d’acceptation est symétrique, on rejette l’hypothèse nulle


si :
VDR > Z 
1
2

b) Test unilatéral à droite :

H0 : m1 = m2 et H1 : m1 > m2

La valeur critique qui délimite la région d’acceptation est, pour des distributions normales
réduites ou asymptotiquement normales réduites, Z telle que :

p(VDR  Z) = 1 -   Z= Z1

La région d’acceptation est donc l’intervalle ]- ; Z1 ].

c) Test unilatéral à gauche :

H0 : m1 = m2 et H1 : m1 < m2

La valeur critique qui délimite la région d’acceptation est, pour des distributions normales
réduites ou asymptotiquement normales réduites, Z telle que :

p(VDR < Z) =   Z= Z

La région d’acceptation est donc l’intervalle [ Z  ; +[.

Remarque : Pour des distributions de probabilités inconnues, et lorsque les effectifs des

échantillons sont inférieurs à 30, la variable de décision réduite VDR peut toujours être

considérée comme une variable de Student. Les valeurs de Z sont remplacées par les

valeurs de T de la loi de Student avec (n1 + n2 - 2) degré de liberté.

148
Statistiques décisionnelles 8. Tests sur les moyennes

8.2.2. Test de comparaison des moyennes de deux échantillons appariées.

Ce test a pour but de comparer les moyennes de deux populations à l’aide de deux échantillons
associés par paires. C’est le cas où on soumet les mêmes individus, choisis dans une population
donnée, à deux types d’observations.

8.2.2.1. Formulation de l’hypothèse nulle.

Ce test a pour but de vérifier si la moyenne m1 d’une population sous une forme donnée est ou
n’est pas égale à la moyenne m2 de la même population sous une autre forme.

L’hypothèse nulle est donc : H0 m1 = m2

8.2.2.2. Variable de décision.

Soient deux séries de n observations chacune, x1, x2, …, xn, et y1, y2, …, yn . On travaille avec
la série des différences :
di = xi – yi

La variable de décision du test correspond à la moyenne des différences :



VD = d

Pour une population normale, la variable de décision est elle-même normale et la variable de
décision centrée réduite est donc :

d
VDR = ^
d
n
VDR est alors une variable normale réduite N(0 ; 1).

Remarque : Si la distribution de la population parent est inconnue, pour un effectif


suffisamment élevé, la variable de décision peut toujours être considérée comme une variable
approximativement normale. C’est généralement le cas lorsque l’effectif est supérieur à 30.
Dans le cas contraire (n < 30), la variable de décision réduite VDR peut toujours être
considérée comme une variable de Student à (n-1) degré de liberté.

8.2.2.3. Région d’acceptation.

La région d’acceptation est identique à celle du test précédent. Elle dépend toujours de
l’hypothèse alternative H1.

a) Test bilatéral :

149
Statistiques décisionnelles 8. Tests sur les moyennes

H0 : m1 = m2 et H1 : m1  m2

La région d’acceptation est l’intervalle [ Z  ; Z 


].
1
2 2

On accepte l’hypothèse nulle si la variable de décision réduite appartient à la région


d’acceptation. Sinon, c’est l’hypothèse alternative qui est acceptée.

Remarque : Puisque la région d’acceptation est symétrique, on rejette l’hypothèse nulle

si :
VDR > Z 
1
2

b) Test unilatéral à droite :

H0 : m1 = m2 et H1 : m1 > m2

La région d’acceptation est l’intervalle ]- ; Z1 ].

c) Test unilatéral à gauche :

H0 : m1 = m2 et H1 : m1 < m2

La région d’acceptation est l’intervalle [ Z  ; +[.

Remarque : Pour des distributions de probabilités inconnues, et lorsque les effectifs des

échantillons sont inférieurs à 30, la variable de décision réduite VDR peut toujours être

considérée comme une variable de Student à (n-1) degré de liberté. Les valeurs de Z sont

remplacées par les valeurs de T de la loi de Student avec (n-1) degré de liberté.

8.3. TEST SUR PLUSIEURS ECHANTILLONS : ANALYSE DE LA VARIANCE (ANOVA).

C’est une méthode statistique pour tester l'égalité de plusieurs moyennes. La méthode repose
sur les postulats suivants : les échantillons aléatoires proviennent de populations distribuées
normalement et ayant la même variance.

150
Statistiques décisionnelles 8. Tests sur les moyennes

Formulation de l’hypothèse nulle :


L'analyse de variance, sert à effectuer le test de l'égalité de plusieurs moyennes. On écrit
comme suit les hypothèses :

Ho: m1 = m2 = ... = mJ
H1: au moins une des moyennes est différente des autres.

En effet, l'analyse de variance est une technique d'analyse statistique qui permet de tester
globalement l'égalité des moyennes de J populations normales dans lesquelles on suppose que
les variances sont égales (12   22     2j   2 ) même si elles demeurent inconnues.

L'analyse de variance constitue une extension à J populations normalement distribuées, J  2,


du test de comparaison des moyennes de deux échantillons indépendants.

Modèles d'analyse de variance :


Les modèles varient selon le nombre de facteurs contrôlés. On aura ainsi le modèle à un
facteur, le modèle à 2 facteurs sans interaction et le modèle à 2 facteurs avec interaction.

8.3.1. ANOVA à un facteur.

On essaie de découvrir si un seul facteur peut expliquer ou non les variations constatées dans
les observations Yij. Au départ, on dispose d'échantillons prélevés aléatoirement dans des
populations normales dans lesquelles les variances sont supposées égales
(12   22   32     2j ) .

Le tableau suivant illustre la notation indicée: par exemple, Y21 représente la deuxième
observation prélevée de la première population. Dans chaque échantillon, on a aussi calculé le
total des observations, la moyenne et la variance.

Matrice des données

POPULATION
Observation
P1: N(m1,1) P2 : N(m2,2) … Pj : N(mj,j)
1 Y11 Y12 Y1j

2 Y21 Y22 … Y2j

 … … …

n yn1 yn2 ynj

151
Statistiques décisionnelles 8. Tests sur les moyennes

Total T1 T2 … Tj

  
Moyenne Y1 Y2 … Yj
Variance S²1 S² 2 … S² j

N  n 1  n 2  ...  n J Grand total = T


Moyenne générale = Y

8.3.1.1. Equation fondamentale de l'analyse de la variance.

L'analyse de la variance développée par Fisher repose sur la comparaison de deux estimateurs
de la variance commune aux J populations normales.

L'équation fondamentale de l'analyse de la variance décompose la variabilité totale (STC) entre


les observations en une part due aux différences entre les modalités du facteur (SCF) et une
part de variabilité résiduelle (SCE).

STC = SCF + SCE

Les trois sommes de carrés présentées plus haut sont calculées par les formules suivantes :

nj
J
T2
STC   Yij2 
ji i 1 N
J Tj2 T2
SCF   
j i nj N
SCE = STC - SCF

8.3.1.2. Tableau d'analyse de variance à un seul facteur.

Il est d'usage de présenter les résultats d'une analyse de variance à un seul facteur dans un
tableau comme celui-ci :

Analyse de variance à un facteur

Source de Somme des Degrés de Moyenne des


F observé
variation carrés liberté carrés
MCF
Facteur SCF J-1 MCF
MCE
152
Statistiques décisionnelles 8. Tests sur les moyennes

Erreur SCE N-J MCE


Totale SCT N-1

MCF
Quand Ho est vraie, le rapport obéit à une loi de Fisher avec (J-1) et (N-J) degrés de
MCE
liberté. On devra rejeter l'hypothèse nulle de l'égalité des moyennes Ho : µ1 = µ2 = ... = µJ
MCF
au seuil  si et seulement si la valeur de est plus grande que la valeur critique de la
MCE
table de Fisher au seuil  et avec (J-1) et (N-J) degrés de liberté.

8.3.2. ANOVA à deux facteurs sans répétition.

Le but est de découvrir si deux facteurs A et B peuvent expliquer ou non les variations
constatées dans les observations aléatoires Yij.

Au départ, l'analyste dispose d'échantillons prélevés aléatoirement de populations normales


dans lesquelles les variances sont présumées égales. Le tableau ci-dessous illustre la notation
indicée. Ainsi, Y32 représente la valeur de l'observation prélevée quand le premier facteur est à
son troisième niveau (ou modalité) et que le second facteur est à son deuxième niveau; par
ailleurs, T2  et Y 2  désignent le total et la moyenne des observations quand le premier
facteur est maintenu à son deuxième niveau (l'indice sur lequel la sommation a été effectuée est
remplacé par un  ).

Toutes les combinaisons possibles des modalités des facteurs donnent lieu à IJ «traitements».
A remarquer qu'il n'y a qu'une seule observation pour chaque traitement, c'est-à-dire une seule
valeur numérique dans chacune des cellules du tableau.

Matrice des données

Facteur B 
1 2 J Total Moyenne
Facteur A
1 Y11 Y12  Y1J T1 Y1
2 Y21 Y22  Y2J T2 Y2
3  Y32 
...... etc... 
I YI1 YI2  YIJ TI YI
Total T1 T2  TJ T
Moyenne Y1 Y2  Y J Y

Tableau d'analyse de variance à deux facteurs sans répétition :

153
Statistiques décisionnelles 8. Tests sur les moyennes

Les résultats d'une analyse de variance à deux facteurs sans répétition se présentent dans un
tableau comme celui-ci :

Analyse de variance à deux facteurs sans répétition

Source de Somme des Degrés de Moyenne des


F observé
variation carrés liberté carrés
Facteur A SCFA I-1 MCFA MCFA / MCE
Facteur B SCFB J-1 MCFB MCFB / MCE
Erreur SCE (I-1)(J-1) MCE
Total STC IJ-1

Les diverses sommes des carrés et moyennes des carrés sont calculées à l'aide des formules
suivantes :
I J
T2
STC  
i 1 j1
Yij2 
IJ
I
Ti2 T 2
SCFA   
i 1 J IJ
J
T2j T 2
SCFB   
j1 I IJ
SCE  STC  SCFA  SCFB

En se basant sur les résultats présentés au tableau, on déduit que les tests sur le facteur A et sur
le facteur B s'effectuent exactement comme dans le cas de l’analyse de variance à un facteur, à
MCFA MCFB
savoir au moyen des statistiques et .
MCE MCE

8.3.3. ANOVA à deux facteurs avec répétition.

Bien des recherches ont pour but d'étudier l'impact de plusieurs facteurs sur le résultat d'une
expérience. Dans ce qui suit on tentera de découvrir si deux facteurs A et B peuvent expliquer
ou non les variations constatées dans les observations Yijk.

On dispose de IJ échantillons de taille K (K>1) prélevés aléatoirement de populations normales


dans lesquelles les variances sont présumées égales. Le tableau suivant illustre la notation
indicée: par exemple, Y324 renvoie à la quatrième observation prélevée quand le facteur A
est à son troisième niveau (ou modalité) et que le facteur B est à son deuxième niveau. Ainsi,
T2 représente le total des observations quand le premier facteur est maintenu à son deuxième
niveau, alors que Y 3 désigne la moyenne des observations quand le second facteur est
maintenu à sa troisième modalité.

154
Statistiques décisionnelles 8. Tests sur les moyennes

Toutes les combinaisons possibles des modalités des facteurs donnent lieu à IJ «traitements».
A remarquer enfin qu'il y a ici le même nombre d'observations dans chacune des IJ cellules,
soit K, et cette valeur est supérieure à l'unité.

Matrice des données

Facteur B
1 2 J Total Moyenne
Facteur A
Y111 Y121 ... Y1J1
Y112 Y122 Y1J2
1 ... ... ... T1 Y1
Y11K Y12K Y1JK
Y211 Y221 Y2J1
Y212 Y222 Y2J2
2 ... ... ... T2 Y2
Y21K Y22K Y2JK
... ... ... ... ... ... ...
YI11 YI21 YIJ1
YI12 YI22 YIJ2
I ... ... ... TI YI
YI1K YI2K YIJK
Total T1 T2 ... TJ  T
Moyenne Y1 Y2 Y J Y

Tableau d'analyse de variance à deux facteurs avec répétitions :


Les résultats d'une analyse de la variance à deux facteurs avec répétitions sont habituellement
présentés dans un tableau comme celui-ci :

Analyse de variance à deux facteurs avec répétitions

Source de Somme des Degrés de Moyenne des F observé


variation carrés liberté carrés
Facteur A SCFA I-1 MCFA MCFA / MCE
Facteur B SCFB J-1 MCFB MCFB / MCE
Interaction SCI (I-1)(J-1) MCI MCI / MCE
Erreur SCE IJ(K-1) MCE
Total STC IJK-1

155
Statistiques décisionnelles 8. Tests sur les moyennes

Les diverses sommes des carrés et moyennes des carrés sont calculées à l'aide des formules
suivantes :

I J K
T2
STC  
i 1 j1 k 1
Yijk2 
IJK

I
Ti2 T2
SCFA   
i 1 JK IJK

J
T2j T2
SCFB   IK
j1

IJK

I J
Tij2 I
Ti2 J
T2j T2
SCI   K 
i 1 j1

i 1 JK
  IK
j1

IJK

SCE  STC  SCFA  SCFB  SCI

En se basant sur les résultats présentés au tableau, on déduit que les tests sur la présence
d’interaction, sur le facteur A et sur le facteur B s'effectuent exactement comme dans le cas de
l’analyse de variance à un facteur, à savoir au moyen des statistiques :
MCI MCFA MCFB
; et
MCE MCE MCE

L'analyse de variance doit vérifier en premier lieu si l'interaction entre les deux facteurs est
importante; si la réponse est négative, on pourra considérer ensuite les deux autres tests
disponibles dans le tableau de l'analyse de la variance.

La présence d’interaction entre les deux facteurs signifie que les résultats sous les niveaux d'un
facteur se comportent différemment selon les différents niveaux de l'autre facteur.

8.4. ENONCES DES EXERCICES D’APPLICATION.

8.4.1. Le diamètre des billes fabriquées par une machine est en moyenne de 6 mm. Pour
contrôler si la machine est bien réglée, on a prélevé un échantillon de 50 billes et on a mesuré
leur diamètre. On a trouvé :

x i  350  x ²  2462
i

a) La machine est-elle bien réglée au seuil de signification de 95 % ?


b) La machine est-elle bien réglée au seuil de signification de 99 % ?

156
Statistiques décisionnelles 8. Tests sur les moyennes

8.4.2. Pour savoir s’il existe une différence d’assiduité entre les filles et les garçons, on a choisi
de manière aléatoire et simple un premier échantillon de 10 filles et de façon indépendante, un
deuxième échantillon de 10 garçons. En fonction des résultats ci-dessous relatifs aux notes
d’assiduités (note sur 100), et en supposant que les variances des deux populations sont égales,
peut-on conclure, au seuil de 5 %, à l’existence d’une différence significative entre les deux
sexes ?

Assiduité des filles 72 67 52 54 46 58 59 54 58 63


Assiduité des garçons 66 59 54 57 63 55 61 55 66 75

8.4.3. Un chef de produit souhaite tester l’effet d’une formation sur les techniques de ventes sur
les ventes d’un produit. Un échantillon aléatoire de 10 commerciaux ayant reçu la formation
est constitué. Les ventes réalisées par les dix commerciaux avant et après formation sont
indiquées dans le tableau ci-dessous.
a) Peut-on parler d’un effet positif de la formation au seuil de 5% ?
b) Peut-on parler d’un effet positif de la formation au seuil de 1 % ?

N° commercial Après formation Avant formation


1 4580 3970
2 5190 4880
3 3940 4090
4 6320 5870
5 7680 6930
6 3480 4000
7 5720 5080
8 7040 6950
9 5270 4960
10 5840 5130

8.4.4. Un investisseur étranger songe à implanter une nouvelle usine au Maroc. Il hésite entre
trois villes : Settat, Casablanca et Eljadida. Selon son point de vue, le critère le plus important à
prendre en considération pour déterminer l'emplacement de cette nouvelle usine est l'assiduité
au travail des ouvriers. L’investisseur a visité au hasard dans chacune des villes considérées
cinq grandes usines de fabrication et il a obtenu des administrateurs le taux d'absentéisme par
3500 journées de travail. Les résultats sont reproduits dans le tableau ci-dessous.
Données numériques
Ville Echantillon
Settat 141; 127 ; 111; 124 ; 144
Casablanca 157; 131; 105; 132 ; 163
Eljadida 183; 161; 145 ; 157 ; 189

Aux seuils de 5 %, puis de 1 % peut-on conclure que le taux d'absentéisme au travail est le
même en moyenne dans ces 3 villes?

157
Statistiques décisionnelles 8. Tests sur les moyennes

8.4.5. On a mis au point quatre techniques différentes, T1, T2, T3, et T4 pour la promotion
d’un produit. On a alors décidé de toutes les essayer et d'utiliser les opérateurs qualifiés pour
comparer les dites techniques. On s'attend à ce qu'il y ait des différences importantes entre
opérateurs et peut-être aussi entre techniques. 5 opérateurs ont été assignés aux 4 techniques.
Voici les nombres d’unités vendues enregistrées lors de ces tests.

Données numériques

Opérateurs \ Techniques T1 T2 T3 T4
O1 42 45 55 50
O2 39 41 52 46
O3 38 39 48 42
O4 43 45 54 48
O5 44 45 56 49

Y a-t-il des différences significatives au niveau 5% entre les cinq opérateurs d'une part et entre
les quatre techniques d'autre part quant au nombre moyen d’unités vendues ?

8.4.6. On a demandé à 24 ouvriers de prédire le nombre d’heures nécessaires pour


l’assemblage d’une machine. Les ouvriers ont été classifiés selon leur type d’expérience et leur
nombre d’années d’expérience. Quand le projet fut terminé, tous sans exception avaient sous-
estimé le temps effectivement requis pour accomplir cette tâche. Dans le tableau qui suit, on a
ces erreurs de prévision (en heures).

Données numériques

NOMBRE D’ANNEES D’EXPERIENCE


TYPE D’EXPERIENCE Moins de Entre 2 et Plus de
Total
2 ans 5 ans 5 ans
Dans une grande entreprise 25 12 10 167
22 10 9
18 14 11
20 8 8
Dans une petite entreprise 30 20 14 341
38 28 15
45 29 26
44 28 24
Total 242 149 117 508

Que ce soit sous l'angle «Type d'expérience» ou «Nombre d'années d'expérience», existe-t-il
globalement des différences significatives entre les groupes (seuil 5%)?

158
Statistiques décisionnelles 8. Tests sur les moyennes

8.4.7. Un fabricant de tubes à essais pour laboratoire fonde sa publicité sur le fait que la durée
de vie de ses tubes correspond à 1500 heures de chauffage à l’aide d'un bec Bunzen. Un
laboratoire de contrôle de publicité constate que sur 100 tubes à essais, la durée moyenne de
vie est de 1485 heures de chauffage avec un écart-type de 110 heures. Aux risques 5%, puis de
10 %, la durée de vie des tubes à essais est-elle différente de 1500 heures de chauffage ?

8.4.8. Les moteurs des appareils électroménagers d'une marque M ont une durée de vie
moyenne de 3000 heures avec un écart-type de 150 heures. À la suite d'une modification dans
la fabrication des moteurs, le fabriquant affirme que les nouveaux moteurs ont une durée de vie
supérieure à celle des anciens. On a testé un échantillon de 50 nouveaux moteurs et on a trouvé
une durée de vie moyenne de 3250 heures avec un écart-type égal à 150 heures. Les nouveaux
moteurs apportent-ils une amélioration dans la durée de vie des appareils électroménagers au
risque de 1% ?

8.4.9. Dans une grande ville d'un pays donné, une enquête a été réalisée sur les dépenses
mensuelles pour les loisirs. On a observé les résultats suivants :
• Sur 280 familles habitant le centre-ville, les dépenses mensuelles pour les loisirs sont en
moyenne de 640 dh avec un écart-type de 120 dh.
• Sur 300 familles habitant la banlieue, les dépenses mensuelles pour les loisirs sont en
moyenne de 610 dh avec un écart-type de 100 dh. En supposant que les variances des deux
populations sont inégales, peut-on dire, aux risques de 5 % puis de 1 pour 1000 que la part du
budget familial consacré aux loisirs est différente suivant que la famille habite le centre-ville
ou la banlieue ?

8.4.10. On prélève dans la production d'une machine, un échantillon de 100 tiges métalliques.
La moyenne des longueurs des tiges de cet échantillon est 100,04 cm avec un écart-type de
0,16 cm. La machine est réglée en principe pour obtenir des tiges de 100 cm.
1°) Au risque de 5 %, peut-on dire que la machine est bien réglée ?
2°) Reprendre la question précédente avec un risque de 1 %.

8.4.11. Un spécialiste en marketing a fait modifier la méthode traditionnellement utilisée pour


effectuer la promotion d'un certain produit. A titre expérimental, il a observé dans 10 points de
vente le nombre d’unités vendues en une semaine en utilisant la méthode existante. La semaine
d’après, les mêmes points de vente ont utilisé la nouvelle méthode de promotion, on a observé
le nombre d’unités vendues en cette semaine. Les données recueillies sont comme suit :

Ancienne méthode: 48, 46, 47, 43, 46, 45, 49, 46, 47, 44.
Nouvelle méthode: 56, 49, 53, 51, 48, 52, 55, 53, 49, 50.

La nouvelle méthode de promotion a-t-elle un effet positif sur les ventes ( = 5%)?

159
Statistiques décisionnelles 8. Tests sur les moyennes

8.4.12. Dans le but de contrôler le poids net des sachets d'un produit alimentaire, on a prélevé
deux échantillons respectivement de 10 et 12 sachets, on a obtenu les résultats suivant (en
grammes) :

É1 190 200 202 195 194 208 205 196 198 206
É2 210 204 203 189 194 195 206 205 200 201 198 197

En supposant que les variances des deux populations sont égales, ces deux résultats sont-ils
significativement différents en ce qui concerne le poids moyen au seuil de 5 %.

8.4.13. 24 têtes d’ovin ont reçu 6 alimentations différentes pour constituer 4 répétitions et on a
enregistré les gains moyens quotidiens en poids suivants :

Alim. 1 Alim. 2 Alim. 3 Alim. 4 Alim. 5 Alim. 6


590 460 600 640 690 690
760 430 460 660 600 650
700 540 610 720 550 680
640 470 510 580 480 740

Aux seuils de 5 %, puis de 1 pour 1000, existe-t-il une différence significative quant à l’effet
des différentes alimentations sur le gain moyen quotidien en poids des ovins ?

8.4.14. L'expérience suivante avait pour but d'analyser l'impact des 2 facteurs Sexe et Âge sur
la consommation d'un certain produit de luxe. Dans chacun des 6 groupes, le produit a été
offert à 100 personnes choisies au hasard. La consommation, en nombre d’unités achetées, est
donnée dans le tableau qui suit :

Catégorie d'âge
Sexe
Moins de 20 ans Entre 20 et 45 ans Plus de 45 ans
Féminin 27 39 54
Masculin 32 45 62
Total 59 84 116

On suppose que les nombres d’unités achetées obéissent à des lois normales, que les variances
sont égales dans ces six populations.

Quant au nombre d’unités achetées en moyenne, peut-on affirmer au niveau 5% qu'il y a une
différence significative entre hommes et femmes d'une part, et entre les trois groupes d'âge,
d'autre part?

160
Statistiques décisionnelles 8. Tests sur les moyennes

8.4.15. Une machine fabrique des pièces identiques. La moyenne des poids de 50 pièces
prélevées dans la production est 68,2 grammes avec un écart-type de 2,5 grammes. On effectue
un réglage sur la machine. On prélève un nouvel échantillon de 50 pièces. On trouve un poids
moyen de 67, 5 grammes avec un écart-type de 2, 8 grammes. En supposant que les variances
des deux populations sont égales, peut-on affirmer, au risque 5 % que le réglage a modifié le
poids des pièces ?

8.4.16. Les ventes quotidiennes d'ordinateurs réalisées par une société informatique durant les
3 premiers mois de 2003, du lundi au jeudi sont comme suit :

Janvier 2003 Février 2003 Mars 2003


Lundi 13 9 7
9 5 15
8 8 14
7 12 10
Mardi 8 11 17
6 4 14
6 9 12
7 5 13
Mercredi 6 10 6
10 2 14
7 8 12
4 3 13
Jeudi 1 6 10
10 10 8
7 12 4
5 9 9

En supposant les conditions de l’analyse de la variance satisfaites, peut-on dire qu’il y a une
différence significative à un seuil de 5% entre les moyennes des ventes réalisées chaque mois
et entre les moyennes des ventes réalisées chaque jour ?

8.5. SOLUTIONS DES EXERCICES D’APPLICATION.

8.5.1. Solution de l’exercice 8.4.1.

Pour répondre à cette question, on doit vérifier si le diamètre moyen des 50 billes observées,
est conforme à la norme de 6 mm. Il s’agit donc de faire un test de conformité de la moyenne.

Hypothèse nulle :

Il s’agit d’un test bilatéral H0 m=6 H1 : m  6

161
Statistiques décisionnelles 8. Tests sur les moyennes

Variable de décision :

La variable de décision du test correspond à l’estimation de m qui est la moyenne de


l’échantillon :

VD =
x i 350
 7

50 50

La variable de décision peut être considérée comme une variable approximativement normale.

La variance de la population peut être estimée par la quasi-variance.



^
² 
 (x i  x )²
=
n²
=
50 2462
(  7²) = 0,24
n 1 n 1 49 50
^
  0,24 = 0,49


x m0 76
VDR = ^
= = 14,43
 0.49

n 50
Région d’acceptation :
La région d’acceptation est l’intervalle [ Z  ; Z  ].
1
2 2
a) Au seuil de signification de 95 % ( = 0,05), les valeurs critiques qui délimitent la région
d’acceptation sont :
Z  = Z0,025 = -1,96
2

Z  = Z0,975 = 1,96
1
2
La région d’acceptation est donc l’intervalle [-1,96 ; 1,96].

On rejette l’hypothèse nulle car la variable de décision réduite n’appartient pas à la région
d’acceptation. La machine n’est donc pas bien réglée au seuil de signification de 95 %

b) Au seuil de signification de 99 % ( = 0,01), la région d’acceptation est :

[Z0,005 ; Z0,995] = [- 2,58 ; 2,58]

On regrette l’hypothèse nulle. La machine n’est donc pas bien réglée au seuil de signification
de 99 %.

162
Statistiques décisionnelles 8. Tests sur les moyennes

8.5.2. Solution de l’exercice 8.4.2.

Pour répondre à cette question, on doit réaliser un test de comparaison de deux moyennes.

Hypothèse nulle :

Ce test a pour but de vérifier si l’assiduité moyenne m1 des filles est ou n’est pas égale à
l’assiduité moyenne m2 des garçons.

Il s’agit d’un test bilatéral :

H0 : m1 = m2 et H1 : m1  m2

Variable de décision :

Les deux échantillons sont indépendants, les populations sont de variances égales, la variable
de décision centrée réduite est donc:

 
(x 1  x 2 )
VDR =
 

 (x i
 x 1 )²   (x
 x 2 )² 1
i 1
(  )
n1  n 2  2 n1 n 2

Reprenons les données et calculons les caractéristiques pour chaque échantillon.

Assiduité des filles 72 67 52 54 46 58 59 54 58 63


Assiduité des garçons 66 59 54 57 63 55 61 55 66 75

 
x 1 = 58,3 x 2 = 61,1
 

 (x i
 x 1 )² = 514,1  (x i
 x 2 )² = 390,9

58,3  61,1
VDR = = - 0,88
514,1  390,9 1 1
(  )
10  10  2 10 10

Région d’acceptation :
VDR = 0,88

163
Statistiques décisionnelles 8. Tests sur les moyennes

Comme l’échantillon ne comporte que les personnes (< 30), on peut valablement dire que la loi
de probabilité suivie par la VDR est une loi de STUDENT de 18 (n1 + n2 – 2) degrés de liberté.

Pour  = 0,05, la valeur de t  avec 18 degrés de liberté est :


1
2
t0,975 = 2,101

VDR < t  , on accepte donc l’hypothèse nulle. C’est-à-dire, il n’y a pas de différence
1
2
significative entre l’assiduité des deux sexes.

8.5.3. Solution de l’exercice 8.4.3.

Pour répondre à cette question, on doit réaliser un test de comparaison de deux moyennes.

Hypothèse nulle :

Ce test a pour but de vérifier si, en moyenne, les ventes enregistrées après formation m1 sont ou
ne sont pas égales aux ventes enregistrées avant formation m2.

Il s’agit d’un test unilatéral à droite :

H0 : m1 = m2 et H1 : m1 > m2

Variable de décision :

Les deux échantillons sont associés par paires, la variable de décision centrée réduite est donc:

d
VDR = ^
d
n
Reprenons les données et calculons les différences di

N° commercial Après formation Avant formation Différence (di)


1 4580 3970 610
2 5190 4880 310
3 3940 4090 -150
4 6320 5870 450
5 7680 6930 750
6 3480 4000 -520
7 5720 5080 640
164
Statistiques décisionnelles 8. Tests sur les moyennes

8 7040 6950 90
9 5270 4960 310
10 5840 5130 710


d 320
VDR = ^
= = 2,462
d 410,96

n 10

Région d’acceptation :
VDR = 2,462

Comme l’échantillon ne comporte que les personnes (< 30), on peut valablement dire que la loi
de probabilité suivie par la VDR est une loi de STUDENT de 9 (n-1) degrés de liberté.

a) Pour  = 0,05, la valeur de t1- avec 9 degrés de liberté est :


t0,95 = 1,833
VDR > t1-, on rejette donc l’hypothèse nulle. C’est à dire, on peut conclure que la formation
a eu un effet positif sur les ventes.

b) Pour  = 0,01, la valeur de T1 -  avec 9 degrés de liberté est :


t0,99 = 2,82
VDR  t 1   , on accepte donc l’hypothèse nulle, c’est-à-dire, on peut conclure que la
formation n’a pas eu un effet positif sur les ventes.

8.5.4. Solution de l’exercice 8.4.4.

Pour répondre à cette question, il faut comparer le taux d’absentéisme moyen dans les trois
villes. Il s’agit de tester l'égalité de plusieurs moyennes, c’est une analyse de variance à un
facteur (ANOVA1).

Formulation de l’hypothèse nulle :


Il s’agit de tester globalement l’hypothèse de l'égalité des moyennes des 3 populations
supposées normales dans lesquelles on suppose que les variances sont égales 12   22   32  .
Ho: m1 = m2 = m3
H1: au moins une des moyennes est différente des autres.

Tableau d'analyse de variance :


Reprenons les données et calculons les trois sommes des carrés:

165
Statistiques décisionnelles 8. Tests sur les moyennes

Ville Echantillon Total


Settat 141; 127 ; 111; 124 ; 144 T1 = 647
Casablanca 157; 131; 105; 132 ; 163 T2 = 688
Eljadida 183; 161; 145 ; 157 ; 189 T3 = 835
J=3 N = 15 T = 2170

J nj
T² 2170²
STC   Y
ji i 1
2
ij 
N
 141²  127²  ...  189² 
15
 8149,33

J Tj2 T² 647² 688² 835² 2170²


SCF  n
j i

N

5

5

5

15
 3908,93
j
SCE = 8149,33 - 3908,93 = 4240,40

Ce qui permet la construction du tableau de l'analyse de variance.

Tableau d’analyse de variance à un facteur

Source de Degrés de
Somme des carrés Moyenne des carrés F obs
variation liberté
Ville 3908,93 2 1954,467 5,53
Erreur 4240,40 12 353,367
Total 8149,33 14

A un seuil  = 5%, on ne peut pas conclure que l'assiduité des travailleursà leur travail soit
la même en moyenne dans ces 3 villes puisque la valeur observée 5,53 de F est supérieure à la
valeur critique F 0,95 à 2 et 12 dl = 3,89 obtenue de la distribution de Fisher à 2 et 12
degrés de liberté.

A un seuil de 1 % ( = 0,01), on peut conclure que l’assiduité des travailleurs à leur travail est
la même en moyenne dans ces 3 villes puisque la valeur observée 5,53 de F est inférieure à la
valeur critique F0,99 à 2 et 12 dl = 6,93.

8.5.5. Solution de l’exercice 8.4.5.

Pour répondre à cette question, il faut comparer les nombres d’unités vendues en moyenne par
les 5 opérateurs assignés aux 4 techniques, soit 20 combinaisons. Il s’agit de tester l'égalité de
plusieurs moyennes, c’est une analyse de variance à deux facteurs (ANOVA2) sans interaction.

Formulation de l’hypothèse nulle :


Il s’agit de tester globalement l'égalité des moyennes des 20 populations supposées normales
dans lesquelles on suppose que les variances sont égales.
Ho: m1 = m2 = m3 … = m20

166
Statistiques décisionnelles 8. Tests sur les moyennes

H1: au moins une des moyennes est différente des autres.

Tableau d'analyse de variance :


Reprenons les données et calculons les quatre sommes des carrés :

Opérateurs \ Techniques T1 T2 T3 T4 Total


O1 42 45 55 50 192
O2 39 41 52 46 178
O3 38 39 48 42 167
O4 43 45 54 48 190
O5 44 45 56 49 194
Total 206 215 265 235 921

I J

 Y
T² 921²
STC  2
ij   42²  45²  ...  49²   548,95
i 1 j1 IJ 20

I
Ti2 192²  ...  194²

T² 921²
SCFA      131,20
i 1 J IJ 4 20

J
T2j 206²  ...  235²

T² 921²
SCFB      410,15
j1 I IJ 5 20

SCE = 548,95 - 131,20 - 410,15 = 7,60

Ce qui permet la construction du tableau de l'analyse de variance ci-dessous.

Analyse de variance à deux facteurs sans répétition

Source de Somme des Moyenne des


D.L. F
variation carrés carrés
Opérateurs 131,2 4 32,8 51,79
Techniques 410,15 3 136,72 215,87
Erreur 7,6 12 0,63
Total 548,95 19

En examinant les valeurs F observées 51,79 et 215,87 qui sont toutes deux supérieures aux
valeurs théoriques F 0,95 à 4 et 12 dl = 3,26 et F 0,95 à 3 et 12 dl = 3,49 on peut rejeter les
deux hypothèses nulles et conclure qu'il y a d'une part, des différences significatives entre les
cinq opérateurs quant au nombre d’unités vendues et d'autre part, des différences significatives
entre les quatre techniques de vente.

167
Statistiques décisionnelles 8. Tests sur les moyennes

8.5.6. Solution de l’exercice 8.4.6.

Pour répondre à cette question, il faut comparer les erreurs de prévision (en heures) moyennes
pour les 6 groupes d’ouvriers. Il s’agit de tester l'égalité de plusieurs moyennes, c’est une
analyse de variance à deux facteurs (ANOVA2) avec interaction.

Formulation de l’hypothèse nulle :


Il s’agit de tester globalement l'égalité des moyennes des 6 populations supposées normales
dans lesquelles on suppose que les variances sont égales.
Ho: m1 = m2 = m3 … = m6
H1: au moins une des moyennes est différente des autres.

Tableau d'analyse de variance :


Reprenons les données et calculons les cinq sommes des carrés :
NOMBRE D’ANNEES D’EXPERIENCE
TYPE D’EXPERIENCE Moins de Entre 2 et Plus de
Total
2 ans 5 ans 5 ans
Dans une grande entreprise 25 12 10 167
22 10 9
18 14 11
20 8 8
Dans une petite entreprise 30 20 14 341
38 28 15
45 29 26
44 28 24
Total 242 149 117 508

I J K T² 508²
STC     Y 2   25²  22²  ...  24²   2737,33
i1 j1 k 1 ijk IJK 24

I
Ti2 167²  341²

T² 508²
SCFA      1261,50
i 1 JK IJK 12 24

2
J T j T² 242² 149² 117² 508²
SCF         1054,08
B j1 IK IJK 8 8 8 24

I J Tj I
T2 J T2j T2
XI  
 1 j 1 K
 
 1 JK
  IK
j 1

IJK

168
Statistiques décisionnelles 8. Tests sur les moyennes

85 2    79 2 167 2  3412 242 2  149 2  117 2


SCI   
4 12 8
2
508
  61,75
24

SCE  2737,33  1261,50  1054,08  61,75  360

Analyse de variance à deux facteurs avec répétitions

Somme des Moyenne des


Source de variation D.L. F
carrés carrés
Type d'expérience 1261,5 1 1261,5 63,075
Nombre d'années 1054,08 2 527,04 26,35
d'expérience
Interaction 61,75 2 30,875 1,54
Erreur 360 18 20
Total 2737,33 23

En examinant en tout premier lieu le test sur l’interaction, on peut vérifier que la valeur FI =
1,54 est inférieure à la valeur critique de la table, soit F 0,95 à 2 et 18 dl = 3,55. On doit
conclure qu'il n'y a pas d'interaction significative entre les deux facteurs Type d'expérience et
Nombre d'années d'expérience.

Cette constatation justifie la poursuite de l'analyse de la variance. Comme les valeurs FA=
63,075 et FB =26,35 sont supérieures respectivement aux valeurs critiques de la table F 0,95 à 1
et 18 dl = 4,41 et F 0,95 à 2 et 18 dl = 3,55, on doit conclure qu'aussi bien sous l'angle «Type
d'expérience» que «Nombre d'années d'expérience», il existe globalement des différences
significatives entre les groupes.

8.5.7. Solution de l’exercice 8.4.7.

Pour répondre à cette question, on doit vérifier si la durée de vie moyenne des 100 tubes à
essais observés, est conforme à la norme de 1500 heures de chauffage. Il s’agit donc de faire un
test de conformité de la moyenne.

Hypothèse nulle :

Il s’agit d’un test unilatéral à gauche :

H0 m = 1500 H1 : m < 1 500

169
Statistiques décisionnelles 8. Tests sur les moyennes

Variable de décision :

La variable de décision du test correspond à l’estimation de m qui est la moyenne de


l’échantillon :

VD = 1485

La variable de décision peut être considérée comme une variable approximativement normale.

La variance de la population peut être estimée par la quasi-variance.


^
² 
 (x i  x )²
=
n² 100
= . 110² = 12222,22
n 1 n  1 99

^
  12222,22 = 110,55


x m 0 1485  1500
VDR = ^
= = - 1,36
 110,55

n 100

Région d’acceptation :
La région d’acceptation est l’intervalle [ Z  ; +[.

Au seuil de signification de 95 % ( = 0,05), la valeur critique qui délimite la région


d’acceptation est :

Z0,05 = -1,64

La région d’acceptation est donc l’intervalle [-1,64 ; +[.

On accepte l’hypothèse nulle car la variable de décision réduite appartient à la région


d’acceptation. Au risque 5%, la durée de vie des tubes à essais n’est pas différente de 1500
heures de chauffage.

Au seuil de 10 %, la région d’acceptation est :

[Z0,1 ; + ] = [- 1,28 ; + ]

On rejette l’hypothèse nulle car VDR n’appartient pas à la région d’acceptation. Au risque de
10 %, la durée de vie des tubes à essai est inférieure à 1500 heures de chauffage.
170
Statistiques décisionnelles 8. Tests sur les moyennes

8.5.8. Solution de l’exercice 8.4.8.

Pour répondre à cette question, on doit vérifier si la durée de vie moyenne des 50 nouveaux
moteurs est conforme à la norme de 3000 heures. Il s’agit donc de faire un test de conformité
de la moyenne.

Hypothèse nulle :

Il s’agit d’un test unilatéral à droite :

H0 m = 3000 H1 : m > 3000

Variable de décision :

La variable de décision du test correspond à l’estimation de m qui est la moyenne de


l’échantillon :

VD = 3250

La variable de décision peut être considérée comme une variable approximativement normale.

La variance de la population peut être estimée par la quasi-variance.



^
² 
 (x i  x )²
=
n² 50
= . 150² = 22959,18
n 1 n  1 49
^
  22959,18 = 151,52

x m0 3250  3000
VDR = ^
= = 11,67
151,52

50
n

Région d’acceptation :

La région d’acceptation est l’intervalle ]- ; Z1 ].

Au seuil de signification de 99 % ( = 0,01), la valeur critique qui délimite la région


d’acceptation est :

Z0,99 = 2,33

171
Statistiques décisionnelles 8. Tests sur les moyennes

La région d’acceptation est donc l’intervalle ]- ; 2,33].

On rejette l’hypothèse nulle car la variable de décision réduite n’appartient pas à la région
d’acceptation. Au risque 1%, les nouveaux moteurs apportent une amélioration dans la durée
de vie des appareils électroménagers.

8.5.9. Solution de l’exercice 8.4.9.

Pour répondre à cette question, on doit réaliser un test de comparaison de deux moyennes.

Hypothèse nulle :

Ce test a pour but de vérifier si la part du budget familial consacré aux loisirs est différente
suivant que la famille habite le centre-ville ou la banlieue.

Il s’agit d’un test bilatéral :


H0 : m1 = m2 et H1 : m1  m2
Variable de décision :

Les deux échantillons sont indépendants, les populations sont de variances inégales, la variable
de décision centrée réduite est donc:

 
 
(x 1  x 2 )
VDR = avec x 1 = 640 x 2 = 610
² 1 ² 2

n1 n2
Les variances des deux populations sont estimées par les quasi-variances.

^
n²1 280
² 1 = = . 120² = 14451,61
n  1 279
^
n²2 300
² 2 = = . 100² = 10033,44
n  1 299
640  610
VDR = = 3,25
14451,61 10033,44

280 300

172
Statistiques décisionnelles 8. Tests sur les moyennes

Région d’acceptation :
VDR = 3,25

Pour  = 0,05, la valeur de Z  est :


1
2
Z0,975 = 1,96

VDR > Z  , on rejette donc l’hypothèse nulle. C’est-à-dire, au risque de 5 %, la part du


1
2
budget familial consacrée aux loisirs est différente suivant que la famille habite le centre-ville
ou la banlieue.

Pour  = 0,001, la valeur de Z  est :


1
2
Z0,9995 = 3,29

VDR  Z  , on accepte donc l’hypothèse nulle, c'est-à-dire, au risque de 1 %, la part du


1
2

budget familial consacré aux loisirs est le même pour les 2 milieux.

8.5.10. Solution de l’exercice 8.4.10.

Pour répondre à cette question, on doit vérifier si la longueur moyenne des 100 tiges
métalliques est conforme à la norme de 100 cm. Il s’agit donc de faire un test de conformité de
la moyenne.

Hypothèse nulle :

Il s’agit d’un test bilatéral :


H0 m = 100 H1 : m  100

Variable de décision :

La variable de décision du test correspond à l’estimation de m qui est la moyenne de


l’échantillon :
VD = 100,04

La variable de décision peut être considérée comme une variable approximativement normale.

La variance de la population peut être estimée par la quasi-variance.

173
Statistiques décisionnelles 8. Tests sur les moyennes


^
² 
 (x i  x )²
=
n² 100
= . 0,16² = 0,026
n 1 n  1 99
^
  0,026 = 0,1608


x m0 100,04  100
VDR = ^
= = 2,49
 0,1608

n 100

Région d’acceptation :

La région d’acceptation est l’intervalle [ Z  ; Z  ].


1
2 2

1) Au seuil de signification de 95 % ( = 0,05), les valeurs critiques qui délimitent la région


d’acceptation sont :

Z  = Z0,025 = -1,96 et Z  = Z0,975 = 1,96


1
2 2

La région d’acceptation est donc l’intervalle [-1,96 ; 1,96].

On rejette l’hypothèse nulle car la variable de décision réduite n’appartient pas à la région
d’acceptation. La machine n’est donc pas bien réglée au seuil de signification de 95 %.

2) Au seuil de signification de 99 % ( = 0,01), les valeurs critiques qui délimitent la région


d’acceptation sont :

Z  = Z0,005 = -2,58 et Z  = Z0,995 = 2,58


1
2 2

La région d’acceptation est donc l’intervalle [-2,58 ; 2,58].

On accepte l’hypothèse nulle car la variable de décision réduite appartient à la région


d’acceptation. La machine est donc bien réglée au seuil de signification de 99 %.

174
Statistiques décisionnelles 8. Tests sur les moyennes

8.5.11. Solution de l’exercice 8.4.11.

Pour répondre à cette question, on doit réaliser un test de comparaison de deux moyennes.

Hypothèse nulle :

Ce test a pour but de vérifier si, en moyenne, les ventes enregistrées avec la nouvelle méthode
de promotion m1 sont ou ne sont pas supérieures aux ventes enregistrées avec l’ancienne
méthode de promotion m2.

Il s’agit d’un test unilatéral à droite :

H0 : m1 = m2 et H1 : m1 > m2

Variable de décision :

Les deux échantillons sont associés par paires, la variable de décision centrée réduite est donc:


d
VDR = ^
d
n

Reprenons les données et calculons les différences di.

Point de vente Nouvelle méthode Ancienne méthode Différence (di)


1 56 48 8
2 49 46 3
3 53 47 6
4 51 43 8
5 48 46 2
6 52 45 7
7 55 49 6
8 53 46 7
9 49 47 2
10 50 44 6

d 5,5
VDR = ^
= = 7,49
2,3214
d
10
n

175
Statistiques décisionnelles 8. Tests sur les moyennes

Région d’acceptation :

VDR = 7,49

Pour  = 0,05, la valeur de t1- avec 9 degrés de liberté est :


t0,95 = 1,833

VDR > t1-, on rejette donc l’hypothèse nulle. C’est-à-dire, on peut conclure que la nouvelle
méthode de promotion a un effet positif sur les ventes.

8.5.12. Solution de l’exercice 8.4.12.

Pour répondre à cette question, on doit réaliser un test de comparaison de deux moyennes.

Hypothèse nulle :

Ce test a pour but de vérifier si le poids moyen net des sachets m1 du premier échantillon est ou
n’est pas égale au poids moyen net des sachets m2 du deuxième échantillon.

Il s’agit d’un test bilatéral :


H0 : m1 = m2 et H1 : m1  m2

Variable de décision :

Les deux échantillons sont indépendants, les populations sont de variances égales, la variable
de décision centrée réduite est donc:
 
(x 1  x 2 )
VDR =
 

 (x i
 x 1 )²   (x
 x 2 )² 1
i 1
(  )
n1  n 2  2 n1 n 2

Reprenons les données et calculons les caractéristiques pour chaque échantillon.

É1 190 200 202 195 194 208 205 196 198 206
É2 210 204 203 189 194 195 206 205 200 201 198 197
 
x 1 = 199,4 x 2 = 200,1667
 
 (x i  x 1 )² = 306,4  (x i  x 2 )² = 381,6667

176
Statistiques décisionnelles 8. Tests sur les moyennes

199,4  200,1667
VDR = = - 0,31
306,4  381,6667 1 1
(  )
10  12  2 10 12
Région d’acceptation :
VDR = 0,31

Pour  = 0,05, la valeur de t  avec 20 degrés de liberté est :


1
2
t0,975 = 2,09

VDR < t  , on accepte donc l’hypothèse nulle. C’est-à-dire, ces deux résultats ne sont pas
1
2
significativement différents en ce qui concerne le poids moyen au seuil de 5 %

8.5.13. Solution de l’exercice 8.4.13.

Pour répondre à cette question, il faut comparer les gains moyens quotidiens en poids des 6
alimentations. Il s’agit de tester l'égalité de plusieurs moyennes, c’est une analyse de variance à
un facteur (ANOVA1).

Formulation de l’hypothèse nulle :


Il s’agit de tester globalement l'égalité des moyennes des 6 populations supposées normales
dans lesquelles on suppose que les variances sont égales.
Ho: m1 = m2 = m3 = m4 = m5 = m6
H1: au moins une des moyennes est différente des autres.

Tableau d'analyse de variance :


Reprenons les données et calculons les trois sommes des carrés :
Alim. 1 Alim. 2 Alim. 3 Alim. 4 Alim. 5 Alim. 6
590 460 600 640 690 690
760 430 460 660 600 650
700 540 610 720 550 680
640 470 510 580 480 740
Total 2690 1900 2180 2600 2320 2760 14450

J nj

Y
T² 14450²
STC  2
ij   590²  760²  ...  740²   215595,83
j i i 1 N 24

J T j2
n
T² 2690² 1900² 2760² 14450²
SCF      ...    139520,83
j i j N 4 4 4 24

177
Statistiques décisionnelles 8. Tests sur les moyennes

SCE = 215595,83 - 139520,83 = 76075

Ce qui permet la construction du tableau de l'analyse de variance.

Tableau d’analyse de variance à un facteur

Source de Somme des Degrés de Moyenne des


F obs
variation carrés liberté carrés
Alimentation 139520,83 5 27904,17 6,6
Erreur 76075 18 4226,39
Totale 215595,83 23

A un seuil  = 5%, on ne peut pas conclure que le gains quotidiens en poids soit le même en
moyenne pour les 6 alimentations puisque la valeur observée 6,6 de F est supérieure à la
valeur critique F 0,95 à 5 et 18 dl = 2,77 obtenue de la distribution de Fisher à 5 et 18
degrés de liberté.

Au seuil  = 0,001, on peut conclure que les gains quotidiens en poids est le même en
moyenne pour les 6 alimentations puisque la valeur observée 6,6 de F est inférieure à la valeur
critique F0,999 à 5 et 18 dl = 6,8.

8.5.14. Solution de l’exercice 8.4.14.

Pour répondre à cette question, il faut comparer la consommation moyenne du produit de luxe
dans chacun des 6 groupes. Il s’agit de tester l'égalité de plusieurs moyennes, c’est une analyse
de variance à deux facteurs (ANOVA2) sans interaction.

Formulation de l’hypothèse nulle :


Il s’agit de tester globalement l'égalité des moyennes des 6 populations supposées normales
dans lesquelles on suppose que les variances sont égales.
Ho: m1 = m2 = m3 = m4 = m5 = m6
H1: au moins une des moyennes est différente des autres.

Tableau d'analyse de variance :


Reprenons les données et calculons les quatre sommes des carrés:

Catégorie d'âge
Sexe Moins de Entre 20 et Total
Plus de 45 ans
20 ans 45 ans
Féminin 27 39 54 120
Masculin 32 45 62 139
Total 59 84 116 259

178
Statistiques décisionnelles 8. Tests sur les moyennes

I J

 Y
T² 259²
STC  2
ij   27²  39²  ...  62²   878,83
i 1 j1 IJ 6

I
Ti2 120²  139²

T² 259²
SCFA      60,17
i 1 J IJ 3 6

J
T2j 59²  84²  116²

T² 259²
SCFB      816,33
j1 I IJ 2 6

SCE = 878,83 - 60,17 - 816,33 = 2,33


Ce qui permet la construction du tableau de l'analyse de variance ci-dessous.

Analyse de variance à deux facteurs sans répétition

Source de Somme des Moyenne des


D.L. F
variation carrés carrés
Sexe 60,17 1 60,17 51,43
Age 816,33 2 408,17 348,86
Erreur 2,33 2 1,17
Total 878,83 5

En examinant les valeurs F observées 51,43 et 348,86 qui sont toutes deux supérieures aux
valeurs théoriques F 0,95 à 1 et 2 dl = 18,51 et F 0,95 à 2 et 2 dl = 19 on peut rejeter les deux
hypothèses nulles et conclure qu'il y a d'une part, des différences significatives entre les deux
sexes quant à la consommation du produit de luxe et d'autre part, des différences significatives
entre les trois catégories d’âge.

8.5.15. Solution de l’exercice 8.4.15.

Pour répondre à cette question, on doit réaliser un test de comparaison de deux moyennes.

Hypothèse nulle :

Ce test a pour but de vérifier si le poids moyen des pièces m1 avant le réglage est ou n’est pas
inférieur au poids moyen des pièces m2 après le réglage.

Il s’agit d’un test bilatéral :

H0 : m1 = m2 et H1 : m1  m2

179
Statistiques décisionnelles 8. Tests sur les moyennes

Variable de décision :

Les deux échantillons sont indépendants, les populations sont de variances égales, la variable
de décision centrée réduite est donc :
 
(x1  x 2 )
VDR =
 
 (x i  x 1 )²   (x i  x 2 )² ( 1  1 )
n1  n 2  2 n1 n 2
 
x1 = 68,2 x 2 = 67,5

 (x  x )² = 2,5² . 50 = 312,5
i 1


 (x  x )² = 2,8² . 50 = 392
i 2

68,2  67,5
VDR = = 1,3
312,5  392 1 1
(  )
50  50  2 50 50

Région d’acceptation :

VDR = 1,3
Pour  = 0,05, la valeur de Z  est : Z0,975 = 1,96
1
2

VDR < Z  , on accepte donc l’hypothèse nulle. C’est-à-dire, on peut affirmer, au risque 5
1
2
% que le réglage n’a pas modifié le poids des pièces.

8.5.16. Solution de l’exercice 8.4.16.

Pour répondre à cette question, il faut comparer Les ventes quotidiennes moyennes
d'ordinateurs des 12 combinaisons jour/mois. Il s’agit de tester l'égalité de plusieurs moyennes,
c’est une analyse de variance à deux facteurs (ANOVA2) avec interaction.

Formulation de l’hypothèse nulle :


Il s’agit de tester globalement l'égalité des moyennes des 12 populations supposées normales
dans lesquelles on suppose que les variances sont égales.
Ho: m1 = m2 = m3 … = m12

180
Statistiques décisionnelles 8. Tests sur les moyennes

H1: au moins une des moyennes est différente des autres.

Tableau d'analyse de variance :


Reprenons les données et calculons les cinq sommes des carrés :

Janvier 2003 Février 2003 Mars 2003 Total


Lundi 13 9 7
9 5 15 117
8 8 14
7 12 10

37 34 46
Mardi 8 11 17
6 4 14 112
6 9 12
7 5 13

27 29 56
Mercredi 6 10 6
10 2 14 95
7 8 12
4 3 13

27 23 45
Jeudi 1 6 10
10 10 8 91
7 12 4
5 9 9
23 37 31
Total 114 123 178 415

I J K T² 415²
STC     Y 2   13²  9²  ...  9²   604,98
i1 j1 k 1 ijk IJK 48
I
Ti2 117²  112²  95²  91²
 JK
T² 415²
SCFA      40,23
i 1 IJK 12 48
2
J T j T² 114² 123² 178² 415²
SCF         150,04
B j1 IK IJK 16 16 16 48

181
Statistiques décisionnelles 8. Tests sur les moyennes

I j
Tij2 I
Ti2 j
T2j T2
SCI   K 
i j j1

i 1 JK
  IK
j1

IJK

37 2    312 117 2  112 2  95 2  912


SCI  
4 12
114 2  123 2  178 2 415 2
   93,6
8 48
SCE = 604,98 – 40,23 – 150,04 – 93,96 = 320,75

Tableau d’analyse de variance à deux facteurs avec répétitions


Source de Somme des Moyenne des
D.L. F
variation carrés carrés
Jours 40,23 3 13,41 1,51
Mois 150,04 2 75,02 8,42
Interaction 93,96 6 15,66 1,76
Erreur 320,75 36 8,91
Total 604,98 47

En examinant en tout premier lieu le test sur l’interaction, on peut vérifier que la valeur FI =
1,76 est inférieure à la valeur critique de la table, soit F 0,95 à 6 et 36 dl = 2,36. On doit
conclure qu'il n'y a pas d'interaction significative entre les deux facteurs jours et mois.

Cette constatation justifie la poursuite de l'analyse de la variance. Comme la valeur FA= 1,51
est inférieure à la valeur critique de la table F 0,95 à 3 et 36 dl = 2,87, on doit conclure qu’il
n’existe pas de différences significatives entre les jours. Par contre, comme la valeur F B = 8,42
est supérieure à la valeur critique de la table F 0,95 à 2 et 36 dl = 3,26, on doit conclure qu’il
existe des différences significatives entre les trois mois.

182
Statistiques décisionnelles 9. Tests sur les variances

CHAPITRE 9
TESTS SUR LES VARIANCES

9.1. TEST SUR UN ECHANTILLON.

9.1.1. Formulation de l’hypothèse nulle.

Ce test a pour but de vérifier si la variance ² d’une population est ou n’est pas égale à une
valeur donnée 02 , appelée norme.

L’hypothèse nulle est donc : H0 σ 2  σ 02

9.1.2. Variable de décision.

On extrait un échantillon aléatoire non exhaustif de taille n. La variable de décision du test


correspond à :

 x 
n
2

i
x
11
VD 
 02

La variable de décision possède une distribution khi deux à (n-1) degrés de liberté.

9.1.3. Région d’acceptation.

La région d’acceptation dépend de l’hypothèse alternative H 1.

a) Test bilatéral :

H0 : ² = 02 et H1 : ²  02

183
Statistiques décisionnelles 9. Tests sur les variances

Les valeurs critiques qui délimitent la région d’acceptation sont ²1 et ²2 telles que :

p (12  VD   22 )  1  

p (VD  12 )   / 2  12   2a


2

p (VD   22 )   / 2  p (VD   22 )  1   / 2   22   2 a
1
2

 
La région d’acceptation est donc l’intervalle  2a ;  2 a  .
 2 1
2 

On accepte l’hypothèse nulle si la variable de décision appartient à la région d’acceptation.


Sinon, c’est l’hypothèse alternative qui est acceptée.

b) Test unilatéral à droite :

H 0 : σ 2  σ 02 et H 1 : σ 2  σ 02

La valeur critique qui délimite la région d’acceptation est 2 telle que :

p (VD   2 )  1     2  12  


La région d’acceptation est donc l’intervalle 0 ; 12   
c) Test unilatéral à gauche :

H 0 : σ 2  σ 02 et H 1 : σ 2  σ 02

La valeur critique qui délimite la région d’acceptation est ² telle que :

p (VD   2 )     2   2

La région d’acceptation est donc l’intervalle   2 ;    .

9.2. TEST SUR DEUX ECHANTILLONS.

Ce test a pour but de comparer les variances de deux populations à l’aide de deux échantillons
indépendants.

184
Statistiques décisionnelles 9. Tests sur les variances

9.2.1. Formulation de l’hypothèse nulle.

Ce test a pour but de vérifier si la variance 12 d’une population est ou n’est pas égale à la
variance  22 d’une autre population.

L’hypothèse nulle est donc : H 0 σ 12  σ 22

9.2.2. Variable de décision.

Soient deux échantillons aléatoires et non exhaustifs prélevés dans les deux populations. La
variable de décision du test correspond au rapport des deux variances observées des deux
échantillons :
ˆ 2
VD  12
ˆ 2
La variable de décision suit une loi de Fisher avec (n1-1) et (n2-1) degré de liberté.

Les tables de la loi de Fisher ne donnent que des valeurs supérieures à l’unité. C’est la raison
pour laquelle la variable de décision correspond au rapport de variances qui est supérieur à
l’unité, d’où l’échantillon 1 est celui qui a la plus grande variance.

9.2.3. Région d’acceptation.

Le test d’égalité de deux variances est en général un test bilatéral. Il précède généralement le
test de comparaison des moyennes de deux échantillons indépendants.

H0 12   22 et H1 12   22

Les valeurs critiques qui délimitent la région d’acceptation sont F1 et F2 telles que :

p(F1  VD  F2) = 1 - 

p(VD < F1) = /2  F1 = F


2

p(VD > F2) = /2  p(VD  F2) = 1-/2  F2 = F 


1
2

185
Statistiques décisionnelles 9. Tests sur les variances

 
La région d’acceptation est donc l’intervalle F ; F   .
 2 1
2 

Les tables de la loi de Fisher ne donnent que des valeurs supérieures à l’unité, de telle sorte que
seule est possible la comparaison avec F  , et on rejette l’hypothèse nulle si la variable de
1
2

décision est supérieure ou égale à F 


.
1
2

9.3. ENONCES DES EXERCICES D’APPLICATION.

9.3.1. On souhaite vérifier, au seuil de signification de 95 %, si le peuplement, dans lequel on a


mesuré la hauteur d’un échantillon de 12 arbres, appartient à un type de forêt dont l’écart type
est de 1,4 m. Les résultats en mètre sont :
5,1 ; 5,2 ; 5,2 ; 5,4 ; 5,9 ; 6,3 ; 6,3 ; 6,8 ; 6,9 ; 6,9 ; 7,0 ; 7,0
Ce peuplement appartient-il à ce type de forêt ?
a) Au seuil de signification de 95 %.
b) Au seuil de signification de 99 %.

9.3.2. Le diamètre des billes fabriquées par une machine est en moyenne de 6 mm. La machine
est considérée comme bien réglée si l’écart type du diamètre des billes fabriquées ne dépasse
pas 0,45 mm. Pour contrôler si la machine est bien réglée, on a prélevé un échantillon de 50
billes et on a mesuré leur diamètre. On a trouvé :

x i
 350  x ²  2462
i

La machine est-elle bien réglée au seuil de signification de 95 % ?

9.3.3. Pour savoir si les filles sont plus assidues que les garçons ou non, on a choisi de manière
aléatoire et simple un premier échantillon de 10 filles et de façon indépendante, un deuxième
échantillon de 10 garçons. En fonction des résultats ci-dessous relatifs aux notes d’assiduités
(note sur 100), peut-on supposer, au seuil de 5 %, que les variances des deux populations sont
égales ?

Assiduité des filles 72 67 52 54 46 58 59 54 58 63


Assiduité des garçons 66 59 54 57 63 55 61 55 66 75

186
Statistiques décisionnelles 9. Tests sur les variances

9.3.4. Un fabricant de tubes à essais pour laboratoire fonde sa publicité sur le fait que la durée
de vie de ses tubes correspond à 1500 heures de chauffage à l’aide d'un bec Bunzen avec un
écart type de 100 heures. Un laboratoire de contrôle de publicité constate que sur 100 tubes à
essais, la durée moyenne de vie est de 1485 heures de chauffage avec un écart-type de 110
heures. Au risque 5%, l’écart type de la durée de vie des tubes à essais est-il différent de 100
heures de chauffage ?

9.3.5. Les moteurs des appareils électroménagers d'une marque M ont une durée de vie
moyenne de 3000 heures avec un écart-type de 150 heures. A la suite d'une modification dans
la fabrication des moteurs, le fabricant affirme que les nouveaux moteurs ont une durée de vie
supérieure à celle des anciens avec un écart type plus réduit. On a testé un échantillon de 50
nouveaux moteurs et on a trouvé une durée de vie moyenne de 3250 heures avec un écart-type
égal à 145 heures. Les nouveaux moteurs apportent-ils une amélioration dans la dispersion de
la durée de vie des appareils électroménagers au risque de 5% ?

9.3.6. Dans une grande ville d'un pays donné, une enquête a été réalisée sur les dépenses
mensuelles pour les loisirs. On a observé les résultats suivants :
• Sur 280 familles habitant le centre-ville, les dépenses mensuelles pour les loisirs sont en
moyenne de 640 dh avec un écart-type de 120 dh.
• Sur 300 familles habitant la banlieue, les dépenses mensuelles pour les loisirs sont en
moyenne de 610 dh avec un écart-type de 100 dh.
Peut-on dire au risque de 5 % que la variance de la part du budget familial consacré aux loisirs
est différente suivant que la famille habite le centre-ville ou la banlieue ?

9.3.7. On prélève dans la production d'une machine, un échantillon de 100 tiges métalliques. La
moyenne des longueurs des tiges de cet échantillon est 100,04 cm avec un écart-type de 0,16
cm. La machine est réglée en principe pour obtenir un écart type des longueurs des tiges de
0,12 cm.
1°) Au risque de 5 %, peut-on dire que la machine est bien réglée ?
2°) Reprendre la question précédente avec un risque de 1 %.

9.3.8. Dans le but de contrôler le poids net des sachets d'un produit alimentaire, on a prélevé
deux échantillons respectivement de 10 et 12 sachets, on a obtenu les résultats suivant (en
grammes) :

É1 190 200 202 195 194 208 205 196 198 206
É2 210 204 203 189 194 195 206 205 200 201 198 197

Ces deux résultats sont-ils significativement différents en ce qui concerne les écarts types des
poids %.

187
Statistiques décisionnelles 9. Tests sur les variances

9.3.9. Une machine fabrique des pièces identiques. La moyenne des poids de 50 pièces
prélevées dans la production est 68,2 grammes avec un écart-type de 2,5 grammes. On effectue
un réglage sur la machine. On prélève un nouvel échantillon de 50 pièces. On trouve un poids
moyen de 67, 5 grammes avec un écart-type de 2, 8 grammes. Peur-on affirmer, au risque 5 %
que le réglage a modifié l’écart-type du poids des pièces ?

9.3.10. Un tour opérateur veut mettre un nouveau produit à son catalogue. La rentabilité de ce
produit suppose, en moyenne, 50 réservations hebdomadaires au minimum par agence avec un
écart type maximum de 2 réservations. A titre de test, il décide de l’inclure au catalogue d’un
échantillon aléatoire de 10 de ses agences. On a noté le nombre de réservations observées
durant une semaine dans les 10 agences :

51 ; 48 ; 58 ; 55 ; 52 ; 49 ; 50 ; 54 ; 53 ; 52

Peut-on conclure, au seuil de 5 %, puis de 1 % que l’écart type est effectivement inférieur à 2
réservations ?

9.4. SOLUTIONS DES EXERCICES D’APPLICATION.

9.4.1. Solution de l’exercice 9.3.1.

Pour répondre à cette question, on doit réaliser un test de conformité de la variance.

Hypothèse nulle :
Il s’agit d’un test bilatéral.

H0 ² = 1,4² = 1,96 H1 : ²  1,96

Variable de décision :
La variable de décision du test correspond à :
n

 (i  )
i 1
2

6,6
VD    3,37
 02 1,96

La variable de décision possède une distribution khi deux à 11 degrés de liberté.

Région d’acceptation :
a) Les valeurs critiques qui délimitent la région d’acceptation sont :  ²  et ² 
.
1
2 2

Au seuil de signification de 95 % ( = 0,05)

 02, 025  3,82 et  02, 975  21,9

188
Statistiques décisionnelles 9. Tests sur les variances

La région d’acceptation est donc l’intervalle [3,82 ; 21,9].

On rejette l’hypothèse nulle car la variable de décision n’appartient pas à la région


d’acceptation.

b) Au seuil de signification de 99 % ( = 0,01)

 02, 005  2,6 et  02,995  26,8

La région d’acceptation est donc [2,6 ; 26,8].

On accepte l’hypothèse nulle car la variable de décision appartient à la région d’acceptation.

9.4.2. Solution de l’exercice 9.3.2.

Pour répondre à cette question, on doit réaliser un test de conformité de la variance.

Hypothèse nulle :
Ce test a pour but de vérifier si la variance ² de la population des billes fabriquées ne dépasse
pas la norme.

Il s’agit d’un test bilatéral :

H0  2  0,45 2 et H1  2  0,45 2

Variable de décision :
n

 50 (
2462
(
350 2
) )
VD 
i  1 (x i  x ) 2
 50 50  59,26
σ 02 0,45 2
Région d’acceptation :
Il s’agit d’un test unilatéral à droite.

Pour   0,05 , la valeur critique qui délimite la région d’acceptation est 12   à 49 degrés de
liberté.

Le nombre de degrés de liberté est grand (k > 30), on peut trouver l’approximation de la valeur
de  2 par la loi normale.

(Z 0,95  2k  1) 2 (1,64  2 x 49  1) 2
2
χ 0,95 à 49 dl
   66
2 2

189
Statistiques décisionnelles 9. Tests sur les variances

La région d’acceptation est donc l’intervalle 0 ; 66 .

On accepte l’hypothèse nulle car la variable de décision appartient à la région d’acceptation.


Au seuil de signification de 95 %, la machine est bien réglée.

9.4.3. Solution de l’exercice 9.3.3.

Pour répondre à cette question, on doit réaliser un test de comparaison de deux variances.

Hypothèse nulle :
Ce test a pour but de vérifier si la variance ²1 de la population des filles est ou n’est pas égale
à la variance ²2 de la population des garçons.

Il s’agit d’un test bilatéral :

H0 12   22 et H1 12   22

Variable de décision :
ˆ 12 57,12
VD    1,31
ˆ 22 43,43

Région d’acceptation :
Pour  = 0,05 la valeur de F 
avec 9 et 9 degrés de liberté est : F0,975 = 4,03
1
2

La variable de décision est inférieure à F 


, on accepte donc l’hypothèse d’égalité des
1
2

variances des deux populations.

9.4.4. Solution de l’exercice 9.3.4.

Pour répondre à cette question, on doit réaliser un test de conformité de la variance.

Hypothèse nulle :
Il s’agit d’un test bilatéral.

H0 12   22 et H1 12   22

190
Statistiques décisionnelles 9. Tests sur les variances

Variable de décision :
La variable de décision du test correspond à :

100 

 (x
i 1
i
 x )²
110².100
VD = = = 121
 2
0
10000

La variable de décision possède une distribution khi deux à 99 degrés de liberté.

Région d’acceptation :
Les valeurs critiques qui délimitent la région d’acceptation sont :  2 et  2  .
1
2 2

Au seuil de signification de 95 % ( = 0,05), Les valeurs critiques qui délimitent la région


d’acceptation sont :  02, 025 et  02,975 .

Le nombre de degrés de liberté étant très grand, on peut utiliser l’approximation par la loi
normale de moyenne 99 et d’écart type 2  99  14,07 .

En passant à la loi normale centrée réduite on obtient :


 02, 025 à 99 dl  99
= Z0,025
14,07
d’où :

²0,025 à 99 dl = Z0,025 x 14,07 + 99

²0,025 à 99 dl = -1,96 x 14,07 + 99 = 71,42

de même :

²0,975 à 99 dl = Z0,975 x 14,07 + 99

²0,975 à 99 dl = 1,96 x 14,07 + 99 = 126,58

²0,025 = 71,42 et ²0,975 = 126,58

La région d’acceptation est donc l’intervalle [71,42 ; 126,58].

On accepte l’hypothèse nulle car la variable de décision appartient à la région d’acceptation.


C’est-à-dire, au risque 5%, l’écart type de la durée de vie des tubes à essais est de 100 heures
de chauffage.

191
Statistiques décisionnelles 9. Tests sur les variances

9.4.5. Solution de l’exercice 9.3.5.

Pour répondre à cette question, on doit réaliser un test de conformité de la variance.

Hypothèse nulle :
Il s’agit d’un test bilatéral.

H0 ² = 150² = 22500 H1 : ² < 22500

Variable de décision :
La variable de décision du test correspond à :

50 

 (x
i 1
i
 x )²
145².50
VD = = = 46,7
² 0 22500

La variable de décision possède une distribution khi deux à 49 degrés de liberté.

Région d’acceptation :
Il s’agit d’un test unilatéral à gauche.

La valeur critique qui délimite la région d’acceptation est  2

Au seuil de signification de 95 % ( = 0,05), la valeur critique qui délimite la région


d’acceptation est  02, 05

Le nombre de degrés de liberté étant très grand, on peut utiliser l’approximation par la loi
normale de moyenne 49 et d’écart type 2  49  9,9 .

Pour améliorer l’approximation, on peut utiliser la transformation suivante :

( Z  2k  1)²
² 
2

d’où :

( Z 0 , 05  2 x 49  1) 2 ( 1,64  2 x 49  1) 2
 02, 05    33,7
2 2

La région d’acceptation est donc l’intervalle [33,7 ; + ].

192
Statistiques décisionnelles 9. Tests sur les variances

On accepte l’hypothèse nulle car la variable de décision appartient à la région d’acceptation.


C’est-à-dire, au risque 5%, les nouveaux moteurs n’apportent aucune amélioration dans la
dispersion de la durée de vie des appareils électroménagers.

9.4.6. Solution de l’exercice 9.3.6.

Pour répondre à cette question, on doit réaliser un test de comparaison de deux variances.

Hypothèse nulle :
Ce test a pour but de vérifier si la variance 12 des dépenses mensuelles pour les loisirs en
centre ville est ou n’est pas égale à la variance  22 des dépenses mensuelles pour les loisirs en
banlieue.

Il s’agit d’un test bilatéral :

H0 12   22 et H1 12   22

Variable de décision :
ˆ 12
VD 
ˆ 22

Les variances des deux populations sont estimées par les quasi-variances.

^
n²1 280
² 1 = = . 120² = 14451,61
n  1 279

^
n²2 300
² 2 = = . 100² = 10033,44
n  1 299

14451,61
VD = = 1,44
10033,44

Région d’acceptation :
En consultant la table de Fisher pour  = 0,05, la valeur de F 
avec 279 et 299 degrés de
1
2

liberté ne peut être ni inférieure à 1,19 ni supérieure à 1,32.

1,19 < F0,975 < 1,32

193
Statistiques décisionnelles 9. Tests sur les variances

La variable de décision est supérieure à F 


, on rejette donc l’hypothèse d’égalité des
1
2

variances des deux populations. C’est-à-dire, au risque de 5 % la variance de la part du budget


familial consacré aux loisirs est différente suivant que la famille habite le centre-ville ou la
banlieue.

9.4.7. Solution de l’exercice 9.3.7.

Pour répondre à cette question, on doit réaliser un test de conformité de la variance.

Hypothèse nulle :
Il s’agit d’un test bilatéral.

H0 ² = 0,12² = 0,0144 H1 : ²  0,0144

Variable de décision :
La variable de décision du test correspond à :
100 

 (x
i 1
i
 x )²
0,16².100
VD = = = 177,78
² 0 0,0144
La variable de décision possède une distribution khi deux à 99 degrés de liberté.

Région d’acceptation :
Les valeurs critiques qui délimitent la région d’acceptation sont : ² et ²1 .
2 2

1) Au seuil de signification de 95 % ( = 0,05), Les valeurs critiques qui délimitent la région


d’acceptation sont : ² 0,025 et ² 0,975 .

Le nombre de degrés de liberté étant très grand, on peut utiliser l’approximation par la loi
normale de moyenne 99 et d’écart type 2  99  14,07 .

En passant à la loi normale centrée réduite on obtient :


 02, 025 à 99 dl  99
= Z0,025
14,07

d’où :

²0,025 à 99 dl = Z0,025 x 14,07 + 99

²0,025 à 99 dl = -1,96 x 14,07 + 99 = 71,42

194
Statistiques décisionnelles 9. Tests sur les variances

de même :

²0,975 à 99 dl = Z0,975 x 14,07 + 99

²0,975 à 99 dl = 1,96 x 14,07 + 99 = 126,58

²0,025 = 71,42 et ²0,975 = 126,58

La région d’acceptation est donc l’intervalle [71,42 ; 126,58].

On rejette l’hypothèse nulle car la variable de décision n’appartient pas à la région


d’acceptation. C’est-à-dire, au risque 5 %, la machine n’est pas bien réglée.

2) Au seuil de signification de 99 % ( = 0,01), les valeurs critiques qui délimitent la région


d’acceptation sont : ² 0,005 et ² 0,995 .

Le nombre de degrés de liberté étant très grand, on peut utiliser l’approximation par la loi
normale de moyenne 99 et d’écart type 2  99  14,07 .

En passant à la loi normale centrée réduite on obtient :

²0,005 à 99 dl = Z0,005 x 14,07 + 99

²0,005 à 99 dl = -2,58 x 14,07 + 99 = 62,70

de même :

²0,995 à 99 dl = Z0,995 x 14,07 + 99

²0,995 à 99 dl = 2,58 x 14,07 + 99 = 135,30

La région d’acceptation est donc l’intervalle [62,70 ; 135,30].

On rejette l’hypothèse nulle car la variable de décision n’appartient pas à la région


d’acceptation. C’est-à-dire, au risque 1%, la machine n’est pas bien réglée.

195
Statistiques décisionnelles 9. Tests sur les variances

9.4.8. Solution de l’exercice 9.3.8.

Pour répondre à cette question, on doit réaliser un test de comparaison de deux variances.

Hypothèse nulle :
Ce test a pour but de vérifier si la variance ²1 de la population du premier échantillon est ou
n’est pas égale à la variance ²2 de la population du deuxième échantillon.

Il s’agit d’un test bilatéral :

H0 ²1 = ²2et H1 ²1  ²2

Variable de décision :
^
² 1 34,70
VD = ^
= = 1,02
² 2 34,04

Région d’acceptation :
Pour  = 0,05 la valeur de F 
avec 11 et 9 degrés de liberté est : F0,975 = 3,91
1
2

La variable de décision est inférieure à F 


, on accepte donc l’hypothèse d’égalité des
1
2

variances des deux populations.

9.4.9. Solution de l’exercice 9.3.9.

Pour répondre à cette question, on doit réaliser un test de comparaison de deux variances.

Hypothèse nulle :
Ce test a pour but de vérifier si la variance ²1 des poids des pièces avant le réglage est ou n’est
pas égale à la variance ²2 des poids des pièces après le réglage.

Il s’agit d’un test bilatéral :

H0 ²1 = ²2et H1 ²1  ²2

Variable de décision :
^
² 1
VD = ^
² 2

196
Statistiques décisionnelles 9. Tests sur les variances

Les variances des deux populations sont estimées par les quasi-variances.

^
n²1 50
² 1 = = . 2,5² = 6,38
n  1 49

^
n²2 50
² 2 = = . 2,8² = 8
n  1 49

8
VD = = 1,25
6,38

Région d’acceptation :
En consultant la table de Fisher pour  = 0,05, la valeur de F α avec 49 et 49 degrés de
1
2
liberté ne peut être ni inférieure à 1,75 ni supérieure à 2,07.

1,75 < F0,975 < 2,07

La variable de décision est inférieure à F  , on accepte donc l’hypothèse d’égalité des


1
2
variances des deux populations. C’est-à-dire, au risque de 5 % le réglage n’a pas modifié
l’écart type du poids des pièces.

9.4.10. Solution de l’exercice 9.3.10.

Pour répondre à cette question, on doit réaliser un test de conformité de la variance.

Hypothèse nulle :
Il s’agit d’un test unilatéral à gauche.

H0 : ² = 2² et H1 : ² < 4

Variable de décision :
La variable de décision du test correspond à :

10 
(x  x)²
i 1
i
79,6
VD = = = 19,9
² 0 4
La variable de décision possède une distribution khi deux à 9 degrés de liberté.

197
Statistiques décisionnelles 9. Tests sur les variances

Région d’acceptation :
La région d’acceptation est l’intervalle [ ²  ; +[.

Au seuil de signification de 95 % ( = 0,05)

²0,05 = 3,325

La région d’acceptation est donc l’intervalle [3,325 ; +[.

On accepte l’hypothèse nulle car la variable de décision appartient à la région d’acceptation.


C’est-à-dire au seuil 5 %, l’écart type est effectivement inférieur à 2 réservations.

Au seuil de signification de 99 % ( = 0,01)

 02, 01  2,09

La région d’acceptation est l’intervalle [2,09 ; + ] on accepte l’hypothèse nulle.

198
Statistiques décisionnelles 10. Tests sur les proportions

CHAPITRE 10
TESTS SUR LES PROPORTIONS

10.1. TEST SUR UN ECHANTILLON.

10.1.1. Formulation de l’hypothèse nulle.

On attribue la valeur p0 pour proportion dans une population dont la vraie proportion p est
inconnue, et on veut juger la validité de cette hypothèse.

Ce test a pour but de vérifier si la proportion p d’une population est ou n’est pas égale à une
valeur donnée p0, appelée norme.

L’hypothèse nulle est donc : H0 p = p0

10.1.2. Variable de décision.

On extrait de la population un échantillon aléatoire et simple dans lequel la proportion observée


fn est en général différente de p0, il s’agit d’expliquer cette différence.

La variable de décision du test correspond à l’estimation de p qui est la fréquence de


l’échantillon :
VD = fn

Comme, la distribution de la proportion suit une loi normale de moyenne p et d’écart type
p(1  p)
à condition que la taille de l’échantillon soit supérieure ou égale à 30 (n  30) et le
n
produit n np  5, la variable de décision réduite :
fn  p0
VDR =
p 0 (1  p 0 )
n
est donc une variable normale réduite N(0 ; 1).

199
Statistiques décisionnelles 10. Tests sur les proportions

10.1.3. Région d’acceptation.

La région d’acceptation dépend de l’hypothèse alternative H 1.

a) Test bilatéral :

H0 : p = p 0 et H1 : p  p 0

Les valeurs critiques qui délimitent la région d’acceptation sont les valeurs d’une variable
normale réduite Z1 et Z2 telles que :

p(Z1  VDR  Z2) = 1 - 

p(VDR < Z1) = /2  Z1 = Z


2

p(VDR > Z2) = /2  p(VDR  Z2) = 1-/2  Z2 = Z1 


2

La région d’acceptation est donc l’intervalle [ Z  ; Z1  ].


2 2

On accepte l’hypothèse nulle si la variable de décision réduite appartient à la région


d’acceptation. Sinon, c’est l’hypothèse alternative qui est acceptée.

Remarque : Puisque la région d’acceptation est symétrique, on rejette l’hypothèse nulle si :

VDR > Z1 


2

b) Test unilatéral à droite :

H0 : p = p 0 et H1 : p > p 0

La valeur critique qui délimite la région d’acceptation est la valeur d’une variable normale
réduite Z telle que :

p(VDR  Z) = 1 -   Z= Z1

La région d’acceptation est donc l’intervalle ]- ; Z1 ].

200
Statistiques décisionnelles 10. Tests sur les proportions

c) Test unilatéral à gauche :

H0 : p = p 0 et H1 : p < p 0

La valeur critique qui délimite la région d’acceptation est la valeur d’une variable normale
réduite Z telle que :
p(VDR < Z) =   Z = Z

La région d’acceptation est donc l’intervalle [ Z ; +[.

10.2. TEST SUR DEUX ECHANTILLONS.

Ce test a pour but de comparer les proportions de deux populations à l’aide de deux
échantillons indépendants.

10.2.1. Formulation de l’hypothèse nulle.

Ce test a pour but de vérifier si la proportion p1 d’une population est ou n’est pas égale à la
proportion p2 d’une autre population.

L’hypothèse nulle est donc : H0 p1 = p2

10.2.2. Variable de décision.

Il s’agit de comparer deux proportions observées. Soient deux échantillons aléatoires de taille
respectivement n1 et n2 extraits de deux populations. Les fréquences observées fn1 et fn2 sont
généralement différentes, il s’agit d’expliquer cette différence.
X X
f n1  1 et f n2  2
n1 n2

La variable de décision du test correspond à la différence entre les fréquences observées des
deux échantillons :
VD = fn1 – fn2

Comme les distributions des deux proportions suivent des lois normales de moyennes
p 1 (1 - p 1 ) p 2 (1 - p 2 )
respectivement p1 et p2 et d’écarts types respectifs et à condition que
n1 n2
la taille de l’échantillon soit supérieure ou égale à 30 (n  30) et le produit np  5, la variable
de décision est elle-même normale de moyenne (p1-p2) et d’écart type
p 1 (1  p 1 ) p (1  p 2 )
 2 .
n1 n2
201
Statistiques décisionnelles 10. Tests sur les proportions

Sous l’hypothèse nulle p1 = p2 , il y a la même proportion inconnue p dans les deux


populations. Cette proportion peut être estimée par la fréquence observée fn1+n2 dans
l’échantillon unique qui est la réunion des deux échantillons.

X 1  X 2 n 1 fn 1  n 2 fn 2
f n1  n 2  
n1  n 2 n1  n 2

Sous l’hypothèse nulle, la variable de décision suit une loi normale de moyenne (p 1-p2) = 0 et
d’écart type :

p (1  p) p (1  p) 1 1
 = f n1  n 2 (1  f n1  n 2 ) (  )
n1 n2 n1 n 2

La variable de décision centrée réduite :

f n1  f n 2
VDR 
1 1
f n1 n 2 (1  f n1 n 2 )(  )
n1 n 2

est donc une variable normale réduite N(0 ; 1).

10.2.3. Région d’acceptation.

La région d’acceptation est identique à celle du test de conformité d’une proportion, elle
dépend de l’hypothèse alternative H1.

a) Test bilatéral :

H0 : p 1 = p 2 et H1 : p 1  p 2

La région d’acceptation est l’intervalle [ Z  ; Z1  ].


2 2

On accepte l’hypothèse nulle si la variable de décision réduite appartient à la région


d’acceptation. Sinon, c’est l’hypothèse alternative qui est acceptée.

Remarque : Puisque la région d’acceptation est symétrique, on rejette l’hypothèse nulle

si :

202
Statistiques décisionnelles 10. Tests sur les proportions

VDR > Z1 


2

203
Statistiques décisionnelles 10. Tests sur les proportions

b) Test unilatéral à droite :

H0 : p 1 = p 2 et H1 : p 1 > p 2

La région d’acceptation est donc l’intervalle ]- ; Z1 ].


c) Test unilatéral à gauche :

H0 : p 1 = p 2 et H1 : p 1 < p 2

La région d’acceptation est donc l’intervalle [ Z ; +[.

10.3. TEST SUR PLUSIEURS ECHANTILLONS.

Ce test a pour but de comparer les proportions d’un certain nombre de populations à l’aide du
même nombre d’échantillons indépendants.

10.3.1. Formulation de l’hypothèse nulle.

Ce test a pour but de vérifier si les proportions p1, p2, ... pk de k populations sont égales. On
écrit comme suit les hypothèses :
Ho: p1 = p2 = ... = pk
H1: au moins une des proportions est différente des autres.

10.3.2. Variable de décision.

Soient k échantillons aléatoires de taille respectivement n1, n2 , …, nk extraits de k populations.


Il s’agit de comparer les effectifs observés nij dans les k échantillons et les effectifs attendus ou
théoriques sous l’hypothèse nulle.

Effectifs observés

Echantillon Echantillon Echantillon



1 2 k
Avoir le caractère étudié n11 n21 … nk1
Ne pas avoir le caractère n12 n22 … nk2
étudié
Total n1. n2. … nk.

204
Statistiques décisionnelles 10. Tests sur les proportions

Sous l’hypothèse nulle p1 = p2 = ... = pk, il y a la même proportion inconnue p dans les k
populations. Cette proportion peut être estimée par la fréquence observée f dans l’échantillon
unique qui est la réunion des k échantillons.

n 11  n 21    n k1
f
n1  n 2    n k

sous l’hypothèse nulle, les effectifs théoriques sont :

Effectifs théoriques

Echantillon 1 Echantillon 2 … Echantillon k


Avoir le caractère étudié f n1. f n2. … f nk.
Ne pas avoir le caractère étudié (1 – f) n1. (1 – f) n2. … (1 – f) nk.
Total n1. n2. … nk.

On est amené à confronter les effectifs observés et les effectifs théoriques. On calcule la
variable de décision VD :

VD = (effectif observé-effectif théorique)2 / effectif théorique

On peut démontrer que la variable de décision est une variable aléatoire Khi deux avec (k-1)
degré de liberté.

10.3.3. Région d’acceptation.

La variable de décision est nulle lorsque les effectifs observés sont tous égaux aux effectifs
attendus, c’est-à-dire, lorsqu’il y a concordance absolue entre la distribution observée et la
distribution théorique. La valeur de la variable de décision est d’autant plus grande que les
écarts entre les effectifs observés et attendus sont plus grands. La valeur critique qui délimite la
région d’acceptation est ² telle que :

p(VD < ²) = 1 -   ² = ²1-

Le test étant toujours unilatéral, la région d’acceptation est donc l’intervalle [0 ; ²1-[.

On rejettera donc l’hypothèse nulle lorsque la valeur de la variable de décision est supérieure
ou égale à ²1- avec (k-1) degrés de liberté.

205
Statistiques décisionnelles 10. Tests sur les proportions

10.4. ENONCES DES EXERCICES D’APPLICATION.

10.4.1. Au cours des élections, un candidat est élu avec 52 % des voix. Plusieurs mois après
l'élection, un institut de sondage interroge 1600 électeurs, dont 800 déclarent qu'ils voteraient
en cas d'élection, pour le même candidat. Ce résultat est-il ou non significatif d'une
désaffection des électeurs pour l'élu ?
a) Au seuil de signification de 95 %.
b) Au seuil de signification de 90 %.

10.4.2. Une enquête sur l’emploi a concerné 220 personnes dont 115 dans le milieu rural et
105 dans le milieu urbain. Sur les 115 ruraux enquêtés, 74 se sont révélés actifs, alors que pour
les enquêtés urbains, 81 sont actifs. Peut-on admettre, au seuil de 5 %, qu’il n’y a pas de
différence significative entre les taux d’activités dans les deux milieux ?

10.4.3. Lors d’une campagne électorale, un parti politique a effectué un sondage pour évaluer
les intentions de vote en faveur de ce parti. Quatre échantillons indépendants ont été choisis
dans quatre villes différentes. On a obtenu les résultats suivants :

Rabat Tanger Oujda Agadir


Voteront pour le parti 94 58 60 43
Ne voteront pas pour le parti 240 230 252 197
Total 334 288 312 240

Au seuil de signification de 5 % puis de 1 %, la proportion de la population des électeurs qui


ont l’intention de voter pour ce parti est-elle identique dans les quatre villes ?

10.4.4. Dans une population, soit p1, la proportion d'hommes possédant le baccalauréat et p2
la proportion de femmes possédant le baccalauréat. Le tableau suivant correspond à la
répartition de 200 individus choisis au hasard dans cette population.

hommes femmes
Possèdent le bac 32 26
ne possèdent pas le bac 64 78

Peut-on affirmer au risque 0,05, que p1 et p2 sont significativement différents ?

10.4.5. Dans un pays M, le gouvernement a annoncé que le taux de chômage est de 15,6 %.
Contestant ce chiffre, les députés de l'opposition ont fait appel à un institut de sondage. Celui ci
a réalisé une étude couvrant 4900 personnes en âge d'activité et a trouvé que le taux de
chômage est de 16,4 %. Avec un niveau de confiance de 0,95 ; estimez-vous que l'opposition a
raison de contester le chiffre annoncé par le gouvernement ?

206
Statistiques décisionnelles 10. Tests sur les proportions

10.4.6. Dans une population, on interroge un échantillon aléatoire de 400 personnes dont 160
sont âgées de 18 à 40 ans et 240 sont âgées de plus de 40 ans. On a trouvé que le pourcentage
des personnes propriétaires de leur logement dans les deux groupes sont respectivement 35% et
45%. Ces deux résultats sont-ils significativement différents au seuil de signification de
5 % puis de 1 % ?

10.4.7. Le tableau suivant donne le nombre d’étudiants qui ont été brillants et médiocres devant
trois examinateurs :

Examinateur 1 Examinateur 2 Examinateur 3 Total


Brillants 50 47 56 153
Médiocres 5 14 8 27
Total 55 61 64 180

Au seuil de 5 % puis de 10 %, testez l’hypothèse selon laquelle le nombre d’étudiants


médiocres est le même pour chaque examinateur.

10.4.8. Quelques jours avant une consultation électorale mettant deux candidats A et B en
présence, deux instituts de sondage interrogent les électeurs. Pour l'institut X, qui a interrogé
1600 personnes, le candidat A ne recueillerait que 47 % des suffrages. Pour l'institut Y, qui a
interrogé 2500 personnes, A recueillerait 50 % des suffrages.

Ces deux résultats sont-ils significativement différents avec un degré de confiance de 95 % ?

10.4.9. L'expérience suivante a été réalisée par Weldon : il a lancé un dé 315 672 fois, il a tiré
106 602 fois l'une des faces 5 ou 6 Peut-on accepter l'hypothèse selon laquelle le dé est
équilibré, au risque de 5% ?

10.4.10. Un fabricant affirme qu'au moins 95 % de l’équipement qu'il fournit à un dépositaire


est conforme au cahier des charges. L’examen d'un échantillon de 200 pièces fournies montre
que 18 pièces sont défectueuses. Que penser de l'affirmation du fabricant au seuil de confiance
de 5 % puis de 10 % ?

10.4.11. Pour une élection, on effectue un sondage pour évaluer les intentions de vote en faveur
du parti M. Dans la ville de Casablanca, sur 450 personnes interrogées, 52% ont l'intention de
voter pour M. Dans la ville de Rabat, sur 300 personnes interrogées, 49 % ont l'intention de
voter pour M. Au risque de 5%, y a-t-il une différence d'intention de vote dans ces deux villes?

10.4.12. Un chercheur a découvert un procédé efficace à 90 % pour prolonger la durée de vie


des ballons à eau chaude. On teste son procédé sur 200 ballons. On constate qu'il est efficace
pour 160 d’entre eux. L’affirmation du chercheur est-elle légitime au seuil de signification de
0,05 ?

207
Statistiques décisionnelles 10. Tests sur les proportions

10.4.13. Un laboratoire annonce que l'un de ses médicaments est efficace à 95 %. Sur un
échantillon de 400 personnes le traitement s'est révélé efficace sur 368 d'entre elles. Quel
risque faut-il accepter si l'on considère que l'affirmation du laboratoire est légitime ?

10.4.14. Une entreprise commerciale à succursales multiples procède à un sondage dans ses
magasins de Rabat et Casablanca. A Rabat, sur 1000 clients interrogés, 350 déclarent souhaiter
que le magasin reste ouvert jusqu’à 21 heures tandis qu’à Casablanca, sur 900 clients, 280 ont
émis ce même vœu. L’entreprise peut-elle, au seuil de signification de 5 % puis de 10 %,
considérer que sa clientèle de Rabat réagit comme celle de Casablanca ?

10.5. SOLUTIONS DES EXERCICES D’APPLICATION.

10.5.1. Solution de l’exercice 10.4.1.

Pour répondre à cette question, on doit vérifier si le nouveau pourcentage obtenu par le
sondage, n’est pas inférieur à la norme de 52 %. Il s’agit donc de faire un test de conformité de
la proportion.

Hypothèse nulle :
Il s’agit d’un test unilatéral à gauche.

H0 p = 0,52 H1 : p < 0,52

Variable de décision :
La variable de décision du test correspond à la fréquence fn de l’échantillon :

800
VD = fn = = 0,50
1600

pq
La distribution de la proportion suit une loi normale de moyenne p et d’écart type (la
n
taille de l’échantillon est supérieure à 30 et le produit n p > 5).

La variable de décision réduite est :

fn  p0 0,50  0,52
VDR = = = - 1,60
p 0 (1  p 0 ) 0,52(1  0,52)
n 1600

208
Statistiques décisionnelles 10. Tests sur les proportions

Région d’acceptation :
La région d’acceptation est l’intervalle [ Z ; +[.

a) Au seuil de signification de 95 % ( = 0,05) : Z = Z0,05 = -1,65

La région d’acceptation est donc l’intervalle [-1,65 ; +[.

On accepte l’hypothèse nulle car la variable de décision réduite appartient à la région


d’acceptation. Ce résultat n'est donc pas significatif d'une désaffection des électeurs pour ce
candidat.

b) Au seuil de signification de 90 % ( = 0,1)

Z   Z 0 ,1   1,28

La région d’acceptation est [- 1,28 ; + ]. On rejette l’hypothèse nulle. Ce résultat est donc
significatif d’une désaffection des électeurs pour ce candidat.

10.5.2. Solution de l’exercice 10.4.2.

Pour répondre à cette question, on doit réaliser un test de comparaison de deux proportions.

Hypothèse nulle :
Ce test a pour but de vérifier si la proportion p1 des personnes actives dans le milieu rural est
ou n’est pas égale à la proportion p2 des personnes actives dans le milieu urbain.

Il s’agit d’un test bilatéral : H0 : p1 = p2 et H1 : p 1  p 2

Variable de décision :
D’après les données :

74 81
f n1  = 0,64 f n2  = 0,77
115 105

155
f n 2 n 2  = 0,70
220

209
Statistiques décisionnelles 10. Tests sur les proportions

La variable de décision centrée réduite est :


f n1  f n 2
VDR =
1 1
f n1  n 2(1  f n1  n 2)(  )
n1 n 2

0,64  0,77
VDR = = -2,10
1 1
0,70(1  0,70)(  )
115 105

Région d’acceptation :
Pour  = 0,05 la valeur de Z1  est : Z0,975 = 1,96
2

VDR > Z1  , on rejette donc l’hypothèse nulle. C’est-à-dire, il y a une différence
2
significative entre les taux d’activités dans les deux milieux.

10.5.3. Solution de l’exercice 10.4.3.

Pour répondre à cette question, on doit réaliser un test de comparaison de plusieurs proportions.

Formulation de l’hypothèse nulle :


Ho : p 1 = p 2 = p 3 = p 4
H1: au moins une des proportions est différente des autres.

Variable de décision :
Sous l’hypothèse nulle : p1 = p2 = p3 = p4, il y a la même proportion inconnue p dans les 4
villes. Cette proportion peut être estimée par la fréquence observée f dans l’échantillon unique
qui est la réunion des 4 échantillons.
94  58  60  43
f   0,22
334  288  312  240

Sous l’hypothèse nulle, les effectifs théoriques sont :

Effectifs théoriques

Rabat Tanger Oujda Agadir


Voteront pour le parti 73,48 63,36 68,64 52,8
Ne voteront pas pour le parti 260,52 224,64 243,36 187,2
Total 334 288 312 240

210
Statistiques décisionnelles 10. Tests sur les proportions

On calcule la variable de décision VD :

(94  73,48)² (240  260,52)² (58  63,36)²


VD =  
73,48 260,52 63,36

(230  224,64)² (60  68,64)² (252  243,36)²


+  
224,64 68,64 243,36

(43  52,8)² (197  187,2)²


+  = 11,65
52,8 187,2

La variable de décision est une variable aléatoire Khi deux avec 3 degrés de liberté.

Région d’acceptation :
 
La région d’acceptation est donc l’intervalle 0 ; 12   .

- Au seuil de signification de 5 %, la valeur ²0,95 à 3 degrés de liberté est égale à 7,81.

La valeur de la variable de décision est supérieure à la valeur ²0,95 à 3 degrés de liberté, on


rejettera donc l’hypothèse nulle, c’est-à-dire au seuil de signification de 5 %, la proportion de
la population des électeurs qui ont l’intention de voter pour ce parti n’est pas identique dans les
quatre villes.

- Au seuil de signification de 1 %, la valeur  02,999 à 3 degrés est égale à 16,27.


La valeur de la variable de décision est inférieure à la valeur 02,999 à 3 degrés de liberté, on
acceptera donc l’hypothèse nulle, c’est-à-dire au seuil de 1 %, l’intention de vote pour ce parti
est identique dans les quatre villes.

10.5.4. Solution de l’exercice 10.4.4.

Pour répondre à cette question, on doit réaliser un test de comparaison de deux proportions.

Hypothèse nulle :
Ce test a pour but de vérifier si la proportion p1 des hommes possédant le bac est ou n’est pas
égale à la proportion p2 des femmes possédant le bac.
Il s’agit d’un test bilatéral : H0 : p1 = p2 et H1 : p 1  p 2

211
Statistiques décisionnelles 10. Tests sur les proportions

Variable de décision :
D’après les données :
Hommes Femmes Total
Possèdent le bac 32 26 58
Ne possèdent pas le bac 64 78 142
Total 96 104 200
32 26
f n1  = 0,33 f n2  = 0,25
96 104

58
f n 2 n 2  = 0,29
200
La variable de décision centrée réduite est :
f n1  f n 2
VDR =
1 1
f n1  n 2(1  f n1  n 2)(  )
n1 n 2

0,33  0,25
VDR = = 1,25
1 1
0,29(1  0,29)(  )
96 104

Région d’acceptation :
Pour  = 0,05 la valeur de Z1  est : Z0,975 = 1,96
2

VDR < Z1  , on accepte donc l’hypothèse nulle. C’est-à-dire, il n’y a pas de différence
2
significative entre la proportion des hommes possédant le bac et celle des femmes possédant le
bac.

10.5.5. Solution de l’exercice 10.4.5.

Pour répondre à cette question, on doit vérifier si le nouveau pourcentage obtenu par le
sondage, n’est pas supérieur à la norme de 15,6 % annoncée par le gouvernement. Il s’agit
donc de faire un test de conformité de la proportion.

Hypothèse nulle :
Il s’agit d’un test unilatéral à droite

H0 p = 0,156 H1 : p>< 0,156

212
Statistiques décisionnelles 10. Tests sur les proportions

Variable de décision :
La variable de décision du test correspond à la fréquence fn de l’échantillon :

VD = fn = 0,164
pq
La distribution de la proportion suit une loi normale de moyenne p et d’écart type (la
n
taille de l’échantillon est supérieure à 30 et le produit n p > 5).

La variable de décision réduite est :

fn  p0 0,164  0,156
VDR = = = 1,54
p 0 (1  p 0 ) 0,156(1  0,156)
n 4900

Région d’acceptation :
La région d’acceptation est l’intervalle ]- ; Z1  ].

Au seuil de signification de 95 % ( = 0,05) : Z1  = Z0,95 = 1,65

La région d’acceptation est donc l’intervalle ]- ; 1,65].

On accepte l’hypothèse nulle car la variable de décision réduite appartient à la région


d’acceptation. C’est-à-dire au seuil 5 % l'opposition a tort de contester le chiffre annoncé par le
gouvernement.

10.5.6. Solution de l’exercice 10.4.6.

Pour répondre à cette question, on doit réaliser un test de comparaison de deux proportions.

Hypothèse nulle :
Ce test a pour but de vérifier si la proportion p1 des personnes propriétaires de leur logement
dans la tranche d’âge 18 à 40 ans est ou n’est pas égale à la proportion p 2 des personnes
propriétaires de leur logement dans la tranche d’âge de plus de 40 ans.

Il s’agit d’un test bilatéral : H0 : p1 = p2 et H1 : p 1  p 2

Variable de décision :
D’après les données :
f n1 = 0,35 f n2 = 0,45
160.0,35  240.0,45
f n 2 n 2  = 0,41
160  240

213
Statistiques décisionnelles 10. Tests sur les proportions

La variable de décision centrée réduite est :


f n1  f n 2
VDR =
1 1
f n1  n 2(1  f n1  n 2)(  )
n1 n 2

0,35  0,45
VDR = = -1,99
1 1
0,41(1  0,41)(  )
160 240

Région d’acceptation :
- Pour  = 0,05 la valeur de Z1  est : Z0,975 = 1,96
2

VDR > Z1  , on rejette donc l’hypothèse nulle. C’est-à-dire, au seuil 5 % il y a une
2
différence significative entre les proportions de personnes propriétaires de leur logement dans
les deux tranches d’âge.

- Pour  = 0,01 la valeur de Z  est Z0,995 = 2,58


1
2

VDR  Z  , on accepte donc l’hypothèse nulle. C’est-à-dire au seuil de 1 % il n’y a pas


1
2
de différence significative entre les proportions de personnes propriétaires de leur logement
dans les deux tranches d’âge.

10.5.7. Solution de l’exercice 10.4.7.

Pour répondre à cette question, on doit réaliser un test de comparaison de plusieurs proportions.

Formulation de l’hypothèse nulle :


Ho: p1 = p2 = p3
H1: au moins une des proportions est différente des autres.

Variable de décision :
Sous l’hypothèse nulle : p1 = p2 = p3, il y a la même proportion inconnue p pour les 3
examinateurs. Cette proportion peut être estimée par la fréquence observée f dans l’échantillon
unique qui est la réunion des 3 échantillons.

27
f   0,15
180

214
Statistiques décisionnelles 10. Tests sur les proportions

Sous l’hypothèse nulle, les effectifs théoriques sont :

Effectifs théoriques

Examinateur 1 Examinateur 2 Examinateur 3


Brillants 46,75 51,85 54,40
Médiocres 8,25 9,15 9,60
Total 55 61 64

On calcule la variable de décision VD :

(50  46,75)² (47  51,85)² (56  54,40)²


VD =  
46,75 51,85 54,40

(5  8,25)² (14  9,15)² (8  9,60)²


+  
8,25 9,15 9,60

VD = 4,84

La variable de décision est une variable aléatoire Khi deux avec 2 degrés de liberté.

Région d’acceptation :
La région d’acceptation est donc l’intervalle [0 ; ²1-[.

- Au seuil de signification de 5 %, la valeur ²0,95 à 2 degrés de liberté est égale à 5,99.

La valeur de la variable de décision est inférieure à la valeur ²0,95 à 2 degrés de liberté, on


acceptera donc l’hypothèse nulle, c’est-à-dire au seuil de signification de 5 %, le nombre
d’étudiants médiocres est le même pour chaque examinateur.

- Au seuil de signification de 10 %, la valeur  02,90 à 2 degrés de liberté est égale à 4,61.

La valeur de la variable de décision est supérieure à la valeur  02,90 à 2 degrés de liberté, on


rejettera donc l’hypothèse nulle, c’est-à-dire au seuil de 10 %, le nombre d’étudiants médiocres
est le même pour chaque examinateurs.

10.5.8. Solution de l’exercice 10.4.8.

Pour répondre à cette question, on doit réaliser un test de comparaison de deux proportions.

215
Statistiques décisionnelles 10. Tests sur les proportions

Hypothèse nulle :
Ce test a pour but de vérifier si la proportion p1 des personnes qui voteraient pour le candidat
A, estimée par l’institut X, est ou n’est pas égale à la proportion p 2 des personnes qui voteraient
pour le candidat A, estimée par l’institut Y.
Il s’agit d’un test bilatéral : H0 : p1 = p2 et H1 : p 1  p 2

Variable de décision :
D’après les données :
f n1 = 0,47 f n2 = 0,50
1600.0,47  2500.0,50
f n 2 n 2  = 0,49
1600  2500

La variable de décision centrée réduite est :

f n1  f n 2
VDR =
1 1
f n1  n 2(1  f n1  n 2)(  )
n1 n 2

0,47  0,50
VDR = = -1,11
1 1
0,49(1  0,49)(  )
1600 2500

Région d’acceptation :
Pour  = 0,05 la valeur de Z1  est : Z0,975 = 1,96
2

VDR < Z1  , on accepte donc l’hypothèse nulle. C’est-à-dire, au seuil 5 % il n’y a pas de
2
différence significative entre les résultats obtenus par les deux instituts.

10.5.9. Solution de l’exercice 10.4.9.

Pour répondre à cette question, on doit vérifier si le pourcentage obtenu par l’expérience, est ou
n’est pas égal au pourcentage théorique, c’est-à-dire la probabilité d’avoir les faces 5 ou 6 lors
du jet d’un dé équilibré.

Probabilité d’avoir les faces 5 ou 6 lors du jet d’un dé équilibré est de 2 sur 6, soit 0,333.

Hypothèse nulle :
Il s’agit d’un test bilatéral :

H0 p = 0,333 H1 : p  0,333
216
Statistiques décisionnelles 10. Tests sur les proportions

Variable de décision :
La variable de décision du test correspond à la fréquence fn de l’expérience :

106602
VD = fn = = 0,338
315672
pq
La distribution de la proportion suit une loi normale de moyenne p et d’écart type (la
n
taille de l’échantillon est supérieure à 30 et le produit n p > 5).

La variable de décision réduite est :

fn  p0 0,338  0,333
VDR = = = 5,96
p 0 (1  p 0 ) 0,333(1  0,333)
n 315672

Région d’acceptation :
Pour  = 0,05 la valeur de Z1  est : Z0,975 = 1,96
2

VDR > Z1  , on rejette donc l’hypothèse nulle. C’est-à-dire, au seuil 5 % le dé n’est pas
2
équilibré.

10.5.10. Solution de l’exercice 10.4.10.

Pour répondre à cette question, on doit vérifier si le nouveau pourcentage obtenu par le
sondage, n’est pas inférieur à la norme de 95 %. Il s’agit donc de faire un test de conformité de
la proportion.

Hypothèse nulle :
Il s’agit d’un test unilatéral à gauche :
H0 p = 0,95 H1 : p < 0,95

Variable de décision :
La variable de décision du test correspond à la fréquence fn de l’échantillon :
VD = fn = 182 = 0,91
200
pq
La distribution de la proportion suit une loi normale de moyenne p et d’écart type (la
n
taille de l’échantillon est supérieure à 30 et le produit n p > 5).

217
Statistiques décisionnelles 10. Tests sur les proportions

La variable de décision réduite est :


fn  p0 0,91  0,95
VDR = = = - 2,60
p 0 (1  p 0 ) 0,95(1  0,95)
n 200

Région d’acceptation :
La région d’acceptation est l’intervalle [ Z ; +[.

- Au seuil de signification de 95 % ( = 0,05) : Z = Z0,05 = -1,65

La région d’acceptation est donc l’intervalle [-1,65 ; +[.

On rejette l’hypothèse nulle car la variable de décision réduite n’appartient pas à la région
d’acceptation. Au seuil 5 %, l’affirmation du fabricant n’est pas correcte.

- A seuil de signification de 99,9 % ( = 0,001) :


Z  Z0, 001   3,09

La région d’acceptation est donc l’intervalle [- 3,09 ; + [. On accepte l’hypothèse nulle. Au
seuil de 1 %, l’affirmation du fabricant est correcte.

10.5.11. Solution de l’exercice 10.4.11.

Pour répondre à cette question, on doit réaliser un test de comparaison de deux proportions.

Hypothèse nulle :
Ce test a pour but de vérifier si la proportion p1 des personnes qui voteraient pour le parti M
dans la ville de Casablanca est ou n’est pas égale à la proportion p2 des personnes qui
voteraient pour le parti M dans la ville de Rabat.

Il s’agit d’un test bilatéral : H0 : p1 = p2 et H1 : p 1  p 2

Variable de décision :
D’après les données :

f n1 = 0,52 f n2 = 0,49
450.0,52  300.0,49
f n 2 n 2  = 0,51
450  300

218
Statistiques décisionnelles 10. Tests sur les proportions

La variable de décision centrée réduite est :

f n1  f n 2
VDR =
1 1
f n1  n 2(1  f n1  n 2)(  )
n1 n 2

0,52  0,49
VDR = = 0,54
1 1
0,51(1  0,51)(  )
450 300

Région d’acceptation :
Pour  = 0,05 la valeur de Z1  est : Z0,975 = 1,96
2

VDR < Z1  , on accepte donc l’hypothèse nulle. C’est-à-dire, au seuil 5 % il n’y a pas de
2
différence significative entre les intentions de vote pour le parti M dans les deux villes
Casablanca et Rabat.

10.5.12. Solution de l’exercice 10.4.12.

Pour répondre à cette question, on doit vérifier si le pourcentage obtenu par le test, n’est pas
inférieur à la norme de 90 %. Il s’agit donc de faire un test de conformité de la proportion.

Hypothèse nulle :
Il s’agit d’un test unilatéral à gauche

H0 p = 0,90 H1 : p < 0,90

Variable de décision :
La variable de décision du test correspond à la fréquence fn du test :

VD = fn = 160 = 0,80
200

pq
La distribution de la proportion suit une loi normale de moyenne p et d’écart type (la
n
taille de l’échantillon est supérieure à 30 et le produit n p > 5).

219
Statistiques décisionnelles 10. Tests sur les proportions

La variable de décision réduite est :

fn  p0 0,80  0,90
VDR = = = - 4,71
p 0 (1  p 0 ) 0,90(1  0,90)
n 200

Région d’acceptation :
La région d’acceptation est l’intervalle [ Z ; +[.

Au seuil de signification de 95 % ( = 0,05) : Z = Z0,05 = -1,65

La région d’acceptation est donc l’intervalle [-1,65 ; +[.

On rejette l’hypothèse nulle car la variable de décision réduite n’appartient pas à la région
d’acceptation. L’affirmation du chercheur n’est pas légitime au seuil de signification de 0,05.

10.5.13. Solution de l’exercice 10.4.13.

Pour répondre à cette question, on doit accepter que le pourcentage obtenu par le test, n’est pas
inférieur à la norme de 95 %. Il s’agit donc de faire un test de conformité de la proportion.

Hypothèse nulle :
Il s’agit d’un test unilatéral à gauche

H0 p = 0,95 H1 : p < 0,95

Variable de décision :
La variable de décision du test correspond à la fréquence fn du test :

368
VD = fn = = 0,92
400
pq
La distribution de la proportion suit une loi normale de moyenne p et d’écart type (la
n
taille de l’échantillon est supérieure à 30 et le produit n p > 5).

La variable de décision réduite est :

fn  p0 0,92  0,95
VDR = = = - 2,75
p 0 (1  p 0 ) 0,95(1  0,95)
n 400

220
Statistiques décisionnelles 10. Tests sur les proportions

Région d’acceptation :
La région d’acceptation est l’intervalle [ Z ; +[.

Le seuil de signification  est inconnu. Pour accepter l’hypothèse nulle, la variable de décision
réduite doit appartenir à la région d’acceptation. Z doit donc être inférieure ou égale à –2,75.

Z = -2,75 =>  = 0,003

10.5.14. Solution de l’exercice 10.4.14.

Pour répondre à cette question, on doit réaliser un test de comparaison de deux proportions.

Hypothèse nulle :
Ce test a pour but de vérifier si la proportion p1 des personnes de Rabat qui souhaiteraient que
le magasin reste ouvert jusqu’à 21 heures est ou n’est pas égale à la proportion p2 des
personnes de Casablanca qui souhaiteraient que le magasin reste ouvert jusqu’à 21 heures.

Il s’agit d’un test bilatéral : H0 : p1 = p2 et H1 : p 1  p 2

Variable de décision :
D’après les données :

f n1 = 350 = 0,35 f n2 = 280 = 0,31


1000 900

f n2  n2  350 280 = 0,33


1000900
La variable de décision centrée réduite est :

f n1  f n 2
VDR =
1 1
f n1  n 2(1  f n1  n 2)(  )
n1 n 2

0,35  0,31
VDR = = 1,85
1 1
0,33(1  0,33)(  )
1000 900

221
Statistiques décisionnelles 10. Tests sur les proportions

Région d’acceptation :
Pour  = 0,05 la valeur de Z 
est : Z0,975 = 1,96
1
2

VDR < Z1  , on accepte donc l’hypothèse nulle. C’est-à-dire l’entreprise peut, au seuil de
2
signification de 5%, considérer que sa clientèle de Rabat réagit comme celle de Casablanca.

Pour  = 0,1 la valeur Z  est : Z0,95  1,64


1
2

VDR  Z  , on rejette donc l’hypothèse nulle. C’est-à-dire l’entreprise ne peut pas, au seuil
1
2

de signification de 10 %, considérer que sa clientèle de Rabat réagit comme celle de


Casablanca.

222
Statistiques décisionnelles. 11. Tests non paramétriques

CHAPITRE 11
TESTS NON PARAMETRIQUES

11.1. TEST DE VALIDITE DE LOI DE PROBABILITE D’UNE DISTRIBUTION.

Les tests d’ajustement sont destinés à comparer une distribution observée et une distribution
théorique donnée. D’une façon générale, on considère d’une part, une population infinie dont
les individus sont classés en k catégories, en fonction d’un critère qualitatif ou quantitatif, et
d’autre part, un échantillon aléatoire et simple d’effectif n, dont les individus sont classés de la
même manière. Le but du test est de vérifier si la population possède une distribution de
probabilité donnée :
k
p1, p2, p3, …, pk tel que : p
i 1
i 1

Formulation de l’hypothèse nulle :


Pour comparer la distribution théorique et la distribution observée, on est amené à confronter
les effectifs observés ni et les effectifs attendus ou théoriques correspondants npi.

L’hypothèse nulle est alors :


k k
H0 : ni = npi avec  n i =  npi = n
i 1 i 1
Variable de décision :
On distingue deux cas d’application de ces tests, selon que la distribution théorique est ou n’est
pas complètement définie. Dans le premier cas, la variable de décision peut être calculée
immédiatement. Dans le second cas, la distribution de probabilité de la population n’est définie
qu’en fonction d’un ou de plusieurs paramètres, ceux-ci doivent préalablement être estimés à
partir des données de l’échantillon.

223
Statistiques décisionnelles. 11. Tests non paramétriques

11.1.1. CAS D’UNE DISTRIBUTION COMPLETEMENT DEFINIE.

Pour comparer la distribution théorique et la distribution observée, on est amené à confronter


les effectifs observés ni et les effectifs attendus ou théoriques correspondants npi.

Les effectifs attendus doivent être tous supérieurs ou égaux à 5. Quand cette condition n’est pas
remplie, on peut regrouper des classes voisines, de manière à augmenter les effectifs attendus.

On calcule la variable de décision VD :

k
(n i  np i ) 2
VD  
i 1 np i

On peut démontrer que la variable de décision est une variable aléatoire Khi deux avec (k-1)
degré de liberté. k correspond au nombre de classes après regroupement.

La variable de décision peut être calculée plus facilement par :

k
n i2
VD   np
i 1 i
n

11.1.2. CAS D’UNE DISTRIBUTION INCOMPLETEMENT DEFINIE.

Lorsque la distribution théorique n’est pas complètement définie, le ou les paramètres qui
caractérisent cette distribution doivent tout d’abord être estimés. On peut calculer ensuite les
^ ^
probabilités estimées pi , les effectifs attendus correspondants n pi , et la valeur de décision :

k
n i2
VD   np
i 1 i
n

Pour déterminer le nombre de degrés de liberté, on doit déduire de (k – 1) le nombre de


paramètres estimés.

Région d’acceptation :
La variable de décision est nulle lorsque les effectifs observés sont tous égaux aux effectifs
attendus, c’est à dire, lorsqu’il y a concordance absolue entre la distribution observée et la
distribution théorique. La valeur de la variable de décision est d’autant plus grande que les
écarts entre les effectifs observés et attendus sont plus grands. La valeur critique qui délimite la
région d’acceptation est ² telle que :

p(VD < ²) = 1 -   ² = ²1-

224
Statistiques décisionnelles. 11. Tests non paramétriques


Le test étant toujours unilatéral, la région d’acceptation est donc l’intervalle 0 ; 12   .
On rejettera donc l’hypothèse nulle lorsque la valeur de la variable de décision est supérieure
ou égale à ²1-.

11.2. TEST D’INDEPENDANCE.

Les tests d’indépendance ont pour but de contrôler l’indépendance stochastique de deux ou
plusieurs critères de classification. Ils permettent également d’effectuer des comparaisons de
proportions.

Les tests d’indépendance concernent une population subdivisée en pq classes, en fonction de


deux critères de classification. La distribution de probabilité correspondante est alors une
distribution à deux dimensions, et les données relatives à tout échantillon sont présentées sous
la forme d’un tableau de contingence.

Pour des échantillons aléatoires et simples, si les deux critères de classification sont
indépendants, les probabilités pij de la distribution à deux dimensions peuvent être estimées
par :
p̂ ij  f i. x f . j
ni nj
fi  et f j  sont les fréquences relatives marginales.
n n

ni. et n.j sont les effectifs marginaux, et nij les effectifs conjoints.
Les effectifs attendus correspondants sont donc :

ni. n. j ni. x n. j
np̂ ij  nfi x fj  n 
n n n

Les effectifs attendus doivent tous être supérieurs ou égaux à 5.

Formulation de l’hypothèse nulle :


Pour comparer la distribution théorique et la distribution observée, on est amené à confronter
^
les effectifs observés nij et les effectifs attendus ou théoriques correspondants n pij .

L’hypothèse nulle est l’indépendance des deux critères de classification.

^
H0 : nij = n pij

225
Statistiques décisionnelles. 11. Tests non paramétriques

Variable de décision :
La comparaison des effectifs observés et attendus se fait comme pour les tests d’ajustement, en
calculant la variable de décision suivante :

p q
n ij ²
VD = 
i 1 j1
^ -n
n p ij

On démontre que la variable de décision est une variable aléatoire Khi deux avec (p-1)(q-1)
degré de liberté.

Région d’acceptation :
La valeur critique qui délimite la région d’acceptation est ² telle que :

p(VD < ²) = 1 -   ² = ²1-

Le test étant toujours unilatéral, la région d’acceptation est donc l’intervalle [0 ; ²1-[.

On rejettera donc l’hypothèse nulle lorsque la valeur de la variable de décision est supérieure
ou égale à ²1-.

11.3. ENONCES DES EXERCICES D’APPLICATION.

11.3.1. Le tableau suivant donne la distribution de fréquences des nombres de garçons observés
dans 1600 familles de 4 enfants, considérées comme choisies au hasard au sein d’une très large
population. En fonction de ces résultats, peut-on affirmer, au seuil de 5 %, puis de 1 % que le
nombre de garçons suit une loi binomiale ?

Nombre de garçons Nombre de familles


0 113
1 367
2 576
3 426
4 118
Total 1600

11.3.2. Au concours d’entrée à une école, l’épreuve de culture générale est notée de 0 à 50. On
tire au hasard un échantillon de 100 candidats et l’on relève que les notes qu’ils ont obtenues se
classent en cinq tranches de la manière suivante :

226
Statistiques décisionnelles. 11. Tests non paramétriques

Tranches de notes Nombre de candidats


Note  10 10
10 < Note  20 20
20 < Note  30 30
30 < Note  40 20
40 < Note  50 20

Le jury se demande s’il est justifié de considérer que la distribution des notes suit une loi
normale dans la population de tous les candidats.
a) Au seuil de 5 %.
b) Au seuil de 1 %.

11.3.3. Une enquête a été réalisée auprès d’un échantillon de 500 individus prélevé au sein
d’une population cible de 4 millions d'individus. Les données que l'on possède sur cette
population sont les suivantes :

Hommes 48% soit 1,92 millions d’hommes


Femmes 58% soit 2,08 millions de femmes

Sexe Hommes Femmes Total


Niveau d’instruction % Effectifs % Effectifs
Aucun 35 672000 50 1040000 1712000
Primaire 30 576000 25 520000 1096000
Secondaire 15 288000 10 208000 496000
Formation professionnelle 13 249600 10 208000 457600
Supérieur 7 134400 5 104000 238400
Total 100 1920000 100 2080000 4000000

Au dépouillement, on a trouvé que les individus qui ont formé l’échantillon ont les
caractéristiques suivantes :

Sexe Hommes Femmes


Total
Niveau d’instruction % Effectifs % Effectifs
Aucun 32 61 54 112 173
Primaire 28 54 23 48 102
Secondaire 18 35 12 25 60
Formation professionnelle 14 27 8 17 44
Supérieur 8 15 3 6 21
Total 100 192 100 208 400

L’échantillon prélevé est-il représentatif de la population étudiée ?

227
Statistiques décisionnelles. 11. Tests non paramétriques

11.3.4. On a enregistré plusieurs fois de suite le nombre de personnes qui se sont présenté à un
guichet automatique bancaire, pendant des temps de 5 minutes.

Nombres d’arrivées 0 1 2 3 4 5 6 7 8 9 10
Fréquences absolues observées 1 4 12 18 22 17 11 6 4 3 2

Peut-on affirmer au seuil de signification de 5 % que le nombre de personnes qui se présentent


à un guichet automatique bancaire, pendant un intervalle de temps de 5 minutes suit une loi de
Poisson ?

11.3.5. On a mesuré la longueur, en mm, de 75 grains de blé. Les résultats obtenus ont été
répartis en neuf classes;

longueur en mm Nombre de grains


[5,25 ; 5,75[ 1
[5,75 ; 6,25[ 6
[6,25 ; 6,75[ 6
[6,75 ; 7,25[ 9
[7,25 ; 7,75[ 15
[7,75 ; 8,25[ 17
[8,25 ; 8,75[ 10
[8,75 ; 9,25[ 8
[9,25 ; 9,75[ 3

Peut-on ajuster à cette distribution la loi normale de moyenne 7,75 mm, et d’écart type 0,94
mm ? (seuil de signification de 5 %)

11.3.6. Le centre de transfusion à Rabat a enregistré la répartition suivante des groupes


sanguins de 525 donneurs bénévoles.

Groupes sanguins O A B AB
Effectifs observés 251 219 29 26

La répartition des groupes sanguins dans la population marocaine est la suivante :

Groupes sanguins O A B AB
Proportions 44,5% 44% 8% 3,5%

Au seuil de signification de 5%, puis de 1 % les 525 donneurs sont-ils représentatifs de la


population marocaine en terme de groupes sanguins ?

228
Statistiques décisionnelles. 11. Tests non paramétriques

11.3.7. Un tour opérateur souhaite segmenter son marché. Il se demande s’il existe un lien
entre le choix d’une destination de vacances et le niveau d’instruction. Les données recueillies
ont été structurées sous forme de tableau de contingence.

Niveau Destination de vacances


d’instruction Mer Montagne Désert Total
Primaire 300 50 100 450
Secondaire 250 80 20 350
Supérieur 50 120 30 200
Total 600 250 150 1000

11.3.8. Le directeur de ventes d’un laboratoire pharmaceutique veut savoir s’il existe des
différences significatives entre les régions en terme de niveau d’accueil d’un nouveau produit.
Les résultats suivants ont été obtenus auprès d’un échantillon aléatoire de clients :

Régions
Niveau d’accueil Nord Est Sud Ouest
Faible 22 35 0 5
Modéré 84 55 8 24
Elevé 25 17 22 12

Le niveau d’accueil dépend-t-il de la région ?

11.3.9. Les 150 étudiants d’une école doivent choisir entre trois disciplines pour leur activité
parascolaire. Le choix des étudiants selon le sexe a été comme suit :

Discipline
Sexe
Sport Musique Théâtre Total
Fille 20 28 32 80
Garçon 43 16 11 70
Total 63 44 43 150

Peut-on affirmer au seuil de 5 % puis de 1 % que le choix des étudiants dépend de leur sexe ?

11.3.10. Le tableau ci-dessous donne la répartition de 10000 étudiants d’une université selon la
filière d’étude et la profession des parents.

Filière Sciences Médecine et


Droit LettresSciences PharmacieAutre Total
Profession économiques dentaire
Exploitant agricole 80 35 135 99 65 28 69 511
Salarié agricole 6 2 15 6 4 1 5 39
Patron 168 74 312 137 208 53 83 1035
Profession libérale 470 191 806 400 876 164 124 3031

229
Statistiques décisionnelles. 11. Tests non paramétriques

et cadre sup
Cadre moyen 236 99 493 264 281 56 123 1552
Employé 145 52 281 133 135 30 74 850
Ouvriers 166 64 401 193 127 23 157 1131
Personnel de service 16 6 27 11 8 2 10 80
Autres 305 115 624 247 301 47 132 1771
Total 1592 638 3094 1490 2005 404 777 10000

D’après les données ci-dessus, peut-on affirmer au seuil de signification de 5 %, qu’il y a un


lien entre la filière d’étude et la profession des parents ?

11.4. SOLUTIONS DES EXERCICES D’APPLICATION.

11.4.1. Solution de l’exercice 11.3.1.

Pour répondre à cette question, on doit réaliser un test d’ajustement dans le but de comparer la
distribution observée à la distribution binomiale.

Hypothèse nulle :
k k

H0 : ni = npi avec  n =  np
i 1
i
i 1
i =n

Variable de décision :
Pour comparer la distribution théorique et la distribution observée, on est amené à confronter
les effectifs observés ni et les effectifs attendus ou théoriques correspondants npi. On doit
calculer alors les probabilités pi en utilisant la loi binomiale.

La probabilité d’avoir un garçon est supposée égale à 0,5, la loi binomiale qui caractérise le
nombre de garçons dans une famille de 4 enfants a pour paramètre 4 et 0,5.

En utilisant la formule de la loi binomiale, on trouve les probabilités suivantes :

p ( x )  C nx p x q n  x

Distribution de la variable B(4 , 1/2)

x p(x)
0 0,0625
1 0,2500
2 0,3750
3 0,2500
4 0,0625
Total 1

230
Statistiques décisionnelles. 11. Tests non paramétriques

Le tableau suivant regroupe les effectifs observés ni et les effectifs attendus ou théoriques
correspondants npi.

x ni npi
0 113 100
1 367 400
2 576 600
3 426 400
4 118 100
Total 1600 1600

Les effectifs théoriques sont tous supérieurs à 5, on peut calculer la variable de décision :

k
n i2
VD   n
i  1 np i

113 2 367 2 576 2 426 2 118 2


VD       1600  10,3
100 400 600 400 100

Région d’acceptation :
La région d’acceptation est l’intervalle [0 ; ²1-[.

Pour  = 0,05, la valeur de ²1- avec 4 degrés de liberté est : ²0,95 = 9,49

La valeur de la variable de décision est supérieure à ²1- , on rejette donc l’hypothèse nulle.
C’est à dire qu’au seuil de 5%, on ne peut pas affirmer que le nombre de garçons suit une loi
binomiale.

Pour  = 0,01 la valeur de 12  avec 4 degrés de liberté est :  02,99  13,28

La valeur de la variable de décision est inférieure à 12  , on accepte donc l’hypothèse nulle.
C’est-à-dire qu’un seuil de 1 %, on peut affirmer que le nombre de garçons suit une binomiale.

11.4.2. Solution de l’exercice 11.3.2.

Pour répondre à cette question, on doit réaliser un test d’ajustement dans le but de comparer la
distribution observée à la distribution normale.

231
Statistiques décisionnelles. 11. Tests non paramétriques

Hypothèse nulle :
k k
H0 : ni = npi avec n i = npi = n
i 1 i 1

Variable de décision :
Pour comparer la distribution théorique et la distribution observée, on est amené à confronter
les effectifs observés ni et les effectifs attendus ou théoriques correspondants npi. On doit
calculer alors les probabilités pi en utilisant la loi normale. Pour cela, il faut estimer les
paramètres de la loi normale, à savoir, la moyenne et l’écart type.

La moyenne m peut être estimée par la moyenne calculée à partir de la distribution observée
alors que la variance sera estimée par la quasi-variance.

Reprenons les données et calculons la moyenne et la quasi-variance.

Tranches de notes Centres xi Effectifs ni


Note  10 5 10
10 < Note  20 15 20
20 < Note  30 25 30
30 < Note  40 35 20
40 < Note  50 45 20


x
n x i i
=
10.5  20.15  30.25  20.35  20.45
= 27
n i
10  20  30  20  20

^
² 
 n (x  x)²
i i
=
n 1 i

10.(5  27)²  20.(15  27)²  30.(25  27)²  20.(35  27)²  20.(45  27)² ^
² = 157,58
100  1
^
  157,58 = 12,55

La loi normale est de moyenne 27 et d’écart type 12,55.

Calculons les probabilités :

10  27
p(X  10) = p(Z  ) =  (-1,35) = 0,0885
12,55
10  27 20  27
p(10 < X  20) = p( <Z )
12,55 12,55
p(10 < X  20) =  (-0,56)- (-1,35) = 0,2877-0,0885 = 0,1992
232
Statistiques décisionnelles. 11. Tests non paramétriques

20  27 30  27
p(20 < X  30) = p( <Z )
12,55 12,55
p(20 < X  30) =  (0,24)- (-0,56) = 0,5948 - 0,2877 = 0,3071

30  27 40  27
p(30 < X  40) = p( <Z )
12,55 12,55
p(30 < X  40) =  (1,04)- (0,24) = 0,8508 – 0,5948 = 0,2560

40  27 50  27
p(40 < X  50) = p( <Z )
12,55 12,55
p(40 < X  50) =  (1,83)- (1,04) = 0,9664 – 0,8508 = 0,1156

Le tableau suivant regroupe les effectifs observés ni et les effectifs attendus ou théoriques
correspondants npi.

Tranches de notes ni pi npi


Note  10 10 0,0885 8,85
10 < Note  20 20 0,1992 19,92
20 < Note  30 30 0,3071 30,71
30 < Note  40 20 0,2560 25,6
40 < Note  50 20 0,1156 11,56

Les effectifs théoriques sont tous supérieurs à 5, on peut calculer la variable de décision :
k
n i2
VD  
i  1 npi
n

10 2 20 2 30 2 20 2 20 2
VD      100  10,91
8,85 19,92 30,71 25,6 11,56
Région d’acceptation :
La région d’acceptation est l’intervalle [0 ; ²1-[.

a) Pour  = 0,05, la valeur de ²1- avec 2 (5-2-1) degrés de liberté est : ²0,95 = 5,991

La valeur de la variable de décision est supérieure à ²1- , on rejette donc l’hypothèse nulle.
C’est-à-dire qu’au seuil de 5 %, il n’est pas justifié de considérer que la distribution des notes
suit une loi normale dans la population de tous les candidats.

b) Pour  = 0,001, la valeur de 12  avec 2 degrés de liberté est :  02,999  13,82 .

233
Statistiques décisionnelles. 11. Tests non paramétriques

La valeur de la variable de décision est inférieure à 12  , on accepte donc l’hypothèse nulle.
C’est-à-dire qu’au seuil de 1 %, il est justifié de considérer que la distribution des notes suit
une loi normale dans la population de tous les candidats.

11.4.3. Solution de l’exercice 11.3.3.

Pour répondre à cette question, on doit réaliser un test d’ajustement dans le but de comparer la
distribution observée à la distribution théorique.

Hypothèse nulle :
k k
H0 : ni = npi avec n i = npi = n
i 1 i 1

Variable de décision :
Pour comparer la distribution théorique et la distribution observée, on est amené à confronter
les effectifs observés ni et les effectifs attendus ou théoriques correspondants npi.

Le tableau suivant regroupe les effectifs observés ni et les effectifs attendus ou théoriques
correspondants npi.

Sexe Hommes Femmes


Effectifs Effectifs Effectifs Effectifs Total
Niveau d’instruction
théoriques observés théoriques observés
Aucun 67,2 61 104 112 173
Primaire 57,6 54 52 48 102
Secondaire 28,8 35 20,8 25 60
Formation professionnelle 24,96 27 20,8 17 44
Supérieur 13,44 15 10,4 6 21
Total 192 192 208 208 400

Les effectifs théoriques sont tous supérieurs à 5, on peut calculer la variable de décision :

k
n i2
VD  
i 1 npi
n

612 54 2 35 2 27 2 15 2
VD     
67,2 57,6 28,8 24,96 13,44
112 2 48 2 25 2 17 2 62
      400  6,8
104 52 20,8 20,8 10,4

234
Statistiques décisionnelles. 11. Tests non paramétriques

Région d’acceptation :
La région d’acceptation est l’intervalle [0 ; ²1-[.

Pour  = 0,05, la valeur de ²1- avec 9 degrés de liberté est : ²0,95 = 16,919

La valeur de la variable de décision est inférieure à ²1- , on accepte donc l’hypothèse nulle.
C’est-à-dire qu’au seuil de 5%, l’échantillon prélevé est représentatif de la population étudiée.

11.4.4. Solution de l’exercice 11.3.4.

Pour répondre à cette question, on doit réaliser un test d’ajustement dans le but de comparer la
distribution observée à la distribution de Poisson.

Hypothèse nulle :
k k
H0 : ni = npi avec n i = npi = n
i 1 i 1

Variable de décision :
Pour comparer la distribution théorique et la distribution observée, on est amené à confronter
les effectifs observés ni et les effectifs attendus ou théoriques correspondants npi. On doit
calculer alors les probabilités pi en utilisant la loi de Poisson.


On doit estimer le paramètre de la loi de Poisson en calculant la moyenne observée x.

x 
 n i x i 1.0 4.112.2... 2.10
= = 4,42
n i 100

En utilisant la formule de la loi de Poisson, on trouve les probabilités suivantes :

p(x) = e-4,42 . 4,42x / x !

Distribution de la variable de Poisson

x p(x) n pi
0 0,0120 1,20
1 0,0532 5,32
2 0,1176 11,76
3 0,1732 17,32
4 0,1914 19,14
5 0,1692 16,92
6 0,1246 12,46
7 0,0787 7,87
235
Statistiques décisionnelles. 11. Tests non paramétriques

8 0,0435 4,35
9 0,0214 2,14
10 0,0094 0,94

Le tableau suivant regroupe les effectifs observés ni et les effectifs attendus ou théoriques
correspondants npi.

x ni n pi
0 1 1,20
1 4 5,32
2 12 11,76
3 18 17,32
4 22 19,14
5 17 16,92
6 11 12,46
7 6 7,87
8 4 4,35
9 3 2,14
10 2 0,94
Total 100

Les effectifs théoriques inférieurs à 5 doivent être regroupés. On obtient les effectifs suivants :

x ni n pi
0 ou 1 5 6,52
2 12 11,76
3 18 17,32
4 22 19,14
5 17 16,92
6 11 12,46
7 6 7,87
8 ou plus 9 7,43
Total 100

On peut calculer la variable de décision :

k
n i2
VD  
i 1 npi
n
2
5 12 2 18 2 22 2
VD    
6,52 11,76 17,32 19,14
2
17 112 62 92
     100  2,34
16,92 12,46 7,87 7,43

236
Statistiques décisionnelles. 11. Tests non paramétriques

Région d’acceptation :
La région d’acceptation est l’intervalle 0 ;   .
2
1 

Pour  = 0,05, la valeur de ²1- avec (8-1-1)=6 degrés de liberté est : ²0,95 = 12,592

La valeur de la variable de décision est inférieure à ²1- , on accepte donc l’hypothèse nulle.
C’est-à-dire qu’on peut affirmer au seuil de signification de 5 % que le nombre de personnes
qui se présentent à un guichet automatique bancaire, pendant un intervalle de temps de 5
minutes suit une loi de Poisson.

11.4.5. Solution de l’exercice 11.3.5.

Pour répondre à cette question, on doit réaliser un test d’ajustement dans le but de comparer la
distribution observée à la distribution normale.

Hypothèse nulle :
k k
H0 : ni = npi avec n i = npi = n
i 1 i 1
Variable de décision :
Pour comparer la distribution théorique et la distribution observée, on est amené à confronter
les effectifs observés ni et les effectifs attendus ou théoriques correspondants npi. On doit
calculer alors les probabilités pi en utilisant la loi normale.

La loi normale est de moyenne 7,75 et d’écart type 0,94.

Calculons les probabilités :

5,25  7,75 5,75  7,75


p(5,25 < X  5,75) = p( <Z )
0,94 0,94
p(5,25 < X  5,75) = (-2,13)-(-2,66)=0,0166-0,0039= 0,0127

5,75  7,75 6,25  7,75


p(5,75 < X  6,25) = p( <Z )
0,94 0,94
p(5,75 < X  6,25) = (-1,60)-(-2,13)=0,0548-0,0166= 0,0382

6,25  7,75 6,75  7,75


p(6,25 < X  6,75) = p( <Z )
0,94 0,94
p(6,25 < X  6,75) = (-1,06)-(-1,60)=0,1446-0,0548= 0,0898

6,75  7,75 7,25  7,75


p(6,75 < X  7,25) = p( <Z )
0,94 0,94
237
Statistiques décisionnelles. 11. Tests non paramétriques

p(6,75 < X  7,25) = (-0,53)-(-1,06)=0,2981-0,1446= 0,1535

7,25  7,75 7,75  7,75


p(7,25 < X  7,75) = p( <Z )
0,94 0,94
p(7,25 < X  7,75) =  (0)- (-0,53) = 0,5-0,2981 = 0,2019

7,75  7,75 8,25  7,75


p(7,75 < X  8,25) = p( <Z )
0,94 0,94
p(7,75 < X  8,25) =  (0,53)- (0) = 0,7019-0,5 = 0,2019

8,25  7,75 8,75  7,75


p(8,25 < X  8,75) = p( <Z )
0,94 0,94
p(8,25 < X  8,75) =  (1,06)- (0,53)=0,8554-0,7019 = 0,1535

8,75  7,75 9,25  7,75


p(8,75 < X  9,25) = p( <Z )
0,94 0,94
p(8,75 < X  9,25) =  (1,60)- (1,06)=0,9452-0,8554 = 0,0898

9,25  7,75 9,75  7,75


p(9,25 < X  9,75) = p( <Z )
0,94 0,94
p(9,25 < X  9,75) =  (2,13)- (1,60)=0,9834-0,9452 = 0,0382

Le tableau suivant regroupe les effectifs observés ni et les effectifs attendus ou théoriques
correspondants npi.

longueur en mm ni pi npi
[5,25 ; 5,75[ 1 0,0127 0,9525
[5,75 ; 6,25[ 6 0,0382 2,8650
[6,25 ; 6,75[ 6 0,0898 6,735
[6,75 ; 7,25[ 9 0,1535 11,5125
[7,25 ; 7,75[ 15 0,2019 15,1425
[7,75 ; 8,25[ 17 0,2019 15,1425
[8,25 ; 8,75[ 10 0,1535 11,5125
[8,75 ; 9,25[ 8 0,0898 6,735
[9,25 ; 9,75[ 3 0,0382 2,865

Les effectifs théoriques inférieurs à 5 doivent être regroupés. On obtient les effectifs suivants :

longueur en mm ni npi
[5,25 ; 6,75[ 13 10,5525
[6,75 ; 7,25[ 9 11,5125
[7,25 ; 7,75[ 15 15,1425
238
Statistiques décisionnelles. 11. Tests non paramétriques

[7,75 ; 8,25[ 17 15,1425


[8,25 ; 8,75[ 10 11,5125
[8,75 ; 9,75[ 11 9,6

On peut calculer la variable de décision :

k
n i2
VD   npi  n
i 1

13 2 92 15 2 17 2
VD    
10,5525 11,5125 15,1425 15,1425
10 2 112
   75  3,26
11,5125 9,6

Région d’acceptation :
La région d’acceptation est l’intervalle [0 ; ²1-[.

Pour  = 0,05, la valeur de ²1- avec 5 degrés de liberté est :


²0,95 = 11,07

La valeur de la variable de décision est inférieure à ²1- , on accepte donc l’hypothèse nulle.
C’est-à-dire qu’au seuil de 5 %, on peut ajuster à cette distribution la loi normale de moyenne
7,75 mm, et d’écart type 0,94 mm.

11.4.6. Solution de l’exercice 11.3.6.

Pour répondre à cette question, on doit réaliser un test d’ajustement dans le but de comparer la
distribution observée à la distribution théorique.

Hypothèse nulle :
k k
H0 : ni = npi avec n i = npi = n
i 1 i 1

Variable de décision :
Pour comparer la distribution théorique et la distribution observée, on est amené à confronter
les effectifs observés ni et les effectifs attendus ou théoriques correspondants npi.

Le tableau suivant regroupe les effectifs observés ni et les effectifs attendus ou théoriques
correspondants npi.

239
Statistiques décisionnelles. 11. Tests non paramétriques

Groupes sanguins O A B AB
Effectifs observés 251 219 29 26
Effectifs théoriques 233,625 231 42 18,375

Les effectifs théoriques sont tous supérieurs à 5, on peut calculer la variable de décision :
k
n i2
VD   n
i  1 npi

2512 219 2 29 2 26 2
VD      525  9,10
233,625 231 42 18,375
Région d’acceptation :
La région d’acceptation est l’intervalle 0 ;   .
2
1 
- Pour  = 0,05, la valeur de ²1- avec 3 degrés de liberté est :
²0,95 = 7,815

La valeur de la variable de décision est supérieure à ²1- , on rejette donc l’hypothèse nulle.
C’est-à-dire qu’au seuil de signification de 5%, les 525 donneurs ne sont pas représentatifs de
la population marocaine en terme de groupes sanguins.
- Pour  = 0,01, la valeur de 12  avec 3 degrés de liberté est :  02,99  11,34 .
La valeur de la variable de décision est inférieure à 12  , on accepte donc l’hypothèse nulle.
C’est-à-dire qu’au seuil de 1 %, les 525 donneurs sont représentatifs de la population
marocaine en terme de groupes sanguins.

11.4.7. Solution de l’exercice 11.3.7.

Pour répondre à cette question, on doit réaliser un test d’indépendance.

Hypothèse nulle :
L’hypothèse nulle est l’indépendance des deux critères de classification.
^
H0 : nij = n pij

Variable de décision :
Les effectifs attendus sont estimés par la formule :

^
n pij =
n i.n .j
n

240
Statistiques décisionnelles. 11. Tests non paramétriques

Niveau Destination de vacances


d’instruction Mer Montagne Désert Total
Primaire 270 112,5 67,5 450
Secondaire 210 87,5 52,5 350
Supérieur 120 50 30 200
Total 600 250 150 1000

p q
VD =  n ²
i 1 j1
ij
^
-n= 300²  50² 100²  250² ... 30² - 1000
270 112,5 67,5 210 30
n pij

VD = 220,91

Région d’acceptation :
La région d’acceptation est l’intervalle [0 ; ²1-[.

Le nombre de degrés de liberté est égal à (3-1)(3-1) = 4.

Pour  = 0,05, la valeur de ²1- avec 4 degrés de liberté est : ²0,95 = 9,49.

La valeur de la variable de décision est supérieure à ²1- , on rejette donc l’hypothèse nulle.
On conclut donc que le niveau d’instruction a une influence sur le choix d’une destination
touristique.

11.4.8. Solution de l’exercice 11.3.8.

Pour répondre à cette question, on doit réaliser un test d’indépendance.

Hypothèse nulle :
L’hypothèse nulle est l’indépendance des deux critères de classification.

^
H0 : nij = n pij

Variable de décision :
Les effectifs attendus sont estimés par la formule :

^
n pij =
n i.n .j
n

241
Statistiques décisionnelles. 11. Tests non paramétriques

Régions
Niveau d’accueil Nord Est Sud Ouest Total
Faible 26,28 21,47 6,02 8,23 62
Modéré 72,49 59,21 16,60 22,69 171
Elevé 32,22 26,32 7,38 10,08 76
Total 131 107 30 41 309

p q
n ij ²
VD = 
i 1 j 1
^
-n= 22²  35²  0²  5² ... 12² -309
226,28 21,47 6,02 8,23 10,08
n p ij

VD = 41,15

Région d’acceptation :
La région d’acceptation est l’intervalle [0 ; ²1-[.

Le nombre de degrés de liberté est égal à (3-1)(4-1) = 6.

Pour  = 0,05, la valeur de ²1- avec 6 degrés de liberté est : ²0,95 = 12,59

La valeur de la variable de décision est supérieure à ²1- , on rejette donc l’hypothèse nulle.
On conclut que le niveau d’accueil dépend de la région.

11.4.9. Solution de l’exercice 11.3.9.

Pour répondre à cette question, on doit réaliser un test d’indépendance.

Hypothèse nulle :
L’hypothèse nulle est l’indépendance des deux critères de classification.
^
H0 : nij = n pij
Variable de décision :
Les effectifs attendus sont estimés par la formule :
^
n pij =
n i.n .j
n
Discipline
Sexe
Sport Musique Théâtre Total
Fille 33,6 23,47 29,93 80
Garçon 29,4 20,53 20,07 70
Total 63 44 43 150

242
Statistiques décisionnelles. 11. Tests non paramétriques

p q
n ij ²
VD = 
i 1 j 1
^
-n
n p ij
20² 28² 32² 43² 16² 11²
VD =      - 150
33,6 23,47 29,93 29,4 20,53 20,07
VD = 10,9

Région d’acceptation :
La région d’acceptation est l’intervalle [0 ; ²1-[.

Le nombre de degrés de liberté est égal à (3-1)(2-1) = 2.

- Pour  = 0,05, la valeur de ²1- avec 2 degrés de liberté est : ²0,95 = 5,99

La valeur de la variable de décision est supérieure à ²1- , on rejette donc l’hypothèse nulle.
On peut affirmer au seuil de 5 % que le choix des étudiants dépend de leur sexe.

- Pour  = 0,001, la valeur de 12  avec 2 degrés de liberté est  02,999  13,82 .
La valeur de la variable de décision est inférieure à 12  , on accepte donc l’hypothèse nulle.
On peut affirmer au seuil de 1 % que le choix des étudiants est indépendant du sexe.

11.4.10. Solution de l’exercice 11.3.10.

Pour répondre à cette question, on doit réaliser un test d’indépendance.

Hypothèse nulle :
L’hypothèse nulle est l’indépendance des deux critères de classification.
^
H0 : nij = n pij
Variable de décision :
Les effectifs attendus sont estimés par la formule :

^
n pij =
n i.n .j
n
Filière Sciences Médecine et
Droit LettresSciences PharmacieAutre Total
Profession économiques dentaire
Exploitant agricole 81,4 32,6 158,1 76,1 102,5 20,6 39,7 511
Salarié agricole 6,2 2,5 12,1 5,8 7,8 1,6 3,0 39
Patron 164,8 66,0 320,2 154,2 207,5 41,8 80,4 1035

243
Statistiques décisionnelles. 11. Tests non paramétriques

Profession libérale
482,5 193,4 937,8 451,6 607,7 122,5 235,5 3031
et cadre sup
Cadre moyen 247,1 99,0 480,2 231,2 311,2 62,7 120,6 1552
Employé 135,3 54,2 263,0 126,7 170,4 34,3 66,0 850
Ouvriers 180,1 72,2 349,9 168,5 226,8 45,7 87,9 1131
Personnel de
12,7 5,1 24,8 11,9 16,0 3,2 6,2 80
service
Autres 281,9 113,0 547,9 263,9 355,1 71,5 137,6 1771
Total 1592 638 3094 1490 2005 404 777 10000

p q
n ij ²
VD = 
i 1 j 1
^
-n
n p ij

80² 35² 135² 99² 65² 132²


VD =      ...  - 10000
81,4 32,6 158,1 76,1 102,5 137,6

VD = 450,3

Région d’acceptation :
La région d’acceptation est l’intervalle [0 ; ²1-[.

Le nombre de degrés de liberté est égal à (7-1)(9-1) = 48.

Le nombre de degrés de liberté étant grand, on peut utiliser l’approximation par la loi normale.

Pour améliorer l’approximation, on peut utiliser la transformation suivante :

( Z  2k  1)²
² 
2
d’où :
( Z 0 , 95  2  48  1)² (1,64  2  48  1)²
 ² 0 , 95  = = 64,8
2 2

Pour  = 0,05, la valeur de ²1- avec 48 degrés de liberté est : ²0,95 = 64,8

La valeur de la variable de décision est supérieure à ²1- , on rejette donc l’hypothèse nulle.
On peut affirmer au seuil de 5 %, qu’il y a un lien entre la filière d’étude et la profession des
parents.

244
Statistiques décisionnelles.

Tables statistiques
Loi Normale
Loi de Khi deux
Loi de Student
Loi de Fischer

245
LOI NORMALE CENTREE REDUITE L(X) = N(0 ; 1)
Probabilité P(Z<=z)
z
0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
LOI NORMALE CENTREE REDUITE L(X) = N(0 ; 1)

Probabilité P(Z<=z)
z
0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
3,1 0,99903 0,99906 0,99910 0,99913 0,99916 0,99918 0,99921 0,99924 0,99926 0,99929
3,2 0,99931 0,99934 0,99936 0,99938 0,99940 0,99942 0,99944 0,99946 0,99948 0,99950
3,3 0,99952 0,99953 0,99955 0,99957 0,99958 0,99960 0,99961 0,99962 0,99964 0,99965
3,4 0,99966 0,99968 0,99969 0,99970 0,99971 0,99972 0,99973 0,99974 0,99975 0,99976
3,5 0,99977 0,99978 0,99978 0,99979 0,99980 0,99981 0,99981 0,99982 0,99983 0,99983
3,6 0,99984 0,99985 0,99985 0,99986 0,99986 0,99987 0,99987 0,99988 0,99988 0,99989
3,7 0,99989 0,99990 0,99990 0,99990 0,99991 0,99991 0,99992 0,99992 0,99992 0,99992
3,8 0,99993 0,99993 0,99993 0,99994 0,99994 0,99994 0,99994 0,99995 0,99995 0,99995
3,9 0,99995 0,99995 0,99996 0,99996 0,99996 0,99996 0,99996 0,99996 0,99997 0,99997
LOI DU KHI 2

A l'intersection de la ligne k=1 et de la colonne 0,025 on lit 0,025=P(Khi deux(1)<=0,001)


k
0,001 0,005 0,01 0,025 0,05 0,1 0,5 0,9 0,95 0,975 0,99 0,995 0,999
1 0,000 0,000 0,000 0,001 0,004 0,016 0,455 2,706 3,841 5,024 6,635 7,879 10,827
2 0,002 0,010 0,020 0,051 0,103 0,211 1,386 4,605 5,991 7,378 9,210 10,597 13,815
3 0,024 0,072 0,115 0,216 0,352 0,584 2,366 6,251 7,815 9,348 11,345 12,838 16,266
4 0,091 0,207 0,297 0,484 0,711 1,064 3,357 7,779 9,488 11,143 13,277 14,860 18,466
5 0,210 0,412 0,554 0,831 1,145 1,610 4,351 9,236 11,070 12,832 15,086 16,750 20,515
6 0,381 0,676 0,872 1,237 1,635 2,204 5,348 10,645 12,592 14,449 16,812 18,548 22,457
7 0,599 0,989 1,239 1,690 2,167 2,833 6,346 12,017 14,067 16,013 18,475 20,278 24,321
8 0,857 1,344 1,647 2,180 2,733 3,490 7,344 13,362 15,507 17,535 20,090 21,955 26,124
9 1,152 1,735 2,088 2,700 3,325 4,168 8,343 14,684 16,919 19,023 21,666 23,589 27,877
10 1,479 2,156 2,558 3,247 3,940 4,865 9,342 15,987 18,307 20,483 23,209 25,188 29,588
11 1,834 2,603 3,053 3,816 4,575 5,578 10,341 17,275 19,675 21,920 24,725 26,757 31,264
12 2,214 3,074 3,571 4,404 5,226 6,304 11,340 18,549 21,026 23,337 26,217 28,300 32,909
13 2,617 3,565 4,107 5,009 5,892 7,041 12,340 19,812 22,362 24,736 27,688 29,819 34,527
14 3,041 4,075 4,660 5,629 6,571 7,790 13,339 21,064 23,685 26,119 29,141 31,319 36,124
15 3,483 4,601 5,229 6,262 7,261 8,547 14,339 22,307 24,996 27,488 30,578 32,801 37,698
16 3,942 5,142 5,812 6,908 7,962 9,312 15,338 23,542 26,296 28,845 32,000 34,267 39,252
17 4,416 5,697 6,408 7,564 8,672 10,085 16,338 24,769 27,587 30,191 33,409 35,718 40,791
18 4,905 6,265 7,015 8,231 9,390 10,865 17,338 25,989 28,869 31,526 34,805 37,156 42,312
19 5,407 6,844 7,633 8,907 10,117 11,651 18,338 27,204 30,144 32,852 36,191 38,582 43,819
20 5,921 7,434 8,260 9,591 10,851 12,443 19,337 28,412 31,410 34,170 37,566 39,997 45,314
21 6,447 8,034 8,897 10,283 11,591 13,240 20,337 29,615 32,671 35,479 38,932 41,401 46,796
22 6,983 8,643 9,542 10,982 12,338 14,041 21,337 30,813 33,924 36,781 40,289 42,796 48,268
23 7,529 9,260 10,196 11,689 13,091 14,848 22,337 32,007 35,172 38,076 41,638 44,181 49,728
24 8,085 9,886 10,856 12,401 13,848 15,659 23,337 33,196 36,415 39,364 42,980 45,558 51,179
25 8,649 10,520 11,524 13,120 14,611 16,473 24,337 34,382 37,652 40,646 44,314 46,928 52,619
26 9,222 11,160 12,198 13,844 15,379 17,292 25,336 35,563 38,885 41,923 45,642 48,290 54,051
27 9,803 11,808 12,878 14,573 16,151 18,114 26,336 36,741 40,113 43,195 46,963 49,645 55,475
28 10,391 12,461 13,565 15,308 16,928 18,939 27,336 37,916 41,337 44,461 48,278 50,994 56,892
29 10,986 13,121 14,256 16,047 17,708 19,768 28,336 39,087 42,557 45,722 49,588 52,335 58,301
30 11,588 13,787 14,953 16,791 18,493 20,599 29,336 40,256 43,773 46,979 50,892 53,672 59,702
LOI DE STUDENT

k Probabilité P(T<=z)=p
0,6 0,7 0,8 0,9 0,95 0,975 0,99 0,995
1 0,325 0,727 1,376 3,078 6,314 12,71 31,82 63,66
2 0,289 0,617 1,061 1,886 2,920 4,303 6,965 9,925
3 0,277 0,584 0,978 1,638 2,353 3,182 4,541 5,841
4 0,271 0,569 0,941 1,533 2,132 2,776 3,747 4,604
5 0,267 0,559 0,920 1,476 2,015 2,571 3,365 4,032
6 0,265 0,553 0,906 1,440 1,943 2,447 3,143 3,707
7 0,263 0,549 0,896 1,415 1,895 2,365 2,998 3,499
8 0,262 0,546 0,889 1,397 1,860 2,306 2,896 3,355
9 0,261 0,543 0,883 1,383 1,833 2,262 2,821 3,250
10 0,260 0,542 0,879 1,372 1,812 2,228 2,764 3,169
11 0,260 0,540 0,876 1,363 1,796 2,201 2,718 3,106
12 0,259 0,539 0,873 1,356 1,782 2,179 2,681 3,055
13 0,259 0,538 0,870 1,350 1,771 2,160 2,650 3,012
14 0,258 0,537 0,868 1,345 1,761 2,145 2,624 2,977
15 0,258 0,536 0,866 1,341 1,753 2,131 2,602 2,947
16 0,258 0,535 0,865 1,337 1,746 2,120 2,583 2,921
17 0,257 0,534 0,863 1,333 1,740 2,110 2,567 2,898
18 0,257 0,534 0,862 1,330 1,734 2,101 2,552 2,878
19 0,257 0,533 0,861 1,328 1,729 2,093 2,539 2,861
20 0,257 0,533 0,860 1,325 1,725 2,086 2,528 2,845
21 0,257 0,532 0,859 1,323 1,721 2,080 2,518 2,831
22 0,256 0,532 0,858 1,321 1,717 2,074 2,508 2,819
23 0,256 0,532 0,858 1,319 1,714 2,069 2,500 2,807
Statistiques décisionnelles.
24 0,256 0,531 0,857 1,318 1,711 2,064 2,492 2,797
25 0,256 0,531 0,856 1,316 1,708 2,060 2,485 2,787
26 0,256 0,531 0,856 1,315 1,706 2,056 2,479 2,779

250
LOI DE STUDENT

k Probabilité P(T<=z)=p
0,6 0,7 0,8 0,9 0,95 0,975 0,99 0,995
27 0,256 0,531 0,855 1,314 1,703 2,052 2,473 2,771
28 0,256 0,530 0,855 1,313 1,701 2,048 2,467 2,763
29 0,256 0,530 0,854 1,311 1,699 2,045 2,462 2,756
30 0,256 0,530 0,854 1,310 1,697 2,042 2,457 2,750
40 0,255 0,529 0,851 1,303 1,684 2,021 2,423 2,704
60 0,254 0,527 0,848 1,296 1,671 2,000 2,390 2,660
80 0,254 0,527 0,846 1,292 1,664 1,990 2,374 2,639
100 0,254 0,526 0,845 1,290 1,660 1,984 2,365 2,626
200 0,254 0,525 0,843 1,286 1,653 1,972 2,345 2,601
500 0,253 0,525 0,842 1,283 1,648 1,965 2,334 2,586
 0,253 0,524 0,842 1,282 1,645 1,960 2,326 2,576
LOI DE FISHER
Probabilité P(F<=z) = 0,95

K2 K1
1 2 3 4 5 6 7 8 9 10 15 20 30 50 100 200 500 
1 161 200 216 225 230 234 237 239 241 242 246 248 250 252 253 254 254 254
2 18,5 19,0 19,2 19,2 19,3 19,3 19,4 19,4 19,4 19,4 19,4 19,4 19,5 19,5 19,5 19,5 19,5 19,5
3 10,1 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,70 8,66 8,62 8,58 8,55 8,54 8,53 8,53
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,86 5,80 5,75 5,70 5,66 5,65 5,64 5,63
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,62 4,56 4,50 4,44 4,41 4,39 4,37 4,37
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 3,94 3,87 3,81 3,75 3,71 3,69 3,68 3,67
7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,51 3,44 3,38 3,32 3,27 3,25 3,24 3,23
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,22 3,15 3,08 3,02 2,97 2,95 2,94 2,93
9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,01 2,94 2,86 2,80 2,76 2,73 2,72 2,71
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,85 2,77 2,70 2,64 2,59 2,56 2,55 2,54
11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 2,72 2,65 2,57 2,51 2,46 2,43 2,42 2,40
12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,62 2,54 2,47 2,40 2,35 2,32 2,31 2,30
13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,53 2,46 2,38 2,31 2,26 2,23 2,22 2,21
14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,46 2,39 2,31 2,24 2,19 2,16 2,14 2,13
15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,40 2,33 2,25 2,18 2,12 2,10 2,08 2,07
16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,35 2,28 2,19 2,12 2,07 2,04 2,02 2,01
17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 2,31 2,23 2,15 2,08 2,02 1,99 1,97 1,96
18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,27 2,19 2,11 2,04 1,98 1,95 1,93 1,92
19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,23 2,16 2,07 2,00 1,94 1,91 1,89 1,88
20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,20 2,12 2,04 1,97 1,91 1,88 1,86 1,84
22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30 2,15 2,07 1,98 1,91 1,85 1,82 1,80 1,78
24 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25 2,11 2,03 1,94 1,86 1,80 1,77 1,75 1,73
26 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22 2,07 1,99 1,90 1,82 1,76 1,73 1,71 1,69
28 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,24 2,19 2,04 1,96 1,87 1,79 1,73 1,69 1,67 1,65
30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,01 1,93 1,84 1,76 1,70 1,66 1,64 1,62
50 4,03 3,18 2,79 2,56 2,40 2,29 2,20 2,13 2,07 2,03 1,87 1,78 1,69 1,60 1,52 1,48 1,46 1,44
100 3,94 3,09 2,70 2,46 2,31 2,19 2,10 2,03 1,97 1,93 1,77 1,68 1,57 1,48 1,39 1,34 1,31 1,28
200 3,89 3,04 2,65 2,42 2,26 2,14 2,06 1,98 1,93 1,88 1,72 1,62 1,52 1,41 1,32 1,26 1,22 1,19
500 3,86 3,01 2,62 2,39 2,23 2,12 2,03 1,96 1,90 1,85 1,69 1,59 1,48 1,38 1,28 1,21 1,16 1,11
 3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,88 1,83 1,67 1,57 1,46 1,35 1,24 1,17 1,11 1,00
LOI DE FISHER

Probabilité P(F<=z) = 0,975


K2 K1
1 2 3 4 5 6 7 8 9 10 15 20 30 50 100 200 500 
1 648 800 864 900 922 937 948 957 963 969 985 993 1001 1008 1013 1016 1017 1018
2 38,5 39,0 39,2 39,2 39,3 39,3 39,4 39,4 39,4 39,4 39,4 39,4 39,5 39,5 39,5 39,5 39,5 39,5
3 17,4 16,0 15,4 15,1 14,9 14,7 14,6 14,5 14,5 14,4 14,3 14,2 14,1 14,0 14,0 13,9 13,9 13,9
4 12,2 10,6 9,98 9,60 9,36 9,20 9,07 8,98 8,90 8,84 8,66 8,56 8,46 8,38 8,32 8,29 8,27 8,26
5 10,0 8,43 7,76 7,39 7,15 6,98 6,85 6,76 6,68 6,62 6,43 6,33 6,23 6,14 6,08 6,05 6,03 6,02
6 8,81 7,26 6,60 6,23 5,99 5,82 5,70 5,60 5,52 5,46 5,27 5,17 5,07 4,98 4,92 4,88 4,86 4,85
7 8,07 6,54 5,89 5,52 5,29 5,12 4,99 4,90 4,82 4,76 4,57 4,47 4,36 4,28 4,21 4,18 4,16 4,14
8 7,57 6,06 5,42 5,05 4,82 4,65 4,53 4,43 4,36 4,30 4,10 4,00 3,89 3,81 3,74 3,70 3,68 3,67
9 7,21 5,71 5,08 4,72 4,48 4,32 4,20 4,10 4,03 3,96 3,77 3,67 3,56 3,47 3,40 3,37 3,35 3,33
10 6,94 5,46 4,83 4,47 4,24 4,07 3,95 3,85 3,78 3,72 3,52 3,42 3,31 3,22 3,15 3,12 3,09 3,08
11 6,72 5,26 4,63 4,28 4,04 3,88 3,76 3,66 3,59 3,53 3,33 3,23 3,12 3,03 2,96 2,92 2,90 2,88
12 6,55 5,10 4,47 4,12 3,89 3,73 3,61 3,51 3,44 3,37 3,18 3,07 2,96 2,87 2,80 2,76 2,74 2,72
13 6,41 4,97 4,35 4,00 3,77 3,60 3,48 3,39 3,31 3,25 3,05 2,95 2,84 2,74 2,67 2,63 2,61 2,60
14 6,30 4,86 4,24 3,89 3,66 3,50 3,38 3,29 3,21 3,15 2,95 2,84 2,73 2,64 2,56 2,53 2,50 2,49
15 6,20 4,76 4,15 3,80 3,58 3,41 3,29 3,20 3,12 3,06 2,86 2,76 2,64 2,55 2,47 2,44 2,41 2,40
16 6,12 4,69 4,08 3,73 3,50 3,34 3,22 3,12 3,05 2,99 2,79 2,68 2,57 2,47 2,40 2,36 2,33 2,32
17 6,04 4,62 4,01 3,66 3,44 3,28 3,16 3,06 2,98 2,92 2,72 2,62 2,50 2,41 2,33 2,29 2,26 2,25
18 5,98 4,56 3,95 3,61 3,38 3,22 3,10 3,01 2,93 2,87 2,67 2,56 2,44 2,35 2,27 2,23 2,20 2,19
19 5,92 4,51 3,90 3,56 3,33 3,17 3,05 2,96 2,88 2,82 2,62 2,51 2,39 2,30 2,22 2,18 2,15 2,13
20 5,87 4,46 3,86 3,51 3,29 3,13 3,01 2,91 2,84 2,77 2,57 2,46 2,35 2,25 2,17 2,13 2,10 2,09
22 5,79 4,38 3,78 3,44 3,22 3,05 2,93 2,84 2,76 2,70 2,50 2,39 2,27 2,17 2,09 2,05 2,02 2,00
24 5,72 4,32 3,72 3,38 3,15 2,99 2,87 2,78 2,70 2,64 2,44 2,33 2,21 2,11 2,02 1,98 1,95 1,94
26 5,66 4,27 3,67 3,33 3,10 2,94 2,82 2,73 2,65 2,59 2,39 2,28 2,16 2,05 1,97 1,92 1,90 1,88
28 5,61 4,22 3,63 3,29 3,06 2,90 2,78 2,69 2,61 2,55 2,34 2,23 2,11 2,01 1,92 1,88 1,85 1,83
30 5,57 4,18 3,59 3,25 3,03 2,87 2,75 2,65 2,57 2,51 2,31 2,20 2,07 1,97 1,88 1,84 1,81 1,79
50 5,34 3,98 3,39 3,06 2,83 2,67 2,55 2,46 2,38 2,32 2,11 1,99 1,87 1,75 1,66 1,60 1,57 1,55
100 5,18 3,83 3,25 2,92 2,70 2,54 2,42 2,32 2,24 2,18 1,97 1,85 1,71 1,59 1,48 1,42 1,38 1,35
200 5,10 3,76 3,18 2,85 2,63 2,47 2,35 2,26 2,18 2,11 1,90 1,78 1,64 1,51 1,39 1,32 1,27 1,23
500 5,05 3,72 3,14 2,81 2,59 2,43 2,31 2,22 2,14 2,07 1,86 1,74 1,60 1,46 1,34 1,25 1,19 1,14
 5,02 3,69 3,12 2,79 2,57 2,41 2,29 2,19 2,11 2,05 1,83 1,71 1,57 1,43 1,30 1,21 1,13 1,00
LOI DE FISHER

Probabilité P(F<=z) = 0,99


K K1
2 1 2 3 4 5 6 7 8 9 10 15 20 30 50 100 200 500 
1 4050 5000 5400 5630 5760 5860 5930 5980 6020 6060 6160 6210 6260 6300 6330 6350 6360 6370
2 98,5 99,0 99,2 99,2 99,3 99,3 99,4 99,4 99,4 99,4 99,4 99,4 99,5 99,5 99,5 99,5 99,5 99,5
3 34,1 30,8 29,5 28,7 28,2 27,9 27,7 27,5 27,3 27,2 26,9 26,7 26,5 26,4 26,2 26,2 26,1 26,1
4 21,2 18,0 16,7 16,0 15,5 15,2 15,0 14,8 14,7 14,5 14,2 14,0 13,8 13,7 13,6 13,5 13,5 13,5
5 16,3 13,3 12,1 11,4 11,0 10,7 10,5 10,3 10,2 10,1 9,72 9,55 9,38 9,24 9,13 9,08 9,04 9,02
6 13,7 10,9 9,78 9,15 8,75 8,47 8,26 8,10 7,98 7,87 7,56 7,40 7,23 7,09 6,99 6,93 6,90 6,88
7 12,2 9,55 8,45 7,85 7,46 7,19 6,99 6,84 6,72 6,62 6,31 6,16 5,99 5,86 5,75 5,70 5,67 5,65
8 11,3 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,91 5,81 5,52 5,36 5,20 5,07 4,96 4,91 4,88 4,86
9 10,6 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,35 5,26 4,96 4,81 4,65 4,52 4,42 4,36 4,33 4,31
10 10,0 7,56 6,55 5,99 5,64 5,39 5,20 5,06 4,94 4,85 4,56 4,41 4,25 4,12 4,01 3,96 3,93 3,91
11 9,65 7,21 6,22 5,67 5,32 5,07 4,89 4,74 4,63 4,54 4,25 4,10 3,94 3,81 3,71 3,66 3,62 3,60
12 9,33 6,93 5,95 5,41 5,06 4,82 4,64 4,50 4,39 4,30 4,01 3,86 3,70 3,57 3,47 3,41 3,38 3,36
13 9,07 6,70 5,74 5,21 4,86 4,62 4,44 4,30 4,19 4,10 3,82 3,66 3,51 3,38 3,27 3,22 3,19 3,17
14 8,86 6,51 5,56 5,04 4,70 4,46 4,28 4,14 4,03 3,94 3,66 3,51 3,35 3,22 3,11 3,06 3,03 3,00
15 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,89 3,80 3,52 3,37 3,21 3,08 2,98 2,92 2,89 2,87
16 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,78 3,69 3,41 3,26 3,10 2,97 2,86 2,81 2,78 2,75
17 8,40 6,11 5,18 4,67 4,34 4,10 3,93 3,79 3,68 3,59 3,31 3,16 3,00 2,87 2,76 2,71 2,68 2,65
18 8,29 6,01 5,09 4,58 4,25 4,01 3,84 3,71 3,60 3,51 3,23 3,08 2,92 2,78 2,68 2,62 2,59 2,57
19 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,52 3,43 3,15 3,00 2,84 2,71 2,60 2,55 2,51 2,49
20 8,10 5,85 4,94 4,43 4,10 3,87 3,70 3,56 3,46 3,37 3,09 2,94 2,78 2,64 2,54 2,48 2,44 2,42
22 7,95 5,72 4,82 4,31 3,99 3,76 3,59 3,45 3,35 3,26 2,98 2,83 2,67 2,53 2,42 2,36 2,33 2,31
24 7,82 5,61 4,72 4,22 3,90 3,67 3,50 3,36 3,26 3,17 2,89 2,74 2,58 2,44 2,33 2,27 2,24 2,21
26 7,72 5,53 4,64 4,14 3,82 3,59 3,42 3,29 3,18 3,09 2,82 2,66 2,50 2,36 2,25 2,19 2,16 2,13
28 7,64 5,45 4,57 4,07 3,75 3,53 3,36 3,23 3,12 3,03 2,75 2,60 2,44 2,30 2,19 2,13 2,09 2,06
30 7,56 5,39 4,51 4,02 3,70 3,47 3,30 3,17 3,07 2,98 2,70 2,55 2,39 2,25 2,13 2,07 2,03 2,01
50 7,17 5,06 4,20 3,72 3,41 3,19 3,02 2,89 2,79 2,70 2,42 2,27 2,10 1,95 1,82 1,76 1,71 1,68
100 6,90 4,82 3,98 3,51 3,21 2,99 2,82 2,69 2,59 2,50 2,22 2,07 2,1,89 1,73 1,60 1,52 1,47 1,43
200 6,76 4,71 3,88 3,41 3,11 2,89 2,73 2,60 2,50 2,41 2,13 1,97 1,79 1,63 1,48 1,39 1,33 1,28
500 6,69 4,65 3,82 3,36 3,05 2,84 2,68 2,55 2,44 2,36 2,07 1,92 1,74 1,56 1,41 1,31 1,23 1,16
 6,63 4,61 3,78 3,32 3,02 2,80 2,64 2,51 2,41 2,32 2,04 1,88 1,70 1,52 1,36 1,25 1,15 1,00
LOI DE FISHER
Probabilité P(F<=z) = 0,995
K1
K 50 100 200 500 
1 2 3 4 5 6 7 8 9 10 15 20 30
2
1 16200 20000 21600 22500 23100 23400 23700 23900 24100 24200 24600 24800 25000 25200 25300 25400 25400 25500
2 198 199 199 199 199 199 199 199 199 199 199 199 199 199 199 199 200 200
3 55,6 49,8 47,5 46,2 45,4 44,8 44,4 44,1 43,9 43,7 43,1 42,8 42,5 42,2 42,0 41,9 41,9 41,8
4 31,3 26,3 24,3 23,2 22,5 22,0 21,6 21,4 21,1 21,0 20,4 20,2 19,9 19,7 19,5 19,4 19,4 19,3
5 22,8 18,3 16,5 15,6 14,9 14,5 14,2 14,0 13,8 13,6 13,1 12,9 12,7 12,5 12,3 12,2 12,2 12,1
6 18,6 14,5 12,9 12,0 11,5 11,1 10,8 10,6 10,4 10,2 9,81 9,59 9,36 9,17 9,03 8,95 8,91 8,88
7 16,2 12,4 10,9 10,0 9,52 9,16 8,89 8,68 8,51 8,38 7,97 7,75 7,53 7,35 7,22 7,15 7,10 7,08
8 14,7 11,0 9,60 8,81 8,30 7,95 7,69 7,50 7,34 7,21 6,81 6,61 6,40 6,22 6,09 6,02 5,98 5,95
9 13,6 10,1 8,72 7,96 7,47 7,13 6,88 6,69 6,54 6,42 6,03 5,83 5,62 5,45 5,32 5,26 5,21 5,19
10 12,8 9,43 8,08 7,34 6,87 6,54 6,30 6,12 5,97 5,85 5,47 5,27 5,07 4,90 4,77 4,71 4,67 4,64
11 12,2 8,91 7,60 6,88 6,42 6,10 5,86 5,68 5,54 5,42 5,05 4,86 4,65 4,49 4,36 4,29 4,25 4,23
12 11,8 8,51 7,23 6,52 6,07 5,76 5,52 5,35 5,20 5,09 4,72 4,53 4,33 4,17 4,04 3,97 3,93 3,90
13 11,4 8,19 6,93 6,23 5,79 5,48 5,25 5,08 4,94 4,82 4,46 4,27 4,07 3,91 3,78 3,71 3,67 3,65
14 11,1 7,92 6,68 6,00 5,56 5,26 5,03 4,86 4,72 4,60 4,25 4,06 3,86 3,70 3,57 3,50 3,46 3,44
15 10,8 7,70 6,48 5,80 5,37 5,07 4,85 4,67 4,54 4,42 4,07 3,88 3,69 3,52 3,39 3,33 3,29 3,26
16 10,6 7,51 6,30 5,64 5,21 4,91 4,69 4,52 4,38 4,27 3,92 3,73 3,54 3,37 3,25 3,18 3,14 3,11
17 10,4 7,35 6,16 5,50 5,07 4,78 4,56 4,39 4,25 4,14 3,79 3,61 3,41 3,25 3,12 3,05 3,01 2,98
18 10,2 7,21 6,03 5,37 4,96 4,66 4,44 4,28 4,14 4,03 3,68 3,50 3,30 3,14 3,01 2,94 2,90 2,87
19 10,1 7,09 5,92 5,27 4,85 4,56 4,34 4,18 4,04 3,93 3,59 3,40 3,21 3,04 2,91 2,85 2,80 2,78
20 9,94 6,99 5,82 5,17 4,76 4,47 4,26 4,09 3,96 3,85 3,50 3,32 3,12 2,96 2,83 2,76 2,72 2,69
22 9,73 6,81 5,65 5,02 4,61 4,32 4,11 3,94 3,81 3,70 3,36 3,18 2,98 2,82 2,69 2,62 2,57 2,55
24 9,55 6,66 5,52 4,89 4,49 4,20 3,99 3,83 3,69 3,59 3,25 3,06 2,87 2,70 2,57 2,50 2,46 2,43
26 9,41 6,54 5,41 4,79 4,38 4,10 3,89 3,73 3,60 3,49 3,15 2,97 2,77 2,61 2,47 2,40 2,36 2,33
28 9,28 6,44 5,32 4,70 4,30 4,02 3,81 3,65 3,52 3,41 3,07 2,89 2,69 2,53 2,39 2,32 2,28 2,25
30 9,18 6,35 5,24 4,62 4,23 3,95 3,74 3,58 3,45 3,34 3,01 2,82 2,63 2,46 2,32 2,25 2,21 2,18
50 8,63 5,90 4,83 4,23 3,85 3,58 3,38 3,22 3,09 2,99 2,65 2,47 2,27 2,10 1,95 1,87 1,82 1,79
100 8,24 5,59 4,54 3,96 3,59 3,33 3,13 2,97 2,85 2,74 2,41 2,23 2,02 1,84 1,68 1,59 1,53 1,49
200 8,06 5,44 4,41 3,84 3,47 3,21 3,01 2,85 2,73 2,63 2,30 2,11 1,91 1,71 1,54 1,44 1,37 1,31
500 7,95 5,36 4,33 3,76 3,40 3,14 2,94 2,79 2,66 2,56 2,23 2,04 1,84 1,64 1,46 1,35 1,26 1,18
 7,88 5,30 4,28 3,72 3,35 3,09 2,90 2,74 2,62 2,52 2,19 2,00 1,79 1,59 1,40 1,28 1,17 1,00
LOI DE FISHER

Probabilité P(F<=z) = 0,999

K K1
2 1 2 3 4 5 6 7 8 9 10 15 20 30 50 100 200 500 
2 998 999 999 999 999 999 999 999 999 999 999 999 999 999 999 999 999 999
3 168 148 141 137 135 133 132 131 130 129 127 126 125 125 124 124 124 124
4 74,1 61,2 56,2 53,4 51,7 50,5 49,7 49,0 48,5 48,0 46,8 46,1 45,4 44,9 44,5 44,3 44,1 44,0
5 47,0 36,6 33,2 31,1 29,8 28,8 28,2 27,6 27,2 26,9 25,9 25,4 24,9 24,4 24,1 23,9 23,8 23,8
6 35,5 27,0 23,7 21,9 20,8 20,0 19,5 19,0 18,7 18,4 17,6 17,1 16,7 16,3 16,0 15,9 15,8 15,8
7 29,2 21,7 18,8 17,2 16,2 15,5 15,0 14,6 14,3 14,1 13,3 12,9 12,5 12,2 11,9 11,8 11,7 11,7
8 25,4 18,5 15,8 14,4 13,5 12,9 12,4 12,0 11,8 11,5 10,8 10,5 10,1 9,80 9,57 9,46 9,39 9,34
9 22,9 16,4 13,9 12,6 11,7 11,1 10,7 10,4 10,1 9,89 9,24 8,90 8,55 8,26 8,04 7,93 7,86 7,81
10 21,0 14,9 12,6 11,3 10,5 9,92 9,52 9,20 8,96 8,75 8,13 7,80 7,47 7,19 6,98 6,87 6,81 6,76
11 19,7 13,8 11,6 10,4 9,58 9,05 8,66 8,35 8,12 7,92 7,32 7,01 6,68 6,41 6,21 6,10 6,04 6,00
12 18,6 13,0 10,8 9,63 8,89 8,38 8,00 7,71 7,48 7,29 6,71 6,40 6,09 5,83 5,63 5,52 5,46 5,42
13 17,8 12,3 10,2 9,07 8,35 7,86 7,49 7,21 6,98 6,80 6,23 5,93 5,62 5,37 5,17 5,07 5,01 4,97
14 17,1 11,8 9,73 8,62 7,92 7,43 7,08 6,80 6,58 6,40 5,85 5,56 5,25 5,00 4,80 4,70 4,64 4,60
15 16,6 11,3 9,34 8,25 7,57 7,09 6,74 6,47 6,26 6,08 5,53 5,25 4,95 4,70 4,51 4,41 4,35 4,31
16 16,1 11,0 9,00 7,94 7,27 6,81 6,46 6,19 5,98 5,81 5,27 4,99 4,70 4,45 4,26 4,16 4,10 4,06
17 15,7 10,7 8,73 7,68 7,02 6,56 6,22 5,96 5,75 5,58 5,05 4,78 4,48 4,24 4,05 3,95 3,89 3,85
18 15,4 10,4 8,49 7,46 6,81 6,35 6,02 5,76 5,56 5,39 4,87 4,59 4,30 4,06 3,87 3,77 3,71 3,67
19 15,1 10,2 8,28 7,26 6,61 6,18 5,84 5,59 5,39 5,22 4,70 4,43 4,14 3,90 3,71 3,61 3,55 3,51
20 14,8 9,95 8,10 7,10 6,46 6,02 5,69 5,44 5,24 5,08 4,56 4,29 4,01 3,77 3,58 3,48 3,42 3,38
22 14,4 9,61 7,80 6,81 6,19 5,76 5,44 5,19 4,99 4,83 4,32 4,06 3,77 3,53 3,34 3,25 3,19 3,15
24 14,0 9,34 7,55 6,59 5,98 5,55 5,23 4,99 4,80 4,64 4,14 3,87 3,59 3,35 3,16 3,07 3,01 2,97
26 13,7 9,12 7,36 6,41 5,80 5,38 5,07 4,83 4,64 4,48 3,99 3,72 3,45 3,20 3,01 2,92 2,86 2,82
28 13,5 8,93 7,19 6,25 5,66 5,24 4,93 4,69 4,50 4,35 3,86 3,60 3,32 3,08 2,89 2,79 2,73 2,70
30 13,3 8,77 7,05 6,12 5,53 5,12 4,82 4,58 4,39 4,24 3,75 3,49 3,22 2,98 2,79 2,69 2,63 2,59
50 12,2 7,95 6,34 5,46 4,90 4,51 4,22 4,00 3,82 3,67 3,20 2,95 2,68 2,44 2,24 2,14 2,07 2,03
100 11,5 7,41 5,85 5,01 4,48 4,11 3,83 3,61 3,44 3,30 2,84 2,59 2,32 2,07 1,87 1,75 1,68 1,62
200 11,2 7,15 5,64 4,81 4,29 3,92 3,65 3,43 3,26 3,12 2,67 2,42 2,15 1,90 1,68 1,55 1,46 1,39
500 11,0 7,01 5,51 4,69 4,18 3,82 3,54 3,33 3,16 3,02 2,58 2,33 2,05 1,80 1,57 1,43 1,32 1,23
 10,8 6,91 5,42 4,62 4,10 3,74 3,47 3,27 3,10 2,96 2,51 2,27 1,99 1,73 1,49 1,34 1,21 1,00
LOI DE FISHER

P(F<=z) = 0,9995
K1
K 50 100 200 500 
1 2 3 4 5 6 7 8 9 10 15 20 30
2
2 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000
3 266 237 225 218 214 211 209 208 207 206 203 201 199 198 197 197 196 196
4 106 87,4 80,1 76,1 73,6 71,9 70,6 69,7 68,9 68,3 66,5 65,5 64,6 63,8 63,2 62,9 62,7 62,6
5 63,6 49,8 44,4 41,5 39,7 38,5 37,6 36,9 36,4 35,9 34,6 33,9 33,1 32,5 32,1 31,8 31,7 31,6
6 46,1 34,8 30,4 28,1 26,6 25,6 24,9 24,3 23,9 23,5 22,4 21,9 21,4 20,9 20,5 20,3 20,2 20,1
7 37,0 27,2 23,5 21,4 20,2 19,3 18,7 18,2 17,8 17,5 16,5 16,0 15,5 15,1 14,7 14,6 14,5 14,4
8 31,6 22,8 19,4 17,6 16,4 15,7 15,1 14,6 14,3 14,0 13,1 12,7 12,2 11,8 11,6 11,4 11,4 11,3
9 28,0 19,9 16,8 15,1 14,1 13,3 12,8 12,4 12,1 11,8 11,0 10,6 10,2 9,80 9,53 9,40 9,32 9,26
10 25,5 17,9 15,0 13,4 12,4 11,8 11,3 10,9 10,6 10,3 9,56 9,16 8,75 8,42 8,16 8,04 7,96 7,90
11 23,6 16,4 13,6 12,2 11,2 10,6 10,1 9,76 9,48 9,24 8,52 8,14 7,75 7,43 7,18 7,06 6,98 6,93
12 22,2 15,3 12,7 11,2 10,4 9,74 9,28 8,94 8,66 8,43 7,74 7,37 7,00 6,68 6,45 6,33 6,25 6,20
13 21,1 14,4 11,9 10,5 9,66 9,07 8,63 8,29 8,03 7,81 7,13 6,78 6,42 6,11 5,88 5,76 5,69 5,64
14 20,2 13,7 11,3 9,95 9,11 8,53 8,11 7,78 7,52 7,31 6,65 6,31 5,95 5,66 5,43 5,31 5,24 5,19
15 19,5 13,2 10,8 9,48 8,66 8,10 7,68 7,36 7,11 6,91 6,27 5,93 5,58 5,29 5,06 4,94 4,87 4,83
16 18,9 12,7 10,3 9,08 8,29 7,74 7,33 7,02 6,77 6,57 5,94 5,61 5,27 4,98 4,76 4,64 4,57 4,52
17 18,4 12,3 9,99 8,75 7,98 7,44 7,04 6,73 6,49 6,29 5,67 5,34 5,01 4,72 4,50 4,39 4,32 4,27
18 17,9 11,9 9,69 8,47 7,71 7,18 6,78 6,48 6,24 6,05 5,44 5,12 4,78 4,50 4,28 4,17 4,10 4,06
19 17,5 11,6 9,42 8,23 7,48 6,95 6,57 6,27 6,03 5,84 5,25 4,92 4,59 4,31 4,09 3,98 3,91 3,87
20 17,2 11,4 9,20 8,02 7,28 6,76 6,38 6,08 5,85 5,66 5,07 4,75 4,42 4,15 3,93 3,82 3,75 3,70
22 16,6 11,0 8,82 7,67 6,94 6,44 6,07 5,78 5,55 5,36 4,79 4,47 4,15 3,88 3,66 3,55 3,48 3,44
24 16,2 10,6 8,52 7,39 6,68 6,18 5,82 5,54 5,31 5,13 4,55 4,25 3,93 3,66 3,44 3,33 3,27 3,22
26 15,8 10,3 8,27 7,16 6,46 5,98 5,62 5,34 5,12 4,94 4,37 4,07 3,75 3,48 3,27 3,16 3,09 3,04
28 15,5 10,1 8,07 6,98 6,28 5,80 5,45 5,18 4,96 4,78 4,22 3,92 3,61 3,34 3,13 3,01 2,95 2,90
30 15,2 9,90 7,90 6,82 6,14 5,66 5,31 5,04 4,82 4,65 4,10 3,80 3,48 3,22 3,00 2,89 2,82 2,78
50 13,9 8,88 7,01 6,01 5,37 4,93 4,60 4,34 4,14 3,98 3,45 3,16 2,86 2,59 2,37 2,25 2,17 2,13
100 13,0 8,21 6,43 5,47 4,87 4,44 4,13 3,89 3,70 3,54 3,03 2,75 2,44 2,18 1,95 1,82 1,74 1,67
200 12,5 7,90 6,16 5,23 4,64 4,23 3,92 3,68 3,49 3,34 2,83 2,56 2,25 1,98 1,74 1,60 1,50 1,42
500 12,3 7,72 6,01 5,09 4,51 4,10 3,80 3,56 3,36 3,21 2,72 2,45 2,14 1,87 1,61 1,46 1,34 1,24
 12,1 7,60 5,91 5,00 4,42 4,02 3,72 3,48 3,30 3,14 2,65 2,37 2,07 1,79 1,53 1,36 1,22 1,00
Statistiques décisionnelles.

BIBLIOGRAPHIE

Titres Auteurs Editeurs - années


Aide mémoire de probabilités et J. MARCELL ELLIPSES 92
statistiques
Cours de probabilités et de statistiques C. LEBOEUF ELLIPSES 87
Cours de probabilités et de statistiques J. L. ROQUE / J. GUEGAND ELLIPSES 87
Formulaire de probabilités et de J. RENAULT DUNOD 92
statistiques
Introduction aux probabilités et à la E. AMIOT GAETAN MORIN 90
statistique
Probabilités et statistiques A. LEVINE ELLIPSES 89
Probabilités et statistiques – cours, J. ISIAS ELLIPSES 99
exercices et problèmes résolus
Probabilités et statistiques L. GACOGNE / G. FRUGIER EYROLLES 90
Probabilités et statistiques AUDET, BOUCHER GAETAN MORIN 93
(AUMARTIN, SKEEWE)
Probabilités et statistiques J. FOURASTIE / DUNOD 87
J. F. LASLIER
Probabilités et statistiques – résumé de G. CHAUVAT / J.F. REAU ARMAND COLIN 99
cours – exercices et problèmes corrigés
Statistique et calcul des probabilités W. MASSIERI SIREY 96
Statistiques et probabilités J. P. LECOUTRE DUNOD 2000
Statistiques et probabilités M. ELLATIFI AFRIQUE ORIENT 84

259
Statistiques décisionnelles.

260