Académique Documents
Professionnel Documents
Culture Documents
STATISTIQUES DECISIONNELLES
Exercices corrigés avec rappels de cours
COLLECTION SCIENCES TECHNIQUES ET MANAGEMENT
STATISTIQUES DECISIONNELLES
Exercices corrigés avec rappels de cours
LIMINAIRE 7
BIBLIOGRAPHIE 259
LIMINAIRE
Ce livre est sa 2ème édition, il est le 3e d’une trilogie des mêmes auteurs, dont 2 livres ont déjà
été édités, à savoir : « Statistique descriptive » et « Probabilités ».
Lorsqu’on souhaite collecter des informations sur une population, deux possibilités s’offrent :
Par rapport à l’enquête complète, l’enquête partielle offre une série d’avantages :
- Le coût global de l’enquête partielle est en général plus réduit que le coût global d’une
enquête complète ;
- L’enquête par sondage est plus rapide que l’enquête complète, surtout lorsque la
caractéristique étudiée présente des modifications assez importantes au cours du temps ;
- Les erreurs d’observations sont plus réduites que dans l’enquête exhaustive, du fait qu’il y
a moins de données à manipuler ;
- L’enquête partielle est, dans certaines situations particulières, la seule solution possible,
c’est le cas lorsque l’observation présente un caractère destructif.
7
Ainsi, la problématique des statistiques décisionnelles sera étudiée sous ses 3 aspects :
- Ensuite, la détermination des lois de probabilité suivie par les paramètres de l’échantillon
(moyenne, variance et proportion). Ceci fera l’objet de la partie 2 et de ses chapitres 2, 3 et 4.
- Enfin, une fois l’échantillon et les lois de probabilité des paramètres déterminés,
réalisation des calculs sur les paramètres de la population mère étudiée. Ceci fera l’objet de la
partie 3 avec ses chapitres 5, 6 et 7 et de la partie 4 avec ses chapitres 8, 9, 10 et 11.
8
Statistiques décisionnelles Partie 1. Echantillonnage statistique
PARTIE 1
ECHANTILLONNAGE STATISTIQUE
Dans cette 1ère partie, nous nous proposons de résoudre tous les cas types de problèmes
d’échantillons extraits d’une population mère en respectant un certain nombre de contraintes.
- Contraintes de précision ;
- Contrainte de budget.
Nous aurons ainsi à déterminer la taille et la nature de l’échantillon qui donne les informations
souhaitées sur la population mère à étudier, avec la précision, fixée, au préalable et tout en
veillant à ne pas dépasser le budget alloué à l’étude.
9
Statistiques décisionnelles Partie 1. Echantillonnage statistique
10
Statistiques décisionnelles 1. Détermination de l’échantillon
CHAPITRE 1
DETERMINATION DE L’ECHANTILLON
- Il doit être représentatif de la population mère, c’est-à-dire qu’il doit donner des
informations sur cette population avec la précision exigée ;
- La précision souhaitée : plus on souhaite des résultats précis, plus l’échantillon nécessaire
est important.
La taille de l’échantillon doit être celle qui permet d’atteindre le meilleur équilibre entre le
risque d’erreurs d’échantillonnage, le coût induit par ces erreurs, et le coût de l’échantillonnage
lui-même.
11
Statistiques décisionnelles 1. Détermination de l’échantillon
Dans ce cas on utilise l’inégalité de Bienaymé Tchebycheff, elle aboutit, en général, à des
échantillons de tailles élevées.
Pour obtenir un maximum de fiabilité dans les résultats, on commence par se fixer une marge
d'erreur "" que l'on accepte ; on se fixe ensuite un seuil de confiance (1-), qui représente la
probabilité minimale pour que la moyenne calculée à partir de l’échantillon ne s’écarte pas de
la moyenne de la population de plus de . Ceci s’écrit :
P( X m < ) 1-
2
Ce qui donne : n
2 .
avec :
n : Taille de l’échantillon ;
: Précision souhaitée ;
: Définit le seuil de confiance (1 - )
: Ecart- type d’échantillon, il est souvent inconnu, il faut avoir des informations
antérieures ou mener une étude pilote.
12
Statistiques décisionnelles 1. Détermination de l’échantillon
Pour obtenir un maximum de fiabilité dans les résultats, on commence par se fixer une marge
d'erreur "" que l'on accepte ; on se fixe ensuite un seuil de confiance (1-), qui représente la
probabilité minimale pour que la fréquence calculée à partir de l’échantillon ne s’écarte pas de
la proportion dans la population de plus de . Ceci s’écrit :
P( f n p < ) 1-
p.q
Ce qui donne : n
2 .
avec :
n : Taille de l’échantillon ;
: Précision souhaitée ;
: Définit le seuil de confiance (1 - )
p : Proportion dans la population (q = 1 – p). Elle est souvent inconnue, il faut avoir des
informations antérieures ou mener une étude pilote, sinon on utilise une proportion de 50 %.
1.2.2. Cas ou la loi de probabilité de la variable aléatoire est une loi normale.
1.2.2.1.1. Cas des prélèvements dans une population finie avec remise ou dans une population
Pour obtenir un maximum de fiabilité dans les résultats, on commence par se fixer une marge
d'erreur "" que l'on accepte ; on se fixe ensuite un seuil de confiance (1-), qui représente la
probabilité minimale pour que la moyenne calculée à partir de l’échantillon ne s’écarte pas de
la moyenne de la population de plus de . Ceci s’écrit :
P( X m < ) 1-
2
Ce qui donne : n Z 2
1
2
2
13
Statistiques décisionnelles 1. Détermination de l’échantillon
1.2.2.1.2. Cas des prélèvements dans une population finie sans remise.
Z² ² N
1-
n 2
² N Z² ²
1-
2
Pour obtenir un maximum de fiabilité dans les résultats, on commence par se fixer une marge
d'erreur "" que l'on accepte ; on se fixe ensuite un seuil de confiance (1-), qui représente la
probabilité minimale pour que la fréquence calculée à partir de l’échantillon ne s’écarte pas de
la proportion dans la population de plus de . Ceci s’écrit :
P( f n p < ) 1-
1.2.2.2.1. Cas des prélèvements dans une population finie avec remise ou dans une population
p.q
On trouve : n Z 2
1
2
2
avec :
n : Taille de l’échantillon ;
: Précision souhaitée ;
p : Proportion dans la population (q = 1 – p). Elle est souvent inconnue, il faut avoir des
informations antérieures ou mener une étude pilote, sinon on utilise une proportion de 50 %.
1.2.2.2.2. Cas des prélèvements dans une population finie sans remise.
Z² pq N
1-
On trouve : n 2
² N Z² pq
1-
2
14
Statistiques décisionnelles 1. Détermination de l’échantillon
Pour que les résultats d’une enquête par sondage puissent être extrapolés à l’ensemble de la
population faisant l’objet de l’étude, il est indispensable que cette enquête soit conduite selon
des règles bien définies et que les calculs conduisant à ces extrapolations soient conformes à la
procédure d’échantillonnage utilisée.
L’échantillon choisi doit être le plus représentatif possible de la population étudiée, c’est-à-dire
le degré de correspondance entre l’information recueillie et ce que nous apprendrait un
recensement complet de la population dépend en grande partie de la façon dont l’échantillon a
été choisi.
Un échantillonnage est aléatoire si tous les individus de la population ont la même chance de
faire partie de l’échantillon ; il est simple si les prélèvements des individus sont réalisés
indépendamment les uns des autres.
En particulier, si la population est finie, cette définition correspond au tirage aléatoire avec
remise, qui permet de traiter les populations finies comme des populations infinies.
- Constituer la base de sondage qui correspond à la liste complète et sans répétition des
éléments de la population ;
- Numéroter ces éléments de 1 à N ;
- Procéder, à l’aide d’une table de nombres aléatoires ou d’un générateur de nombres
pseudo aléatoires à la sélection des unités différentes qui constitueront l’échantillon.
L’échantillonnage stratifié est une technique qui consiste à subdiviser une population
hétérogène, d’effectif N, en P sous populations ou « strates » plus homogènes d’effectif Ni de
telle sorte que N= N1+N2+……. +Np. Un échantillon, d’effectif ni, est par la suite, prélevé
indépendamment au sein de chacune des strates en appliquant un plan d’échantillonnage au
choix de l’utilisateur. Le plus souvent, on procédera par un échantillonnage aléatoire et simple
à l’intérieur de chaque strate.
15
Statistiques décisionnelles 1. Détermination de l’échantillon
La stratification peut entraîner des gains de précision appréciables, elle facilite en outre les
opérations de collecte des données et fournit des informations pour différentes parties de la
population.
Pour la répartition de l’effectif total, n, de l’échantillon dans les différentes strates, la première
solution, dite proportionnelle, consiste à conserver la même fraction d’échantillonnage dans
chaque strate. Une seconde solution, dite optimale, tient compte du budget de l’enquête.
n Ni
f wi
N N
n i w i .n f .N i
Cette deuxième solution consiste à répartir l’effort d’échantillonnage de façon inégale dans les
différentes strates. Elle tient compte de quatre facteurs :
w i i G
ni k avec k
ci w i i ci
16
Statistiques décisionnelles 1. Détermination de l’échantillon
L’échantillonnage par degrés regroupe toute une série de plans d’échantillonnage caractérisés
par un système ramifié et hiérarchisé d’unités.
Dans le cas de deux degrés, par exemple, on considère que la population est constituée d’un
certain nombre d’unités de sondage du premier degré (unités primaires), chacune de ces unités
étant constituée d’un certain nombre d’unités du second degré. (Unités secondaires).
On réalise d’abord un échantillonnage d’unités du premier degré. Ensuite, dans chaque unité
sélectionnée au premier degré, on prélève un échantillon d’unités du second degré. Le mode de
sélection pouvant varier d’un degré à l’autre.
L’échantillonnage par degrés s’impose lorsqu’il est impossible d’inventorier les éléments de
toute la population et qu’il est possible d’énumérer les unités prélevées au premier degré. Il
permet une concentration du travail sur le terrain et donc une réduction des coûts.
Pour un même nombre total d’observations, il faut indiquer que l’échantillonnage aléatoire et
simple est plus précis que l’échantillonnage par degré.
L’échantillonnage systématique est une technique qui consiste à prélever des unités
d’échantillonnage situées à intervalles égaux. Le choix du premier individu détermine la
composition de tout l’échantillon.
N
k (arrondi à l’entier le plus proche)
n
Connaissant k, on choisit le plus souvent, pour débuter, un nombre aléatoire, i, compris entre 1
et k. Le rang des unités sélectionnées est alors i, i+k, i+2k, i+3k, …
L’échantillonnage systématique est facile à préparer et, en général facile à exécuter, il réduit le
temps consacré à la localisation des unités sélectionnées.
17
Statistiques décisionnelles 1. Détermination de l’échantillon
C’est un échantillonnage par jugement à priori. Il consiste à sélectionner des individus dont on
pense, avant de les interroger, qu’ils peuvent détenir l’information.
Cette méthode est réservée aux populations composées d’individus dont l’identification est
difficile ou qui possèdent des caractéristiques rares.
La méthode consiste à faire construire l’échantillon par les individus eux-mêmes. Il suffit d’en
identifier un petit nombre initial et de leur demander de faire appel à d’autres individus
possédant les mêmes caractéristiques.
L’échantillonnage par quotas est l’échantillonnage non probabiliste le plus connu, et finalement
le mieux accepté comme substitut aux méthodes probabilistes dans le cas où ces dernières
rencontreraient des contraintes de base de sondage. Mais la représentativité de la population
étudiée reste douteuse.
L’échantillonnage par quotas consiste à étudier la structure de la population selon des critères
choisis (quotas) empiriquement. L’échantillon est ensuite construit de manière à constituer une
reproduction en miniature de la population sur ces critères.
L’échantillonnage par quotas est une forme simplifiée de l’échantillonnage stratifié à fraction
de sondage constante. Les quotas représentent les variables de stratification.
Une fois les quotas fixés, les individus sont sélectionnés à la convenance de l’enquêteur.
18
Statistiques décisionnelles 1. Détermination de l’échantillon
Les critères servant de base à la définition des quotas ne doivent pas être nombreux. Au-delà de
3 critères, la démarche devient complexe. Les quotas doivent être construits sur une base de
données fiables (statistiques disponibles) indiquant la répartition de la population sur les
critères choisis. Les critères les plus utilisés dans les études de marché sont économiques et
sociodémographiques en particulier l’âge, le sexe, la catégorie socioprofessionnelle, etc.
1.4.1. Une enquête sur l'emploi a pour but d’estimer le taux d'activité dans un pays. Dans les
statistiques disponibles, la population active du pays est estimée à 10 millions de personnes sur
une population totale de 40 millions de personnes.
Déterminer la taille de l'échantillon si l'on accepte une erreur de 1%, avec une probabilité de
0,95.
1.4.2. On désire estimer le revenu mensuel moyen dans un secteur de production. Quelle doit
être la taille de l’échantillon de salariés à interroger pour que la moyenne empirique ne
s’éloigne pas de la moyenne de la population de 100 DH avec une probabilité au moins égale à
0,95 sachant que l’écart type est de 500 DH par salarié ?
1.4.3. On souhaite réaliser une enquête sur la consommation des ménages afin d’estimer la
dépense moyenne par ménage. Quelle doit être la taille de l’échantillon de ménages si la
population est composée de 5 millions de ménages et que l’erreur admise ne doit pas dépasser
10 DH avec une probabilité de 0,99 ?
1.4.4. On souhaite réaliser une enquête sur l’emploi afin d’estimer le taux de chômage. La
population active est de 5 millions de personnes. Quelle doit être la taille de l’échantillon pour
que la fréquence empirique ne s’éloigne pas du vrai taux de chômage de plus de 2% et ce avec
une probabilité de 0,95 ?
Une enquête récente avait donné un taux de chômage de 12 %.
1.4.5. Dans le cadre d'une étude socio-économique, on s'intéresse aux habitants de 18 unités
urbaines, réparties en deux régions.
a) En supposant que la variable aléatoire à laquelle nous nous intéressons suive une loi
normale et que l’enquête se déroule, au sein d’une population finie et n’exclut pas la possibilité
de sonder la même personne plusieurs fois, déterminer la taille n de l’échantillon.
On donne comme hypothèses de travail : une marge d’erreur admissible égale à 1% avec une
probabilité de 95% et un écart type du revenu égal à 0,114 calculé d’après un 1 er échantillon.
19
Statistiques décisionnelles 1. Détermination de l’échantillon
Région 1 Région 2
N° Unités
Nombres d’habitants N° Unités urbaines Nombres d’habitants
urbaines
N° 1 93600 N° 09 117100
N° 2 45400 N° 10 107100
N° 3 38900 N° 11 61200
N° 4 36500 N° 12 51000
N° 5 35100 N° 13 43800
N° 6 32900 N° 14 38900
N° 7 28100 N° 15 37800
N° 8 26400 N° 16 33500
N° 17 25800
N° 18 25300
1.4.6. Dans une région regroupant environ 3 millions d’habitants réunis en 1530 communes, on
désire réaliser une enquête relative à la consommation moyenne des ménages pour le poste
alimentation.
a) Déterminer la taille de l'échantillon si l'on accepte une erreur de 1,16, avec une probabilité
de 0,95 et que l’on estime l’écart type égal à 10.
b) En effectuant une stratification basée sur la distribution de fréquences donnée dans le
tableau ci-dessous, combien d’interviews devrait-on réaliser dans chacune des catégories de
communes ?
c) Si de plus pour des raisons de facilité, on décidait de ne pas effectuer moins de 10 interviews
par commune, dans combien de communes différentes de chacune des catégories les
enquêteurs devraient-ils se rendre ?
20
Statistiques décisionnelles 1. Détermination de l’échantillon
1.4.7. Un sondage vise à étudier la notoriété d’une marque. Pour cela on dispose de 12
enquêteurs durant un mois.
a) Sachant que le rendement par jour et par enquêteur est distribué selon une loi normale
de moyenne 5, et d’écart type 1, déterminer la taille n o de l'échantillon retenu tel que : p(n
> no) = 0,025.
b) On propose de stratifier la population selon l’âge. Sachant que la population se répartit
comme indiqué, dans le tableau ci-dessous, déterminer la répartition de l'échantillon :
1.4.9. Un sondage vise une population d’entreprises réparties en quatre régions contenant
respectivement 360, 840, 600 et 1200 entreprises. Le budget réservé pour cette enquête est de
44 320 DH. Les écart-types sont estimés à 0,2 ; 0,1 ; 0,2 ; 0,4 respectivement pour les quatre
régions. Les coûts de réalisation par questionnaire sont respectivement de 225 DH, 196 DH,
400H et 324 DH.
a) Etablir une stratification optimale de l’échantillon à déterminer.
b) Préciser le niveau d’erreur que l’on doit accepter avec la taille de l’échantillon calculée, en
admettant un niveau de confiance de 0,99 et une proportion de 0,3.
21
Statistiques décisionnelles 1. Détermination de l’échantillon
1.4.10. Le budget alloué à une enquête est de 132500 DH. Cette enquête est destinée à estimer
le taux de chômage qu’on pense être à priori égal à 10 %. Les frais de déplacement quotidien
sont évalués à 1000 DH par enquêteur. La rémunération d’un enquêteur est de 170 DH par
jour. Les charges fixes sont de 20000 DH.
a) Déterminer la taille de l’échantillon si on tolère une erreur de moins de 1 % avec un niveau
de confiance de 95%
b) Déterminer la taille maximale permise par le budget alloué si le rendement par enquêteur est
de 6 questionnaires par jour.
c) Quel niveau d’erreur faut-il accepter si on réalise l’enquête avec le budget alloué ?
1.4.11. Nous disposons d’un montant de 10 000 dh pour enquêter auprès d’une population
stratifiée en deux strates ayant les caractéristiques suivantes :
Poids de la Coût de
Strates Effectif
strate
Ecart type
l’observation
Strate 1 2000 0,4 2 25
Strate 2 3000 0,6 0,7 36
Nous sommes dans le cas où la loi de probabilité du taux d’activité n’est pas connue. Nous
utilisons donc l’inégalité de Bienaymé Tchebycheff.
p.q
n
2 .
Nous sommes dans le cas où la loi de probabilité des revenus mensuels n’est pas connue. Nous
utilisons donc l’inégalité de Bienaymé Tchebycheff.
2
n
2 .
Nous sommes dans le cas où la loi de probabilité de la dépense des ménages n’est pas connue.
Nous utilisons donc l’inégalité de Bienaymé Tchebycheff.
2
n
2 .
avec = 2 000 = 10 et = 1%
ce qui donne n = 4 000 000
Dans ce cas, on utilise l’égalité relative aux prélèvements sans remise dans une population
finie.
Z² ² N
1-
n 2
² N Z² ²
1-
2
23
Statistiques décisionnelles 1. Détermination de l’échantillon
ce qui donne n = 252 795. Un tel échantillon représente environ 6,3 % de la taille de
l’échantillon trouvée grâce à l’inégalité de Bienaymé Tchebycheff et donc une très grande
économie, dans son traitement, par rapport au 1er échantillon.
Nous sommes dans le cas où la loi de probabilité du taux de chômage n’est pas connue. Nous
utilisons donc l’inégalité de Bienaymé Tchebycheff.
p.q
n
2 .
a) Nous sommes dans le cas où la loi de probabilité de la variable aléatoire est la loi normale, la
population est finie et le tirage se fait avec remise. On utilise donc l’égalité :
2
n Z2
1
2 2
24
Statistiques décisionnelles 1. Détermination de l’échantillon
Nous avons arrondi à 10 près pour que chacun des enquêteurs puissent réaliser 10 enquêtes par
jour.
Nous devons, d’abord choisir les 4 unités de la 1ère région et ensuite choisir les 190 personnes
dans ces 4 unités. On choisira les 4 plus grandes unités comme indiqué dans l’énoncé, nous
déterminerons enfin le nombre d’habitants à interviewer, dans chaque unité, au prorata de
l’importance des 4 unités choisies.
25
Statistiques décisionnelles 1. Détermination de l’échantillon
De même, nous devons, d’abord choisir les 6 unités de la 2ème région et ensuite choisir les 310
personnes dans ces 6 unités. On choisira les 6 plus grandes unités, nous déterminerons enfin le
nombre d’habitants à interviewer, dans chaque unité, au prorata de l’importance des 6 unités
choisies.
Ainsi, on mobilisera 4 enquêteurs pour la 1ère région, 1 enquêteur pour chaque unité, celui de
l’unité 1 passera plus de temps, 9 jours (10 interviews par jour) ; de même, on mobilisera 6
enquêteurs pour la 2ème région, 1 enquêteur pour chaque unité, celui de l’unité 09 passera plus
de temps, 9 jours (10 interviews par jour). L’opération durera donc 9 jours.
a) Nous sommes dans le cas où la loi de probabilité de la consommation moyenne n’est pas
connue. Nous utilisons donc l’inégalité de Bienaymé Tchebycheff.
2
n
2 .
avec = 10 = 1,16 et = 5%
ce qui donne n = 1487 qu’on peut arrondir à 1500
L’échantillon de 1500 interviews sera réparti de façon proportionnelle sur les différentes
strates. En conservant la même fraction de sondage de chaque strate.
On détermine le nombre d’habitants dans chaque strate en se basant sur les centres de classes.
26
Statistiques décisionnelles 1. Détermination de l’échantillon
Nombre de
Catégories de Nombre Nombre
communes
communes d’interviews d’interviews
à visiter
Moins de 1000[ 218 22 220
[ 1000 – 2000[ 218 22 220
[ 2000 – 5000[ 339 34 340
[ 5000 – 10000[ 290 29 290
[ 10000 – 20000[ 290 29 290
plus de 20000 145 10 140
Total 1500 1500
a) Le rendement de chaque enquêteur pendant 1 mois est de 150 interviews avec un écart type
de 5,5 interviews. Pour les 12 enquêteurs ce rendement est en moyenne de 1800 interviews
avec un écart type de 19 interviews.
n 0 1800 = Z = 1,96
0,975
19
ce qui donne : no = 1838
27
Statistiques décisionnelles 1. Détermination de l’échantillon
b) Reprenons les données et calculons le poids de chaque tranche d’âge en effectuant une
répartition proportionnelle des 1838 interviews.
p.q
n
2 .
Dans le cas de prélèvements sans remise dans une population finie, on trouve :
Z² p.q N
1-
n 2
² N Z² p.q
1-
2
b) Type de sondage.
b1) Si on tire n fusibles en prélevant n/50 par sac, il s’agit d’un échantillonnage stratifié
avec répartition proportionnelle.
28
Statistiques décisionnelles 1. Détermination de l’échantillon
b2) Si on choisit d'abord k sacs et on tire ensuite ni fusibles par sac, il s’agit
d’échantillonnage à deux degrés.
b3) Si on mélange le contenu des 50 sacs, et on tire n fusibles, il s’agit d’échantillonnage
aléatoire simple.
w i i G
ni k avec k
ci w i i ci
Régions R1 R2 R3 R4 Total
Nombre d’entreprises 360 840 600 1200 3000
Poids de la strate, wi % 12% 28% 20% 40% 100%
Coût unitaire ci 225 196 400 324
l’écart type i. 0,2 0,1 0,2 0,4
G
k
w i i ci
44320
k=
0,12.0,2. 225 0,28.0,1. 196 0,2.0,2. 400 0,4.0,4. 324
k = 10000
29
Statistiques décisionnelles 1. Détermination de l’échantillon
ce qui donne :
0,12.0,2 0,28.0,1
n 1 10000 = 16 n 2 10000 = 20
225 196
0,2.0,2 0,4.0,4
n 3 10000 = 20 n 4 10000 = 89
400 324
Ce qui nous permet de réaliser une stratification des entreprises de l’échantillon, région par
région :
Régions R1 R2 R3 R4 Total
Nombre d’entreprises 360 840 600 1200 3000
Echantillon 16 20 20 89 145
b) Nous sommes dans le cas où la loi de probabilité n’est pas connue. Nous utilisons donc
l’inégalité de Bienaymé Tchebycheff.
p.q p.q
n soit
.
2 n.
a) Nous sommes dans le cas où la loi de probabilité n’est pas connue. Nous utilisons donc
l’inégalité de Bienaymé Tchebycheff.
p.q
n
2 .
30
Statistiques décisionnelles 1. Détermination de l’échantillon
n = 6 . NE . NJ
n 6
ce qui donne pour n = 576
112 500 1170
c) Si l’on réalise l’enquête avec le budget alloué, c'est-à-dire avec un échantillon de 576
éléments seulement, la marge d’erreur est :
p.q p.q
n soit
.
2 n.
w i i G
ni k avec k
ci w i i ci
31
Statistiques décisionnelles 1. Détermination de l’échantillon
G 10000
k = = 1533,74
w i i ci 0,4.2. 25 0,6.0,7. 36
ce qui donne :
0,4.2 0,6.0,7
n 1 1533,74 = 245 n 2 1533,74 = 107
25 36
a) La longueur des entretoises est une variable normale de moyenne 37,50 mm et d’écart type
inconnu.
0,05 0,05
( ) - ( ) = 0,998
0,05 0,05
2.( ) - 1 = 0,998 ( ) = 0,999
0,05
= Z0,999 = 3,09 => = 0,016
32
Statistiques décisionnelles 1. Détermination de l’échantillon
b) La moyenne des longueurs des pièces prélevées appartient à l’intervalle fermé [37,495 ;
37,505] et signifie que :
Nous sommes dans le cas où la loi de probabilité est la loi normale, on utilise donc l’égalité :
2
n Z2
1
2 2
33
Statistiques décisionnelles 1. Détermination de l’échantillon
34
Statistiques décisionnelles Partie 2. Loi de probabilité d’échantillon
PARTIE 2
LOI DE PROBABILITE D’ECHANTILLON
Les premiers ont pour but d’estimer, à partir d’un échantillon, la valeur numérique d’un ou de
plusieurs paramètres de la population, et de déterminer la précision de cette ou de ces
estimations. Cela fera l’objet de la 3e partie avec ses chapitres 5, 6 et 7.
Les seconds ont pour but de vérifier la véracité d’une hypothèse, émise au départ, au sujet
d’une ou de plusieurs populations. Cela fera l’objet de la 4e partie avec ses chapitres 8, 9, 10 et
11.
Mais avant d’aborder les calculs d’estimation et de tests statistiques, il nous faudra déterminer
les lois de probabilités des paramètres d’échantillon, en effet :
A tout paramètre de population , on peut associer une série infinie de valeurs observées t, t’,
t ‘’, …, calculées à partir d’échantillons successifs de même effectif, prélevés dans des
conditions identiques. Ces valeurs peuvent être considérées comme des valeurs observées
d’une même variable aléatoire T et cette variable est fonction des différentes variables
aléatoires correspondant à chacun des individus de l’échantillon :
En supposant que l’échantillon est aléatoire et simple, la variable aléatoire T possède une
distribution de probabilité, dite distribution d’échantillonnage. On peut donc calculer
l’espérance E(T) et la variance V(T) de cette distribution.
La distribution d’échantillonnage est donc la distribution des différentes valeurs que peut
prendre la variable aléatoire T, pour les différents échantillons possibles. Son écart type T est
appelé erreur standard.
35
Statistiques décisionnelles Partie 2. Loi de probabilité d’échantillon
Cette partie sera consacrée à la détermination, chapitre après chapitre, des lois de distribution
d’échantillonnage sus-citées.
36
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon
CHAPITRE 2
LOI DE PROBABILITE DE LA MOYENNE D’ECHANTILLON
Dans ce chapitre, nous considérons une population mère d’où l’on extrait, successivement, des
échantillons de n éléments dont on détermine les moyennes :
n
x i
a) x1, x2, x3, ………., xn avec x i 1
n
n
x' i
x '' i
X
i 1
i
X
n
37
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon
Comme X1, X2, …, Xn, la variable aléatoire X possède une distribution de probabilité, dite
distribution d’échantillonnage de la moyenne. On peut donc calculer l’espérance et la variance
de cette distribution, en supposant que l’échantillon est aléatoire et simple, les variables
aléatoires X1, X2, …, Xn ont toutes la même distribution de probabilité, dont la moyenne est
désignée par m et la variance par ².
E(Xi) = m et V(Xi) = ²
Dans le cas d’une population finie d’effectif N, au sein de laquelle est prélevé, sans remise, un
échantillon aléatoire simple d’effectif n, l’espérance mathématique et la variance de la
moyenne sont :
n
Xi n
n
E( X ) = E( i 1
)= 1 E(Xi) = 1 nm = m
n i 1 n
N n 2
V( X ) =
N 1 n
L’erreur standard est alors : X N n
n N 1
Dans ce cas, la loi de probabilité de la moyenne est normale de moyenne m et d’écart type
Nn
.
N 1
X
n
38
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon
Dans ce cas la loi de probabilité de la moyenne est normale de moyenne m et d’écart type
.
X
n
^
E( X ) = m et V( X ) = ²
n
n
^ (x i x)²
Avec : ² n v(x) = i 1
n 1 n 1
^
Dans ce cas la loi de probabilité de la moyenne est normale de moyenne m et d’écart type
^
X .
^
E( X ) = m et V( X ) = ²
n
n
^ (x i x)²
avec : ² n v(x) = i 1
n 1 n 1
^
39
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon
La différence entre les moyennes observées des deux échantillons indépendants est : x1 - x 2
Une distinction est faite entre le cas de deux populations de variances inégales et le cas de deux
populations de variances égales.
E( x1 - x 2 ) = m1-m2 V( x1 - x 2 ) = ²1 ² 2
n1 n 2
Pour des populations normales (variances connues), les variables x1 , x2 sont des variables
normales de moyennes respectivement m1 et m2 et d’écarts types respectivement 1 et
n1
2 . La différence entre les moyennes observées des deux échantillons indépendants est elle-
n2
même normale de moyenne (m1-m2) et d’écart type ²1 ² 2 .
n1 n 2
Si les distributions des populations mères sont inconnues, pour des effectifs suffisamment
élevés, la différence entre les moyennes peut toujours être considérée comme une variable
approximativement normale. C’est généralement le cas lorsque les effectifs sont supérieurs à
30. Dans le cas contraire, la différence entre les moyennes peut toujours être considérée comme
une variable de Student à (n1 + n2 - 2) degrés de liberté.
Dans le cas où les populations sont de variances égales, une estimation de la variance
commune aux deux populations est donnée par :
40
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon
^
²
(x i x 1 )² (x i x 2 )²
n1 n 2 2
E( x1 - x 2 ) = m1 - m2
^ ^
V( x1 - x 2 ) = ² ² = ² ( 1 1 )
^
n1 n 2 n1 n 2
Pour des populations normales, la différence entre les moyennes observées des deux
échantillons indépendants est elle-même normale de moyenne (m1-m2) et d’écart type
^
² ( 1 1 ) .
n1 n 2
Si les distributions des populations mères sont inconnues, pour des effectifs suffisamment
élevés, la différence entre les moyennes peut toujours être considérée comme une variable
approximativement normale. C’est généralement le cas lorsque les effectifs sont supérieurs à
30. Dans le cas contraire, la différence entre les moyennes peut toujours être considérée comme
une variable de Student à (n1 + n2 - 2) degrés de liberté.
2.6.1. Quelle est l'espérance mathématique et quelle est la variance des résultats qu'on peut
obtenir quand on choisit au hasard et indépendamment dix nombres entiers de 1 à 9 et qu'on en
calcule la moyenne, en supposant que chacun des nombres de 1 à 9 a une même probabilité
d'être choisi et qu'un même nombre peut être choisi plusieurs fois sans aucune restriction ?
2.6.2. Une population est constituée des cinq nombres 2, 3, 6, 8, 11. On considère tous les
échantillons non exhaustifs possibles de taille deux de cette population. Trouver :
a) La moyenne de la population.
b) L’écart type de la population.
c) La moyenne de la distribution d'échantillonnage des moyennes.
d) L’écart type de la distribution d'échantillonnage des moyennes, c'est-à-dire l'erreur
quadratique moyenne des moyennes.
e) Reprendre les mêmes questions dans le cas d’un échantillon exhaustif.
2.6.3. On suppose que les poids de 3000 têtes d’ovins d'une ferme suivent une loi normale de
moyenne 38,0 kilogrammes et d’écart type 5,0 kilogrammes. Si l'on extrait 80 échantillons de
25 têtes chacun, quelle est la moyenne et l’écart type théoriques de la distribution
d'échantillonnage des moyennes pour :
a) Un échantillonnage non exhaustif ?
b) Un échantillonnage exhaustif ?
41
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon
c) Pour combien d'échantillons peut-on s'attendre à trouver une moyenne comprise entre 36,8
et 38,3 kilogrammes ?
2.6.4. Cinq cents rondelles ont un poids moyen de 5,02 grammes et un écart type de 0,30
gramme. Trouver la probabilité pour qu’un échantillon de 100 rondelles choisies au hasard ait
un poids total :
a) Compris entre 496 et 500 grammes.
b) Plus grand que 510 grammes.
2.6.5. Les batteries d'un fabricant A ont une durée de vie moyenne de 1400 heures avec un
écart-type de 200 heures, et celles d'un fabricant B ont une durée de vie moyenne de 1200
heures avec un écart-type de 100 heures. Si l'on teste des échantillons de 125 batteries pour
chaque marque, quelle est la probabilité pour que la marque A ait une durée de vie moyenne
qui soit au moins supérieure à celle de la marque B de :
a) 160 heures ?
b) 250 heures ?
2.6.6. Les piles d'une marque donnée pèsent 0,50 gramme avec un écart-type de 0,02 gramme.
Quelle est la probabilité pour que deux lots de 1000 piles chacun diffèrent entre eux de plus de
2 grammes ?
2.6.7. Un certain type d’ampoule électrique a une durée de vie moyenne de 1500 heures et un
écart type de 150 heures. Trois ampoules sont branchées de telle manière que, si l’une d’elles
est grillée, les autres continuent à fonctionner. En supposant que les durées de vie suivent une
loi de Laplace Gauss, quelle est la probabilité pour que l’éclairage fonctionne, en moyenne :
a) Au moins pendant 5000 heures ?
b) Au plus pendant 4200 heures ?
2.6.8. Les poids de 1500 pièces suivent une loi de probabilité normale de moyenne 22,40 kg et
d’écart type 0,048 kg Déterminer pour 300 échantillons aléatoires de taille 36 de cette
population la moyenne et l'écart type théorique de la distribution d'échantillonnage des
moyennes :
a) L'échantillonnage étant non exhaustif.
b) L’échantillonnage étant exhaustif.
c) Combien d'échantillons aléatoires ont leur moyenne comprise entre 22,39 et 22,41 kg ?
2.6.9. Les poids des colis reçus dans un grand magasin ont une moyenne de 300 kg et un écart
type de 50 kg, Quelle est la probabilité pour que 25 colis reçus au hasard et chargés sur un
monte-charge dépassent la limite de sécurité du monte-charge, qui est 8200 kilogrammes.
42
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon
2.6.10. A et B fabriquent deux types de câbles ayant comme charges de rupture respectives
4000 et 4500 kilogrammes avec des écarts-types de 300 et 200 kilogrammes. Si l'on teste 100
câbles de la marque A et 50 câbles de la marque B, quelle est la probabilité pour que la
résistance de rupture moyenne de B ait :
a) Au moins 600 kilogrammes de plus que A ?
b) Au moins 450 kilogrammes de plus que A ?
2.6.11. Une firme fabrique un bien dont la durée de vie est en moyenne 1800 heures avec un
écart type de 200 heures.
a) Trouver la probabilité qu'un échantillon aléatoire de 100 unités de ce bien ait une moyenne
de vie supérieure à 1825.
b) Trouver la probabilité qu'un échantillon aléatoire de 100 Unités de ce bien ait une moyenne
de vie de pas plus de 1775 et pas moins de 1760.
Il s’agit du cas d’une population dont on connaît la moyenne et la variance. L’échantillon est
non exhaustif.
E( X ) = m = 1 23 45 6 7 89 = 5
9
a) La moyenne de la population.
m= 23 6811 = 6
5
43
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon
E( X ) = m = 6
Il s’agit du cas d’une population dont on connaît la moyenne et la variance. L’échantillon est
non exhaustif.
V( X ) = ² = 10,80 = 5,40
n 2
E( X ) = m = 6
V( X ) = N n ² = 5 2 10,80 = 4,05
N 1 n 51 2
Désignons par X le poids des ovins. X suit une loi normale de moyenne 38 kg et d’écart type 5
kg.
44
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon
E( X ) = m = 38 kg
E( X ) = m = 38 kg
V( X ) =
Nn ² = 3000 25 5² = 0,992
N 1 n 3000 1 25
c) Nombre d'échantillons dont la moyenne est comprise entre 36,8 et 38,3 kilogrammes.
Calculons la probabilité que la moyenne soit comprise entre 36,8 et 38,3 kg. La moyenne suit
une loi normale de moyenne 38 et d’écart type 1 kg.
38,338 36,838
p(36,8 < x < 38,3) = ( ) - ( )
1 1
p(36,8 < x < 38,3) = (0,3) - (-1,2)
p(36,8 < x < 38,3) = 0,6179 – 0,1151 = 0,5028
45
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon
Nombre d'échantillons dont la moyenne est comprise entre 36,8 et 38,3 kilogrammes =
0,5028x80 = 40,22.
On peut s’attendre à avoir 40 à 41 échantillons dont la moyenne est comprise entre 36,8 et 38,3
kilogrammes.
E( X ) = m = 5,02 g
V( X ) =
Nn ² = 500 100 0,3² = 0,0007
N 1 n 500 1 100
a) Un poids total compris entre 496 et 500 g est équivalent à une moyenne comprise entre 4,96
et 5 g.
5 5,02 4,96 5,02
p(4,96 < x < 5) = ( ) - ( )
0,027 0,027
p(4,96 < x < 5) = (-0,74) - (-2,22)
p(4,96 < x < 5) = 0,2296 – 0,0132 = 0,2164
b) Un poids total plus grand que 510 g est équivalent à une moyenne plus grande que 5,10 g.
5,10 5,02
p( x > 5,10) = 1 - ( )
0,027
p( x > 5,10) = 1 - (2,96) = 1 – 0,9985 = 0,0015
46
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon
La différence entre les durées de vie moyennes observées des deux échantillons indépendants
² 1 ² 2
suit une loi normale de moyenne (m1-m2) et d’écart type .
n1 n2
E( x1 - x 2 ) = m1 - m2 = 1400 – 1200 = 200 h
² 1 ² 2 200² 100²
V( x1 - x2 ) = = = 400
n1 n2 125 125
La différence entre les durées de vie moyennes observées des deux échantillons indépendants
suit une loi normale de moyenne 200 heures et d’écart type 20 heures.
a) Probabilité pour que la marque A ait une durée de vie moyenne qui soit au moins supérieure
à celle de la marque B de 160 heures.
p( x1 - x 2 > 160) = 1 - ( 160 200 )
20
p( x1 - x 2 > 160) = 1 - (-2) = 0,9772
b) Probabilité pour que la marque A ait une durée de vie moyenne qui soit au moins supérieure
à celle de la marque B de 250 heures.
p( x1 - x 2 > 250) = 1 - ( 250 200 )
20
p( x1 - x 2 > 250) = 1 - (2,5) = 0,0062
47
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon
La différence entre les poids moyens observés des deux échantillons indépendants suit une loi
² 1 ² 2
normale de moyenne (m1-m2) et d’écart type .
n1 n2
E( x1 - x 2 ) = m1 - m2 = 0,5 – 0,5 = 0 g
² 1 ² 2 0,02² 0,02²
V( x1 - x2 ) = = = 0,0000008
n1 n2 1000 1000
La différence entre les poids moyens observés des deux échantillons indépendants suit une loi
normale de moyenne nulle et d’écart type 0,00089 gramme.
Les deux lots de 1000 pièces chacune différents de plus de 2 g ce qui donne un écart absolu
entre les moyennes de plus de 0,002 g.
p( x1 - x 2 > 0,002) = p(-0,002 < x1 - x 2 < 0,002)
0,002 0,002
p(-0,002 < x1 - x 2 < 0,002) = ( ) - (- )
0,00089 0,00089
p(-0,002 < x1 - x 2 < 0,002) = 2. (2,25) – 1
p(-0,002 < x1 - x 2 < 0,002) = 2. 0,9878 – 1 = 0,9756
2.7.7. Solution de l’exercice 2.6.7.
Désignons par X la durée de vie d’une ampoule. X suit une loi normale de moyenne 1500
heures et d’écart type 150 heures. L’éclairage va durer pendant le total des durées de vie des
trois ampoules.
48
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon
Y=X+X+X
L’éclairage Y suit une loi normale de moyenne 4500 heures et d’écart type 259,81 heures.
Désignons par X le poids des pièces. X suit une loi normale de moyenne 22,40 kg et d’écart
type 0,048 kg.
E( X ) = m = 22,40 kg
49
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon
V( X ) = ² =
0,048²
= 0,0001
n 36
E( X ) = m = 22,40 kg
V( X ) = N n ² = 150036 0,048² = 0,00006
N 1 n 15001 36
c) Nombre d'échantillons dont la moyenne est comprise entre 22,39 et 22,41 kilogrammes.
Calculons la probabilité pour que la moyenne soit comprise entre 22,39 et 22,41 kg. La
moyenne suit une loi normale de moyenne 22,40 et d’écart type 0,008 kg.
22,41 22,40 22,39 22,40
p(22,39 < x < 22,41) = ( ) - ( )
0,008 0,008
p(22,39 < x < 22,41) = (1,25) - (-1,25)
p(22,39 < x < 22,41) = 0,8944 – 0,1056 = 0,7888 = 78,88 %
Ce qui veut dire que 78,88 % des 300 échantillons qui ont leur moyenne comprise entre 22,39
kg et 22,41 kg soit : 0,7888 x 300 = 236,64.
On peut s’attendre à avoir 236 ou 237 échantillons dont la moyenne est comprise entre 22,39 et
22,41 kilogrammes.
50
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon
Le poids des 25 colis reçus au hasard et chargés sur un monte-charge dépassent la limite de
sécurité du monte-charge, qui est 8200 kilogrammes si le poids moyen d’un colis dépasse 328
kg.
E( X ) = m = 300 kg
V( X ) = ² = 50² = 100
n 25
La différence entre les durées de vie moyennes observées des deux échantillons indépendants
51
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon
La différence entre les durées de vie moyennes observées des deux échantillons indépendants
suit une loi normale de moyenne 500 kg et d’écart type 41,23 kg.
a) Probabilité pour que la marque B ait une charge de rupture d’au moins 600 kg de plus que la
marque A.
p( x 2 - x1 > 600) = 1 - ( 600500 )
41,23
p( x 2 - x1 > 600) = 1 - (2,43) = 0,0075
b) Probabilité pour que la marque B ait une charge de rupture d’au moins 450 kg de plus que la
marque A.
p( x 2 - x1 > 450) = 1 - ( 450500 )
41,23
p( x 2 - x1 > 450) = 1 - (-1,21) = 0,8869
2.7.11. Solution de l’exercice 2.6.11.
Désignons par X la durée de vie de moyenne 1800 heures avec un écart type de 200 heures.
E( X ) = m = 1800 h
V( X ) = ² = 200² = 400
n 100
52
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon
a) Probabilité qu'un échantillon aléatoire de 100 unités de ce bien ait une moyenne de vie
supérieure à 1825.
p( x > 1825) = 1 - ( 18251800 )
20
p( x > 1825) = 1 - (1,25) = 0,1056
b) Probabilité qu'un échantillon aléatoire de 100 unités de ce bien ait une moyenne de vie de
pas plus de 1775 et pas moins de 1760.
p(1760 < x < 1775) = ( 17751800 ) - ( 17601800 )
20 20
p(1760 < x < 1775) = (-1,25) - (-2)
p(1760 < x < 1775) = 0,1056 – 0,0228 = 0,0828
53
Statistiques décisionnelles 2. Loi de probabilité de la moyenne d’échantillon
54
Statistiques décisionnelles 3. Loi de probabilité de la variance d’échantillon
CHAPITRE 3
LOI DE PROBABILITE DE LA VARIANCE D’ECHANTILLON
De la même manière que pour la moyenne, chacun des échantillons possède une variance :
n n n
(x i x)² (x i' x')² (x " x")²
i
n
(Xi X)²
V(X) i 1
n
Comme X1, X2, …, Xn, la variable aléatoire V(X) possède une distribution de probabilité, dite
distribution d’échantillonnage de la variance. On peut donc calculer l’espérance mathématique
et la variance de cette distribution, en supposant que l’échantillon est aléatoire et simple, les
variables aléatoires X1, X2, …, Xn ont toutes la même distribution de probabilité, dont la
moyenne est désignée par m et la variance par ².
E(Xi) = m et V(Xi) = ²
n 1
E(V(X)) = σ²
n
55
Statistiques décisionnelles 3. Loi de probabilité de la variance d’échantillon
2(n 1) 4
V(V(X)) = .
n²
Dans le cas d’une population finie d’effectif N, au sein de laquelle est prélevé, sans remise, un
échantillon aléatoire est simple d’effectif n, l’espérance mathématique de la variance est :
N n 1
E(V(X)) = σ²
N 1 n
En ce qui concerne la forme de la distribution d’échantillonnage de la variance, on peut
démontrer que dans le cas particulier d’une population normale, la variable aléatoire
n
(Xi X)²
i 1
possède une distribution khi deux à (n-1) degré de liberté.
²
3.2. ENONCES DES EXERCICES D’APPLICATION.
3.2.1. Calculez la moyenne et l'écart type de la variance S², ainsi que la probabilité p(10 < S²
<20), en supposant que S² désigne la variance observée d'échantillons aléatoires et simple
d'effectif 10 extraits d'une population normale de moyenne égale à 15 et d’écart type égal à 4.
3.2.2. Quelle est l'espérance mathématique et quelle est la variance des résultats qu'on peut
obtenir quand on choisit au hasard et indépendamment dix nombres entiers de 1 à 9 et qu'on en
calcule la variance, en supposant que chacun des nombres de 1 à 9 a une même probabilité
d'être choisi et qu'un même nombre peut être choisi plusieurs fois sans aucune restriction ?
3.2.3. Une population est constituée des cinq nombres 2, 3, 6, 8, 11. On considère tous les
échantillons non exhaustifs possibles de taille deux de cette population. Trouver :
a) La moyenne de la population.
b) L’écart type de la population.
c) La moyenne de la distribution d'échantillonnage des variances.
d) L’écart type de la distribution d'échantillonnage des variances.
e) Trouver la moyenne de la distribution d'échantillonnage des variances dans le cas d’un
échantillon exhaustif.
56
Statistiques décisionnelles 3. Loi de probabilité de la variance d’échantillon
3.2.4. On suppose que les poids de 3000 têtes d’ovins d'une ferme suivent une loi normale de
moyenne 38,0 kilogrammes et d’écart type 5,0 kilogrammes. Si l'on extrait 80 échantillons de
25 têtes chacun :
a) Quelle est la moyenne et l’écart type théoriques de la distribution d'échantillonnage des
variances ?
b) Pour combien d'échantillons peut-on s'attendre à trouver un écart type compris entre 4 et 7
kilogrammes ?
3.2.5. Cinq cents rondelles ont un poids moyen de 5,02 grammes et un écart type de 0,30
gramme. Trouver la probabilité pour qu’un échantillon de 100 rondelles choisies au hasard ait
un écart type :
a) Compris entre 0,25 et 0,35 grammes.
b) Plus grand que 0,3 grammes.
3.2.6. Un certain type d’ampoule électrique a une durée de vie moyenne de 1500 heures et un
écart type de 150 heures. Trois ampoules sont branchées de telle manière que, si l’une d’elles
est grillée, les autres continuent à fonctionner. En supposant que les durées de vie suivent une
loi de Laplace Gauss, quelle est la probabilité pour que l’écart type de l’éclairage ne dépasse
pas :
a) 260 heures ?
b) 200 heures ?
3.2.7. Les poids de 1500 pièces suivent une loi de Laplace-Gauss de moyenne 22,40 kg et écart
type 0,048 kg.
a) Déterminer pour 300 échantillons aléatoires de taille 36 de cette population, la moyenne et
l'écart type théoriques de la distribution d'échantillonnage des variances.
b) Combien d'échantillons aléatoires ont-ils leur écart type compris entre 45 grammes et 50
grammes ?
3.2.8. Les poids des colis reçus dans un grand magasin ont une moyenne de 300 kg et un écart
type de 50 kg
a) Déterminer pour 25 colis reçus au hasard et chargés sur un monte-charge, la moyenne et
l'écart type théoriques de la distribution d'échantillonnage des variances.
b) Quelle est la probabilité pour que 25 colis reçus au hasard et chargés sur un monte-charge
aient un écart type qui dépasse 40 kg ?
3.2.9. A et B fabriquent deux types de câbles ayant comme charges de rupture respectives 4000
et 4500 kilogrammes avec des écarts-types de 300 et 200 kilogrammes. Si l'on teste 100 paires
de câbles des deux marques, quelle est la probabilité pour que la différence de résistance de
rupture entre les deux marques ait un écart type de :
a) Moins 350 kilogrammes ?
b) Moins 300 kilogrammes ?
57
Statistiques décisionnelles 3. Loi de probabilité de la variance d’échantillon
3.2.10. Une firme fabrique un bien dont la durée de vie est en moyenne 1800 heures avec un
écart type de 200 heures.
a) Quelle est la moyenne et l’écart type théoriques de la distribution d'échantillonnage des
variances pour des échantillons de taille 20 ?
b) Quelle est la moyenne et l’écart type théoriques de la distribution d'échantillonnage des
variances pour des échantillons de taille 50 ?
c) Trouver la probabilité qu'un échantillon aléatoire de 20 unités de ce bien ait un écart type de
vie supérieur à 220.
d) Trouver la probabilité qu'un échantillon aléatoire de 50 unités de ce bien ait un écart type de
vie supérieur à 220.
m = 15 =4 et n = 10
n 1 10 1
E (V(X)) = σ² = 4² = 14,4
n 10
Dans le cas d’une population normale, la variable aléatoire n.S² possède une distribution khi
²
deux à 9 (n-1) degrés de liberté.
58
Statistiques décisionnelles 3. Loi de probabilité de la variance d’échantillon
0,8 < p(² < 12,50) < 0,9 après interpolation linéaire on trouve :
0,2 < p(² < 6,25) < 0,3 après interpolation linéaire on trouve :
Il s’agit du cas d’une population dont on connaît la moyenne et la variance. L’échantillon est
non exhaustif.
n 1 10 1
E(V(X)) = σ² = 6,67 = 6,003
n 10
59
Statistiques décisionnelles 3. Loi de probabilité de la variance d’échantillon
a) La moyenne de la population.
m= 23 6811 = 6
5
b) Ecart type de la population.
n 1 2 1
E(V(X)) = σ² = 10,8 = 5,4
n 2
d) L’écart type de la distribution d'échantillonnage des variances, c'est-à-dire l'erreur standard.
N n 1 5 2 1
E(V(X)) = σ² = 10,8 = 6,75
N 1 n 5 1 2
3.3.4. Solution de l’exercice 3.2.4.
Désignons par X le poids des ovins. X suit une loi normale de moyenne 38 kg et d’écart type 5
kg
60
Statistiques décisionnelles 3. Loi de probabilité de la variance d’échantillon
m = 38 ² = 25 et n = 25
n 1 25 1
E(V(X)) = σ² = 25 = 24
n 25
- Ecart type de la distribution d'échantillonnage des variances.
b) Pour combien d'échantillons peut-on s'attendre à trouver un écart type compris entre 4 et 8
kilogrammes ?
n.V(X)
Dans le cas d’une population normale, la variable aléatoire possède une distribution
²
khi deux à 24 (n-1) degré de liberté.
25.V(X) 25.49
p(4² < V(X) < 7²) = p( 25.16 < < )
5² 5² 5²
p(4² < V(X) < 7²) = p(16 < ² < 49)
p(4² < V(X) < 7²) = p(² < 49) - p(² < 16)
0,995 < p(² < 49) < 0,999 après interpolation linéaire on trouve :
61
Statistiques décisionnelles 3. Loi de probabilité de la variance d’échantillon
0,1 < p(² < 16) < 0,2 après interpolation linéaire on trouve :
Nombre d'échantillons dont l’écart type est compris entre 4 et 7 kilogrammes = 0,8845x80 =
70,76.
On peut s’attendre à avoir 70 ou 71 échantillons dont l’écart type est compris entre 4 et 7
kilogrammes.
n.V(X)
Dans le cas d’une population normale, la variable aléatoire possède une distribution
²
khi deux à 99 (n-1) degré de liberté.
p(0,25² < V(X) < 0,35²) = p(² < 136,11) - p(² < 69,44)
Le nombre de degré de liberté est très grand, on peut utiliser l’approximation par la loi normale
de moyenne 99 et d’écart type 2.99 =14.
136,1199
p(² < 136,11) = ( ) = (2,65) = 0,9960
14
69,4499
p(² < 69,44) = ( ) = (2,11) = 0,0174
14
p(0,25² < V(X) < 0,35²) = 0,9960 – 0,0174 = 0,9786
62
Statistiques décisionnelles 3. Loi de probabilité de la variance d’échantillon
100.V(X) 100.0,3²
p(V(X) > 0,3²) = 1 - p(< < )
0 ,3 ² 0 ,3 ²
Le nombre de degré de liberté est très grand, on peut utiliser l’approximation par la loi normale
de moyenne 99 et d’écart type 2.99 =14.
Désignons par X la durée de vie d’une ampoule. X suit une loi normale de moyenne 1500
heures et d’écart type 150 heures. L’éclairage va durer pendant le total des durées de vie des
trois ampoules.
Y=X+X+X
L’éclairage Y suit une loi normale de moyenne 4500 heures et d’écart type 260 heures.
3.V(X) 3.260²
p(V(Y) < 260²) = p( < )
260² 260²
p(V(Y) < 260²) = p(² < 3) = 0,7769
63
Statistiques décisionnelles 3. Loi de probabilité de la variance d’échantillon
3.V(X) 3.200²
p(V(Y) < 200²) = p( < )
260² 260²
p(V(Y) < 200²) = p(² < 1,78) = 0,5893
Il s’agit d’une population normale de moyenne égale à 22,40 kg et d’écart type égal à 0,048 kg.
m = 22,40 kg = 0,048 kg et n = 36
σ² 0,048²
V(V(X)) = 2.(n 1) = 2.(36 1) = 0,0005
n 36
b) Nombre d'échantillons qui ont leur écart type compris entre 45 grammes et 50 grammes.
n.V(X)
Dans le cas d’une population normale, la variable aléatoire possède une distribution
²
khi deux à 35 (n-1) degré de liberté.
64
Statistiques décisionnelles 3. Loi de probabilité de la variance d’échantillon
Le nombre de degré de liberté est grand, de ce fait, et par application du théorème central
limite, on peut affirmer que la loi Khi deux tend vers une loi normale de paramètres k et
2k . Toutefois, la convergence vers la loi normale est relativement lente, l'approximation est
généralement satisfaisante lorsque k est supérieur à 100. Pour un nombre de degré de liberté
compris entre 30 et 100, on préfère faire usage de la racine carrée. On peut en effet utiliser la
transformation :
Z= 2² 2k 1
Le nombre d'échantillons qui ont leur écart type compris entre 45 grammes et 50 grammes est :
Il s’agit d’une population normale de moyenne égale à 300 kg et d’écart type égal à 50 kg.
m = 300 kg = 50 kg et n = 25
n 1 25 1
E(V(X)) = σ² = 50² = 2400
n 25
- Ecart type de la distribution d'échantillonnage des variances.
σ² 50²
V(V(X)) = 2.(n 1) = 2.(25 1) = 693
n 25
65
Statistiques décisionnelles 3. Loi de probabilité de la variance d’échantillon
b) Probabilité pour que 25 colis reçus au hasard et chargés sur un monte-charge aient un écart
type qui dépasse 40 kg.
n.V(X)²
Dans le cas d’une population normale, la variable aléatoire possède une distribution
²
khi deux à 24 (n-1) degré de liberté.
25.V(X) 25.40²
p(V(X) > 40²) = 1 - p( < )
50² 50²
p(V(X) > 40²) = 1 - p(² < 16)
0,1 < p(² < 16) < 0,5 après interpolation linéaire on trouve :
La différence de résistance de rupture entre les deux marques suit une loi normale de moyenne
(m2-m1) et d’écart type ²1 ² 2 .
La différence de résistance de rupture entre les deux marques suit une loi normale de moyenne
500 kg et d’écart type 361 kg.
66
Statistiques décisionnelles 3. Loi de probabilité de la variance d’échantillon
a) Probabilité pour que la différence de résistance de rupture entre les deux marques ait un
écart type de moins de 350 kg
100.V(X 2 X 1 ) 100.350²
p(V(X2 – X1) < 350²) = p( < )
361² 361²
Le nombre de degré de liberté est très grand, on peut utiliser l’approximation par la loi normale
de moyenne 99 et d’écart type 2.99 =14.
b) Probabilité pour que la différence de résistance de rupture entre les deux marques ait un
écart type de moins de 300 kg.
Le nombre de degré de liberté est très grand, on peut utiliser l’approximation par la loi normale
de moyenne 99 et d’écart type 2.99 =14.
69,06 99
p(² < 69,06) = ( ) = (2,14) = 0,0162
14
67
Statistiques décisionnelles 3. Loi de probabilité de la variance d’échantillon
a) Moyenne et écart type théoriques de la distribution d'échantillonnage des variances pour des
échantillons de taille 20.
Désignons par X la durée de vie de moyenne 1800 heures avec un écart type de 200 heures.
m = 1800 h = 200 h et n = 20
n 1
E(V(X)) = σ² = 20 1 x 200 2 = 38000
n 20
b) Moyenne et écart type théoriques de la distribution d'échantillonnage des variances pour des
échantillons de taille 50.
m = 1800 h = 200 h et n = 50
n 1 50 1
E(V(X)) = σ² = 200² = 40000
n 50
- Ecart type de la distribution d'échantillonnage des variances
c) Probabilité qu'un échantillon aléatoire de 20 unités de ce bien ait un écart type de vie
supérieur à 220.
20.V(X) 20.220²
p(V(X) > 220²) = 1 - p( < )
200² 200²
68
Statistiques décisionnelles 3. Loi de probabilité de la variance d’échantillon
0,5 < p(² < 24,2) < 0,9 après interpolation linéaire on trouve :
d) Probabilité qu'un échantillon aléatoire de 50 unités de ce bien ait un écart type de vie
supérieur à 220.
50.V(X) 50.220²
p(V(X) > 220²) = 1 - p( < )
200² 200²
p(V(X) > 220²) = 1 - p(² < 60,5)
Le nombre de degré de liberté est grand, de ce fait, et par application du théorème central
limite, on peut affirmer que la loi Khi deux tend vers une loi normale de paramètres k et
2k . Toutefois, la convergence vers la loi normale est relativement lente, l'approximation est
généralement satisfaisante lorsque k est supérieur à 100. Pour un nombre de degré de liberté
compris entre 30 et 100, on préfère faire usage de la racine carrée. On peut en effet utiliser la
transformation :
Z= 2² 2k 1
69
Statistiques décisionnelles 3. Loi de probabilité de la variance d’échantillon
m = 6 m = 0,10 et n = 40
n 1
E(V(X)) = σ² = 401 . 0,102 = 0,00975
n 40
- Ecart type de la distribution d’échantillonnage des variances
2 0,12
V (V(X)) 2 (n 1) x 2 x 39 x 0,0022
n 40
b) Pour des échantillons de taille 60 on a :
n 1
E(V(X)) = σ² = 60 1 x 0,102 0,00983
n 60
- Ecart type de la distribution d’échantillonnage des variances
2 0,12
V (V(X)) 2 (n 1) x 2 x 59 x 0,0018
n 60
c) On peut élasticités demandées, en effet pour une variation de 50 % de la taille des
échantillons on a :
0,00983 0,00975
0,82 %
0,00975
0,0018 0,0022
18,18 %
0,0022
70
Statistiques décisionnelles 4. Loi de probabilité de la proportion d’échantillon
CHAPITRE 4
LOI DE PROBABILITE DE LA PROPORTION D’ECHANTILLON
De même que pour la moyenne et pour la variance, si l’on considère une population infinie et
que l’on y prélève un échantillon aléatoire et simple d’effectif n, on désigne par Xn le nombre
d’individus possédant, dans chaque échantillon, le caractère étudié.
On désigne par p la proportion des individus possédant, dans la population, le caractère étudié.
fn Xn
n
La variable aléatoire Fn possède une distribution de probabilité, dite distribution
d’échantillonnage de la proportion. On peut donc calculer l’espérance et la variance de cette
distribution, en supposant que l’échantillon est aléatoire et simple.
71
Statistiques décisionnelles 4. Loi de probabilité de la proportion d’échantillon
E(Fn) = E( X n ) = 1 E( X n ) = 1 n p = p
n n n
Xn 1 1 pq
V(Fn) = V(
n ) = n² V( X n ) = n² n p q = n
pq
σ Fn est appelé erreur standard de la fréquence d’un échantillon aléatoire et simple.
n
En ce qui concerne la forme de cette distribution, on peut affirmer que la distribution de la
pq
proportion suit une loi normale de moyenne p et d’écart type σ Fn à condition que la
n
taille de l’échantillon soit supérieure ou égale à 30 (n 30) et le produit n p 5.
Dans le cas d’une population finie d’effectif N, au sein de laquelle est prélevé, sans remise, un
échantillon aléatoire et simple d’effectif n, l’espérance mathématique et la variance de la
fréquence sont :
E(Fn) = E( X n ) = 1 E( X n ) = 1 n p = p
n n n
V(Fn) = V( X n ) = 1 V( X n ) = 1 N n n p q = N n pq
n n² n² N 1 N 1 n
Nn pq
L’erreur standard est alors : Fn
N 1 n
4.3.1. Lors d’élections, les résultats ont montré qu’un des candidats a obtenu 46 % des voix.
Déterminer la probabilité pour que le vote donne une majorité de voix en faveur de ce candidat
pour un échantillon de :
4.3.2. Trouver la probabilité pour que parmi les 200 prochains enfants à naître :
a) Il y ait moins de 40 % de garçons.
b) Il y ait entre 43 % et 57 % de filles.
c) Il y ait plus de 54 % de garçons.
On supposera que la naissance d'un garçon et la naissance d'une fille sont équiprobables.
4.3.3. Etant donné 1000 échantillons de 200 enfants chacun, pour combien d'échantillons a-t-on
une chance de trouver :
a) Moins de 40 % de garçons.
b) Entre 40 % et 60 % de filles.
c) 53 % ou plus de filles ?
4.3.4. Les résultats d'une élection montrent qu'un des candidats a obtenu 65 % des voix.
Trouver la probabilité pour que deux échantillons aléatoires, chacun correspondant à 200
votants, indiquent plus de 10 % de différence dans les proportions de gens qui ont voté pour ce
candidat.
4.3.6. On considère une élection municipale dans laquelle deux candidats ont obtenu
respectivement 34 % et 14 % des suffrages. Le nombre de votants est 12000.
On prend un échantillon de 100 personnes, quelle est la probabilité pour que le candidat 1 ait
plus de 25 % des suffrages et le candidat 2 ait plus de 20 % ?
4.3.7. Un 1er test a donné un taux de pièces défectueuses égal à 5 %. On réalise un test de
qualité sur un échantillon de 1000 pièces mécaniques.
a) Quelle est la probabilité pour que ce dernier test donne une fréquence de pièces défectueuses
inférieure ou égale à 1 %, 2 %, 3 %, 4 % et 5 % ?
b) Quelles sont ces probabilités avec un échantillon de 100 pièces seulement au lieu de 1000.
Interpréter ces résultats.
73
Statistiques décisionnelles 4. Loi de probabilité de la proportion d’échantillon
c) Quelle est la taille de l’échantillon pour que le taux de pièces défectueuses soit inférieur ou
égale à 4 % avec une probabilité de 98 % ? Interpréter ces résultats.
4.3.8. Une étude sur la notoriété d’une marque a porté sur un échantillon aléatoire de 400
personnes.
a) Quelle est la probabilité d’avoir un taux de notoriété qui dépasse 55 % ?
b) Calculer cette probabilité si on pense que la notoriété est de 60 %.
4.3.9. Un fournisseur affirme que le risque de vendre une pièce défectueuse est de 5 %. Pour
vérifier l’affirmation du fournisseur, un contrôle a porté sur un échantillon aléatoire de 300
pièces. L’affirmation du fournisseur est-elle plausible ?
4.3.10. 80 % des clients sont satisfaits, c’est ce que pense le directeur d’une société de service.
a) Quelle est la probabilité que sur un échantillon aléatoire de 200 clients, moins de 70 %
soient satisfaits ?
b) Un deuxième échantillon aléatoire de 300 clients est choisi indépendamment du premier
échantillon. Quelle est la probabilité d’avoir plus de 2 % de différence entre les taux de
satisfaction obtenus auprès des deux échantillons ?
Soit F la variable aléatoire qui désigne la fréquence des électeurs qui voteront pour ce
candidat.
pq
La distribution d’échantillonnage de F suit une loi normale de moyenne p et d’écart type
n
à condition que la taille de l’échantillon soit supérieure ou égale à 30 (n30) et le produit n
p5.
pq pq
E(F) = p V(F) = σF
n n
E(F) = 0,46
74
Statistiques décisionnelles 4. Loi de probabilité de la proportion d’échantillon
E(F) = 0,46
0,50,46
p(F 0,5) = 1 – p(F < 0,5) = p(Z < )
0,016
p(F 0,5) = 1 – (2,5) = 1 – 0,9938 = 0,0062 = 0,62 %
Soit F la variable aléatoire qui désigne la fréquence des garçons parmi les 200 prochains
enfants à naître.
E(F) = p = 0,5
= 0,0013 σ F
pq 0,5.0,5 0,0013 = 0,0354
V(F) = =
n 200
n = 200 > 30 et le produit n p = 200.0,5 = 100 > 5. La distribution d’échantillonnage de F suit
donc une loi normale de moyenne 0,5 et d’écart type 0,0354.
75
Statistiques décisionnelles 4. Loi de probabilité de la proportion d’échantillon
a) Probabilité pour que parmi les 200 prochains enfants à naître il y ait moins de 40 % de
garçons.
0,40,5
p(F < 0,4) = p(Z < ) = (-2,82) = 1 – 0,9976 = 0,0024
0,0354
b) Probabilité pour que parmi les 200 prochains enfants à naître il y ait entre 43 % et 57 % de
filles.
c) Probabilité pour que parmi les 200 prochains enfants à naître il y ait plus de 54 % de
garçons.
0,540,5
p(F > 0,54) = 1 - p(Z < )
0,0354
Soit F la variable aléatoire qui désigne la fréquence des garçons parmi les 200 enfants de
l’échantillon.
E(F) = p = 0,5
V(F) =
pq 0,5.0,5
= = 0,0013 σ F 0,0013 = 0,0354
n 200
n = 200 > 30 et le produit n p = 200.0,5 = 100 > 5. La distribution d’échantillonnage de F suit
donc une loi normale de moyenne 0,5 et d’écart type 0,0354.
76
Statistiques décisionnelles 4. Loi de probabilité de la proportion d’échantillon
0,40,5
p(F < 0,4) = p(Z < )
0,0354
p(F < 0,4) = (-2,82) = 1 – 0,9976 = 0,0024
0,600,5 0,400,5
p(0,40 < F < 0,60) = p(Z < ) - p(Z < )
0,0354 0,0354
p(0,40 < F < 0,60) = (2,82) - (-2,82)
0,47 0,5
p(F < 0,47) = p(Z < )
0,0354
p(F < 0,47) = (-0,85) = 1 – 0,8023 = 0,1977
77
Statistiques décisionnelles 4. Loi de probabilité de la proportion d’échantillon
Soit F1 la variable aléatoire qui désigne la fréquence des gens du premier échantillon qui
E(F1) = p = 0,65
pq 0,65.0,35 σ F1 0,0011 = 0,0337
V(F1) = = = 0,0011
n 200
n = 200 > 30 et le produit n p = 200.0,65 = 130 > 5. La distribution d’échantillonnage de F 1 suit
donc une loi normale de moyenne 0,65 et d’écart type 0,0337.
Soit F2 la variable aléatoire qui désigne la fréquence des gens du deuxième échantillon qui
E(F2) = p = 0,65
Désignons par F la différence entre les fréquences des gens qui ont voté pour ce candidat dans
chaque échantillon.
σ F 0,0022 = 0,0469
La distribution d’échantillonnage de F suit donc une loi normale de moyenne 0 et d’écart type
0,0469.
78
Statistiques décisionnelles 4. Loi de probabilité de la proportion d’échantillon
0,10 0,10
p( F1 F2 > 0,1) = 1 – [p(Z ) - p(Z )]
0,0469 0,0469
p( F1 F2 > 0,1) = 1 – [(2,13) - (-2,13)]
p( F1 F2 > 0,1) = 1 – (0,9834 – 0,0166) = 0,0332
Soit F la variable aléatoire qui désigne la fréquence des étudiants admis parmi les 35
étudiants de l’échantillon.
Puisqu’on n’a pas d’information sur le taux de réussite dans cette école, on le considère égal à
50 %.
E(F) = p = 0,5
pq 0,5.0,5
V(F) = = = 0,0071 σ F 0,0071 = 0,0845
n 35
n = 35 > 30 et le produit n p = 35.0,5 = 17,5 > 5. La distribution d’échantillonnage de F suit
donc une loi normale de moyenne 0,5 et d’écart type 0,0845.
0,7 0,5
p(F > 0,7) = 1 - p(Z < )
0,0845
p(F > 0,7) = 1 - (2,37) = 1 – 0,9911 = 0,0089
b) Probabilité d’avoir plus de 15 % de différence dans les taux de réussite de deux échantillons
indépendants de 100 étudiants chacun.
Soit F1 la variable aléatoire qui désigne la fréquence des étudiants admis parmi les 100
E(F1) = p = 0,5
pq 0,5.0,5
V(F1) = = = 0,0025 σ F1 0,0025 = 0,05
n 100
79
Statistiques décisionnelles 4. Loi de probabilité de la proportion d’échantillon
Soit F2 la variable aléatoire qui désigne la fréquence des étudiants admis parmi les 100
E(F2) = p = 0,5
pq 0,5.0,5
V(F2) = = = 0,0025 σ F2 0,0025 = 0,05
n 100
n = 100 > 30 et le produit n p = 100.0,5 = 50 > 5. La distribution d’échantillonnage de F 2 suit
donc une loi normale de moyenne 0,5 et d’écart type 0,05.
Désignons par F la différence dans les taux de réussite des deux échantillons indépendants de
100 étudiants chacun.
La distribution d’échantillonnage de F suit donc une loi normale de moyenne 0 et d’écart type
0,0707.
Soit F1 la variable aléatoire qui désigne la fréquence des votants qui voteront pour le
candidat 1.
80
Statistiques décisionnelles 4. Loi de probabilité de la proportion d’échantillon
E(F1) = p = 0,34
0,250,34
p(F1 > 0,25) = 1 - ( )
0,0472
p(F1 > 0,25) = 1 - (-1,91) = 0,9719
Soit F2 la variable aléatoire qui désigne la fréquence des votants qui voteront pour le
candidat 2.
E(F2) = p = 0,14
0,200,14
p(F2 > 0,20) = 1 - ( )
0,0346
p(F2 > 0,20) = 1 - (1,73) = 0,0418
a) Probabilité pour que le dernier test donne une fréquence de pièces défectueuses inférieure ou
égale à 1 %, 2 %, 3 %, 4 % et 5 % dans un échantillon de 1000 pièces.
Soit F la variable aléatoire qui désigne la fréquence des pièces défectueuses dans
l’échantillon.
81
Statistiques décisionnelles 4. Loi de probabilité de la proportion d’échantillon
E(F) = p = 0,05
pq 0,05.0,95
V(F) = = = 0,0000475
n 1000
σ F 0,0000475 = 0,00689
0,010,05
p(F 0,01) = p(Z < ) = (-5,8) = 0
0,00689
0,020,05
p(F 0,02) = p(Z < ) = (-4,35) = 0
0,00689
0,030,05
p(F 0,03) = p(Z < ) = (-2,90) = 0,0019
0,00689
0,040,05
p(F 0,04) = p(Z < ) = (-1,45) = 0,0735
0,00689
0,050,05
p(F 0,05) = p(Z < ) = (0) = 0,5
0,00689
b) Probabilité pour que le dernier test donne une fréquence de pièces défectueuses inférieure ou
égale à 1 %, 2 %, 3 %, 4 % et 5 % dans un échantillon de 100 pièces.
Soit F la variable aléatoire qui désigne la fréquence des pièces défectueuses dans
l’échantillon.
E(F) = p = 0,05
pq 0,05.0,95
V(F) = = = 0,000475
n 100
σ F 0,000475 = 0,02179
82
Statistiques décisionnelles 4. Loi de probabilité de la proportion d’échantillon
0,020,05
p(F 0,02) = p(Z < ) = (-1,38) = 0,0838
0,02179
0,030,05
p(F 0,03) = p(Z < ) = (-0,92) = 0,1788
0,02179
0,040,05
p(F 0,04) = p(Z < ) = (-0,46) = 0,3228
0,02179
0,050,05
p(F 0,05) = p(Z < ) = (0) = 0,5
0,02179
On constate que pour un échantillon de taille plus petite, les probabilités sont plus grandes.
Plus la taille de l’échantillon est grande plus le risque d’avoir des pièces défectueuses est
grand.
c) Taille de l’échantillon pour que le taux de pièces défectueuses soit inférieur ou égal à 4 %
avec une probabilité de 98 %.
Soit F la variable aléatoire qui désigne la fréquence des pièces défectueuses dans
l’échantillon de taille n.
E(F) = p = 0,05
pq 0,05.0,95 0,0475
V(F) = = =
n n n
0,0475 0,2179
F
n n
0,040,05
p(Z < ) = 0,98
0,2179
n
0,040,05
( ) = 0,98
0,2179
n
83
Statistiques décisionnelles 4. Loi de probabilité de la proportion d’échantillon
0,040,05
= Z0,98 = 2,05 => n = 1996 pièces
0,2179
n
Soit F la variable aléatoire qui désigne la fréquence des personnes de l’échantillon qui
connaissent la marque.
Puisqu’on n’a pas d’information sur le taux de notoriété dans la population, on le considère
égal à 50 %.
E(F) = p = 0,5
pq 0,5.0,5 σ F 0,000625 0,025
V(F) = = = 0,000625
n 400
n = 400 > 30 et le produit n p = 400.0,5 = 200 > 5. La distribution d’échantillonnage de F suit
donc une loi normale de moyenne 0,5 et d’écart type 0,025.
0,550,5
p(F > 0,55) = 1 - p(Z < )
0,025
p(F > 0,55) = 1 - (2) = 0,0228
b) Probabilité d’avoir un taux de notoriété qui dépasse 60 % si on pense que la notoriété est de
60 %.
E(F) = p = 0,6
V(F) =
pq 0,6.0,4
= = 0,0006 σ F 0,0006 0,02449
n 400
0,550,6
p(F > 0,55) = 1 - p(Z < )
0,02449
p(F > 0,55) = 1 - (-2,04) = 0,9793
84
Statistiques décisionnelles 4. Loi de probabilité de la proportion d’échantillon
Soit F la variable aléatoire qui désigne la fréquence des pièces défectueuses dans
l’échantillon.
E(F) = p = 0,05
pq 0,05.0,95
V(F) = = = 0,00016
n 300
σ F 0,00016 0,01258
n = 300 > 30 et le produit n p = 300.0,05 = 15 > 5. La distribution d’échantillonnage de F suit
donc une loi normale de moyenne 0,05 et d’écart type 0,01258.
0,060,05
p(F 0,06) = 1 - p(Z < )
0,01258
p(F 0,06) = 1 - (0,79) = 0,2148
a) Probabilité que sur un échantillon aléatoire de 200 clients, moins de 70 % soient satisfaits.
Soit F la variable aléatoire qui désigne la fréquence des clients de l’échantillon qui sont
satisfaits.
E(F) = p = 0,8
pq 0,8.0,2
V(F) = = = 0,0008
n 200
σ F 0,0008 0,02828
85
Statistiques décisionnelles 4. Loi de probabilité de la proportion d’échantillon
0 ,7 0 ,8
p(F < 0,7) = p(Z < )
0,02828
p(F < 0,7) = (-3,54) = 0,0002
b) Probabilité d’avoir plus de 2 % de différence entre les taux de satisfaction obtenus auprès
des deux échantillons.
Soit F’ la variable aléatoire qui désigne la fréquence des clients du deuxième échantillon
E(F’) = p = 0,8
pq 0,8.0,2
V(F’) = = = 0,00053
n 300
σ F ' 0,00053 0,02309
n = 300 > 30 et le produit n p = 300.0,8 = 240 > 5. La distribution d’échantillonnage de F suit
donc une loi normale de moyenne 0,8 et d’écart type 0,02309.
Désignons par F la différence dans les taux de satisfaction des deux échantillons indépendants.
σ F 0,00133 0,03647
La distribution d’échantillonnage de F suit donc une loi normale de moyenne 0 et d’écart type
0,03647.
86
Statistiques décisionnelles 4. Loi de probabilité de la proportion d’échantillon
0,020 0,020
p( F F' > 0,02) = 1 – [p(Z ) - p(Z )]
0,03647 0,03647
p( F F' > 0,02) = 1 – [(0,55) - (-0,55)]
p( F F' > 0,02) = 1 – (0,7088 – 0,2912) = 0,5824
87
Statistiques décisionnelles 4. Loi de probabilité de la proportion d’échantillon
88
Statistiques décisionnelles Partie 3. Principe de l’estimation
PARTIE 3
PRINCIPE DE L’ESTIMATION
Les premiers problèmes d’inférence statistique auxquels s’applique la théorie des distributions
d’échantillonnage sont les problèmes d’estimations. Le but poursuivi est d’estimer, à partir
d’un échantillon, la ou les valeurs numériques d’un ou de plusieurs paramètres de la population
considérée et de déterminer la précision de cette ou de ces estimations.
Soient une population quelconque, dont la distribution de probabilité L(X) est fonction d’un
paramètre : L(X) = f(X, ) et un échantillon aléatoire et simple d’effectif n extrait de cette
population.
On appelle estimateur du paramètre , toute fonction aléatoire des valeurs observées, X1, X2,
X3,…, Xn, susceptibles de servir à estimer
On appelle estimation les valeurs numériques t1, t2, …de cette variable aléatoire Tn.
Absence de biais
La première qualité d’un bon estimateur est l’absence d’erreur systématique ou de biais. Cette
qualité implique que la vraie valeur doit être retrouvée en moyenne :
E(Tn) =
Tout estimateur qui satisfait cette condition est dit sans biais ou non biaisé.
89
Statistiques décisionnelles Partie 3. Principe de l’estimation
Variance minimale
Une deuxième qualité d’un bon estimateur est de posséder une précision suffisante. Cette
précision peut être mesurée par le moment d’ordre deux par rapport à .
E[(Tn - )²]
On peut démonter qu’à tout paramètre correspond une valeur minimum de E[(Tn - )²].
90
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population
CHAPITRE 5
ESTIMATION DE LA MOYENNE D’UNE POPULATION
La meilleure estimation de la moyenne m d’une population, qui puisse être déduite d’un
échantillon aléatoire et simple, est la moyenne de l’échantillon.
^ _
m=X
La dispersion des différentes estimations possibles autour de cette moyenne générale, est
mesurée par l’erreur standard de la moyenne :
x
n
Signalons dès à présent, comme nous le verrons, dans le chapitre suivant, que l’estimation
ponctuelle et sans biais de la variance d’une population mère, à partir des résultats obtenus
d’un échantillon simple et aléatoire est :
n
^ n (x x)²i
² v( x ) = i 1
n -1 n 1
5.1.2. Estimation par intervalle de confiance.
Les limites X1 et X 2 sont telles que :
p ( X1 m X2 ) = 1 - ou p (m < X1 ) = p (m > X 2 ) = /2
Si on désigne par Z1 la valeur de la variable normale centrée et réduite lue dans la table,
2
les limites de confiances sont :
σ σ
X1 = X - Z et X2 = X + Z
1- n 1 n
2 2
σ
X Z ou x Z1 ;xZ
1 n 1
2 2 n 2 n
Dans le cas d’une population normale dont on ne connaît pas l’écart type, on utilise
l’estimation ponctuelle et sans biais de l’écart type, à savoir :
n
ˆ V( x )
n 1
Pour une population de distribution de probabilité inconnue (écart type inconnu), on utilise la
quasi-variance comme estimation de la variance de la population.
n
ˆ V( x )
n 1
92
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population
Dans ce cas, la moyenne d’un échantillon peut toujours être considérée comme une variable T
de Student à (n-1) degré de liberté.
^
σ ˆ ˆ
X T ou x T1 ;xT
n 1
1-
2 2 n 2 n
Dans ce cas, la moyenne d’un échantillon peut toujours être considérée comme une variable
approximativement normale. L’intervalle de confiance est alors :
^
σ ˆ ˆ
X Z ou x Z1 ;xZ
n 1
1-
2 2 n 2 n
La population objet d’étude peut être subdivisée en plusieurs strates dans lesquelles on choisit
des échantillons indépendants.
Désignons par :
N = Taille de la population
Ni = Taille de la strate i
n = Taille de l’échantillon global
ni = Taille de l’échantillon prélevé dans la strate i
m̂ i x i
93
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population
i Ni ni
avec une erreur standard x i
ni Ni 1
Ni xi
m̂ x
Ni
1 2 Ni n i
La variance de x est : V (x) ( N i2 i )
N 2
ni Ni 1
1 i2 N i n i
L’erreur standard est : x ( N i2 )
N ni Ni 1
X Z1 / 2 x
x m̂
Où Z1 / 2 est tel que p ( Z1 / 2 ) 1 lu dans la table de la loi de probabilité
ˆ 2
normale centrée réduite.
a) Déduisez-en une estimation du nombre moyen de pannes par jour, en supposant que la
distribution théorique du nombre de pannes est une loi de poisson.
b) Donnez l’erreur standard du résultat obtenu.
94
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population
5.3.2. Lors d’un concours radiophonique, on note X le nombre de réponses reçues chaque jour.
On suppose que X suit une loi normale de paramètres m et . Durant les 10 premiers jours, on
a obtenu :
x1 = 200 ; x2 = 240 ; x3 = 190 ; x4 = 150 ; x5 = 220 ; x6 = 180 ; x7 = 170 ; x8 = 230 ; x9 =
210 et x10 = 210.
Déterminer une estimation ponctuelle de m.
13 ; 06 ; 12 ; 10 ; 10 ; 16 ; 02 ; 04 ; 11 ; 12 ; 12 ; 05 ; 07 ; 08 ; 13
5.3.4. Dans une entreprise produisant un article déterminé, on veut estimer la durée de vie de
cet article en heures. À cette fin on a observé un échantillon de 16 unités dont les résultats sont
(en 1000 heures) :
5.3.5. Dans une station service, on suppose que le montant des chèques essence suit une loi
normale de paramètres m et . On considère un échantillon de taille n = 50 et on obtient une
moyenne de 130 Dh et un écart-type de 28 Dh.
Donner une estimation de m par un intervalle de confiance au niveau de confiance 95%.
95
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population
5.3.6. On donne la répartition des masses de 35 ressorts provenant d’une même fabrication :
5.3.7. On veut estimer l’espérance mathématique m d’une variable aléatoire gaussienne X dont
on connaît l’écart type = 2,3. Quelle est la taille minimum de l’échantillon de X qui està
prendre si l’on veut obtenir pour m un intervalle de confiance de seuil 0,95 et dont la longueur
ne dépasse pas 0,1 ?
5.3.8. Un confiseur vend des boites de bonbons d’un certain modèle. On note X la masse d’une
boite pleine. Les pesées de 8 boites ont conduit aux masses (en kg) :
5.3.9. Après avoir pesé 12 pamplemousses d’une même provenance, on donne pour l’espérance
mathématique m du poids X d’un pamplemousse, l’intervalle de confiance au niveau de
confiance 95% : 390 g m 520 g. En déduire la moyenne observée et l’écart type observé.
5.3.10. Un échantillon aléatoire de 50 notes (sur 100) dans une population de 200 a donné une
moyenne de 75 et un écart type de 10.
a) Quelles sont les limites de confiance à 94 % pour estimer la moyenne des 200 notes ?
b) Avec quel degré de confiance peut-on dire que la moyenne des 200 notes est de 75 plus ou
moins 1 ?
5.3.11. Un échantillon de 150 lampes de marque A a donné une durée de vie moyenne de 1400
heures et un écart type de 120 heures. Un échantillon de 200 lampes de marque B a donné une
96
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population
durée de vie moyenne de 1200 heures et un écart type de 80 heures. Déterminer les limites de
confiance à 95 % de la différence des durées de vie moyennes des marques A et B.
5.3.12. Une compagnie fabrique des roulements à billes ayant un poids moyen de 0,638 Kg et
un écart type de 0,012 Kg.
Calculer les limites de confiance des poids de lots comprenant 100 roulements chacun.
a) Avec un risque d’erreur de 1 %.
b) Avec un risque d’erreur de 10 %.
c) Discuter la sensibilité de la largeur de l’intervalle de confiance par rapport au risque
d’erreur.
5.3.13. Dans une population de 579 individus, divisée en quatre strates comprenant
respectivement 53 ; 190 ; 231 ; et 105 individus, on a prélevé un échantillon de 58 individus,
dont 10 dans la première strate, 14 dans la deuxième, 21 dans la troisième et 13 dans la
quatrième. En fonction des résultats suivants, estimer la moyenne de la population globale et
l’erreur standard de cette moyenne, en considérant l’échantillon comme :
a) Aléatoire et simple ;
b) Stratifié.
5.3.14. En vue d’estimer la note moyenne des élèves d’une école, on a choisi de façon aléatoire
et simple six classes, et dans chacune de ces classes on a choisi aléatoirement 4 élèves. En
fonction des résultats obtenus et repris ci-dessous :
a) Estimer la note moyenne des élèves de l’école ;
b) Déterminer l’intervalle de confiance à 95 % de cette estimation.
Classes
1 2 3 4 5 6
Elèves
1 11,69 11,79 11,84 12,30 11,83 11,95
2 12,32 11,97 11,59 11,91 11,77 11,87
3 12,32 12,07 11,25 12,05 12,15 11,65
4 11,90 12,06 11,80 12,23 11,66 11,87
97
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population
xi ni ni xi x i2 n i x i2
0 53 0 0 0
1 32 32 1 32
2 11 22 4 44
3 3 9 9 27
4 1 4 16 16
Somme 100 67 30 119
Somme / n 0,67 - 1,19
V(x) 0,7411
σ 0,86
^
m = 0,67
Avoir 0,67 panne par jour peut sembler bizarre du fait que le nombre de pannes doit être un
entier, mais le résultat que nous avons obtenu veut dire qu’en moyenne il y a un peu plus d’une
panne, tous les deux jours (exactement 2x0,67= 1,34).
b) L’écart type de la population est inconnu, on utilise comme estimation ponctuelle est
sans biais de l’écart type :
n 100
σ̂ V(X) x 0,7411 0,87
n 1 100 1
ˆ 0,87
L’erreur standard est mesurée par x 8,7 %
n 100
98
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population
^
m = 200 réponses par jour.
L’erreur standard de l’estimation est :
x
n
(x i x) 2 σ̂ 27,89
ˆ 27,89 soit σ x 8,82
n 1 n 10
xi x i2
200 40 000
240 57 600
190 36 100
150 22 500
220 48 400
180 32 400
170 28 900
230 52 900
210 44 100
210 44 100
Somme 2 000 407 000
Somme / n 200 40 700
V(x) 700
n
ˆ x V( x ) 27,89
n 1
99
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population
^
m = 9,4
ˆ 3,92
x 1,01
n 15
xi x i2
13 169
6 36
12 144
10 100
10 100
16 256
2 4
4 16
11 121
12 144
12 144
5 25
7 49
8 64
13 169
Somme 141 1541
Somme / n 9,40 102,73
V(x) 14,37
σ (x) 3,79
n
ˆ x V( x ) 3,92
n 1
b) Comme la loi de probabilité est inconnue et que nous avons un échantillon de taille n < 30,
la moyenne de l’échantillon peut être considérée comme une variable aléatoire T de Student à
(n-1) degrés de liberté, soit 14.
T 0,05 à 14 degrés de liberté lu sur la table de Student est : 2,145
1-
2
100
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population
^
m = 1,2 soit une durée de vie de 1200 heures.
ˆ 0,11
L’erreur standard est : x 0,03
n 16
101
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population
b) Comme la loi de probabilité est inconnue et que nous avons un échantillon de taille n < 30,
la moyenne de l’échantillon peut être considérée comme une variable aléatoire T de Student à
15 degrés de liberté, (n – 1).
^
σ
X T 0 , 05
= 1,2 0,06
1 -
2
n
L’intervalle de confiance de la durée de vie moyenne de l’article est alors : [1,14 ; 1,26] soit
[1140 h ; 1260 h]
^
σ
X T 0 , 05
= 1,2 0,05
1 -
2
n
L’intervalle de confiance de la durée de vie moyenne de l’article est alors : [1,15 ; 1,25] soit
[1150 h ; 1250 h]
d) On voit bien qu’en doublant le risque d’erreur, l’intervalle de confiance ne varie pas
tellement (une variation de 16,7 %) puisque sa largeur varie de 0,12 à 0,10.
Dans le cas d’une population normale les limites de l’intervalle de confiance à 95% sont :
X Z 0 , 05
1-
2 n
102
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population
De même, l’estimation ponctuelle et sans biais de l’écart type est donnée par :
n
ˆ . V( x ) 28,28
n 1
X Z 0 , 05
= 130 7,84
1
2 n
^
m = 88,5 g
ˆ
x 0,063
n
xi ni ni xi ni x i2
83 4 332 27556
85 6 51 43350
87 6 522 45414
89 6 534 47526
91 8 728 66248
93 2 186 17298
95 2 190 18050
97 1 97 9409
Somme 35 3099 274851
Somme / n 88,5 7852,90
V(x) 13,6
σ (x) 3,68
n
ˆ x V( x ) 3,74
n 1
103
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population
Comme nous ne connaissons pas la loi de probabilité de la variable aléatoire : poids du ressort
et comme l’échantillon a une taille de 36 > 30, cette loi de probabilité peut être approchée par
une normale.
^
X± Z 0 , 04
= 88,5 1,30
1 -
2 n
Nous utiliserons les limites de l’intervalle de confiance à 95% avec les données suivantes :
2,3 n
Z 0 , 05
= 0,05 => Z 0 , 05
= 0,05 = 1,960
1
2 n 1
2
2,3
a) L’estimation ponctuelle et sans biais de la moyenne des boîtes fabriquées par le confiseur est
la moyenne de l’échantillon considéré, à savoir après calcul :
xi x i2
1,22 1,4884
1,23 1,5129
1,21 1,4641
1,99 1,4161
1,23 1,5129
1,24 1,5376
1,18 1,3924
1,21 1,4641
Somme 9,71 11,7885
Somme / n 1,214 1,4736
104
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population
V(x) 0,0004
n
ˆ x V( x ) 0,021
n 1
ˆ
m̂ = 1,214 kg par boite avec x 0,007
n
Comme la loi de distribution des poids des boîtes n’est pas connue, elle peut être approchée par
une loi de Student à 7 degrés de liberté (n – 1).
n
ˆ . V( x ) 0,022
n 1
105
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population
En supposant, comme d’habitude que l’intervalle de confiance est symétrique par rapport à la
moyenne on peut donner la moyenne observée :
390 520
E (x) 455 g
2
La demi largeur de l’intervalle de confiance est égale, en prenant pour loi de probabilité de la
distribution des poids de pamplemousse, la loi de Student à 11 degrés de liberté (n – 1).
ˆ
455 390 65 T 0 , 05 .
1 n
2
ˆ 102,30
n 1
et pour (x) ˆ 97,94
n
Comme il s’agit de plus de 30 d’effectifs, nous pouvons considérer que la loi de distribution
des notes est une loi normale.
n Nn
ˆ V( x ) x 8,77
n 1 N 1
106
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population
8,77
Z
. 1 Z 0,81
1
2 50 1
2
Correspond pour la table normale centrée réduite à 1 0,791 0,42 .
2
Le degré de confiance est donc de 58 %.
Il s’agit d’échantillons de tailles > 30, les lois de probabilités de distribution des durées de vie
peuvent être approchées par des lois normales.
L’écart type de la différence des durées de vie moyenne est estimé par :
ˆ ˆ
2
120,42
80,2 2 2
1
2
11,35
n1 n 2 150 200
Comme il s’agit de lots comprenant 100 roulements, on peut valablement approcher la loi de
probabilité des poids des roulements par une loi normale.
107
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population
a) L’intervalle de confiance à 99 % est, après lecture sur la table normale centrée réduite :
Z 2,58
1
2
b) L’intervalle de confiance à 90 % est, après lecture sur la table normale centrée réduite :
Z 1,64
1
2
0,99 0,90
9%
0,99
Nous obtenons une variation de l’intervalle de confiance de :
0,002 0,0031
35 %
0,0031
On voit bien qu’une faible variation du risque d’erreur induit une forte variation de l’intervalle
de confiance.
La meilleure estimation de la moyenne m d’une population, qui puisse être déduite d’un
échantillon aléatoire et simple, est la moyenne de l’échantillon.
108
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population
58
xi 54 127 388 553
m̂ X = i 1
= = 19,34
n 58
La dispersion des différentes estimations possibles autour de cette moyenne générale, est
mesurée par l’erreur standard de la moyenne :
=
Nn
X
n N 1
^
n.V(X)
n -1
58
xi² -
V(X) i 1
- x²
n
1004 3081 13270 39667
V(X) - 19,34² = 609,10
58
^
58.609,10
=24,90
58 - 1
579 58
= 24,90
= 3,10
X
58 579 1
La moyenne de la population globale peut être estimée à 19,34 avec une erreur standard de
3,10.
b) Echantillon stratifié
ni
xi
m̂ i X i = i 1
ni
109
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population
^ n i.V(X)
i
n i -1
ni
xi² -
V(X) i 1
- xi ²
ni
Le tableau suivant regroupe les résultats des calculs pour chaque strate.
Strate Ni ni V(X)
^
i Xi
xi
1 53 10 5,4 71,24 8,9 2,56
2 190 14 9,07 137,78 12,18 3,14
3 231 21 18,48 290,54 17,47 3,64
4 105 13 42,54 1241,79 36,68 9,57
Total 579 58
m
^ Ni x i 53.5,4190.9,07 231.18,48105.42,54
=
Ni 579
^
m = 18,56
L’erreur standard de l’estimation est :
Xi = V(x)
1 N i ²V(x i )
avec V( x ) =
N²
V( x ) = 1 (53².2,56² + 190².3,14² + 231².3,64² + 105².9,57²)
579²
V( x ) = 6,24
110
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population
La moyenne de la population globale peut être estimée à 18,56 avec une erreur standard de 2,5.
On peut constater que l’échantillonnage stratifié est plus précis que l’échantillonnage aléatoire
et simple.
ni
xi
m̂ i X i = i 1
ni
L’erreur standard de la moyenne :
^
Xi = i
ni
^ n i.V(X)
i
n i -1
ni
xi² -
V(X) i 1
- xi ²
ni
111
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population
Le tableau suivant regroupe les résultats des calculs pour chaque classe.
Classe V(X) i
^
Xi
xi
1 12,06 0,07 0,32 0,16
2 11,97 0,01 0,13 0,06
3 11,62 0,05 0,27 0,13
4 12,12 0,02 0,18 0,09
5 11,85 0,03 0,21 0,11
6 11,84 0,01 0,13 0,06
En supposant des classes de même effectifs, la note moyenne de l’école peut être estimée par :
m
^ xi 12,0611,97 11,6212,1211,8511,84
=
6 6
^
m = 11,91
L’erreur standard de l’estimation est :
Xi = V(x)
1 V(x i )
avec V( x ) =
6²
V( x ) = 1 (0,16² + 0,06² + 0,13² + 0,09² + 0,11² + 0,06²)
36
V( x ) = 0,0019
Xi = 0,0019 = 0,044
La note moyenne de l’école peut être estimée à 11,91 avec une erreur standard de 0,044.
112
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population
La loi de la population est inconnue, la taille de l’échantillon est inférieure à 30. L’intervalle de
confiance est :
^
X T1
2 n
Au seuil de 5 %, la valeur de T0,975 avec 23 degrés de liberté lue dans la table de Student est :
T0,975 = 2,07
113
Statistiques décisionnelles. 5. Estimation de la moyenne d’une population
114
Statistiques décisionnelles 6. Estimation de la variance d’une population
CHAPITRE 6
ESTIMATION DE LA VARIANCE D’UNE POPULATION
σ²
Le biais est : E(V(X)) - ² =
n
^ n (x i x )²
² v( x ) = i 1
n 1 n 1
115
Statistiques décisionnelles 6. Estimation de la variance d’une population
L’erreur standard de cette estimation est, dans le cas d’une population normale :
^ 2
v( ²) 2 (n 1)
n
6.1.2. Estimation par intervalle de confiance.
p(²1 ² ²2) = 1 -
n
(x i x)²
i 1
Comme, pour une population normale, la variable aléatoire possède une
²
distribution khi deux à (n-1) degrés de liberté, on peut alors écrire :
n n n
(x i x)²
i 1
(x i x)²
i 1
(x i x)²
i 1
p( )=1-
² 2 ² ²1
Les limites de confiances sont alors :
n n
(x x)²
i 1
i (x x)²
i 1
i
²1 = et ²2 =
²1 ²
2 2
Les valeurs de ² et ²1 sont à (n-1) degré de liberté, lus sur la table du 2 .
2 2
116
Statistiques décisionnelles 6. Estimation de la variance d’une population
La population objet d’étude peut être subdivisée en plusieurs strates dans lesquelles on choisit
des échantillons indépendants.
Désignons par :
N = Taille de la population
Ni = Taille de la strate i
n = Taille de l’échantillon global
ni = Taille de l’échantillon prélevée dans la strate i
ˆ i2
xi xi
ni 1
La variance globale de la population est estimée par :
ˆ
2
N i ˆ i2 N i x i x
2
N N
6.3. ENONCES DES EXERCICES D’APPLICATION.
117
Statistiques décisionnelles 6. Estimation de la variance d’une population
6.3.9. Une compagnie fabrique des roulements à billes ayant un poids moyen de 0,638 kg et un
écart type de 0,012 kg. Calculer les limites de confiance de l’écart type des poids de lots
comprenant 100 roulements chacun.
a) Avec un risque d’erreur de 1 %.
b) Avec un risque d’erreur de 5 %.
c) Discuter la sensibilité de l’intervalle de confiance en fonction de la variation du risque
d’erreur.
Nous reprenons les résultats des tableaux des calculs de la solution de l’exercice 5.3.1., page
127.
118
Statistiques décisionnelles 6. Estimation de la variance d’une population
ˆ 2 0,87 2
V(ˆ 2 ) 2 n 1 2 100 1 0,1065
n 100
On reprend le tableau des résultats de calculs de la solution de l’exercice 5.3.2., page 128.
n
ˆ x V( x ) 27,89
n 1
27,89 2
V(ˆ ) 2 x 10 1 18,16
10
On reprend le tableau des résultats de calculs de la solution de l’exercice 5.3.3. page 129.
a) L’estimation ponctuelle, sans biais, de l’écart type des votes est, après calcul :
n
ˆ x V( x ) 3,92
n 1
119
Statistiques décisionnelles 6. Estimation de la variance d’une population
(x i x) 2
Soit 12 8,25 et 1 2,87
2 0 , 05
1
2
20 , 05 5,629
2
(x i x) 2
Soit 22 38,29 et 2 6,19
0 , 05
2
(x i x) 2
Soit 12 6,88 et 1 2,62
2 0 , 01
1
2
20 , 01 4,075
2
(x i x) 2
Soit 12 52,90 et 2 7,27
20 , 01
2
On reprend le tableau des résultats de calcul de la solution de l’exercice 5.3.4. page 131.
120
Statistiques décisionnelles 6. Estimation de la variance d’une population
n
ˆ x V( x ) 0,11 soit 110 h.
n 1
2 0 , 002
37,698
1
2
Σ(x i x ) 2
Soit σ 12 0,0046 et 1 0,068
χ2 0,002
1
2
20 , 002 3,483
2
Σ (x i x ) 2
Soit σ 22 0,0499 et 2 0,223
χ 20,002
2
n
ˆ V( x ) 28,28
n 1
2
Z 2 x k 1
2
2
1,64 2 x 49 1
2
65,997
0 ,1
1 2
2
121
Statistiques décisionnelles 6. Estimation de la variance d’une population
20 ,1
1,64 2 x 49 1 2
33,693
2 2
12
xi x 2
28 2 x 50
593,97 et 1 24,37
2 0 ,1 65,997
1
2
22
xi x 2
28 2 x 50
1163,446 et 2 34,11
20 ,1 33,693
2
On reprend le tableau des résultats de calcul de la solution de l’exercice 5.3.6. page 133.
n
σ̂ 2 x V(x) 14
n 1
χ2
Z 2k 1
2
2
1,96 2 x 34 1 2
51,46
0 , 05
1 2
2
2
1,96 2 x 34 1 2
19,38
0 , 05
2 2
( x i x ) 2 14 x 34
Soit 12 9,25 et 1 3,04
2 0 , 05 51,46
1
2
( x i x ) 2 14 x 34
Soit 22 24,56 et 2 4,96
20 , 05 19,38
2
122
Statistiques décisionnelles 6. Estimation de la variance d’une population
On reprend le tableau des résultats de calcul de la solution de l’exercice 5.3.8. page 135.
2 0 , 05
16,013
1
2
(x i x) 2
Soit 12 0,0002 et σ 1 0,014
2 0 , 05
1
2
20 , 05 1,690
2
(x i x) 2
Soit 22 0,0019 et 2 0,044
20 , 05
2
b) Si l’on n’a fait que 5 observations au lieu de 8, les résultats deviennent, après lecture de la
table de 2 à 4 degrés de liberté :
2 0 , 05
11,143
1
2
(x i x) 2
Soit 12 0,0003 et 1 0,017
2 0 , 05
1
2
20 , 05 0,484
2
(x i x) 2
Soit 22 0,0066 et 2 0,081
20 , 05
2
123
Statistiques décisionnelles 6. Estimation de la variance d’une population
On reprend les résultats des calculs de la solution de l’exercice 5.3.10. page 138.
ˆ 8,77
La valeur 2 à 199 degrés de liberté peut être approximée par la loi normale de moyenne 199
et d’écart type 2 x 199 19,95 .
2 0 , 05
199
1
2
Z 0 , 05
19,95 1
2
2 0 , 05
1,96 x 19,95 199 238,10
1
2
20 , 05 199
2
Z 0 , 05
19,95 2
12
xi x
2
8,77 2 x 199
64,28 et 1 8,02
2 0 , 05 238,10
1
2
2 xi x
2
8,77 2 x 199
95,72 et 2 9,78
20 , 05
2
159,90
2
124
Statistiques décisionnelles 6. Estimation de la variance d’une population
0,012 kg
Les valeurs de 2 à 99 degrés de liberté peuvent être approximées par la loi normale de
moyenne 99 et d’écart type 2 x 99 14 .
a) Risque d’erreur de 1 % :
2 0 , 01
99
1
2
Z 0 , 01
2 0 , 01
2,58 x 14 99 135,12
14 1 1
2 2
Z 20 , 01 99
2
Z 0 , 01 20 , 01 2,58 x 14 99 62,88
14 2 2
12
xi x
2
0,012 2 x 100
0,0001 et 1 0,0103
2 0 , 01 135,12
1
2
22
xi x
2
0,012 2 x 100
0,0002 et 2 0,0151
20 , 01 62,88
2
b) Risque d’erreur de 5 % :
2 0 , 05
99
1
2
Z 0 , 05
2 0 , 05
1,96 x 14 99 126,44
14 1 1
2 2
20 , 05 99
2
Z 0 , 05 20 , 05 1,96 x 14 99 71,56
14 2 2
2 xi x
2
0,012 2 x 100
0,00011 et 1 0,0107
2 0 , 05
1
126,44
1
2
125
Statistiques décisionnelles 6. Estimation de la variance d’une population
22
xi x
2
0,012 2 x 100
0,0002 et 2 0,0142
20 , 05 71,56
2
Pour une variation du risque d’erreur de 1 % à 5 % (soit une augmentation de 400 %) la largeur
de l’intervalle de confiance varie de 0,0048 (= 0,0151 – 0,0103) à 0,0035 (= 0,0142 – 0,0107)
soit – 27 %.
x ² i -
V(X) i 1
-x²
n
58
x i
54 127 388 553
x= i 1
= = 19,34
n 58
^
58.609,10
² =619,79
58 - 1
b) Echantillon stratifié :
n i .V(X)
σ̂ 12
ni -1
126
Statistiques décisionnelles 6. Estimation de la variance d’une population
ni
x ² i -
V(X) i 1
- xi ²
ni
ni
x i
xi = i 1
ni
Le tableau suivant regroupe les résultats des calculs pour chaque strate.
^
Strate Ni ni xi V(X) ² i
1 53 10 5,4 71,24 79,2
2 190 14 9,07 137,78 148,4
3 231 21 18,48 290,54 305,1
4 105 13 42,54 1241,79 1614,3
Total 579 58
N xi 53.5, 4 190.9,07 231.18, 48 105.42,54
i
x = = 18,56
Ni 579
^
^ N i ² i N i ( x i x )²
²
N N
^
² = 620,11
127
Statistiques décisionnelles 6. Estimation de la variance d’une population
^ n i .V(X)
² i
ni -1
ni
x ² i -
V(X) i 1
- xi ²
ni
ni
x i
xi = i 1
ni
Le tableau suivant regroupe les résultats des calculs pour chaque classe.
^
Classe xi V(X) ² i
1 12,06 0,07 0,1024
2 11,97 0,01 0,0169
3 11,62 0,05 0,0729
4 12,12 0,02 0,0324
5 11,85 0,03 0,0441
6 11,84 0,01 0,0169
En supposant des classes de même effectifs, la note moyenne de l’école peut être estimée par :
x
x i
=
12,06 11,97 11,62 12,12 11,85 11,84
6 6
x = 11,91
La variance de la population globale peut être estimée par :
N N (x x)²
^
^ ²i i
²
i i
= 0,07
N N
^
L’écart type de la population globale peut être estimée par : = 0,27.
128
Statistiques décisionnelles 7. Estimation de la proportion d’une population
CHAPITRE 7
ESTIMATION DE LA PROPORTION D’UNE POPULATION
La meilleure estimation de la proportion p d’une population, qui puisse être déduite d’un
échantillon aléatoire et simple, est la fréquence de l’échantillon fn.
p̂ f n
La dispersion des différentes estimations possibles autour de cette proportion générale, est
mesurée par l’erreur standard de la proportion :
f n 1 f n
f
n
n
Comme, la distribution de la proportion suit une loi normale de moyenne p et d’écart type
pq
Fn à condition que la taille de l’échantillon soit supérieure ou égale à 30 (n 30) et le
n
produit np 5, on peut écrire si on désigne par Z1 la valeur de la variable normale réduite
2
lue dans la table que les limites de l’intervalle de confiance sont :
129
Statistiques décisionnelles 7. Estimation de la proportion d’une population
p(1 p) p(1 p)
p1= fn - Z
et p2 = fn + Z
1 n 1 n
2 2
p(1 p)
fn Z
1 n
2
p (1 p) p (1 p)
ou f n Z 1 ; fn Z
2 n 1
2 n
7.3.2. Un promoteur désire étudier le nombre de garage qu'il est souhaitable de construire avec
un ensemble de logements, afin que les occupants puissent y ranger leur voiture. Pour cela il
fait effectuer une enquête par sondage auprès d'un échantillon de ménages susceptibles
d'habiter ces appartements.
a) On interroge un échantillon de 3238 ménages. On trouve parmi eux 1943 possesseurs d'une
voiture. Estimez, à partir de cet échantillon, la proportion des ménages ayant une voiture.
Degré de confiance 99 %.
b) À partir de la proportion estimée, combien de ménages faudrait-il interroger pour construire,
avec un risque d'erreur de 5 %, un intervalle de confiance d'amplitude 0,04 ?
7.3.3. On étudie le pourcentage d'utilisation d'une machine. 400 observations ont été effectuées
qui ont donné le résultat suivant :
Machine marche : 320 observations.
Machine arrêtée : 80 observations.
a) Entre quelles limites peut-on fixer le taux d'utilisation de la machine avec un degré de
confiance de 94 % ?
b) Combien doit-on faire d'observations pour obtenir le même pourcentage d'utilisation tout en
ayant, avec un risque d'erreur de 6 %, l’intervalle de confiance à [78,4 % ; 81,6 %] ?
130
Statistiques décisionnelles 7. Estimation de la proportion d’une population
7.3.4. Sur un échantillon de 400 adultes et de 600 adolescents ayant regardé un certain
programme de télévision, 100 adultes et 300 adolescents l’ont apprécié. Calculer les limites de
confiance à 99 % de la différence des fréquences des adultes et des adolescents qui ont regardé
et apprécié le programme.
7.3.5. On considère 2 échantillons tirés d’une même population et l’on désire calculer le taux
de participation à un vote.
Le 1er échantillon de taille 100 a donné 45 personnes ayant voté.
Le 2e échantillon de taille 200 a donné 96 personnes ayant voté.
a) Donner les 2 estimations ponctuelles des taux de participation au vote.
b) Donner pour chaque échantillon un intervalle de confiance de taux de participation au vote
avec un risque d’erreur de 1 %.
c) Donner la sensibilité de l’intervalle de confiance en fonction de la taille de l’échantillon.
7.3.6. Sur 100 clients d’un café, 85 demandent un café au petit déjeuner.
a) Donner une estimation ponctuelle de la proportion de clients qui prennent un café.
b) Donner l’intervalle de confiance à 1 % de risque d’erreur de cette proportion.
c) Donner l’intervalle de confiance à 5 % de risque d’erreur de cette proportion.
d) Discuter la sensibilité de l’intervalle de confiance en fonction du risque d’erreur.
48
p1 0,40
120
0,40 x 0,60
p 0,045
1
120
66
p2 0,44
150
131
Statistiques décisionnelles 7. Estimation de la proportion d’une population
0,44 x 0,56
L’erreur standard est p 0,040
2
150
48 66 114
P3 0,42
120 150 270
0,42 x 0,58
L’erreur standard est : p 0,030
270 3
a) L’estimation ponctuelle de la proportion des personnes ayant une voiture, d’après les
données du 1er échantillon est :
1943
p 0,60
3238
On utilisera la loi normale puisque l’échantillon a une taille de 3238 > 30 et que np = 1943 > 5.
Z 0 , 01
2,575
1
2
p (1 p)
Soit Z 0 , 01 0,022
1 n
2
b) On suppose que la taille de l’échantillon qu’on va trouver est supérieure à 30 et que np > 5
pour que nous puissions utiliser la lecture de la table normale centrée réduite.
Z 0 , 05
1,960
1
2
132
Statistiques décisionnelles 7. Estimation de la proportion d’une population
Pour avoir un intervalle de confiance à 5 % de risque d’erreur d’amplitude 0,04, on doit avoir :
p (1 p) 0,04
Z 0 , 05 0,02
1 n 2
2
p (1 p)
n Z2 0 , 05
. 2305
1
2 0,02 2
320
p 0,80
400
On utilisera la loi normale puisque l’échantillon a une taille de 400 et que np = 320 > 5.
Z 0 , 06
1,88
1
2
p (1 p)
Z 0 , 06 0,038
1 n
2
Donc :
p (1 p) 0,032
Z 0 , 06 . 0,016
1 n 2
2
p (1 p)
n Z2 0 , 06
: 2209
1
2 0,016 2
On voit bien que n = 2209 est supérieur à 30 et que np = 1767 > 5 ce qui justifie notre
utilisation de la loi normale.
133
Statistiques décisionnelles 7. Estimation de la proportion d’une population
100
p1 0,25
400
0,25 x 0,75
p 0,0217
1
400
300
p2 0,5
600
0,5 x 0,5
p 0,0204
2
600
La différence des fréquences des adultes et des adolescents qui ont regardé et apprécié le
programme :
Au seuil de 99 % Z 0 , 01
2,575
1
2
134
Statistiques décisionnelles 7. Estimation de la proportion d’une population
p1 = 0,45
p2 = 0,48
b) Les intervalles de confiance à 1 % de risque d’erreur sont, après lecture sur la table normale
centrée réduite puisque pour les 2 échantillons n > 30 et np > 5.
Z 0 , 01 2,575
1
2
p 1 (1 p 1 )
Z 0 , 01 0,128
1 n1
2
p 2 (1 p 2 )
Z 0 , 01 0,091
1 n2
2
Pour ce faire, nous allons supposer qu’en ayant augmenté la taille de l’échantillon de 100 à 200
la proportion p est restée inchangée, ce qui modifie quelque peu l’intervalle relatif au 2 e
échantillon puisqu’il devient :
p 1 (1 p 1 )
Z 0 , 01 0,091
1 n2
2
On fait passer la taille de l’échantillon de 100 à 200 (soit + 100 %) l’amplitude de l’intervalle
de confiance varie de 0,256 (2 x 0,128) à 0,182 (2 x 0,091) soit – 28,8 %.
135
Statistiques décisionnelles 7. Estimation de la proportion d’une population
85
a) p 0,85
100
p (1 p)
Z 0 , 01
2,575 et Z 0 , 01 0,092
1 1 n
2 2
p (1 p)
Z 0 , 05 1,960 et Z 0 , 05 0,070
1 1 n
2 2
136
Statistiques décisionnelles Partie 4. Tests statistiques
PARTIE 4
TESTS STATISTIQUES
Un test statistique est une méthode permettant de prendre une décision à partir d’informations
fournies par un échantillon.
Les tests statistiques ou les tests d’hypothèses ont pour but de vérifier, à partir de données
observées dans un ou plusieurs échantillons, la validité de certaines hypothèses relatives à une
ou plusieurs populations.
On peut distinguer différents types de tests, en fonction des hypothèses qu’on peut faire.
- Les tests de comparaison à une norme ou tests de conformité sont destinés à comparer
entre eux une population théorique et un échantillon observé. Ils servent à vérifier si un
échantillon donné peut être considéré comme extrait d’une population possédant telle
caractéristique particulière (moyenne, variance, …). Le test se fait en vérifiant si la différence
entre la valeur observée et la valeur théorique du paramètre considéré peut être attribuée au
hasard ou non.
- Les tests d’homogénéité ou d’égalité ont pour but de comparer entre elles un certain
nombre de populations, à l’aide d’un même nombre d’échantillons.
- Les tests d’ajustement sont destinés à vérifier si un échantillon observé peut être extrait
d’une population donnée.
- Les tests d’indépendance ont pour but de contrôler, à partir d’un échantillon,
l’indépendance de deux ou plusieurs critères de classification, généralement qualitatifs.
137
Statistiques décisionnelles Partie 4. Tests statistiques
Pour commencer, on émet une certaine hypothèse à tester, appelée hypothèse nulle,
généralement désignée par H0. Celle-ci suppose toujours l’égalité des caractéristiques
comparées.
L’hypothèse qui diffère de H0 est dite hypothèse alternative, généralement désignée par H1.
Si cette probabilité est relativement élevée, on considère l’hypothèse nulle comme plausible et
on l’accepte. Par contre si la probabilité calculée est faible, l’écart observé apparaît comme peu
compatible avec l’hypothèse nulle et on rejette celle-ci.
L’ensemble des valeurs observées pour lesquelles l’hypothèse H0 est admissible forme la
région d’acceptation. Les autres valeurs constituent la région de rejet. Les valeurs limites sont
appelées valeurs critiques.
La décision dépend donc de l’échantillon. Ainsi quelle que soit la décision prise, le hasard de
l’échantillonnage peut fausser les conclusions. Quatre situations doivent donc être envisagées :
Dans le premier et le dernier cas, la conclusion obtenue est correcte, mais il n'en est
malheureusement pas de même dans les deux cas intermédiaires.
- L'erreur qui consiste à rejeter une hypothèse vraie est appelée erreur de première espèce et
désignée par RH0/H0.
- Accepter une hypothèse fausse est une erreur de seconde espèce, elle est désignée par
AH0/H1.
Les probabilités d’aboutir à de telles conclusions erronées sont les risques de première et de
deuxième espèce, désignés respectivement par et .
= p (RH0/H0) = p (AH0/H1)
Le risque de première espèce est appelé aussi seuil de signification du test, fixé très souvent
à 5 %. La probabilité complémentaire de désigne le niveau de confiance du test.
138
Statistiques décisionnelles Partie 4. Tests statistiques
1- = p(AH0/H0)
1- = p (RH/H1)
Décisions prises
Accepter H0 Accepter H1
1-
H0
Niveau de confiance erreur de première espèce
Hypothèse
vraie 1-
H1 erreur de deuxième
Puissance du test
espèce
a) Test bilatéral
Un test est dit bilatéral si la condition de rejet est indépendante du signe de l’écart observé
entre les caractéristiques comparées. Les hypothèses formulées du test bilatéral sont :
H 0 : = t0 et H1 : t0
< t0 = t0 > t0
Région de rejet de H0 Région d’acceptation de H0 Région de rejet de H0
A1 A2
p (A1 t0 A2) = 1 -
b) Test unilatéral
139
Statistiques décisionnelles Partie 4. Tests statistiques
Un test est dit unilatéral si l’hypothèse alternative désigne qu’une caractéristique est
strictement supérieure ou inférieure à l’autre. On parle respectivement de test unilatéral à droite
ou à gauche.
H 0 : = t0 et H 1 : > t0
t0 > t0
Région d’acceptation de H0 Région de rejet de H0
A
H 0 : = t0 et H 1 : < t0
< t0 t0
Région de rejet de H0 Région d’acceptation de H0
A
140
Statistiques décisionnelles Partie 4. Tests statistiques
RECAPITULATIF.
Pour récapituler, la démarche d’un test statistique se compose des étapes suivantes :
141
Statistiques décisionnelles Partie 4. Tests statistiques
142
Statistiques décisionnelles 8. Tests sur les moyennes
CHAPITRE 8
TESTS SUR LES MOYENNES
On attribue la valeur m0 pour la moyenne d’une population dont la vraie moyenne m est
inconnue, et on veut juger la validité de cette hypothèse.
Ce test a pour but de vérifier si la moyenne m d’une population est ou n’est pas égale à une
valeur donnée m0, appelée norme.
Pour une population normale d’écart type connu, la variable de décision est elle-même
normale de moyenne m0 et d’écart type .
n
143
Statistiques décisionnelles 8. Tests sur les moyennes
a) Test bilatéral :
H0 : m = m0 et H1 : m m0
Les valeurs critiques qui délimitent la région d’acceptation sont, pour une distribution normale
réduite ou asymptotiquement normale réduite, Z1 et Z2 telles que :
VDR Z
1
2
144
Statistiques décisionnelles 8. Tests sur les moyennes
H0 : m = m0 et H1 : m > m0
La valeur critique qui délimite la région d’acceptation est, pour une distribution normale
réduite ou asymptotiquement normale réduite, Z telle que :
p(VDR Z) = 1 - Z= Z1
H0 : m = m0 et H1 : m < m0
La valeur critique qui délimite la région d’acceptation est, pour une distribution normale
réduite ou asymptotiquement normale réduite, Z telle que :
p(VDR < Z) = Z= Z
l’échantillon est inférieur à 30, la variable de décision réduite VDR peut toujours être
considérée comme une variable de Student à (n-1) degré de liberté. Les valeurs de Z sont
remplacées par les valeurs de T de la loi de Student avec (n-1) degré de liberté.
Ce test a pour but de comparer les moyennes de deux populations à l’aide de deux échantillons.
Soient deux échantillons aléatoires et non exhaustifs prélevés respectivement dans une
population 1 de moyenne inconnue m1 et dans une population 2 de moyenne inconnue m2.
145
Statistiques décisionnelles 8. Tests sur les moyennes
Ce test a pour but de vérifier si la moyenne m1 d’une population est ou n’est pas égale à la
moyenne m2 d’une autre population.
La variable de décision du test correspond à la différence entre les moyennes observées des
deux échantillons :
VD = x 1 - x 2
Une distinction est faite entre le cas de deux populations de variances inégales et le cas de deux
populations de variances égales.
Remarque : Si les distributions des populations parents sont inconnues, pour des effectifs
suffisamment élevés, la variable de décision peut toujours être considérée comme une variable
approximativement normale. C’est généralement le cas lorsque les effectifs sont supérieurs à
30. Dans le cas contraire, la variable de décision réduite VDR peut toujours être considérée
comme une variable de Student à (n1 + n2 - 2) degré de liberté.
146
Statistiques décisionnelles 8. Tests sur les moyennes
Dans le cas où les populations sont de variances égales, une estimation de la variance
commune aux deux populations est donnée par :
^
²
(x i x 1 )² (x i x 2 )²
n1 n 2 2
La variable de décision réduite devient :
(x 1 x 2 ) (x 1 x 2 )
VDR = =
^ ^ ^
1 1
² ² ² ( )
n1 n 2
n1 n 2
(x 1 x 2 )
VDR =
(x i x 1 )² (x
x 2 )² 1 1
( )
i
n1 n 2 2 n1 n 2
Remarque : Si les distributions des populations parents sont inconnues, pour des effectifs
suffisamment élevés, la variable de décision peut toujours être considérée comme une variable
approximativement normale. C’est généralement le cas lorsque les effectifs sont supérieurs à
30. Dans le cas contraire, la variable de décision réduite VDR peut toujours être considérée
comme une variable de Student à (n1 + n2 - 2) degré de liberté.
a) Test bilatéral :
H0 : m1 = m2 et H1 : m1 m2
Les valeurs critiques qui délimitent la région d’acceptation sont, pour des distributions
normales réduites ou asymptotiquement normales réduites, Z1 et Z2 telles que :
147
Statistiques décisionnelles 8. Tests sur les moyennes
H0 : m1 = m2 et H1 : m1 > m2
La valeur critique qui délimite la région d’acceptation est, pour des distributions normales
réduites ou asymptotiquement normales réduites, Z telle que :
p(VDR Z) = 1 - Z= Z1
H0 : m1 = m2 et H1 : m1 < m2
La valeur critique qui délimite la région d’acceptation est, pour des distributions normales
réduites ou asymptotiquement normales réduites, Z telle que :
p(VDR < Z) = Z= Z
Remarque : Pour des distributions de probabilités inconnues, et lorsque les effectifs des
échantillons sont inférieurs à 30, la variable de décision réduite VDR peut toujours être
considérée comme une variable de Student. Les valeurs de Z sont remplacées par les
148
Statistiques décisionnelles 8. Tests sur les moyennes
Ce test a pour but de comparer les moyennes de deux populations à l’aide de deux échantillons
associés par paires. C’est le cas où on soumet les mêmes individus, choisis dans une population
donnée, à deux types d’observations.
Ce test a pour but de vérifier si la moyenne m1 d’une population sous une forme donnée est ou
n’est pas égale à la moyenne m2 de la même population sous une autre forme.
Soient deux séries de n observations chacune, x1, x2, …, xn, et y1, y2, …, yn . On travaille avec
la série des différences :
di = xi – yi
Pour une population normale, la variable de décision est elle-même normale et la variable de
décision centrée réduite est donc :
d
VDR = ^
d
n
VDR est alors une variable normale réduite N(0 ; 1).
La région d’acceptation est identique à celle du test précédent. Elle dépend toujours de
l’hypothèse alternative H1.
a) Test bilatéral :
149
Statistiques décisionnelles 8. Tests sur les moyennes
H0 : m1 = m2 et H1 : m1 m2
si :
VDR > Z
1
2
H0 : m1 = m2 et H1 : m1 > m2
H0 : m1 = m2 et H1 : m1 < m2
Remarque : Pour des distributions de probabilités inconnues, et lorsque les effectifs des
échantillons sont inférieurs à 30, la variable de décision réduite VDR peut toujours être
considérée comme une variable de Student à (n-1) degré de liberté. Les valeurs de Z sont
remplacées par les valeurs de T de la loi de Student avec (n-1) degré de liberté.
C’est une méthode statistique pour tester l'égalité de plusieurs moyennes. La méthode repose
sur les postulats suivants : les échantillons aléatoires proviennent de populations distribuées
normalement et ayant la même variance.
150
Statistiques décisionnelles 8. Tests sur les moyennes
Ho: m1 = m2 = ... = mJ
H1: au moins une des moyennes est différente des autres.
En effet, l'analyse de variance est une technique d'analyse statistique qui permet de tester
globalement l'égalité des moyennes de J populations normales dans lesquelles on suppose que
les variances sont égales (12 22 2j 2 ) même si elles demeurent inconnues.
On essaie de découvrir si un seul facteur peut expliquer ou non les variations constatées dans
les observations Yij. Au départ, on dispose d'échantillons prélevés aléatoirement dans des
populations normales dans lesquelles les variances sont supposées égales
(12 22 32 2j ) .
Le tableau suivant illustre la notation indicée: par exemple, Y21 représente la deuxième
observation prélevée de la première population. Dans chaque échantillon, on a aussi calculé le
total des observations, la moyenne et la variance.
POPULATION
Observation
P1: N(m1,1) P2 : N(m2,2) … Pj : N(mj,j)
1 Y11 Y12 Y1j
… … …
151
Statistiques décisionnelles 8. Tests sur les moyennes
Total T1 T2 … Tj
Moyenne Y1 Y2 … Yj
Variance S²1 S² 2 … S² j
L'analyse de la variance développée par Fisher repose sur la comparaison de deux estimateurs
de la variance commune aux J populations normales.
Les trois sommes de carrés présentées plus haut sont calculées par les formules suivantes :
nj
J
T2
STC Yij2
ji i 1 N
J Tj2 T2
SCF
j i nj N
SCE = STC - SCF
Il est d'usage de présenter les résultats d'une analyse de variance à un seul facteur dans un
tableau comme celui-ci :
MCF
Quand Ho est vraie, le rapport obéit à une loi de Fisher avec (J-1) et (N-J) degrés de
MCE
liberté. On devra rejeter l'hypothèse nulle de l'égalité des moyennes Ho : µ1 = µ2 = ... = µJ
MCF
au seuil si et seulement si la valeur de est plus grande que la valeur critique de la
MCE
table de Fisher au seuil et avec (J-1) et (N-J) degrés de liberté.
Le but est de découvrir si deux facteurs A et B peuvent expliquer ou non les variations
constatées dans les observations aléatoires Yij.
Toutes les combinaisons possibles des modalités des facteurs donnent lieu à IJ «traitements».
A remarquer qu'il n'y a qu'une seule observation pour chaque traitement, c'est-à-dire une seule
valeur numérique dans chacune des cellules du tableau.
Facteur B
1 2 J Total Moyenne
Facteur A
1 Y11 Y12 Y1J T1 Y1
2 Y21 Y22 Y2J T2 Y2
3 Y32
...... etc...
I YI1 YI2 YIJ TI YI
Total T1 T2 TJ T
Moyenne Y1 Y2 Y J Y
153
Statistiques décisionnelles 8. Tests sur les moyennes
Les résultats d'une analyse de variance à deux facteurs sans répétition se présentent dans un
tableau comme celui-ci :
Les diverses sommes des carrés et moyennes des carrés sont calculées à l'aide des formules
suivantes :
I J
T2
STC
i 1 j1
Yij2
IJ
I
Ti2 T 2
SCFA
i 1 J IJ
J
T2j T 2
SCFB
j1 I IJ
SCE STC SCFA SCFB
En se basant sur les résultats présentés au tableau, on déduit que les tests sur le facteur A et sur
le facteur B s'effectuent exactement comme dans le cas de l’analyse de variance à un facteur, à
MCFA MCFB
savoir au moyen des statistiques et .
MCE MCE
Bien des recherches ont pour but d'étudier l'impact de plusieurs facteurs sur le résultat d'une
expérience. Dans ce qui suit on tentera de découvrir si deux facteurs A et B peuvent expliquer
ou non les variations constatées dans les observations Yijk.
154
Statistiques décisionnelles 8. Tests sur les moyennes
Toutes les combinaisons possibles des modalités des facteurs donnent lieu à IJ «traitements».
A remarquer enfin qu'il y a ici le même nombre d'observations dans chacune des IJ cellules,
soit K, et cette valeur est supérieure à l'unité.
Facteur B
1 2 J Total Moyenne
Facteur A
Y111 Y121 ... Y1J1
Y112 Y122 Y1J2
1 ... ... ... T1 Y1
Y11K Y12K Y1JK
Y211 Y221 Y2J1
Y212 Y222 Y2J2
2 ... ... ... T2 Y2
Y21K Y22K Y2JK
... ... ... ... ... ... ...
YI11 YI21 YIJ1
YI12 YI22 YIJ2
I ... ... ... TI YI
YI1K YI2K YIJK
Total T1 T2 ... TJ T
Moyenne Y1 Y2 Y J Y
155
Statistiques décisionnelles 8. Tests sur les moyennes
Les diverses sommes des carrés et moyennes des carrés sont calculées à l'aide des formules
suivantes :
I J K
T2
STC
i 1 j1 k 1
Yijk2
IJK
I
Ti2 T2
SCFA
i 1 JK IJK
J
T2j T2
SCFB IK
j1
IJK
I J
Tij2 I
Ti2 J
T2j T2
SCI K
i 1 j1
i 1 JK
IK
j1
IJK
En se basant sur les résultats présentés au tableau, on déduit que les tests sur la présence
d’interaction, sur le facteur A et sur le facteur B s'effectuent exactement comme dans le cas de
l’analyse de variance à un facteur, à savoir au moyen des statistiques :
MCI MCFA MCFB
; et
MCE MCE MCE
L'analyse de variance doit vérifier en premier lieu si l'interaction entre les deux facteurs est
importante; si la réponse est négative, on pourra considérer ensuite les deux autres tests
disponibles dans le tableau de l'analyse de la variance.
La présence d’interaction entre les deux facteurs signifie que les résultats sous les niveaux d'un
facteur se comportent différemment selon les différents niveaux de l'autre facteur.
8.4.1. Le diamètre des billes fabriquées par une machine est en moyenne de 6 mm. Pour
contrôler si la machine est bien réglée, on a prélevé un échantillon de 50 billes et on a mesuré
leur diamètre. On a trouvé :
x i 350 x ² 2462
i
156
Statistiques décisionnelles 8. Tests sur les moyennes
8.4.2. Pour savoir s’il existe une différence d’assiduité entre les filles et les garçons, on a choisi
de manière aléatoire et simple un premier échantillon de 10 filles et de façon indépendante, un
deuxième échantillon de 10 garçons. En fonction des résultats ci-dessous relatifs aux notes
d’assiduités (note sur 100), et en supposant que les variances des deux populations sont égales,
peut-on conclure, au seuil de 5 %, à l’existence d’une différence significative entre les deux
sexes ?
8.4.3. Un chef de produit souhaite tester l’effet d’une formation sur les techniques de ventes sur
les ventes d’un produit. Un échantillon aléatoire de 10 commerciaux ayant reçu la formation
est constitué. Les ventes réalisées par les dix commerciaux avant et après formation sont
indiquées dans le tableau ci-dessous.
a) Peut-on parler d’un effet positif de la formation au seuil de 5% ?
b) Peut-on parler d’un effet positif de la formation au seuil de 1 % ?
8.4.4. Un investisseur étranger songe à implanter une nouvelle usine au Maroc. Il hésite entre
trois villes : Settat, Casablanca et Eljadida. Selon son point de vue, le critère le plus important à
prendre en considération pour déterminer l'emplacement de cette nouvelle usine est l'assiduité
au travail des ouvriers. L’investisseur a visité au hasard dans chacune des villes considérées
cinq grandes usines de fabrication et il a obtenu des administrateurs le taux d'absentéisme par
3500 journées de travail. Les résultats sont reproduits dans le tableau ci-dessous.
Données numériques
Ville Echantillon
Settat 141; 127 ; 111; 124 ; 144
Casablanca 157; 131; 105; 132 ; 163
Eljadida 183; 161; 145 ; 157 ; 189
Aux seuils de 5 %, puis de 1 % peut-on conclure que le taux d'absentéisme au travail est le
même en moyenne dans ces 3 villes?
157
Statistiques décisionnelles 8. Tests sur les moyennes
8.4.5. On a mis au point quatre techniques différentes, T1, T2, T3, et T4 pour la promotion
d’un produit. On a alors décidé de toutes les essayer et d'utiliser les opérateurs qualifiés pour
comparer les dites techniques. On s'attend à ce qu'il y ait des différences importantes entre
opérateurs et peut-être aussi entre techniques. 5 opérateurs ont été assignés aux 4 techniques.
Voici les nombres d’unités vendues enregistrées lors de ces tests.
Données numériques
Opérateurs \ Techniques T1 T2 T3 T4
O1 42 45 55 50
O2 39 41 52 46
O3 38 39 48 42
O4 43 45 54 48
O5 44 45 56 49
Y a-t-il des différences significatives au niveau 5% entre les cinq opérateurs d'une part et entre
les quatre techniques d'autre part quant au nombre moyen d’unités vendues ?
Données numériques
Que ce soit sous l'angle «Type d'expérience» ou «Nombre d'années d'expérience», existe-t-il
globalement des différences significatives entre les groupes (seuil 5%)?
158
Statistiques décisionnelles 8. Tests sur les moyennes
8.4.7. Un fabricant de tubes à essais pour laboratoire fonde sa publicité sur le fait que la durée
de vie de ses tubes correspond à 1500 heures de chauffage à l’aide d'un bec Bunzen. Un
laboratoire de contrôle de publicité constate que sur 100 tubes à essais, la durée moyenne de
vie est de 1485 heures de chauffage avec un écart-type de 110 heures. Aux risques 5%, puis de
10 %, la durée de vie des tubes à essais est-elle différente de 1500 heures de chauffage ?
8.4.8. Les moteurs des appareils électroménagers d'une marque M ont une durée de vie
moyenne de 3000 heures avec un écart-type de 150 heures. À la suite d'une modification dans
la fabrication des moteurs, le fabriquant affirme que les nouveaux moteurs ont une durée de vie
supérieure à celle des anciens. On a testé un échantillon de 50 nouveaux moteurs et on a trouvé
une durée de vie moyenne de 3250 heures avec un écart-type égal à 150 heures. Les nouveaux
moteurs apportent-ils une amélioration dans la durée de vie des appareils électroménagers au
risque de 1% ?
8.4.9. Dans une grande ville d'un pays donné, une enquête a été réalisée sur les dépenses
mensuelles pour les loisirs. On a observé les résultats suivants :
• Sur 280 familles habitant le centre-ville, les dépenses mensuelles pour les loisirs sont en
moyenne de 640 dh avec un écart-type de 120 dh.
• Sur 300 familles habitant la banlieue, les dépenses mensuelles pour les loisirs sont en
moyenne de 610 dh avec un écart-type de 100 dh. En supposant que les variances des deux
populations sont inégales, peut-on dire, aux risques de 5 % puis de 1 pour 1000 que la part du
budget familial consacré aux loisirs est différente suivant que la famille habite le centre-ville
ou la banlieue ?
8.4.10. On prélève dans la production d'une machine, un échantillon de 100 tiges métalliques.
La moyenne des longueurs des tiges de cet échantillon est 100,04 cm avec un écart-type de
0,16 cm. La machine est réglée en principe pour obtenir des tiges de 100 cm.
1°) Au risque de 5 %, peut-on dire que la machine est bien réglée ?
2°) Reprendre la question précédente avec un risque de 1 %.
Ancienne méthode: 48, 46, 47, 43, 46, 45, 49, 46, 47, 44.
Nouvelle méthode: 56, 49, 53, 51, 48, 52, 55, 53, 49, 50.
La nouvelle méthode de promotion a-t-elle un effet positif sur les ventes ( = 5%)?
159
Statistiques décisionnelles 8. Tests sur les moyennes
8.4.12. Dans le but de contrôler le poids net des sachets d'un produit alimentaire, on a prélevé
deux échantillons respectivement de 10 et 12 sachets, on a obtenu les résultats suivant (en
grammes) :
É1 190 200 202 195 194 208 205 196 198 206
É2 210 204 203 189 194 195 206 205 200 201 198 197
En supposant que les variances des deux populations sont égales, ces deux résultats sont-ils
significativement différents en ce qui concerne le poids moyen au seuil de 5 %.
8.4.13. 24 têtes d’ovin ont reçu 6 alimentations différentes pour constituer 4 répétitions et on a
enregistré les gains moyens quotidiens en poids suivants :
Aux seuils de 5 %, puis de 1 pour 1000, existe-t-il une différence significative quant à l’effet
des différentes alimentations sur le gain moyen quotidien en poids des ovins ?
8.4.14. L'expérience suivante avait pour but d'analyser l'impact des 2 facteurs Sexe et Âge sur
la consommation d'un certain produit de luxe. Dans chacun des 6 groupes, le produit a été
offert à 100 personnes choisies au hasard. La consommation, en nombre d’unités achetées, est
donnée dans le tableau qui suit :
Catégorie d'âge
Sexe
Moins de 20 ans Entre 20 et 45 ans Plus de 45 ans
Féminin 27 39 54
Masculin 32 45 62
Total 59 84 116
On suppose que les nombres d’unités achetées obéissent à des lois normales, que les variances
sont égales dans ces six populations.
Quant au nombre d’unités achetées en moyenne, peut-on affirmer au niveau 5% qu'il y a une
différence significative entre hommes et femmes d'une part, et entre les trois groupes d'âge,
d'autre part?
160
Statistiques décisionnelles 8. Tests sur les moyennes
8.4.15. Une machine fabrique des pièces identiques. La moyenne des poids de 50 pièces
prélevées dans la production est 68,2 grammes avec un écart-type de 2,5 grammes. On effectue
un réglage sur la machine. On prélève un nouvel échantillon de 50 pièces. On trouve un poids
moyen de 67, 5 grammes avec un écart-type de 2, 8 grammes. En supposant que les variances
des deux populations sont égales, peut-on affirmer, au risque 5 % que le réglage a modifié le
poids des pièces ?
8.4.16. Les ventes quotidiennes d'ordinateurs réalisées par une société informatique durant les
3 premiers mois de 2003, du lundi au jeudi sont comme suit :
En supposant les conditions de l’analyse de la variance satisfaites, peut-on dire qu’il y a une
différence significative à un seuil de 5% entre les moyennes des ventes réalisées chaque mois
et entre les moyennes des ventes réalisées chaque jour ?
Pour répondre à cette question, on doit vérifier si le diamètre moyen des 50 billes observées,
est conforme à la norme de 6 mm. Il s’agit donc de faire un test de conformité de la moyenne.
Hypothèse nulle :
161
Statistiques décisionnelles 8. Tests sur les moyennes
Variable de décision :
VD =
x i 350
7
50 50
La variable de décision peut être considérée comme une variable approximativement normale.
x m0 76
VDR = ^
= = 14,43
0.49
n 50
Région d’acceptation :
La région d’acceptation est l’intervalle [ Z ; Z ].
1
2 2
a) Au seuil de signification de 95 % ( = 0,05), les valeurs critiques qui délimitent la région
d’acceptation sont :
Z = Z0,025 = -1,96
2
Z = Z0,975 = 1,96
1
2
La région d’acceptation est donc l’intervalle [-1,96 ; 1,96].
On rejette l’hypothèse nulle car la variable de décision réduite n’appartient pas à la région
d’acceptation. La machine n’est donc pas bien réglée au seuil de signification de 95 %
On regrette l’hypothèse nulle. La machine n’est donc pas bien réglée au seuil de signification
de 99 %.
162
Statistiques décisionnelles 8. Tests sur les moyennes
Pour répondre à cette question, on doit réaliser un test de comparaison de deux moyennes.
Hypothèse nulle :
Ce test a pour but de vérifier si l’assiduité moyenne m1 des filles est ou n’est pas égale à
l’assiduité moyenne m2 des garçons.
H0 : m1 = m2 et H1 : m1 m2
Variable de décision :
Les deux échantillons sont indépendants, les populations sont de variances égales, la variable
de décision centrée réduite est donc:
(x 1 x 2 )
VDR =
(x i
x 1 )² (x
x 2 )² 1
i 1
( )
n1 n 2 2 n1 n 2
x 1 = 58,3 x 2 = 61,1
(x i
x 1 )² = 514,1 (x i
x 2 )² = 390,9
58,3 61,1
VDR = = - 0,88
514,1 390,9 1 1
( )
10 10 2 10 10
Région d’acceptation :
VDR = 0,88
163
Statistiques décisionnelles 8. Tests sur les moyennes
Comme l’échantillon ne comporte que les personnes (< 30), on peut valablement dire que la loi
de probabilité suivie par la VDR est une loi de STUDENT de 18 (n1 + n2 – 2) degrés de liberté.
VDR < t , on accepte donc l’hypothèse nulle. C’est-à-dire, il n’y a pas de différence
1
2
significative entre l’assiduité des deux sexes.
Pour répondre à cette question, on doit réaliser un test de comparaison de deux moyennes.
Hypothèse nulle :
Ce test a pour but de vérifier si, en moyenne, les ventes enregistrées après formation m1 sont ou
ne sont pas égales aux ventes enregistrées avant formation m2.
H0 : m1 = m2 et H1 : m1 > m2
Variable de décision :
Les deux échantillons sont associés par paires, la variable de décision centrée réduite est donc:
d
VDR = ^
d
n
Reprenons les données et calculons les différences di
8 7040 6950 90
9 5270 4960 310
10 5840 5130 710
d 320
VDR = ^
= = 2,462
d 410,96
n 10
Région d’acceptation :
VDR = 2,462
Comme l’échantillon ne comporte que les personnes (< 30), on peut valablement dire que la loi
de probabilité suivie par la VDR est une loi de STUDENT de 9 (n-1) degrés de liberté.
Pour répondre à cette question, il faut comparer le taux d’absentéisme moyen dans les trois
villes. Il s’agit de tester l'égalité de plusieurs moyennes, c’est une analyse de variance à un
facteur (ANOVA1).
165
Statistiques décisionnelles 8. Tests sur les moyennes
J nj
T² 2170²
STC Y
ji i 1
2
ij
N
141² 127² ... 189²
15
8149,33
Source de Degrés de
Somme des carrés Moyenne des carrés F obs
variation liberté
Ville 3908,93 2 1954,467 5,53
Erreur 4240,40 12 353,367
Total 8149,33 14
A un seuil = 5%, on ne peut pas conclure que l'assiduité des travailleursà leur travail soit
la même en moyenne dans ces 3 villes puisque la valeur observée 5,53 de F est supérieure à la
valeur critique F 0,95 à 2 et 12 dl = 3,89 obtenue de la distribution de Fisher à 2 et 12
degrés de liberté.
A un seuil de 1 % ( = 0,01), on peut conclure que l’assiduité des travailleurs à leur travail est
la même en moyenne dans ces 3 villes puisque la valeur observée 5,53 de F est inférieure à la
valeur critique F0,99 à 2 et 12 dl = 6,93.
Pour répondre à cette question, il faut comparer les nombres d’unités vendues en moyenne par
les 5 opérateurs assignés aux 4 techniques, soit 20 combinaisons. Il s’agit de tester l'égalité de
plusieurs moyennes, c’est une analyse de variance à deux facteurs (ANOVA2) sans interaction.
166
Statistiques décisionnelles 8. Tests sur les moyennes
I J
Y
T² 921²
STC 2
ij 42² 45² ... 49² 548,95
i 1 j1 IJ 20
I
Ti2 192² ... 194²
T² 921²
SCFA 131,20
i 1 J IJ 4 20
J
T2j 206² ... 235²
T² 921²
SCFB 410,15
j1 I IJ 5 20
En examinant les valeurs F observées 51,79 et 215,87 qui sont toutes deux supérieures aux
valeurs théoriques F 0,95 à 4 et 12 dl = 3,26 et F 0,95 à 3 et 12 dl = 3,49 on peut rejeter les
deux hypothèses nulles et conclure qu'il y a d'une part, des différences significatives entre les
cinq opérateurs quant au nombre d’unités vendues et d'autre part, des différences significatives
entre les quatre techniques de vente.
167
Statistiques décisionnelles 8. Tests sur les moyennes
Pour répondre à cette question, il faut comparer les erreurs de prévision (en heures) moyennes
pour les 6 groupes d’ouvriers. Il s’agit de tester l'égalité de plusieurs moyennes, c’est une
analyse de variance à deux facteurs (ANOVA2) avec interaction.
I J K T² 508²
STC Y 2 25² 22² ... 24² 2737,33
i1 j1 k 1 ijk IJK 24
I
Ti2 167² 341²
T² 508²
SCFA 1261,50
i 1 JK IJK 12 24
2
J T j T² 242² 149² 117² 508²
SCF 1054,08
B j1 IK IJK 8 8 8 24
I J Tj I
T2 J T2j T2
XI
1 j 1 K
1 JK
IK
j 1
IJK
168
Statistiques décisionnelles 8. Tests sur les moyennes
En examinant en tout premier lieu le test sur l’interaction, on peut vérifier que la valeur FI =
1,54 est inférieure à la valeur critique de la table, soit F 0,95 à 2 et 18 dl = 3,55. On doit
conclure qu'il n'y a pas d'interaction significative entre les deux facteurs Type d'expérience et
Nombre d'années d'expérience.
Cette constatation justifie la poursuite de l'analyse de la variance. Comme les valeurs FA=
63,075 et FB =26,35 sont supérieures respectivement aux valeurs critiques de la table F 0,95 à 1
et 18 dl = 4,41 et F 0,95 à 2 et 18 dl = 3,55, on doit conclure qu'aussi bien sous l'angle «Type
d'expérience» que «Nombre d'années d'expérience», il existe globalement des différences
significatives entre les groupes.
Pour répondre à cette question, on doit vérifier si la durée de vie moyenne des 100 tubes à
essais observés, est conforme à la norme de 1500 heures de chauffage. Il s’agit donc de faire un
test de conformité de la moyenne.
Hypothèse nulle :
169
Statistiques décisionnelles 8. Tests sur les moyennes
Variable de décision :
VD = 1485
La variable de décision peut être considérée comme une variable approximativement normale.
^
²
(x i x )²
=
n² 100
= . 110² = 12222,22
n 1 n 1 99
^
12222,22 = 110,55
x m 0 1485 1500
VDR = ^
= = - 1,36
110,55
n 100
Région d’acceptation :
La région d’acceptation est l’intervalle [ Z ; +[.
Z0,05 = -1,64
[Z0,1 ; + ] = [- 1,28 ; + ]
On rejette l’hypothèse nulle car VDR n’appartient pas à la région d’acceptation. Au risque de
10 %, la durée de vie des tubes à essai est inférieure à 1500 heures de chauffage.
170
Statistiques décisionnelles 8. Tests sur les moyennes
Pour répondre à cette question, on doit vérifier si la durée de vie moyenne des 50 nouveaux
moteurs est conforme à la norme de 3000 heures. Il s’agit donc de faire un test de conformité
de la moyenne.
Hypothèse nulle :
Variable de décision :
VD = 3250
La variable de décision peut être considérée comme une variable approximativement normale.
Région d’acceptation :
Z0,99 = 2,33
171
Statistiques décisionnelles 8. Tests sur les moyennes
On rejette l’hypothèse nulle car la variable de décision réduite n’appartient pas à la région
d’acceptation. Au risque 1%, les nouveaux moteurs apportent une amélioration dans la durée
de vie des appareils électroménagers.
Pour répondre à cette question, on doit réaliser un test de comparaison de deux moyennes.
Hypothèse nulle :
Ce test a pour but de vérifier si la part du budget familial consacré aux loisirs est différente
suivant que la famille habite le centre-ville ou la banlieue.
Les deux échantillons sont indépendants, les populations sont de variances inégales, la variable
de décision centrée réduite est donc:
(x 1 x 2 )
VDR = avec x 1 = 640 x 2 = 610
² 1 ² 2
n1 n2
Les variances des deux populations sont estimées par les quasi-variances.
^
n²1 280
² 1 = = . 120² = 14451,61
n 1 279
^
n²2 300
² 2 = = . 100² = 10033,44
n 1 299
640 610
VDR = = 3,25
14451,61 10033,44
280 300
172
Statistiques décisionnelles 8. Tests sur les moyennes
Région d’acceptation :
VDR = 3,25
budget familial consacré aux loisirs est le même pour les 2 milieux.
Pour répondre à cette question, on doit vérifier si la longueur moyenne des 100 tiges
métalliques est conforme à la norme de 100 cm. Il s’agit donc de faire un test de conformité de
la moyenne.
Hypothèse nulle :
Variable de décision :
La variable de décision peut être considérée comme une variable approximativement normale.
173
Statistiques décisionnelles 8. Tests sur les moyennes
^
²
(x i x )²
=
n² 100
= . 0,16² = 0,026
n 1 n 1 99
^
0,026 = 0,1608
x m0 100,04 100
VDR = ^
= = 2,49
0,1608
n 100
Région d’acceptation :
On rejette l’hypothèse nulle car la variable de décision réduite n’appartient pas à la région
d’acceptation. La machine n’est donc pas bien réglée au seuil de signification de 95 %.
174
Statistiques décisionnelles 8. Tests sur les moyennes
Pour répondre à cette question, on doit réaliser un test de comparaison de deux moyennes.
Hypothèse nulle :
Ce test a pour but de vérifier si, en moyenne, les ventes enregistrées avec la nouvelle méthode
de promotion m1 sont ou ne sont pas supérieures aux ventes enregistrées avec l’ancienne
méthode de promotion m2.
H0 : m1 = m2 et H1 : m1 > m2
Variable de décision :
Les deux échantillons sont associés par paires, la variable de décision centrée réduite est donc:
d
VDR = ^
d
n
175
Statistiques décisionnelles 8. Tests sur les moyennes
Région d’acceptation :
VDR = 7,49
VDR > t1-, on rejette donc l’hypothèse nulle. C’est-à-dire, on peut conclure que la nouvelle
méthode de promotion a un effet positif sur les ventes.
Pour répondre à cette question, on doit réaliser un test de comparaison de deux moyennes.
Hypothèse nulle :
Ce test a pour but de vérifier si le poids moyen net des sachets m1 du premier échantillon est ou
n’est pas égale au poids moyen net des sachets m2 du deuxième échantillon.
Variable de décision :
Les deux échantillons sont indépendants, les populations sont de variances égales, la variable
de décision centrée réduite est donc:
(x 1 x 2 )
VDR =
(x i
x 1 )² (x
x 2 )² 1
i 1
( )
n1 n 2 2 n1 n 2
É1 190 200 202 195 194 208 205 196 198 206
É2 210 204 203 189 194 195 206 205 200 201 198 197
x 1 = 199,4 x 2 = 200,1667
(x i x 1 )² = 306,4 (x i x 2 )² = 381,6667
176
Statistiques décisionnelles 8. Tests sur les moyennes
199,4 200,1667
VDR = = - 0,31
306,4 381,6667 1 1
( )
10 12 2 10 12
Région d’acceptation :
VDR = 0,31
VDR < t , on accepte donc l’hypothèse nulle. C’est-à-dire, ces deux résultats ne sont pas
1
2
significativement différents en ce qui concerne le poids moyen au seuil de 5 %
Pour répondre à cette question, il faut comparer les gains moyens quotidiens en poids des 6
alimentations. Il s’agit de tester l'égalité de plusieurs moyennes, c’est une analyse de variance à
un facteur (ANOVA1).
J nj
Y
T² 14450²
STC 2
ij 590² 760² ... 740² 215595,83
j i i 1 N 24
J T j2
n
T² 2690² 1900² 2760² 14450²
SCF ... 139520,83
j i j N 4 4 4 24
177
Statistiques décisionnelles 8. Tests sur les moyennes
A un seuil = 5%, on ne peut pas conclure que le gains quotidiens en poids soit le même en
moyenne pour les 6 alimentations puisque la valeur observée 6,6 de F est supérieure à la
valeur critique F 0,95 à 5 et 18 dl = 2,77 obtenue de la distribution de Fisher à 5 et 18
degrés de liberté.
Au seuil = 0,001, on peut conclure que les gains quotidiens en poids est le même en
moyenne pour les 6 alimentations puisque la valeur observée 6,6 de F est inférieure à la valeur
critique F0,999 à 5 et 18 dl = 6,8.
Pour répondre à cette question, il faut comparer la consommation moyenne du produit de luxe
dans chacun des 6 groupes. Il s’agit de tester l'égalité de plusieurs moyennes, c’est une analyse
de variance à deux facteurs (ANOVA2) sans interaction.
Catégorie d'âge
Sexe Moins de Entre 20 et Total
Plus de 45 ans
20 ans 45 ans
Féminin 27 39 54 120
Masculin 32 45 62 139
Total 59 84 116 259
178
Statistiques décisionnelles 8. Tests sur les moyennes
I J
Y
T² 259²
STC 2
ij 27² 39² ... 62² 878,83
i 1 j1 IJ 6
I
Ti2 120² 139²
T² 259²
SCFA 60,17
i 1 J IJ 3 6
J
T2j 59² 84² 116²
T² 259²
SCFB 816,33
j1 I IJ 2 6
En examinant les valeurs F observées 51,43 et 348,86 qui sont toutes deux supérieures aux
valeurs théoriques F 0,95 à 1 et 2 dl = 18,51 et F 0,95 à 2 et 2 dl = 19 on peut rejeter les deux
hypothèses nulles et conclure qu'il y a d'une part, des différences significatives entre les deux
sexes quant à la consommation du produit de luxe et d'autre part, des différences significatives
entre les trois catégories d’âge.
Pour répondre à cette question, on doit réaliser un test de comparaison de deux moyennes.
Hypothèse nulle :
Ce test a pour but de vérifier si le poids moyen des pièces m1 avant le réglage est ou n’est pas
inférieur au poids moyen des pièces m2 après le réglage.
H0 : m1 = m2 et H1 : m1 m2
179
Statistiques décisionnelles 8. Tests sur les moyennes
Variable de décision :
Les deux échantillons sont indépendants, les populations sont de variances égales, la variable
de décision centrée réduite est donc :
(x1 x 2 )
VDR =
(x i x 1 )² (x i x 2 )² ( 1 1 )
n1 n 2 2 n1 n 2
x1 = 68,2 x 2 = 67,5
(x x )² = 2,5² . 50 = 312,5
i 1
(x x )² = 2,8² . 50 = 392
i 2
68,2 67,5
VDR = = 1,3
312,5 392 1 1
( )
50 50 2 50 50
Région d’acceptation :
VDR = 1,3
Pour = 0,05, la valeur de Z est : Z0,975 = 1,96
1
2
VDR < Z , on accepte donc l’hypothèse nulle. C’est-à-dire, on peut affirmer, au risque 5
1
2
% que le réglage n’a pas modifié le poids des pièces.
Pour répondre à cette question, il faut comparer Les ventes quotidiennes moyennes
d'ordinateurs des 12 combinaisons jour/mois. Il s’agit de tester l'égalité de plusieurs moyennes,
c’est une analyse de variance à deux facteurs (ANOVA2) avec interaction.
180
Statistiques décisionnelles 8. Tests sur les moyennes
37 34 46
Mardi 8 11 17
6 4 14 112
6 9 12
7 5 13
27 29 56
Mercredi 6 10 6
10 2 14 95
7 8 12
4 3 13
27 23 45
Jeudi 1 6 10
10 10 8 91
7 12 4
5 9 9
23 37 31
Total 114 123 178 415
I J K T² 415²
STC Y 2 13² 9² ... 9² 604,98
i1 j1 k 1 ijk IJK 48
I
Ti2 117² 112² 95² 91²
JK
T² 415²
SCFA 40,23
i 1 IJK 12 48
2
J T j T² 114² 123² 178² 415²
SCF 150,04
B j1 IK IJK 16 16 16 48
181
Statistiques décisionnelles 8. Tests sur les moyennes
I j
Tij2 I
Ti2 j
T2j T2
SCI K
i j j1
i 1 JK
IK
j1
IJK
En examinant en tout premier lieu le test sur l’interaction, on peut vérifier que la valeur FI =
1,76 est inférieure à la valeur critique de la table, soit F 0,95 à 6 et 36 dl = 2,36. On doit
conclure qu'il n'y a pas d'interaction significative entre les deux facteurs jours et mois.
Cette constatation justifie la poursuite de l'analyse de la variance. Comme la valeur FA= 1,51
est inférieure à la valeur critique de la table F 0,95 à 3 et 36 dl = 2,87, on doit conclure qu’il
n’existe pas de différences significatives entre les jours. Par contre, comme la valeur F B = 8,42
est supérieure à la valeur critique de la table F 0,95 à 2 et 36 dl = 3,26, on doit conclure qu’il
existe des différences significatives entre les trois mois.
182
Statistiques décisionnelles 9. Tests sur les variances
CHAPITRE 9
TESTS SUR LES VARIANCES
Ce test a pour but de vérifier si la variance ² d’une population est ou n’est pas égale à une
valeur donnée 02 , appelée norme.
x
n
2
i
x
11
VD
02
La variable de décision possède une distribution khi deux à (n-1) degrés de liberté.
a) Test bilatéral :
H0 : ² = 02 et H1 : ² 02
183
Statistiques décisionnelles 9. Tests sur les variances
Les valeurs critiques qui délimitent la région d’acceptation sont ²1 et ²2 telles que :
p (12 VD 22 ) 1
p (VD 22 ) / 2 p (VD 22 ) 1 / 2 22 2 a
1
2
La région d’acceptation est donc l’intervalle 2a ; 2 a .
2 1
2
H 0 : σ 2 σ 02 et H 1 : σ 2 σ 02
p (VD 2 ) 1 2 12
La région d’acceptation est donc l’intervalle 0 ; 12
c) Test unilatéral à gauche :
H 0 : σ 2 σ 02 et H 1 : σ 2 σ 02
p (VD 2 ) 2 2
Ce test a pour but de comparer les variances de deux populations à l’aide de deux échantillons
indépendants.
184
Statistiques décisionnelles 9. Tests sur les variances
Ce test a pour but de vérifier si la variance 12 d’une population est ou n’est pas égale à la
variance 22 d’une autre population.
Soient deux échantillons aléatoires et non exhaustifs prélevés dans les deux populations. La
variable de décision du test correspond au rapport des deux variances observées des deux
échantillons :
ˆ 2
VD 12
ˆ 2
La variable de décision suit une loi de Fisher avec (n1-1) et (n2-1) degré de liberté.
Les tables de la loi de Fisher ne donnent que des valeurs supérieures à l’unité. C’est la raison
pour laquelle la variable de décision correspond au rapport de variances qui est supérieur à
l’unité, d’où l’échantillon 1 est celui qui a la plus grande variance.
Le test d’égalité de deux variances est en général un test bilatéral. Il précède généralement le
test de comparaison des moyennes de deux échantillons indépendants.
H0 12 22 et H1 12 22
Les valeurs critiques qui délimitent la région d’acceptation sont F1 et F2 telles que :
p(F1 VD F2) = 1 -
185
Statistiques décisionnelles 9. Tests sur les variances
La région d’acceptation est donc l’intervalle F ; F .
2 1
2
Les tables de la loi de Fisher ne donnent que des valeurs supérieures à l’unité, de telle sorte que
seule est possible la comparaison avec F , et on rejette l’hypothèse nulle si la variable de
1
2
9.3.2. Le diamètre des billes fabriquées par une machine est en moyenne de 6 mm. La machine
est considérée comme bien réglée si l’écart type du diamètre des billes fabriquées ne dépasse
pas 0,45 mm. Pour contrôler si la machine est bien réglée, on a prélevé un échantillon de 50
billes et on a mesuré leur diamètre. On a trouvé :
x i
350 x ² 2462
i
9.3.3. Pour savoir si les filles sont plus assidues que les garçons ou non, on a choisi de manière
aléatoire et simple un premier échantillon de 10 filles et de façon indépendante, un deuxième
échantillon de 10 garçons. En fonction des résultats ci-dessous relatifs aux notes d’assiduités
(note sur 100), peut-on supposer, au seuil de 5 %, que les variances des deux populations sont
égales ?
186
Statistiques décisionnelles 9. Tests sur les variances
9.3.4. Un fabricant de tubes à essais pour laboratoire fonde sa publicité sur le fait que la durée
de vie de ses tubes correspond à 1500 heures de chauffage à l’aide d'un bec Bunzen avec un
écart type de 100 heures. Un laboratoire de contrôle de publicité constate que sur 100 tubes à
essais, la durée moyenne de vie est de 1485 heures de chauffage avec un écart-type de 110
heures. Au risque 5%, l’écart type de la durée de vie des tubes à essais est-il différent de 100
heures de chauffage ?
9.3.5. Les moteurs des appareils électroménagers d'une marque M ont une durée de vie
moyenne de 3000 heures avec un écart-type de 150 heures. A la suite d'une modification dans
la fabrication des moteurs, le fabricant affirme que les nouveaux moteurs ont une durée de vie
supérieure à celle des anciens avec un écart type plus réduit. On a testé un échantillon de 50
nouveaux moteurs et on a trouvé une durée de vie moyenne de 3250 heures avec un écart-type
égal à 145 heures. Les nouveaux moteurs apportent-ils une amélioration dans la dispersion de
la durée de vie des appareils électroménagers au risque de 5% ?
9.3.6. Dans une grande ville d'un pays donné, une enquête a été réalisée sur les dépenses
mensuelles pour les loisirs. On a observé les résultats suivants :
• Sur 280 familles habitant le centre-ville, les dépenses mensuelles pour les loisirs sont en
moyenne de 640 dh avec un écart-type de 120 dh.
• Sur 300 familles habitant la banlieue, les dépenses mensuelles pour les loisirs sont en
moyenne de 610 dh avec un écart-type de 100 dh.
Peut-on dire au risque de 5 % que la variance de la part du budget familial consacré aux loisirs
est différente suivant que la famille habite le centre-ville ou la banlieue ?
9.3.7. On prélève dans la production d'une machine, un échantillon de 100 tiges métalliques. La
moyenne des longueurs des tiges de cet échantillon est 100,04 cm avec un écart-type de 0,16
cm. La machine est réglée en principe pour obtenir un écart type des longueurs des tiges de
0,12 cm.
1°) Au risque de 5 %, peut-on dire que la machine est bien réglée ?
2°) Reprendre la question précédente avec un risque de 1 %.
9.3.8. Dans le but de contrôler le poids net des sachets d'un produit alimentaire, on a prélevé
deux échantillons respectivement de 10 et 12 sachets, on a obtenu les résultats suivant (en
grammes) :
É1 190 200 202 195 194 208 205 196 198 206
É2 210 204 203 189 194 195 206 205 200 201 198 197
Ces deux résultats sont-ils significativement différents en ce qui concerne les écarts types des
poids %.
187
Statistiques décisionnelles 9. Tests sur les variances
9.3.9. Une machine fabrique des pièces identiques. La moyenne des poids de 50 pièces
prélevées dans la production est 68,2 grammes avec un écart-type de 2,5 grammes. On effectue
un réglage sur la machine. On prélève un nouvel échantillon de 50 pièces. On trouve un poids
moyen de 67, 5 grammes avec un écart-type de 2, 8 grammes. Peur-on affirmer, au risque 5 %
que le réglage a modifié l’écart-type du poids des pièces ?
9.3.10. Un tour opérateur veut mettre un nouveau produit à son catalogue. La rentabilité de ce
produit suppose, en moyenne, 50 réservations hebdomadaires au minimum par agence avec un
écart type maximum de 2 réservations. A titre de test, il décide de l’inclure au catalogue d’un
échantillon aléatoire de 10 de ses agences. On a noté le nombre de réservations observées
durant une semaine dans les 10 agences :
51 ; 48 ; 58 ; 55 ; 52 ; 49 ; 50 ; 54 ; 53 ; 52
Peut-on conclure, au seuil de 5 %, puis de 1 % que l’écart type est effectivement inférieur à 2
réservations ?
Hypothèse nulle :
Il s’agit d’un test bilatéral.
Variable de décision :
La variable de décision du test correspond à :
n
(i )
i 1
2
6,6
VD 3,37
02 1,96
Région d’acceptation :
a) Les valeurs critiques qui délimitent la région d’acceptation sont : ² et ²
.
1
2 2
188
Statistiques décisionnelles 9. Tests sur les variances
Hypothèse nulle :
Ce test a pour but de vérifier si la variance ² de la population des billes fabriquées ne dépasse
pas la norme.
H0 2 0,45 2 et H1 2 0,45 2
Variable de décision :
n
50 (
2462
(
350 2
) )
VD
i 1 (x i x ) 2
50 50 59,26
σ 02 0,45 2
Région d’acceptation :
Il s’agit d’un test unilatéral à droite.
Pour 0,05 , la valeur critique qui délimite la région d’acceptation est 12 à 49 degrés de
liberté.
Le nombre de degrés de liberté est grand (k > 30), on peut trouver l’approximation de la valeur
de 2 par la loi normale.
(Z 0,95 2k 1) 2 (1,64 2 x 49 1) 2
2
χ 0,95 à 49 dl
66
2 2
189
Statistiques décisionnelles 9. Tests sur les variances
Pour répondre à cette question, on doit réaliser un test de comparaison de deux variances.
Hypothèse nulle :
Ce test a pour but de vérifier si la variance ²1 de la population des filles est ou n’est pas égale
à la variance ²2 de la population des garçons.
H0 12 22 et H1 12 22
Variable de décision :
ˆ 12 57,12
VD 1,31
ˆ 22 43,43
Région d’acceptation :
Pour = 0,05 la valeur de F
avec 9 et 9 degrés de liberté est : F0,975 = 4,03
1
2
Hypothèse nulle :
Il s’agit d’un test bilatéral.
H0 12 22 et H1 12 22
190
Statistiques décisionnelles 9. Tests sur les variances
Variable de décision :
La variable de décision du test correspond à :
100
(x
i 1
i
x )²
110².100
VD = = = 121
2
0
10000
Région d’acceptation :
Les valeurs critiques qui délimitent la région d’acceptation sont : 2 et 2 .
1
2 2
Le nombre de degrés de liberté étant très grand, on peut utiliser l’approximation par la loi
normale de moyenne 99 et d’écart type 2 99 14,07 .
de même :
191
Statistiques décisionnelles 9. Tests sur les variances
Hypothèse nulle :
Il s’agit d’un test bilatéral.
Variable de décision :
La variable de décision du test correspond à :
50
(x
i 1
i
x )²
145².50
VD = = = 46,7
² 0 22500
Région d’acceptation :
Il s’agit d’un test unilatéral à gauche.
Le nombre de degrés de liberté étant très grand, on peut utiliser l’approximation par la loi
normale de moyenne 49 et d’écart type 2 49 9,9 .
( Z 2k 1)²
²
2
d’où :
( Z 0 , 05 2 x 49 1) 2 ( 1,64 2 x 49 1) 2
02, 05 33,7
2 2
192
Statistiques décisionnelles 9. Tests sur les variances
Pour répondre à cette question, on doit réaliser un test de comparaison de deux variances.
Hypothèse nulle :
Ce test a pour but de vérifier si la variance 12 des dépenses mensuelles pour les loisirs en
centre ville est ou n’est pas égale à la variance 22 des dépenses mensuelles pour les loisirs en
banlieue.
H0 12 22 et H1 12 22
Variable de décision :
ˆ 12
VD
ˆ 22
Les variances des deux populations sont estimées par les quasi-variances.
^
n²1 280
² 1 = = . 120² = 14451,61
n 1 279
^
n²2 300
² 2 = = . 100² = 10033,44
n 1 299
14451,61
VD = = 1,44
10033,44
Région d’acceptation :
En consultant la table de Fisher pour = 0,05, la valeur de F
avec 279 et 299 degrés de
1
2
193
Statistiques décisionnelles 9. Tests sur les variances
Hypothèse nulle :
Il s’agit d’un test bilatéral.
Variable de décision :
La variable de décision du test correspond à :
100
(x
i 1
i
x )²
0,16².100
VD = = = 177,78
² 0 0,0144
La variable de décision possède une distribution khi deux à 99 degrés de liberté.
Région d’acceptation :
Les valeurs critiques qui délimitent la région d’acceptation sont : ² et ²1 .
2 2
Le nombre de degrés de liberté étant très grand, on peut utiliser l’approximation par la loi
normale de moyenne 99 et d’écart type 2 99 14,07 .
d’où :
194
Statistiques décisionnelles 9. Tests sur les variances
de même :
Le nombre de degrés de liberté étant très grand, on peut utiliser l’approximation par la loi
normale de moyenne 99 et d’écart type 2 99 14,07 .
de même :
195
Statistiques décisionnelles 9. Tests sur les variances
Pour répondre à cette question, on doit réaliser un test de comparaison de deux variances.
Hypothèse nulle :
Ce test a pour but de vérifier si la variance ²1 de la population du premier échantillon est ou
n’est pas égale à la variance ²2 de la population du deuxième échantillon.
Variable de décision :
^
² 1 34,70
VD = ^
= = 1,02
² 2 34,04
Région d’acceptation :
Pour = 0,05 la valeur de F
avec 11 et 9 degrés de liberté est : F0,975 = 3,91
1
2
Pour répondre à cette question, on doit réaliser un test de comparaison de deux variances.
Hypothèse nulle :
Ce test a pour but de vérifier si la variance ²1 des poids des pièces avant le réglage est ou n’est
pas égale à la variance ²2 des poids des pièces après le réglage.
Variable de décision :
^
² 1
VD = ^
² 2
196
Statistiques décisionnelles 9. Tests sur les variances
Les variances des deux populations sont estimées par les quasi-variances.
^
n²1 50
² 1 = = . 2,5² = 6,38
n 1 49
^
n²2 50
² 2 = = . 2,8² = 8
n 1 49
8
VD = = 1,25
6,38
Région d’acceptation :
En consultant la table de Fisher pour = 0,05, la valeur de F α avec 49 et 49 degrés de
1
2
liberté ne peut être ni inférieure à 1,75 ni supérieure à 2,07.
Hypothèse nulle :
Il s’agit d’un test unilatéral à gauche.
H0 : ² = 2² et H1 : ² < 4
Variable de décision :
La variable de décision du test correspond à :
10
(x x)²
i 1
i
79,6
VD = = = 19,9
² 0 4
La variable de décision possède une distribution khi deux à 9 degrés de liberté.
197
Statistiques décisionnelles 9. Tests sur les variances
Région d’acceptation :
La région d’acceptation est l’intervalle [ ² ; +[.
²0,05 = 3,325
02, 01 2,09
198
Statistiques décisionnelles 10. Tests sur les proportions
CHAPITRE 10
TESTS SUR LES PROPORTIONS
On attribue la valeur p0 pour proportion dans une population dont la vraie proportion p est
inconnue, et on veut juger la validité de cette hypothèse.
Ce test a pour but de vérifier si la proportion p d’une population est ou n’est pas égale à une
valeur donnée p0, appelée norme.
Comme, la distribution de la proportion suit une loi normale de moyenne p et d’écart type
p(1 p)
à condition que la taille de l’échantillon soit supérieure ou égale à 30 (n 30) et le
n
produit n np 5, la variable de décision réduite :
fn p0
VDR =
p 0 (1 p 0 )
n
est donc une variable normale réduite N(0 ; 1).
199
Statistiques décisionnelles 10. Tests sur les proportions
a) Test bilatéral :
H0 : p = p 0 et H1 : p p 0
Les valeurs critiques qui délimitent la région d’acceptation sont les valeurs d’une variable
normale réduite Z1 et Z2 telles que :
H0 : p = p 0 et H1 : p > p 0
La valeur critique qui délimite la région d’acceptation est la valeur d’une variable normale
réduite Z telle que :
p(VDR Z) = 1 - Z= Z1
200
Statistiques décisionnelles 10. Tests sur les proportions
H0 : p = p 0 et H1 : p < p 0
La valeur critique qui délimite la région d’acceptation est la valeur d’une variable normale
réduite Z telle que :
p(VDR < Z) = Z = Z
Ce test a pour but de comparer les proportions de deux populations à l’aide de deux
échantillons indépendants.
Ce test a pour but de vérifier si la proportion p1 d’une population est ou n’est pas égale à la
proportion p2 d’une autre population.
Il s’agit de comparer deux proportions observées. Soient deux échantillons aléatoires de taille
respectivement n1 et n2 extraits de deux populations. Les fréquences observées fn1 et fn2 sont
généralement différentes, il s’agit d’expliquer cette différence.
X X
f n1 1 et f n2 2
n1 n2
La variable de décision du test correspond à la différence entre les fréquences observées des
deux échantillons :
VD = fn1 – fn2
Comme les distributions des deux proportions suivent des lois normales de moyennes
p 1 (1 - p 1 ) p 2 (1 - p 2 )
respectivement p1 et p2 et d’écarts types respectifs et à condition que
n1 n2
la taille de l’échantillon soit supérieure ou égale à 30 (n 30) et le produit np 5, la variable
de décision est elle-même normale de moyenne (p1-p2) et d’écart type
p 1 (1 p 1 ) p (1 p 2 )
2 .
n1 n2
201
Statistiques décisionnelles 10. Tests sur les proportions
X 1 X 2 n 1 fn 1 n 2 fn 2
f n1 n 2
n1 n 2 n1 n 2
Sous l’hypothèse nulle, la variable de décision suit une loi normale de moyenne (p 1-p2) = 0 et
d’écart type :
p (1 p) p (1 p) 1 1
= f n1 n 2 (1 f n1 n 2 ) ( )
n1 n2 n1 n 2
f n1 f n 2
VDR
1 1
f n1 n 2 (1 f n1 n 2 )( )
n1 n 2
La région d’acceptation est identique à celle du test de conformité d’une proportion, elle
dépend de l’hypothèse alternative H1.
a) Test bilatéral :
H0 : p 1 = p 2 et H1 : p 1 p 2
si :
202
Statistiques décisionnelles 10. Tests sur les proportions
203
Statistiques décisionnelles 10. Tests sur les proportions
H0 : p 1 = p 2 et H1 : p 1 > p 2
H0 : p 1 = p 2 et H1 : p 1 < p 2
Ce test a pour but de comparer les proportions d’un certain nombre de populations à l’aide du
même nombre d’échantillons indépendants.
Ce test a pour but de vérifier si les proportions p1, p2, ... pk de k populations sont égales. On
écrit comme suit les hypothèses :
Ho: p1 = p2 = ... = pk
H1: au moins une des proportions est différente des autres.
Effectifs observés
204
Statistiques décisionnelles 10. Tests sur les proportions
Sous l’hypothèse nulle p1 = p2 = ... = pk, il y a la même proportion inconnue p dans les k
populations. Cette proportion peut être estimée par la fréquence observée f dans l’échantillon
unique qui est la réunion des k échantillons.
n 11 n 21 n k1
f
n1 n 2 n k
Effectifs théoriques
On est amené à confronter les effectifs observés et les effectifs théoriques. On calcule la
variable de décision VD :
On peut démontrer que la variable de décision est une variable aléatoire Khi deux avec (k-1)
degré de liberté.
La variable de décision est nulle lorsque les effectifs observés sont tous égaux aux effectifs
attendus, c’est-à-dire, lorsqu’il y a concordance absolue entre la distribution observée et la
distribution théorique. La valeur de la variable de décision est d’autant plus grande que les
écarts entre les effectifs observés et attendus sont plus grands. La valeur critique qui délimite la
région d’acceptation est ² telle que :
Le test étant toujours unilatéral, la région d’acceptation est donc l’intervalle [0 ; ²1-[.
On rejettera donc l’hypothèse nulle lorsque la valeur de la variable de décision est supérieure
ou égale à ²1- avec (k-1) degrés de liberté.
205
Statistiques décisionnelles 10. Tests sur les proportions
10.4.1. Au cours des élections, un candidat est élu avec 52 % des voix. Plusieurs mois après
l'élection, un institut de sondage interroge 1600 électeurs, dont 800 déclarent qu'ils voteraient
en cas d'élection, pour le même candidat. Ce résultat est-il ou non significatif d'une
désaffection des électeurs pour l'élu ?
a) Au seuil de signification de 95 %.
b) Au seuil de signification de 90 %.
10.4.2. Une enquête sur l’emploi a concerné 220 personnes dont 115 dans le milieu rural et
105 dans le milieu urbain. Sur les 115 ruraux enquêtés, 74 se sont révélés actifs, alors que pour
les enquêtés urbains, 81 sont actifs. Peut-on admettre, au seuil de 5 %, qu’il n’y a pas de
différence significative entre les taux d’activités dans les deux milieux ?
10.4.3. Lors d’une campagne électorale, un parti politique a effectué un sondage pour évaluer
les intentions de vote en faveur de ce parti. Quatre échantillons indépendants ont été choisis
dans quatre villes différentes. On a obtenu les résultats suivants :
10.4.4. Dans une population, soit p1, la proportion d'hommes possédant le baccalauréat et p2
la proportion de femmes possédant le baccalauréat. Le tableau suivant correspond à la
répartition de 200 individus choisis au hasard dans cette population.
hommes femmes
Possèdent le bac 32 26
ne possèdent pas le bac 64 78
10.4.5. Dans un pays M, le gouvernement a annoncé que le taux de chômage est de 15,6 %.
Contestant ce chiffre, les députés de l'opposition ont fait appel à un institut de sondage. Celui ci
a réalisé une étude couvrant 4900 personnes en âge d'activité et a trouvé que le taux de
chômage est de 16,4 %. Avec un niveau de confiance de 0,95 ; estimez-vous que l'opposition a
raison de contester le chiffre annoncé par le gouvernement ?
206
Statistiques décisionnelles 10. Tests sur les proportions
10.4.6. Dans une population, on interroge un échantillon aléatoire de 400 personnes dont 160
sont âgées de 18 à 40 ans et 240 sont âgées de plus de 40 ans. On a trouvé que le pourcentage
des personnes propriétaires de leur logement dans les deux groupes sont respectivement 35% et
45%. Ces deux résultats sont-ils significativement différents au seuil de signification de
5 % puis de 1 % ?
10.4.7. Le tableau suivant donne le nombre d’étudiants qui ont été brillants et médiocres devant
trois examinateurs :
10.4.8. Quelques jours avant une consultation électorale mettant deux candidats A et B en
présence, deux instituts de sondage interrogent les électeurs. Pour l'institut X, qui a interrogé
1600 personnes, le candidat A ne recueillerait que 47 % des suffrages. Pour l'institut Y, qui a
interrogé 2500 personnes, A recueillerait 50 % des suffrages.
10.4.9. L'expérience suivante a été réalisée par Weldon : il a lancé un dé 315 672 fois, il a tiré
106 602 fois l'une des faces 5 ou 6 Peut-on accepter l'hypothèse selon laquelle le dé est
équilibré, au risque de 5% ?
10.4.11. Pour une élection, on effectue un sondage pour évaluer les intentions de vote en faveur
du parti M. Dans la ville de Casablanca, sur 450 personnes interrogées, 52% ont l'intention de
voter pour M. Dans la ville de Rabat, sur 300 personnes interrogées, 49 % ont l'intention de
voter pour M. Au risque de 5%, y a-t-il une différence d'intention de vote dans ces deux villes?
207
Statistiques décisionnelles 10. Tests sur les proportions
10.4.13. Un laboratoire annonce que l'un de ses médicaments est efficace à 95 %. Sur un
échantillon de 400 personnes le traitement s'est révélé efficace sur 368 d'entre elles. Quel
risque faut-il accepter si l'on considère que l'affirmation du laboratoire est légitime ?
10.4.14. Une entreprise commerciale à succursales multiples procède à un sondage dans ses
magasins de Rabat et Casablanca. A Rabat, sur 1000 clients interrogés, 350 déclarent souhaiter
que le magasin reste ouvert jusqu’à 21 heures tandis qu’à Casablanca, sur 900 clients, 280 ont
émis ce même vœu. L’entreprise peut-elle, au seuil de signification de 5 % puis de 10 %,
considérer que sa clientèle de Rabat réagit comme celle de Casablanca ?
Pour répondre à cette question, on doit vérifier si le nouveau pourcentage obtenu par le
sondage, n’est pas inférieur à la norme de 52 %. Il s’agit donc de faire un test de conformité de
la proportion.
Hypothèse nulle :
Il s’agit d’un test unilatéral à gauche.
Variable de décision :
La variable de décision du test correspond à la fréquence fn de l’échantillon :
800
VD = fn = = 0,50
1600
pq
La distribution de la proportion suit une loi normale de moyenne p et d’écart type (la
n
taille de l’échantillon est supérieure à 30 et le produit n p > 5).
fn p0 0,50 0,52
VDR = = = - 1,60
p 0 (1 p 0 ) 0,52(1 0,52)
n 1600
208
Statistiques décisionnelles 10. Tests sur les proportions
Région d’acceptation :
La région d’acceptation est l’intervalle [ Z ; +[.
Z Z 0 ,1 1,28
La région d’acceptation est [- 1,28 ; + ]. On rejette l’hypothèse nulle. Ce résultat est donc
significatif d’une désaffection des électeurs pour ce candidat.
Pour répondre à cette question, on doit réaliser un test de comparaison de deux proportions.
Hypothèse nulle :
Ce test a pour but de vérifier si la proportion p1 des personnes actives dans le milieu rural est
ou n’est pas égale à la proportion p2 des personnes actives dans le milieu urbain.
Variable de décision :
D’après les données :
74 81
f n1 = 0,64 f n2 = 0,77
115 105
155
f n 2 n 2 = 0,70
220
209
Statistiques décisionnelles 10. Tests sur les proportions
0,64 0,77
VDR = = -2,10
1 1
0,70(1 0,70)( )
115 105
Région d’acceptation :
Pour = 0,05 la valeur de Z1 est : Z0,975 = 1,96
2
VDR > Z1 , on rejette donc l’hypothèse nulle. C’est-à-dire, il y a une différence
2
significative entre les taux d’activités dans les deux milieux.
Pour répondre à cette question, on doit réaliser un test de comparaison de plusieurs proportions.
Variable de décision :
Sous l’hypothèse nulle : p1 = p2 = p3 = p4, il y a la même proportion inconnue p dans les 4
villes. Cette proportion peut être estimée par la fréquence observée f dans l’échantillon unique
qui est la réunion des 4 échantillons.
94 58 60 43
f 0,22
334 288 312 240
Effectifs théoriques
210
Statistiques décisionnelles 10. Tests sur les proportions
La variable de décision est une variable aléatoire Khi deux avec 3 degrés de liberté.
Région d’acceptation :
La région d’acceptation est donc l’intervalle 0 ; 12 .
Pour répondre à cette question, on doit réaliser un test de comparaison de deux proportions.
Hypothèse nulle :
Ce test a pour but de vérifier si la proportion p1 des hommes possédant le bac est ou n’est pas
égale à la proportion p2 des femmes possédant le bac.
Il s’agit d’un test bilatéral : H0 : p1 = p2 et H1 : p 1 p 2
211
Statistiques décisionnelles 10. Tests sur les proportions
Variable de décision :
D’après les données :
Hommes Femmes Total
Possèdent le bac 32 26 58
Ne possèdent pas le bac 64 78 142
Total 96 104 200
32 26
f n1 = 0,33 f n2 = 0,25
96 104
58
f n 2 n 2 = 0,29
200
La variable de décision centrée réduite est :
f n1 f n 2
VDR =
1 1
f n1 n 2(1 f n1 n 2)( )
n1 n 2
0,33 0,25
VDR = = 1,25
1 1
0,29(1 0,29)( )
96 104
Région d’acceptation :
Pour = 0,05 la valeur de Z1 est : Z0,975 = 1,96
2
VDR < Z1 , on accepte donc l’hypothèse nulle. C’est-à-dire, il n’y a pas de différence
2
significative entre la proportion des hommes possédant le bac et celle des femmes possédant le
bac.
Pour répondre à cette question, on doit vérifier si le nouveau pourcentage obtenu par le
sondage, n’est pas supérieur à la norme de 15,6 % annoncée par le gouvernement. Il s’agit
donc de faire un test de conformité de la proportion.
Hypothèse nulle :
Il s’agit d’un test unilatéral à droite
212
Statistiques décisionnelles 10. Tests sur les proportions
Variable de décision :
La variable de décision du test correspond à la fréquence fn de l’échantillon :
VD = fn = 0,164
pq
La distribution de la proportion suit une loi normale de moyenne p et d’écart type (la
n
taille de l’échantillon est supérieure à 30 et le produit n p > 5).
fn p0 0,164 0,156
VDR = = = 1,54
p 0 (1 p 0 ) 0,156(1 0,156)
n 4900
Région d’acceptation :
La région d’acceptation est l’intervalle ]- ; Z1 ].
Pour répondre à cette question, on doit réaliser un test de comparaison de deux proportions.
Hypothèse nulle :
Ce test a pour but de vérifier si la proportion p1 des personnes propriétaires de leur logement
dans la tranche d’âge 18 à 40 ans est ou n’est pas égale à la proportion p 2 des personnes
propriétaires de leur logement dans la tranche d’âge de plus de 40 ans.
Variable de décision :
D’après les données :
f n1 = 0,35 f n2 = 0,45
160.0,35 240.0,45
f n 2 n 2 = 0,41
160 240
213
Statistiques décisionnelles 10. Tests sur les proportions
0,35 0,45
VDR = = -1,99
1 1
0,41(1 0,41)( )
160 240
Région d’acceptation :
- Pour = 0,05 la valeur de Z1 est : Z0,975 = 1,96
2
VDR > Z1 , on rejette donc l’hypothèse nulle. C’est-à-dire, au seuil 5 % il y a une
2
différence significative entre les proportions de personnes propriétaires de leur logement dans
les deux tranches d’âge.
Pour répondre à cette question, on doit réaliser un test de comparaison de plusieurs proportions.
Variable de décision :
Sous l’hypothèse nulle : p1 = p2 = p3, il y a la même proportion inconnue p pour les 3
examinateurs. Cette proportion peut être estimée par la fréquence observée f dans l’échantillon
unique qui est la réunion des 3 échantillons.
27
f 0,15
180
214
Statistiques décisionnelles 10. Tests sur les proportions
Effectifs théoriques
VD = 4,84
La variable de décision est une variable aléatoire Khi deux avec 2 degrés de liberté.
Région d’acceptation :
La région d’acceptation est donc l’intervalle [0 ; ²1-[.
Pour répondre à cette question, on doit réaliser un test de comparaison de deux proportions.
215
Statistiques décisionnelles 10. Tests sur les proportions
Hypothèse nulle :
Ce test a pour but de vérifier si la proportion p1 des personnes qui voteraient pour le candidat
A, estimée par l’institut X, est ou n’est pas égale à la proportion p 2 des personnes qui voteraient
pour le candidat A, estimée par l’institut Y.
Il s’agit d’un test bilatéral : H0 : p1 = p2 et H1 : p 1 p 2
Variable de décision :
D’après les données :
f n1 = 0,47 f n2 = 0,50
1600.0,47 2500.0,50
f n 2 n 2 = 0,49
1600 2500
f n1 f n 2
VDR =
1 1
f n1 n 2(1 f n1 n 2)( )
n1 n 2
0,47 0,50
VDR = = -1,11
1 1
0,49(1 0,49)( )
1600 2500
Région d’acceptation :
Pour = 0,05 la valeur de Z1 est : Z0,975 = 1,96
2
VDR < Z1 , on accepte donc l’hypothèse nulle. C’est-à-dire, au seuil 5 % il n’y a pas de
2
différence significative entre les résultats obtenus par les deux instituts.
Pour répondre à cette question, on doit vérifier si le pourcentage obtenu par l’expérience, est ou
n’est pas égal au pourcentage théorique, c’est-à-dire la probabilité d’avoir les faces 5 ou 6 lors
du jet d’un dé équilibré.
Probabilité d’avoir les faces 5 ou 6 lors du jet d’un dé équilibré est de 2 sur 6, soit 0,333.
Hypothèse nulle :
Il s’agit d’un test bilatéral :
H0 p = 0,333 H1 : p 0,333
216
Statistiques décisionnelles 10. Tests sur les proportions
Variable de décision :
La variable de décision du test correspond à la fréquence fn de l’expérience :
106602
VD = fn = = 0,338
315672
pq
La distribution de la proportion suit une loi normale de moyenne p et d’écart type (la
n
taille de l’échantillon est supérieure à 30 et le produit n p > 5).
fn p0 0,338 0,333
VDR = = = 5,96
p 0 (1 p 0 ) 0,333(1 0,333)
n 315672
Région d’acceptation :
Pour = 0,05 la valeur de Z1 est : Z0,975 = 1,96
2
VDR > Z1 , on rejette donc l’hypothèse nulle. C’est-à-dire, au seuil 5 % le dé n’est pas
2
équilibré.
Pour répondre à cette question, on doit vérifier si le nouveau pourcentage obtenu par le
sondage, n’est pas inférieur à la norme de 95 %. Il s’agit donc de faire un test de conformité de
la proportion.
Hypothèse nulle :
Il s’agit d’un test unilatéral à gauche :
H0 p = 0,95 H1 : p < 0,95
Variable de décision :
La variable de décision du test correspond à la fréquence fn de l’échantillon :
VD = fn = 182 = 0,91
200
pq
La distribution de la proportion suit une loi normale de moyenne p et d’écart type (la
n
taille de l’échantillon est supérieure à 30 et le produit n p > 5).
217
Statistiques décisionnelles 10. Tests sur les proportions
Région d’acceptation :
La région d’acceptation est l’intervalle [ Z ; +[.
On rejette l’hypothèse nulle car la variable de décision réduite n’appartient pas à la région
d’acceptation. Au seuil 5 %, l’affirmation du fabricant n’est pas correcte.
La région d’acceptation est donc l’intervalle [- 3,09 ; + [. On accepte l’hypothèse nulle. Au
seuil de 1 %, l’affirmation du fabricant est correcte.
Pour répondre à cette question, on doit réaliser un test de comparaison de deux proportions.
Hypothèse nulle :
Ce test a pour but de vérifier si la proportion p1 des personnes qui voteraient pour le parti M
dans la ville de Casablanca est ou n’est pas égale à la proportion p2 des personnes qui
voteraient pour le parti M dans la ville de Rabat.
Variable de décision :
D’après les données :
f n1 = 0,52 f n2 = 0,49
450.0,52 300.0,49
f n 2 n 2 = 0,51
450 300
218
Statistiques décisionnelles 10. Tests sur les proportions
f n1 f n 2
VDR =
1 1
f n1 n 2(1 f n1 n 2)( )
n1 n 2
0,52 0,49
VDR = = 0,54
1 1
0,51(1 0,51)( )
450 300
Région d’acceptation :
Pour = 0,05 la valeur de Z1 est : Z0,975 = 1,96
2
VDR < Z1 , on accepte donc l’hypothèse nulle. C’est-à-dire, au seuil 5 % il n’y a pas de
2
différence significative entre les intentions de vote pour le parti M dans les deux villes
Casablanca et Rabat.
Pour répondre à cette question, on doit vérifier si le pourcentage obtenu par le test, n’est pas
inférieur à la norme de 90 %. Il s’agit donc de faire un test de conformité de la proportion.
Hypothèse nulle :
Il s’agit d’un test unilatéral à gauche
Variable de décision :
La variable de décision du test correspond à la fréquence fn du test :
VD = fn = 160 = 0,80
200
pq
La distribution de la proportion suit une loi normale de moyenne p et d’écart type (la
n
taille de l’échantillon est supérieure à 30 et le produit n p > 5).
219
Statistiques décisionnelles 10. Tests sur les proportions
fn p0 0,80 0,90
VDR = = = - 4,71
p 0 (1 p 0 ) 0,90(1 0,90)
n 200
Région d’acceptation :
La région d’acceptation est l’intervalle [ Z ; +[.
On rejette l’hypothèse nulle car la variable de décision réduite n’appartient pas à la région
d’acceptation. L’affirmation du chercheur n’est pas légitime au seuil de signification de 0,05.
Pour répondre à cette question, on doit accepter que le pourcentage obtenu par le test, n’est pas
inférieur à la norme de 95 %. Il s’agit donc de faire un test de conformité de la proportion.
Hypothèse nulle :
Il s’agit d’un test unilatéral à gauche
Variable de décision :
La variable de décision du test correspond à la fréquence fn du test :
368
VD = fn = = 0,92
400
pq
La distribution de la proportion suit une loi normale de moyenne p et d’écart type (la
n
taille de l’échantillon est supérieure à 30 et le produit n p > 5).
fn p0 0,92 0,95
VDR = = = - 2,75
p 0 (1 p 0 ) 0,95(1 0,95)
n 400
220
Statistiques décisionnelles 10. Tests sur les proportions
Région d’acceptation :
La région d’acceptation est l’intervalle [ Z ; +[.
Le seuil de signification est inconnu. Pour accepter l’hypothèse nulle, la variable de décision
réduite doit appartenir à la région d’acceptation. Z doit donc être inférieure ou égale à –2,75.
Pour répondre à cette question, on doit réaliser un test de comparaison de deux proportions.
Hypothèse nulle :
Ce test a pour but de vérifier si la proportion p1 des personnes de Rabat qui souhaiteraient que
le magasin reste ouvert jusqu’à 21 heures est ou n’est pas égale à la proportion p2 des
personnes de Casablanca qui souhaiteraient que le magasin reste ouvert jusqu’à 21 heures.
Variable de décision :
D’après les données :
f n1 f n 2
VDR =
1 1
f n1 n 2(1 f n1 n 2)( )
n1 n 2
0,35 0,31
VDR = = 1,85
1 1
0,33(1 0,33)( )
1000 900
221
Statistiques décisionnelles 10. Tests sur les proportions
Région d’acceptation :
Pour = 0,05 la valeur de Z
est : Z0,975 = 1,96
1
2
VDR < Z1 , on accepte donc l’hypothèse nulle. C’est-à-dire l’entreprise peut, au seuil de
2
signification de 5%, considérer que sa clientèle de Rabat réagit comme celle de Casablanca.
VDR Z , on rejette donc l’hypothèse nulle. C’est-à-dire l’entreprise ne peut pas, au seuil
1
2
222
Statistiques décisionnelles. 11. Tests non paramétriques
CHAPITRE 11
TESTS NON PARAMETRIQUES
Les tests d’ajustement sont destinés à comparer une distribution observée et une distribution
théorique donnée. D’une façon générale, on considère d’une part, une population infinie dont
les individus sont classés en k catégories, en fonction d’un critère qualitatif ou quantitatif, et
d’autre part, un échantillon aléatoire et simple d’effectif n, dont les individus sont classés de la
même manière. Le but du test est de vérifier si la population possède une distribution de
probabilité donnée :
k
p1, p2, p3, …, pk tel que : p
i 1
i 1
223
Statistiques décisionnelles. 11. Tests non paramétriques
Les effectifs attendus doivent être tous supérieurs ou égaux à 5. Quand cette condition n’est pas
remplie, on peut regrouper des classes voisines, de manière à augmenter les effectifs attendus.
k
(n i np i ) 2
VD
i 1 np i
On peut démontrer que la variable de décision est une variable aléatoire Khi deux avec (k-1)
degré de liberté. k correspond au nombre de classes après regroupement.
k
n i2
VD np
i 1 i
n
Lorsque la distribution théorique n’est pas complètement définie, le ou les paramètres qui
caractérisent cette distribution doivent tout d’abord être estimés. On peut calculer ensuite les
^ ^
probabilités estimées pi , les effectifs attendus correspondants n pi , et la valeur de décision :
k
n i2
VD np
i 1 i
n
Région d’acceptation :
La variable de décision est nulle lorsque les effectifs observés sont tous égaux aux effectifs
attendus, c’est à dire, lorsqu’il y a concordance absolue entre la distribution observée et la
distribution théorique. La valeur de la variable de décision est d’autant plus grande que les
écarts entre les effectifs observés et attendus sont plus grands. La valeur critique qui délimite la
région d’acceptation est ² telle que :
224
Statistiques décisionnelles. 11. Tests non paramétriques
Le test étant toujours unilatéral, la région d’acceptation est donc l’intervalle 0 ; 12 .
On rejettera donc l’hypothèse nulle lorsque la valeur de la variable de décision est supérieure
ou égale à ²1-.
Les tests d’indépendance ont pour but de contrôler l’indépendance stochastique de deux ou
plusieurs critères de classification. Ils permettent également d’effectuer des comparaisons de
proportions.
Pour des échantillons aléatoires et simples, si les deux critères de classification sont
indépendants, les probabilités pij de la distribution à deux dimensions peuvent être estimées
par :
p̂ ij f i. x f . j
ni nj
fi et f j sont les fréquences relatives marginales.
n n
ni. et n.j sont les effectifs marginaux, et nij les effectifs conjoints.
Les effectifs attendus correspondants sont donc :
ni. n. j ni. x n. j
np̂ ij nfi x fj n
n n n
^
H0 : nij = n pij
225
Statistiques décisionnelles. 11. Tests non paramétriques
Variable de décision :
La comparaison des effectifs observés et attendus se fait comme pour les tests d’ajustement, en
calculant la variable de décision suivante :
p q
n ij ²
VD =
i 1 j1
^ -n
n p ij
On démontre que la variable de décision est une variable aléatoire Khi deux avec (p-1)(q-1)
degré de liberté.
Région d’acceptation :
La valeur critique qui délimite la région d’acceptation est ² telle que :
Le test étant toujours unilatéral, la région d’acceptation est donc l’intervalle [0 ; ²1-[.
On rejettera donc l’hypothèse nulle lorsque la valeur de la variable de décision est supérieure
ou égale à ²1-.
11.3.1. Le tableau suivant donne la distribution de fréquences des nombres de garçons observés
dans 1600 familles de 4 enfants, considérées comme choisies au hasard au sein d’une très large
population. En fonction de ces résultats, peut-on affirmer, au seuil de 5 %, puis de 1 % que le
nombre de garçons suit une loi binomiale ?
11.3.2. Au concours d’entrée à une école, l’épreuve de culture générale est notée de 0 à 50. On
tire au hasard un échantillon de 100 candidats et l’on relève que les notes qu’ils ont obtenues se
classent en cinq tranches de la manière suivante :
226
Statistiques décisionnelles. 11. Tests non paramétriques
Le jury se demande s’il est justifié de considérer que la distribution des notes suit une loi
normale dans la population de tous les candidats.
a) Au seuil de 5 %.
b) Au seuil de 1 %.
11.3.3. Une enquête a été réalisée auprès d’un échantillon de 500 individus prélevé au sein
d’une population cible de 4 millions d'individus. Les données que l'on possède sur cette
population sont les suivantes :
Au dépouillement, on a trouvé que les individus qui ont formé l’échantillon ont les
caractéristiques suivantes :
227
Statistiques décisionnelles. 11. Tests non paramétriques
11.3.4. On a enregistré plusieurs fois de suite le nombre de personnes qui se sont présenté à un
guichet automatique bancaire, pendant des temps de 5 minutes.
Nombres d’arrivées 0 1 2 3 4 5 6 7 8 9 10
Fréquences absolues observées 1 4 12 18 22 17 11 6 4 3 2
11.3.5. On a mesuré la longueur, en mm, de 75 grains de blé. Les résultats obtenus ont été
répartis en neuf classes;
Peut-on ajuster à cette distribution la loi normale de moyenne 7,75 mm, et d’écart type 0,94
mm ? (seuil de signification de 5 %)
Groupes sanguins O A B AB
Effectifs observés 251 219 29 26
Groupes sanguins O A B AB
Proportions 44,5% 44% 8% 3,5%
228
Statistiques décisionnelles. 11. Tests non paramétriques
11.3.7. Un tour opérateur souhaite segmenter son marché. Il se demande s’il existe un lien
entre le choix d’une destination de vacances et le niveau d’instruction. Les données recueillies
ont été structurées sous forme de tableau de contingence.
11.3.8. Le directeur de ventes d’un laboratoire pharmaceutique veut savoir s’il existe des
différences significatives entre les régions en terme de niveau d’accueil d’un nouveau produit.
Les résultats suivants ont été obtenus auprès d’un échantillon aléatoire de clients :
Régions
Niveau d’accueil Nord Est Sud Ouest
Faible 22 35 0 5
Modéré 84 55 8 24
Elevé 25 17 22 12
11.3.9. Les 150 étudiants d’une école doivent choisir entre trois disciplines pour leur activité
parascolaire. Le choix des étudiants selon le sexe a été comme suit :
Discipline
Sexe
Sport Musique Théâtre Total
Fille 20 28 32 80
Garçon 43 16 11 70
Total 63 44 43 150
Peut-on affirmer au seuil de 5 % puis de 1 % que le choix des étudiants dépend de leur sexe ?
11.3.10. Le tableau ci-dessous donne la répartition de 10000 étudiants d’une université selon la
filière d’étude et la profession des parents.
229
Statistiques décisionnelles. 11. Tests non paramétriques
et cadre sup
Cadre moyen 236 99 493 264 281 56 123 1552
Employé 145 52 281 133 135 30 74 850
Ouvriers 166 64 401 193 127 23 157 1131
Personnel de service 16 6 27 11 8 2 10 80
Autres 305 115 624 247 301 47 132 1771
Total 1592 638 3094 1490 2005 404 777 10000
Pour répondre à cette question, on doit réaliser un test d’ajustement dans le but de comparer la
distribution observée à la distribution binomiale.
Hypothèse nulle :
k k
H0 : ni = npi avec n = np
i 1
i
i 1
i =n
Variable de décision :
Pour comparer la distribution théorique et la distribution observée, on est amené à confronter
les effectifs observés ni et les effectifs attendus ou théoriques correspondants npi. On doit
calculer alors les probabilités pi en utilisant la loi binomiale.
La probabilité d’avoir un garçon est supposée égale à 0,5, la loi binomiale qui caractérise le
nombre de garçons dans une famille de 4 enfants a pour paramètre 4 et 0,5.
p ( x ) C nx p x q n x
x p(x)
0 0,0625
1 0,2500
2 0,3750
3 0,2500
4 0,0625
Total 1
230
Statistiques décisionnelles. 11. Tests non paramétriques
Le tableau suivant regroupe les effectifs observés ni et les effectifs attendus ou théoriques
correspondants npi.
x ni npi
0 113 100
1 367 400
2 576 600
3 426 400
4 118 100
Total 1600 1600
Les effectifs théoriques sont tous supérieurs à 5, on peut calculer la variable de décision :
k
n i2
VD n
i 1 np i
Région d’acceptation :
La région d’acceptation est l’intervalle [0 ; ²1-[.
Pour = 0,05, la valeur de ²1- avec 4 degrés de liberté est : ²0,95 = 9,49
La valeur de la variable de décision est supérieure à ²1- , on rejette donc l’hypothèse nulle.
C’est à dire qu’au seuil de 5%, on ne peut pas affirmer que le nombre de garçons suit une loi
binomiale.
Pour = 0,01 la valeur de 12 avec 4 degrés de liberté est : 02,99 13,28
La valeur de la variable de décision est inférieure à 12 , on accepte donc l’hypothèse nulle.
C’est-à-dire qu’un seuil de 1 %, on peut affirmer que le nombre de garçons suit une binomiale.
Pour répondre à cette question, on doit réaliser un test d’ajustement dans le but de comparer la
distribution observée à la distribution normale.
231
Statistiques décisionnelles. 11. Tests non paramétriques
Hypothèse nulle :
k k
H0 : ni = npi avec n i = npi = n
i 1 i 1
Variable de décision :
Pour comparer la distribution théorique et la distribution observée, on est amené à confronter
les effectifs observés ni et les effectifs attendus ou théoriques correspondants npi. On doit
calculer alors les probabilités pi en utilisant la loi normale. Pour cela, il faut estimer les
paramètres de la loi normale, à savoir, la moyenne et l’écart type.
La moyenne m peut être estimée par la moyenne calculée à partir de la distribution observée
alors que la variance sera estimée par la quasi-variance.
x
n x i i
=
10.5 20.15 30.25 20.35 20.45
= 27
n i
10 20 30 20 20
^
²
n (x x)²
i i
=
n 1 i
10.(5 27)² 20.(15 27)² 30.(25 27)² 20.(35 27)² 20.(45 27)² ^
² = 157,58
100 1
^
157,58 = 12,55
10 27
p(X 10) = p(Z ) = (-1,35) = 0,0885
12,55
10 27 20 27
p(10 < X 20) = p( <Z )
12,55 12,55
p(10 < X 20) = (-0,56)- (-1,35) = 0,2877-0,0885 = 0,1992
232
Statistiques décisionnelles. 11. Tests non paramétriques
20 27 30 27
p(20 < X 30) = p( <Z )
12,55 12,55
p(20 < X 30) = (0,24)- (-0,56) = 0,5948 - 0,2877 = 0,3071
30 27 40 27
p(30 < X 40) = p( <Z )
12,55 12,55
p(30 < X 40) = (1,04)- (0,24) = 0,8508 – 0,5948 = 0,2560
40 27 50 27
p(40 < X 50) = p( <Z )
12,55 12,55
p(40 < X 50) = (1,83)- (1,04) = 0,9664 – 0,8508 = 0,1156
Le tableau suivant regroupe les effectifs observés ni et les effectifs attendus ou théoriques
correspondants npi.
Les effectifs théoriques sont tous supérieurs à 5, on peut calculer la variable de décision :
k
n i2
VD
i 1 npi
n
10 2 20 2 30 2 20 2 20 2
VD 100 10,91
8,85 19,92 30,71 25,6 11,56
Région d’acceptation :
La région d’acceptation est l’intervalle [0 ; ²1-[.
a) Pour = 0,05, la valeur de ²1- avec 2 (5-2-1) degrés de liberté est : ²0,95 = 5,991
La valeur de la variable de décision est supérieure à ²1- , on rejette donc l’hypothèse nulle.
C’est-à-dire qu’au seuil de 5 %, il n’est pas justifié de considérer que la distribution des notes
suit une loi normale dans la population de tous les candidats.
b) Pour = 0,001, la valeur de 12 avec 2 degrés de liberté est : 02,999 13,82 .
233
Statistiques décisionnelles. 11. Tests non paramétriques
La valeur de la variable de décision est inférieure à 12 , on accepte donc l’hypothèse nulle.
C’est-à-dire qu’au seuil de 1 %, il est justifié de considérer que la distribution des notes suit
une loi normale dans la population de tous les candidats.
Pour répondre à cette question, on doit réaliser un test d’ajustement dans le but de comparer la
distribution observée à la distribution théorique.
Hypothèse nulle :
k k
H0 : ni = npi avec n i = npi = n
i 1 i 1
Variable de décision :
Pour comparer la distribution théorique et la distribution observée, on est amené à confronter
les effectifs observés ni et les effectifs attendus ou théoriques correspondants npi.
Le tableau suivant regroupe les effectifs observés ni et les effectifs attendus ou théoriques
correspondants npi.
Les effectifs théoriques sont tous supérieurs à 5, on peut calculer la variable de décision :
k
n i2
VD
i 1 npi
n
612 54 2 35 2 27 2 15 2
VD
67,2 57,6 28,8 24,96 13,44
112 2 48 2 25 2 17 2 62
400 6,8
104 52 20,8 20,8 10,4
234
Statistiques décisionnelles. 11. Tests non paramétriques
Région d’acceptation :
La région d’acceptation est l’intervalle [0 ; ²1-[.
Pour = 0,05, la valeur de ²1- avec 9 degrés de liberté est : ²0,95 = 16,919
La valeur de la variable de décision est inférieure à ²1- , on accepte donc l’hypothèse nulle.
C’est-à-dire qu’au seuil de 5%, l’échantillon prélevé est représentatif de la population étudiée.
Pour répondre à cette question, on doit réaliser un test d’ajustement dans le but de comparer la
distribution observée à la distribution de Poisson.
Hypothèse nulle :
k k
H0 : ni = npi avec n i = npi = n
i 1 i 1
Variable de décision :
Pour comparer la distribution théorique et la distribution observée, on est amené à confronter
les effectifs observés ni et les effectifs attendus ou théoriques correspondants npi. On doit
calculer alors les probabilités pi en utilisant la loi de Poisson.
On doit estimer le paramètre de la loi de Poisson en calculant la moyenne observée x.
x
n i x i 1.0 4.112.2... 2.10
= = 4,42
n i 100
x p(x) n pi
0 0,0120 1,20
1 0,0532 5,32
2 0,1176 11,76
3 0,1732 17,32
4 0,1914 19,14
5 0,1692 16,92
6 0,1246 12,46
7 0,0787 7,87
235
Statistiques décisionnelles. 11. Tests non paramétriques
8 0,0435 4,35
9 0,0214 2,14
10 0,0094 0,94
Le tableau suivant regroupe les effectifs observés ni et les effectifs attendus ou théoriques
correspondants npi.
x ni n pi
0 1 1,20
1 4 5,32
2 12 11,76
3 18 17,32
4 22 19,14
5 17 16,92
6 11 12,46
7 6 7,87
8 4 4,35
9 3 2,14
10 2 0,94
Total 100
Les effectifs théoriques inférieurs à 5 doivent être regroupés. On obtient les effectifs suivants :
x ni n pi
0 ou 1 5 6,52
2 12 11,76
3 18 17,32
4 22 19,14
5 17 16,92
6 11 12,46
7 6 7,87
8 ou plus 9 7,43
Total 100
k
n i2
VD
i 1 npi
n
2
5 12 2 18 2 22 2
VD
6,52 11,76 17,32 19,14
2
17 112 62 92
100 2,34
16,92 12,46 7,87 7,43
236
Statistiques décisionnelles. 11. Tests non paramétriques
Région d’acceptation :
La région d’acceptation est l’intervalle 0 ; .
2
1
Pour = 0,05, la valeur de ²1- avec (8-1-1)=6 degrés de liberté est : ²0,95 = 12,592
La valeur de la variable de décision est inférieure à ²1- , on accepte donc l’hypothèse nulle.
C’est-à-dire qu’on peut affirmer au seuil de signification de 5 % que le nombre de personnes
qui se présentent à un guichet automatique bancaire, pendant un intervalle de temps de 5
minutes suit une loi de Poisson.
Pour répondre à cette question, on doit réaliser un test d’ajustement dans le but de comparer la
distribution observée à la distribution normale.
Hypothèse nulle :
k k
H0 : ni = npi avec n i = npi = n
i 1 i 1
Variable de décision :
Pour comparer la distribution théorique et la distribution observée, on est amené à confronter
les effectifs observés ni et les effectifs attendus ou théoriques correspondants npi. On doit
calculer alors les probabilités pi en utilisant la loi normale.
Le tableau suivant regroupe les effectifs observés ni et les effectifs attendus ou théoriques
correspondants npi.
longueur en mm ni pi npi
[5,25 ; 5,75[ 1 0,0127 0,9525
[5,75 ; 6,25[ 6 0,0382 2,8650
[6,25 ; 6,75[ 6 0,0898 6,735
[6,75 ; 7,25[ 9 0,1535 11,5125
[7,25 ; 7,75[ 15 0,2019 15,1425
[7,75 ; 8,25[ 17 0,2019 15,1425
[8,25 ; 8,75[ 10 0,1535 11,5125
[8,75 ; 9,25[ 8 0,0898 6,735
[9,25 ; 9,75[ 3 0,0382 2,865
Les effectifs théoriques inférieurs à 5 doivent être regroupés. On obtient les effectifs suivants :
longueur en mm ni npi
[5,25 ; 6,75[ 13 10,5525
[6,75 ; 7,25[ 9 11,5125
[7,25 ; 7,75[ 15 15,1425
238
Statistiques décisionnelles. 11. Tests non paramétriques
k
n i2
VD npi n
i 1
13 2 92 15 2 17 2
VD
10,5525 11,5125 15,1425 15,1425
10 2 112
75 3,26
11,5125 9,6
Région d’acceptation :
La région d’acceptation est l’intervalle [0 ; ²1-[.
La valeur de la variable de décision est inférieure à ²1- , on accepte donc l’hypothèse nulle.
C’est-à-dire qu’au seuil de 5 %, on peut ajuster à cette distribution la loi normale de moyenne
7,75 mm, et d’écart type 0,94 mm.
Pour répondre à cette question, on doit réaliser un test d’ajustement dans le but de comparer la
distribution observée à la distribution théorique.
Hypothèse nulle :
k k
H0 : ni = npi avec n i = npi = n
i 1 i 1
Variable de décision :
Pour comparer la distribution théorique et la distribution observée, on est amené à confronter
les effectifs observés ni et les effectifs attendus ou théoriques correspondants npi.
Le tableau suivant regroupe les effectifs observés ni et les effectifs attendus ou théoriques
correspondants npi.
239
Statistiques décisionnelles. 11. Tests non paramétriques
Groupes sanguins O A B AB
Effectifs observés 251 219 29 26
Effectifs théoriques 233,625 231 42 18,375
Les effectifs théoriques sont tous supérieurs à 5, on peut calculer la variable de décision :
k
n i2
VD n
i 1 npi
2512 219 2 29 2 26 2
VD 525 9,10
233,625 231 42 18,375
Région d’acceptation :
La région d’acceptation est l’intervalle 0 ; .
2
1
- Pour = 0,05, la valeur de ²1- avec 3 degrés de liberté est :
²0,95 = 7,815
La valeur de la variable de décision est supérieure à ²1- , on rejette donc l’hypothèse nulle.
C’est-à-dire qu’au seuil de signification de 5%, les 525 donneurs ne sont pas représentatifs de
la population marocaine en terme de groupes sanguins.
- Pour = 0,01, la valeur de 12 avec 3 degrés de liberté est : 02,99 11,34 .
La valeur de la variable de décision est inférieure à 12 , on accepte donc l’hypothèse nulle.
C’est-à-dire qu’au seuil de 1 %, les 525 donneurs sont représentatifs de la population
marocaine en terme de groupes sanguins.
Hypothèse nulle :
L’hypothèse nulle est l’indépendance des deux critères de classification.
^
H0 : nij = n pij
Variable de décision :
Les effectifs attendus sont estimés par la formule :
^
n pij =
n i.n .j
n
240
Statistiques décisionnelles. 11. Tests non paramétriques
p q
VD = n ²
i 1 j1
ij
^
-n= 300² 50² 100² 250² ... 30² - 1000
270 112,5 67,5 210 30
n pij
VD = 220,91
Région d’acceptation :
La région d’acceptation est l’intervalle [0 ; ²1-[.
Pour = 0,05, la valeur de ²1- avec 4 degrés de liberté est : ²0,95 = 9,49.
La valeur de la variable de décision est supérieure à ²1- , on rejette donc l’hypothèse nulle.
On conclut donc que le niveau d’instruction a une influence sur le choix d’une destination
touristique.
Hypothèse nulle :
L’hypothèse nulle est l’indépendance des deux critères de classification.
^
H0 : nij = n pij
Variable de décision :
Les effectifs attendus sont estimés par la formule :
^
n pij =
n i.n .j
n
241
Statistiques décisionnelles. 11. Tests non paramétriques
Régions
Niveau d’accueil Nord Est Sud Ouest Total
Faible 26,28 21,47 6,02 8,23 62
Modéré 72,49 59,21 16,60 22,69 171
Elevé 32,22 26,32 7,38 10,08 76
Total 131 107 30 41 309
p q
n ij ²
VD =
i 1 j 1
^
-n= 22² 35² 0² 5² ... 12² -309
226,28 21,47 6,02 8,23 10,08
n p ij
VD = 41,15
Région d’acceptation :
La région d’acceptation est l’intervalle [0 ; ²1-[.
Pour = 0,05, la valeur de ²1- avec 6 degrés de liberté est : ²0,95 = 12,59
La valeur de la variable de décision est supérieure à ²1- , on rejette donc l’hypothèse nulle.
On conclut que le niveau d’accueil dépend de la région.
Hypothèse nulle :
L’hypothèse nulle est l’indépendance des deux critères de classification.
^
H0 : nij = n pij
Variable de décision :
Les effectifs attendus sont estimés par la formule :
^
n pij =
n i.n .j
n
Discipline
Sexe
Sport Musique Théâtre Total
Fille 33,6 23,47 29,93 80
Garçon 29,4 20,53 20,07 70
Total 63 44 43 150
242
Statistiques décisionnelles. 11. Tests non paramétriques
p q
n ij ²
VD =
i 1 j 1
^
-n
n p ij
20² 28² 32² 43² 16² 11²
VD = - 150
33,6 23,47 29,93 29,4 20,53 20,07
VD = 10,9
Région d’acceptation :
La région d’acceptation est l’intervalle [0 ; ²1-[.
- Pour = 0,05, la valeur de ²1- avec 2 degrés de liberté est : ²0,95 = 5,99
La valeur de la variable de décision est supérieure à ²1- , on rejette donc l’hypothèse nulle.
On peut affirmer au seuil de 5 % que le choix des étudiants dépend de leur sexe.
- Pour = 0,001, la valeur de 12 avec 2 degrés de liberté est 02,999 13,82 .
La valeur de la variable de décision est inférieure à 12 , on accepte donc l’hypothèse nulle.
On peut affirmer au seuil de 1 % que le choix des étudiants est indépendant du sexe.
Hypothèse nulle :
L’hypothèse nulle est l’indépendance des deux critères de classification.
^
H0 : nij = n pij
Variable de décision :
Les effectifs attendus sont estimés par la formule :
^
n pij =
n i.n .j
n
Filière Sciences Médecine et
Droit LettresSciences PharmacieAutre Total
Profession économiques dentaire
Exploitant agricole 81,4 32,6 158,1 76,1 102,5 20,6 39,7 511
Salarié agricole 6,2 2,5 12,1 5,8 7,8 1,6 3,0 39
Patron 164,8 66,0 320,2 154,2 207,5 41,8 80,4 1035
243
Statistiques décisionnelles. 11. Tests non paramétriques
Profession libérale
482,5 193,4 937,8 451,6 607,7 122,5 235,5 3031
et cadre sup
Cadre moyen 247,1 99,0 480,2 231,2 311,2 62,7 120,6 1552
Employé 135,3 54,2 263,0 126,7 170,4 34,3 66,0 850
Ouvriers 180,1 72,2 349,9 168,5 226,8 45,7 87,9 1131
Personnel de
12,7 5,1 24,8 11,9 16,0 3,2 6,2 80
service
Autres 281,9 113,0 547,9 263,9 355,1 71,5 137,6 1771
Total 1592 638 3094 1490 2005 404 777 10000
p q
n ij ²
VD =
i 1 j 1
^
-n
n p ij
VD = 450,3
Région d’acceptation :
La région d’acceptation est l’intervalle [0 ; ²1-[.
Le nombre de degrés de liberté étant grand, on peut utiliser l’approximation par la loi normale.
( Z 2k 1)²
²
2
d’où :
( Z 0 , 95 2 48 1)² (1,64 2 48 1)²
² 0 , 95 = = 64,8
2 2
Pour = 0,05, la valeur de ²1- avec 48 degrés de liberté est : ²0,95 = 64,8
La valeur de la variable de décision est supérieure à ²1- , on rejette donc l’hypothèse nulle.
On peut affirmer au seuil de 5 %, qu’il y a un lien entre la filière d’étude et la profession des
parents.
244
Statistiques décisionnelles.
Tables statistiques
Loi Normale
Loi de Khi deux
Loi de Student
Loi de Fischer
245
LOI NORMALE CENTREE REDUITE L(X) = N(0 ; 1)
Probabilité P(Z<=z)
z
0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
LOI NORMALE CENTREE REDUITE L(X) = N(0 ; 1)
Probabilité P(Z<=z)
z
0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
3,1 0,99903 0,99906 0,99910 0,99913 0,99916 0,99918 0,99921 0,99924 0,99926 0,99929
3,2 0,99931 0,99934 0,99936 0,99938 0,99940 0,99942 0,99944 0,99946 0,99948 0,99950
3,3 0,99952 0,99953 0,99955 0,99957 0,99958 0,99960 0,99961 0,99962 0,99964 0,99965
3,4 0,99966 0,99968 0,99969 0,99970 0,99971 0,99972 0,99973 0,99974 0,99975 0,99976
3,5 0,99977 0,99978 0,99978 0,99979 0,99980 0,99981 0,99981 0,99982 0,99983 0,99983
3,6 0,99984 0,99985 0,99985 0,99986 0,99986 0,99987 0,99987 0,99988 0,99988 0,99989
3,7 0,99989 0,99990 0,99990 0,99990 0,99991 0,99991 0,99992 0,99992 0,99992 0,99992
3,8 0,99993 0,99993 0,99993 0,99994 0,99994 0,99994 0,99994 0,99995 0,99995 0,99995
3,9 0,99995 0,99995 0,99996 0,99996 0,99996 0,99996 0,99996 0,99996 0,99997 0,99997
LOI DU KHI 2
k Probabilité P(T<=z)=p
0,6 0,7 0,8 0,9 0,95 0,975 0,99 0,995
1 0,325 0,727 1,376 3,078 6,314 12,71 31,82 63,66
2 0,289 0,617 1,061 1,886 2,920 4,303 6,965 9,925
3 0,277 0,584 0,978 1,638 2,353 3,182 4,541 5,841
4 0,271 0,569 0,941 1,533 2,132 2,776 3,747 4,604
5 0,267 0,559 0,920 1,476 2,015 2,571 3,365 4,032
6 0,265 0,553 0,906 1,440 1,943 2,447 3,143 3,707
7 0,263 0,549 0,896 1,415 1,895 2,365 2,998 3,499
8 0,262 0,546 0,889 1,397 1,860 2,306 2,896 3,355
9 0,261 0,543 0,883 1,383 1,833 2,262 2,821 3,250
10 0,260 0,542 0,879 1,372 1,812 2,228 2,764 3,169
11 0,260 0,540 0,876 1,363 1,796 2,201 2,718 3,106
12 0,259 0,539 0,873 1,356 1,782 2,179 2,681 3,055
13 0,259 0,538 0,870 1,350 1,771 2,160 2,650 3,012
14 0,258 0,537 0,868 1,345 1,761 2,145 2,624 2,977
15 0,258 0,536 0,866 1,341 1,753 2,131 2,602 2,947
16 0,258 0,535 0,865 1,337 1,746 2,120 2,583 2,921
17 0,257 0,534 0,863 1,333 1,740 2,110 2,567 2,898
18 0,257 0,534 0,862 1,330 1,734 2,101 2,552 2,878
19 0,257 0,533 0,861 1,328 1,729 2,093 2,539 2,861
20 0,257 0,533 0,860 1,325 1,725 2,086 2,528 2,845
21 0,257 0,532 0,859 1,323 1,721 2,080 2,518 2,831
22 0,256 0,532 0,858 1,321 1,717 2,074 2,508 2,819
23 0,256 0,532 0,858 1,319 1,714 2,069 2,500 2,807
Statistiques décisionnelles.
24 0,256 0,531 0,857 1,318 1,711 2,064 2,492 2,797
25 0,256 0,531 0,856 1,316 1,708 2,060 2,485 2,787
26 0,256 0,531 0,856 1,315 1,706 2,056 2,479 2,779
250
LOI DE STUDENT
k Probabilité P(T<=z)=p
0,6 0,7 0,8 0,9 0,95 0,975 0,99 0,995
27 0,256 0,531 0,855 1,314 1,703 2,052 2,473 2,771
28 0,256 0,530 0,855 1,313 1,701 2,048 2,467 2,763
29 0,256 0,530 0,854 1,311 1,699 2,045 2,462 2,756
30 0,256 0,530 0,854 1,310 1,697 2,042 2,457 2,750
40 0,255 0,529 0,851 1,303 1,684 2,021 2,423 2,704
60 0,254 0,527 0,848 1,296 1,671 2,000 2,390 2,660
80 0,254 0,527 0,846 1,292 1,664 1,990 2,374 2,639
100 0,254 0,526 0,845 1,290 1,660 1,984 2,365 2,626
200 0,254 0,525 0,843 1,286 1,653 1,972 2,345 2,601
500 0,253 0,525 0,842 1,283 1,648 1,965 2,334 2,586
0,253 0,524 0,842 1,282 1,645 1,960 2,326 2,576
LOI DE FISHER
Probabilité P(F<=z) = 0,95
K2 K1
1 2 3 4 5 6 7 8 9 10 15 20 30 50 100 200 500
1 161 200 216 225 230 234 237 239 241 242 246 248 250 252 253 254 254 254
2 18,5 19,0 19,2 19,2 19,3 19,3 19,4 19,4 19,4 19,4 19,4 19,4 19,5 19,5 19,5 19,5 19,5 19,5
3 10,1 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,70 8,66 8,62 8,58 8,55 8,54 8,53 8,53
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,86 5,80 5,75 5,70 5,66 5,65 5,64 5,63
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,62 4,56 4,50 4,44 4,41 4,39 4,37 4,37
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 3,94 3,87 3,81 3,75 3,71 3,69 3,68 3,67
7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,51 3,44 3,38 3,32 3,27 3,25 3,24 3,23
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,22 3,15 3,08 3,02 2,97 2,95 2,94 2,93
9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,01 2,94 2,86 2,80 2,76 2,73 2,72 2,71
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,85 2,77 2,70 2,64 2,59 2,56 2,55 2,54
11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 2,72 2,65 2,57 2,51 2,46 2,43 2,42 2,40
12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,62 2,54 2,47 2,40 2,35 2,32 2,31 2,30
13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,53 2,46 2,38 2,31 2,26 2,23 2,22 2,21
14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,46 2,39 2,31 2,24 2,19 2,16 2,14 2,13
15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,40 2,33 2,25 2,18 2,12 2,10 2,08 2,07
16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,35 2,28 2,19 2,12 2,07 2,04 2,02 2,01
17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 2,31 2,23 2,15 2,08 2,02 1,99 1,97 1,96
18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,27 2,19 2,11 2,04 1,98 1,95 1,93 1,92
19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,23 2,16 2,07 2,00 1,94 1,91 1,89 1,88
20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,20 2,12 2,04 1,97 1,91 1,88 1,86 1,84
22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30 2,15 2,07 1,98 1,91 1,85 1,82 1,80 1,78
24 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25 2,11 2,03 1,94 1,86 1,80 1,77 1,75 1,73
26 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22 2,07 1,99 1,90 1,82 1,76 1,73 1,71 1,69
28 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,24 2,19 2,04 1,96 1,87 1,79 1,73 1,69 1,67 1,65
30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,01 1,93 1,84 1,76 1,70 1,66 1,64 1,62
50 4,03 3,18 2,79 2,56 2,40 2,29 2,20 2,13 2,07 2,03 1,87 1,78 1,69 1,60 1,52 1,48 1,46 1,44
100 3,94 3,09 2,70 2,46 2,31 2,19 2,10 2,03 1,97 1,93 1,77 1,68 1,57 1,48 1,39 1,34 1,31 1,28
200 3,89 3,04 2,65 2,42 2,26 2,14 2,06 1,98 1,93 1,88 1,72 1,62 1,52 1,41 1,32 1,26 1,22 1,19
500 3,86 3,01 2,62 2,39 2,23 2,12 2,03 1,96 1,90 1,85 1,69 1,59 1,48 1,38 1,28 1,21 1,16 1,11
3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,88 1,83 1,67 1,57 1,46 1,35 1,24 1,17 1,11 1,00
LOI DE FISHER
K K1
2 1 2 3 4 5 6 7 8 9 10 15 20 30 50 100 200 500
2 998 999 999 999 999 999 999 999 999 999 999 999 999 999 999 999 999 999
3 168 148 141 137 135 133 132 131 130 129 127 126 125 125 124 124 124 124
4 74,1 61,2 56,2 53,4 51,7 50,5 49,7 49,0 48,5 48,0 46,8 46,1 45,4 44,9 44,5 44,3 44,1 44,0
5 47,0 36,6 33,2 31,1 29,8 28,8 28,2 27,6 27,2 26,9 25,9 25,4 24,9 24,4 24,1 23,9 23,8 23,8
6 35,5 27,0 23,7 21,9 20,8 20,0 19,5 19,0 18,7 18,4 17,6 17,1 16,7 16,3 16,0 15,9 15,8 15,8
7 29,2 21,7 18,8 17,2 16,2 15,5 15,0 14,6 14,3 14,1 13,3 12,9 12,5 12,2 11,9 11,8 11,7 11,7
8 25,4 18,5 15,8 14,4 13,5 12,9 12,4 12,0 11,8 11,5 10,8 10,5 10,1 9,80 9,57 9,46 9,39 9,34
9 22,9 16,4 13,9 12,6 11,7 11,1 10,7 10,4 10,1 9,89 9,24 8,90 8,55 8,26 8,04 7,93 7,86 7,81
10 21,0 14,9 12,6 11,3 10,5 9,92 9,52 9,20 8,96 8,75 8,13 7,80 7,47 7,19 6,98 6,87 6,81 6,76
11 19,7 13,8 11,6 10,4 9,58 9,05 8,66 8,35 8,12 7,92 7,32 7,01 6,68 6,41 6,21 6,10 6,04 6,00
12 18,6 13,0 10,8 9,63 8,89 8,38 8,00 7,71 7,48 7,29 6,71 6,40 6,09 5,83 5,63 5,52 5,46 5,42
13 17,8 12,3 10,2 9,07 8,35 7,86 7,49 7,21 6,98 6,80 6,23 5,93 5,62 5,37 5,17 5,07 5,01 4,97
14 17,1 11,8 9,73 8,62 7,92 7,43 7,08 6,80 6,58 6,40 5,85 5,56 5,25 5,00 4,80 4,70 4,64 4,60
15 16,6 11,3 9,34 8,25 7,57 7,09 6,74 6,47 6,26 6,08 5,53 5,25 4,95 4,70 4,51 4,41 4,35 4,31
16 16,1 11,0 9,00 7,94 7,27 6,81 6,46 6,19 5,98 5,81 5,27 4,99 4,70 4,45 4,26 4,16 4,10 4,06
17 15,7 10,7 8,73 7,68 7,02 6,56 6,22 5,96 5,75 5,58 5,05 4,78 4,48 4,24 4,05 3,95 3,89 3,85
18 15,4 10,4 8,49 7,46 6,81 6,35 6,02 5,76 5,56 5,39 4,87 4,59 4,30 4,06 3,87 3,77 3,71 3,67
19 15,1 10,2 8,28 7,26 6,61 6,18 5,84 5,59 5,39 5,22 4,70 4,43 4,14 3,90 3,71 3,61 3,55 3,51
20 14,8 9,95 8,10 7,10 6,46 6,02 5,69 5,44 5,24 5,08 4,56 4,29 4,01 3,77 3,58 3,48 3,42 3,38
22 14,4 9,61 7,80 6,81 6,19 5,76 5,44 5,19 4,99 4,83 4,32 4,06 3,77 3,53 3,34 3,25 3,19 3,15
24 14,0 9,34 7,55 6,59 5,98 5,55 5,23 4,99 4,80 4,64 4,14 3,87 3,59 3,35 3,16 3,07 3,01 2,97
26 13,7 9,12 7,36 6,41 5,80 5,38 5,07 4,83 4,64 4,48 3,99 3,72 3,45 3,20 3,01 2,92 2,86 2,82
28 13,5 8,93 7,19 6,25 5,66 5,24 4,93 4,69 4,50 4,35 3,86 3,60 3,32 3,08 2,89 2,79 2,73 2,70
30 13,3 8,77 7,05 6,12 5,53 5,12 4,82 4,58 4,39 4,24 3,75 3,49 3,22 2,98 2,79 2,69 2,63 2,59
50 12,2 7,95 6,34 5,46 4,90 4,51 4,22 4,00 3,82 3,67 3,20 2,95 2,68 2,44 2,24 2,14 2,07 2,03
100 11,5 7,41 5,85 5,01 4,48 4,11 3,83 3,61 3,44 3,30 2,84 2,59 2,32 2,07 1,87 1,75 1,68 1,62
200 11,2 7,15 5,64 4,81 4,29 3,92 3,65 3,43 3,26 3,12 2,67 2,42 2,15 1,90 1,68 1,55 1,46 1,39
500 11,0 7,01 5,51 4,69 4,18 3,82 3,54 3,33 3,16 3,02 2,58 2,33 2,05 1,80 1,57 1,43 1,32 1,23
10,8 6,91 5,42 4,62 4,10 3,74 3,47 3,27 3,10 2,96 2,51 2,27 1,99 1,73 1,49 1,34 1,21 1,00
LOI DE FISHER
P(F<=z) = 0,9995
K1
K 50 100 200 500
1 2 3 4 5 6 7 8 9 10 15 20 30
2
2 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000
3 266 237 225 218 214 211 209 208 207 206 203 201 199 198 197 197 196 196
4 106 87,4 80,1 76,1 73,6 71,9 70,6 69,7 68,9 68,3 66,5 65,5 64,6 63,8 63,2 62,9 62,7 62,6
5 63,6 49,8 44,4 41,5 39,7 38,5 37,6 36,9 36,4 35,9 34,6 33,9 33,1 32,5 32,1 31,8 31,7 31,6
6 46,1 34,8 30,4 28,1 26,6 25,6 24,9 24,3 23,9 23,5 22,4 21,9 21,4 20,9 20,5 20,3 20,2 20,1
7 37,0 27,2 23,5 21,4 20,2 19,3 18,7 18,2 17,8 17,5 16,5 16,0 15,5 15,1 14,7 14,6 14,5 14,4
8 31,6 22,8 19,4 17,6 16,4 15,7 15,1 14,6 14,3 14,0 13,1 12,7 12,2 11,8 11,6 11,4 11,4 11,3
9 28,0 19,9 16,8 15,1 14,1 13,3 12,8 12,4 12,1 11,8 11,0 10,6 10,2 9,80 9,53 9,40 9,32 9,26
10 25,5 17,9 15,0 13,4 12,4 11,8 11,3 10,9 10,6 10,3 9,56 9,16 8,75 8,42 8,16 8,04 7,96 7,90
11 23,6 16,4 13,6 12,2 11,2 10,6 10,1 9,76 9,48 9,24 8,52 8,14 7,75 7,43 7,18 7,06 6,98 6,93
12 22,2 15,3 12,7 11,2 10,4 9,74 9,28 8,94 8,66 8,43 7,74 7,37 7,00 6,68 6,45 6,33 6,25 6,20
13 21,1 14,4 11,9 10,5 9,66 9,07 8,63 8,29 8,03 7,81 7,13 6,78 6,42 6,11 5,88 5,76 5,69 5,64
14 20,2 13,7 11,3 9,95 9,11 8,53 8,11 7,78 7,52 7,31 6,65 6,31 5,95 5,66 5,43 5,31 5,24 5,19
15 19,5 13,2 10,8 9,48 8,66 8,10 7,68 7,36 7,11 6,91 6,27 5,93 5,58 5,29 5,06 4,94 4,87 4,83
16 18,9 12,7 10,3 9,08 8,29 7,74 7,33 7,02 6,77 6,57 5,94 5,61 5,27 4,98 4,76 4,64 4,57 4,52
17 18,4 12,3 9,99 8,75 7,98 7,44 7,04 6,73 6,49 6,29 5,67 5,34 5,01 4,72 4,50 4,39 4,32 4,27
18 17,9 11,9 9,69 8,47 7,71 7,18 6,78 6,48 6,24 6,05 5,44 5,12 4,78 4,50 4,28 4,17 4,10 4,06
19 17,5 11,6 9,42 8,23 7,48 6,95 6,57 6,27 6,03 5,84 5,25 4,92 4,59 4,31 4,09 3,98 3,91 3,87
20 17,2 11,4 9,20 8,02 7,28 6,76 6,38 6,08 5,85 5,66 5,07 4,75 4,42 4,15 3,93 3,82 3,75 3,70
22 16,6 11,0 8,82 7,67 6,94 6,44 6,07 5,78 5,55 5,36 4,79 4,47 4,15 3,88 3,66 3,55 3,48 3,44
24 16,2 10,6 8,52 7,39 6,68 6,18 5,82 5,54 5,31 5,13 4,55 4,25 3,93 3,66 3,44 3,33 3,27 3,22
26 15,8 10,3 8,27 7,16 6,46 5,98 5,62 5,34 5,12 4,94 4,37 4,07 3,75 3,48 3,27 3,16 3,09 3,04
28 15,5 10,1 8,07 6,98 6,28 5,80 5,45 5,18 4,96 4,78 4,22 3,92 3,61 3,34 3,13 3,01 2,95 2,90
30 15,2 9,90 7,90 6,82 6,14 5,66 5,31 5,04 4,82 4,65 4,10 3,80 3,48 3,22 3,00 2,89 2,82 2,78
50 13,9 8,88 7,01 6,01 5,37 4,93 4,60 4,34 4,14 3,98 3,45 3,16 2,86 2,59 2,37 2,25 2,17 2,13
100 13,0 8,21 6,43 5,47 4,87 4,44 4,13 3,89 3,70 3,54 3,03 2,75 2,44 2,18 1,95 1,82 1,74 1,67
200 12,5 7,90 6,16 5,23 4,64 4,23 3,92 3,68 3,49 3,34 2,83 2,56 2,25 1,98 1,74 1,60 1,50 1,42
500 12,3 7,72 6,01 5,09 4,51 4,10 3,80 3,56 3,36 3,21 2,72 2,45 2,14 1,87 1,61 1,46 1,34 1,24
12,1 7,60 5,91 5,00 4,42 4,02 3,72 3,48 3,30 3,14 2,65 2,37 2,07 1,79 1,53 1,36 1,22 1,00
Statistiques décisionnelles.
BIBLIOGRAPHIE
259
Statistiques décisionnelles.
260