Académique Documents
Professionnel Documents
Culture Documents
Statistiques Inférentielles - 2
Statistiques Inférentielles - 2
STATISTIQUES
INFERENTIELLES
COURS DETAILLES ET EXERCICES
SAINT-DANICK KOUEKEU
ECOLE SUPERIEURE DE GESTION
Statistiques inférentielles
Page 1 sur 52
Chapitre 1 : Concepts de la théorie de l’échantillonnage
Le but de l’inférence est de généraliser les résultats obtenus auprès d’un échantillon pour décrire
la population. Plus précisément, les paramètres de l’échantillon sont utilisés pour estimer les
paramètres de la population.
1.3. Notations
Coût et complexité.
Il s’avère souvent moins coûteux et moins complexe de prendre un échantillon que d’étudier
l’ensemble de la population.
Exemple : mise sur le marché d’un nouveau produit.
Précision des résultats échantillonnaux
Les résultats de petits échantillons fournissent parfois toute l’information
nécessaire. Exemple : une prise de sang.
Situations paradoxales
Lorsque la mesure a un impact sur l’unité d’observation, il peut être paradoxal de tester
toutes les unités.
Exemple : tester la durée de fonctionnement des ampoules électriques.
Population fluctuante
La population peut changer le temps que se déroule l’observation.
Exemple : le recensement général de la population
Page 3 sur 52
Leçon 2 : Les différentes étapes d’une enquête
Objectif de la leçon : Découvrir les étapes d’une enquête. Replacer l’échantillonnage dans le contexte
d’une enquête.
2.1. Rappels
Page 4 sur 52
2.2.3 Tirage de l’échantillon (sélectionner les individus dans la base de sondage)
Il s’agit de sélectionner l’échantillon qui sera interrogé. Plusieurs plans de sondages sont possibles (Cf.
leçon suivante).
2.2.4 Le questionnaire
2.2.4.1 Quatre thèmes sont généralement abordés dans les enquêtes marketing
Identité
Comportement (notoriété, possession, achat, usage du produit)
Motifs : découvrir les raisons de son comportement
Besoins et attentes
Motivations et freins
Attitudes, critères, intentions
Opinions et valeurs
Préférences
Satisfaction / insatisfaction
Image
Valeurs
Style de vie
Introduire le questionnaire
Structurer le questionnaire en thèmes
Utiliser un langage clair, adapté à l’enquêté
Commencer par une question facile
Vérifier que tous les objectifs de départ seront atteints
Anticiper les traitements futurs
Ne pas partir avec des a priori
Ne pas oublier le signalétique
Page 5 sur 52
instructions.
Variables dont les modalités sont ordonnées selon une gradation. Exemple : Très important /
important / peu important / très peu important
Variables quantitatives
Les réponses se présentent sous la forme d’un nombre. Exemple : le revenu, l’âge
Autres
types Code, date,
images…
Page 6 sur 52
Avant d’éditer les premiers résultats
Afin de vérifier les quotas
Afin de vérifier les filtres et renvois
Pour contrôler les taux de réponse
On peut faire des tris par enquêteur pour déceler des problèmes d’administration de
l’enquête (ex : taux de non réponse trop élevé pour un enquêteur)
Le cas échéant, envisager des redressements :
Calcul des poids
Réaffectation aux individus
L’estimation consiste à extrapoler les résultats de l’échantillon à l’ensemble de la population
Le tri à plat
On appelle tableau à plat la répartition des observations pour une variable (question)
Pour les variables quantitatives, il est possible :
De calculer la moyenne (et son écart‐type) sur l’ensemble de la population,
De créer à partir de cette variable une variable qualitative (la mettre en classe).
L’édition des tris à plat de l’ensemble des questions pour tous les individus est utilisée :
Page 7 sur 52
Les tris croisés
On appelle tris croisés ou tableaux croisés ou encore tableau de contingence la répartition des
observations selon deux questions.
Tris croisés entre variables qualitatives : exemple tris entre la question possédez‐vous une
voiture et le sexe.
Tableau de moyennes
Page 8 sur 52
Les analyses Factorielles
Leur but est de représenter un grand nombre de variables dans un espace de faible dimension grâce à
l’existence de corrélation entre certaines variables.
2.2. Conclusion
C’est après un effort de synthèse et de simplification que l’étude peut déboucher sur l’aide à la
décision.
Il faut donc sélectionner les informations les plus sûres au regard de la méthode et les plus utiles
pour l’action.
Les concepts de l’échantillonnage vont donc intervenir dans l’étape n°3 (Construction de
l’échantillon) et dans l’étape 7 (Contrôle et redressement).
Définition : un échantillon est dit aléatoire lorsque la probabilité de sélection de chaque individu de
la population est connue et non nulle.
Page 9 sur 52
Avantage : il permet de juger objectivement de la valeur des estimations.
Aléatoire simple,
Stratifié,
Par grappes.
Dans certains cas, l’équiprobabilité n’est pas respectée volontairement (cas de l’aléatoire pondéré,
stratifié avec allocation non proportionnelle).
‐ Tous les échantillons possibles (de même taille) ont la même probabilité d’être choisis.
‐ Tous les éléments de la population ont une chance égale de faire partie de l’échantillon. Pour
choisir les unités, on peut utiliser la « technique du chapeau », une table de nombres aléatoires,
un tirage aléatoire de numéro de téléphone…
Exemple : dans une classe de 20 personnes, on désire choisir un échantillon aléatoire simple de 5
individus. Le nombre de combinaisons possibles est donné par :
Par conséquent, chaque tirage a une probabilité de 1/15504 d’être choisi et chaque personne doit
avoir une probabilité de 5/20 = ¼ de se retrouver dans l’échantillon.
Définition du cas général : l’échantillonnage stratifié est une méthode qui consiste d’abord à
subdiviser la population en groupes homogènes (strates) pour ensuite extraire un échantillon
aléatoire de chaque strate.
Pour estimer les paramètres, les résultats doivent être pondérés par l’importance relative de chaque
strate dans la population.
Exemple : pour estimer les revenus moyens des étudiants/es de Marketing, on prend un échantillon
aléatoire de 10 individus dans chaque formation. Ainsi, on est sûr que l’ensemble des formations sera
couvert, mais y a‐t-il vraiment un rapport entre le revenu et la formation suivie ?
Plusieurs modes de tirage stratifié :
Page 10 sur 52
‐ Avec allocation non proportionnelle.
Exemple : on souhaite étudier la consommation d’eau pour l’année N des clients d’une compagnie de
distribution d’eau. On effectue des strates selon le type de client et l’analyse du fichier client nous en
donne la répartition :
Particulier résidant en appartement (30% des clients),
Particulier résidant en maison individuelle (35%),
Professionnels (25%),
Collectivité territoriale (commune) (10%)
Le nombre total de client étant de 100000, si on utilise un taux de sondage de 0,1%, on interrogera :
30 particuliers résidant en appartement,
35 particuliers résidant en maison individuelle,
25 professionnels,
10 communes.
Définition : l’échantillonnage stratifié avec allocation non proportionnelle est un tirage stratifié dans
lequel le taux de sondage est différent d’une strate à l’autre.
Dans l’exemple précédent, comme les communes et les professionnels ont des consommations plus
élevées et surtout plus variables que les particuliers, on pourrait appliquer le tirage suivant :
Avantage : en donnant plus de poids aux catégories ayant des consommations plus élevées l’erreur
commise sera moindre.
Il sera nécessaire de redresser les résultats totaux pour estimer la consommation globale.
Définition : l’échantillonnage stratifié avec allocation optimale consiste à calculer un taux de sondage
de chaque grappe en fonction de la variance du paramètre.
Dans l’exemple précédent, on pourrait utiliser la consommation en N‐1 et calculer les variances et
consommations moyennes en N‐1 de chaque strate et utiliser ces résultats pour minimiser l’erreur
commise.
Page 11 sur 52
3.1.6. Echantillonnage par grappes
Définition : l'échantillonnage par grappes est une méthode qui consiste à choisir un échantillon
aléatoire d'unités qui sont elles‐mêmes des sous‐ensembles de la population («grappes»).
Cette méthode suppose que les unités de chaque grappe sont représentatives.
Elle possède l'avantage d'être souvent plus économique.
Exemple: la compagnie aérienne « Aircool » souhaite étudier la satisfaction de ses passagers au cours
de leur voyage. Un questionnaire papier doit être administré afin de recueillir les impressions sur le
vol (embarquement, temps d’attente, amabilité, respect des horaires …).
Un sondage aléatoire simple conduirait à interroger :
2 passagers du vol n°76582 Paris/New York du 16/01
1 passager du vol n° 84526 Londres/Moscou du 17/01
1 passager du vol n°52124 Paris/Tokyo du 17/01
L’administration de ce questionnaire aura dans ce cas un coût considérable (et sera même
certainement impossible à réaliser).
Le principe du sondage en grappe consistera à tirer aléatoirement des vols parmi l’ensemble des vols
de la compagnie. Dans ces vols, interroger aléatoirement un grand nombre de passagers (voire tous)
Page 12 sur 52
Définition: un échantillon formé sur la base du jugement est un échantillon formé à partir de
l'opinion d'une ou de plusieurs personnes (unités types) suffisamment éclairées pour identifier les
unités qui représentent adéquatement la population.
Exemple: une commune camerounaise est réputée pour donner les mêmes résultats aux élections
qu’au niveau national.
Avantage: constitue un net avantage lorsque des individus compétents ont une expérience pertinente.
Inconvénient: il est difficile d'évaluer objectivement jusqu'à quel point l'échantillon est représentatif.
Elle consiste à s’assurer de la représentativité de l’échantillon en lui affectant une structure similaire
à celle de la population de base.
On fixe donc quelques caractéristiques dont on connaît la répartition dans la population (souvent le
sexe, la tranche d’âge, la CSP,…). Leur choix dépend de :
Page 13 sur 52
Leçon 4 : Caractéristiques de population et d’échantillon
Les données d’un échantillon (ou d’une population) peuvent être présentées dans deux (voire trois)
types de tableaux.
Exemple : soient les notes (de 0 à 5) obtenues par 10 élèves.
Page 14 sur 52
Tableau de données :
Tableau de fréquences :
Tableau de fréquences :
La même caractéristique sera notée différemment selon qu’elle concerne la population ou l’échantillon.
Page 15 sur 52
4.3. Exercices
Espérance mathématique :
Variance :
Page 16 sur 52
Une entreprise répartit ses commerciaux selon le nombre de clients de leur portefeuille. Elle
obtient le tableau suivant :
Page 17 sur 52
Exercices
Exercice 1
Après la correction d’une épreuve d’examen comportant un grand nombre de candidats, on constate que
les notes ont pour moyenne 12 et pour écart-type 3. On se propose de prélever un échantillon aléatoire
non exhaustif de 100 notes.
1. Quelle est la probabilité d’avoir la moyenne d’un tel échantillon supérieure à 12,5 ?
2. Quelle est la probabilité d’avoir la moyenne d’un tel échantillon comprise entre 12,5 et 12,9 ?
Exercices 2
Un candidat a obtenu 55% des suffrages exprimés à une élection.
1. Quelle est la probabilité d’avoir, dans un échantillon aléatoire non exhaustif de taille n = 100 prélevé
parmi les suffrages exprimés, strictement moins de 50% de voix pour le candidat A ?
2. Même question mais avec n = 2000.
Exercice 3
Une machine fabrique des disques pleins en grande série. On suppose que la variable aléatoire X qui, à
chaque disque tiré au hasard, associe son diamètre suit la loi normale N(µ,σ) où µ = 12,8 mm et σ = 2,1
mm.
1. Quelle loi suit la variable aléatoire X, qui à tout échantillon aléatoire non exhaustif de taille n = 49,
associe la moyenne des diamètres des disques de cet échantillon ?
2. Déterminé un intervalle centré en 12,8 tel que la variable aléatoire prenne ses valeurs dans cet
intervalle avec la probabilité 0,95.
3. On se propose de prélever un échantillon aléatoire non exhaustif de taille n. Déterminer n pour que la
moyenne des diamètres des disques prélevés ne s’écarte pas de 12,8 de plus de 0,2 mm avec une
probabilité de 0,95.
Exercice 4
Une machine automatique fabrique des entretoises destinées à un montage de roulements. La longueur
de ces entretoises doit être comprise, au sens large, entre 37,45 et 37,55 mm. La variable aléatoire X,
qui associe à chaque entretoise sa longueur, est une variable gaussienne de moyenne 37,50 mm.
1. Quel doit être l’écart-type de la variable aléatoire X pour que 998 sur 1000 des pièces fabriquées
soient bonnes ?
2. On prélève un échantillon non exhaustif dans la production. Quel doit être l’effectif de cet échantillon
pour que la moyenne des longueurs des pièces prélevées appartienne à l’intervalle [37,495 ; 37,505]
avec une probabilité de 0,95 ?
Exercice 5 :
Une machine automatique fabrique des pièces.
Page 18 sur 52
1. On choisit au hasard un lot de 10000 pièces et on mesure les longueurs en mm de ces pièces. On
obtient le tableau suivant :
Exercice 6
Une machine est chargée de conditionner des paquets de farine : la masse d’un paquet est une variable
aléatoire qui suit une loi normale d’écart-type constant, σ = 30 et dont la moyenne µ peut être modifiée.
Un paquet est refusé si sa masse est inférieure à 955 gr.
1. Quelle doit être la valeur de la moyenne µ sur laquelle régler la machine, pour que la probabilité
d’accepter un paquet soit égale à 0,99 ?
2. La machine est réglée de telle sorte que µ = 1025. Afin de vérifier le réglage de la machine, on prélève
un échantillon de 20 paquets et on en détermine la masse moyenne x. Déterminer l’intervalle centré en
µ contenant x avec une probabilité 0,95.
Exercice 7
Un avion peut transporter une charge de 4 tonnes. La population des masses des passagers est gaussienne
de moyenne 75 kg et d’écart-type 10 kg. Quel nombre maximum de sièges doit-on prévoir pour équiper
l’avion, si on veut que le risque de surcharge ne dépasse pas 10-6. On donne p (N(0;1)>4,7534)=10-6.
Page 19 sur 52
Chapitre 2 : Estimation
Un paramètre est une caractéristique de la population que l’utilisateur des données est
intéressé à estimer, par exemple, la moyenne, la proportion ou le total de la population.
A partir des données de la population-mères, la théorie d’échantillonnage permet de
déduire des résultats au sujet des échantillons extraits de la population. Le problème de
l’estimation est le problème inverse. En effet, lorsque les paramètres d’une population sont
inconnus on peut s’attacher à les estimer à partir des valeurs (proportion, moyenne, écart-
type, …) d’échantillons représentatifs extraits de cette population-mère.
Du point de vue utilitaire, ce dernier problème est plus important que le problème
contraire, car devant la difficulté de recourir à des recensements, le seul moyen dont dispose
l’économiste ou le gestionnaire pour connaitre les paramètres (proportion, moyenne, écart-type,
…) d’une population réside en l’estimation. Pour estimer les paramètres d’une population à
partir d’échantillons représentatifs, on peut adopter deux attitudes (qui ne sont d’ailleurs pas
exclusives l’une de l’autres) : ou bien on cherche à attribuer au paramètre inconnu une valeur,
la plus raisonnable possible compte tenu des observations, ou bien on cherche à le situer dans
un intervalle ayant une probabilité donnée de recouvrir la valeur inconnue. La valeur unique
choisie s’appelle estimation ponctuelle, alors que l’intervalle s’appelle intervalle de
confiance du paramètre inconnu.
Les estimations calculées à partir d’échantillons différents sont différentes l’une de
l’autre. La distribution d’échantillonnage d’un estimateur est la répartition de toutes les valeurs
différentes que l’estimateur peut avoir pour tous les échantillons possibles du même plan
d’échantillonnage de la population. La stratégie d’échantillonnage détermine donc cette
répartition.
Les estimateurs ont certaines caractéristiques souhaitables. L’estimateur devrait, par exemple,
être non biaisé ou approximativement non biaisé.
Un estimateur n’est pas biaisé si l’estimation moyenne, compte tenu de tous les échantillons
possibles, est équivalente à la valeur réelle du paramètre inconnu.
Par ailleurs, La répartition de l’échantillonnage le plus près possible de la moyenne (c.-à-d. que
l’erreur d’échantillonnage est minime) est une autre caractéristique souhaitable d’un estimateur.
L’erreur d’échantillonnage d’un estimateur est mesurée par sa variance d’échantillonnage
déterminée comme fluctuation de sa moyenne calculée en tenant compte de tous les échantillons
possibles tirés du plan d’échantillonnage.
Un estimateur ayant une variance d’échantillonnage minime est considéré précis où convergent.
Une stratégie d’échantillonnage est plus efficiente qu’un autre si la variance d’échantillonnage
de l’estimateur est plus petit que celle d’une autre stratégie d’échantillonnage.
Page 20 sur 52
1.2. Différence entre estimation ponctuel et estimation par intervalle de
confiance
Notation
Par exemple :
Page 21 sur 52
Supposons qu'une entreprise fabriquant des sifflets veuille connaître la proportion de sifflet
défectueux fabriqués. Nous appellerons 𝑃 cette proportion. Nous remarquons qu'il n'est possible
de connaître cette proportion qu'en faisant souffler dans tous les sifflets fabriqués. Imaginer que
vous fabriquez 50 000 sifflets. Nous devrons donc là nous restreindre à un échantillon. Soit 𝑓 la
proportion de sifflet défectueux observé dans un échantillon de taille 𝑛, alors on estime 𝑃 avec
𝑓.
On montre que :
𝐸(𝑓) = 𝑃 on dit alors que 𝑓 est un estimateur sans biais de 𝑃
𝑃(1−𝑃) 𝑃(1−𝑃)
𝜎(𝑓) = √ or lim 𝜎(𝑓) = lim √ = 0 On dit alors que l’estimateur
𝑛 𝑛→∞ 𝑛→∞ 𝑛
𝑓est convergent
𝑃(1−𝑃)
Alors 𝐸(𝑓) = 𝑃 et 𝜎(𝑓) = √
𝑛
𝒇(𝟏 − 𝒇) 𝒇(𝟏 − 𝒇)
𝑰𝑪 = [𝒇 − 𝒁𝜶 √ ; 𝒇 + 𝒁𝜶 √ ]
𝟐 𝒏 𝟐 𝒏
Page 22 sur 52
𝒇(𝟏 − 𝒇) 𝒇(𝟏 − 𝒇)
𝑃 𝝐 [𝒇 − 𝒁𝜶 √ ; 𝒇 + 𝒁𝜶 √ ]
𝟐 𝒏 𝟐 𝒏
𝑓(1−𝑓)
Dans ce cas, 𝑍𝛼 √ 𝑛
est appelé précision. Si on connaît la précision, on peut
2
𝛼 1+𝛽
Par ailleurs, 𝐹 (𝑍𝛼 ) = 1 − 2 = et cette valeur est lue dans la table statistique inverse de la
2 2
fonction de répartition de la loi normale centrée réduite
NB
𝛼 est appelé seuil ou niveau de signification
𝛽 est appelé seuil ou niveau de confiance
Exemple d’application
Un échantillon de prospects d’une entreprise, classée par segment de marché, a répondu de la
façon suivante à un sondage sur son attitude face à l’odeur d’un nouveau produit.
Bon Mauvais
Gros prospect (GC) 30 45
Petit prospect (PC) 50 62
1. Estimer la proportion des clients favorables au produit dans le segment GC
2. Donner une estimation de la proportion des prospects favorables au produit
3. A un niveau de confiance de 95% déterminer l’intervalle de confiance la proportion des
clients favorables au produit du segment GC.
Solution
1. Estimation de la proportion des clients favorables au produit dans le segment GC
30
𝑓 = 75 = 0,4
Page 23 sur 52
3. A un niveau de confiance de 95% déterminer l’intervalle de confiance la proportion des
clients favorables au produit du segment GC.
𝛼 = 5% 𝑐 ′ 𝑒𝑠𝑡à 𝑑𝑖𝑟𝑒 𝛽 = 1 − 𝛼 = 95% alors 𝑍𝛼 = 1,96
2
0.4(1−0,4) 0.4(1−0,4)
𝐼𝐶 = [0,4 − 1,96√ ; 0,4 + 1,96√ ]
75 75
𝐼𝐶 = [0,28 ; 0,51]
Il y’a 95% de chance que la proportion des clients favorable au produit soit dans cet intervalle
de confiance.
𝐼𝐶 = [0,28 ; 0,51]
Position du problème
Considérons une population statistique de 4 fournisseurs proposants chacun les prix
x x1 , x2 , x3 , x4
X i
échantillonnage X x1; x2 ; x3 ; x4 ; x5 ; x6 . Il est logique que le prix moyen X i 1
donné par
6
6
x 1
cette distribution des moyennes sera aussi égale à i 1
Page 24 sur 52
dans la population qui est le paramètre inconnue. Un estimateur sans biais de 𝑚 est 𝑋̅ tel que
n
x i
X i 1
n
Caractéristique de l’estimateur
On montre que :
𝐸(𝑋̅ ) = 𝑚 on dit alors que 𝑋̅ est un estimateur sans biais de 𝑚
𝜎 𝜎
𝜎(𝑋̅ ) = 𝑛 or lim 𝜎(𝑓) = lim 𝑛 = 0 On dit alors que l’estimateur 𝑋̅est
√ 𝑛→∞ 𝑛→∞ √
convergent de 𝑚
X
Sachant que X N ( , ) alors la statistique Z N (0,1)
n / n
Au seuil de confiance de 1- p
z Z z 1
2 2
X
p z z 1 p X z / n X z / n 1
2 / n 2 2 2
Alors l’intervalle de confiance est donné par :
𝝈 𝝈
̅ − 𝒁𝜶
𝑰𝑪 = [𝑿 ̅ + 𝒁𝜶
; 𝑿 ]
𝟐 √𝒏 𝟐 √𝒏
𝝈
Dans ce cas, 𝒁𝜶 est appelé précision. Si on connaît la précision, on peut
𝟐 √𝒏
l’utiliser pour le calcul de la taille de l’échantillon n.
Les valeurs de 𝑍𝛼 sont lues dans la table statistique inverse de la fonction de répartition de la loi
2
normale centrée réduite. Mais :
Si 𝛼 = 5% 𝑐 ′ 𝑒𝑠𝑡à 𝑑𝑖𝑟𝑒 𝛽 = 1 − 𝛼 = 95% alors 𝑍𝛼 = 1,96
2
Si 𝛼 = 10% 𝑐 ′ 𝑒𝑠𝑡à 𝑑𝑖𝑟𝑒 𝛽 = 1 − 𝛼 = 90% alors 𝑍𝛼 = 1,6499
2
Page 25 sur 52
Si 𝛼 = 1% 𝑐 ′ 𝑒𝑠𝑡à 𝑑𝑖𝑟𝑒 𝛽 = 1 − 𝛼 = 99% alors 𝑍𝛼 = 2,58
2
n 2
On le remplace par son estimateur sans biais s ' s
n 1
X X X
La statistique T sdt ((n 1)ddl )
n 2 n 2 s / n 1
s / n s /n
n 1 n 1
Au seuil de confiance de 1- p t (n 1)ddl T t (n 1)ddl 1
2 2
X
p t (n 1) t (n 1) 1 p X tn1s / n 1 X tn1s / n 1 1
2 s / n 1 2 2 2
X
p z z 1 p X z / n X z / n 1
2 / n 2 2 2
Alors l’intervalle de confiance est donné par :
𝝈 𝝈
̅ − 𝒁𝜶
𝑰𝑪 = [𝑿 ̅ + 𝒁𝜶
; 𝑿 ]
𝟐 √𝒏 𝟐 √𝒏
𝝈
Dans ce cas, 𝒁𝜶 est appelé précision. Si on connaît la précision, on peut
𝟐 √𝒏
l’utiliser pour le calcul de la taille de l’échantillon n.
. Cas ou 𝝈 est inconnu
X
p t (n 1) t (n 1) 1 p X tn1s / n 1 X tn1s / n 1 1
2 s / n 1 2 2 2
Page 26 sur 52
𝑺
𝒁𝜶 est appelé précision
𝟐 √𝒏−𝟏
Exemple d’application
Une entreprise voudrait savoir quel est la moyenne des prix pour un certains produit de
consommation intermédiaire nommé MZ23. Ne pouvant mener l’enquête auprès de tous les
fournisseurs de la ville, on se résume à l’affichage des prix auprès de 5 fournisseurs et on obtient
le tableau de données suivant :
Fournisseur 1 1 2 3 4 5
Prix 5000 4678 10 000 12 000 6000
Déterminer à un niveau de confiance de 95% dans quelle plage de prix cette moyenne devrait
être située.
Résolution
La taille n=5<30 l’écart type des prix dans la population des fournisseurs est inconnu.
1 95%
Ainsi, on voudrait que
𝑺 𝑺
̅ − 𝒕𝜶 (𝒏 − 𝟏)
𝑰𝑪 = [𝑿 ̅ + 𝒕𝜶 (𝒏 − 𝟏)
; 𝑿 ]
𝟐 √𝒏−𝟏 𝟐 √𝒏−𝟏
𝑺 𝑺
̅ − 𝒕𝜶 (𝒏 − 𝟏)
Alors 𝒎 ∈ [𝑿 ̅ + 𝒕𝜶 (𝒏 − 𝟏)
; 𝑿 ]
𝟐 √𝒏−𝟏 𝟐 √𝒏−𝟏
𝒏=𝟓
𝒅𝒅𝒍 = 𝒏 − 𝟏 = 𝟓 − 𝟏 = 𝟒
𝜶 = 𝟓% alors 𝒕𝜶 (𝟒) = 𝟐, 𝟕𝟕𝟔. On lit cette valeur dans la table de la loi de student
𝟐
( x x) i
2
S 4940, 04
S i 1
24404086, 68 4940, 04 2470, 02
4 n 1 4
𝑺 𝑺
̅ − 𝒕𝜶 (𝒏 − 𝟏)
𝒎 ∈ [𝑿 ̅ + 𝒕𝜶 (𝒏 − 𝟏)
; 𝑿 ]
𝟐 √𝒏−𝟏 𝟐 √𝒏−𝟏
𝟒𝟗𝟒𝟎,𝟎𝟒 𝟒𝟗𝟒𝟎,𝟎𝟒
C’est-à-dire 𝒎 ∈ [𝟕𝟓𝟑𝟓, 𝟔 − 𝟐, 𝟕𝟕𝟔 ∗ ; 𝟕𝟓𝟑𝟓, 𝟔 + 𝟐, 𝟕𝟕𝟔 ∗ ]
√𝟒 √𝟒
Page 27 sur 52
RECAPIULATIF SUR LES ESTIMATIONS
Estimation d’une proportion
Estimation par interval de confiance Estimation ponctuelle
𝒏 𝒏
̅ = ∑𝒊=𝟏 𝑿𝒊
𝑿 ou ̅ = ∑𝒊=𝟏 𝒏𝒊𝑿𝒊
𝑿 ou ̅ = ∑𝒏𝒊=𝟏 𝒇𝒊 𝑿𝒊
𝑿
𝒏 𝒏
Estimation par interval de confiance
𝒏 ≥ 𝟑𝟎 𝒏 < 𝟑𝟎
𝝈 𝝈 𝝈 𝝈
𝝈 𝒄𝒐𝒏𝒏𝒖 ̅ − 𝒁𝜶
𝑰𝑪 = [𝑿 ̅ + 𝒁𝜶
, 𝑿 ] ̅ − 𝒁𝜶
𝑰𝑪 = [𝑿 ̅ + 𝒁𝜶
, 𝑿 ]
𝟐 √𝒏 𝟐 √𝒏 𝟐 √𝒏 𝟐 √𝒏
𝑺 𝑺 𝑺 𝑺
𝝈 𝒊𝒏𝒄𝒐𝒏𝒏𝒖 ̅ − 𝒁𝜶
𝑰𝑪 = [𝑿 ̅ + 𝒁𝜶
, 𝑿 ] ̅ − 𝒕(𝒏−𝟏)
𝑰𝑪 = [𝑿 𝜶 ̅ + 𝒕(𝒏−𝟏)
, 𝑿 𝜶 ]
𝟐 √𝒏 − 𝟏 𝟐 √𝒏 − 𝟏 𝟐 √𝒏 − 𝟏 𝟐 √𝒏 − 𝟏
(𝒏−𝟏)
⚫ 𝒕𝜶 se lit 𝒕𝜶 à (𝒏 − 𝟏) degré de liberté. 𝒕𝜶 est une variable de student et 𝒕𝜶 se lit dans la table de a loi de student.
𝟐 𝟐 𝟐 𝟐
⚫ Les valeurs de 𝒁𝜶 sont lues dans la table statistique inverse de la c répartition de la loi normale centrée réduite.
𝟐
⚫ 𝜶 est le risque d’erreur de se tromper tandis que 𝟏 − 𝜶 est le niveau de confiance.
Exercices
Exercice 1
Pour déterminer l’âge moyen de ses clients, une grande entreprise de confection pour hommes
prélève un échantillon aléatoire de 50 clients et trouve un âge moyen de 36 ans.
On suppose que la variance de la population est égale à 144 et que l’âge des clients suit une
loi normale.
1. Donner une estimation de m par intervalle de confiance, au seuil de risque 5 %
.2. Donner une estimation de m par intervalle de confiance, au seuil de risque 10 %
3. Donner une estimation de m par intervalle de confiance, au seuil de risque 1 %
4. Donner une estimation de m par intervalle de confiance, au seuil de risque 3 %
Exercice 2
Le nombre d’heures de sommeil par nuit des Camerounais varie considérablement. On dispose
d’un échantillon de taille 25. (On considérera que l’échantillon est issu d’une population
normale)
7,6 6,2 10,6 6,8 3,3 7,3 5,9 8,4 7,8 8,1 7,2 5,1 7,9 7,4 8,2 6,7 8,9 6,5 6,9 5,9 8,2
7,2 3,8 4,7 8,1
On donne ∑ 𝑥𝑖 = 174,7 ; ∑ 𝑥²𝑖 = 1283,05
1. Donner une estimation de m par intervalle de confiance au niveau de 0,95 %
2. Donner une estimation de m par intervalle de confiance au niveau de 0,99 %
3. Donner une estimation de m par intervalle de confiance au niveau de 0,98 %
Exercice 3
Une entreprise veut étudier les quantités hebdomadaires vendues d’un produit A. Une étude a
été réalisée sur un ensemble de 100 semaines de ventes. Les résultats de ces observations vous
sont donnés dans le tableau ci-dessous :
Nombre de produits A vendus par semaine Nbre de semaines 𝑛𝑖
De 100 à moins de 120 pdts 8
De 120 à moins de 140 pdts 30
De 140 à moins de 160 pdts 24
De 160 à moins de 180 pdts 22
De 180 à moins de 200 pdts 16
Total 100
On donne ∑ 𝑛𝑖 ∗ 𝑥𝑖 = 15160 ; ∑ 𝑛𝑖 ∗ 𝑥²𝑖 = 2357200
1. Donner une estimation de m par intervalle de confiance, au seuil de risque 5%. Précision : à
l’unité près.
Page 28 sur 52
2. Cette même entreprise veut estimer le paramètre p représentant la proportion de semaines où
elle a vendu plus de 170 articles A. Donner une estimation de p par intervalle de confiance, au
seuil de risque % 4, à partir du même échantillon que l’exercice précédent. Précision finale :
10−3 près
Exercice 4 : cas Boites
A la réception des colis, un responsable doute de l’exactitude des masses affichées sur les
boîtes. Il prélève, au hasard, 25 boîtes qu’il pèse.
Il obtient : ∑ 𝑥𝑖 = 4309 ; ∑ 𝑥²𝑖 = 1092341
On supposera que les masses de la production suivent une loi normale.
1. Donner une estimation ponctuelle de la moyenne de la masse des boîtes de la production.
2. calculer l’intervalle de confiance de ma moyenne des masses de la production pour un seuil
fixé à 5%.
3. sachant que la variance de la production est de 13000, calculer alors l’intervalle de confiance
de ma moyenne des masses de la production pour un seuil fixé à 5%.
4. En supposant que les estimations de la moyenne et de la variance, calculées la 1ère question,
aient été obtenues à partir d’un échantillon de 100 boîtes (et non de 25), déterminer alors
l’intervalle de confiance de la moyenne au seuil de 5%
Exercice 5 : cas Colis
On s’intéresse la proportion de colis détériorés arrivant dans un centre de tri postal. Dans un
échantillon de 80 colis arrivés ce centre de tri, on en a trouvé 12 détériorés.
Déterminer l’intervalle de confiance pour la portion de colis détériorés arrivant au centre de tri
au seuil de confiance de 95%.
Exercice 6 : cas Recensement
Sur 2424 naissances, on a observé 1270 garçons et 1154 filles.
1. donner une estimation ponctuelle du pourcentage de garçons à la naissance dans la population
étudiée, ainsi que l’intervalle de confiance de ce pourcentage pour un seuil fixé 5%, 3 %
2. combien de naissance devrait-on recenser pour connaître le pourcentage de garçons dans la
population étudiée, à ± 0,5% près (avec un seuil de 6%) ?
Exercice 7 : cas CA
On a relevé durant les 12 derniers mois, les chiffres d’affaires journaliers d’un magasin. Le
résultat de ces observations-vous est donné dans le tableau ci-dessous :
Chiffre d’affaire journalier [1000 ; 2000[ [2000 ; 3000[ [3000 ; 4000[ [4000 ; 5000[ [5000 ; 6000[
Nbre de jours 𝑛𝑖 42 82 70 34 16
On veut étudier ici les deux paramètres suivants :
Page 29 sur 52
𝑃 : la proportion de jours où le chiffre d’affaires de ce magasin ne dépasse pas 1600 ce qui
correspond à des jours non rentables.
Exercice 12 :
on donne la répartition des masses de 219 ressorts provenant d’une même fabrication :
Page 30 sur 52
X donnant le poids d’un ressort provenant de cette fabrication donner une estimation de E(X)
et V(X).
Donner pour E(X) un intervalle de confiance au niveau de confiance 95%.
Exercice 13 :
On veut estimer l’espérance mathématique m d’une variable aléatoire gaussienne X dont on
connaît l’écart-type σ = 2,3. Quelle est la taille minimum de l’échantillon de X qui est à prendre
si l’on veut obtenir pour m un intervalle de confiance de seuil 0,95 et dont la longueur ne
dépasse pas 0,1.
Exercice 14 :
Un confiseur vend des boites de bonbons d’un certain modèle. On note X la masse d’une boite
pleine. Les pesées de 8 boites ont conduit aux masses (en kg) :
1,22 ; 1,23 ; 1,21 ; 1,19 ; 1,23 ; 1,24 ; 1,18 ; 1,21.
1. Donner pour E(X) un intervalle de confiance au risque de 5%.
2. En supposant que la variance de X soit connue et égale à la variance observée, donner pour
E(X) un intervalle de confiance au seuil de confiance 95% et comparer avec le 1).
3. On suppose maintenant que l’on a trouvé la même moyenne et la même variance
qu’observées mais avec 16 observations au lieu de 8 . Reprendre les questions 1) et 2).
Exercice 15
Après avoir pesé 12 pamplemousses d’une même provenance, on donne pour l’espérance
mathématiques m du poids X d’un pamplemousse, l’intervalle de confiance au niveau de
confiance 95% : 390 g = m = 520 g
En déduire la moyenne observée et l’écart-type observée.
Exercice 16
Dans un grand pays démocratique, un quotidien publie la côte du chef de l’état à partir d’un
sondage réalisé auprès de 1000 personnes. Au mois de janvier la côte était de 38% d’opinion
favorables, en février 36%. Et le journaliste de commenter « le chef de l’état perd 2 points ! ».
Commenter ce commentaire...
Page 31 sur 52
Chapitre 3 : Test d’hypothèse
Nous allons nous limiter aux tests de conformité ou au test de comparaison à un standard
Un test statistique est un mécanisme visant à trancher entre deux hypothèses à partir de
résultats observés sur un ou plusieurs échantillon(s). Par exemple concernant l’exercice sur
l’estimation de la moyenne : peut-on dire que 𝑚 = 7535,6 ? On formule une hypothèse de
départ, appelée hypothèse nulle et souvent notée (H0) et il s’agit de décider si on rejette ou non
cette hypothèse par opposition à un contre hypothèse appelée hypothèse alternative et souvent
notée (H1)
On ne pourra jamais conclure avec certitude dans un test statistique. Il y
aura toujours des erreurs de décision. Pour effectuer le test statistique, il faudra
choisir un certain risque d’erreur qui est la probabilité de se tromper en prenant
la décision retenue. Il existe deux types d’erreurs :
• On appelle erreur de première espèce ou erreur de type I, notée α, la probabilité de rejeter
(H0) alors qu’elle est vraie. α est aussi appelé niveau ou seuil de signification.
• On appelle erreur de deuxième espèce ou erreur de type II, notée β, la probabilité d’accepter
(H0) alors qu’elle est fausse.
• on appelle puissance du test pour (H1) la probabilité de retenir (H1) alors qu’elle est vraie (=
1 − β).
Il y’a donc quatre situations possibles qui peuvent se résumer dans le tableau suivant
Décisions D0 : accepter H0 D1 : accepter H1
hypothèses
H0 est vraie Pas d’erreur Erreur de première espèce 𝛼
H1 est vraie Erreur de deuxième espèce 𝛽 Pas d’erreur
Page 32 sur 52
On choisit en général le risque de type I, α. Très souvent, α varie entre 1% et 10%¨
On détermine la variable de décision Z (encore appelé statistique du test) dont on connait
la loi si (H0) est vraie.
On calcul la région critique ou zone d’acceptation 𝑍 𝑎 qui est l’ensemble des valeurs de
Z qui conduiront à l’acceptation de l’hypothèse (H0). Ainsi, si α est fixé, 𝑍 𝑎 est
déterminé.
On calcul la valeur de Z à partir de l’observation de l’´échantillon.
Conclusion du test : acceptation ou rejet de (H0) selon que la valeur de Z calculée à
partir de l’échantillon est ou non dans la région d’acceptation.
𝐻0: 𝜃 = 𝜃0
{
𝐻1: 𝜃 ≠ 𝜃0
C’est l’hypothèse alternative 𝐻1 qui permet de définir le type du test
Le test unilatéral à droite
𝐻0: 𝜃 = 𝜃0
{
𝐻1: 𝜃 > 𝜃0
Le test unilatéral à gauche
𝐻0: 𝜃 = 𝜃0
{
𝐻1: 𝜃 < 𝜃0
Dans tous les cas, la statistique du test est l’estimateur de 𝜃 ou une fonction simple de celui-ci
Les tests bilatéraux
𝐻0: 𝜃 = 𝜃0
{
𝐻1: 𝜃 ≠ 𝜃0
La Région d’acceptation de l’hypothèse 𝐻0 est l’intervalle de confiance [z1, z2].
Page 33 sur 52
𝐻0: 𝜃 = 𝜃0
{
𝐻1: 𝜃 < 𝜃0
La Région d’acceptation de l’hypothèse 𝐻0 est z;
Donc on rejette H0 si la statistique du test Z z
Nous allons nous focaliser sur les tests sur les proportions et sur les tests sur les moyennes et
sur les tests sur les variances
Les tests sur les proportions sont soient les tests de conformité ou les tests de comparaison
Il s’agit de vérifier la conformité d’une proportion à une valeur donnée. Ce test est étroitement
lié à l’estimation des proportions précédemment vu.
a. Principe
On part du principe selon lequel
Le paramètre 𝑃 est inconnu sur la population mère.
Une étude est faite sur un échantillon empirique et on détermine alors la proportion
empirique notée 𝑓0
On travaille avec des échantillons dont la taille est supérieure à 30 (𝑛 > 30)
On fixe un standard ou une norme noté 𝑃𝑜
L’hypothèse nulle est toujours définie par 𝐻0 : 𝑃 = 𝑃𝑜 , c’est-à-dire le paramètre 𝑃 prend
une certaine valeur fixée 𝑃𝑜 .
Le problème est alors de vérifier l’hypothèse alternative 𝐻1 . Cette hypothèse peut prendre trois
formes
𝐻1 : 𝑃 ≠ 𝑃𝑜 𝑡𝑒𝑠𝑡 𝑏𝑖𝑙𝑎𝑡é𝑟𝑎𝑙
{ 𝐻1 : 𝑃 > 𝑃𝑜 𝑡𝑒𝑠𝑡 𝑢𝑛𝑖𝑙𝑎𝑡é𝑟𝑎𝑙 à 𝑑𝑟𝑜𝑖𝑡𝑒 𝑜𝑢 𝑠𝑢𝑝é𝑟𝑖𝑒𝑢𝑟
𝐻1 : 𝑃 < 𝑃𝑜 𝑡𝑒𝑠𝑡 𝑢𝑛𝑖𝑙𝑎𝑡é𝑟𝑎𝑙 à 𝑔𝑎𝑢𝑐ℎ𝑒 𝑜𝑢 𝑖𝑛𝑓é𝑟𝑖𝑒𝑢𝑟
Page 34 sur 52
L’hypothèse nulle sera toujours 𝐻0 : 𝑃 = 𝑃𝑜 ,. C’est l’énoncé de l’exercice qui permet de
déterminer la valeur standard de la norme 𝑃𝑜 .
L’hypothèse alternative 𝐻1 peut alors prendre trois formes
𝐻1 : 𝑃 ≠ 𝑃𝑜 𝑡𝑒𝑠𝑡 𝑏𝑖𝑙𝑎𝑡é𝑟𝑎𝑙
{ 𝐻1 : 𝑃 > 𝑃𝑜 𝑡𝑒𝑠𝑡 𝑢𝑛𝑖𝑙𝑎𝑡é𝑟𝑎𝑙 à 𝑑𝑟𝑜𝑖𝑡𝑒 𝑜𝑢 𝑠𝑢𝑝é𝑟𝑖𝑒𝑢𝑟
𝐻1 : 𝑃 < 𝑃𝑜 𝑡𝑒𝑠𝑡 𝑢𝑛𝑖𝑙𝑎𝑡é𝑟𝑎𝑙 à 𝑔𝑎𝑢𝑐ℎ𝑒 𝑜𝑢 𝑖𝑛𝑓é𝑟𝑖𝑒𝑢𝑟
Etape 4 : conclusion
Page 35 sur 52
𝑃𝑜 (𝟏−𝑃𝑜 ) 𝑃𝑜 (𝟏−𝑃𝑜 )
𝑍 𝑎 = [𝑃𝑜 − 𝒁𝜶 √ 𝒏
; 𝑃𝑜 + 𝒁𝜶 √ 𝒏
]
𝟐 𝟐
𝜶 𝟎,𝟎𝟓
𝜶 = 𝟓% 𝑭 (𝒁𝜶 ) = 𝟏 − 𝟐 = 𝟏 − 𝟐
= 𝟎, 𝟗𝟕𝟓 alors une lecture dans la table nous donne 𝒁𝜶 = 𝟏, 𝟗𝟔
𝟐 𝟐
𝑃𝑜 = 0,6 alors
0,6(𝟏−0,6) 0,6(𝟏−0,6)
𝑍 𝑎 = [0,6 − 𝟏, 𝟗𝟔√ 𝟑𝟓
; 0,6 + 𝟏, 𝟗𝟔√ 𝟑𝟓
]
𝑍 𝑎 = [0,4377 ; 0,7623]
Règle de décision
𝑓 = 0,565 ∈ 𝑍𝑎 alors, on accepte H0
Conclusion
A un niveau de signification de 5%, il est probable que la proportion des étudiants satisfait soit
égale à 60%.
2. La proportion est-elle inf à 0,6 ?
H 0 : p 0,6 la proportion des clients satisfaits est égale à 60%
H1 : p 0,6la proportion des clients satisfaits est inf à 60%
𝑃𝑜 = 0,6 alors
0,6(𝟏−0,6)
𝑍 𝑎 = [0,6 − 𝟏, 𝟔𝟒𝟓√ 𝟑𝟓
; +∞[
𝑍 𝑎 = [0,4638 ; +∞]
Règle de décision
𝑓 = 0,565 ∈ 𝑍𝑎 alors, on accepte H0
Conclusion
A un niveau de signification de 5%, il est probable que la proportion des étudiants satisfait ne
soit pas inférieure à 60%.
3. La proportion est-elle sup à 0,6 ?
H 0 : p 0,6 la proportion des clients satisfaits est égale à 60%
H1 : p 0,6la proportion des clients satisfaits est sup à 60%
Page 36 sur 52
Détermination de la zone d’acceptabilité 𝒁𝒂 de 𝑯𝟎
𝑃𝑜 = 0,6 alors
0,6(𝟏−0,6)
𝑍 𝑎 = [−∞ ; 0,6 + 𝟏, 𝟔𝟒𝟓√ 𝟑𝟓
[
𝑍 𝑎 = [ −∞ ; 0,7362]
Règle de décision
𝑓 = 0,565 ∈ 𝑍𝑎 alors, on accepte H0
Conclusion
A un niveau de signification de 5%, il est probable que la proportion des étudiants satisfait ne
soit pas supérieure à 60%.
Position du problème :
Soit p1 (respectivement p2) la proportion d'individus d'une certaine modalité A dans la
population mère M1 (resp. M2). On extrait un échantillon de taille n1 (resp. n2) dans la
population M1 (resp M2)On teste à partir de ces échantillons, on dispose d'une estimation f1
(resp. f2) de p1 (resp. p2) qui suit une loi F1 (resp. F2).
Hypothese du test
H 0 : p1 p2 H 0 : p1 p2 H 0 : p1 p2
ou ou
H1 : p1 p2 H1 : p1 p2 H1 : p1 p2
Statistique du test
f1 f 2
z N 0,1
^ ^
1 1
p(1 p)( n n )
1 2
Décision Zone de rejet W= ; z z ;
2 2
Exemple
Page 37 sur 52
On étudie la part de marché du savon étoile dans 2 régions du Cameroun, le Nord et le Littoral.
On prélève un échantillon aléatoire de 1000 personnes au Nord. 900 disent consommer le savon.
On prélève aléatoirement 1500 personnes au Littoral et 615 personnes disent consommer le
savon. Le littoral a-t-il une part du marché plus intéressante ?
Solution
hypothèses
H0 : Les parts de marché se valent p1=p2
H1 : La part du marché dans le Nord est plus faible que la part du marché dans le littoralp1<p2
900 615 ^
1000*0,9 1500*0,51
f1 0,9 ; f1 0,51 ; p 0, 66
1000 1500 2500
0,9 0,56
z 17,89
1 1
0, 66(1 0, 66)( )
1000 1500
Les tests sur les moyennes sont les tests de conformité ou les tests d’ajustement à un standard
Il s’agit de vérifier la conformité d’une Moyenne à une valeur donnée. Ce test est
étroitement lié à l’estimation des moyennes précédemment vu.
a. Principe
On part du principe selon lequel
Le paramètre 𝑚 est inconnu sur la population mère.
Une étude est faite sur un échantillon empirique et on détermine alors la moyenne
empirique notée 𝑋̅
On fixe un standard ou une norme noté 𝑚𝑜
L’hypothèse nulle est toujours définie par 𝐻0 : 𝑚 = 𝑚𝑜 , c’est-à-dire le paramètre m
prend une certaine valeur fixée 𝑚𝑜 .
Le problème est alors de vérifier l’hypothèse alternative 𝐻1 . Cette hypothèse peut prendre trois
formes
𝐻1 : 𝑚 ≠ 𝑚𝑜 𝑡𝑒𝑠𝑡 𝑏𝑖𝑙𝑎𝑡é𝑟𝑎𝑙
{ 𝐻1 : 𝑚 > 𝑚𝑜 𝑡𝑒𝑠𝑡 𝑢𝑛𝑖𝑙𝑎𝑡é𝑟𝑎𝑙 à 𝑑𝑟𝑜𝑖𝑡𝑒 𝑜𝑢 𝑠𝑢𝑝é𝑟𝑖𝑒𝑢𝑟
𝐻1 : 𝑚 < 𝑚𝑜 𝑡𝑒𝑠𝑡 𝑢𝑛𝑖𝑙𝑎𝑡é𝑟𝑎𝑙 à 𝑔𝑎𝑢𝑐ℎ𝑒 𝑜𝑢 𝑖𝑛𝑓é𝑟𝑖𝑒𝑢𝑟
Page 38 sur 52
Ou un niveau de confiance noté 𝛽 = 1 − 𝛼
b. résolution
Comme nous l’avons déjà défini dans le mécanisme, la résolution se fait en trois étapes
Etape 1 : détermination de l’hypothèse nulle et alternative
L’hypothèse nulle sera toujours 𝐻0 : 𝑚 = 𝑚𝑜 , ,. C’est l’énoncé de l’exercice qui permet de
déterminer la valeur standard de la norme 𝑚𝑜 .
L’hypothèse alternative 𝐻1 peut alors prendre trois formes
𝐻1 : 𝑚 ≠ 𝑚𝑜 𝑡𝑒𝑠𝑡 𝑏𝑖𝑙𝑎𝑡é𝑟𝑎𝑙
{ 𝐻1 : 𝑚 > 𝑚𝑜 𝑡𝑒𝑠𝑡 𝑢𝑛𝑖𝑙𝑎𝑡é𝑟𝑎𝑙 à 𝑑𝑟𝑜𝑖𝑡𝑒 𝑜𝑢 𝑠𝑢𝑝é𝑟𝑖𝑒𝑢𝑟
𝐻1 : 𝑚 < 𝑚𝑜 𝑡𝑒𝑠𝑡 𝑢𝑛𝑖𝑙𝑎𝑡é𝑟𝑎𝑙 à 𝑔𝑎𝑢𝑐ℎ𝑒 𝑜𝑢 𝑖𝑛𝑓é𝑟𝑖𝑒𝑢𝑟
Ou
𝑺
𝑍 𝑎 = ]−∞ ; 𝑚𝑜 + 𝒁𝜶 ] si la variance de la population est inconnue et la taille de
√𝒏−𝟏
l’échantillon supérieure à 30 c’est-à-dire 𝒏 > 𝟑𝟎
Ou
𝑺
𝑍 𝑎 = ]−∞ ; 𝑚𝑜 + 𝒕𝜶 (𝒏 − 𝟏) ] si la variance de la population est inconnue et la taille de
√𝒏−𝟏
l’échantillon inférieure à 30 c’est-à-dire 𝒏 < 𝟑𝟎
𝒕𝜶 (𝒏 − 𝟏) est une variable de student à n-1 degré de liberté (ddl)
Page 39 sur 52
𝑺
𝑍 𝑎 = [𝑚𝑜 − 𝒕𝜶 (𝒏 − 𝟏) ; +∞[ si la variance de la population est inconnue et la taille de
√𝒏−𝟏
l’échantillon inférieure à 30 c’est-à-dire 𝒏 < 𝟑𝟎
𝒕𝜶 (𝒏 − 𝟏) est une variable de student à n-1 degré de liberté (ddl)
Etape 4 : conclusion
2.2.2. Exemple d’application
Une entreprise de l’industrie alimentaire spécialisée dans les plats cuisinés individuels utilise un robot
qui verse de la purée dans les barquettes en aluminium.
En principe chaque barquette doit contenir 150 grammes de purée.
Le robot peut se dérégler, on ignore donc le poids moyen réel (noté 𝑚) effectivement versé par
barquette. (on considèrera que l’écart-type est connu : 𝜎 = 15 𝑔𝑟).
L’entreprise veut contrôler régulièrement le bon fonctionnement du robot. Pour cela, chaque
jour à heure fixe, un employé prélève 50 barquettes et détermine sur cet échantillon le poids
moyen de purée par barquette.
On notera 𝑋̅𝑖 la valeur qu’il obtient le jour 𝑖.
Compte tenu des fluctuations d’échantillonnages, 𝑋̅𝑖 peut-être différent de la norme sans que le
robot soit mal réglé. On raisonnera sur la base d’un seuil de risque de 5%
Que dire si l’on obtient : 𝑋̅ = 152,4 𝑔𝑟 ou 𝑋̅ = 145 𝑔𝑟
Résolution
Position du problème
Soient X1 et X2 deux variables aléatoires indépendantes de lois normales de moyennes 1 et
2 , et d'écart types 1 et 2 . On dispose de deux échantillons indépendants chacun de taille n1
et n2
Page 40 sur 52
H 0 : 1 2 H 0 : 1 2 H 0 : 1 2
ou ou
H1 : 1 2 H1 : 1 2 H1 : 1 2
1 2
z N 0;1
s12 s2
2
n1 1 n2 1
zone de rejet W= ; z z ; ou W= ; z ou W= z ;
2 2
2. n1 et n2 sont tous deux inf à 30 avec 1 = 2
1 2
t Std (n1 n2 2)ddl
^
1 1
n1 n2
^ n1S12 n2 S 22
n1 n2 2
zone de rejet W= ; tn1 n2 2 tn1 n2 2 ; ou W= ; tn1 n2 2 ou W= tn1 n2 2 ;
2 2
3. n1 et n2 sont tous deux inf à 30 avec 1 2
2
s12 s22
n 1 n 1
1 2
t Std ( ddl ) 41 2
4
2
s1 s 2 s1 s
2 2 2
n1 1 n2 1 n1 (n1 1) n2 (n2 1)
2
zone de rejet W= ; t t ; ou W= ;t ou W= t ;
2 2
EXEMPLE D’APPLICATION
On désire examiner la performance des commerciaux avant et après leurs formations. La
variable indicatrice est le chiffre d’affaire en quantité mesuré en kg. On prélève avant la
formation 20 commerciaux, on constate que la moyenne des ventes est du 50kg pour une
variance estimée de 360. On prélève après la formation 25 commerciaux et on constate que la
Page 41 sur 52
moyenne des ventes est 46kg pour une variance estimé de 160. Peut-on dire que la formation a
eu un impact considérable sur la performance des commerciaux ?
Solution
Hypothèses :
1 2
34,97 35
s14 s24 3602 1602 18, 75
n12 (n1 1) n22 (n2 1) 202 (20 1) 252 (25 1)
50 46
t 0, 79
360 160
20 1 25 1
Page 42 sur 52
RECAPITULATIF DES TESTS SUR LES PROPORTIONS
Test bilatéral �� � − �� � � � − ��
(�� : � = �� ) �� = �� − �� ; �� + ��
(�� : � ≠ �� ) � � � �
�
�=�=
Test unilatéral à droite �
ou supérieur �� � − ��
�� = −∞ ; �� + ��
(�� : � = �� ) �
(�� : � > �� ) � �−�
�(�) =
�
Test unilatéral à gauche
ou inférieur �� � − ��
�� = �� − �� ;+∞
(�� : � = �� ) �
(�� : � < �� )
Test bilatéral
(��: �� = �� ) �∗ ∈ �� = − �� ; + ��
� �
(��: �� ≠ �� )
�� − ��
�∗ =
� �
Test unilatéral à � �−� +
droite ou supérieur �� ��
�∗ ∈ �� = −∞ ; + ��
(��: �� = �� )
(�� : �� > �� )
�� �� + �� ��
�=
�� + ��
Test unilatéral à
gauche ou inférieur
�∗ ∈ �� = − �� ; + ∞
(��: �� = �� )
(�� : �� < �� )
� � � �
�� = �� − �� ; �� + �� �� = −∞ ; �� + �� �� = �� − �� ; +∞
� � � � � �
� > ��
� � � �
�� = �� − �� ; �� + �� �� = −∞ ; �� + �� �� = �� − �� ; +∞
�−� �−� �−� �−�
� inconnu
� �
� < ��
� � � �
�� = �� − �� (� − �) ; �� + �� (� − �) �� = −∞ ; �� + �� (� − �) �� = �� − �� (� − �) ; +∞
� �−� � �−� �−� �−�
�� et �� se lisent dans la table de la loi normale centrée réduite inverse. �� (� − �) et �� (� − �) sont des variable de student à n-1 degré de liberté (ddl)
� �
2. Règle de décision
Si la proportion empirique notée � ∈ �� , accepter ��
Si la proportion empirique notée � ∉ �� , rejeter ��
Exercices
Page 43 sur 52
A un seuil de risque de 5%, répondre au problème posé en effectuant le test adéquat dont vous
expliciterez les différentes étapes de résolution.
Exercice 5 : cas VOYAGE
Une agence de voyage propose, dans un de ses circuits, la visite d’une exposition sous forme
d’option supplémentaire.
On note p le pourcentage inconnu des clients ayant pris cette option.
En prélevant au hasard 100 fiches de clients parmi ceux qui ont opté pour ce circuit touristique,
on observe que seulement 22 fiches comportent cette option.
1. Tester au seuil de 5% l’hypothèse H0 selon laquelle 25% des clients ayant opté pour le circuit
touristique cité prennent cette option.
2. en déduire alors la probabilité que sur 200 clients ayant opté pour le circuit touristique cité,
plus de 30% choisissent de prendre cette option.
Exercice 6 Cas âge
Une importante compagnie d’assurances a relevé des données concernant l’âge moyen de ses
clients dans deux succursales, l’une établie au Cameroun et l’autre au Gabon.
Deux échantillons aléatoires simples ont été sélectionnés et donnent les résultats suivants :
Succursale C 𝑛𝐶 = 36 𝑋̅𝐶 = 40 𝑎𝑛𝑠
Succursale G 𝑛𝐺 = 49 𝑋̅𝐺 = 35 𝑎𝑛𝑠
On considère que les écarts types des 2 populations sont connus et égaux avec : 𝜎𝐶 = 𝜎𝐺 =
10 𝑎𝑛𝑠
Tester alors l’hypothèse nulle de l’égalité des moyennes 𝐻0 : 𝑚𝐶 = 𝑚𝐺 contre l’hypothèse
alternative 𝐻1 : 𝑚𝐶 ≠ 𝑚𝐺 au seuil de 3%
Que peut-on conclure au sujet de l’âge des clients dans les deux pays ?
EXERCICES : 7
Dans un atelier une machine fabrique des pièces en grande série; on s'intéresse à leur longueur mesurée en cm. On
admet que la variable aléatoire qui, à chaque pièce tirée au hasard dans la production associe sa longueur, suit une
loi normale de moyenne m et d'écart type 𝜎 = 0,14.
Afin de contrôler le fait que la moyenne m des longueurs des pièces produites est 150, on se propose de
construire un test d'hypothèse. On prélève des échantillons aléatoires de 49 pièces (chaque échantillon
étant obtenu par tirage avec remise). A chaque échantillon ainsi défini, on associe la moyenne des
̅ . L'hypothèse nulle est H0 : m = 150; l'hypothèse
longueurs des 49 pièces; on définit ainsi une variable aléatoire 𝑋
alternative est H1 : m ≠ 150.
Le seuil de signification du test est fixé à 0,05.
̅?
a) Quelle est, sous l'hypothèse nulle H0, la loi de la variable aléatoire 𝑋
Déterminer le nombre réel positif h tel que 𝑝(150 − ℎ ≤ 𝑋 ̅ ≤ 150 + ℎ) = 0,95.
b) Enoncer la règle de décision permettant d'utiliser ce test.
c) La moyenne observée sur un échantillon de 49 pièces est 𝑋̅ = 149,9. Que peut-on conclure au seuil de
signification 5 % quant à la qualité des pièces produites ?
EXERCICES : 8
Une entreprise commercialise des pieds de lit de type boule. Pour ces pieds on utilise une bague en matière
plastique de diamètre intérieur x. On définit ainsi une variable aléatoire X qui, à chaque bague tirée au hasard dans
la production, associe son diamètre intérieur x mesuré en millimètres. On admet que X suit la loi normale de
Page 44 sur 52
moyenne m et d'écart type 0,04. Le fournisseur affirme que m = 12,1. On veut contrôler cette affirmation en
prélevant au hasard et avec remise un échantillon de 64 pièces dans la livraison.
A tout échantillon on associe la moyenne 𝑋̅ des diamètres intérieurs des bagues. On définit ainsi une variable
̅.
aléatoire 𝑋
̅?
a) Quelle est la loi suivie par 𝑋
b) Construction d'un test bilatéral au seuil de risque de 10 %. Donner l'hypothèse nulle H0 et l'hypothèse alternative
H1. Déterminer les deux valeurs critiques qui permettent de décider si la livraison est conforme. Enoncer la règle
de décision du test.
c) Pour l'échantillon prélevé la moyenne obtenue est 12,095. Que concluez-vous ?
EXERCICES : 9
Soit un stock important dont on estime qu'un caractère X suit une loi normale de moyenne 𝜇 = 240
et d'écart type 𝜎= 50. On prélève un échantillon de 40 unités, dont la moyenne observée est 𝑋̅ = 260. Au
risque de 1 % peut-on considérer que 𝜇 est effectivement égal à 240 ? (Construire un test bilatéral :
choix des hypothèses, détermination de la région critique, règle de décision puis utiliser le test) Et au
risque de 5 % ?
EXERCICES : 10
On s'intéresse dans cet exercice aux allergies déclenchées par un certain médicament. Dans une
population de grand effectif, on a observé que 40 % des individus sont allergiques à ce médicament. Ces
allergies sont détectées par des tests effectués en laboratoire. On examine un échantillon de 100 analyses
choisies au hasard et on observe que 31 individus révèlent l'allergie à ce médicament. Au seuil de risque
0,05 peut-on conclure que l'échantillon est représentatif de la population pour cette allergie ? Et au
risque 0,10 ?
EXERCICES : 11
Pour un sondage électoral, on constitue deux échantillons d'électeurs de tailles 300 et 200 respectivement dans
deux circonscriptions A et B. Cela met en évidence des intentions de vote de 56 % et 48 % pour un candidat donné.
Tester, au seuil de 5 %, les hypothèses :
il y a une différence entre les circonscriptions.
le candidat est préféré dans la circonscription A.
Exercice 12
Un fabriquant de tubes à essais pour laboratoire fonde sa publicité sur le fait que la durée de vie de ses
tubes correspond à 1500 heures de chauffage à l’aide d'un bec Bunsen. Un laboratoire de contrôle de
publicité constate que sur 100 tubes à essais, la durée moyenne de vie est de 1485 heures de chauffage
avec un écart-type de 110 heures. Au risque 5%, la durée de vie des tubes à essais est-elle différente de
1500 heures de chauffage ?
Exercice 13:
Les moteurs des appareils électroménagers d'une marque M ont une durée de vie moyenne de 3000
heures avec un écart-type de 150 heures. À la suite d'une modification dans la fabrication des moteurs,
le fabriquant affirme que les nouveaux moteurs ont une durée de vie supérieure à celle des anciens. On
a testé un échantillon de 50 nouveaux moteurs et on a trouvé une durée de vie moyenne de 3250 heures
avec un écart-type égal à 150 heures. Les nouveaux moteurs apportent-ils une amélioration dans la durée
de vie des appareils électroménagers au risque de 1% ?
Exercice 14:
Un fabricant affirme qu'au moins 95 % de l’équipement qu'il fourni à un dépositaire est conforme au
cahier des charges. L’examen d'un échantillon de 200 pièces fournies montre que 18 pièces sont
défectueuses. Que penser de l'affirmation du fabricant au seuil de risque de 5 %?
Exercice 15:
Page 45 sur 52
On prélève dans la production d'une machine, un échantillon de 100 tiges métalliques. La moyenne des
longueurs des tiges de cet échantillon est 100,04 cm avec un écart-type de 0,16 cm. La machine est
réglée en principe pour obtenir des tiges de 100 cm.
1°) Au risque de 5 %, peut-on dire que la machine est bien réglée ?
2°) Reprendre la question précédente avec un risque de 1 %.
Exercice 15:
Un chercheur a découvert un procédé efficace à 90 % pour prolonger la durée de vie des ballons à eau
chaude. On teste son procédé sur 200 ballons. On constate qu'il est efficace pour 160 d’entre eux.
L’affirmation du chercheur est-elle légitime au risque de 5% ?
Exercice 16:
Un laboratoire annonce que l'un de ses médicaments est efficace à 95 %. Sur un échantillon de 400
personnes le traitement s'est révélé efficace sur 355 d'entre elles. Quel risque faut-il accepter si l'on
considère que l'affirmation du laboratoire est légitime ?
Exercice 17:
L'expérience suivante a été réalisé par Weldon : il a lancé un dé 315 672 fois, il a tiré 106 602 fois l'une
des faces 5 ou 6 Peut-on accepter l'hypothèse selon laquelle le dés est équilibré, au risque de 5% ?
Exercice 18:
Dans une grande ville d'un pays donné, une enquête a été réalisée sur les dépenses mensuelles pour les
loisirs. On a observé les résultats suivants:
Sur 300 familles habitant le centre-ville, les dépenses mensuelles pour les loisirs sont en moyenne
de 610 F avec un écart-type de 100 F.
Sur 280 familles habitant la banlieue, les dépenses mensuelles pour les loisirs sont en moyenne de
640 F avec un écart-type de 120 F.
Peut-on dire au risque de 5 % que la part du budget familial consacré aux loisirs est différente suivant
que la famille habite le centre-ville ou la banlieue ?
Exercice 19:
Une machine fabrique des pièces identiques. La moyenne des poids de 50 pièces prélevées dans la
production est 68,2 grammes avec un écart-type de 2,5 grammes
On effectue un réglage sur la machine. On prélève un nouvel échantillon de 50 pièces. On trouve un
poids moyen de 67, 5 grammes avec un écart-type de 2, 8 grammes. Peut-on affirmer, au risque 5 % que
le réglage a modifié le poids des pièces ?
Exercice 20:
Pour une élection, on effectue un sondage pour évaluer les intentions de vote en faveur du candidat
Tartempion. Dans la ville de Triffouillis-les-oies, sur 450 personnes interrogées, 52% ont l'intention de
voter pour Tartempion. Dans la ville de Petahouchnock, sur 300 personnes interrogées, 49 % ont
l'intention de voter pour Tartempion. Au risque de 5%, y a-t-il une différence d'intention de vote dans
ces deux villes ?
Page 46 sur 52
Fractiles de la Loi Normale : U → N( 0 , 1)
Pour P 0.5 (colonne de gauche et ligne supérieure). les fractiles sont négatifs.
Pour P 0.5 (colonne de droite et ligne inférieure). les fractiles sont positifs.
P 0 0.001 0.002 0.003 0.004 0.005 0.006 0.007 0.008 0.009 0.01
0 infini 3.0902 2.8782 2.7478 2.6521 2.5758 2.5121 2.4573 2.4089 2.3656 2.3263 0.99
0.01 2.3263 2.2904 2.2571 2.2262 2.1973 2.1701 2.1444 2.1201 2.0969 2.0748 2.0537 0.98
0.02 2.0537 2.0335 2.0141 1.9954 1.9774 1.9600 1.9431 1.9268 1.9110 1.8957 1.8808 0.97
0.03 1.8808 1.8663 1.8522 1.8384 1.8250 1.8119 1.7991 1.7866 1.7744 1.7624 1.7507 0.96
0.04 1.7507 1.7392 1.7279 1.7169 1.7060 1.6954 1.6849 1.6747 1.6646 1.6546 1.6449 0.95
0.05 1.6449 1.6352 1.6258 1.6164 1.6072 1.5982 1.5893 1.5805 1.5718 1.5632 1.5548 0.94
0.06 1.5548 1.5464 1.5382 1.5301 1.5220 1.5141 1.5063 1.4985 1.4909 1.4833 1.4758 0.93
0.07 1.4758 1.4684 1.4611 1.4538 1.4466 1.4395 1.4325 1.4255 1.4187 1.4118 1.4051 0.92
0.08 1.4051 1.3984 1.3917 1.3852 1.3787 1.3722 1.3658 1.3595 1.3532 1.3469 1.3408 0.91
0.09 1.3408 1.3346 1.3285 1.3225 1.3165 1.3106 1.3047 1.2988 1.2930 1.2873 1.2816 0.90
0.10 1.2816 1.2759 1.2702 1.2646 1.2591 1.2536 1.2481 1.2426 1.2372 1.2319 1.2265 0.89
0.11 1.2265 1.2212 1.2160 1.2107 1.2055 1.2004 1.1952 1.1901 1.1850 1.1800 1.1750 0.88
0.12 1.1750 1.1700 1.1650 1.1601 1.1552 1.1503 1.1455 1.1407 1.1359 1.1311 1.1264 0.87
0.13 1.1264 1.1217 1.1170 1.1123 1.1077 1.1031 1.0985 1.0939 1.0893 1.0848 1.0803 0.86
0.14 1.0803 1.0758 1.0714 1.0669 1.0625 1.0581 1.0537 1.0494 1.0451 1.0407 1.0364 0.85
0.15 1.0364 1.0322 1.0279 1.0237 1.0194 1.0152 1.0110 1.0069 1.0027 0.9986 0.9945 0.84
0.16 0.9945 0.9904 0.9863 0.9822 0.9782 0.9741 0.9701 0.9661 0.9621 0.9581 0.9542 0.83
0.17 0.9542 0.9502 0.9463 0.9424 0.9385 0.9346 0.9307 0.9269 0.9230 0.9192 0.9154 0.82
0.18 0.9154 0.9116 0.9078 0.9040 0.9002 0.8965 0.8927 0.8890 0.8853 0.8816 0.8779 0.81
0.19 0.8779 0.8742 0.8706 0.8669 0.8632 0.8596 0.8560 0.8524 0.8488 0.8452 0.8416 0.80
0.20 0.8416 0.8381 0.8345 0.8310 0.8274 0.8239 0.8204 0.8169 0.8134 0.8099 0.8064 0.79
0.21 0.8064 0.8030 0.7995 0.7961 0.7926 0.7892 0.7858 0.7824 0.7790 0.7756 0.7722 0.78
0.22 0.7722 0.7688 0.7655 0.7621 0.7588 0.7554 0.7521 0.7488 0.7454 0.7421 0.7388 0.77
0.23 0.7388 0.7356 0.7323 0.7290 0.7257 0.7225 0.7192 0.7160 0.7128 0.7095 0.7063 0.76
0.24 0.7063 0.7031 0.6999 0.6967 0.6935 0.6903 0.6871 0.6840 0.6808 0.6776 0.6745 0.75
0.25 0.6745 0.6713 0.6682 0.6651 0.6620 0.6588 0.6557 0.6526 0.6495 0.6464 0.6433 0.74
0.26 0.6433 0.6403 0.6372 0.6341 0.6311 0.6280 0.6250 0.6219 0.6189 0.6158 0.6128 0.73
0.27 0.6128 0.6098 0.6068 0.6038 0.6008 0.5978 0.5948 0.5918 0.5888 0.5858 0.5828 0.72
0.28 0.5828 0.5799 0.5769 0.5740 0.5710 0.5681 0.5651 0.5622 0.5592 0.5563 0.5534 0.71
0.29 0.5534 0.5505 0.5476 0.5446 0.5417 0.5388 0.5359 0.5330 0.5302 0.5273 0.5244 0.70
0.30 0.5244 0.5215 0.5187 0.5158 0.5129 0.5101 0.5072 0.5044 0.5015 0.4987 0.4958 0.69
0.31 0.4958 0.4930 0.4902 0.4874 0.4845 0.4817 0.4789 0.4761 0.4733 0.4705 0.4677 0.68
0.32 0.4677 0.4649 0.4621 0.4593 0.4565 0.4538 0.4510 0.4482 0.4454 0.4427 0.4399 0.67
0.33 0.4399 0.4372 0.4344 0.4316 0.4289 0.4261 0.4234 0.4207 0.4179 0.4152 0.4125 0.66
0.34 0.4125 0.4097 0.4070 0.4043 0.4016 0.3989 0.3961 0.3934 0.3907 0.3880 0.3853 0.65
0.35 0.3853 0.3826 0.3799 0.3772 0.3745 0.3719 0.3692 0.3665 0.3638 0.3611 0.3585 0.64
0.36 0.3585 0.3558 0.3531 0.3505 0.3478 0.3451 0.3425 0.3398 0.3372 0.3345 0.3319 0.63
0.37 0.3319 0.3292 0.3266 0.3239 0.3213 0.3186 0.3160 0.3134 0.3107 0.3081 0.3055 0.62
0.38 0.3055 0.3029 0.3002 0.2976 0.2950 0.2924 0.2898 0.2871 0.2845 0.2819 0.2793 0.61
0.39 0.2793 0.2767 0.2741 0.2715 0.2689 0.2663 0.2637 0.2611 0.2585 0.2559 0.2533 0.60
0.40 0.2533 0.2508 0.2482 0.2456 0.2430 0.2404 0.2378 0.2353 0.2327 0.2301 0.2275 0.59
0.41 0.2275 0.2250 0.2224 0.2198 0.2173 0.2147 0.2121 0.2096 0.2070 0.2045 0.2019 0.58
0.42 0.2019 0.1993 0.1968 0.1942 0.1917 0.1891 0.1866 0.1840 0.1815 0.1789 0.1764 0.57
0.43 0.1764 0.1738 0.1713 0.1687 0.1662 0.1637 0.1611 0.1586 0.1560 0.1535 0.1510 0.56
0.44 0.1510 0.1484 0.1459 0.1434 0.1408 0.1383 0.1358 0.1332 0.1307 0.1282 0.1257 0.55
0.45 0.1257 0.1231 0.1206 0.1181 0.1156 0.1130 0.1105 0.1080 0.1055 0.1030 0.1004 0.54
0.46 0.1004 0.0979 0.0954 0.0929 0.0904 0.0878 0.0853 0.0828 0.0803 0.0778 0.0753 0.53
0.47 0.0753 0.0728 0.0702 0.0677 0.0652 0.0627 0.0602 0.0577 0.0552 0.0527 0.0502 0.52
0.48 0.0502 0.0476 0.0451 0.0426 0.0401 0.0376 0.0351 0.0326 0.0301 0.0276 0.0251 0.51
0.49 0.0251 0.0226 0.0201 0.0175 0.0150 0.0125 0.0100 0.0075 0.0050 0.0025 0.0000 0.50
0.01 0.009 0.008 0.007 0.006 0.005 0.004 0.003 0.002 0.001 0 P
Loi de Student
guj75772_appD.qxd 05/09/2008 11:09 AM Page 879
Note: The smaller probability shown at the head of each column is the area in one tail; the larger probability is the area in
both tails.