Vous êtes sur la page 1sur 30

Soavimbahoaka – Antananarivo

« Sens des responsabilités, Engagement, Respect »

SUPPORT DE COURS
EC – STATISTIQUE
INFERENTIELLE

NIVEAU L3
ANNEE UNIVERSITAIRE
2023 – 2024

Princy ANDRIANASINORO

1
PRÉSENTATION DE L’EC
Volume horaire : -- heures
 Théorie
 Bases de la théorie des outils statistiques appliquées à la gestion et à
l’informatique
 Pratique
 Utiliser la théorie (exercices)
 Evaluations
 Tests (40%)
 Examen final (60%)

Objectifs
Cet EC permettra à l’étudiant de :
 Acquérir des connaissances statistiques de base appliquées à la gestion et à
l’informatique
 Comprendre les référents des modèles statistiques et de savoir analyser et interpréter
les différentes données statistiques existantes ou prévisionnelles

Compétences visées
A l’issue de cet EC, l’étudiant sera capable de :
 Construire un échantillon aléatoire
 Réaliser des enquêtes
 Organiser les données pour les traitements
 Déterminer un estimateur ponctuel de la moyenne, de la fréquence de la population
mère ou un intervalle de confiance
 Effectuer des tests statistiques (paramétriques ou non)
 Faire des prévisions

Pré-requis
Connaissances en statistique descriptive et en probabilité

Contenu de l’EC
 Notions sur le traitement de données
 Techniques d'enquête
 Echantillonnage
 Estimations
 Tests statistiques
Bibliographie
 M. LETHIELLEUX, Statistique descriptive, 5ème Edition DUNOD
 B. Brunquers, Bases mathématiques pour l’économie et la gestion, Remédiation.
 P. Benichou, R. Benichou, N. Boy, J.P. Pouget. Statistique et probabilité
Formations Supérieures Tertiaires. DEMENGEL
 Suzette Bisson-Vaivre , Catherine Ficano, Outils mathématiques de gestion, Bréal

1
PARTIE I TRAITEMENT DE DONNEES
I- Position du problème
DONNEES
D’où proviennent les données ? Sont-elles collectées pour une analyse particulière, ou s’agit-il de
travailler sur des informations déjà disponibles ?

TRAITEMENT ET ANALYSE
Quelle analyse en faire ? Pour valider des hypothèses ? Pour « explorer » sans hypothèse
préalable?

Pour obtenir des réponses, rien n’est plus naturel que de poser des questions.

L’enquête est, à ce titre, un moyen pratique pour collecter rapidement des informations et un
outil efficace d’aide à la décision.

II- Traitements statistiques des données


Principe:
Il existe trois catégories d’analyse:
Statistique :
• Analyse de base, réalisée sur un tableur ou un outil plus puissant.
Analyse quantitative des données
• Algorithmes complexes, possibles uniquement grâce à l’informatique.
• Analyse plus subtile que les statistiques.
• Permet de visualiser, de synthétiser de manière claire et élégante de nombreux « facteurs ».
Data Mining
• Propose des outils supplémentaires (réseaux neuronaux, pattern recognition …)
1. La statistique
La statistique se scinde en deux matières :
• La statistique descriptive
• La statistique inférentielle

a. La statistique descriptive
Décrit un phénomène à l’aide de mesures, permettant d’appréhender sa distribution sur l’ensemble
de la population étudiée.
• Idée : résumer l’ensemble des mesures en quelques indicateurs
• Mesures de tendance centrale (mode, médiane, moyenne)
• Mesures de position (quartiles, quintiles, centiles …)
• Mesures de dispersion (écart moyen, écart-type, …)
• Mesures d’association (covariance, corrélation …)

b. La statistique inférentielle
L’inférence statistique : déduire (inférer) les caractéristiques d’une population, ou confirmer des
suppositions à son sujet, à partir de l’étude d’un échantillon.
Deux techniques :
• L’estimation. Permet d’estimer un paramètre (une moyenne par exemple) sur l’ensemble
d’une population à partir de celui mesuré sur un échantillon, dans un certain « intervalle
de confiance »
• Les tests. Permettent de vérifier si une hypothèse faite sur une population est contredite
par l’étude d’un échantillon pris au hasard.

2
2. L’analyse quantitative de données
L’analyse quantitative de données est née de la conjonction de :
• La possibilité de réaliser des calculs massifs grâce à l’informatique
• La nécessité de croiser de nombreuses variables
Il existe deux techniques :
• L’analyse en composantes principales
• L’analyse factorielle

Dans les deux cas l’idée est la même :


• On part d’un problème multidimensionnel où chaque individu est décrit par un ensemble de
variables (par exemple, poids, taille, taux de cholestérol, profession, intention de vote, salaire, sexe,
….)
• On essaie de passer d’un espace à N dimensions à un graphique bidimensionnel
Les outils mathématiques utilisés viennent de l’algèbre linéaire (calcul matriciel)
Les calculs sont très lourds en terme de complexité algorithmique : on est obligé d’employer des
ordinateurs :
• Logiciels : SAS, SPSS …
3. Le data mining
Les données informatisées sont de plus en plus nombreuses dans les entreprises.
Elles sont contenues dans des bases de données, pour la plupart issues de la technologie
«relationnelle».
Ceci permet d’accéder à des quantités énormes, qui sont normalisées.
Différence fondamentale avec l’AQD :
• L’AQD va permettre de vérifier une hypothèse.
• Le data mining ne nécessite pas de formuler des hypothèses préalables:
Ceci explique le terme « fouille de données ».

3
PARTIE II TECHNIQUES D’ENQUETE

1. LE CAHIER DES CHARGES

La réalisation d’une enquête est un exemple de production technologique tertiaire.


Le produit final : le rapport d’enquête, quel que soit le support, est un ensemble d’informations qui ont été
collectées, analysées, représentées.
Comme toute production technologique, la réalisation d’une enquête doit obéir à une démarche cohérente et
logique.
La démarche de résolution de problème QQOQCP est assez appropriée :

Quoi ? Quel type d’enquête ?

Pour Qui ? Quel est le commanditaire ?

ENQUÊTE Où ? Lieu où se déroulera l’enquête ?

Quand ? À quel moment se fera-t-elle ?

Comment ? Comment sera-t-elle administrée ?

Pourquoi ? Quels sont les objectifs du commanditaire ?

1. Il est clair que la première question à se poser est Pour Qui ? L’enquête est forcément réalisée pour quelqu’un.
Exemple : Une société de production (embouteillage et distribution) d’eau minérale cherche à mieux connaître son
marché.
Son directeur s’interroge : qui est-il ? Que fait-il ? Il dirige une entreprise qui puise de l’eau de source et la met en
bouteille. On pourrait ajouter des informations sur l’entreprise.

2. La seconde question à se poser est Pourquoi ? Pour quelles raisons le commanditaire veut-il réaliser une enquête ?
Que veut-il savoir ? Quelles informations veut-il recueillir ? De quel type ?
Exemple : à la suite d’une modification, il peut vouloir connaître la réaction des consommateurs face à la nouvelle
forme d’une bouteille.

3. À ce moment là, il faut répondre à la question Quoi ? Quel type d’enquête retenir ? L’enquête par questionnaire
n’est qu’un type d’enquête parmi d’autres.

4. Comment ? Quelle méthode retenir pour administrer l’enquête ?


Est-ce une enquête exhaustive ? Une population entière est alors interrogée.
Est-ce une enquête par sondage ? Seul un échantillon de la population est concerné.
Si la seconde solution est retenue, comment réaliser l’échantillon ? Il faut s’interroger sur sa taille et sa
représentativité (méthode probabiliste, méthode des quotas).
Cette réflexion est très importante car c’est d’elle que va résulter la fiabilité des résultats de l’enquête.
4
5. Où et Quand ?
- Le choix des lieux risque d’influencer les résultats. Il faut donc réfléchir aux conséquences de ce choix.
- Les personnes interrogées peuvent répondre chez elles, dans la rue, dans un lieu donné (bureau, magasin), par
téléphone, par correspondance, avec l’aide ou non d’un enquêteur.
- Le moment pendant lequel se déroule l’enquête est aussi important (météo, vacances, week-end, événement
particulier …).
Il faut négocier toutes ces questions avec le commanditaire et noter toutes ses réponses.
Le document obtenu est le cahier des charges de l’enquête.
Il est prudent de faire signer ce cahier des charges par le commanditaire avant de commencer l’enquête pour s’assurer
que le travail entrepris correspond bien à ses objectifs.

2. LA RÉALISATION DE L’ÉCHANTILLON

ENQUÊTE PAR
QUESTIONNAIRE

Exhaustive : Par sondage :


La population entière est Une partie seulement de la
interrogée ; population est interrogée.
Exemple : tous les Exemple : quelques
étudiants de l’ISSIG étudiants de l’ISSIG par
niveau.

Les raisons d’échantillonner


- Le budget est limité et le coût de la collecte élever;
- Il faut user ou détruire des éléments d’une fabrication pour mesurer la qualité;
- Le manque de temps ne permet de recueillir l’information sur autant d’individus que l’on souhaite;
- Les résultats sont recueillis avec plus de précision car ils sont plus facilement contrôlables du fait du nombre
peu élevé d’observations;
- Le calcul d’une marge d’erreur est possible, application de l’intervalle de confiance.

La technique d’enquête par sondage impose une réflexion sur les critères de choix de la partie de la population à
interroger. Cette partie est appelée échantillon.
Il faut donc, pour obtenir des résultats fiables, que les caractéristiques de l’échantillon soient les mêmes que celles
de la population entière.
Biais de mesure et biais de recrutement
La statistique de l’échantillon conduit uniquement à une estimation du paramètre au niveau de la population. Il existe
deux biais:
- Biais de mesure:
Les Résultats sont mesurés avec des erreurs.
- Biais de recrutement :
L’échantillon prélevé n’est pas représentatif de la population vis-à-vis du caractère étudié.
Alors comment réaliser l’échantillon ?
Questions:
─ Comment sélectionner des individus parmi la population?
─ Quelle doit être la taille de l’échantillon?
Il faut s’interroger sur sa représentativité.
Cette réflexion est très importante car c’est d’elle que va résulter la fiabilité des résultats de l’enquête.

5
Il existe deux types de méthodes d’échantillonnage :
1. Les méthodes probabilistes
Les unités de sondage sont tirées au sort de manière aléatoire. Ces méthodes respectent des lois statistiques.
a. Sondages aléatoires simples
Une liste de toutes les unités de sondage est dressée et on procède à un tirage au sort. (avec ou sans remise).
b. Sondage systématique
Lorsque la population est très grande, il est plus pratique d’utiliser la méthode de tirage systématique.
Elle consiste à prélever les individus régulièrement espacé suivant un « pas » choisi.
c. Utilisation d’une table de nombres aléatoires
d. Sondage par stratification
- Stratification à priori
La méthode consiste à diviser la population en groupes homogènes appelés strates.
Chaque individu appartient à une strate et une seule.
L’échantillon est obtenu par tirage au sort dans chacune des strates.
La stratification est définie par un ou plusieurs critères.
Le critère de stratification doit être en corrélation étroite avec le caractère étudié.
- Stratification à postériori
La stratification à postériori consiste à définir les strates après l’élaboration de l’échantillon.
On l’utilise lorsque le critère de stratification n’est pas connu à l’avance ou lorsque, après dépouillement, une forte
corrélation existe entre un critère et la variable étudiée.
La stratification est très pratique pour le redressement de l’échantillon.
e. Sondages à plusieurs degrés
Le sondage à plusieurs degrés consiste à désigner les éléments de l’échantillon en cascade.
- Au premier degré de tirage, on désigne un échantillon d’unités primaires,
- Au second degré de tirage, on tire au hasard dans chaque unité primaire échantillon, un échantillon d’unités
secondaires,
- Au troisième degré de tirage, on tire au hasard dans chaque unité secondaire échantillon, un échantillon
d’unités tertiaires et ainsi de suite.
f. Autres méthodes
- Méthode par grappes
- Méthode à probabilités inégales
- Méthode des panels
- Méthode des cohortes
- Données expérimentales
- Les sources statistiques
- Le recensement de la population

2. Les méthodes non-probabilistes ou empiriques


a. Méthode des unités types
La méthode consiste à diviser la population en un certain nombre de sous ensemble relativement homogène et de
représenter chacun de ces sous ensemble par une « unité type ».
b. Méthode des quotas
Préalablement, il est nécessaire d’avoir une bonne connaissance statistique de la population étudiée.
La population est subdivisée en classes dont on connaît l’effectif de chacune d’entre elles.
Ces effectifs multipliés par le taux de sondage donnent les quotas.
c. Méthode du volontariat
La méthode consiste à obtenir l’accord de préalable d’un grand nombre de volontaire à enquêter.
L’échantillon est choisi parmi cet ensemble de volontaire de manière à être représentatif.
d. Autres méthodes non probabilistes:
- Sondages « à chaud »,
- Méthode des itinéraires.
La méthode non-probabiliste la plus connue est celle des quotas.
Cette méthode passe par quatre étapes :
a) Étudier les caractéristiques de la population de base selon certains critères de représentativité.
b) Déduire la part respective de ces différents critères en valeur relative.
c) Déterminer un taux de sondage pour déterminer la taille de l’échantillon.
d) Appliquer les valeurs relatives obtenues en b) à l’échantillon.

6
Exemple : soit une population de 10 000 habitants.
L’analyse de cette population montre qu’il y a :
- 55 % de femmes ; 45 % d’hommes ;
- 10 % de moins de 20 ans ; 20 % de 20-40 ans ; 25 % de 40-60 ans ; 45 % >60.

Ces pourcentages s’appellent des quotas.


Si un taux de sondage de 1/20 est préalablement choisi, cela signifie que le rapport « taille de l’échantillon / taille
de la population étudiée » doit être égal à 1/20.

La taille de l’échantillon est de 10 000 / 20 = 500 personnes.

La structure de l’échantillon est déterminée en appliquant les quotas. Il y aura :


- 500 * 55 % = 275 femmes ; 500 * 45 % = 225 hommes
- 500 * 10 % = 50 moins de vingt ans
- 500 * 20 % = 100 20-40 ans
- 500 * 25 % = 125 40-60 ans
- 500 * 45 % = 225 > 60 ans

La difficulté est de fixer le taux de sondage.


Une méthode empirique consiste à estimer que le taux de sondage doit être tel que le plus petit groupe obtenu est
d’au moins 30 personnes.
Pour les méthodes probabilistes, des formules existent en relation avec les fonctions statistiques.
Des méthodes probabilistes permettent de déterminer le taux de sondage en fonction de la taille de la population
avec un intervalle de confiance suffisamment élevé.

La notion de fiabilité d’échantillon est matérialisée par un seuil de confiance et une marge d'erreur.
En pratique, pour calculer la marge d'erreur précise des résultats d'une question, c'est à dire l'intervalle de confiance
dans lequel se situe réellement la réponse au seuil de confiance de 95%, on peut appliquer la formule suivante : (pour
un échantillon de taille n)
- Pour une proportion:

- Pour une moyenne:

Le tableau suivant donne des approximations de tailles d’échantillons admissibles au seuil de confiance de
95%.

7
3. LA RÉALISATION DU QUESTIONNAIRE

1. Le nombre de questions.
Si les interviews ont lieu dans la rue, sauf exception, il faut que le questionnaire soit court : une quinzaine de questions
au maximum.
Si les personnes interrogées remplissent un questionnaire à domicile, ou dans un lieu donné, le nombre de questions
peut être plus important.
2. L’ordre des questions.
Un questionnaire doit être structuré par thème et présenté sous forme d’une progression allant du général au
particulier.
Les questions personnelles (âge, domicile, profession, sexe …) doivent être posées à la fin du questionnaire.
3. Les types de questions.
Se rappeler les différents types de questions
- fermées : oui – non,
- à échelle : valeur à saisir entre « 1 et n » ou entre « mauvais et très bon ». Attention ! Ces questions doivent proposer
un nombre pair de choix quand il s’agit d’exprimer une opinion sinon les réponses vont se concentrer sur le choix du
milieu,
- à choix multiple : une ou plusieurs réponses parmi celles proposées,
- ouvertes : la personne interrogée dispose d’une totale liberté de réponse.
Il faut limiter le nombre de questions ouvertes :
- elles ne sont pas faciles à dépouiller avec un logiciel d’enquête ;
- le nombre de réponses différentes est tel qu’il ne donne pas de pourcentages significatifs.

Dans la mesure du possible, il est préférable de réduire une question ouverte à une question à choix multiple.

La formulation des réponses possibles à une question est particulièrement importante.


Ainsi, à la question ouverte « Quel reproche faites-vous à cette bouteille ? », il vaut mieux proposer une liste de
reproches possibles :
 son poids  sa taille  sa maniabilité
 son esthétique  son encombrement  autre :………………

4. La rédaction des questions.


Elle doit répondre à un certain nombre d’impératifs :
La question ne doit pas :
- induire la réponse ; (« Ne pensez-vous pas que … »)
- comporter de termes techniques ou compliqués.

Elle doit :
- être posée en termes simples dont le sens est évident pour tout le monde,
- ne comporter qu’une seule idée,
- être précise : il faut éviter les adverbes.

« Achetez-vous souvent des fruits ? » est une mauvaise question, car le terme souvent peut être interprété
différemment par les personnes interrogées. Il est préférable d’utiliser une question à échelle
 tous les jours  deux fois par semaine  une fois par semaine  etc.

Il est bon de faire précéder le début du questionnaire d’une courte introduction présentant l’enquête, et de le
terminer par une courte conclusion.

5. La présentation du questionnaire
Si le questionnaire est destiné à être rempli à domicile, sa présentation doit être agréable, aérée, suffisamment
lisible pour les personnes ayant des problèmes de vue.

8
PARTIE III ECHANTILLONAGE
I- Echantillonnage des moyennes
Soit une population P, d’effectif N. Un caractère X défini sur tous les individus de P présente une moyenne m et un
écart-type σ.

Différents échantillons de même taille → Différentes moyennes d’échantillon

Exemple: Soit la population P constitué des cinq entiers: 1; 2; 3; 4; 5 (le caractère étudié est le nombre lui-même).
1. Ecrire tous les échantillons de taille n = 2 extraits de la population P sachant que l’on fait un prélèvement
non exhaustif (avec remise).
2. Calculer la moyenne de chaque échantillon obtenu.
3. Les différentes valeurs obtenues forment une série statistique appelée « distribution d’échantillonnage des
moyennes », notée 𝑋̅ .
a. Calculer la moyenne 𝐸(𝑋̅ ) et l’écart-type σ(𝑋̅)
b. Calculer la moyenne m et l’écart-type σ de la série statistique constituée par les éléments de P.
σ
c. Comparer 𝐸(𝑋̅) et m puis σ(𝑋̅) et
√𝑛
Soit 𝑋̅ la variable aléatoire définie sur l’ensemble de tous les échantillons non exhaustifs de taille n (n < N) qui à
chaque échantillon, associe la moyenne observée sur celui-ci.
Alors :
σ
𝐸(𝑋̅) = m et σ(𝑋̅) = 𝑛

Si n ≥ 30, alors la loi de 𝑋̅ peut être approchée par la loi normale.
Remarque
Dans le cas des tirages sans remise, on a
 N n  n 
 (X )   1  1 t
n N 1 n N n
Ce coefficient de correction peut être négligé pour les populations de grande taille (n petit devant N).
Et cela est acceptable à partir de t ≤ 0,05
II- Echantillonnage des pourcentages
Soit F la variable aléatoire définie sur l’ensemble de tous les échantillons non exhaustifs de taille n (n < N) qui à
chaque échantillon, associe le pourcentage d’individus sur celui-ci qui possèdent la propriété.
Alors:
E(F )  p
et
p (1  p )
 (F ) 
n
Si n ≥ 30, alors la loi de F peut être approchée par la loi normale.
9
PARTIE IV ESTIMATION
CHAPITRE I ESTIMATION PONCTUELLE
I- GENERALITES
1. Définition
Estimer les paramètres d’une population consiste à donner une valeur unique de référence à partir d’un échantillon.
2. Estimateur
A partir de l’échantillon, on construit un estimateur dont la réalisation doit se rapprocher de la valeur du paramètre.
L’estimateur doit être:
- non biaisé: son espérance mathématique = paramètre recherché
- efficace: sa variance doit être minimale: la plus faible;
- consistant: la variance devient nulle lorsque n (taille de l’échantillon) →+∞

II- ESTIMATION PONCTUELLE D’UNE MOYENNE


Soit une population P, d’effectif N. Un caractère X défini sur tous les individus de P présente une moyenne m
inconnue
La distribution d’échantillonnage des moyennes 𝑋̅ est un estimateur sans biais et consistant de m.
Une estimation ponctuelle de m est une réalisation : 𝒙 ̅𝒆 de 𝑿̅ sur un échantillon de taille n (n < N) tiré au
hasard dans P.

III- ESTIMATION PONCTUELLE D’UN POURCENTAGE


P est une population, d’effectif N, p le pourcentage inconnu d’individus de P possédant une propriété donnée.
F la variable aléatoire définie sur l’ensemble de tous les échantillons non exhaustifs de taille n (n < N) qui à chaque
échantillon, associe le pourcentage d’individus sur celui-ci qui possèdent la propriété
F est un estimateur sans biais et consistant de p.
Une estimation ponctuelle de p est une réalisation : fe de F sur un échantillon de taille n (n < N) tiré au hasard
dans P.

III- ESTIMATION PONCTUELLE D’UNE VARIANCE


Soit une population P, d’effectif N. Un caractère X défini sur tous les individus de P présente une variance σ2
inconnue.
𝜎𝑒2 est la variance calculée sur un échantillon non exhaustifs de taille n (n < N) tirée au hasard sur la population P
𝒏
Alors, une estimation ponctuelle de σ2 est : 𝒏−𝟏 𝝈𝟐𝒆
𝒏
et, une estimation ponctuelle de l’écart-type σ est : √𝒏−𝟏 𝝈𝒆

10
CHAPITRE II ESTIMATION PAR INTERVALLE DE CONFIANCE
I- PRINCIPE
L’estimation par intervalle de confiance consiste à proposer un intervalle de valeurs compatibles avec les
observations, qui contient au degré de confiance 1 – α la valeur cherché :

II- ESTIMATION PAR INTERVALLE DE CONFIANCE DE LA MOYENNE m D’UNE POPULATION


1. Règle
En tirant au hasard d’une population P un échantillon, on a observé la moyenne ̅ 𝒙𝒆 des valeurs du caractère X
étudié, l’intervalle de confiance dans lequel se trouve la moyenne m des valeurs du caractère X sur la population
au degré de confiance 1 – α est : m Є [𝒙 ̅𝒆 – ε; 𝒙
̅𝒆 + ε]
Avec

 t 
n
Si σ est inconnu on l’estime par
n
 e
n 1
Et on obtient :

 t n 1

e

2. Cas des échantillons de grande taille: n ≥ 30


Le coefficient tα est défini par : P( - tα ≤ T ≤ tα ) = 1 – α
T suit la loi normale centrée réduite N(0;1)
En particulier si:
 α = 0,05 soit 1 – α = 0,95; tα = 1,96
 α = 0,02 soit 1 – α = 0,98; tα = 2,33
 α = 0,01 soit 1 – α = 0,99; tα = 2,58

3. Cas des échantillons de petite taille: n < 30


a. Distribution normale est σ connu
Le coefficient tα est défini par : P( - tα ≤ T ≤ tα ) = 1 – α
T suit la loi normale centrée réduite N(0;1)
b. Distribution normale est σ inconnu
Le coefficient tα est défini par : P( - tα ≤ T ≤ tα ) = 1 – α
T suit la loi de STUDENT à n – 1 degrés de liberté
c. Distribution quelconque
Le coefficient tα est défini à partir de l’inégalité de Bienaymé-Tchebychev
e e
P( xe  t   m  xe  t  )  1
n 1 n 1
Avec
1
t  
REMARQUE
Pour les tirages exhaustifs (sans remise), il faut apporter le coefficient de correction en remplaçant
 e

n 1
par :
 e

N n
  e  1   e  1 t
n
n 1 N 1 n 1 N n 1
Cette correction peut être négligée dès que le taux de sondage :
n
t  5%
N
11
III- ESTIMATION PAR INTERVALLE DE CONFIANCE DU POURCENTAGE p D’UNE POPULATION
1. Règle
En tirant au hasard d’une population P un échantillon, on a observé le pourcentage fe des individus ayant un caractère
X donné, l’intervalle de confiance dans lequel se trouve le pourcentage p des individus de la population ayant le
caractère X donné, au degré de confiance 1 – α est : p Є [ fe – ε; fe + ε]
avec
f (1  f )
 t 
e
n
e

2. Cas des échantillons de grande taille: n ≥ 30


Le coefficient tα est défini par : P( - tα ≤ T ≤ tα ) = 1 – α
T suit la loi normale centrée réduite N(0;1)
En particulier si:
 α = 0,05 soit 1 – α = 0,95; tα = 1,96
 α = 0,02 soit 1 – α = 0,98; tα = 2,33
 α = 0,01 soit 1 – α = 0,99; tα = 2,58
3. Cas des échantillons de petite taille: n < 30
Le coefficient tα est défini par : P( - tα ≤ T ≤ tα ) = 1 – α
T suit la loi de STUDENT à n – 1 degrés de liberté

12
PARTIE V TESTS STATISTIQUES

CHAPITRE I TESTS D’HYPOTHESES


I- GENERALITES
1. Définition
Un test d’hypothèse consiste à accepter ou rejeter une hypothèse concernant la population à partir des informations
fournies par un échantillon.

2. Types de tests
Il existe deux types de tests:
- Tests paramétriques
- Tests non-paramétriques

a. Tests paramétriques
test de conformité: norme de qualité imposée
test de comparaison: valeur comparée à une population semblable

b. Tests non-paramétriques
test d’ajustement (ou d’adéquation): adéquation à une loi connue
test d’indépendance : lien éventuel entre 2 variables étudiées

3. Principe
On formule l’hypothèse nulle H0 concernant la population, puis on définit une hypothèse alternative H1, opposée à
l’hypothèse nulle.
On adopte un seuil de signification du test et une règle de décision pour rejeter l’hypothèse nulle, si une différence
significative existe entre les résultats observés et l’hypothèse proposée.
Mais on peut se tromper...
 rejeter l’hypothèse nulle alors qu’elle devrait être acceptée : erreur de type I ou de première espèce
La probabilité maximale de commettre cette erreur constitue le niveau de signification α.
 accepter à tort l’hypothèse nulle : erreur de type II ou de deuxième espèce

II- TESTS DE CONFORMITE POUR UNE MOYENNE


1. Test bilatéral
On teste − au seuil de signification α − l’hypothèse nulle H0 : « m = m0 », où m0 est une valeur donnée,
contre l’alternative H1 : « m ≠ m0 » (m < m0 ou m > m0 : bilatéral)
̅𝒆 la moyenne calculée sur un échantillon de taille n, et σe l’écart-type.
Soit 𝒙
on accepte H0 :
 e e 
si xe  m0  t ; m0  t
 n 1 n  1 
on rejette H0, soit on accepte H1 :
 e e 
si xe  m0  t ; m0  t
 n 1 n  1 

a. Cas des grands échantillons (n ≥ 30)


Le coefficient tα est défini par : P( - tα ≤ T ≤ tα ) = 1 – α
T suit la loi normale centrée réduite N(0;1)
En particulier si:
 α = 0,05 soit 1 – α = 0,95; tα = 1,96
 α = 0,02 soit 1 – α = 0,98; tα = 2,33
 α = 0,01 soit 1 – α = 0,99; tα = 2,58

b. Cas des petits échantillons (n < 30), distribution normale et σ inconnu


Le coefficient tα est défini par : P( - tα ≤ T ≤ tα ) = 1 – α
T suit la loi de STUDENT à n – 1 degré de liberté

13
2. Tests unilatéraux
a. Test unilatéral à gauche
On teste − au seuil de signification α − l’hypothèse nulle H0 : « m ≤ m0 », où m0 est une valeur donnée,
contre l’alternative H1 : « m > m0 » : unilatéral
̅𝒆 la moyenne calculée sur un échantillon de taille n, et σe l’écart-type.
Soit 𝒙
on accepte H0 :
e
si xe  m0  t 
n 1
on rejette H0, soit on accepte H1 :
e
si xe  m0  t 
n 1
Cas des grands échantillons (n ≥ 30)
Le coefficient tα est défini par P( T ≥ tα ) = α ou P( T ≤ tα ) = 1 – α
T suit la loi normale centrée réduite N(0;1)
En particulier si:
 α = 0,05 soit 1 – α = 0,95; tα = 1,645
 α = 0,02 soit 1 – α = 0,98; tα = 2,06
 α = 0,01 soit 1 – α = 0,99; tα = 2,33

Cas des petits échantillons (n < 30)


Le coefficient tα est défini par P( T ≥ tα ) = α ou P( T ≤ tα ) = 1 – α
T suit la loi de STUDENT à n – 1 degré de liberté

Test unilatéral à gauche inégalité stricte


On teste − au seuil de signification α − l’hypothèse nulle H0 : « m < m0 », où m0 est une valeur donnée,
contre l’alternative H1 : « m ≥ m0 » : unilatéral
̅𝒆 la moyenne calculée sur un échantillon de taille n, et σe l’écart-type.
Soit 𝒙
on accepte H0 :
e
si xe  m0  t 
n 1
on rejette H0, soit on accepte H1 sinon.

b. Test unilatéral à droite


On teste − au seuil de signification α − l’hypothèse nulle H0 : « m ≥ m0 », où m0 est une valeur donnée,
contre l’alternative H1 : « m < m0 » : unilatéral
̅𝒆 la moyenne calculée sur un échantillon de taille n, et σe l’écart-type.
Soit 𝒙
on accepte H0 :
e
si xe  m0  t 
n 1
on rejette H0, soit on accepte H1 :
e
si xe  m0  t 
n 1

Cas des grands échantillons (n ≥ 30)


Le coefficient tα est défini par P( T ≤ – tα ) = α ou P( T ≥ – tα ) = 1 – α
T suit la loi normale centrée réduite N(0;1)
En particulier si:
 α = 0,05 soit 1 – α = 0,95; tα = 1,645
 α = 0,02 soit 1 – α = 0,98; tα = 2,06
 α = 0,01 soit 1 – α = 0,99; tα = 2,33

Cas des petits échantillons (n < 30)


Le coefficient tα est défini par P P( T ≤ – tα ) = α ou P( T ≥ – tα ) = 1 – α
T suit la loi de STUDENT à n – 1 degré de liberté

14
Test unilatéral à droite inégalité stricte
On teste − au seuil de signification α − l’hypothèse nulle H0 : « m > m0 », où m0 est une valeur donnée,
contre l’alternative H1 : « m ≤ m0 » : unilatéral
on accepte H0 :
e
si xe  m0  t 
n 1

III- TESTS DE CONFORMITE POUR UNE FREQUENCE OU A UN POURCENTAGE


Principe
Dans tous les tests précédents, on remplacera :
 m par p (proportion inconnue dans la population)
 𝑥̅𝑒 par fe (proportion effective sur l’échantillon)
𝜎𝑒 𝑝0 (1−𝑝0 )
 par √
√𝑛−1 𝑛

1. Test bilatéral
On teste − au seuil de signification α − l’hypothèse nulle H0 : « p = p0 », où p0 est une valeur donnée,
contre l’alternative H1 : « p ≠ p0 » (p < p0 ou p > p0 : bilatéral)
Soit fe la fréquence calculée sur un échantillon de taille n,
on accepte H0 :

p (1  p ) p (1  p ) 
si f   p  t 0 0
; p  t 0 0
e  0 n 0 n 
 
on rejette H0, soit on accepte H1 :

p (1  p ) p (1  p ) 
si f   p  t 0 0
; p  t 0 0
e  0 n 0 n 
 

a. Cas des grands échantillons (n ≥ 30)


Le coefficient tα est défini par : P( - tα ≤ T ≤ tα ) = 1 – α
T suit la loi normale centrée réduite N(0;1)
En particulier si:
 α = 0,05 soit 1 – α = 0,95; tα = 1,96
 α = 0,02 soit 1 – α = 0,98; tα = 2,33
 α = 0,01 soit 1 – α = 0,99; tα = 2,58

b. Cas des petits échantillons (n < 30), distribution normale et σ inconnu


Le coefficient tα est défini par : P( - tα ≤ T ≤ tα ) = 1 – α
T suit la loi de STUDENT à n – 1 degré de liberté

2. Tests unilatéraux
a. Test unilatéral à gauche
On teste − au seuil de signification α − l’hypothèse nulle H0 : « p ≤ p0 », où p0 est une valeur donnée,
contre l’alternative H1 : « p > p0 » : unilatéral
Soit fe la fréquence calculée sur un échantillon de taille n,
on accepte H0 :
p (1  p )
si f  p  t 0 0
e 0 n
on rejette H0, soit on accepte H1 :
p (1  p )
si f  p  t 0 0
e 0 n

15
Cas des grands échantillons (n ≥ 30)
Le coefficient tα est défini par P( T ≥ tα ) = α ou P( T ≤ tα ) = 1 – α
T suit la loi normale centrée réduite N(0;1)
En particulier si:
 α = 0,05 soit 1 – α = 0,95; tα = 1,645
 α = 0,02 soit 1 – α = 0,98; tα = 2,06
 α = 0,01 soit 1 – α = 0,99; tα = 2,33

Cas des petits échantillons (n < 30)


Le coefficient tα est défini par P( T ≥ tα ) = α ou P( T ≤ tα ) = 1 – α
T suit la loi de STUDENT à n – 1 degré de liberté

b. Test unilatéral à droite


On teste − au seuil de signification α − l’hypothèse nulle H0 : « p ≥ p0 », où p0 est une valeur donnée,
contre l’alternative H1 : « p < p0 » : unilatéral
Soit fe la fréquence calculée sur un échantillon de taille n,
on accepte H0 :
p (1  p )
si f  p  t 0 0
e 0 n
on rejette H0, soit on accepte H1 :
p (1  p )
si f  p  t 0 0
e 0 n

Cas des grands échantillons (n ≥ 30)


Le coefficient tα est défini par P( T ≤ – tα ) = α ou P( T ≥ – tα ) = 1 – α
T suit la loi normale centrée réduite N(0;1)
En particulier si:
 α = 0,05 soit 1 – α = 0,95; tα = 1,645
 α = 0,02 soit 1 – α = 0,98; tα = 2,06
 α = 0,01 soit 1 – α = 0,99; tα = 2,33

Cas des petits échantillons (n < 30)


Le coefficient tα est défini par P P( T ≤ – tα ) = α ou P( T ≥ – tα ) = 1 – α
T suit la loi de STUDENT à n – 1 degré de liberté

IV- TEST DE COMPARAISON DE DEUX MOYENNES


Principe
Le test de comparaison de deux moyennes consiste à vérifier si une différence existe entre deux groupes de sujets ou
deux populations.

1. Echantillons indépendants
Soit X1 la variable étudiée sur la population 1 de moyenne m1 et d’écart-type σ1 et X2, la variable associée à la
population 2 de moyenne m2 et d’écart-type σ2. Ces 2 variables sont supposées indépendantes.
Population 1 : échantillon de taille n1 avec une moyenne d’échantillon 𝑥̅𝑒1 et d’écart-type σe1
Population 2 : échantillon de taille n2 avec une moyenne d’échantillon 𝑥̅𝑒2 et d’écart-type σe2.

a. Cas des grands échantillons (n1 ≥ 30 et n2 ≥ 30)


 Test bilatéral
On teste − au seuil de signification α − l’hypothèse nulle : H0 : « m1 = m2 » : « m1 – m2 = 0 »
contre l’alternative : H1 : « m1 ≠ m2 » : « m1 – m2 ≠ 0 »
on accepte H0 :

      
2 2 2 2

si xe1  xe 2   t  e1
; t
e2 e1 e2
 n 1 n 1 n 1 n 1 
 1 2 1 2

16
on rejette H0, soit on accepte H1 :

      
2 2 2 2

si xe1  xe 2   t  e1
; t
e2 e1 e2
 n 1 n 1 n 1 n 1 

 1 2 1 2

Le coefficient tα est défini par : P( - tα ≤ T ≤ tα ) = 1 – α
T suit la loi normale centrée réduite N(0;1)
En particulier si:
 α = 0,05 soit 1 – α = 0,95; tα = 1,96
 α = 0,02 soit 1 – α = 0,98; tα = 2,33
 α = 0,01 soit 1 – α = 0,99; tα = 2,58
 Test unilatéral à gauche
On teste − au seuil de signification α − l’hypothèse nulle : H0 : « m1 ≤ m2 » : « m1 – m2 ≤ 0 »
contre l’alternative : H1 : « m1 > m2 » : « m1 – m2 > 0 »
on accepte H0 :

 
2 2

si xe1  xe 2 t 
e1 e2

n 1 n 1 1 2
on rejette H0, soit on accepte H1 :

 
2 2

si xe1  xe 2 t 
e1 e2

n 1 n 1 1 2
Le coefficient tα est défini par : P( T ≥ tα ) = α ou P( T ≤ tα ) = 1 – α
T suit la loi normale centrée réduite N(0;1)
En particulier si:
 α = 0,05 soit 1 – α = 0,95; tα = 1,645
 α = 0,02 soit 1 – α = 0,98; tα = 2,06
 α = 0,01 soit 1 – α = 0,99; tα = 2,33

 Test unilatéral à droite


On teste − au seuil de signification α − l’hypothèse nulle : H0 : « m1 ≥ m2 » : « m1 – m2 ≥ 0 »
contre l’alternative : H1 : « m1 < m2 » : « m1 – m2 < 0 »
on accepte H0 :

 
2 2

si xe1  xe 2  t 
e1 e2

n 1 n 1 1 2
on rejette H0, soit on accepte H1 :

 
2 2

si xe1  xe 2  t 
e1 e2

n 1 n 1 1 2
Le coefficient tα est défini par : P( T ≤ – tα ) = α ou P( T ≥ – tα ) = 1 – α
T suit la loi normale centrée réduite N(0;1)
En particulier si:
 α = 0,05 soit 1 – α = 0,95; tα = 1,645
 α = 0,02 soit 1 – α = 0,98; tα = 2,06
 α = 0,01 soit 1 – α = 0,99; tα = 2,33

b. Cas des petits échantillons (n1 < 30 et/ou n2 < 30)


Distributions normales, σ1 et σ2 inconnus mais supposés égaux (σ1 = σ2)
 Test bilatéral
On teste − au seuil de signification α − l’hypothèse nulle : H0 : « m1 = m2 » : « m1 – m2 = 0 »
contre l’alternative : H1 : « m1 ≠ m2 » : « m1 – m2 ≠ 0 »

17
on accepte H0 :
si xe1  xe 2    ; 

n   n2
2 2
1 1
avec   t  (  ) 1 e1 e2

n n n n 2
1 2 1 2
Sinon on rejette H0, soit on accepte H1
Le coefficient tα est défini par : P( - tα ≤ T ≤ tα ) = 1 – α
T suit la loi de STUDENT à (n1 − 1) + (n2 − 1) degré de liberté.

 Test unilatéral à gauche


On teste − au seuil de signification α − l’hypothèse nulle : H0 : « m1 ≤ m2 » : « m1 – m2 ≤ 0 »
contre l’alternative : H1 : « m1 > m2 » : « m1 – m2 > 0 »
on accepte H0 :

n   n2
2 2
1 1
si xe1  xe 2  t (  ) 1 e1 e2

n n n n 2
1 2 1 2
Sinon on rejette H0, soit on accepte H1
Le coefficient tα est défini par : P( T ≥ tα ) = α ou P( T ≤ tα ) = 1 – α
T suit la loi de STUDENT à (n1 − 1) + (n2 − 1) degré de liberté.

 Test unilatéral à droite


On teste − au seuil de signification α − l’hypothèse nulle : H0 : « m1 ≥ m2 » : « m1 – m2 ≥ 0 »
contre l’alternative : H1 : « m1 < m2 » : « m1 – m2 < 0 »
on accepte H0 :

n   n2
2 2
1 1
si xe1  xe 2   t (  ) 1 e1 e2

n n n n 2
1 2 1 2
Sinon on rejette H0, soit on accepte H1
Le coefficient tα est défini par : P P( T ≤ – tα ) = α ou P( T ≥ – tα ) = 1 – α
T suit la loi de STUDENT à (n1 − 1) + (n2 − 1) degré de liberté.

2. Echantillons appariés
a. Principe
On dispose de 2 séries de mesures X1 et X2, portant sur un même échantillon de taille n: Pas d’indépendance pour les
2 variables mais même nombre d’observations
On suppose que les variables X1 et X2 sont distribuées normalement de moyennes respectives m1 et m2 et d’écart-
types respectifs σ1 et σ2 inconnus mais égaux: σ1 = σ2

b. Test bilatéral
On teste − au seuil de signification α − l’hypothèse nulle : H0 : « m1 = m2 » : « m1 – m2 = 0 »
contre l’alternative : H1 : « m1 ≠ m2 » : « m1 – m2 ≠ 0 »
on accepte H0 :
 
  ; t  

2 2 2 2

si xe1  xe 2   t  e1 e2 e1 e2 
 n 1 
n 1 
 
on rejette H0, soit on accepte H1 :
 
  ; t  

2 2 2 2

si xe1  xe 2   t  e1 e2 e1 e2 
 n 1 
n 1 
 
Le coefficient tα est défini par : P( - tα ≤ T ≤ tα ) = 1 – α
T suit:
- la loi normale pour n ≥ 30
- la loi de STUDENT à n − 1 degré de liberté pour n < 30.

18
c. Test unilatéral à gauche
On teste − au seuil de signification α − l’hypothèse nulle : H0 : « m1 ≤ m2 » : « m1 – m2 ≤ 0 »
contre l’alternative : H1 : « m1 > m2 » : « m1 – m2 > 0 »
on accepte H0 :

t  

2 2

si xe1  xe 2 
e1 e2
n 1
on rejette H0, soit on accepte H1 :

t  

2 2

si xe1  xe 2 
e1 e2
n 1
Le coefficient tα est défini par : P( T ≥ tα ) = α ou P( T ≤ tα ) = 1 – α
T suit:
- la loi normale pour n ≥ 30
- la loi de STUDENT à n − 1 degré de liberté pour n < 30.

d. Test unilatéral à droite


On teste − au seuil de signification α − l’hypothèse nulle : H0 : « m1 ≥ m2 » : « m1 – m2 ≥ 0 »
contre l’alternative : H1 : « m1 < m2 » : « m1 – m2 < 0 »
on accepte H0 :

 t  

2 2

si xe1  xe 2 
e1 e2
n 1
on rejette H0, soit on accepte H1 :

 t  

2 2

si xe1  xe 2 
e1 e2
n 1
Le coefficient tα est défini par : P( T ≤ – tα ) = α ou P( T ≥ – tα ) = 1 – α
T suit:
- la loi normale pour n ≥ 30
- la loi de STUDENT à n − 1 degré de liberté pour n < 30.

V- TEST DE COMPARAISON DE DEUX PROPORTIONS


Principe
Le test de comparaison de deux proportions consiste à comparer les proportions p1 et p2 d’une même caractéristique
à partir d’échantillons indépendants.
1. Test bilatéral
On teste − au seuil de signification α − l’hypothèse nulle : H0 : « p1 = p2 = p» : « p1 – p2 = 0 »
contre l’alternative : H1 : « p1 ≠ p2 » : « p1 – p2 ≠ 0 »
Soit fe1 une estimation de p1 sur un échantillon de taille n1;
Soit fe2 une estimation de p2 sur un échantillon de taille n2.
Avec :

f 
n f n f
1 e1 2 e2

n n 1 2
on accepte H0 :
 1 1 1 1 
si f  f   t  f (1  f )(  ) ; t f (1  f )(  )
 n n n n2 
e1 e2
1 2 1

Sinon on rejette H0, soit on accepte H1


 Cas des grands échantillons (n1 ≥ 30 et n2 ≥ 30)
Le coefficient tα est défini par : P( - tα ≤ T ≤ tα ) = 1 – α
T suit la loi normale centrée réduite N(0;1)
En particulier si:
 α = 0,05 soit 1 – α = 0,95; tα = 1,96
 α = 0,02 soit 1 – α = 0,98; tα = 2,33
 α = 0,01 soit 1 – α = 0,99; tα = 2,58
19
 Cas des petits échantillons (n1 < 30 et n2 < 30)
Le coefficient tα est défini par : P( - tα ≤ T ≤ tα ) = 1 – α
T suit la loi de STUDENT à (n1 − 1) + (n2 − 1) degré de liberté.

2. Test unilatéral à gauche


On teste − au seuil de signification α − l’hypothèse nulle : H0 : « p1 ≤ p2 » : « p1 – p2 ≤ 0 »
contre l’alternative : H1 : « p1 > p2 » : « p1 – p2 > 0 »
on accepte H0 :

1 1
si f  f  t f (1  f )(  )
e1 e2
n n 1 2
on rejette H0, soit on accepte H1 :
1 1
si f  f  t f (1  f )(  )
e1 e2
n n 1 2

 Cas des grands échantillons (n1 ≥ 30 et n2 ≥ 30)


Le coefficient tα est défini par P( T ≥ tα ) = α ou P( T ≤ tα ) = 1 – α
T suit la loi normale centrée réduite N(0;1)
En particulier si:
 α = 0,05 soit 1 – α = 0,95; tα = 1,645
 α = 0,02 soit 1 – α = 0,98; tα = 2,06
 α = 0,01 soit 1 – α = 0,99; tα = 2,33

 Cas des petits échantillons (n1 < 30 et n2 < 30)


Le coefficient tα est défini par : P( T ≥ tα ) = α ou P( T ≤ tα ) = 1 – α
T suit la loi de STUDENT à (n1 − 1) + (n2 − 1) degré de liberté.

3. Test unilatéral à droite


On teste − au seuil de signification α − l’hypothèse nulle : H0 : « p1 ≥ p2 » : « p1 – p2 ≥ 0 »
contre l’alternative : H1 : « p1 < p2 » : « p1 – p2 < 0 »
on accepte H0 :
1 1
si f  f   t f (1  f )(  )
e1 e2
n n 1 2
on rejette H0, soit on accepte H1 :
1 1
si f  f   t f (1  f )(  )
e1 e1
n n 1 2

 Cas des grands échantillons (n1 ≥ 30 et n2 ≥ 30)


Le coefficient tα est défini par : P( T ≤ – tα ) = α ou P( T ≥ – tα ) = 1 – α
T suit la loi normale centrée réduite N(0;1)
En particulier si:
 α = 0,05 soit 1 – α = 0,95; tα = 1,645
 α = 0,02 soit 1 – α = 0,98; tα = 2,06
 α = 0,01 soit 1 – α = 0,99; tα = 2,33

 Cas des petits échantillons (n1 < 30 et n2 < 30)


Le coefficient tα est défini par P( T ≤ – tα ) = α ou P( T ≥ – tα ) = 1 – α
T suit la loi de STUDENT à (n1 − 1) + (n2 − 1) degré de liberté.

20
VI- TEST D’AJUSTEMENT DU χ2
But
Le test consiste à comparer la distribution observée d’une variable aléatoire X (mesurée sur un échantillon) à une
distribution théorique.
Hypothèses à tester :
H0 : la répartition observée coïncide avec la répartition supposée
H1 : les répartitions diffèrent
Principe
Le test du χ2 consiste à mesurer l’écart entre les valeurs observées et les valeurs attendues, calculées théoriquement
d’après le modèle de distribution, après regroupement en classes.
Tableau de calcul

Règle de décision:
Au seuil de risque α

rejet de H0 si :
 
2 2

obs  ,

Distribution de la variable :
La distribution de la variable suit une distribution dite du χ2
 si les effectifs attendus des classes Ai ≤ 5 (nécessité de regrouper des classes voisines !)
 à ν = k – 1 – r degré de liberté, où k = nombre classe après regroupement et r = nombre de paramètres
à estimer pour construire la répartition théorique (r = 0 si aucun paramètre n’est nécessaire).

21
VII- TEST D’INDEPENDANCE DU χ2
But
Vérifier l’indépendance de 2 variables aléatoires X et Y.
Hypothèses à tester : H0 : X et Y indépendantes contre H1 : X et Y dépendantes

Tableau de contingence observée pour un échantillon de taille n : (effectifs observés: nobs)

Sous l’hypothèse nulle, le tableau d’indépendance devrait être : (effectifs attendus: natt)

Le tableau de calcul de χ2

Principe :
Principe du test : comparer les effectifs attendus et les effectifs observés.
Statistique à calculer :
n obs
 nij 
att 2

  
2 ij
obs att
i j n ij

Règle de décision:
Au seuil de risque α avec υ = (m – 1)× (k – 1) degré de liberté, (m lignes et k colonnes)
On accepte H0 si :
 
2 2

obs  ,

22
EXERCICES

23
Exercice n°1 Soit une - petite - population composée des 6 éléments 0, 1, 2, 4, 5 et 6.
a) Calculer la moyenne et la variance de cette population.
b) Établir les différents échantillons de taille 2, avec remise, que l’on peut extraire de la population;
en calculer les moyennes.
c) Choisir ensuite tous les échantillons de taille 2, sans remise, et calculer leurs moyennes.
d) Déterminer les paramètres de la distribution d’échantillonnage. Comparer avec ceux de la
population

Exercice n°2 Un bureau d’étude souhaite pratiquer un sondage concernant les habitudes en
matière de transport dans une ville de 100 000 habitants. On élabore le questionnaire suivant :
- Pratiquez-vous le covoiturage ?
- Quel est le montant de vos dépenses consacré au transport chaque semaine ?
On procède au sondage en tirant un échantillon aléatoire simple sans remise. Le sondage est
réalisé avec un risque α = 5 %, en admettant une erreur sur la proportion de covoiturage de 2 %
et une erreur de 100 Ar sur les dépenses. Quelle doit alors être la taille de l’échantillon ? Quelle
est la proportion de covoiturage ? (N.B. On supposera qu’une étude préalable sur un petit
échantillon a indiqué un écart-type de 2 000 Ar pour les dépenses hebdomadaires)

Exercice n°3 Une société américaine de cosmétiques souhaite estimer le marché potentiel d’un
nouveau produit : un sondage est effectué pour mesurer la consommation moyenne de savon
dans la population-cible de ce produit. La consommation mensuelle moyenne ressort à 3,73
onces (unité de mesure internationale utilisée chez cette compagnie) sur un échantillon de trente
personnes, avec un écart-type calculé de 1,6 onces.
a) Donnez un intervalle de confiance à 95 % de la consommation mensuelle moyenne de savon
de la population-cible.
b) Quelle devrait être la taille de l’échantillon permettant de réduire la largeur totale de l’intervalle
de confiance à 0,5 onces, avec une probabilité de 0,95?

Exercice n°4 Une enquête est réalisée auprès des lecteurs d’un magazine. 340 hommes et 114
femmes y répondent. Les résultats révèlent que la moyenne d’âge de l’échantillon masculin est
de 47 ans ; celle des femmes est de 44 ans. On peut supposer que l’écart-type au niveau de la
population est de 8 ans, sans distinction de genre.
a) Déterminer au seuil de 95 % l’intervalle d’âge moyen de la population masculine des lecteurs
du magazine.
b) Déterminer au même niveau de confiance l’intervalle d’âge moyen de la population féminine.
c) Comparer les largeurs des intervalles estimés.

Exercice n°5 Lors d’un test de production en usine, on propose à 18 employés sélectionnés au
hasard d’utiliser une nouvelle méthode de travail. Le taux de production moyen de ces employés
est alors de 80 et l’écart-type mesuré est de 10. En supposant une distribution normale, estimez
le taux de production moyen assuré par cette nouvelle méthode, à l’aide d’un intervalle au seuil
de 95 % puis de 99 %.

Exercice n°6 Les rendements (en quintaux par hectare) obtenus sur 16 parcelles identiques,
cultivées avec la même variété de maïs, sont donnés ci-dessous : 39,6 ; 27 ; 33,1 ; 32,4 ; 39,2 ;
25,2 ; 36 ; 33,1 ; 32,4 ; 32 ; 29,5 ; 24,1 ; 33,1 ; 32,4 ; 29,2 ; 25,9 Des expériences antérieures ont
montré que le rendement suit une loi normale.
a) Donner une estimation ponctuelle du rendement moyen de cette variété de maïs.
b) Construire un intervalle de confiance à 95 % pour le rendement.
c) Pour obtenir un intervalle réduit de moitié par rapport au précédent, quelle devrait être la valeur
de n au même niveau de confiance de 95 %? d) Combien faudrait-il cultiver de parcelles pour
connaître le rendement moyen à 1 q/ha près, au même niveau de confiance de 95 % ?
24
Exercice n°7 On veut estimer la durée de vie moyenne d'un modèle de lampe électrique, après
avoir noté la durée de vie de 100 lampes. On a trouvé une durée de vie moyenne de 970 heures
avec un écart-type égal à 100 heures.
a) Estimer par intervalle de confiance la durée de vie moyenne des lampe du modèle au niveau
de confiance de 95 %.
b) Quelle doit être la taille de l'échantillon à prélever pour que l'erreur sur la durée de vie moyenne
n'excède pas 10 h, au degré de confiance de 95 % ?

Exercice n°8 Sur 20 personnes en bonne santé, on trouve un taux de glycémie moyen de
0,985g/l, avec un écart-type de 0,11 g/l. On admet que le taux de glycémie de la population adulte
suit une loi normale.
a) Donner un intervalle de confiance de niveau 0,95 pour la moyenne du taux de glycémie dans
la population considérée.
b) Que devient cet intervalle si les mêmes valeurs de la moyenne et de l’écart-type proviennent
d’un échantillon de 200 personnes ?

Exercice n°9 Peu de temps avant une élection, un candidat fait réaliser un sondage. Parmi 150
personnes interrogées, 45 se disent prêtes à voter pour lui.
Estimer la proportion de population favorable à ce candidat, au degré de confiance de 95 %.

Exercice n°10 Pour contrôler un important stock commercial comprenant des dizaines de milliers
d’articles, on sélectionne au hasard un échantillon de 800 articles. Parmi eux, 36 sont défectueux.
Estimer par intervalle de confiance la proportion d’articles défectueux du stock, au niveau de
confiance de 95 %.

Exercice n°11 D'après l'enquête réalisée par un journal économique auprès de 250 de ses
lecteurs, 47 % d’entre eux placent leurs avoirs dans des biens immobiliers.
a) Déterminer au seuil de 95 % l’intervalle de confiance sur la proportion d’investisseurs en biens
immobiliers dans la population.
b) Quelle devrait être la taille de l’échantillon pour atteindre une erreur d’échantillonnage de 5 %?

Exercice n°12 Un contrôle est effectué sur des batteries de GSM, afin d’estimer le pourcentage
de conformité dans un lot de 5 000 unités. Un échantillon aléatoire simple de 100 batteries fournit
les résultats suivants : 80 sont conformes et 20 présentent un défaut.
a) Estimer par intervalle de confiance la proportion de batteries conformes du lot, au niveau de
confiance de 95 %.
b) Quelle serait la taille de l’échantillon requise pour obtenir une marge d’erreur inférieure ou
égale à 5 %, avec le niveau de confiance souhaité ?

Exercice n°13 Une entreprise fabrique des supports métalliques. Un de ses clients exige que les
supports aient, en moyenne, une longueur de 70 mm. La longueur des supports étant distribuée
normalement. On veut vérifier si le procédé de fabrication opère à 70 mm. Un échantillon aléatoire
de 25 supports provenant de la fabrication donne une longueur moyenne de 69 mm et un écart-
type σe = 3 mm.
Doit-on conclure, au seuil de signification de α = 0,05, que la machine est déréglée ?

Exercice n°14 La firme Michelin prétend que ses pneus sont conçus pour rouler en moyenne au
moins 45 000 kilomètres. Des tests réalisés sur un échantillon de 50 pneus ont indiqué une
moyenne de 44 250 kilomètres et un écart-type de 1 600 kilomètres.
Avec un niveau de signification de 5 %, peut-on rejeter l’affirmation de la firme ?

25
Exercice n°15 Selon le responsable du département « montage » d’une entreprise, le temps
nécessaire à l’assemblage d’un transistor est, en moyenne, de 10 minutes. Un chronométrage
de cette opération est réalisé sur un échantillon de 25 pièces. La moyenne obtenue est de 11
minutes, avec un écart-type de 1 minute. En supposant une distribution normale des temps de
montage, peut-on conclure que le temps moyen d’assemblage est supérieur à la valeur citée par
le responsable, au seuil de signification de 5 % ?

Exercice n°16 Il y a près de 40 ans, une enquête indiquait que les adolescents de 15 ans
passaient en moyenne 8,4 heures par semaine à faire leurs devoirs à la maison, avec un écart-
type de 3,3 heures. Aujourd’hui, la même étude est réalisée sur un échantillon de 200
adolescents. Ceux-ci passent en moyenne 7,1 heures par semaine à faire leurs devoirs.
a) Peut-on conclure à une diminution significative du temps de travail depuis la première étude,
en prenant un niveau de confiance de 99 % ?
b) Même question pour un échantillon réduit à 20 élèves, avec une moyenne d’échantillon
inchangée.

Exercice n°17 Une enquête réalisée sur un échantillon de 500 ménages a montré que 419
d’entre eux possédaient une connexion internet. Peut-on dès lors rejeter, à l’aide d’un test
bilatéral, l’hypothèse que 80 % des ménages ont bien une connexion internet,
Au seuil de signification de 5 % ? Au seuil de 1 % ?

Exercice n°18 Pour contrôler un important stock commercial comprenant des dizaines de milliers
d’articles, on sélectionne au hasard un échantillon de 800 articles. Parmi eux, 36 sont défectueux.
Le directeur des ventes est tenu de respecter une proportion d’articles défectueux ne dépassant
pas 3 %. Acceptera-t-il le stock, au niveau de signification de 5 % ? Au niveau de 1 % ?

Exercice n°19 Une importante compagnie d’assurances a relevé des données concernant l’âge
moyen de ses clients dans deux succursales, l’une établie en Allemagne et l’autre en Belgique.
Deux échantillons aléatoires simples ont été sélectionnés et donnent les résultats suivants :
Succursale A Succursale B
n1 = 40 n2 = 50
xe1 = 40 ans xe2 = 35 ans
 e1ans  e2ans
Tester l’hypothèse d’égalité des moyennes H0 : mA = mB contre l’alternative H1 : mA mB, au seuil
de signification de 5 %.
Que peut-on conclure au sujet de l’âge moyen des clients dans les deux pays?

Exercice n°20 Les délais moyens (en jours) de construction de bâtiments standard ont été
déterminés sur deux échantillons indépendants, sélectionnés parmi les réalisations des
entrepreneurs A et B :
Entreprise A Entreprise B
n1 = 9 n2 = 16
xe1 = 150 xe2 = 146
 e1
2
2 e2
Peut-on considérer, au seuil de signification de 5 %, qu’un entrepreneur est plus rapide que
l’autre?

Exercice n°21 Lors d’un examen, 10 copies ont été prélevées et corrigées successivement par
deux examinateurs différents (X et Y). Les notes relevées pour chacune des copies sont :
X : 13 ; 11 ; 15 ; 17 ; 11 ; 13 ; 18 ; 10 ; 17 ; 13
Y : 16 ; 14 ; 14 ; 20 ; 10 ; 16 ; 20 ; 12 ; 16 ; 12
Peut-on conclure que les notes obtenues auprès de X sont, en moyenne, inférieures à celles
obtenues auprès de l’examinateur Y ?
26
Exercice n°22 Deux publicités pour des marques concurrentes A et B ont été affichées durant
une semaine à différents endroits de la ville de Mons. Une semaine plus tard, une enquête a été
réalisée pour déterminer l’impact de ces publicités sur les consommateurs. On a ainsi questionné
des individus qui avaient relevé la présence des affiches sur leur intérêt pour les produits des
deux marques :
Nombre de répondants Se disent intéressés par le produit
Marque A 150 63
Marque B 200 60
Au niveau de signification de 5 %, tester l’hypothèse qu’il n’y a pas de différence dans l’intérêt
porté aux deux marques.

Exercice n°23 Un recensement effectué en 2021 a fait apparaître que, dans une région,
 33 % des habitants n'utilisaient jamais les transports en commun,
 42 % les utilisaient occasionnellement,
 25 % les utilisaient régulièrement.
Pour savoir si cette répartition a évolué, on effectue un sondage sur 1 000 habitants de la région
en 2015 : 290 n’utilisent jamais / 450 parfois / 260 régulièrement les transports en commun.
Tester l’hypothèse selon laquelle les proportions respectives n’ont pas varié, au seuil de 5 %.

Exercice n°24 Un téléphone portable est vendu sous quatre couleurs différentes. Les statistiques
d'un point de vente sont les suivantes :
Couleur noir blanc gris rouge
Nombre de ventes 80 50 75 35
Peut-on affirmer que la couleur a un effet sur les ventes, au seuil de 5 % ?

Exercice n°25 On dispose des statistiques suivantes relatives aux accidents du travail survenus
par semaine dans un grand groupe industriel :
Nombre
0 1 2 3 4
d’accidents
Nombre de
30 24 7 2 1
semaines
Peut-on affirmer, au seuil de 5 %, que le nombre d'accidents par semaine est distribué suivant
une loi de Poisson ?

Exercice n°26 Dans une étude sur l’évaluation de la condition physique des jeunes de 20 à 25
ans, on a mesuré diverses caractéristiques physiologiques, dont la consommation d’oxygène.
Les données recueillies auprès des 60 volontaires qui ont participé à l’étude ont été regroupées
dans le tableau suivant (valeurs exprimées en millilitres par kilogramme et par minute), en classes
d’amplitude 4 (ml/kg/min) :
Consommation d'oxygène Nombre d’individus
[19-23[ 2
[23-27[ 20
[27-31[ 14
[31-35[ 14
[35-39[ 8
[39-43[ 2
Ces données permettent-elles de conclure, au seuil de signification de 5 % , à une distribution
normale de la consommation d’oxygène?

27
Exercice n°27 Une entreprise fabriquant des produits chimiques souhaite, dans un but de
planification des stocks, vérifier si les ventes journalières (en m³/jour) d’un de ses produits suit
une distribution normale. Un échantillon aléatoire de relevés journaliers, sur une période totale
de 200 jours, a donné lieu aux résultats suivants :
Ventes (m³ /jour) Effectif
[ 00.0, 34.0 [ 0
[ 34.0, 35.5 [ 13
[ 35.5, 37.0 [ 20
[ 37.0, 38.5 [ 35
[ 38.5, 40.0 [ 43
[ 40.0, 41.5 [ 51
[ 41.5, 43.0 [ 27
[ 43.0, 44.5 [ 10
[ 44.5, 46.0 [ 1
[ 46.0 et plus 0
TOTAL 200
Mettre en œuvre un test au seuil de 5 % pour vérifier la normalité de la distribution des ventes.

Exercice n°28 Le département de ressources humaines d’une firme rapporte les données
suivantes concernant l’engagement de 12 jeunes cadres :
Candidat Sélectionnés Non sélectionnés Total
Masculin 7 33 40
Féminin 5 35 40
Utiliser un test de ² d’indépendance pour déterminer si la sélection effectuée est biaisée en
faveur des candidats de sexe masculin, au seuil de signification de 10 %.

Exercice n°29 Deux groupes A et B sont formés chacun de 100 malades. Un sérum est
administré au groupe A, mais pas au groupe B, qui sert de « contrôle ». Les résultats montrent
que dans les groupes A et B, respectivement 75 et 65 patients guérissent. Le sérum est-il efficace
au seuil de 5 % ? et au seuil de 10 % ?

Exercice n°30 Une enquête a été réalisée auprès de 1 484 citoyens, quant à leur appréciation
de la pollution dans leur environnement quotidien. La question posée était « Avez-vous
l'impression que la pollution du milieu naturel est beaucoup plus grave, un peu plus grave,
identique, un peu moins grave ou beaucoup moins grave qu'il y a 10 ans ? ». Le tableau suivant
donne la répartition des répondants selon leur âge et leur impression concernant la gravité de la
pollution du milieu naturel:
Impression de la gravité de la pollution
Un peu
Beaucoup Un peu plus Beaucoup
Âge Identique moins
plus grave grave moins grave
grave
18-24 ans 153 37 5 13 10
25-54 ans 615 185 59 60 21
55 ans et
191 78 26 25 6
plus
Peut-on affirmer qu’il y a un lien entre l’âge des répondants et leur impression sur cette question,
au seuil α = 0,05 ?

28
Exercice n°31 L’entreprise Simtech fabrique des pièces électroniques pour l’entreprise Gescom.
Gescom utilise ces pièces dans la fabrication d’un de ses produits. Gescom exige que les lots
livrés par Simtech contiennent au plus 1% de défectueux. Les lots sont habituellement constitués
de 5 000 pièces. Le qualiticien de l’entreprise Gescom a mis au point le plan de contrôle suivant
qui est utilisé pour réceptionner chaque livraison de Simtech : à chaque livraison, prélever au
hasard 200 pièces.
Un jour, on a trouvé 4 pièces défectueuses.
Au seuil de risque de 0,05, le lot sera-t-il refusé et sera retourné à l’entreprise Simtech?

Exercice n°32 L’une des questions posées lors de l’étude sur les abonnés à la Compagnie Air
MADAGASCAR était : « Au cours des 12 derniers mois, lors de vos voyages d’affaires, quel type
de billet d’avion avez-vous acheté le plus souvent ? ». Les données obtenues sont regroupées
dans le tableau de contingence ci-dessous :
Type de vols
Type de billet Vols nationaux Vols internationaux
Première classe 29 22
Classe affaire 95 121
Classe économique 518 135
Utiliser le test de χ2 au seuil de risque de 0,05 pour tester l’indépendance du type de vol et du
type de billet.

Exercice n°33 Dans le but d’estimer la durée moyenne du trajet pour aller à l’école pour les
étudiants de l’INFOCENTRE DE LA SALLE, une étude a été effectuée auprès d’un échantillon
de 50 étudiants parmi les 270. On a trouvé une durée moyenne égale à 1h 45 avec un écart-type
de 6,25minutes.
1. Quel est le taux de sondage.
2. Quel serait l’intervalle de confiance à 95% pour la durée moyenne du trajet pour aller à
l’école de la population des étudiants.

Exercice n°34 Selon des statistiques rapportées par l’Assurance MAMA, un nombre important
de scooters ne sont pas assurés. Des résultats d’échantillon, cohérents avec ce rapport, indique
que 46 scooters sur 200 ne sont couverts par une assurance.

Estimer par intervalle de confiance le pourcentage de scooters non couverts par une assurance
au niveau de confiance de 0,95.

De quelle taille, l’échantillon devrait-il être si l’on souhaite obtenir une marge d’erreur de 0,05 ?
(seuil de confiance de 95%).

Exercice n°35 Une confiture est qualifiée de «pur sucre» si elle contient entre 420 et 520g de
sucre par kg. Un fabriquant vérifie 200 pots de 1 kg. Il trouve que le poids moyen de sucre est
465g avec un écart-type de 30g. En considérant l’échantillon comme représentatif, la production
du fabricant peut- elle porter la mention «pur sucre», au niveau de confiance de 0,95.

29

Vous aimerez peut-être aussi