Vous êtes sur la page 1sur 260

Adil ELMARHOUM

Docteur en statistique et informatique appliquée

Mohamed DIOURI

Docteur Ingénieur Président Fondateur de l’IGA

STATISTIQUES DECISIONNELLES Exercices corrigés avec rappels de cours

COLLECTION SCIENCES TECHNIQUES ET MANAGEMENT

STATISTIQUES DECISIONNELLES Exercices corrigés avec rappels de cours

Tous les droits sont réservés Dépôt légal N° 2003/2163 I.S.B.N. 1954-409-51-3 Première édition 2003 Deuxième édition 2008

Les livres de la collection Sciences, Techniques et Management sont co-édités par les éditions TOUBKAL et l’Institut supérieur du Génie Appliqué, IGA.

A la mémoire de Myriam Pour que la mémoire demeure Lorsque une âme Pleure Une autre âme Est-il plus grand malheur ! M. DIOURI

A ma fille Zineb A. ELMARHOUM

SOMMAIRE

LIMINAIRE

7

PARTIE 1 : ECHANTILLONNAGE STATISTIQUE

9

CH. 1. DETERMINATION DE L’ECHANTILLON

11

1.1. Position du problème.

11

1.2. Détermination de la taille de l’échantillon.

11

1.3. Méthodes d’échantillonnage.

15

1.4. Enoncés des exercices d’application.

19

1.5. Solutions des exercices d’application.

22

PARTIE 2 : LOI DE PROBABILITE D’ECHANTILLON

35

CH. 2. LOI DE PROBABILITE DE LA MOYENNE D’ECHANTILLON

37

2.1. Position du problème.

37

2.2. Population avec moyenne, variance et loi de probabilité. Connues.

38

2.3. Population avec moyenne et loi de probabilité. Connues.

39

2.4. Population avec moyenne, variance et loi de probabilité. Inconnues.

39

2.5. Loi de probabilité de la différence de deux moyennes.

40

2.6. Enoncés des exercices d’application.

41

2.7. Solutions des exercices d’application.

43

CH. 3. LOI DE PROBABILITE DE LA VARIANCE D’ECHANTILLON

55

3.1. Position du problème.

55

3.2. Enoncés des exercices d’application.

56

3.3. Solutions des exercices d’application.

58

CH. 4. LOI DE PROBABILITE DE LA PROPORTION D’ECHANTILLON

71

4.1. Position du problème.

71

4.2. Loi de probabilité selon l’échantillon.

72

4.3. Enoncés des exercices d’application.

73

4.4. Solutions des exercices d’application.

74

PARTIE 3 : PRINCIPE DE L’ESTIMATION

89

CH. 5. ESTIMATION DE LA MOYENNE D’UNE POPULATION

91

5.1. Estimation d’une moyenne.

91

5.2. Estimation de la somme de moyennes.

93

5.3.

Enoncés des exercices d’application.

94

5.4.

Solutions des exercices d’application.

98

CH. 6. ESTIMATION DE LA VARIANCE D’UNE POPULATION

115

6.1. Estimation d’une variance.

115

6.2. Estimation de la somme de variances.

117

6.3. Enoncés des exercices d’application.

117

6.4. Solutions des exercices d’application.

118

CH. 7. ESTIMATION DE LA PROPORTION D’UNE POPULATION

129

7.1. Estimation ponctuelle.

129

7.2. Estimation par intervalle de confiance.

129

7.3. Enoncés des exercices d’application.

130

7.4. Solutions des exercices d’application.

131

PARTIE 4 : TESTS STATISTIQUES

137

CH. 8. TESTS SUR LES MOYENNES

143

8.1. Test sur un échantillon.

143

8.2. Test sur deux échantillons.

145

8.3. Test sur plusieurs échantillons : analyse de la variance (ANOVA).

150

8.4. Enoncés des exercices d’application.

156

8.5. Solutions des exercices d’application.

161

CH. 9. TESTS SUR LES VARIANCES

183

9.1. Test sur un échantillon.

183

9.2. Test sur deux échantillons.

184

9.3. Enoncés des exercices d’application.

186

9.4. Solutions des exercices d’application.

188

CH. 10. TESTS SUR LES PROPORTIONS

199

10.1. Test sur un échantillon.

199

10.2. Test sur deux échantillons.

201

10.3. Test sur plusieurs échantillons.

203

10.4. Enoncés des exercices d’application.

206

10.5. Solutions des exercices d’application.

208

CH. 11. TESTS NON PARAMETRIQUES

223

11.1. Test de validité de loi de probabilité d’une distribution.

223

11.2. Test d’indépendance.

225

11.3. Enoncés des exercices d’application.

226

11.4. Solutions des exercices d’application.

230

TABLES STATISTIQUES

245

BIBLIOGRAPHIE

259

LIMINAIRE

Ce livre est sa 2 ème édition, il est le 3 e d’une trilogie des mêmes auteurs, dont 2 livres ont déjà été édités, à savoir : « Statistique descriptive » et « Probabilités ».

Dans le présent ouvrage, les auteurs s’intéressent aux problèmes de l’échantillonnage statistique, tant du point de vue des méthodes d’échantillonnage que de celui des estimations et de tests statistiques.

Lorsqu’on souhaite collecter des informations sur une population, deux possibilités s’offrent :

- La première solution consiste à observer ou interroger tous les éléments de la population, c’est ce qu’on appelle une enquête complète ou enquête exhaustive ou recensement ;

- La seconde solution consiste à observer ou interroger une partie de la population, c’est ce

qu’on appelle enquête partielle ou sondage. Les éléments de la population qui sont réellement observés constituent l’échantillon et l’opération qui consiste à choisir ces éléments est appelée échantillonnage.

L’alternative décrite ci-dessus se présente dans beaucoup de situations et le recours à la deuxième solution c’est-à-dire l’enquête partielle est la pratique la plus courante.

Par rapport à l’enquête complète, l’enquête partielle offre une série d’avantages :

- Le coût global de l’enquête partielle est en général plus réduit que le coût global d’une enquête complète ;

- L’enquête par sondage est plus rapide que l’enquête

complète,

surtout lorsque

la

caractéristique étudiée présente des modifications assez importantes au cours du temps ;

- Les erreurs d’observations sont plus réduites que dans l’enquête exhaustive, du fait qu’il y a moins de données à manipuler ;

- L’enquête partielle est, dans certaines situations particulières, la seule solution possible, c’est le cas lorsque l’observation présente un caractère destructif.

7

Ainsi, la problématique des statistiques décisionnelles sera étudiée sous ses 3 aspects :

- D’abord, la détermination de l’échantillon (en taille et en qualité), en vue d’avoir les informations sur la population mère à étudier. Ceci fera l’objet de la partie 1 avec son unique chapitre 1.

- Ensuite, la détermination des lois de probabilité suivie par les paramètres de l’échantillon (moyenne, variance et proportion). Ceci fera l’objet de la partie 2 et de ses chapitres 2, 3 et 4.

- Enfin, une fois l’échantillon et les lois de probabilité des paramètres déterminés, réalisation des calculs sur les paramètres de la population mère étudiée. Ceci fera l’objet de la partie 3 avec ses chapitres 5, 6 et 7 et de la partie 4 avec ses chapitres 8, 9, 10 et 11.

8

Statistiques décisionnelles

Partie 1. Echantillonnage statistique

PARTIE 1 ECHANTILLONNAGE STATISTIQUE

Dans cette 1 ère partie, nous nous proposons de résoudre tous les cas types de problèmes d’échantillons extraits d’une population mère en respectant un certain nombre de contraintes.

- Contraintes de précision ; - Contrainte de budget.

Nous aurons ainsi à déterminer la taille et la nature de l’échantillon qui donne les informations souhaitées sur la population mère à étudier, avec la précision, fixée, au préalable et tout en veillant à ne pas dépasser le budget alloué à l’étude.

9

Statistiques décisionnelles

Partie 1. Echantillonnage statistique

10

Statistiques décisionnelles

1. Détermination de l’échantillon

CHAPITRE 1 DETERMINATION DE L’ECHANTILLON

1.1. POSITION DU PROBLEME.

La détermination d’un échantillon nécessite la détermination :

- de sa taille : nombre d’éléments à extraire de la population mère ;

- de la qualité de ses éléments : nature des éléments à extraire.

Les objectifs essentiels que doit remplir un échantillon sont de 2 sortes :

- Il doit être représentatif de la population mère, c’est-à-dire qu’il doit donner des informations sur cette population avec la précision exigée ;

- Il doit avoir un coût compatible avec le budget disponible.

1.2. DETERMINATION DE LA TAILLE DE L’ECHANTILLON.

La détermination de la taille d’un échantillon dépend essentiellement de deux facteurs :

- La précision souhaitée : plus on souhaite des résultats précis, plus l’échantillon nécessaire est important.

- Le budget disponible : plus on augmente la taille de l’échantillon, plus le coût de l’enquête s’accroît.

La taille de l’échantillon doit être celle qui permet d’atteindre le meilleur équilibre entre le risque d’erreurs d’échantillonnage, le coût induit par ces erreurs, et le coût de l’échantillonnage lui-même.

11

Statistiques décisionnelles

1. Détermination de l’échantillon

1.2.1. Cas ou la loi de probabilité de la variable aléatoire n’est pas connue.

Dans ce cas on utilise l’inégalité de Bienaymé Tchebycheff, elle aboutit, en général, à des échantillons de tailles élevées.

1.2.1.1. Taille d’échantillon pour estimer une moyenne.

- La taille de l’échantillon dépend de la précision souhaitée pour la généralisation des résultats.

- La précision (ou erreur d’échantillonnage) s’exprime en valeur absolue ou relative. Elle

représente la largeur de l’intervalle de confiance de la moyenne. Soit la moitié de cette largeur.

Pour obtenir un maximum de fiabilité dans les résultats, on commence par se fixer une marge

d'erreur " " que l'on accepte ; on se fixe ensuite un seuil de confiance (1- ), qui représente la

probabilité minimale pour que la moyenne calculée à partir de l’échantillon ne s’écarte pas de

la moyenne de la population de plus de . Ceci s’écrit :

Ce qui donne :

n

2

2

.

P( X m

avec :

n

: Taille de l’échantillon ; : Précision souhaitée ; : Définit le seuil de confiance (1 - )

< ) 1-

: Ecart- type d’échantillon, il est souvent inconnu, il faut avoir des informations antérieures ou mener une étude pilote.

1.2.1.2. Taille d’échantillon pour estimer une proportion.

- La taille de l’échantillon dépend de la précision souhaitée pour la généralisation des résultats.

- La précision (ou erreur d’échantillonnage) s’exprime en valeur absolue ou relative. Elle

représente la largeur de l’intervalle de confiance de la proportion. Soit la moitié de cette largeur.

12

Statistiques décisionnelles

1. Détermination de l’échantillon

Pour obtenir un maximum de fiabilité dans les résultats, on commence par se fixer une marge

d'erreur " " que l'on accepte ; on se fixe ensuite un seuil de confiance (1- ), qui représente la

probabilité minimale pour que la fréquence calculée à partir de l’échantillon ne s’écarte pas de

la proportion dans la population de plus de . Ceci s’écrit :

Ce qui donne :

n

p . q

2

.

P( f

n

p

< ) 1-

avec :

n

: Taille de l’échantillon ;

: Précision souhaitée ;

: Définit le seuil de confiance (1 - )

p

: Proportion dans la population (q = 1 p). Elle est souvent inconnue, il faut avoir des

informations antérieures ou mener une étude pilote, sinon on utilise une proportion de 50 %.

1.2.2. Cas ou la loi de probabilité de la variable aléatoire est une loi normale.

Dans ce cas, on utilise la loi normale.

1.2.2.1. Taille d’échantillon pour estimer une moyenne.

1.2.2.1.1. Cas des prélèvements dans une population finie avec remise ou dans une population

infinie sans remise.

Pour obtenir un maximum de fiabilité dans les résultats, on commence par se fixer une marge

d'erreur " " que l'on accepte ; on se fixe ensuite un seuil de confiance (1- ), qui représente la

probabilité minimale pour que la moyenne calculée à partir de l’échantillon ne s’écarte pas de

la moyenne de la population de plus de . Ceci s’écrit :

Ce qui donne :

n

Z

2

2

1

2

2

P(

la moyenne de la population de plus de . Ceci s’écrit : Ce qui donne :

X m

13

< ) 1-

Statistiques décisionnelles

1. Détermination de l’échantillon

1.2.2.1.2. Cas des prélèvements dans une population finie sans remise.

De la même manière, on trouve :

n

1-

2

² N

² N

1-

2

²

1.2.2.2. Taille d’échantillon pour estimer une proportion.

Pour obtenir un maximum de fiabilité dans les résultats, on commence par se fixer une marge

d'erreur " " que l'on accepte ; on se fixe ensuite un seuil de confiance (1- ), qui représente la

probabilité minimale pour que la fréquence calculée à partir de l’échantillon ne s’écarte pas de

la proportion dans la population de plus de . Ceci s’écrit :

P( f

n

p

< ) 1-

1.2.2.2.1. Cas des prélèvements dans une population finie avec remise ou dans une population

infinie sans remise.

On trouve :

avec :

n

Z

2 p . q

1

2

2

n : Taille de l’échantillon ; : Précision souhaitée ;

p : Proportion dans la population (q = 1 p). Elle est souvent inconnue, il faut avoir des

informations antérieures ou mener une étude pilote, sinon on utilise une proportion de 50 %.

1.2.2.2.2. Cas des prélèvements dans une population finie sans remise.

On trouve :

n

1-

2

p q N

² N

1-

2

p q

14

Statistiques décisionnelles

1. Détermination de l’échantillon

1.3. METHODES D’ECHANTILLONNAGE.

Pour que les résultats d’une enquête par sondage puissent être extrapolés à l’ensemble de la population faisant l’objet de l’étude, il est indispensable que cette enquête soit conduite selon des règles bien définies et que les calculs conduisant à ces extrapolations soient conformes à la procédure d’échantillonnage utilisée.

L’échantillon choisi doit être le plus représentatif possible de la population étudiée, c’est-à-dire le degré de correspondance entre l’information recueillie et ce que nous apprendrait un recensement complet de la population dépend en grande partie de la façon dont l’échantillon a été choisi.

La théorie moderne de l’échantillonnage nous propose une distinction fondamentale entre échantillons basés sur la probabilité : échantillons probabilistes et échantillons non basés sur la probabilité : échantillons non probabilistes ou empiriques.

1.3.1. METHODES D’ECHANTILLONNAGE PROBABILISTES.

1.3.1.1. Echantillonnage aléatoire simple.

Un échantillonnage est aléatoire si tous les individus de la population ont la même chance de faire partie de l’échantillon ; il est simple si les prélèvements des individus sont réalisés indépendamment les uns des autres.

En particulier, si la population est finie, cette définition correspond au tirage aléatoire avec remise, qui permet de traiter les populations finies comme des populations infinies.

Pour prélever un échantillon aléatoire et simple il faut :

- Constituer la base de sondage qui correspond à la liste complète et sans répétition des éléments de la population ; - Numéroter ces éléments de 1 à N ; - Procéder, à l’aide d’une table de nombres aléatoires ou d’un générateur de nombres pseudo aléatoires à la sélection des unités différentes qui constitueront l’échantillon.

1.3.1.2. Echantillonnage stratifié.

L’échantillonnage stratifié est une technique qui consiste à subdiviser une population hétérogène, d’effectif N, en P sous populations ou « strates » plus homogènes d’effectif Ni de telle sorte que N= N 1 +N 2 +……. +Np. Un échantillon, d’effectif n i , est par la suite, prélevé indépendamment au sein de chacune des strates en appliquant un plan d’échantillonnage au choix de l’utilisateur. Le plus souvent, on procédera par un échantillonnage aléatoire et simple à l’intérieur de chaque strate.

15

Statistiques décisionnelles

1. Détermination de l’échantillon

La stratification peut entraîner des gains de précision appréciables, elle facilite en outre les opérations de collecte des données et fournit des informations pour différentes parties de la population.

Pour la répartition de l’effectif total, n, de l’échantillon dans les différentes strates, la première solution, dite proportionnelle, consiste à conserver la même fraction d’échantillonnage dans chaque strate. Une seconde solution, dite optimale, tient compte du budget de l’enquête.

1.3.1.2.1. Répartition proportionnelle.

La répartition proportionnelle consiste à répartir la taille de l’échantillon n en utilisant la même fraction de sondage f dans chacune des strates. Cette solution tient compte d’un seul facteur qui est le poids de chaque strate.

Désignons par w i le poids de la strate et par f la fraction de sondage constante.

f

n

w

N

i

N

i

N

N

Le nombre d’unités à choisir dans chacune des strates est donc :

n

i

w .n

i

f .N

i

1.3.1.2.2. Répartition optimale.

Cette deuxième solution consiste à répartir l’effort d’échantillonnage de façon inégale dans les différentes strates. Elle tient compte de quatre facteurs :

- Budget total de l’enquête, G

- Poids de la strate, w i

- Coût de la collecte de l’information dans la strate, c i

- Dispersion à l’intérieur de la strate, mesurée par l’écart type i .

Le nombre d’unités à choisir dans chacune des strates est :

n

i

k

w i i c i
w i
i
c
i

avec

16

k

G w c i i i
G
w
c
i
i
i

Statistiques décisionnelles

1. Détermination de l’échantillon

1.3.1.3. Echantillonnage par degrés.

L’échantillonnage par degrés regroupe toute une série de plans d’échantillonnage caractérisés par un système ramifié et hiérarchisé d’unités.

Dans le cas de deux degrés, par exemple, on considère que la population est constituée d’un certain nombre d’unités de sondage du premier degré (unités primaires), chacune de ces unités étant constituée d’un certain nombre d’unités du second degré. (Unités secondaires).

On réalise d’abord un échantillonnage d’unités du premier degré. Ensuite, dans chaque unité sélectionnée au premier degré, on prélève un échantillon d’unités du second degré. Le mode de sélection pouvant varier d’un degré à l’autre.

L’échantillonnage par degrés s’impose lorsqu’il est impossible d’inventorier les éléments de toute la population et qu’il est possible d’énumérer les unités prélevées au premier degré. Il permet une concentration du travail sur le terrain et donc une réduction des coûts.

Pour un même nombre total d’observations, il faut indiquer que l’échantillonnage aléatoire et simple est plus précis que l’échantillonnage par degré.

1.3.1.4. Echantillonnage systématique.

L’échantillonnage systématique est une technique qui consiste à prélever des unités d’échantillonnage situées à intervalles égaux. Le choix du premier individu détermine la composition de tout l’échantillon.

Si on connaît l’effectif total de la population N et qu’on souhaite prélever un échantillon d’effectif n, l’intervalle entre deux unités successives à sélectionner est donné par :

k

N

(arrondi à l’entier le plus proche)

n

Connaissant k, on choisit le plus souvent, pour débuter, un nombre aléatoire, i, compris entre 1 et k. Le rang des unités sélectionnées est alors i, i+k, i+2k, i+3k, …

L’échantillonnage systématique est facile à préparer et, en général facile à exécuter, il réduit le temps consacré à la localisation des unités sélectionnées.

Si les éléments de la population se présentent dans un ordre aléatoire (pas de tendance) l’échantillonnage systématique est équivalent à l’échantillonnage aléatoire et simple. Par contre si les éléments de la population présentent une tendance, l’échantillonnage systématique est plus précis que l’échantillonnage aléatoire.

17

Statistiques décisionnelles

1. Détermination de l’échantillon

1.3.2. METHODES D’ECHANTILLONNAGE EMPIRIQUES.

1.3.2.1 Echantillonnage accidentel (ou de convenance).

Il s’agit d’un échantillon constitué d’individus qui se trouvaient accidentellement à l’endroit et au moment où l’information a été collectée.

Les échantillons accidentels ne peuvent être considérés représentatifs d’aucune population. Il est risqué de généraliser à une population donnée des résultats obtenus par un échantillon accidentel.

1.3.2.2. Echantillonnage à priori.

C’est un échantillonnage par jugement à priori. Il consiste à sélectionner des individus dont on pense, avant de les interroger, qu’ils peuvent détenir l’information.

Le risque de ce type d’échantillonnage est de considérer des individus, apparemment représentatifs de la population étudiée.

1.3.2.3. Echantillonnage « Boule de neige »

Cette méthode est réservée aux populations composées d’individus dont l’identification est difficile ou qui possèdent des caractéristiques rares.

La méthode consiste à faire construire l’échantillon par les individus eux-mêmes. Il suffit d’en identifier un petit nombre initial et de leur demander de faire appel à d’autres individus possédant les mêmes caractéristiques.

1.3.2.4. Echantillonnage par Quotas.

L’échantillonnage par quotas est l’échantillonnage non probabiliste le plus connu, et finalement le mieux accepté comme substitut aux méthodes probabilistes dans le cas où ces dernières rencontreraient des contraintes de base de sondage. Mais la représentativité de la population étudiée reste douteuse.

L’échantillonnage par quotas consiste à étudier la structure de la population selon des critères choisis (quotas) empiriquement. L’échantillon est ensuite construit de manière à constituer une reproduction en miniature de la population sur ces critères.

L’échantillonnage par quotas est une forme simplifiée de l’échantillonnage stratifié à fraction de sondage constante. Les quotas représentent les variables de stratification.

Une fois les quotas fixés, les individus sont sélectionnés à la convenance de l’enquêteur.

18

Statistiques décisionnelles

1. Détermination de l’échantillon

Les critères servant de base à la définition des quotas ne doivent pas être nombreux. Au-delà de 3 critères, la démarche devient complexe. Les quotas doivent être construits sur une base de données fiables (statistiques disponibles) indiquant la répartition de la population sur les critères choisis. Les critères les plus utilisés dans les études de marché sont économiques et sociodémographiques en particulier l’âge, le sexe, la catégorie socioprofessionnelle, etc.

1.4. ENONCES DES EXERCICES D’APPLICATION.

1.4.1. Une enquête sur l'emploi a pour but d’estimer le taux d'activité dans un pays. Dans les

statistiques disponibles, la population active du pays est estimée à 10 millions de personnes sur une population totale de 40 millions de personnes. Déterminer la taille de l'échantillon si l'on accepte une erreur de 1%, avec une probabilité de

0,95.

1.4.2.

On désire estimer le revenu mensuel moyen dans un secteur de production. Quelle doit

être la taille de l’échantillon de salariés à interroger pour que la moyenne empirique ne s’éloigne pas de la moyenne de la population de 100 DH avec une probabilité au moins égale à 0,95 sachant que l’écart type est de 500 DH par salarié ?

1.4.3. On souhaite réaliser une enquête sur la consommation des ménages afin d’estimer la

dépense moyenne par ménage. Quelle doit être la taille de l’échantillon de ménages si la population est composée de 5 millions de ménages et que l’erreur admise ne doit pas dépasser

10 DH avec une probabilité de 0,99 ?

L’écart type de la dépense des ménages est de 2000 DH.

1.4.4. On souhaite réaliser une enquête sur l’emploi afin d’estimer le taux de chômage. La

population active est de 5 millions de personnes. Quelle doit être la taille de l’échantillon pour

que la fréquence empirique ne s’éloigne pas du vrai taux de chômage de plus de 2% et ce avec une probabilité de 0,95 ? Une enquête récente avait donné un taux de chômage de 12 %.

1.4.5. Dans le cadre d'une étude socio-économique, on s'intéresse aux habitants de 18 unités

urbaines, réparties en deux régions. a) En supposant que la variable aléatoire à laquelle nous nous intéressons suive une loi normale et que l’enquête se déroule, au sein d’une population finie et n’exclut pas la possibilité de sonder la même personne plusieurs fois, déterminer la taille n de l’échantillon. On donne comme hypothèses de travail : une marge d’erreur admissible égale à 1% avec une probabilité de 95% et un écart type du revenu égal à 0,114 calculé d’après un 1 er échantillon.

19

Statistiques décisionnelles

1. Détermination de l’échantillon

b) L'enquête doit donc comporter n interviews. Comme on dispose de 10 enquêteurs et qu'on

souhaite que chaque enquêteur n'opère que dans une seule unité urbaine et donc dans la même région, on souhaite se limiter à l'étude de 10 unités urbaines. On suppose qu'un enquêteur peut réaliser 10 interviews dans la même journée et que tous les enquêteurs ne réalisent pas nécessairement le même nombre d’enquêtes. En fonction de la répartition des unités urbaines par région et de leurs nombres d'habitants, déterminer le nombre n 1 et n 2 d’unités par région à sonder (voir tableau page suivante).

c) En nous limitant aux unités les plus importantes dans chaque région, déterminer les unités à

sonder ainsi que le nombre d’interviews à réaliser dans chacune d’entre elles. Quel est le nombre de jours nécessaire à une telle opération ?

 

Région 1

 

Région 2

N° Unités

     

urbaines

Nombres d’habitants

N° Unités urbaines

Nombres d’habitants

N° 1

93600

N° 09

117100

N° 2

45400

N° 10

107100

N° 3

38900

N° 11

61200

N° 4

36500

N° 12

51000

N° 5

35100

N° 13

43800

N° 6

32900

N° 14

38900

N° 7

28100

N° 15

37800

N° 8

26400

N° 16

33500

N° 17

25800

N° 18

25300

1.4.6. Dans une région regroupant environ 3 millions d’habitants réunis en 1530 communes, on désire réaliser une enquête relative à la consommation moyenne des ménages pour le poste alimentation.

a) Déterminer la taille de l'échantillon si l'on accepte une erreur de 1,16, avec une probabilité

de 0,95 et que l’on estime l’écart type égal à 10.

b) En effectuant une stratification basée sur la distribution de fréquences donnée dans le

tableau ci-dessous, combien d’interviews devrait-on réaliser dans chacune des catégories de communes ?

c) Si de plus pour des raisons de facilité, on décidait de ne pas effectuer moins de 10 interviews

par commune, dans combien de communes différentes de chacune des catégories les enquêteurs devraient-ils se rendre ?

20

Statistiques décisionnelles

1. Détermination de l’échantillon

Nombre d’habitants

Nombre de communes

Moins de 1000[

900

[

1000 2000[

300

[

2000 5000[

200

[ 5000 10000[ [10000 20000[ plus de 20000

80

40

10

 

Total

1530

1.4.7. Un sondage vise à étudier la notoriété d’une marque. Pour cela on dispose de 12 enquêteurs durant un mois.

a) Sachant que le rendement par jour et par enquêteur est distribué selon une loi normale

de moyenne 5, et d’écart type 1, déterminer la taille n o de l'échantillon retenu tel que : p(n > n o ) = 0,025.

b) On propose de stratifier la population selon l’âge. Sachant que la population se répartit comme indiqué, dans le tableau ci-dessous, déterminer la répartition de l'échantillon :

Age

Moins de 20 ans

Entre 20 et 30 ans

Entre 30 et 60 ans

Plus de 60 ans

Effectifs

5500000

2500000

1250000

250000

1.4.8. On s’intéresse au pourcentage de fusibles défectueux dans un lot de 50 sacs contenant chacun 10000 fusibles. Les sacs proviennent de différents fournisseurs qui affirment en général que la proportion de fusibles défectueux ne dépasse pas 1%. L’erreur acceptée sur ce pourcentage est de 0,1% avec un niveau de confiance 0,95.

a) Déterminer la taille de cet échantillon en utilisant l'inégalité de Bienaymé Tchebycheff, et en

supposant la normalité de la variable. Laquelle de ces deux tailles doit-on retenir ? et pourquoi ?

b) Préciser dans chaque cas, le type de sondage dont il s'agit :

b1) Si on tire n fusibles en prélevant n/50 par sac. b2) Si on choisit d'abord k sacs et on tire ensuite n i fusibles par sac. b3) Si on mélange le contenu des 50 sacs, et on tire n fusibles.

c) Quel est le procédé de tirage, le mieux adapté ?

1.4.9. Un sondage vise une population d’entreprises réparties en quatre régions contenant respectivement 360, 840, 600 et 1200 entreprises. Le budget réservé pour cette enquête est de

44 320 DH. Les écart-types sont estimés à 0,2 ; 0,1 ; 0,2 ; 0,4 respectivement pour les quatre régions. Les coûts de réalisation par questionnaire sont respectivement de 225 DH, 196 DH, 400H et 324 DH.

a) Etablir une stratification optimale de l’échantillon à déterminer.

b) Préciser le niveau d’erreur que l’on doit accepter avec la taille de l’échantillon calculée, en

admettant un niveau de confiance de 0,99 et une proportion de 0,3.

21

Statistiques décisionnelles

1. Détermination de l’échantillon

1.4.10. Le budget alloué à une enquête est de 132500 DH. Cette enquête est destinée à estimer

le taux de chômage qu’on pense être à priori égal à 10 %. Les frais de déplacement quotidien sont évalués à 1000 DH par enquêteur. La rémunération d’un enquêteur est de 170 DH par jour. Les charges fixes sont de 20000 DH.

a) Déterminer la taille de l’échantillon si on tolère une erreur de moins de 1 % avec un niveau

de confiance de 95%

b) Déterminer la taille maximale permise par le budget alloué si le rendement par enquêteur est

de 6 questionnaires par jour.

c) Quel niveau d’erreur faut-il accepter si on réalise l’enquête avec le budget alloué ?

1.4.11. Nous disposons d’un montant de 10 000 dh pour enquêter auprès d’une population

stratifiée en deux strates ayant les caractéristiques suivantes :

   

Poids de la strate

 

Coût de

Strates

Effectif

Ecart type

l’observation

Strate 1

2000

0,4

2

25

Strate 2

3000

0,6

0,7

36

Etablir la répartition optimale de l’échantillon.

1.4.12. Une machine automatique fabrique des entretoises destinées à un montage de

roulements. La longueur de ces entretoises doit être comprise, au sens large, entre 37,45 et 37,55 mm. La variable aléatoire X, qui associe à chaque entretoise sa longueur, est une variable gaussienne de moyenne 37,50 mm.

a) Quel doit être l’écart type de la variable aléatoire X pour que 998 sur 1000 des pièces

fabriquées soient bonnes ?

b) On prélève un échantillon non exhaustif dans la production. Quel doit être l’effectif de cet

échantillon pour que la moyenne des longueurs des pièces prélevées appartienne à l’intervalle fermé [37,495 ; 37,505] avec une probabilité de 0,95 ?

1.5. SOLUTIONS DES EXERCICES D’APPLICATION.

1.5.1. Solution de l’exercice 1.4.1.

Nous sommes dans le cas où la loi de probabilité du taux d’activité n’est pas connue. Nous utilisons donc l’inégalité de Bienaymé Tchebycheff.

n

avec

p . q

2

.

p = 0,25

q = 0,75

ce qui donne n = 37 500

= 1%

et = 5%

22

Statistiques décisionnelles

1. Détermination de l’échantillon

Comme on le voit, l’inégalité de Bienaymé Tchebycheff aboutit à des échantillons de tailles élevées.

1.5.2. Solution de l’exercice 1.4.2.

Nous sommes dans le cas où la loi de probabilité des revenus mensuels n’est pas connue. Nous utilisons donc l’inégalité de Bienaymé Tchebycheff.

n

avec

2

2

.

= 500

= 100

ce qui donne n = 500

et = 5%

1.5.3. Solution de l’exercice 1.4.3.

Nous sommes dans le cas où la loi de probabilité de la dépense des ménages n’est pas connue. Nous utilisons donc l’inégalité de Bienaymé Tchebycheff.

 

2

n

2

.

avec

= 2 000

= 10

et = 1%

ce qui donne n = 4 000 000

Comme on le voit, l’inégalité de Bienaymé Tchebycheff aboutit ici à un échantillon de taille trop élevée, puisqu’il fait 4 millions pour une population de 5 millions. Nous devons, par conséquent recourir au théorème central limite et accepter l’hypothèse vraisemblable que la loi de probabilité que suit la variable aléatoire, dépense moyenne des ménages, peut être approchée par une loi normale du fait que la population concernée est de 5 millions d’âmes.

Dans ce cas, on utilise l’égalité relative aux prélèvements sans remise dans une population finie.

n

1-

2

² N

² N

1-

2

²

23

Statistiques décisionnelles

1. Détermination de l’échantillon

avec

= 2 000

= 10

N = 5 millions

= 1%

et

Z

1-

= 2,58

2

ce qui donne n = 252 795. Un tel échantillon représente environ 6,3 % de la taille de l’échantillon trouvée grâce à l’inégalité de Bienaymé Tchebycheff et donc une très grande économie, dans son traitement, par rapport au 1 er échantillon.

1.5.4. Solution de l’exercice 1.4.4.

Nous sommes dans le cas où la loi de probabilité du taux de chômage n’est pas connue. Nous utilisons donc l’inégalité de Bienaymé Tchebycheff.

n

avec

p . q

2

.

p = 0,12

q = 0,88

= 2%

et = 5%

ce qui donne n = 5 280 un tel échantillon représente environ 1 pour mille de la population totale de 5 millions. Dans ce cas il n’est pas nécessaire de recourir au théorème central limite pour essayer de réduire la taille de l’échantillon.

1.5.5. Solution de l’exercice 1.4.5.

a) Nous sommes dans le cas où la loi de probabilité de la variable aléatoire est la loi normale, la population est finie et le tirage se fait avec remise. On utilise donc l’égalité :

n

avec

Z

2

2

1

2

2

= 0,05

= 0,114

ce qui donne n = 500

= 0,01

et

Z

1

2

= 1,96

b) Considérons les 2 régions et essayons de déterminer, au prorata des nombres d’unités de chaque région, les 10 unités qui seront concernées par les interviews.

24

Statistiques décisionnelles

1. Détermination de l’échantillon

 

CHOIX DES 10 UNITES

 

Régions

R1

R2

Total

Nombre

     

d’unités total

8

10

18

%

44,44%

55,56%

100%

Nombre

     

d’unités de

4

6

10

l’échantillon

c) Considérons les 2 régions et essayons de répartir, au prorata de leurs nombres d’habitants, les 500 interviews.

REPARTITION DES 500 INTERVIEWS

Régions

R1

R2

Total

Nombre d’habitants

     

total

336900

541500

878400

%

38,35%

61,65%

100%

Nombre d’habitants

     

de l’échantillon

192

308

500

Arrondi à 10 près

190

310

500

Nous avons arrondi à 10 près pour que chacun des enquêteurs puissent réaliser 10 enquêtes par jour.

Nous devons, d’abord choisir les 4 unités de la 1 ère région et ensuite choisir les 190 personnes dans ces 4 unités. On choisira les 4 plus grandes unités comme indiqué dans l’énoncé, nous déterminerons enfin le nombre d’habitants à interviewer, dans chaque unité, au prorata de l’importance des 4 unités choisies.

Région N°1 : Répartition des 190 interviews sur 4 unités et leurs habitants

 

Nombre

 

Nombre

 

Unités

d’habitants

total

%

d’habitants

interviewés

Arrondis à

10 près

U1

93600

44,67%

85

90

U2

45400

21,17%

40

40

U3

38900

18,14%

34

30

U4

36500

16,03%

31

30

Total

211400

100%

190

190

25

Statistiques décisionnelles

1. Détermination de l’échantillon

De même, nous devons, d’abord choisir les 6 unités de la 2 ème région et ensuite choisir les 310 personnes dans ces 6 unités. On choisira les 6 plus grandes unités, nous déterminerons enfin le nombre d’habitants à interviewer, dans chaque unité, au prorata de l’importance des 6 unités choisies.

Région N°2 : Répartition des 300 interviews sur 6 unités et leurs habitants

 

Nombre

 

Nombre

 

Unités

d’habitants

total

%

d’habitants

interviewés

Arrondis à

10 près

U09

117100

27,94%

87

90

U10

107100

25,55%

80

80

U11

61200

14,60%

45

40

U12

51000

12,17%

39

40

U13

43800

10,45%

32

30

U14

38900

9,29%

27

30

Total

419100

100%

310

310

Ainsi, on mobilisera 4 enquêteurs pour la 1 ère région, 1 enquêteur pour chaque unité, celui de l’unité 1 passera plus de temps, 9 jours (10 interviews par jour) ; de même, on mobilisera 6 enquêteurs pour la 2 ème région, 1 enquêteur pour chaque unité, celui de l’unité 09 passera plus de temps, 9 jours (10 interviews par jour). L’opération durera donc 9 jours.

1.5.6. Solution de l’exercice 1.4.6.

a) Nous sommes dans le cas où la loi de probabilité de la consommation moyenne n’est pas connue. Nous utilisons donc l’inégalité de Bienaymé Tchebycheff.

n

avec

2

2

.

= 10

= 1,16

et = 5%

ce qui donne n = 1487 qu’on peut arrondir à 1500

b) Effectuons une stratification où les catégories de commune constituent les strates.

L’échantillon de 1500 interviews sera réparti de façon proportionnelle sur les différentes strates. En conservant la même fraction de sondage de chaque strate.

On détermine le nombre d’habitants dans chaque strate en se basant sur les centres de classes.

26

Statistiques décisionnelles

1. Détermination de l’échantillon

 

Nombre

Centre de

Nombre de

Nombre

Nombre

d’habitants

classe

communes

d’habitants

d’interviews

Moins de 1000[

500

900

450000

218

[

1000 2000[

1500

300

450000

218

[

2000 5000[

3500

200

700000

339

[

5000 10000[

7500

80

600000

290

[10000 20000[

15000

40

600000

290

plus de 20000

30000

10

300000

145

Total

 

1530

3100000

1500

1500

La fraction de sondage : f = 3100000

= 0,00048387

c) Pour visiter le plus grand nombre de communes, on fixe le nombre d’interviews à réaliser par commune à 10 sauf pour la dernière catégorie de communes car elle ne contient que 10 communes qui seront toutes visitées, on réalisera alors 14 interviews par commune. Pour déterminer le nombre de communes à visiter dans chacune des catégories de communes, il suffit de diviser le nombre d’interviews par 10.

 

Catégories de

Nombre

Nombre de

Nombre

d’interviews

communes

d’interviews

communes

à visiter

Moins de 1000[

218

22

220

[

1000 2000[

218

22

220

[

2000 5000[

339

34

340

[

5000 10000[

290

29

290

10000 20000[ plus de 20000

[

290

29

290

145

10

140

Total

1500

 

1500

1.5.7. Solution de l’exercice 1.4.7.

a) Le rendement de chaque enquêteur pendant 1 mois est de 150 interviews avec un écart type de 5,5 interviews. Pour les 12 enquêteurs ce rendement est en moyenne de 1800 interviews avec un écart type de 19 interviews.

p(n >n o ) = 0,025 => p(n <n o ) = 0,975

n 0 1800 = Z 0,975 = 1,96

19

ce qui donne : n o = 1838

27

Statistiques décisionnelles

1. Détermination de l’échantillon

b) Reprenons les données et calculons le poids de chaque tranche d’âge en effectuant une

répartition proportionnelle des 1838 interviews.

 

Moins de

Entre 20 et 30 ans

Entre 30 et 60 ans

Plus de 60 ans

 

Age

20 ans

Total

Effectifs

5500000

2500000

1250000

250000

9500000

Poids en %

57,9

26,3

13,2

2,6

100

Taille

1064

484

242

48

1838

échantillon

1.5.8. Solution de l’exercice 1.4.8.

a) Dans le cas de l’utilisation de l’inégalité de Bienaymé Tchebycheff, on trouve :

n

avec

p . q

2

.

p = 0,01

q = 0,99

ce qui donne n = 198000

= 0,1%

et = 5%

Dans le cas de prélèvements sans remise dans une population finie, on trouve :

 

1-

p.q N

 

n

 

2

 
 

² N

1-

p.q

 

2

avec

p = 0,01

q = 0,99

= 0,1%

N = 500000

= 1%

et

Z

1-

= 1,96

ce qui donne n = 35344

2

Comme on le voit, l’inégalité de Bienaymé Tchebycheff aboutit ici à un échantillon de taille trop élevée. Nous devons, par conséquent recourir au théorème central limite et accepter l’hypothèse vraisemblable que la loi de probabilité que suit la variable aléatoire peut être approchée par une loi normale du fait que la population concernée est grande.

b) Type de sondage.

b1) Si on tire n fusibles en prélevant n/50 par sac, il s’agit d’un échantillonnage stratifié avec répartition proportionnelle.

28

Statistiques décisionnelles

1. Détermination de l’échantillon

b2) Si on choisit d'abord k sacs et on tire ensuite n i fusibles par sac, il s’agit d’échantillonnage à deux degrés. b3) Si on mélange le contenu des 50 sacs, et on tire n fusibles, il s’agit d’échantillonnage aléatoire simple.

c) Le procédé de tirage, le mieux adapté est l’échantillonnage stratifié. Si le contenu des 50

sacs est homogène, on peut procéder par échantillonnage à deux degrés.

1.5.9. Solution de l’exercice 1.4.9.

a) La répartition optimale tient compte de quatre facteurs :

- Budget total de l’enquête, G = 44 320 dh

- Poids de la strate, w i

- Coût de la collecte de l’information dans la strate, c i

- Dispersion à l’intérieur de la strate, mesurée par l’écart type i .

Le nombre d’unités à choisir dans chacune des strates est :

n

i

k

w i i c i
w i
i
c
i

avec

k

G w c i i i
G
w
c
i
i
i

Reprenons les données de l’exercice dans un tableau synthétique.

Régions

R1

R2

R3

R4

Total

Nombre d’entreprises

360

840

600

1200

3000

Poids de la strate, w i %

12%

28%

20%

40%

100%

Coût unitaire c i

225

196

400

324

 

l’écart type i .

0,2

0,1

0,2

0,4

 

A partir de ces données, nous pouvons calculer n :

G k w c i i i k = 0,12.0,2. 225
G
k
w
c
i
i
i
k = 0,12.0,2.
225

44320

0,28.0,1. 196

0,28.0,1. 196 0,4.0,4. 324

0,4.0,4. 324

0,28.0,1. 196 0,4.0,4. 324
0,2.0,2. 400 k = 10000
0,2.0,2.
400
k = 10000

29

Statistiques décisionnelles

1. Détermination de l’échantillon

ce qui donne :

n

1

10000

0,12.0,2

= 16 de l’échantillon ce qui donne : n 1 10000 0,12.0,2 n 3 10000 0,2.0,2 = 20

n 3

10000

0,2.0,2

= 20 ce qui donne : n 1 10000 0,12.0,2 = 16 n 3 10000 0,2.0,2 n n

n

n

2

4

10000

10000

0,28.0,1

196
196

= 20

0,4.0,4

= 89 0,2.0,2 = 20 n n 2 4 10000 10000 0,28.0,1 196 = 20 0,4.0,4 ce qui

ce qui donne n = n 1 + n 2 + n 3 + n 4 = 145

Ce qui nous permet de réaliser une stratification des entreprises de l’échantillon, région par région :

Régions

R1

R2

R3

R4

Total

Nombre d’entreprises

360

840

600

1200

3000

Echantillon

16

20

20

89

145

b) Nous sommes dans le cas où la loi de probabilité n’est pas connue. Nous utilisons donc l’inégalité de Bienaymé Tchebycheff.

n

avec

p . q

2

.

p = 0,3

 

soit

p . q n .
p . q
n .

q = 0,7

n = 145

= 1%

et

= ?

ce qui donne = 38 % ce qui est une marge d’erreur inacceptable.

1.5.10. Solution de l’exercice 1.4.10.

a) Nous sommes dans le cas où la loi de probabilité n’est pas connue. Nous utilisons donc l’inégalité de Bienaymé Tchebycheff.

n

avec

p . q

2

.

p = 0,1

q = 0,9

ce qui donne n = 18 000

= 5%

et = 1%

30

Statistiques décisionnelles

1. Détermination de l’échantillon

b) Supposons n la taille de l’échantillon, NE le nombre d’enquêteurs et NJ le nombre de jours nécessaires pour faire l’ensemble des interviews.

Nous avons les égalités suivantes :

132 500 = 20 000 + NE.(1000 + 170).NJ

n = 6 . NE . NJ

De ces 2 égalités, nous pouvons déduire :

n

6

112 500

1170

ce qui donne pour n = 576

c) Si l’on réalise l’enquête avec le budget alloué, c'est-à-dire avec un échantillon de 576 éléments seulement, la marge d’erreur est :

n

avec

p . q

2

.

p = 0,1

soit

q = 0,9

p . q n . = 5%
p . q
n .
= 5%

et n = 576

ce qui donne

On peut donc se contenter d’un échantillon de 576 au lieu d’un échantillon de 18 000.

= 5,6% une telle marge d’erreur est acceptable.

1.5.11. Solution de l’exercice 1.4.11.

La répartition optimale tient compte de quatre facteurs :

- Budget total de l’enquête, G = 10 000 dh.

- Poids de la strate, w i

- Coût de la collecte de l’information dans la strate, c i

- Dispersion à l’intérieur de la strate, mesurée par l’écart type i .

Le nombre d’unités à choisir dans chacune des strates est :

n

i

k

w i i c i
w i
i
c
i

avec

k

G w c i i i
G
w
c
i
i
i

31

Statistiques décisionnelles

1. Détermination de l’échantillon

Reprenons les données de l’exercice.

Strates

Effectif

Poids de la strate

Ecart-type

Coût de l’observation

Strate 1

2000

0,4

2

25

Strate 2

3000

0,6

0,7

36

A partir de ces données, nous pouvons calculer n :

G 10000

=

k

w c i i i
w
c
i
i
i

0,4.2

25
25

0,4.2.

0,4.2. 25

25

= 245

0,6.0,7. 36 n 1533,74 2
0,6.0,7. 36
n
1533,74
2

= 1533,74

ce qui donne :

n

1

1533,74

0,6.0,7

36
36

ce

qui donne

n = n 1 + n 2 = 352

= 107

1.5.12. Solution de l’exercice 1.4.12.

a) La longueur des entretoises est une variable normale de moyenne 37,50 mm et d’écart type inconnu.

998 sur 1000 des pièces fabriquées sont bonnes si :

p(37,45 < X < 37,55) = 0,998

(

37,55 37,5 ) - ( 37,45 37,5 ) = 0,998

(

0,05 ) - ( 0,05 ) = 0,998

 

2.

(

0,05 ) - 1 = 0,998

( 0,05 ) = 0,999

0,05 = Z 0,999 = 3,09

=>

= 0,016

32

Statistiques décisionnelles

1. Détermination de l’échantillon

b) La moyenne des longueurs des pièces prélevées appartient à l’intervalle fermé [37,495 ; 37,505] et signifie que :

= (37,505 37,495) / 2 = 0,005

Nous sommes dans le cas où la loi de probabilité est la loi normale, on utilise donc l’égalité :

n

Z

avec

2

2

1

2

2

= 0,05

ce qui donne

= 0,016

= 0,005

n = 40

et

Z

33

1

2

= 1,96

Statistiques décisionnelles

1. Détermination de l’échantillon

34

Statistiques décisionnelles

Partie 2. Loi de probabilité d’échantillon

PARTIE 2 LOI DE PROBABILITE D’ECHANTILLON

La notion de distribution d’échantillonnage est à la base des méthodes d’inférence statistique dont les deux principales applications sont les problèmes d’estimation et ceux des tests d’hypothèses.

Les premiers ont pour but d’estimer, à partir d’un échantillon, la valeur numérique d’un ou de plusieurs paramètres de la population, et de déterminer la précision de cette ou de ces estimations. Cela fera l’objet de la 3 e partie avec ses chapitres 5, 6 et 7.

Les seconds ont pour but de vérifier la véracité d’une hypothèse, émise au départ, au sujet

d’une ou de plusieurs populations. Cela fera l’objet de la 4 e partie avec ses chapitres 8, 9, 10 et

11.

Mais avant d’aborder les calculs d’estimation et de tests statistiques, il nous faudra déterminer les lois de probabilités des paramètres d’échantillon, en effet :

A tout paramètre de population , on peut associer une série infinie de valeurs observées t, t’, t ‘’, …, calculées à partir d’échantillons successifs de même effectif, prélevés dans des conditions identiques. Ces valeurs peuvent être considérées comme des valeurs observées d’une même variable aléatoire T et cette variable est fonction des différentes variables aléatoires correspondant à chacun des individus de l’échantillon :

T = f (X 1 , X 2 , …, Xn)

En supposant que l’échantillon est aléatoire et simple, la variable aléatoire T possède une distribution de probabilité, dite distribution d’échantillonnage. On peut donc calculer l’espérance E(T) et la variance V(T) de cette distribution.

La distribution d’échantillonnage est donc la distribution des différentes valeurs que peut prendre la variable aléatoire T, pour les différents échantillons possibles. Son écart type T est appelé erreur standard.

35

Statistiques décisionnelles

Partie 2. Loi de probabilité d’échantillon

Les principales distributions d’échantillonnage sont :

- la distribution d’échantillonnage de la moyenne,

- la distribution d’échantillonnage de la variance,

- la distribution d’échantillonnage de la proportion.

Cette partie sera consacrée à la détermination, chapitre après chapitre, des lois de distribution d’échantillonnage sus-citées.

36

Statistiques décisionnelles

2. Loi de probabilité de la moyenne d’échantillon

CHAPITRE 2 LOI DE PROBABILITE DE LA MOYENNE D’ECHANTILLON

2.1. POSITION DU PROBLEME.

Dans ce chapitre, nous considérons une population mère d’où l’on extrait, successivement, des échantillons de n éléments dont on détermine les moyennes :

a) x 1 , x 2 , x 3 , ………., x n

b) x 1 ’, x 2 ’, x 3 ’, ………., x n

c) x 1 ’’, x 2 ’’, x 3 ’’, ………., x n ’’ avec

avec

x

avec

x'

x''

n

i

x ''

i

1

n

n

i

x

i

1

n

n

i

x'

i

1

n

Les moyennes x , x' et x' ' sont généralement différentes.

On peut considérer la suite des premières observations x 1 , x 1 ’, x 1 ’’, … des différents échantillons comme des valeurs observées d’une même variable aléatoire X 1 , la suite des deuxièmes observations des différents échantillons comme des valeurs observées d’une même variable aléatoire X 2 , etc.

Les moyennes observées

x , x' , x''

, … sont alors des valeurs observées d’une même variable

aléatoire

X qui est fonction de X 1 , X 2 , …, Xn.

n

i

X

X

i

1

n

37

Statistiques décisionnelles

2. Loi de probabilité de la moyenne d’échantillon

X possède une distribution de probabilité, dite

distribution d’échantillonnage de la moyenne. On peut donc calculer l’espérance et la variance de cette distribution, en supposant que l’échantillon est aléatoire et simple, les variables aléatoires X 1 , X 2 , …, Xn ont toutes la même distribution de probabilité, dont la moyenne est

Comme X 1 , X 2 , …, Xn, la variable aléatoire

désignée par m et la variance par ².

E(Xi) = m

et

V(Xi) = ²

2.2. CAS D’UNE POPULATION DONT ON CONNAIT LA MOYENNE, LA VARIANCE ET LA LOI DE PROBABILITE.

2.2.1. Echantillon exhaustif.

Dans le cas d’une population finie d’effectif N, au sein de laquelle est prélevé, sans remise, un échantillon aléatoire simple d’effectif n, l’espérance mathématique et la variance de la moyenne sont :

n Xi n 1 i 1 E( X ) = E( ) = 1 E
n
Xi
n
1
i
1
E( X ) = E(
) =
1
E Xi
(
)
=
n
n
n
i 1
2
N
n
V(
X ) =
N
1
n
N
n
L’erreur standard est alors :
X
N
1
n

n

m

=

m

Dans ce cas, la loi de probabilité de la moyenne est normale de moyenne m et d’écart type

X

N n . n N 1
N
n
.
n N
1

2.2.2. Echantillon non exhaustif.

E( X ) = E(

n

i

1

Xi

)

V( X ) = V(

n

i

1

n

Xi

) =

n

L’erreur standard est alors :

X

n
n

1

=

n

1

n

i 1

n

i 1

E(Xi)

=

V(Xi)

=

38

1

n

1

n

n

m

= m

² =

²

n

Statistiques décisionnelles

2. Loi de probabilité de la moyenne d’échantillon

Dans ce cas la loi de probabilité de la moyenne est normale de moyenne m et d’écart type

X

. n
.
n

2.3. CAS D’UNE POPULATION DONT ON CONNAIT LA MOYENNE ET LA LOI DE

PROBABILITE.

L’erreur standard est alors :

E( X ) =

m

Avec :

^

²

X

^

n
n

et

n

n

1

v(x)

V( X ) =

^

²

n

=

n

i

(x

i

1

x)²

n

1

Dans ce cas la loi de probabilité de la moyenne est normale de moyenne m et d’écart type

X

^

. n
.
n

2.4. CAS D’UNE POPULATION DONT ON NE CONNAIT NI LA MOYENNE, NI LA

VARIANCE NI LA LOI DE PROBABILITE.

avec :

^

²

n

n

1

v(x)

=

L’erreur standard est alors :

E( X ) =

m

n

i

1

(x

i

x)²

n

1

^

X

n
n

et

39

V(

X ) =

^

²

n

Statistiques décisionnelles

2. Loi de probabilité de la moyenne d’échantillon

Si la distribution de la population mère est inconnue, le théorème central limite permet d’affirmer que la distribution de la moyenne est asymptotiquement normale. Pour un effectif suffisamment élevé, la moyenne d’un échantillon peut toujours être considérée comme une variable approximativement normale. C’est généralement le cas lorsque l’effectif est supérieur à 30. Dans le cas contraire (n 30), la moyenne d’un échantillon peut toujours être considérée comme une variable de Student à (n-1) degré de liberté.

2.5. LOI DE PROBABILITE DE LA DIFFERENCE DE DEUX MOYENNES D’ECHANTILLONS INDEPENDANTS.

La différence entre les moyennes observées des deux échantillons indépendants est : x1

- x2

Une distinction est faite entre le cas de deux populations de variances inégales et le cas de deux populations de variances égales.

2.5.1. Cas de deux populations de variances inégales

E( x1

- x2

) = m 1 -m 2

V( x1

- x2

) =

²

1

n

1

²

2

n

2

Pour des populations normales (variances connues), les variables

normales de moyennes respectivement m 1 et m 2 et d’écarts types respectivement

x

1

,

x

2

sont des variables

et

1 n 1
1
n
1
2 n 2
2
n
2

. La différence entre les moyennes observées des deux échantillons indépendants est elle-

même normale de moyenne (m 1 -m 2 ) et d’écart type

² ² 2 1 n 1 n 2
²
²
2
1
n
1 n
2

.

Si les distributions des populations mères sont inconnues, pour des effectifs suffisamment élevés, la différence entre les moyennes peut toujours être considérée comme une variable approximativement normale. C’est généralement le cas lorsque les effectifs sont supérieurs à 30. Dans le cas contraire, la différence entre les moyennes peut toujours être considérée comme une variable de Student à (n 1 + n 2 - 2) degrés de liberté.

2.5.2. Cas de deux populations de variances égales

Dans le cas où les populations sont de variances égales, une estimation de la variance commune aux deux populations est donnée par :

40

Statistiques décisionnelles

2. Loi de probabilité de la moyenne d’échantillon

^

²

(x

i

x

1

(x

i

x

2

 

n

1

n

2

2

V( x1

E( x1

- x2

^

- x2

) =

²

n

1

) = m 1 - m 2

^

²

n

2

=

^

²

(

1

n

1

1

n

2

)

Pour

des

populations

normales,

la

différence

entre

les

moyennes

observées

des

deux

échantillons

indépendants

est elle-même

normale

de

moyenne

(m 1 -m 2 )

et

d’écart

type

^ ² ( 1 1 ) n 1 n 2
^
²
(
1
1 )
n 1
n 2

.

Si les distributions des populations mères sont inconnues, pour des effectifs suffisamment élevés, la différence entre les moyennes peut toujours être considérée comme une variable approximativement normale. C’est généralement le cas lorsque les effectifs sont supérieurs à 30. Dans le cas contraire, la différence entre les moyennes peut toujours être considérée comme une variable de Student à (n 1 + n 2 - 2) degrés de liberté.

2.6. ENONCES DES EXERCICES D’APPLICATION.

2.6.1. Quelle est l'espérance mathématique et quelle est la variance des résultats qu'on peut

obtenir quand on choisit au hasard et indépendamment dix nombres entiers de 1 à 9 et qu'on en

calcule la moyenne, en supposant que chacun des nombres de 1 à 9 a une même probabilité d'être choisi et qu'un même nombre peut être choisi plusieurs fois sans aucune restriction ?

2.6.2. Une population est constituée des cinq nombres 2, 3, 6, 8, 11. On considère tous les

échantillons non exhaustifs possibles de taille deux de cette population. Trouver :

a) La moyenne de la population.

b) L’écart type de la population.

c) La moyenne de la distribution d'échantillonnage des moyennes.

d) L’écart type de la distribution d'échantillonnage des moyennes, c'est-à-dire l'erreur

quadratique moyenne des moyennes. e) Reprendre les mêmes questions dans le cas d’un échantillon exhaustif.

2.6.3. On suppose que les poids de 3000 têtes d’ovins d'une ferme suivent une loi normale de

moyenne 38,0 kilogrammes et d’écart type 5,0 kilogrammes. Si l'on extrait 80 échantillons de 25 têtes chacun, quelle est la moyenne et l’écart type théoriques de la distribution

d'échantillonnage des moyennes pour :

a) Un échantillonnage non exhaustif ?

b) Un échantillonnage exhaustif ?

41

Statistiques décisionnelles

2. Loi de probabilité de la moyenne d’échantillon

c) Pour combien d'échantillons peut-on s'attendre à trouver une moyenne comprise entre 36,8

et 38,3 kilogrammes ?

2.6.4. Cinq cents rondelles ont un poids moyen de 5,02 grammes et un écart type de 0,30

gramme. Trouver la probabilité pour qu’un échantillon de 100 rondelles choisies au hasard ait

un poids total :

a) Compris entre 496 et 500 grammes.

b) Plus grand que 510 grammes.

2.6.5. Les batteries d'un fabricant A ont une durée de vie moyenne de 1400 heures avec un

écart-type de 200 heures, et celles d'un fabricant B ont une durée de vie moyenne de 1200 heures avec un écart-type de 100 heures. Si l'on teste des échantillons de 125 batteries pour chaque marque, quelle est la probabilité pour que la marque A ait une durée de vie moyenne

qui soit au moins supérieure à celle de la marque B de :

a) 160 heures ?

b) 250 heures ?

2.6.6. Les piles d'une marque donnée pèsent 0,50 gramme avec un écart-type de 0,02 gramme.

Quelle est la probabilité pour que deux lots de 1000 piles chacun diffèrent entre eux de plus de

2 grammes ?