Vous êtes sur la page 1sur 58

Programme de Master professionnel en Gestion Éthique et Responsable des

Organisations

Option

TC-101 OUTILS ET TECHNIQUES D’ANALYSE ET DE COLLECTE DE DONNEES

Professeur du Cours:

Docteur Ingénieur KABASELE DYCKOBA Joseph Richard

Adresse courriel:

mulumanyama@gmail.com

Tel : +22673842988 (Whatsapp); +22658919203; +22660050043.

Notes de Cours

STATISTIQUE INFERENTIELLE

Mars 2022

Conception :
Notes de Cours 2020
PREAMBULE
« Pour comprendre les pensées de Dieu, il faut étudier les statistiques, car elles
constituent la mesure de ses desseins » (Florence Nightingale (1820-1910)

Aucune discipline de la science de nos jours ne peut se soustraire de l’usage de la


statistique. Les sciences modernes ont besoin des faits, des références pour éclairer la
lanterne dans les travaux entrepris.
Les décideurs à tous les niveaux doivent prendre leurs décisions sur une fondation solide
qui tienne sur des bases susceptibles d’être en même de passer aux preuves palpables.

Le présent cours qui vient après celui de la statistique descriptive ne fait pas de vous des
spécialistes de la statistique, celle –ci est une discipline très complexe. Chaque domaine
de la vie est sujet à une démarche spécifique de la statistique. Nous citons : statistique de
transport, sanitaire, bancaire, commerce extérieur, du travail, d’assurance, de
l’éducation, agricole, industrielle, etc.
Néanmoins, les deux premières branches de la statistique (statistique descriptive et
statistique inférentielle) permettent aux scientifiques d’avoir le reflexe concernant
l’usage et l’utilité de la statistique et des statistiques.

Si la statistique descriptive renseigne sur les procédures concernant la présentation des


données : séries statistiques, tableau, diagramme, graphique, pictogramme, dessin,
figurine, valeurs représentatives (valeurs de la tendance centrale ou position, les valeurs
de dispersion et les valeurs de forme), il reste le fait que la provenance de données est
une autre question sur laquelle nous devons nous pencher avant toute entreprise visant
le traitement de données. S’agit-il des données collectées par l’investigation exhaustive
ou enquête exhaustive ou d’une investigation partielle ou enquête partielle autrement
dit sondage ou échantillonnage ?
Dans nos travaux, projets et activités professionnelles nous serons malgré nous obligés
de recueillir les données, le traiter, les décrire ; sauf que dans plus d’une situation, face
aux impondérables, nous ne serons pas prêts à faire des investigations exhaustives ou
recensement.
De ce fait, la solution plausible est de tourner vers la statistique inférentielle pour
extrapoler, généraliser les faits provenant d’une partie de la population statistique pour
toute la population. C’est donc là que la statistique inductive prend place sur ses
chevaux.

Le présent module de la statistique différentielle a pour objectif de donner au futur


décideur l’outil de la décision dans le cadre de l’incertitude.
A la fin du présent module l’étudiant doit être capable de :
Comprendre le langage de l’incertain (probabiliste)
Identifier les variables selon les processus aléatoires auxquelles elles peuvent être
assimilées ;
Choisir et mener de tests statistiques appropriés ;
Rédiger des conclusions dans un langage clair et précis
Notes de Cours 2020

Chaque chapitre se termine par une série d’exercices d’applications.


Dans la mesure du possible, nous proposerons la démarche Excel pour la résolution des
exercices.

Avant d’accorder crédit à une statistique, il faut donc s’informer sur la valeur des
données de base qui ont servi à établir la statistique en question.
Notes de Cours 2020
0. INTRODUCTION

La statistique
Les spécialistes de la statistique ont, à ces jours, inventorié plusieurs définitions
attachées à la discipline. Celles que nous réfutons sont celles qui parlent de la statistique
comme une partie de la mathématique. Il s’agirait de la statistique mathématique et non
de la statistique appliquée telle qu’elle doit être comprise ici.
1° La statistique est une science qui a pour objet de recueillir un ensemble des
données numériques relatives à tel phénomène faisant intervenir des variables
déterministes et les variables aléatoires et d’exploiter rationnellement ces données
pour établir toute relation de causalité par l’analyse et l’interprétation. (Paul PACÉ)
2° la statistique est une étude méthodique des faits sociaux destinés à renseigner et
aider le gouvernement. (P. DETIENNE cicm)
30 statistics is the science of collecting, organizing, presenting, analyzing, and
interpreting data, drawing conclusion to assist in making more effective decision.
La statistique s’applique à toutes les disciplines : agronomie, biologie, démographie,
économie, sociologie, linguistique, psychologie, . . .

Les statistiques
Les statistiques sont des observations chiffrées prélevées pour un phénomène. On parle
de fois des données statistiques, données chiffrées. C’est-à-dire un ensemble de mesures
ou d'observations concernant l'état ou l'évolution d'un phénomène.
Les statistiques sont des données chiffrées obtenues grâce à des observations
systématiques. Pour mériter le nom des statistiques, une documentation doit constituer
un ensemble cohérent, homogène établi de façon systématique afin de permettre les
comparaisons.
On parle de:
statistiques de structure ou une photo instantanée, quand elles sont élaborées à
un moment précis pour tous les faits d’une même nature.
Statistiques de mouvement ou un film lorsqu’il s’agit d’un enregistrement des
variations dans le temps pour un seul fait.
Il est évident que l’obtention des chiffres passe par des étapes multiples allant de la
nécessité de résoudre, d’une manière rationnelle, les problèmes que posent la
communauté jusqu’aux conclusions.
Ainsi, nous ne cessons de rappeler aux statisticiens le credo du statisticien :
Si les données sont fausses, les résultats sont faux,
Si les conditions d’expérimentation sont omises, l’analyse est incorrecte
Si les formules sont fausses les résultats sont faux
Si on emploi mal l’ordinateur les résultats sont faux
Les résultats peuvent être justes mais les interprétations fausses ou mal
exposées.
Notes de Cours 2020
Méthodologie
La méthodologie de la statistique exige que pour un ensemble d’individus (population
statistique) ou une partie de l’ensemble (échantillon) concerné par l’observation on
procède comme suite :
◼ Définition dans le temps et dans l’espace de l’étude,
◼ Prélèvement de chiffres (collecte de données) sur les sujets (unités
statistiques) par un comptage exhaustif (recensement) ou restreint
(sondage),
◼ Présentation des chiffres (tableau, dessin, graphique, figure, symbole ou
par les paramètres synthétisant les observations : paramètres de
tendance centrale paramètres de dispersion
◼ Analyse et représentation (courbe, paramètre, indice…)
◼ Interprétation
◼ Prévision.
Cette démarche est la même dans toutes les applications de la statistique.
Pour apprécier la valeur d’une statistique, le degré de confiance qu’on peut lui
accorder ou encore sa signification exacte, il faut savoir comment elle a été obtenue,
quelles erreurs peuvent résulter de la nature des faits, des procédés d’observation et
de dépouillement.
1ère étape: On collecte des données:
soit de manière exhaustive
soit par sondage
2ème étape: On trie les données que l’on organise en tableaux, diagrammes, etc...
3ème étape: On interprète les résultats: on les compare avec ceux déduits de la théorie
des probabilités.
On pourra donc :
 évaluer une grandeur statistique comme la moyenne ou la variance (estimateurs,
intervalles de confiance), ou des indicateurs propres au domaine de la recherche.
 savoir si, deux populations sont comparables (tests d’hypothèses).
 Déterminer si, deux grandeurs sont liées et de quelle façon (corrélation, ajustement
analytique).

La population statistique

On appelle population P un ensemble généralement très grand, voire infini, d’individus


ou d’objets de même nature. C’est une collection qui incluse tous les éléments (unités) à
étudier .Il doit être défini de manière qu’il n’ait pas de confusion.
Exemple 1 : les prélèvements du sang dans un laboratoire médical de Ngozi pendant la
semaine du 1/02 au 07/02/2015.
Exemple 2 : Les étudiants en épidémiologie au DPHU en 2015.
Notes de Cours 2020
L’unité statistique

L’entité sur laquelle peut s’observer la variable aléatoire s’appelle l’unité statistique.
Une unité statistique est un élément d’une population statistique. Elle est tout élément
d’un ensemble sur lequel l’on peut effectuer des statistiques.

a. les variables
Une variable statistique est un caractère d’une unité statistique susceptible de prendre
toutes les valeurs possibles observées.
On appelle les valeurs des variables pour un indice donné des observations ou une
réalisation du phénomène.
Lorsque le caractère statistique prend un nombre fini raisonnable de valeurs (note,
nombre d’enfants, nombre de pièces, nombre de malades…), le caractère statistique est
discret ou variable discrète
Le caractère est discret s’il peut prendre seulement certaines valeurs dans un intervalle
donné.

Exemple : le nombre de petits par portée, le nombre de cellules dans une culture, le
nombre d’accidents pour une période donnée, le nombre de globules blancs ou rouges
par ml de sang, le nombre de nucléotides A dans une très longue séquence d’ADN.

Lorsque le caractère statistique peut prendre des valeurs multiples (taille, superficie, salaire,
quantité du sucre dans le sang…) le caractère statistique est considéré comme continu ou
variable continue.

Le caractère est continu s’il peut théoriquement prendre n’importe quelle valeur dans un
intervalle donné. En général il résulte d’une mesure.

Exemple : le poids, la taille, le taux de glycémie, le rendement, etc.

Lorsque le caractère statistique est un nombre (taille, note, nombre d’enfant…) on parle de
caractère quantitatif, quand ce caractère n’est pas chiffré (langue parlée, secteur d’activité,
couleur…) on parle de caractère qualitatif.

Exemple 1 : Pour étudier la répartition des terres agricoles d'une région, on peut faire l'inventaire
des exploitations agricoles (soit n leur nombre), et noter pour chacune d'elles sa taille (en
hectares).

L'ensemble des n exploitations s'appelle la population statistique étudiée ; chacune des


exploitations est un individu, ou une unité statistique. La taille (en ha) est la variable statistique
(ou caractère) étudiée.

Chaque individu est décrit par une ou plusieurs variables, ou caractères statistiques.

Chaque variable peut être, selon le cas :


Notes de Cours 2020
1. Quantitative : ses valeurs sont des nombres exprimant une quantité, sur lesquels
les opérations arithmétiques (somme, etc.) ont un sens.
La variable peut alors être discrète ou continue selon la nature de l'ensemble des
valeurs qu'elle est susceptible de prendre (valeurs isolées ou intervalle).

2. Qualitative : ses valeurs sont des modalités, ou catégories, exprimées sous forme
littérale ou par un codage numérique sur lequel des opérations arithmétiques
n'ont aucun sens.
3. les variables peuvent être mesurées, repérées, ou indexées.

Les deux premières donnent lieu à des ensembles naturellement ordonnés se prêtant
à un classement (taille, température)

Les troisièmes concernent les variables qualitatives donc non quantifiables, ni


repérables. (Sexe, profession…)
Pour cette sorte de variables on ne peut qu’élaborer une liste de modalités ou
nomenclature des modalités à laquelle on applique une indexation.

Exemple : la variable état matrimoniale donne quatre modalités : marié, célibataire, veuf
(ve), divorcé,

L’indexation consiste à attribuer exemple : 1marié, 2 célibataire, 3 veuf (ve), 4 divorcé.


Ou encore : M, C, V, D.

Le nombre n de modalités est dit cardinal de l’indexation.

De ces quatre modalités on peut avoir 4 ! Indexations distinctes.

Dans le souci de normalisation les décideurs au niveau national, ou international


choisissent parmi le n ! Indexations une et une seule qui devra être utilisée dans toutes
les opérations.

L’ensemble des nomenclatures légales est nommé code.

Exemple de nomenclature : C.I.T.I, C.I.T.E., C.I.T.M., plan comptable,…


Notes de Cours 2020

On distingue des variables qualitatives ordinales ou nominales, selon que les modalités peuvent
être naturellement ordonnées ou pas.

Une variable est dichotomique si elle n'a que 2 modalités.

Les variables seront ensuite analysées différemment selon leur nature (quantitative, qualitative,
etc.…), au moyen de tableaux, graphiques, calcul de paramètres-clé.

Une donnée statistique est l’unité élémentaire d’information se trouvant dans chacune
des cases du tableau d’information.
L’ensemble des données correspondant à une unité statistique constitue une
observation.
Une série statistique est l’ensemble des valeurs d’une variable.

Le choix de la population, des unités, des variables est fonction du type d’étude que l’on
entend mener.

C’est pourquoi les concepts pourront se multiplier comme :

unités simples : un homme, un clou, un vélo… pour lesquelles on peut envisager


des caractères distincts.
Notes de Cours 2020
Unités complexes ; celles qui associent plusieurs unités ou caractères : homme-
heure, homme-jour, tonnes-kilomètres
Unité théorique ou fictive ; est l’unité résultant de la tendance à placer dans une
situation d’égalité les divers individus d’une unité virtuelle et se substituant à une
unité réelle homogène.

Exemple : on désigne un enfant dans une étude de consommation par 0,5 unités
adultes.

Variable de base : conçue pour l’observation et recueillies au moment de


l’enquête.
Variables dérivées : viennent des variables de base au moyen d’algorithme de
calcul

Exemple : le poids de produit autoconsommé est une variable de base. Son apport en
calorie obtenu par l’intermédiaire d’une table de composition des aliments en calories
est une variable dérivée.

Une population peut être réelle ou fictive.


Il est le plus souvent impossible, ou trop coûteux, d’étudier l’ensemble des individus
constituant une population ; on travaille alors sur une partie de la population que l’on
appelle échantillon.
Pour qu’un échantillon permette l’étude de la variabilité des caractéristiques d’intérêt de
la population, il faut qu’il soit convenablement sélectionné. On parlera d’échantillon
représentatif si les individus le constituant ont été tirés au sort dans la population.
C'est un sous ensemble de la population considérée.

Typologie de données statistiques

Les données statistiques sont dites de premières mains (primary data) lorsqu’elles sont
collectées par le chercheur lui-même auprès des unités statistiques.
Elles sont dites de secondes mains (secondary data) lorsque le chercheur les a prélevés
des documents établis par d’autres institutions pour d’autres fins.

On ne sauve rien en tuant l’objet de son amour.


Notes de Cours 2020
RAPPEL

Les statistiques sont des chiffres mais les chiffres ne sont pas des statistiques.

TRAVAIL PRATIQUE 1

Durée 72 heures.

1. Le tableau ci-dessous donne la répartition de points obtenus par deux candidats pour
des tests présentés. Chaque discipline est cotée sur 20 points.

Branches Français Mathématique Sociologie Philosophie Statistique Total

Points d’Alice 18 16 14 12 10 70

Points de
14 14 14 14 14 70
Félicien
a) Calculer la moyenne, le mode, la médiane de notes de chaque candidat
b) Calculer l’écart type pour chacun
c) Lequel de deux candidats est préférable ? dites pourquoi ?
2. Compte tenu de la crise de coronavirus deux entreprises se dessaisissent de
travailleurs. L’entreprise Ouédraogo et frères qui a 100 employés se dessaisit de 20
travailleurs et l’entreprise Musangilayi et fils qui a 2000 employés se dessaisit de 400
travailleurs
a. Que peut-on dire en comparaison absolue de deux entreprises ? Laquelle s’est
dessaisit d’un grand nombre de travailleurs ?
b. Si nous considérons une comparaison relative que peut-on conclure entre les deux
entreprises ? Ont-elles agi différemment ? Justifier votre réponse.
3. Avec le tableau en annexe concernant les informations des ouvriers de Paluebe sarl, le
conseil d’administration s’adresse à vous pour lui présenter d’une manière succincte
exigée ci – dessous :
a. un diagramme représentant la répartition par sexe des travailleurs et commenter.
Etant donnée la loi sur la représentation paritaire entre homme et femme, tirer la
conclusion si l’entreprise est dans le respect de la loi d’au moins 30% de femmes.
b. un tableau (un tableau à double entrée ou de contingence) représentant la répartition
par nombre d’enfant garçon et nombre d’enfant fille en pourcentage. Que peut-on
remarquer dans ce tableau ?
c. un tableau représentant la répartition par taille de travailleurs. Pour faciliter la
compréhension des instances directrices, il vous est demandé de calculer le mode, la
médiane, la moyenne d’âge et son écart - type. Tracez l’histogramme de fréquences et
les courbes cumulatives.
Notes de Cours 2020

Les gens du livre disent que le créateur travailla six jours et puis se reposa le septième.
Je travaillerai ainsi les six jours appelés « la vie » et me reposerai le septième qu’on
nomme « la mort ». ( J.R. DYCKOBA).

B. MODELE DE FAMILLE DES DISTRIBUTIONS NORMALES

Une distribution est dite normale si elle remplit des conditions suivantes :
a) la courbe a une forme d’une cloche,
b) la moyenne = mode = médiane
c) si on considère un certain nombre d’écart type de part et d’autre de la
moyenne on a :
68% :  − 1 et  + 1
95% :  − 1,96 et  + 1,96
99% :  − 2,58 et  + 2,58

Exemple : La distribution de 1000 hommes de Gikomero par taille (en inches).

Taille effectifs
61-62 2
62-63 5
63-64 17
64-65 43
65-66 86
66-67 152
67-68 193
68-69 197
69-70 148
70-71 91
71-72 45
Notes de Cours 2020
72-73 16
73-74 4
74-75 1
Total 100

Calculer la moyenne, le mode et la médiane.


Cette distribution est – elle normale ?
Modèle normal général

Le modèle normal de probabilité, également appelé gaussien ou de Laplace-Gauss est


certainement le plus important de tous.
Si une variable aléatoire est continue, si elle est capable de prendre n’importe quel
nombre entre -∞ et ∞ et si sa fonction de densité de probabilité est donnée par :
1
− ( )( x − ) /  
2
1
f ( x /  , ) = e 2 , − x + (1)
 2
Alors X est dite normale ou X est variable normale.
Dans l’expression (1) Ц et σ sont des nombres réels tels que -∞ < Ц <∞ et σ >0.
La fonction de densité cumulative d’une variable normale est donnée par
x 1
− ( t −  ) /  
2
1
l’expression : F ( x /  ,  ) =  e 2 dt (2)
−  2
Avec les deux expressions (1) et (2) on peut voir qu’un modèle normal de probabilité est
complètement défini par les deux paramètres Ц et σ.
E ( X ) =  et V ( X ) =  2
La distribution normale a un domaine de définition infini de telle sorte que sa courbe de
densité ne touche jamais l’axe des abscisses.
Par conséquent, n’importe quel intervalle de nombre doit avoir une probabilité positive.
Cette propriété permet d’utiliser la loi normale pour approximer les autres distributions
dont les domaines de définition sont finis.
La transformation linéaire d’une variable normale conduit à une nouvelle variable
normale.
On parle de famille parce que les distributions peuvent avoir des moyennes différentes
avec même écart – type ou les écarts – type différents pour la même moyenne.
Même moyenne et écarts – types différents
Notes de Cours 2020
Même écart – type et moyennes différents

Moyennes différentes et écarts – type différents

A cause de cette multiplicité on fait recours à un modele standardisé appelé aussi Z


standard ou loi normale standards.
Modèle normal standard

En résumé une variable normale est représentée comme suite X N (  ,  )


(x − )
Et Z = est une variable standard avec comme moyenne zéro et

écart-type 1. D’où on écrira Z N (0,1)
avec x : une valeur observée, : la moyenne et  : l'écart-type
La transformation Z est particulièrement utile et même indispensable lorsqu’on a affaire
à des intégrales qui ne peuvent pas être ramenées a des fonctions élémentaires.
Les FDP et FDC de Z sont exprimées comme suit :
1 − 12 Z 2
f (Z / 0,1) = e (1)
2
z
1 − 12 t 2
F ( Z / 0,1) =  e dt (2)
− 2
Par convention on note la FDP n(z/0,1) et FDC N(z/0,1)
Notes de Cours 2020
En clair, n’importe quelle FDC normale peut être convertie en une fonction de densité
cumulative standard normale par la transformation z de la manière suivante :
N ( x /  ,  ) = P( X  x)
=P  ( + z)  x 
x-
=P(z  )

x-
=N( /1)

x-
=N( )

Exemple : Une station d’expérimentation agricole souhaite tester l’effet de l’utilisation


d’un nouveau fertilisant chimique sur la culture de pomme de terre.
Elle divise ses milles hectares de terre en 2000 lotissements égaux pour l’expérience. A la
fin de la période, il s’est avéré que les pommes de terre de 2000 lotissements mesurées
en kilogramme est normalement distribue avec la moyenne 2425 kg et un écart type de
115 kg.
Supposons que le champ d’un lot particulier est sélectionné pour observation au hasard.
Quelle est la probabilité pour que la récolte soit :
i) comprise entre 2250 et 2425 kg
ii) comprise entre 2250 et 2500 kg
iii) comprise entre 2525 et 2625 kg
iv) supérieur à 2500 kg
v) inférieur à 2200 kg.
Notes de Cours 2020

Dans la pratique il suffira de consulter des tables de la loi normale centrée réduite pour
avoir la probabilité avec z = - 1, 52 mais la courbe étant ascendante on a dans la table que
de valeur positive. Par la symétrie évoquée ci – haut, nous prendrons la probabilité
symétrique attachée à la valeur z = 1,52 dans la table de Z standard en annexe

ii. entre 2250 et 2500


Notes de Cours 2020
Notes de Cours 2020
Notes de Cours 2020

3 ( X − mediane )
= si le coefficient de dissymétrie est plus grand que +1 ou plus

petit que -1 la distribution est supposée non – symétrique donc pas normale.
Exemple: laquelle des distributions suivantes est normale?
Notes de Cours 2020

classes 5 à29 29 à 54 54 à 79 79 à 104 104 à 129 à 154 à


129 154 179
Effectif 2 3 4 5 2 1 1

classes 34 à 58 58 à 83 83 à 108 108 à 133 133 à 158 158 à 183


effectif 1 3 0 2 8 3
Notes de Cours 2020

IIième PARTIE
Notes de Cours 2020
CHAPITRE 1.3. LA THEORIE DE L’ECHANTILLONNAGE
La théorie de l’échantillonnage a pour but de déterminer, à partir des résultats de
l’échantillon, les caractéristiques de la population et la précision des estimations
utilisées.
Lorsque nous étudions une population, il y’a bien de raisons qui poussent à ce que
l’on puisse recourir à l’échantillonnage. On peut citer :
Le facteur temps : mener une enquête exhaustive demande suffisamment de temps.
De fois celui-ci est au-delà du timing de la décision à prendre.
Le cout financier de l’opération : une investigation ou opération de collecte de
données peut être couteux. Bien sûr dans plusieurs situations, elles très fastidieuse
et couteuse l’opération d’un recensement.
L’impossibilité d’avoir tous les individus impliqués dans l’étude. Nul ne peut saisir
toute la population d’oiseaux, de poissons, des vagabonds…
La nature destructrice de l’opération : Pour étudier la durée d’une production
d’ampoule électrique. Il ne faudrait pas détruire toutes les ampoules pour le faire.
Pour déterminer la qualité d’une boisson embouteillée, on ne se donnerait pas à
ouvrir toutes les bouteilles d’une cargaison de peur de ne savoir les vendre. Couper
toute une forêt pour connaitre l’âge de la forêt.

Il est possible d’obtenir des informations concernant la population en ne prenant


qu’un échantillon. On a un échantillon lorsqu’on ne prend que quelques membres de
la population. Il se pose alors le problème du choix de ces éléments de la population,
de manière à pouvoir déterminer, de façon optimale, les caractéristiques de celle-ci.
Néanmoins, il est inconséquent de choisir à son grès les éléments devant
représenter la population. Sur ce, on fait recourt aux différentes méthodes qui
permettent de justifier un choix judicieux. Le choix d’une méthode d’échantillonnage
doit offrir de prime à bord la facilité d’accéder avec aisance aux éléments à
sélectionner et la pertinence de la démarche.
Il est alors important de recourir aux méthodes attestées. Ces méthodes peuvent
être aléatoires dites probabilistes (au hasard) ou non aléatoires dites non
probabilistes.
Une méthode échantillonnage est dite aléatoire si chaque membre de la population a
la même chance d’être choisi.

On prend un échantillon aléatoire car il est alors possible d’arriver à des modèles de
probabilité pour les distributions. Comme les conclusions qu’on tire d’un échantillon
sont basées sur les probabilités, les échantillons doivent être formés de telle
manière que la théorie des probabilités puisse être utilisée.
Etant donnés qu’à chaque chose on reconnait les avantages et les inconvénients, on
peut être buté aux difficultés dans l’utilisation des méthodes aléatoires dans
certaines investigations. Ces difficultés peuvent être liées à bien des choses telles
que la spécificité des informations désirées, la susceptibilité et la pertinence des
informations. Dans ce cas, à l’impossible nul n’est tenu, on fait appel aux méthodes
non aléatoires ou non probabilistes.
Notes de Cours 2020
On parle des méthodes non aléatoires, non probabilistes ou méthodes raisonnées. A
l’opposé des celles dites aléatoires ces dernières ne sont pas si mauvaises que
nombre d’apprentis sorciers veulent l’affirmer. Les méthodes non probabilistes ont
l’avantage d’offrir une démarche devant simplifier la collecte d’information dans des
circonstances telles que les méthodes aléatoires s’avèrent impuissantes.

1.3.1. METHODES DE L’ECHANTILLONNAGE ALEATOIRES

A. Méthode aléatoire simple (sondage aléatoire simple : S.A.S)


Un échantillon est dit aléatoire simple si chaque membre de la population a la même
chance d’être choisi. Ceci signifie que la probabilité qu’un membre de la population
soit
choisi est de 1/N, où N est le nombre de membres dans la population. D’une manière
générale, si l’on a un échantillon composé de r individus, c’est-à-dire si la grandeur
de l’échantillon est r, on a un échantillon aléatoire simple si chaque combinaison de
r
individus dans la population a la même probabilité d’être choisie. Nous verrons plus
tard d’autres méthodes d’échantillonnage aléatoire.
Les statisticiens insistent sur la nécessité de choisir au hasard les éléments de
l’échantillon par des processus simple comme le tri dans un chapeau ou une urne.
Une méthode beaucoup plus pratique consiste à utiliser la table des nombres
aléatoires. (Voir annexe)
Les calculatrices et les ordinateurs ont des programmes pour obtenir des nombres
aléatoires.
Leur qualité n’est pas aussi bonne que celle des chiffres de la Rand Corporation et on
parle plutôt de nombres pseudo-aléatoires. Néanmoins, il est beaucoup plus
pratique
d’utiliser ces programmes que de prendre une table de nombres aléatoires.
Utilisation et lecture de la table de nombres aléatoires

Après avoir déterminé la taille de l’échantillon n pour une population N, on choisit


une ligne, une colonne et le sens de progression (de haut en bas soit de bas en haut
soit de gauche à droite)
Exemple 1. Nous nous référons à l’exercice de travailleurs de l’entreprise Paluebe
Sarl en annexe. Nous voulons tirer un échantillon de 10 unités par la méthode SAS
en utilisant la table de nombres aléatoire en annexe aussi.
Solution
La liste de travailleurs est numérotée de 1 à 50. Sur ce, nous avons deux rangs dans
le comptage donc on compte de 01 à 50. Nous devons considérer la lecture à deux
rangs.
a) Nous choisissons une ligne selon notre à gré : ligne 1
b) Nous choisissons une colonne selon à notre gré : colonne 8
c) Nous choisissons le sens de progression : gauche à droite
Notes de Cours 2020

12345 678910
9
1 2 3 4
5
6 7
8

a l’intersection de la première ligne et la huitième colonne il y’a le chiffre 2. Mais


nous devons lire un chiffre de deux rangs allant de gauche à droite. D’où notre
premier chiffre est 26. Nous devons nous assurer que 26 fait partie de la liste ainsi
retenons comme première unité est l’individu à la place 26 sur la liste. Nous
progressons vers la droite. Reference faite à la liste de travailleurs. La selection est
comme suite
26, 60, 06, 68, 89, 98, 80, 00, 05, 53, 33, 39, 91, 15, 54, 47, 70, 04, 48, 35, 55, 58, 88,
86, 65, 51, 12, 22, 25, 59, 96, 60, 03, 31, 15, 52, 21, 19, 91,
Nombre
numero sur Taille (en Nombre
N° d'ordre Sexe Age Poids (en kg) d’enfant
la liste cm) d’enfant fille
garcon
1 26 F 15 165 65 3 0
2 6 M 15 155 55 1 0
3 5 M 15 175 60 2 2
4 33 F 16 143 36 0 1
5 39 F 16 161 46 3 1
6 15 F 15 151 40 1 1
7 47 F 16 170 60 0 1
8 4 M 16 180 63 1 4
9 35 F 16 160 40 1 2
10 12 F 15 178 60 0 1

Exemple 2. On change juste la progression


a) Nous choisissons une ligne selon notre à grè : ligne 1
b) Nous choisissons une colonne selon à notre grè : colonne 8
c) Nous choisissons le sens de progression : de haut en bas

Nous aurons : 28, 81, 16, 69, 98, 88, 84, 42, 29, 94, 45, 51, 12, 23, 34, 42, 23, 34…
Exemple 3. Changeons de ligne
a) Nous choisissons une ligne selon notre à gré : ligne 4
Notes de Cours 2020
b) Nous choisissons une colonne selon à notre gré : colonne 8
c) Nous choisissons le sens de progression : de droite à gauche

Nous aurons : 66, 06, 30, 53, 95, 29, 42, 54, 45, 84, 08, 80, 28…

N.B. : il faut noter que les chiffres qui ne sont pas retrouvables sur votre base de
sondage ou d’échantillonnage ne sont pas retenus.

Exercice :

1. Supposons qu’on a 100 ménages inscrits au registre de l’état civique avec des
numéros allant 001 à 999. Si l’on veut prendre un échantillon de 50 ménages,
on peut regarder dans une table de nombres aléatoires. Nous vous
demandons de faire une simulation pour sélectionner les 17 premiers
ménages.
2. Sur la liste de travailleurs de Paluebe Sarl, sélectionnez 15 travailleurs et
présenter le tableau de répartition par sexe en pourcentage.

Nous vous referons aux deux livres joints à ces notes de cours pour les autres méthodes
d’échantillonnage. Recommandons que pour chacune d’elle vous puissiez présenter un
exemple au choix. Énoncez la méthode et expliquez votre démarche de sélection.

CHAPITRE 1.4. DISTRIBUTION DE L’ECHANTILLONNAGE DE LA MOYENNE

L’induction ou inférence statistique, c’est-à-dire la détermination des propriétés


d’une population à l’aide d’un échantillon, sera faite en utilisant surtout la moyenne
et l’écart-type de l’échantillon.
En d’autres termes, on estimera la moyenne et l’écart-type de la population en
utilisant la moyenne et l’écart-type de l’échantillon.

Pour une population de N individus. Soient X1, X2, . . . , XN les valeurs de la variable
aléatoire X associée à cette population. La moyenne de la population est:

En tirant un échantillon aléatoire de cette population; un échantillon de grandeur n.


avec les valeurs x1, x2, . . . , xn les membres de cet échantillon. La moyenne de
l’échantillon est:

On peut alors se demander si cette moyenne X de l’échantillon peut nous donner


une idée de la moyenne de la population.
On prend comme estimation de la moyenne µ et l’on veut savoir si cette estimation
est bonne. Ceci dépend de la distribution d’échantillonnage de la moyenne.
Notes de Cours 2020
Si l’on prend par exemple une population avec moyenne 10 et, lorsqu’on tire une
première fois un échantillon, on obtient une moyenne de 3 et, une deuxième fois,
une moyenne de 200, il est clair qu’il serait dangereux d’utiliser la moyenne de
l’échantillon pour estimer la moyenne de la population, car il y a un risque très
grand d’avoir une mauvaise estimation. Il est par conséquent très important de
connaitre la distribution d’échantillonnage de la moyenne.
La différence entre la moyenne de la population et celle de l’échantillon est appélée :
erreur d’échantillonnage.

Exemple : Un étudiant passe 5 examens et les points sont les suivants : 5; 1; 7; 10; 2.
Calculer la moyenne de points de l’étudiant et l’écart-type.
n

X i
5 + 1 + 7 + 10 + 2
= i =1
= = 5 points
N 5
Solution :
n

(X i −  )2
= = 3, 286 points
i =1

N
Tirons échantillon aléatoire de n=2. Et calculons la moyenne.
On a par exemple : 5; 2
n

X i
5+ 2
X= i =1
= = 3,5 points
n 2
n

(X i − X )2
s= i =1
= 2,12 points
n −1
Il n’a rien de commun entre les valeurs représentatives de la population et celles de
l’échantillon. D’où l’erreur d’échantillonnage. (5-3,5=1,5)
Il faut alors étudier leurs distributions d’échantillonnage.
Prenons tous les échantillons aléatoires possibles de taille n=2 sans remise. On a :
52 = 25

Moyennes
Des
Ordre Echantillons échantillons
1 (1;1) 1
2 (1;5) 3
3 (1;7) 4
4 (1;2) 1,5
5 (1;10) 5,5
6 (5;1) 3
7 (5;5) 5
8 (5;7) 6
Notes de Cours 2020
9 (5;2) 3,5
10 (5;10) 7,5
11 (7;1) 4
12 (7;5) 6
13 (7;7) 7
14 (7;2) 4,5
15 (7;10) 8,5
16 (2;1) 1,5
17 (2;5) 3,5
18 (2;7) 4,5
19 (2;2) 2
20 (2;10) 6
21 (10;1) 5,5
22 (10;5) 7,5
23 (10;7) 8,5
24 (10;2) 6
25 (10;10) 10
TOTAL 125
MOYENNE
De
moyennes
des
échantillons 5
Variance
des
moyennes
des
échantillons 5,4

X i
moyenne de l'échantillon: X = i =1

n
n

X i
moyenne des moyennes des échantillons:  X = i −1

n
n

(X i −  X )2
Variance des moyennes des échantillons: X2 = i =1

La moyenne des moyennes des échantillons est égale à la moyenne de la population.


Notes de Cours 2020
La variance de la moyenne des échantillons est beaucoup plus petite que la variance
des membres de la population (5,4 contre 10,8).
La distribution de l’échantillonnage de la moyenne, si x est une variable normale
avec moyenne µ et écart-type σ et on prend un échantillon de grandeur n, alors la
moyenne de l’échantillon (¯ x) est distribuée normalement avec moyenne µ et écart-
type σ/√n.
En conclusion, la précision de l’estimateur de la moyenne de l’échantillon augmente
lorsque la grandeur de l’échantillon croît.

La loi des grands nombres nous instruit que si on a un échantillon de taille n, sa


moyenne on peut évoquer l’inégalité de Tchébicheff que
Le théorème central limite s’énonce comme ci-après :
Si x possède une distribution avec moyenne µ et écart-type σ, alors la moyenne
de l’échantillon ¯ xn , où n est la grandeur de l’échantillon, aura une distribution qui
approchera la distribution d’une variable normale, avec moyenne µ et écart-type
σ/√n lorsque n tend vers l’infini.

Cas d’une petite population


Supposons un échantillon non exhaustif ou que la population est grande par rapport
à la grandeur de l’échantillon, de sorte que le fait de prendre un échantillon
exhaustif n’a pas d’effets importants sur la composition de la population.
Dans certains cas, cette supposition n’est pas réaliste. Il arrive souvent qu’un
membre ne puisse pas être pris plus d’une fois dans l’échantillon. Si la population
n’est pas très grande par rapport à l’échantillon il faut tenir compte de ce fait et
modifier les formules données ci-dessus. On peut montrer que la variance de la
moyenne d’échantillonnage est:

est appelée « facteur de coorection de


population finie ». Si l’échantillon ne dépasse pas le 10% de la population, il n’est pas
nécessaire de faire cette correction puisque la différence est minime.
x−
Référence faite de la variable standard ou centrée réduite z on peut z = alors

X − X
avec la distribution de l’échantillonnage de moyenne on aura z = quand
/ n
l’écart-type de la population est connu.
X − X
Dans le cas où l’écart-type de la population est inconnu z =
s/ n
Notes de Cours 2020
Solution
p ( 50  x  150 ) = ?
x− 50 − 100
0,9544 Z 50 = = = −2
 25
50 100 150 x 150 − 100
-2 0 +2 z z150 = =2
25
p ( −2  z  +2 ) = 0, 4772 + 0, 4772 = 0.9544

EXERCICES
Notes de Cours 2020
CHAPITRE 1.5. THEORIE D’ESTIMATION

Compte tenu des difficultés évoquées ci-haut, il est souvent prohibitif de calculer les
paramètres d’une population. Pour ce faire, on fait recours à l’échantillonnage afin
de calculer des valeurs représentatives d’une population en s’appuyant sur les
valeurs obtenues à partir d’un échantillon. Ces valeurs sont celles que l’on nomme
statistique à la place des paramètres. Ces statistiques sont des estimateurs. On peut
estimer la moyenne, la proportion, la variance.
Deux procédés permettent de le faire. Il s’agit de l’estimation ponctuelle et
l’estimation par intervalle de confiance.

1.5.1. L’estimation ponctuelle on calcule une valeur en utilisant les éléments de


l’échantillon et on prend cette valeur comme estimateur du paramètre de la
population. Les estimateurs discutés jusqu’à présent sont des estimateurs ponctuels
(par exemple x¯ pour µ).

Exemple : En utilisant l’échantillonnage systématique, tirez un échantillon de taille


15 dans la liste de travailleurs de Paluebe et calculer la moyenne et la écart-type de
la variable poids.
Quelle est la proportion de travailleurs entre 50kg et 60kg?

 xi (X i − X )2
x
X= ; sX2 = i =1
, p=
n n −1 n

La moyenne et la variance calculées avec votre échantillon sont-elles égales à la


moyenne et à la variance de population de travailleurs de l’entreprise.
Les deux valeurs trouvées sont des estimations ponctuelles de la moyenne et de la
variance.

1.5.2. Estimation par intervalle on détermine deux valeurs et on donne la


probabilité que le paramètre de la population se trouve à l’intérieur de cet
intervalle. Cet intervalle est appelé intervalle de confiance puisque la probabilité
calculée nous donne la confiance que l’on peut avoir en ce qui concerne cette
estimation.
L’estimation par intervalle a l’avantage de montrer la précision dans l’estimation du
paramètre et ceci facilite la compréhension des résultats.
En effet, dans l’estimation ponctuelle il y a le danger qu’on oublie que l’estimateur
est une variable aléatoire avec une certaine variance. Lorsqu’on donne des résultats
d’une estimation ponctuelle, il est important d’indiquer aussi l’écart-type de
l’estimateur, de manière à pouvoir construire l’intervalle de confiance désiré.
Notes de Cours 2020
 
L’intervalle de confiance est donné par : X  z 2 ou X − z 2    X + z 2
n n
Lorsque la variance n’est pas connue nous avons vu ci haut qu’elle peut être calculée

par = sX Et l’intervalle de confiance devient
n
s s s
X  z 2 ou X − z 2    X  z 2
n n n
Z est trouvé dans la table de la loi narmal centrée reduite (z standard) pour un seuil
de confiance donné.
0,95
Exemple 1 : Seuil de 95% on a 0,95  pour avoir z on fait = 0, 475 puis nous
2
lisons sur le corps da la table le z correspondant à 0,475

Z=1,9+0,06= 1,96
Ceci signifie que lorsqu’on considère une longue série d’épreuves il y aura
seulement dans 5% des cas une valeur de µ qui ne sera pas comprise dans
l’intervalle de confiance. La différence X −  est appelée l’erreur de l’estimation.
5%   = 100% − 95% c'est le niveau de confiance

Exemple 2 : seuil de confiance de 98% on a 0,98/2= 0,49 et il faut cherche. Z=2,33

Exemple 3: Une fabrique de jus constate que le remplissage de boite de jus est
distribué normalement avec un écart-type de 300 ml. Afin d’estimer le remplissage
moyen d’une boite, on teste un échantillon de 36 boites et on trouve une moyenne
de 5000 ml. Au seuil de 95% écrivez l’intervalle de confiance de la moyenne.

Solution
Notes de Cours 2020

( x −  )
2

=
N

La moyenne de remplissage se trouverait entre 402ml et 598ml


Exercice
Calculer l’intervalle de confiance de l’exemple 3 pour le seuil de :
a) 98%
b) 99%
c) 80%
d) 90%
e) 70%

N.B. Nous retiendrons que cet intervalle de confiance est calculé quand l’écart-type de
la population et elle est normale et connu ou encore n  30
Nous lisons z dans la table de la loi normale standard.
Il faut aussi savoir que tous les intervalles de confiance ne contiennent pas la valeur de
la moyenne de la population.

Exemple 4: Le syndicat de Palwebe Sarl, sélectionne un échantillon de 256


travailleurs pour estimer la moyenne de salaires distribués dans l’entreprise. Le
syndicat trouve une moyenne de 45.500 francs CFA avec un écart-type de 2.050
francs CFA.
Ecrire l’intervalle de confiance à : 99%, 60%
Solution
0,99
a) 99%  0,99  = 0, 495 En lisant dans la table de la loi normale standard
2
z=2,58
s 2050
X  z 2  45500  2,58   45500  330,5625
n 256
45169, 4375    45830,5625

(x − X )
2

S est l’écart-type de l’échantillon s =


n −1

Dans la mesure où l’écart-type de la population est inconnu et n est inférieur à 30. Cette
situation n’est pas prise en compte par le théorème central limite. On a un intervalle de
confiance avec la loi de Student
s
X t avec t ( ,n −2) et ( n − 1) degré de liberté
n
Notes de Cours 2020

Exemple 1: Un fabriquant de pneumatique veut connaitre la durée de vie de pneus


de sa marque. Il sélectionne au hasard 10 pneus. Après un essaies de 50.000 Km, il
se rend compte que les pneus sont érodés en moyenne de 0.32 cm avec un écart –
type de 0,09 cm. Écrire l’intervalle de confiance au seuil de 95%. Le fabriquant
peut-il être sûr que l’érosion de pneu est de 0,30 cm?

Solution :
Du fait que 1. La population de pneus n’est pas connue et que l’écart –type de la
population est inconnue. On ne peut pas utiliser la loi normale. Ainsi on se tourne
vers la distribution t de Student qui est proche;

Lintervalle de la moyenne est


s 0, 09 0, 09
X t = 0,32  t(10−1;0,05) = 0,32  2, 262  = 0,32  0, 064
n 10 3,16
0, 256    0,384

Il faut retenir que nous avons le seuil de 95% le degré de liberté est n-1 donc 10-1=9
Notes de Cours 2020
Le fabricant de pneus peut être sûr que la moyenne d’érosion est à l’environ de 0,30
cm parce que 0,30 cm est dans l’intervalle.

Exemple 2 : Pour étudier les habitudes des ménages de la ville de Goma en R.D.
Congo, un économiste suit dans leurs dépenses 20 ménages de la ville. Il récolte les
données ci-après. Il vous est demandé d’écrire l’intervalle de confiance de la
moyenne au seuil de 95%, et dire s’il peut se contenter de dire que cette moyenne
est autour de 50$. Peut-il de permettre de remonter jusqu’à 60$?

Exemple 3 : Pour permettre une bonne allocation du temps (en nombre d’heure de
voyage en bus) de debut du travail, le ministere du travail veut evaluer le temps
moyen passé dans le transport par les travailleurs entre leurs domiciles et leurs
lieux du travail. Il selectionne un échantillon ci-dessous. Calculer la moyenne et
ecrire son intervalle de confiance à 99%.
Notes de Cours 2020
Notes de Cours 2020
1.5.3. Estimation de la proprtion

Une proportion est une fraction, un ratio, une poucentage des indicant une partie de
l’échantillon ou de la population ayant une particularité.
Exemple, dans une classe mixte on dira qu’il y’a 1/3 ou 0,33 ou encore 33% de
femmes.
x x
Dans la population P= et dans léchantillon p=
N n
L’intervalle de confiance de la proportion est donné par ;
p (1 − p ) p (1 − p )
pz c'est à dire que  X =
n n

Exemple 1 : Dans le souci d’appliquer léquité et non l’égalité dans son partie
politique le comité directeur du partie politique UDPS/Tshisekedi compte lors de
ses meeting 160 femmes sur un total de 2000 participants. Quelle est le proportion
de femmes dans ce partie ? ecrire l’intervalle de confiance de cette proportion à
90%.

Solution
160
p= = 0, 08 ou 8% il y’a 8% de femmes dans le partie
2000
L’intervalle de confiance est
p (1 − p ) 0, 08 (1 − 0, 08 )
pz = 0, 08  1, 65  = 0, 08  0, 01
n 2000
0, 07  P  0, 09

NOTA BENE : Dans la démarche suivie ci haut la taille de la population n’est pas
connue. Les éléménts majeurs mis en avant étaient soit la population est
normalement distribuée, sa variance connue ou non, l’échantillon large ou non.
Mais dans la situation de tirage sans remise ou que la taille de la population est
connue et elle est une population finie. On doit utiliser le facteur de correction de
population finie

L’intervalle de confiance de la moyenne devient


Notes de Cours 2020
Exemple 1 : Le syndicat de travailleurs miniers se plaint de la mauvaise
remunération de 2600 travailleurs de mines du Burkina Faso. On tire au hasard
indistinctement 400 travailleurs. La moyenne de salaire sur cet échantillon donne
45000Frcfa avec un écart-type de 1500Fcfa. Ecrivez l’intervalle de confiance à 98%.
Solution
s ( N − n) 1500 2600 − 400
X  z = 45000  2,33  = 45000  142,92
n ( N − 1) 400 2600 − 1

44857, 08    45142,92

Exercices.

A 95% de seuil de confiance calculer l’intervalle de confiance de la moyenne. La


compagnie peut elle se fier à sa connaissance ? dites pourquoi ?
Notes de Cours 2020
Notes de Cours 2020

1.5.4. DETERMINATION DE LA TAILLE DE L’ECHANTILLON

Pour toute étude qui fait recours à la collecte de données, la question qui se pose est
celle de savoir combien d’individus faudrait-il prendre dans un échantillon dans la
mesure où on ne peut pas travailler sur toute la population. Un échantillon
représentatif dit – on.
La question est de taille de telle manière qu’elle rendrait toute la recherche fausse
faute de prouver la pertinence de données sur lesquelles les conclusions ont été
construites et enfin les décisions.
Sur ce, des approches statistiques prennent en compte trois facteurs dont :
1. Le seuil de confiance désiré (generalement choisi entre 95% et 99% pour
trouver z dans la table de la loi normale standard)
2. L’erreur marginale (erreur maximale choisie par le chercheur; E)
3. La variabilité dans la population étudiée  . On peut utiliser celui issu d’une
étude comparable, conduire une enquête pilote ou faute de mieux utiliser la
plus grande variabilité pour une population (0,5).

Taille pour déterminer la moyenne


Taille de la population non connue  z 2 
2

n= 
 E 
Taille de la population connue
( z 2 )   2  N
2

n=
(
E 2  ( N − 1) − ( z 2 )   2
2
)
Taille pour déterminer la proportion
Taille de la population non connue  z 2 2  p  (1 − p ) 
n= 
 E 2

 
Taille de la population connue
( z 2 )  p  (1 − p )  N
2

n=
(
E 2  ( N − 1) − ( z 2 )  p  (1 − p )
2
)
Notes de Cours 2020

Est-ce que la population est


Normale?

n est il supérieur ou Est-ce que l’écart-type de la


égale à,30 population est connu

Test non Z est utilisée t est utilisée Z est utilisée


paramétrique
Notes de Cours 2020
Chapitre 1.6. TEST D’HIPOTHESE

Une hypothèse statistique est une supposition sur la densité de probabilité d’une
variable aléatoire.
Le test d’une hypothèse statistique est une procédure pour décider s’il faut accepter
ou refuser une hypothèse.

En ce qui concerne la distribution normale, le test de la population se réduit au test


des paramètres µ et σ.
Pour la distribution binomiale, nous avons à tester le paramètre p et pour la
distribution exponentielle ou celle de Poisson il suffit de tester la moyenne µ.

Exemple : On possède des ampoules électriques, mais on ne sait pas s’il s’agit
d’ampoules de la marque A ou de la marque B. La durée de vie moyenne des
ampoules de la marque A est de 100 heures, celle de la marque B est de 200 heures.
Supposons que l’on croit que les ampoules soient de la marque A, donc avec une
durée de vie moyenne de 100 heures.
Nous avons ici une hypothèse statistique, qu’on appelle H0, ou hypothèse nulle, en
ce sens que la différence entre la valeur trouvée avec un échantillon et la vraie
valeur est due uniquement à une erreur d’échantillonnage.
Par conséquent, il n’y a pas de différence entre la population et l’échantillon, les
membres de l’échantillon proviennent de la population en question.
Cette hypothèse H0 est donc l’hypothèse que la durée de vie moyenne soit 100 h.
On écrit:

H0 : θ0 = 1/100 = 0.01 signifiant qu’il n’y’a pas de différence entre la valeur trouvée
dans l’épreuve et la valeur réelle.
Pour faire la preuve de cette supposition on doit connaitre la moyenne de la
population. Hélas, utiliser toute la population d’ampoule de serait pas possible.
Ainsi, un échantillon tiré de la population d’ampoule.

L’hypothèse contraire dite aussi alternative, qu’on appelle H1, est celle d’une durée
de vie moyenne de 200 h, donc:

H1 : θ1 = 1/200 = 0.005

Si l’on veut tester l’hypothèse H0, on prend un échantillon et on détermine la durée


de vie moyenne. Supposons que l’on teste une seule ampoule, de manière à pouvoir
représenter graphiquement la densité de probabilité. On détermine donc la durée de
vie de cette ampoule. On a alors une observation de la variable aléatoire x et, sur
la base de cette valeur de x, on prend la décision d’accepter l’hypothèse H0 ou de
la refuser. Refuser H0 correspond évidemment à accepter l’hypothèse H1. Il faut
déterminer quelles sont les valeurs de x où H0 est acceptée, les autres valeurs étant
alors celles où H0 est refusée.
Notes de Cours 2020

Les valeurs de x pour lesquelles H0 est rejetée déterminent ce qu’on appelle la


région critique du test. La région critique du test d’une hypothèse statistique est la
partie l’espace d’échantillonnage qui correspond au rejet de l’hypothèse testée.
Construire un test pour H0 revient alors à choisir la région critique.

Région critique Région


critique
Région d’acceptation

Les cinq étapes d’élaboration d’un test d’hypothèse

1. Écrire l’hypothèse nulle H0


2. H1 de manière que lorsque l’hypothèse nulle est rejetée on considère
l’alternative
3. Choisir le niveau de confiance 
4. Identifier le test statistique approprié
5. Formuler la règle de décision
6. Prendre la décision de rejet ou d’acception de l’hypothèse nulle. Et
interpréter le résultat du test.

Le rejet ou l’acception de H0 est sujet à deux types d’erreurs :


a) Erreur de type 1 : on rejette H0 quand bien même elle est vraie
b) Erreur de type 2 : accepter H0 quand bien même elle est fausse.

H0 est vraie H0 est fausse


H0 est acceptée Décision correcte Erreur de type II
H0 est rejetée Erreur de type I Décision correcte

Exemple : la décision lors d’une délibération dans une classe

Réussite Échec
L’élève passe Décision correcte Erreur de type II
L’élève double Erreur de type I Décision correcte
Notes de Cours 2020
Le test peut être bilatéral à deux queux ou unilatéral une queux (à droite ou à
gauche)

Test Formulation Courbe


Bilatéral H0 : x = k
H1 : x  k
Unilatéral Droite H0 : x  k
H1 : x k
Gauche H0 : x  k
H1 : x k

1.6.1. TEST DE LA MOYENNE

Un test de la moyenne consiste à déterminer si une certaine population a une


moyenne donnée.

Exemple
Un fabricant de produits diététiques indique sur l’emballage que ses produits ont un
contenu moyen en vitamine C de 16 mg.
Un échantillon de 49 produits donne un contenu moyen de 15.82
mg avec variance s2 = 0.49, avec un niveau de confiance α = 0.10. Le fabricant a-t-il
raison?

Solution

H 0 :  = 16
1.
H1 :   16
2. α = 0.10. Avec un test bilatéral

la courbe permet de déterminer aisement la region de rejet. Ici


pour un test bilatéral on a α/2=0.05 ou 5% d’un côté et l’autre et on peut lire la valeur
z dans la table de la loi normale standard. Z donne 1,65 (l’explication pour trouver
1,65 dans la table est donnée ci bas). 1,65 est appelé valeur critique

X −
3. n=49 donc le test associé est z =
s n
-1,8
X −  15.82 − 16
z= = = −1,8
s n 0, 7 49
-1,65 +1,65
Notes de Cours 2020
Z calculée se trouve dans la région de rejet. On dit que H0 est rejetée. Il n’y’a pas
assez d’évidence pour affirmer que le fabricant a raison de dire que ses boites ont en
moyenne 16 mg de vitamine C.

Procédure

Pour faciliter l’usage de la table et de détermination de région de rejet il faut :


a) Dessiner la courbe
b) Marquer le côté indiqué. Test à deux queues, test à une queue droite ou
gauche.
c) Trouver la valeur critique (z) sur la table
Test à une queue : 0,5- α pour lire z sur la table
Test deux queues : 0,5- α/2 et lire dans z sur la table
d) Déterminer le signe de z
Test à deux queues (bilatéral) : deux valeurs de z. une positive et l’autre
négative
Test à une queue (unilatéral) à droite : z est positif
Test à une queue (unilatéral) à gauche : z est négatif
e) Marquer la valeur sur la courbe pour faciliter le placement de z calculée afin
de décider du rejet ou acception de H0

Exemple : Trouver la valeur critique pour :


i. α = 5%
ii. α=10%
iii. α =1%
avec
a) deux queues
b) une queue à droite
c) une queue

Solution

i. α = 5%
a) bilatéral

α=0,05 ainsi parce qu’il s’agit de test bilatéral alors on fait α/2. Donc
0,05/2=0,025
Enfin 0,5-0.025=0,475

-1,96 1,96
Notes de Cours 2020

b) Unilatéral droite
0,5 -0,05= 0,45 de la table de z standard on lit 1,65

+1,65
c) Unilatéral gauche
0,5 -0,05= 0,45 de la table de z standard on lit 1,65

-1,65

Exemple 2 : Le gouvernement de la réunification nationale affirme les émoluments


de députés étaient plus que 42000 dollars avec un écart –type de 5230 dollars. Pour
vérifier ce qui semble être une provocation, la société civile tire au hasard 30
parlementaires et la moyenne de leurs émoluments donne 43000 dollars. Cette
annonce était-elle vraie à 5% de confiance.

Solution

H 0 :   42000
H1 :  42000

43000 − 42000 +1,05 +1,65


z= = 1, 05
5230 / 30
Valeur critique est +1,65

H0 est acceptée. Effectivement il n’a pas assez d’évidence pour ne pas affirmer que
l’annonce du gouvernement soit une provocation.

Exemple 2 : L’office national d’utilité publique en présentant ses recherches on


remarque que les étudiants utilisant la moto dépensent en moyenne moins que
80000 francs par an pour le carburant. Mais les furieux engagent un bureau
d’expertise pour vérifier ce qu’ils considèrent comme un baratin de mauvais augure.
Une sélection de 36 étudiants utilisant la moto. On trouve une moyenne de
75000francs de carburant avec un écart type de 19200 francs. Des ONUP et les
parents qui dit mieux à 10%.

Solution -1,56

H 0 :   80000
-1,28
H1 :  80000
Notes de Cours 2020
0,5-0,1=0,4 on lit 0,3997 pour 1,28
75000 − 80000
z= = −1,56
19200 / 36

-1,56 se trouve dans la région de rejet donc H0 est rejetée. Il n’y’a pas assez
d’évidence pour n’est pas appuyer les parents qui ont raison de dire que c’est du
blabla.

Test de la moyenne pour petit échantillon

Lorsque σ est inconnu et l’échantillon est petit il faut utiliser la distribution de


Student, si l’on peut supposer que la variable aléatoire suit la loi normale.
Lorsqu’on doit faire un test avec un petit échantillon, il faut par conséquent prendre
les valeurs de la distribution de Student.

Exemple : Selon les indications du constructeur, la consommation d’essence d’un


nouveau modèle est de 10 l pour 100 Km. Des automobilistes affirment que la
consommation est supérieure à ce chiffre. Un journal spécialisé décide alors
d’effectuer un test en prenant 9 voitures. Il obtient une moyenne de 12 l avec un
écart-type (s) de 2 l.
Quelle conclusion doit-on tirer si l’on utilise un seuil de signification de 5%? La
consommation d’essence suit la loi normale.

Solution
H 0 :   12
H1 :  12
3

+1,86

t( n−1;0,05) = t(9−1;0,05) = t(8;0,05) = 1,86

H0 est rejetée

Test de différence de deux moyennes


si x1 et x2 sont deux variables normales indépendantes, avec moyenne µ1 et µ2 et
écart-type σ1 et σ2 , alors la variable ¯ x1 - x¯2 possède une distribution normale avec
moyenne µ1 - µ2 et écart-type:
Notes de Cours 2020

Test Formulation Courbe


Bilatéral H 0 : 1 =  2 H 0 : 1 − 2 = 0
ou
H1 : 1   2 H1 : 1 − 2  0
Unilatéral Droite H 0 : 1   2 H 0 : 1 − 2  0
ou
H1 : 1  2 H1 : 1 − 2 0
Gauche H 0 : 1   2 H 0 : 1 − 2  0
ou
H1 : 1  2 H1 : 1 − 2 0

A. n  30

La statistique du test est :

z=
(X 1 − X 2 ) − ( 1 − 2 )
ou z =
(X 1 − X 2 ) − ( 1 − 2 )
 12  22 s12 s22
+ +
n1 n2 n1 n2

L’intervalle de confiance de différence de deux moyennes

 12  22  12  22
(X 1 − X 2 ) − z 2
n1
+
n2
1 − 2 (X 1 − X 2 ) + z 2
n1
+
n2

s12 s22 s12 s22


(X 1 − X 2 ) − z 2 +
n1 n2
1 − 2 (X 1 − X 2 ) + z 2 +
n1 n2

Exemple 1: Les spécialistes de l’hôtellerie s’inquiètent de la disparité de prix des


chambres dans deux villes les plus fréquentées du pays. A Bobo-Dioulaso une
chambre est en moyenne louée à 8842 francs et à Ouagadougou le prix moyen est de
8061 francs avec respectivement des écarts – type de 562 francs et 483 francs.
A 0,05 de niveau de confiance la différence est-elle significative entre le deux villes ?
Exemple 2 : Avec X1 = 8,6; X 2 = 7,9;1 = 3,3; 2 = 3,3; n1 = 50; n2 = 50 est-il vrai que la
moyenne 1 est plus grande que  2 à 10%
Exemple 3 : Avec X1 = 61, 2; X 2 = 59, 4; s1 = 7,9; s2 = 7,9; n1 = 84; n2 = 34 est-il vrai que
la moyenne 1 est plus petite que  2 à 1%
Notes de Cours 2020
Petits échantillons n 30

Si l’on veut tester la différence de deux moyennes et l’échantillon est petit, il est
aussi possible d’utiliser la distribution de Student. Nous devons toutefois supposer
que les deux variables x1 et x2 suivent la loi normale. Dans le cas où x1 et x2 ont la
même variance (σ2)

Le test d’une hypothèse statistique est une règle pour prendre une décision. Si la
valeur tombe dans la région critique, on dit que le résultat du test est significatif.

Lorsque les variances sont inégales

t=
( X1 − X 2 ) − ( 1 − 2 ) avec le degré de libérté choisir le plus petit entre n − 1 et n − 1
1 2
s12 s22
+
n1 n2
L’intervalle de confiance
 12  22  12  22
(X 1 − X 2 ) − t 2
n1
+
n2
1 − 2 (X 1 − X 2 ) + t 2
n1
+
n2

s12 s22 s12 s22


(X 1 − X 2 ) − t 2 +
n1 n2
1 − 2 (X 1 − X 2 ) + t 2 +
n1 n2
Lorsque les variances sont égales ont à
Notes de Cours 2020

t=
(X 1 − X 2 ) − ( 1 − 2 )
degré de liberté égale n1 + n2 − 2
( n1 − 1) s12 + ( n2 − 1) s22 1 1
+
n1 + n2 − 2 n1 n2
L’intervalle de confiance
( n1 − 1) s12 + ( n2 − 1) s22 ( n1 − 1) s12 + ( n2 − 1) s22
(X 1 − X 2 ) − t 2
n1 + n2 − 2
1 − 2 (X 1 − X 2 ) + t 2
n1 + n2 − 2

TEST POUR LA PROPORTION

Comme la loi normale représente une approximation de la distribution binomiale,


lorsque np  5 et n (1 − p )  5 nous pouvons considérer le test d’une proportion en
utilisant les méthodes pour grands échantillons avec :
pˆ − p x
z= avec pˆ =  proportion de l'échantillon
p (1 − p ) / n n

 = np et  = np (1 − p )

Exemple 1: Un spécialiste de la santé publique affirme que 15% de personne obèses


a retrouvé le poids à partir du programme sport pour tous. 38 personnes listées
obèses sont sélectionnées parmi les 200 personnes de la même liste. Pour confirmer
l’étude. Le rapport du spécialiste peut-il être pris avec considération à 5% de niveau
de confiance?

Solution

H 0 : p = 0,15
avec
H1 : p  0,15
 = 0, 05  pour un test bilatéral on a:  /2=0,025 on fait 0,5-0,025=0,475
lire z dans la table il donne 1,96 comme valeur critique

38 pˆ − p 0,19 − 0,15
pˆ = = 0,19 et p=0,15 z = = = 1,58
200 p (1 − p ) / n 0,15  0,85 / 200

+1,58

-1,96 +1,96
Notes de Cours 2020
Z calculée se trouve dans la région d’acceptation. H0 est acceptée. Il y’a assez
d’évidence d’accepter le dire du spécialiste de la santé publique.

Exemple 2 : L’office de contrôle d’utilité publique accuse la perturbation d’appel


téléphonique dans la ville de Bobo-Dioulaso. Il a remarqué que 40% d’abonné a
manqué un appel sans sonnerie. Sur 100 clients pris aléatoirement on trouve 37% a
connu les appels manqués sans sonnerie. A 1% de niveau de confiance peut-on
réfuter l’accusation de O.C.U.P.?

Exemple 3 : l’étude de la banque nationale du Benin annonce qu’au plus 77% de


béninois préfère le billet de 500 francs CFA à la place de la pièce de la même valeur.
On tire au hasard 80 béninois dans un quartier et on trouve que 55 préfère le billet
que la pièce. Peut-on soutenir la banque nationale dans sa déclaration a 10%, et si
on préfère le niveau de 1% et c’est la même réalité?

Exemple 3 : l’étude de la banque nationale du Benin annonce qu’au moins 77% de


béninois préfère le billet de 500 francs CFA à la place de la pièce de la même valeur.
On tire au hasard 80 béninois dans un quartier et on trouve que 55 préfère le billet
que la pièce. Peut-on soutenir la banque nationale dans sa déclaration a 10%, et si
on préfère le niveau de 1% et c’est la même réalité?

Test de différence de deux proportions

z=
( pˆ1 − pˆ 2 ) − ( p1 − p2 ) avec p=
x1 + x2 x
; q=1-p ; pˆ 1 = 1 ; p=
ˆ 2
x
1 1 n1 + n2 n1 n2
pq  + 
 n1 n2 
L’intervalle de confiance de la différence de deux proportions

pˆ1qˆ1 pˆ 2 qˆ2
( pˆ1 − pˆ 2 )  z 2 +
n1 n2

Test de la variance et de l’écart-type

Pourquoi tester la variance ou l’écart-type est la question qui occupe l’esprit de


l’apprenant? Il est important de penser non seulement à la moyenne et la
proportion. Si l’on imagine un fabricant de bouteilles et de bouchons, ce dernier est
préoccupé par les embouchures de deux produits afin qu’elles leurs diamètres
n’aient pas une grande variance de peur que les unes ne puissent correspondre
autres. Une bouteille mal fermée laissera échapper le contenu surtout si celui-ci est
liquide. Le bouchon très petit ne correspondra jamais à l’embouchure de la
bouteille. Donc le bouchon ne fermera jamais la bouteille.
Notes de Cours 2020

Le test de la variance utilise la distribution de chi-carré (  2 ) avec n-1 degré de


liberté.
La courbe de chi-carré s’étale du côté positif des axes

Test Formulation Courbe


Bilatéral H0 : = k
2
H0 : = k
ou
H1 :  2  k H1 :   k
Unilatéral Droite H0 : 2  k H0 :  k
ou
H1 :  2
k H1 :  k
Gauche H0 : 2  k H0 :  k
ou
H1 :  2 k H1 :  k

2 =
( n − 1) s 2 avec n: la taille de l'échantillon; s 2 : variance de l'échantillon;
 2

 2 : variance de la population

Exemple de lecture de valeur critique dans la table de chi-carré lorsque n est  sont
donnés.
Sur la table de chi-carré on parle de chi-carré à droite et chi-carré à gauche

Test bilatéral

H0 : 2 = k
Exemple prenons n=9 à 5% niveau de confiance
H1 :  2  k
Notes de Cours 2020
On 0,05/2= 0,025 et 1-0,025= 0,975

0,95 0,025
0,025

Degré de liberté n-1=9-1= 8 et lire deux valeurs telles que :

La région d’acception est un intervalle entre 2,18 et 17,5 qui sont les deux valeurs
critiques.

Test unilatéral à droite

H0 : 2  k
Exemple n=9 et 5% de niveau de confiance.
H1 :  2 k
Degré de liberté 8 et 0,05

0,95 0,05
Notes de Cours 2020

Test unilatéral à gauche

H0 : 2  k
Exemple n=9 et 5% de niveau de confiance.
H1 :  2 k
Degré de liberté 8 et 1- 0,05=0,95

0,05 0,95

La valeur critique est 2,73


Notes de Cours 2020
Exexmple : Une usine de cigarette annonce que ses cigarettes ont le taux de nicotine
qui a comme variance 0,644mg. On sélectionne aléatoirement 20 tiges de cigarette
et elles donnent un écart –type de 1,00mg. À 5% du niveau de confiance, l’usine dit-
elle la vérité?
H 0 :  2 = 0, 644
Le degré de liberté n-1=20-1=19 à 0,05
H1 :  2  0, 644

8,907 32,852

2 =
( n − 1) s 2 =
(20 − 1)  (1, 00) 2
= 29,5 H0 acepptée donc l’usine dit vrai
2 0, 644

L’intervalle de confiance de la variance et de l’écart-type

Intervalle de confiance de la variance

( n − 1) s 2  2 ( n − 1) s 2
degré de liberté n-1
 doite
2
 gauche
2

Intervalle de confiance de l’écart-type

( n − 1) s 2  ( n − 1) s 2 Degré de liberté n-1


 droite
2
 gauche
2

Différence de deux variances


1
Permet de comparer deux variances deux écarts – type. Par exemple les variances
de la température entre deux mois de l’année. Comparer le taux de cholestérol
entre hommes et femmes. Il est ici question de comparer deux échantillons
indépendants. Pour cette comparaison on utilise la distribution F de Fischer

s12
F= Avec deux degrés de liberté n1-1 et n2-1. Ici il faut retenir que n1 est la
s22
taille de l’échantillon ayant donné la plus grande variance.
Notes de Cours 2020
La marche veut qu’au numérateur soit placée la plus grande de variances et la petite
au numérateur.

Test Formulation Courbe


Bilatéral H 0 :  =  22
2
H 0 :  12 −  22 = 0
ou
1

H1 :  12   22 H1 :  12 −  22  0
Unilatéral Droite H 0 :  12 −  22  0
H1 :  12 −  22 0
Gauche H0 :  −   0
2 2

ou
1 2

H1 :  12 −  22 0

Table de la distribution de Fischer

Lecture la colonne Pr represente le niveau de confiance n1 degré de liberté du numerateur


n2 degre de liberté du denominateur. Alors si Pr = 0,05 n1 = 7 et n2 = 3 la valeur critique
est 8,89
Notes de Cours 2020

Exemple 1 : Une recherche médicale souhaite voir si les variances de battement de


cœur par minute entre les fumeurs et les non-fumeurs sont différentes. Deux
échantillons sont sélectionnés parmi les fumeurs et les non-fumeurs. A 5% de
niveau de confiance peut-on croire qu’il y’a une différence? Vu les résultats ci-après
FUMEURS NON FUMEURS
n=26 n=18
Variance=36 Variance = 10

Solution

H 0 :  12 =  22 s12 36
F= = = 3, 6 degré de liberté 26-1=25 et 18-1= 17
H1 :  12   22 s22 10

Lire la valeur critique dans la table de Fischer F(0,05


25,17 )
=entre 3,6 supérieurs à 2,56
H0 rejeté.

Exemple 2 : voici les résultats pour deux groupes distincts d’étudiants de deux
campus de l’IST Burkina Faso. À 0,01 le campus de Tampouy est-il superieur à celui
de Gounghin?
Tampouy Gounghin
n = 16 et s=4.2 n= 18 et s= 2.3
Notes de Cours 2020

ANNEXE
Dans ce tableau se trouvent les informations sur les travailleurs de l’entreprise Paluebe
sarl.
N° Taille (en Poids (en Nombre d’enfant Nombre
d'ordre Sexe Age cm) kg) garçon d’enfant fille
1 F 16 161 55 1 3
2 F 17 156 45 3 1
3 M 17 175 60 0 0
4 M 16 180 63 1 4
5 M 15 175 60 2 2
6 M 15 155 55 1 0
7 M 16 180 50 1 1
8 M 15 175 65 1 1
9 F 16 163 50 3 1
10 M 17 170 49 2 3
11 F 16 170 55 2 0
12 F 15 178 60 0 1
13 F 17 148 42 1 3
14 F 17 155 55 3 1
15 F 15 151 40 1 1
16 F 16 152 48 1 0
17 F 16 149 42 1 2
18 F 15 163 51 1 1
19 F 16 163 48 2 3
20 F 15 161 41 2 0
21 F 16 150 44 0 3
22 F 15 163 43 1 0
23 F 15 159 48 2 0
24 F 16 164 52 3 2
25 F 17 158 51 0 0
26 F 15 165 65 3 0
27 F 16 170 70 3 0
28 F 16 170 70 1 1
29 F 16 170 53 1 2
30 F 17 150 50 0 3
31 F 18 153 60 1 1
32 M 17 166 50 5 0
33 F 16 143 36 0 1
Notes de Cours 2020

34 F 17 167 53 1 1
35 F 16 160 40 1 2
36 M 17 170 60 1 0
37 F 17 161 45 1 0
38 F 16 173 50 2 2
39 F 16 161 46 3 1
40 F 16 148 37 1 0
41 F 16 163 53 1 1
42 M 16 185 70 0 2
43 M 16 180 68 0 1
44 F 16 166 60 0 1
45 F 17 165 49 3 0
46 F 15 150 50 2 0
47 F 16 170 60 0 1
48 F 16 167 53 0 0
49 M 17 166 60 4 1
50 M 18 184 68 2 2

BIBLIOGRAPHIE
➢ Allan G. BLUMAN: « elementary statistics: a step approach”, ed.5è, 2004.
➢ Aurelio Mattei : « Inférence et décision statistiques; Théorie et application à la
gestion des affaires », Lausanne.
➢ C.B. GUPTA, VIJAY GUPTA: « An introduction to statistical methods”,
ed.23,New-delhi,2007.
➢ DouglasA. Lind ; William C. Marchal ; SamuelA. Wathen : « Basic statistic for
business », ed.5th, Mac Graw Hill, Boston, 2006.
➢ Fabrice MAZEROLE : « statistique descriptive », notes de cours, 1èlic. AES,
Marseille& Aix, 2008.
➢ Fred Caswell: “Statistics”, ed.2è, London, 1994.
➢ http://www.agro-montpellier.fr/cnam-
lr/statnet/mod1/Lec1/M1L1_INT.htm
➢ http://www.math-info.univ-paris5.fr/smel/cours/sd/sd.html
➢ Mario F. TRIOLA « elementary statistics » éd.8°, Addison Wesley, USA?2001
➢ Mario LEFEBVRE: “ Cours et exercices de statistique mathématique
appliquée »,école polytechnique de Montréal,2004.
➢ Maurice LETHIELLEUX : « Statistique descriptive en 27 fiches », ed 5è Dunod,
Paris 2007.
Notes de Cours 2020
➢ MOUCHIROUD : « statistique descriptive », UCBL, 2002.
➢ MURAY R.SPIEGEL : “ Théorie et application de la statistique, 875 exercices
résolus”,New York, 1972.
➢ Paul PACÉ : ‘cours de statistique ‘, Paris, 1973.
➢ Pierre DETIENNE Cicm : « leçon familières de statistique » ed 2°, Kinshasa
1990.
➢ Sagaer, J.CL., « la statistique à l’usage des éducateurs », Institut Supérieur
pédagogique, Lubumbashi.
➢ Vincent GIARD « statistique appliquée à la gestion : avec CD, live électronique
et logiciels » éd.8°, economica, Paris 2003.
➢ Walder MASEIRI : statistique et calcul des probabilité ? ed. Dalloz, Paris 2001

Le développement sans statistiques fiables :


Velléité ou réalité
(Ir K.DYCKOBA 2006)

Qu’est pour l’homme de plus pesant ?


Aimer ceux qui nous méprisent,
Abandonner notre cause quand elle fête, victoire,
Par amour de la vérité contredire au respect,
Etre malade et repousser le consolateur,
Dans l’eau froide et sale descendre ;
Avec des colombes nouer des amitiés,
Au spectre tendre la main lorsqu’il non fait peur
Tout cela je l’abandonne aujourd’hui pour peu de chose. Pour le sourire d’un enfant. (F.
Nietzsche).

Vous aimerez peut-être aussi