Académique Documents
Professionnel Documents
Culture Documents
Organisations
Option
Professeur du Cours:
Adresse courriel:
mulumanyama@gmail.com
Notes de Cours
STATISTIQUE INFERENTIELLE
Mars 2022
Conception :
Notes de Cours 2020
PREAMBULE
« Pour comprendre les pensées de Dieu, il faut étudier les statistiques, car elles
constituent la mesure de ses desseins » (Florence Nightingale (1820-1910)
Le présent cours qui vient après celui de la statistique descriptive ne fait pas de vous des
spécialistes de la statistique, celle –ci est une discipline très complexe. Chaque domaine
de la vie est sujet à une démarche spécifique de la statistique. Nous citons : statistique de
transport, sanitaire, bancaire, commerce extérieur, du travail, d’assurance, de
l’éducation, agricole, industrielle, etc.
Néanmoins, les deux premières branches de la statistique (statistique descriptive et
statistique inférentielle) permettent aux scientifiques d’avoir le reflexe concernant
l’usage et l’utilité de la statistique et des statistiques.
Avant d’accorder crédit à une statistique, il faut donc s’informer sur la valeur des
données de base qui ont servi à établir la statistique en question.
Notes de Cours 2020
0. INTRODUCTION
La statistique
Les spécialistes de la statistique ont, à ces jours, inventorié plusieurs définitions
attachées à la discipline. Celles que nous réfutons sont celles qui parlent de la statistique
comme une partie de la mathématique. Il s’agirait de la statistique mathématique et non
de la statistique appliquée telle qu’elle doit être comprise ici.
1° La statistique est une science qui a pour objet de recueillir un ensemble des
données numériques relatives à tel phénomène faisant intervenir des variables
déterministes et les variables aléatoires et d’exploiter rationnellement ces données
pour établir toute relation de causalité par l’analyse et l’interprétation. (Paul PACÉ)
2° la statistique est une étude méthodique des faits sociaux destinés à renseigner et
aider le gouvernement. (P. DETIENNE cicm)
30 statistics is the science of collecting, organizing, presenting, analyzing, and
interpreting data, drawing conclusion to assist in making more effective decision.
La statistique s’applique à toutes les disciplines : agronomie, biologie, démographie,
économie, sociologie, linguistique, psychologie, . . .
Les statistiques
Les statistiques sont des observations chiffrées prélevées pour un phénomène. On parle
de fois des données statistiques, données chiffrées. C’est-à-dire un ensemble de mesures
ou d'observations concernant l'état ou l'évolution d'un phénomène.
Les statistiques sont des données chiffrées obtenues grâce à des observations
systématiques. Pour mériter le nom des statistiques, une documentation doit constituer
un ensemble cohérent, homogène établi de façon systématique afin de permettre les
comparaisons.
On parle de:
statistiques de structure ou une photo instantanée, quand elles sont élaborées à
un moment précis pour tous les faits d’une même nature.
Statistiques de mouvement ou un film lorsqu’il s’agit d’un enregistrement des
variations dans le temps pour un seul fait.
Il est évident que l’obtention des chiffres passe par des étapes multiples allant de la
nécessité de résoudre, d’une manière rationnelle, les problèmes que posent la
communauté jusqu’aux conclusions.
Ainsi, nous ne cessons de rappeler aux statisticiens le credo du statisticien :
Si les données sont fausses, les résultats sont faux,
Si les conditions d’expérimentation sont omises, l’analyse est incorrecte
Si les formules sont fausses les résultats sont faux
Si on emploi mal l’ordinateur les résultats sont faux
Les résultats peuvent être justes mais les interprétations fausses ou mal
exposées.
Notes de Cours 2020
Méthodologie
La méthodologie de la statistique exige que pour un ensemble d’individus (population
statistique) ou une partie de l’ensemble (échantillon) concerné par l’observation on
procède comme suite :
◼ Définition dans le temps et dans l’espace de l’étude,
◼ Prélèvement de chiffres (collecte de données) sur les sujets (unités
statistiques) par un comptage exhaustif (recensement) ou restreint
(sondage),
◼ Présentation des chiffres (tableau, dessin, graphique, figure, symbole ou
par les paramètres synthétisant les observations : paramètres de
tendance centrale paramètres de dispersion
◼ Analyse et représentation (courbe, paramètre, indice…)
◼ Interprétation
◼ Prévision.
Cette démarche est la même dans toutes les applications de la statistique.
Pour apprécier la valeur d’une statistique, le degré de confiance qu’on peut lui
accorder ou encore sa signification exacte, il faut savoir comment elle a été obtenue,
quelles erreurs peuvent résulter de la nature des faits, des procédés d’observation et
de dépouillement.
1ère étape: On collecte des données:
soit de manière exhaustive
soit par sondage
2ème étape: On trie les données que l’on organise en tableaux, diagrammes, etc...
3ème étape: On interprète les résultats: on les compare avec ceux déduits de la théorie
des probabilités.
On pourra donc :
évaluer une grandeur statistique comme la moyenne ou la variance (estimateurs,
intervalles de confiance), ou des indicateurs propres au domaine de la recherche.
savoir si, deux populations sont comparables (tests d’hypothèses).
Déterminer si, deux grandeurs sont liées et de quelle façon (corrélation, ajustement
analytique).
La population statistique
L’entité sur laquelle peut s’observer la variable aléatoire s’appelle l’unité statistique.
Une unité statistique est un élément d’une population statistique. Elle est tout élément
d’un ensemble sur lequel l’on peut effectuer des statistiques.
a. les variables
Une variable statistique est un caractère d’une unité statistique susceptible de prendre
toutes les valeurs possibles observées.
On appelle les valeurs des variables pour un indice donné des observations ou une
réalisation du phénomène.
Lorsque le caractère statistique prend un nombre fini raisonnable de valeurs (note,
nombre d’enfants, nombre de pièces, nombre de malades…), le caractère statistique est
discret ou variable discrète
Le caractère est discret s’il peut prendre seulement certaines valeurs dans un intervalle
donné.
Exemple : le nombre de petits par portée, le nombre de cellules dans une culture, le
nombre d’accidents pour une période donnée, le nombre de globules blancs ou rouges
par ml de sang, le nombre de nucléotides A dans une très longue séquence d’ADN.
Lorsque le caractère statistique peut prendre des valeurs multiples (taille, superficie, salaire,
quantité du sucre dans le sang…) le caractère statistique est considéré comme continu ou
variable continue.
Le caractère est continu s’il peut théoriquement prendre n’importe quelle valeur dans un
intervalle donné. En général il résulte d’une mesure.
Lorsque le caractère statistique est un nombre (taille, note, nombre d’enfant…) on parle de
caractère quantitatif, quand ce caractère n’est pas chiffré (langue parlée, secteur d’activité,
couleur…) on parle de caractère qualitatif.
Exemple 1 : Pour étudier la répartition des terres agricoles d'une région, on peut faire l'inventaire
des exploitations agricoles (soit n leur nombre), et noter pour chacune d'elles sa taille (en
hectares).
Chaque individu est décrit par une ou plusieurs variables, ou caractères statistiques.
2. Qualitative : ses valeurs sont des modalités, ou catégories, exprimées sous forme
littérale ou par un codage numérique sur lequel des opérations arithmétiques
n'ont aucun sens.
3. les variables peuvent être mesurées, repérées, ou indexées.
Les deux premières donnent lieu à des ensembles naturellement ordonnés se prêtant
à un classement (taille, température)
Exemple : la variable état matrimoniale donne quatre modalités : marié, célibataire, veuf
(ve), divorcé,
On distingue des variables qualitatives ordinales ou nominales, selon que les modalités peuvent
être naturellement ordonnées ou pas.
Les variables seront ensuite analysées différemment selon leur nature (quantitative, qualitative,
etc.…), au moyen de tableaux, graphiques, calcul de paramètres-clé.
Une donnée statistique est l’unité élémentaire d’information se trouvant dans chacune
des cases du tableau d’information.
L’ensemble des données correspondant à une unité statistique constitue une
observation.
Une série statistique est l’ensemble des valeurs d’une variable.
Le choix de la population, des unités, des variables est fonction du type d’étude que l’on
entend mener.
Exemple : on désigne un enfant dans une étude de consommation par 0,5 unités
adultes.
Exemple : le poids de produit autoconsommé est une variable de base. Son apport en
calorie obtenu par l’intermédiaire d’une table de composition des aliments en calories
est une variable dérivée.
Les données statistiques sont dites de premières mains (primary data) lorsqu’elles sont
collectées par le chercheur lui-même auprès des unités statistiques.
Elles sont dites de secondes mains (secondary data) lorsque le chercheur les a prélevés
des documents établis par d’autres institutions pour d’autres fins.
Les statistiques sont des chiffres mais les chiffres ne sont pas des statistiques.
TRAVAIL PRATIQUE 1
Durée 72 heures.
1. Le tableau ci-dessous donne la répartition de points obtenus par deux candidats pour
des tests présentés. Chaque discipline est cotée sur 20 points.
Points d’Alice 18 16 14 12 10 70
Points de
14 14 14 14 14 70
Félicien
a) Calculer la moyenne, le mode, la médiane de notes de chaque candidat
b) Calculer l’écart type pour chacun
c) Lequel de deux candidats est préférable ? dites pourquoi ?
2. Compte tenu de la crise de coronavirus deux entreprises se dessaisissent de
travailleurs. L’entreprise Ouédraogo et frères qui a 100 employés se dessaisit de 20
travailleurs et l’entreprise Musangilayi et fils qui a 2000 employés se dessaisit de 400
travailleurs
a. Que peut-on dire en comparaison absolue de deux entreprises ? Laquelle s’est
dessaisit d’un grand nombre de travailleurs ?
b. Si nous considérons une comparaison relative que peut-on conclure entre les deux
entreprises ? Ont-elles agi différemment ? Justifier votre réponse.
3. Avec le tableau en annexe concernant les informations des ouvriers de Paluebe sarl, le
conseil d’administration s’adresse à vous pour lui présenter d’une manière succincte
exigée ci – dessous :
a. un diagramme représentant la répartition par sexe des travailleurs et commenter.
Etant donnée la loi sur la représentation paritaire entre homme et femme, tirer la
conclusion si l’entreprise est dans le respect de la loi d’au moins 30% de femmes.
b. un tableau (un tableau à double entrée ou de contingence) représentant la répartition
par nombre d’enfant garçon et nombre d’enfant fille en pourcentage. Que peut-on
remarquer dans ce tableau ?
c. un tableau représentant la répartition par taille de travailleurs. Pour faciliter la
compréhension des instances directrices, il vous est demandé de calculer le mode, la
médiane, la moyenne d’âge et son écart - type. Tracez l’histogramme de fréquences et
les courbes cumulatives.
Notes de Cours 2020
Les gens du livre disent que le créateur travailla six jours et puis se reposa le septième.
Je travaillerai ainsi les six jours appelés « la vie » et me reposerai le septième qu’on
nomme « la mort ». ( J.R. DYCKOBA).
Une distribution est dite normale si elle remplit des conditions suivantes :
a) la courbe a une forme d’une cloche,
b) la moyenne = mode = médiane
c) si on considère un certain nombre d’écart type de part et d’autre de la
moyenne on a :
68% : − 1 et + 1
95% : − 1,96 et + 1,96
99% : − 2,58 et + 2,58
Taille effectifs
61-62 2
62-63 5
63-64 17
64-65 43
65-66 86
66-67 152
67-68 193
68-69 197
69-70 148
70-71 91
71-72 45
Notes de Cours 2020
72-73 16
73-74 4
74-75 1
Total 100
Dans la pratique il suffira de consulter des tables de la loi normale centrée réduite pour
avoir la probabilité avec z = - 1, 52 mais la courbe étant ascendante on a dans la table que
de valeur positive. Par la symétrie évoquée ci – haut, nous prendrons la probabilité
symétrique attachée à la valeur z = 1,52 dans la table de Z standard en annexe
3 ( X − mediane )
= si le coefficient de dissymétrie est plus grand que +1 ou plus
petit que -1 la distribution est supposée non – symétrique donc pas normale.
Exemple: laquelle des distributions suivantes est normale?
Notes de Cours 2020
IIième PARTIE
Notes de Cours 2020
CHAPITRE 1.3. LA THEORIE DE L’ECHANTILLONNAGE
La théorie de l’échantillonnage a pour but de déterminer, à partir des résultats de
l’échantillon, les caractéristiques de la population et la précision des estimations
utilisées.
Lorsque nous étudions une population, il y’a bien de raisons qui poussent à ce que
l’on puisse recourir à l’échantillonnage. On peut citer :
Le facteur temps : mener une enquête exhaustive demande suffisamment de temps.
De fois celui-ci est au-delà du timing de la décision à prendre.
Le cout financier de l’opération : une investigation ou opération de collecte de
données peut être couteux. Bien sûr dans plusieurs situations, elles très fastidieuse
et couteuse l’opération d’un recensement.
L’impossibilité d’avoir tous les individus impliqués dans l’étude. Nul ne peut saisir
toute la population d’oiseaux, de poissons, des vagabonds…
La nature destructrice de l’opération : Pour étudier la durée d’une production
d’ampoule électrique. Il ne faudrait pas détruire toutes les ampoules pour le faire.
Pour déterminer la qualité d’une boisson embouteillée, on ne se donnerait pas à
ouvrir toutes les bouteilles d’une cargaison de peur de ne savoir les vendre. Couper
toute une forêt pour connaitre l’âge de la forêt.
On prend un échantillon aléatoire car il est alors possible d’arriver à des modèles de
probabilité pour les distributions. Comme les conclusions qu’on tire d’un échantillon
sont basées sur les probabilités, les échantillons doivent être formés de telle
manière que la théorie des probabilités puisse être utilisée.
Etant donnés qu’à chaque chose on reconnait les avantages et les inconvénients, on
peut être buté aux difficultés dans l’utilisation des méthodes aléatoires dans
certaines investigations. Ces difficultés peuvent être liées à bien des choses telles
que la spécificité des informations désirées, la susceptibilité et la pertinence des
informations. Dans ce cas, à l’impossible nul n’est tenu, on fait appel aux méthodes
non aléatoires ou non probabilistes.
Notes de Cours 2020
On parle des méthodes non aléatoires, non probabilistes ou méthodes raisonnées. A
l’opposé des celles dites aléatoires ces dernières ne sont pas si mauvaises que
nombre d’apprentis sorciers veulent l’affirmer. Les méthodes non probabilistes ont
l’avantage d’offrir une démarche devant simplifier la collecte d’information dans des
circonstances telles que les méthodes aléatoires s’avèrent impuissantes.
12345 678910
9
1 2 3 4
5
6 7
8
Nous aurons : 28, 81, 16, 69, 98, 88, 84, 42, 29, 94, 45, 51, 12, 23, 34, 42, 23, 34…
Exemple 3. Changeons de ligne
a) Nous choisissons une ligne selon notre à gré : ligne 4
Notes de Cours 2020
b) Nous choisissons une colonne selon à notre gré : colonne 8
c) Nous choisissons le sens de progression : de droite à gauche
Nous aurons : 66, 06, 30, 53, 95, 29, 42, 54, 45, 84, 08, 80, 28…
N.B. : il faut noter que les chiffres qui ne sont pas retrouvables sur votre base de
sondage ou d’échantillonnage ne sont pas retenus.
Exercice :
1. Supposons qu’on a 100 ménages inscrits au registre de l’état civique avec des
numéros allant 001 à 999. Si l’on veut prendre un échantillon de 50 ménages,
on peut regarder dans une table de nombres aléatoires. Nous vous
demandons de faire une simulation pour sélectionner les 17 premiers
ménages.
2. Sur la liste de travailleurs de Paluebe Sarl, sélectionnez 15 travailleurs et
présenter le tableau de répartition par sexe en pourcentage.
Nous vous referons aux deux livres joints à ces notes de cours pour les autres méthodes
d’échantillonnage. Recommandons que pour chacune d’elle vous puissiez présenter un
exemple au choix. Énoncez la méthode et expliquez votre démarche de sélection.
Pour une population de N individus. Soient X1, X2, . . . , XN les valeurs de la variable
aléatoire X associée à cette population. La moyenne de la population est:
Exemple : Un étudiant passe 5 examens et les points sont les suivants : 5; 1; 7; 10; 2.
Calculer la moyenne de points de l’étudiant et l’écart-type.
n
X i
5 + 1 + 7 + 10 + 2
= i =1
= = 5 points
N 5
Solution :
n
(X i − )2
= = 3, 286 points
i =1
N
Tirons échantillon aléatoire de n=2. Et calculons la moyenne.
On a par exemple : 5; 2
n
X i
5+ 2
X= i =1
= = 3,5 points
n 2
n
(X i − X )2
s= i =1
= 2,12 points
n −1
Il n’a rien de commun entre les valeurs représentatives de la population et celles de
l’échantillon. D’où l’erreur d’échantillonnage. (5-3,5=1,5)
Il faut alors étudier leurs distributions d’échantillonnage.
Prenons tous les échantillons aléatoires possibles de taille n=2 sans remise. On a :
52 = 25
Moyennes
Des
Ordre Echantillons échantillons
1 (1;1) 1
2 (1;5) 3
3 (1;7) 4
4 (1;2) 1,5
5 (1;10) 5,5
6 (5;1) 3
7 (5;5) 5
8 (5;7) 6
Notes de Cours 2020
9 (5;2) 3,5
10 (5;10) 7,5
11 (7;1) 4
12 (7;5) 6
13 (7;7) 7
14 (7;2) 4,5
15 (7;10) 8,5
16 (2;1) 1,5
17 (2;5) 3,5
18 (2;7) 4,5
19 (2;2) 2
20 (2;10) 6
21 (10;1) 5,5
22 (10;5) 7,5
23 (10;7) 8,5
24 (10;2) 6
25 (10;10) 10
TOTAL 125
MOYENNE
De
moyennes
des
échantillons 5
Variance
des
moyennes
des
échantillons 5,4
X i
moyenne de l'échantillon: X = i =1
n
n
X i
moyenne des moyennes des échantillons: X = i −1
n
n
(X i − X )2
Variance des moyennes des échantillons: X2 = i =1
EXERCICES
Notes de Cours 2020
CHAPITRE 1.5. THEORIE D’ESTIMATION
Compte tenu des difficultés évoquées ci-haut, il est souvent prohibitif de calculer les
paramètres d’une population. Pour ce faire, on fait recours à l’échantillonnage afin
de calculer des valeurs représentatives d’une population en s’appuyant sur les
valeurs obtenues à partir d’un échantillon. Ces valeurs sont celles que l’on nomme
statistique à la place des paramètres. Ces statistiques sont des estimateurs. On peut
estimer la moyenne, la proportion, la variance.
Deux procédés permettent de le faire. Il s’agit de l’estimation ponctuelle et
l’estimation par intervalle de confiance.
xi (X i − X )2
x
X= ; sX2 = i =1
, p=
n n −1 n
Z=1,9+0,06= 1,96
Ceci signifie que lorsqu’on considère une longue série d’épreuves il y aura
seulement dans 5% des cas une valeur de µ qui ne sera pas comprise dans
l’intervalle de confiance. La différence X − est appelée l’erreur de l’estimation.
5% = 100% − 95% c'est le niveau de confiance
Exemple 3: Une fabrique de jus constate que le remplissage de boite de jus est
distribué normalement avec un écart-type de 300 ml. Afin d’estimer le remplissage
moyen d’une boite, on teste un échantillon de 36 boites et on trouve une moyenne
de 5000 ml. Au seuil de 95% écrivez l’intervalle de confiance de la moyenne.
Solution
Notes de Cours 2020
( x − )
2
=
N
N.B. Nous retiendrons que cet intervalle de confiance est calculé quand l’écart-type de
la population et elle est normale et connu ou encore n 30
Nous lisons z dans la table de la loi normale standard.
Il faut aussi savoir que tous les intervalles de confiance ne contiennent pas la valeur de
la moyenne de la population.
(x − X )
2
Dans la mesure où l’écart-type de la population est inconnu et n est inférieur à 30. Cette
situation n’est pas prise en compte par le théorème central limite. On a un intervalle de
confiance avec la loi de Student
s
X t avec t ( ,n −2) et ( n − 1) degré de liberté
n
Notes de Cours 2020
Solution :
Du fait que 1. La population de pneus n’est pas connue et que l’écart –type de la
population est inconnue. On ne peut pas utiliser la loi normale. Ainsi on se tourne
vers la distribution t de Student qui est proche;
Il faut retenir que nous avons le seuil de 95% le degré de liberté est n-1 donc 10-1=9
Notes de Cours 2020
Le fabricant de pneus peut être sûr que la moyenne d’érosion est à l’environ de 0,30
cm parce que 0,30 cm est dans l’intervalle.
Exemple 2 : Pour étudier les habitudes des ménages de la ville de Goma en R.D.
Congo, un économiste suit dans leurs dépenses 20 ménages de la ville. Il récolte les
données ci-après. Il vous est demandé d’écrire l’intervalle de confiance de la
moyenne au seuil de 95%, et dire s’il peut se contenter de dire que cette moyenne
est autour de 50$. Peut-il de permettre de remonter jusqu’à 60$?
Exemple 3 : Pour permettre une bonne allocation du temps (en nombre d’heure de
voyage en bus) de debut du travail, le ministere du travail veut evaluer le temps
moyen passé dans le transport par les travailleurs entre leurs domiciles et leurs
lieux du travail. Il selectionne un échantillon ci-dessous. Calculer la moyenne et
ecrire son intervalle de confiance à 99%.
Notes de Cours 2020
Notes de Cours 2020
1.5.3. Estimation de la proprtion
Une proportion est une fraction, un ratio, une poucentage des indicant une partie de
l’échantillon ou de la population ayant une particularité.
Exemple, dans une classe mixte on dira qu’il y’a 1/3 ou 0,33 ou encore 33% de
femmes.
x x
Dans la population P= et dans léchantillon p=
N n
L’intervalle de confiance de la proportion est donné par ;
p (1 − p ) p (1 − p )
pz c'est à dire que X =
n n
Exemple 1 : Dans le souci d’appliquer léquité et non l’égalité dans son partie
politique le comité directeur du partie politique UDPS/Tshisekedi compte lors de
ses meeting 160 femmes sur un total de 2000 participants. Quelle est le proportion
de femmes dans ce partie ? ecrire l’intervalle de confiance de cette proportion à
90%.
Solution
160
p= = 0, 08 ou 8% il y’a 8% de femmes dans le partie
2000
L’intervalle de confiance est
p (1 − p ) 0, 08 (1 − 0, 08 )
pz = 0, 08 1, 65 = 0, 08 0, 01
n 2000
0, 07 P 0, 09
NOTA BENE : Dans la démarche suivie ci haut la taille de la population n’est pas
connue. Les éléménts majeurs mis en avant étaient soit la population est
normalement distribuée, sa variance connue ou non, l’échantillon large ou non.
Mais dans la situation de tirage sans remise ou que la taille de la population est
connue et elle est une population finie. On doit utiliser le facteur de correction de
population finie
44857, 08 45142,92
Exercices.
Pour toute étude qui fait recours à la collecte de données, la question qui se pose est
celle de savoir combien d’individus faudrait-il prendre dans un échantillon dans la
mesure où on ne peut pas travailler sur toute la population. Un échantillon
représentatif dit – on.
La question est de taille de telle manière qu’elle rendrait toute la recherche fausse
faute de prouver la pertinence de données sur lesquelles les conclusions ont été
construites et enfin les décisions.
Sur ce, des approches statistiques prennent en compte trois facteurs dont :
1. Le seuil de confiance désiré (generalement choisi entre 95% et 99% pour
trouver z dans la table de la loi normale standard)
2. L’erreur marginale (erreur maximale choisie par le chercheur; E)
3. La variabilité dans la population étudiée . On peut utiliser celui issu d’une
étude comparable, conduire une enquête pilote ou faute de mieux utiliser la
plus grande variabilité pour une population (0,5).
n=
E
Taille de la population connue
( z 2 ) 2 N
2
n=
(
E 2 ( N − 1) − ( z 2 ) 2
2
)
Taille pour déterminer la proportion
Taille de la population non connue z 2 2 p (1 − p )
n=
E 2
Taille de la population connue
( z 2 ) p (1 − p ) N
2
n=
(
E 2 ( N − 1) − ( z 2 ) p (1 − p )
2
)
Notes de Cours 2020
Une hypothèse statistique est une supposition sur la densité de probabilité d’une
variable aléatoire.
Le test d’une hypothèse statistique est une procédure pour décider s’il faut accepter
ou refuser une hypothèse.
Exemple : On possède des ampoules électriques, mais on ne sait pas s’il s’agit
d’ampoules de la marque A ou de la marque B. La durée de vie moyenne des
ampoules de la marque A est de 100 heures, celle de la marque B est de 200 heures.
Supposons que l’on croit que les ampoules soient de la marque A, donc avec une
durée de vie moyenne de 100 heures.
Nous avons ici une hypothèse statistique, qu’on appelle H0, ou hypothèse nulle, en
ce sens que la différence entre la valeur trouvée avec un échantillon et la vraie
valeur est due uniquement à une erreur d’échantillonnage.
Par conséquent, il n’y a pas de différence entre la population et l’échantillon, les
membres de l’échantillon proviennent de la population en question.
Cette hypothèse H0 est donc l’hypothèse que la durée de vie moyenne soit 100 h.
On écrit:
H0 : θ0 = 1/100 = 0.01 signifiant qu’il n’y’a pas de différence entre la valeur trouvée
dans l’épreuve et la valeur réelle.
Pour faire la preuve de cette supposition on doit connaitre la moyenne de la
population. Hélas, utiliser toute la population d’ampoule de serait pas possible.
Ainsi, un échantillon tiré de la population d’ampoule.
L’hypothèse contraire dite aussi alternative, qu’on appelle H1, est celle d’une durée
de vie moyenne de 200 h, donc:
H1 : θ1 = 1/200 = 0.005
Réussite Échec
L’élève passe Décision correcte Erreur de type II
L’élève double Erreur de type I Décision correcte
Notes de Cours 2020
Le test peut être bilatéral à deux queux ou unilatéral une queux (à droite ou à
gauche)
Exemple
Un fabricant de produits diététiques indique sur l’emballage que ses produits ont un
contenu moyen en vitamine C de 16 mg.
Un échantillon de 49 produits donne un contenu moyen de 15.82
mg avec variance s2 = 0.49, avec un niveau de confiance α = 0.10. Le fabricant a-t-il
raison?
Solution
H 0 : = 16
1.
H1 : 16
2. α = 0.10. Avec un test bilatéral
X −
3. n=49 donc le test associé est z =
s n
-1,8
X − 15.82 − 16
z= = = −1,8
s n 0, 7 49
-1,65 +1,65
Notes de Cours 2020
Z calculée se trouve dans la région de rejet. On dit que H0 est rejetée. Il n’y’a pas
assez d’évidence pour affirmer que le fabricant a raison de dire que ses boites ont en
moyenne 16 mg de vitamine C.
Procédure
Solution
i. α = 5%
a) bilatéral
α=0,05 ainsi parce qu’il s’agit de test bilatéral alors on fait α/2. Donc
0,05/2=0,025
Enfin 0,5-0.025=0,475
-1,96 1,96
Notes de Cours 2020
b) Unilatéral droite
0,5 -0,05= 0,45 de la table de z standard on lit 1,65
+1,65
c) Unilatéral gauche
0,5 -0,05= 0,45 de la table de z standard on lit 1,65
-1,65
Solution
H 0 : 42000
H1 : 42000
H0 est acceptée. Effectivement il n’a pas assez d’évidence pour ne pas affirmer que
l’annonce du gouvernement soit une provocation.
Solution -1,56
H 0 : 80000
-1,28
H1 : 80000
Notes de Cours 2020
0,5-0,1=0,4 on lit 0,3997 pour 1,28
75000 − 80000
z= = −1,56
19200 / 36
-1,56 se trouve dans la région de rejet donc H0 est rejetée. Il n’y’a pas assez
d’évidence pour n’est pas appuyer les parents qui ont raison de dire que c’est du
blabla.
Solution
H 0 : 12
H1 : 12
3
+1,86
H0 est rejetée
A. n 30
z=
(X 1 − X 2 ) − ( 1 − 2 )
ou z =
(X 1 − X 2 ) − ( 1 − 2 )
12 22 s12 s22
+ +
n1 n2 n1 n2
12 22 12 22
(X 1 − X 2 ) − z 2
n1
+
n2
1 − 2 (X 1 − X 2 ) + z 2
n1
+
n2
Si l’on veut tester la différence de deux moyennes et l’échantillon est petit, il est
aussi possible d’utiliser la distribution de Student. Nous devons toutefois supposer
que les deux variables x1 et x2 suivent la loi normale. Dans le cas où x1 et x2 ont la
même variance (σ2)
Le test d’une hypothèse statistique est une règle pour prendre une décision. Si la
valeur tombe dans la région critique, on dit que le résultat du test est significatif.
t=
( X1 − X 2 ) − ( 1 − 2 ) avec le degré de libérté choisir le plus petit entre n − 1 et n − 1
1 2
s12 s22
+
n1 n2
L’intervalle de confiance
12 22 12 22
(X 1 − X 2 ) − t 2
n1
+
n2
1 − 2 (X 1 − X 2 ) + t 2
n1
+
n2
t=
(X 1 − X 2 ) − ( 1 − 2 )
degré de liberté égale n1 + n2 − 2
( n1 − 1) s12 + ( n2 − 1) s22 1 1
+
n1 + n2 − 2 n1 n2
L’intervalle de confiance
( n1 − 1) s12 + ( n2 − 1) s22 ( n1 − 1) s12 + ( n2 − 1) s22
(X 1 − X 2 ) − t 2
n1 + n2 − 2
1 − 2 (X 1 − X 2 ) + t 2
n1 + n2 − 2
= np et = np (1 − p )
Solution
H 0 : p = 0,15
avec
H1 : p 0,15
= 0, 05 pour un test bilatéral on a: /2=0,025 on fait 0,5-0,025=0,475
lire z dans la table il donne 1,96 comme valeur critique
38 pˆ − p 0,19 − 0,15
pˆ = = 0,19 et p=0,15 z = = = 1,58
200 p (1 − p ) / n 0,15 0,85 / 200
+1,58
-1,96 +1,96
Notes de Cours 2020
Z calculée se trouve dans la région d’acceptation. H0 est acceptée. Il y’a assez
d’évidence d’accepter le dire du spécialiste de la santé publique.
z=
( pˆ1 − pˆ 2 ) − ( p1 − p2 ) avec p=
x1 + x2 x
; q=1-p ; pˆ 1 = 1 ; p=
ˆ 2
x
1 1 n1 + n2 n1 n2
pq +
n1 n2
L’intervalle de confiance de la différence de deux proportions
pˆ1qˆ1 pˆ 2 qˆ2
( pˆ1 − pˆ 2 ) z 2 +
n1 n2
2 =
( n − 1) s 2 avec n: la taille de l'échantillon; s 2 : variance de l'échantillon;
2
2 : variance de la population
Exemple de lecture de valeur critique dans la table de chi-carré lorsque n est sont
donnés.
Sur la table de chi-carré on parle de chi-carré à droite et chi-carré à gauche
Test bilatéral
H0 : 2 = k
Exemple prenons n=9 à 5% niveau de confiance
H1 : 2 k
Notes de Cours 2020
On 0,05/2= 0,025 et 1-0,025= 0,975
0,95 0,025
0,025
La région d’acception est un intervalle entre 2,18 et 17,5 qui sont les deux valeurs
critiques.
H0 : 2 k
Exemple n=9 et 5% de niveau de confiance.
H1 : 2 k
Degré de liberté 8 et 0,05
0,95 0,05
Notes de Cours 2020
H0 : 2 k
Exemple n=9 et 5% de niveau de confiance.
H1 : 2 k
Degré de liberté 8 et 1- 0,05=0,95
0,05 0,95
8,907 32,852
2 =
( n − 1) s 2 =
(20 − 1) (1, 00) 2
= 29,5 H0 acepptée donc l’usine dit vrai
2 0, 644
( n − 1) s 2 2 ( n − 1) s 2
degré de liberté n-1
doite
2
gauche
2
s12
F= Avec deux degrés de liberté n1-1 et n2-1. Ici il faut retenir que n1 est la
s22
taille de l’échantillon ayant donné la plus grande variance.
Notes de Cours 2020
La marche veut qu’au numérateur soit placée la plus grande de variances et la petite
au numérateur.
H1 : 12 22 H1 : 12 − 22 0
Unilatéral Droite H 0 : 12 − 22 0
H1 : 12 − 22 0
Gauche H0 : − 0
2 2
ou
1 2
H1 : 12 − 22 0
Solution
H 0 : 12 = 22 s12 36
F= = = 3, 6 degré de liberté 26-1=25 et 18-1= 17
H1 : 12 22 s22 10
Exemple 2 : voici les résultats pour deux groupes distincts d’étudiants de deux
campus de l’IST Burkina Faso. À 0,01 le campus de Tampouy est-il superieur à celui
de Gounghin?
Tampouy Gounghin
n = 16 et s=4.2 n= 18 et s= 2.3
Notes de Cours 2020
ANNEXE
Dans ce tableau se trouvent les informations sur les travailleurs de l’entreprise Paluebe
sarl.
N° Taille (en Poids (en Nombre d’enfant Nombre
d'ordre Sexe Age cm) kg) garçon d’enfant fille
1 F 16 161 55 1 3
2 F 17 156 45 3 1
3 M 17 175 60 0 0
4 M 16 180 63 1 4
5 M 15 175 60 2 2
6 M 15 155 55 1 0
7 M 16 180 50 1 1
8 M 15 175 65 1 1
9 F 16 163 50 3 1
10 M 17 170 49 2 3
11 F 16 170 55 2 0
12 F 15 178 60 0 1
13 F 17 148 42 1 3
14 F 17 155 55 3 1
15 F 15 151 40 1 1
16 F 16 152 48 1 0
17 F 16 149 42 1 2
18 F 15 163 51 1 1
19 F 16 163 48 2 3
20 F 15 161 41 2 0
21 F 16 150 44 0 3
22 F 15 163 43 1 0
23 F 15 159 48 2 0
24 F 16 164 52 3 2
25 F 17 158 51 0 0
26 F 15 165 65 3 0
27 F 16 170 70 3 0
28 F 16 170 70 1 1
29 F 16 170 53 1 2
30 F 17 150 50 0 3
31 F 18 153 60 1 1
32 M 17 166 50 5 0
33 F 16 143 36 0 1
Notes de Cours 2020
34 F 17 167 53 1 1
35 F 16 160 40 1 2
36 M 17 170 60 1 0
37 F 17 161 45 1 0
38 F 16 173 50 2 2
39 F 16 161 46 3 1
40 F 16 148 37 1 0
41 F 16 163 53 1 1
42 M 16 185 70 0 2
43 M 16 180 68 0 1
44 F 16 166 60 0 1
45 F 17 165 49 3 0
46 F 15 150 50 2 0
47 F 16 170 60 0 1
48 F 16 167 53 0 0
49 M 17 166 60 4 1
50 M 18 184 68 2 2
BIBLIOGRAPHIE
➢ Allan G. BLUMAN: « elementary statistics: a step approach”, ed.5è, 2004.
➢ Aurelio Mattei : « Inférence et décision statistiques; Théorie et application à la
gestion des affaires », Lausanne.
➢ C.B. GUPTA, VIJAY GUPTA: « An introduction to statistical methods”,
ed.23,New-delhi,2007.
➢ DouglasA. Lind ; William C. Marchal ; SamuelA. Wathen : « Basic statistic for
business », ed.5th, Mac Graw Hill, Boston, 2006.
➢ Fabrice MAZEROLE : « statistique descriptive », notes de cours, 1èlic. AES,
Marseille& Aix, 2008.
➢ Fred Caswell: “Statistics”, ed.2è, London, 1994.
➢ http://www.agro-montpellier.fr/cnam-
lr/statnet/mod1/Lec1/M1L1_INT.htm
➢ http://www.math-info.univ-paris5.fr/smel/cours/sd/sd.html
➢ Mario F. TRIOLA « elementary statistics » éd.8°, Addison Wesley, USA?2001
➢ Mario LEFEBVRE: “ Cours et exercices de statistique mathématique
appliquée »,école polytechnique de Montréal,2004.
➢ Maurice LETHIELLEUX : « Statistique descriptive en 27 fiches », ed 5è Dunod,
Paris 2007.
Notes de Cours 2020
➢ MOUCHIROUD : « statistique descriptive », UCBL, 2002.
➢ MURAY R.SPIEGEL : “ Théorie et application de la statistique, 875 exercices
résolus”,New York, 1972.
➢ Paul PACÉ : ‘cours de statistique ‘, Paris, 1973.
➢ Pierre DETIENNE Cicm : « leçon familières de statistique » ed 2°, Kinshasa
1990.
➢ Sagaer, J.CL., « la statistique à l’usage des éducateurs », Institut Supérieur
pédagogique, Lubumbashi.
➢ Vincent GIARD « statistique appliquée à la gestion : avec CD, live électronique
et logiciels » éd.8°, economica, Paris 2003.
➢ Walder MASEIRI : statistique et calcul des probabilité ? ed. Dalloz, Paris 2001