Cours de Statistique

Table des matières
0 Introduction générale 1
0.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
0.2 Définition de la Statistique et des statistiques . . . . . . . . . . . . . . . . . . . . 2
0.3 Les grandes parties de la statistique . . . . . . . . . . . . . . . . . . . . . . . . . 2
0.4 Organisation des travaux pratiques . . . . . . . . . . . . . . . . . . . . . . . . . . 3
0.5 Pourquoi le cours de Statistique à la Faculté de Médecine . . . . . . . . . . . . . 3
0.6 Définition des termes et concepts importants . . . . . . . . . . . . . . . . . . . . 3
0.7 Méthode d’observation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
0.8 Bref aperçu sur le cours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
I STATISTIQUE DESCRIPTIVE 7
1 Elaboration et présentation des données statistiques 8

1.1 Méthodes de collecte des données . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2 Tableaux statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3 Représentation graphique des données . . . . . . . . . . . . . . . . . . . . . . . . 15
2 Statistique descriptive univariée 20

2.1 Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2 Paramètres de tendance centrale (ou de position) . . . . . . . . . . . . . . . . . 20
2.3 Paramètres de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4 Les paramètres de forme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3 Statistique descriptive bivariée 29

3.1 Régression et corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
i
II ELEMENT DES PROBABILITES 42
4 Le Calcul des Probabilités 43

4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2 Opérations sur les événements aléatoires . . . . . . . . . . . . . . . . . . . . . . . 44
4.3 Quelques événements particuliers . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.4 Notion de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5 Variable aléatoire et distributions de probabilités 50

5.1 Variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.2 Distribution de probabilités d’une variable aléatoire . . . . . . . . . . . . . . . . 51
5.3 Paramètres caractéristiques d’une distribution de probabilité. . . . . . . . . . . . 52
5.4 Variables aléatoires indépendantes . . . . . . . . . . . . . . . . . . . . . . . . . . 53
6 Quelques distributions de probabilités usuelles 55

6.1 Distributions de probabilité discrètes. . . . . . . . . . . . . . . . . . . . . . . . . 55
6.2 Distributions de probabilité continues . . . . . . . . . . . . . . . . . . . . . . . . 62
III NOTIONS D’INFERENCE STATISTIQUE 72
7 Théorie statistique de l’estimation 74

7.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
7.2 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
8 Tests d’hypothèses paramétriques 84

8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
8.2 Etapes d’un test d’hypothèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
8.3 Quelques tests d’hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
8.4 Tableau de la loi normale centrée réduite . . . . . . . . . . . . . . . . . . . . . . . 97
Chapitre 0
Introduction générale
0.1 Introduction
Pour prendre une décision diagnostique ou thérapeutique, le médecin doit avoir des éléments lui
permettant de prendre en compte la variabilité caractéristique des systèmes biologiques. Cette
variabilité est la somme d’une variabilité expérimentale ou métrologique (liée au protocole de
mesure, aux conditions de mesure et aux erreurs induites par l’appareil de mesure utilisé) et
d’une variabilité proprement biologique (décomposée en termes de variabilité intra-individuelle
et de variabilité inter-individuelle). Ces éléments lui permettront de distinguer ce qui est normal
de ce qui est pathologique (décision à propos d’un patient) et d’évaluer la qualité d’un nouvel
examen ou d’une nouvelle thérapeutique (décision thérapeutique). Ces éléments lui sont fournis
par des méthodes statistiques. Tout résultat de recherche médicale résulte d’une expérimenta-
tion (clinique ou biologique) qui s’appuie sur une méthodologie statistique rigoureuse, et dont les
résultats sont analysés en termes statistiques. De même, la démarche statistique permet d’éva-
luer les risques (ou les bénéfices) d’une prescription, de déterminer dans une situation donnée
l’examen qui apportera la meilleure information diagnostique. L’outil et la démarche statistiques
permettent :
• De réaliser des progrès dans le domaine de la recherche clinique ;
• De mieux connaitre l’état de santé d’une population, la fréquence et la gravité d’une épidémie,
grâce aux échantillons convenablement choisis ;
• D’améliorer la pratique médicale dans ses aspects décisionnels, à savoir choisir le meilleur
examen (clinique ou para-clinique) pour aboutir le plus rapidement et le plus surement au
diagnostic ;
• D’optimiser la thérapeutique, choisir le traitement le mieux adapté à un patient donné (choix

du médicament, posologie, etc.)
1
Introduction générale, Prof. Dr. Ndondo M. Apollinaire 2
0.2 Définition de la Statistique et des statistiques
Le terme statistique désigne à la fois un ensemble de données d’observations, et l’activité qui

consiste en leur recueil, leur traitement et leur interprétation en vue de prendre des décisions.
Ces données d’observations aussi appelées statistiques sont prélevées dans une population. La
statistique en tant que science s’intéresse aux propriétés des populations naturelles. Plus préci-
sément elle traite de nombres obtenus en comptant ou en mesurant les propriétés d’une popu-
lation. Cette population d’objets doit en outre être soumise à une variabilité, qui est due à de
très nombreux facteurs inconnus (pour les populations d’objets biologiques qui nous intéressent
ces facteurs sont les facteurs génétiques et les facteurs environnementaux).
Les statistiques sont donc des séries de chiffres (données numériques) qui sont obtenues grâce à
des observations faites sur des faits nombreux et relatifs à un phénomène.
Le terme statistique (au singulier) définit toute grandeur calculée à partir des statistiques. Ça
peut être la plus grande valeur de la série statistique, la différence entre la plus grande et la plus
petite, la valeur de la moyenne arithmétique de ces valeurs, etc.
Dans des domaines très divers, on prélève des statistiques. En météorologie, on construit des
séries chronologiques et on calcule des moyennes annuelles à partir de nombreuses mesures pro-
venant de relevés de précipitations et de températures sur un grand nombre d’années. Dans une
entreprise, on peut noter chaque semaine le chiffre d’affaires, le nombre de commandes, le nombre
de nouveaux clients, etc. Il s’agit là des statistiques (ou des données statistiques) c’est-à-dire un
ensemble de mesures ou d’observations concernant l’état ou l’évolution d’un phénomène.
0.3 Les grandes parties de la statistique
La Statistique comprend deux grandes parties essentielles :
1° Statistique descriptive (ou Statistique déductive).
2° Statistique Inférentielle (ou Statistique inductive ou Statistique mathématique ou Inférence

Statistique).
Faire acquérir les notions essentielles de la statistique descriptive revient à apprendre comment
décrire de façon claire et concise l’information apportée par des observations nombreuses et
variées sur un phénomène donné.
Il s’agit de trier ces données, les décrire, les résumer sous forme de tableaux, de graphiques, et
sous forme d’un petit nombre de paramètres-clés (moyenne, médiane par exemple). Ces données
sont dites données statistiques ou statistiques.
La Statistique descriptive est l’ensemble des méthodes et techniques mathématiques per-

mettant de présenter, décrire, résumer de telles données. Son but n’est pas d’expliquer mais
simplement de décrire avec des outils appropriés, de dégager l’essentiel, de réaliser des synthèses
en opérant des mesures.
L’interprétation des résumés obtenus, leur extrapolation éventuelle à un ensemble plus vaste,
et leur utilisation afin d’étendre les propriétés des données décrites sur un échantillon à une
population entière, et d’infirmer ou de confirmer des hypothèses sur le phénomène décrit pour
prendre des décisions sur la population entière à partir de l’échantillon constituent un autre
domaine de la Statistique, la Statistique Inférentielle.
0.4 Organisation des travaux pratiques
Outre les exercices numériques, les travaux pratiques comportent des travaux d’enquête et d’ana-
lyse des données portant sur les problèmes de santé communautaire dans la ville de Kinshasa.
0.5 Pourquoi le cours de Statistique à la Faculté de Médecine
Le cours de Statistique, orientation statistique appliquée aux sciences biomédicales apprend

comment appliquer les méthodes et techniques statistiques dans le domaine médical notamment
en recherche clinique, en recherche pharmaceutique, en épidémiologie, en santé publique, à l’aide
à la décision thérapeutique et diagnostique, aux applications aux essais thérapeutiques ou dans
d’autres domaines de la santé, comme la gestion d’une institution hospitalière.
0.6 Définition des termes et concepts importants
Les observations sont prélevées sur un grand ensemble dit population statistique. Une population
est un ensemble d’objets, d’êtres vivants ou d’objets abstraits de même nature. Une population
peut donc être réelle ou fictive, finie ou infinie, dénombrable ou non dénombrable.
Chacun des éléments de cet ensemble est un individu ou une unité statistique. Chacune des
caractéristiques de chacun de ces individus de cette population est dite variable statistique ou
caractère. Le but de l’étude statistique est de voir comment cette variable varie sur la population :
ses valeurs sont-elles comparables ou très différentes, et dans quelle mesure ?
L’ensemble de valeurs ou modalités que prend une variable statistique est appelé série statistique
brute.
La nature des variables conditionne les études ultérieures. On distingue les variables quantitatives
et les variables qualitatives.
Les variables quantitatives ou numériques s’expriment par des nombres entiers ou réels
sur lesquels les opérations arithmétiques courantes (somme, moyenne . . .) ont un sens. Dans
l’exemple ci-dessous (1), les variables âge, cholestérol, acide uriques, poids, taille sont quantita-
tives.
Les variables qualitatives sont celles dont les modalités sont des expressions littérales (des
mots) ou des nombres sur lesquels les opérations arithmétiques courantes n’ont aucun sens. Dans
ce même exemple ci-dessous, les variables sexe, profession, antécédents familiaux, fumeur ou pas
sont des variables qualitatives.
On sépare les variables qualitatives en deux catégories :
• Lorsque ses modalités possèdent un ordre naturel, la variable est qualifiée d’ordinale.
• Lorsqu’il n’y a pas d’ordonnancement possible des modalités, on parle de variable nominale
La nature (quantitative ou qualitative) d’une variable est une propriété intrinsèque, qui ne
dépend pas de la façon dont on note ses modalités ou valeurs. On parlera des valeurs possibles
prises par une variable quantitative mais on préférera le terme de modalités pour une variable
qualitative.
Il existe deux sortes de variables quantitatives. Une variable quantitative est discrète si elle
ne peut prendre que des valeurs isolées, généralement entières. Elle est continue si ses valeurs
peuvent être n’importe lesquelles d’un intervalle réel.
Nous résumons ces différents cas en ajoutant quelques exemples :
Exemple 1 (d’une population et ses variables). Un médecin, pour étudier les risques cardio-
vasculaires de ses patients, peut remplir pour chacun d’eux une fiche notant un certain nombre
de caractéristiques.
L’ensemble de ces patients constitue la population statistique, le patient est un individu ou une
unité statistique. Plusieurs études statistiques peuvent être faites sur cette même population
selon que l’on s’intéresse à une ou l’autre de ces variables : sexe, âge, profession, fumeur ou pas,
cholestérol, poids, taille, etc.
0.7 Méthode d’observation
Toute étude statistique commence par des observations. Ces observations permettent de recueillir
des données de base qui serviront à l’étude. La collecte de données consiste à leur rassemblement
et à leur enregistrement.
L’observation est directe quand l’observateur va lui-même mesurer ou compter.
L’observation est indirecte lorsqu’il se base sur les dires d’autrui (les réponses fournies par les
individus).
La collecte des données par observation directe fait appel à deux procédés : le dénombrement
instantané et le dénombrement continu. Le dénombrement instantané est la mesure d’un phé-
nomène à un moment donné (ex : le recensement de la population, enquête sanitaire etc . . .).
Le dénombrement continu est l’enregistrement permettant des résultats d’observation (ex : le
remplissage de la fiche des malades que fait l’infirmier chaque jour).
La collecte de données par observation indirecte fait souvent appel à des questionnaires.
L’étude complète d’une population, son recensement, c’est-à-dire l’examen de toutes les unités
qui la composent n’est pas toujours possible.
Cette étude peut demander du temps, elle peut être coûteuse ou carrément impossible à réaliser.
C’est pour cette raison qu’on est conduit à n’observer qu’une partie de la population c’est-à-dire
procéder à un sondage (échantillonnage) ; les unités étudiées dans le sondage constitueront un
échantillon. L’étude de cet échantillon fournira des informations qui pourront être
étendues à la population complète.
Les principaux documents d’enregistrement sont les registres, les fiches et les questionnaires.
Sur ces documents, l’enregistrement consiste à noter avec précision l’identité de l’unité statistique
et la valeur de l’observation.
Le registre sert à garder les renseignements à utiliser plus tard (ex : dans le recensement médical,
toutes les personnes recensées sont inscrites sur le registre avec leur nom, adresse, âge et sexe
ainsi que les résultats de l’examen médical).
La fiche est une feuille de papier ou de carton imprimé en un nombre suffisant d’exemplaires et
d’après un modèle déterminé. On emploie la fiche pour chaque individu. Une partie est réservée
pour l’identification et l’autre partie pour l’observation.
Le questionnaire est une forme de fiche où toutes les informations demandées sont présentées
sous forme des questions. On les utilise fréquemment dans le recensement démographique et
dans les enquêtes sociales.
0.8 Bref aperçu sur le cours
Ce cours comprend 4 parties :

Nous verrons dans la première partie du cours comment trier, décrire, résumer par des tableaux,
graphiques ou paramètres-clés une série statistique résultant de l’observation d’une seule variable
(la taille par exemple). C’est la statistique descriptive univariée.
En plus de l’étude séparée de chaque caractère, on peut visualiser, et mesurer le cas échéant,
les liens existant entre les variables prises deux à deux : c’est l’objet de la statistique descriptive
bivariée sous l’aspect régression et corrélation. On traitera donc ici le cas où l’on dispose de deux
caractères, X et Y, observés sur les mêmes n individus.
La deuxième partie du cours traite des éléments de probabilités, des variables aléatoires et des
distributions de probabilités.
La troisième partie du cours, c’est la statistique inférentielle. Nous y présentons la théorie sta-
tistique de l’estimation, les tests paramétriques et les tests non paramétriques.
L’étude globale de plus de 2 variables sur la même population fait l’objet de la quatrième partie
du cours, l’Analyse des Données.
Première partie
STATISTIQUE DESCRIPTIVE
7
Chapitre 1
Elaboration et présentation des

données statistiques
1.1 Méthodes de collecte des données
Une opération de collecte des données peut porter sur l’ensemble des unités statistiques (po-
pulation) ou sur une partie de ces unités statistiques (échantillon). Par ailleurs, tout travail de
collecte des données se heurte à certaines contraintes : le coût, la main-d’œuvre et le matériel, le
délai d’exploitation et la qualité des résultats. Dans cette section, nous allons répondre à deux
questions fondamentales
• Comment choisir les unités statistiques à examiner ?
• Quel nombre d’unités statistiques faut-il interroger en vue d’obtenir l’information recherchée.
1.1.1 Concepts de base en échantillonnage
a) Base de sondage : c’est la liste exhaustive d’étude.
b) Taille de la population (N ) : c’est le nombre de sujets composant la population.

Taille de l’échantillon (n) : c’est le nombre de sujets composant l’échantillon.
taille de l’échantillon n
c) Taux de sondage f (x) : f = =
texttaille de la population N
N
d) Raison (r) ou pas de sondage : l’inverse du taux de sondage r =
n
e) Plan expérimental : c’est l’exposé des méthodes d’échantillonnage et des problèmes qui s’y
rattachent.
f) Représentativité d’un échantillon

Un échantillon est dit représentatif s’il renferme toutes les caractéristiques d’une population.
8
Elaboration et présentation des données statistiques, Prof. Dr. Ndondo M. Apollinaire 9
Ce qui revient à considérer que chaque élément de la population a une même chance d’appar-
tenir à un même échantillon. Les unités statistiques doivent être tirées au hasard (échantillon
aléatoire).
Pour obtenir un échantillon représentatif, on suppose que la population est homogène face
au caractère faisant l’objet de l’étude statistique. On procède alors à un tirage au sort avec
ou sans remise après avoir attribué un numéro à chaque individu de la population et logé ces
numéros dans une urne en prenant soin de brasser tous les numéros inscrits sur des papiers
avant de les tirer.
On peut, en outre, procéder à un tirage aléatoire systématique consistant à ne tirer au sort
que le 1er numéro qu’on appelle base. Dans la suite, on tire successivement les autres numéros
à intervalle fixe appelé pas de sondage ou raison (r).
Si la population est hétérogène face au caractère qui fait l’objet de l’étude statistique, on la
partitionne en k strates plus ou moins homogènes face au caractère faisant l’objet de l’étude
statistique.
1.1.2 Méthodes d’échantillonnage
Il existe deux types de méthodes :
• Les méthodes d’échantillonnage aléatoires ou probabilistes ;
• Les méthodes non aléatoires ou à choix raisonné.
1.1.2.1 Les méthodes d’échantillonnage aléatoires ou probabilistes
Elles consistent à analyser une fraction de la population supposée représentative de la population

d’étude et tirée de façon aléatoire.
1. Cas où la population est homogène
a. Méthode d’échantillonnage aléatoire simple

Les unités statistiques constituant l’échantillon sont désignées au hasard.
D’où la nécessité de disposer d’une base de sondage.
On distingue :
• l’échantillon aléatoire avec remise ;
• l’échantillon aléatoire sans remise.
Procédé du tirage :
• identifier tous les N individus de la population et les ranger suivant un critère déterminé ;
• attribuer un numéro à chaque individu ;

• inscrire ces numéros sur des bouts de papier à placer dans une urne ;
• opérer le tirage l’un après l’autre jusqu’à n.
b. Méthode d’échantillonnage aléatoire systématique
Le tirage aléatoire simple implique un effort énorme, car chaque nombre doit être tiré de
façon aléatoire. Dans l’échantillon aléatoire systématique, seul le premier nombre est tiré
au hasard. Dans la suite, on tire successivement des nombres à intervalle fixe.
Procédé du tirage :
• dresser la base du sondage et ordonner suivant un critère déterminé ;
• attribuer un numéro à chaque individu de l’univers de 1 à N ;
• calculer le pas de sondage ou raison r ;
• prendre au hasard une base : nombre compris entre 1 et r ;
• ajouter à la base la raison et ainsi de suite.
2. Cas où la population est hétérogène
a. Méthode de stratification
Sur la même population, il peut y avoir plus d’une variable statistique. On fait générale-
ment abstraction des autres pour rendre la population homogène face au caractère faisant
l’objet de l’étude statistique. L’exemple du 0.6 à la page 11 montre que sur la population
des patients, on a recueilli plus d’une variable quantitative : âge, cholestérol, acide uriques,
poids, taille, etc.
Lorsque la population est hétérogène face au caractère faisant l’objet de l’étude statistique,
on recourt à la méthode de stratification.
Description de la méthode :
• La population est subdivisée (partitionnée) en k classes : C1 , C2 , . . . , Ck plus ou moins

homogènes face au caractère faisant l’objet de l’étude statistique. Cette partition est
obtenue en faisant une étude préalable socio-économico-démographique et sanitaire.
• Le nombre d’individu appartenant à chaque strate et qui devra faire partie de l’échan-
tillon est donné par la formule suivante :
∼ Ni × n

ni =
N
où
ni = nombre d’individus à tirer dans la strate
n = taille de l’échantillon
Ni = taille de la strate N = taille de la population.

Le choix des ni individus se fait par une méthode aléatoire dans chaque strate.
Nota. La strate, pris dans son ensemble, doit :

k
• couvrir toute la zone d’enquête sans rien omettre :
[
Ni = N
i=1
• ne pas se chevaucher (empiètement). Chaque unité statistique fait partie d’une strate et
une seule Ni ∩ Nj = ∅ ∀i 6= j.
1.1.2.2 Les méthodes non aléatoires ou à choix raisonné
L’échantillon obtenu par choix raisonné est constitué d’unités statistiques qui n’ont pas été tirés
au hasard. De ce fait, elles n’ont pas la même chance d’appartenir à un échantillon.
Méthode des quotas (utilisée surtout dans les sondages)
On constitue un échantillon de manière à ce que certaines proportions observées dans la popula-
tion se retrouvent dans l’échantillon. Dans les limites qui lui seront fixées, l’enquêteur reste libre
d’interroger les unités statistiques qu’il veut. Il devra respecter les quotas qui lui sont imposés.
1.1.3 Taille de l’échantillon
Elle est déterminée à l’aide de la formule suivante :
z 2 pq
n=
d2
Où
z : écart-réduit, fixé en général à (1,96), qui correspond à un degré de confiance de 95% ;
p : proportion de la population ayant une caractéristique donnée.
Si aucune estimation n’existe, on prendra p = 0, 50 ; q = 1 − p ;
d : degré de précision voulu. En général, d = 0, 05, parfois 0,01.
1.2 Tableaux statistiques
1.2.1 Tableau du premier ordre
Ce type de tableau comprend une seule variable.
Table 1.1 – Causes de décès chez les malades hospitalisés dans un centre hospitalier :
N◦ Causes de décès Nombre de décès

1 Rougeole 20
2 Gastro-entérite 18
3 Tuberculose 15
4 Malaria 14
5 Accouchement dystocique 10
6 Malnutrition 9
7 Tétanos 9
8 Hernie étanglée 8
9 Trypanosomiase 7
10 Accident de circulation 6
11 Malformation congenitale 3
12 Autres causes 16
Total 129
1.2.2 Tableau du deuxième ordre ou tableau à double entrée
C’est un tableau comprenant deux variables.
Table 1.2 – Distribution par âge et par sexe des cas de cancer de poumons au cours d’une année
dans les hôpitaux de Kindu.
Sexe
Age (ans) Total
Masculin Féminine
1-5 14 5 19
6-10 15 17 32
11-15 24 23 47
16-20 42 18 60
21 et plus 43 36 79
Total 138 99 237
1.2.3 Tableau du troisième ordre ou tableau à triple entrée.
C’est un tableau contenant les données relatives à trois variables.
Table 1.3 – Répartition par âge, par sexe et par groupe de maladie des patients ayant reçu des
soins ambulatoires dans un Centre de Santé.
1.2.4 Tableau de contingence
C’est un tableau où sont présentées 2 variables qualitatives comportant chacune un certain

nombre des modalités.
Table 1.4 – Etat nutritionnel et résultats scolaires de 70 élèves d’une école secondaire de Kin-
shasa.
Résultats Etat nutritionnel
Total
scolaires Bon Médiocre
Satisfaisant 11 15 26
Mauvais 8 26 34
Total 19 41 70
Ce tableau à double entrée croise les deux variables qualitatives (« Etat nutritionnel » et «
Résultats scolaires ») et regroupe les effectifs observés modalité par modalité.
Les effectifs totaux de chaque ligne (dernière colonne) et de chaque colonne (dernière ligne) sont
appelés effectifs marginaux, car ils sont écrits en marge du tableau. Ils nous renseignent sur
la distribution de chaque variable indépendamment de l’autre. Les effectifs situés à « l’intérieur
» du tableau sont eux appelés effectifs conjoints puisqu’on y observe la répartition conjointe
de ces deux variables qualitatives.
1.2.5 Tableau de distribution des fréquences
C’est un tableau comprenant des observations groupées selon leurs fréquences absolues. On
l’enrichit parfois avec des fréquences absolues cumulées, des fréquences relatives et des fréquences
relatives cumulées.
• La fréquence absolue : nombre d’individus de la classe dans le cas d’une variable continue ou
nombre de répétitions de la valeur Xi de la variable discrète : on le note ni
• La fréquence relative : proportion d’individus de la série statistique brute appartenant à la

classe dans le cas d’une variable aléatoire continue ou proportion de répétitions de la valeur
Xi de la variable aléatoire discrète : on la note fi . Noter que fi et ni sont liés par : fi = ni /n

(où n est le nombre total d’individus dans la série statistique brute).
1.2.5.1 Tableau de distribution des fréquences d’une variable discrète
Le tableau est construit en mettant dans la première colonne les diverses valeurs (x1 , x2 , . . . , xn )
que prend la variable, en ordre croissant.
Table 1.5 – Distribution des fréquences du personnel d’un centre de santé d’après le nombre
d’enfants en charge.
1.2.5.2 Tableau de distribution des fréquences d’une variable continue
Dans le cas d’une variable continue, la présentation sous forme de tableau requiert de longs
calculs, car le nombre de valeurs est élevé. On évite cette situation en effectuant un groupement
des données en classes.
• Pour construire ces classes, on respecte les règles suivantes :
a) Le nombre de classes est compris entre 5 et 20 (de préférence entre 6 et 12)
b) Les amplitudes des classes sont généralement égales.
c) Chaque classe (sauf la dernière) contient sa borne inférieure mais pas sa borne supérieure.
• Dans les calculs, une classe sera représentée par son centre, qui est le milieu de l’intervalle.
• Une fois la classe constituée, on considère les individus répartis uniformément entre les deux
bornes (ce qui entraîne une perte d’informations par rapport aux données brutes).
Table 1.6 – Distribution des fréquences des ouvriers d’une clinique suivant leur âge
Calculs inhérents au regroupement des données en classes
• La formule de Sturges donne le nombre de classes k à considérer :
k = 1 + 3, 3 × log10 n où n est la taille de la série statistique
Nota. Quand k est donné à l’avance, il n’y a plus lieu de le calculer ! ! !
• Etendue de la série statistique : E = valeurmax − valeurmin

Où valeurmax la valeur maximale et valeurmin la valeur minimale de la série statistique
• L’intervalle ou l’amplitude d’une classe est donnée par le rapport entre l’étendue de la série
statistique et le nombre de classes :
Etendue valeurmax − valeurmin

h= =
k k
• Centre de classe : c’est la valeur centrale d’une classe ; d’autres termes, c’est la moyenne
arithmétique des deux bornes d’une classe :
bornesup + borneinf

Xi =
2
Où bornesup la borne supérieure de la ième classe et borneinf la borne inférieure de la ième classe
Nota. Lors que dans une série statistique brute, on peut compter un nombre inférieur à 20
valeurs distinctes avec leurs fréquences respectives, alors la distribution qui en découle est une
distribution discrète, sinon elle est continue.
1.3 Représentation graphique des données
Le but de la construction de tableaux et de graphiques est d’obtenir des résumés clairs et concis,
mais en conservant l’essentiel de l’information contenue dans les données initiales, et en utilisant
des techniques objectives ne donnant pas une image déformée de la réalité.
1.3.1 Cas d’une variable discrète
1.3.1.1 Diagramme en bâtonnets
Nombre d’enfants (Xi ) Nombre de personnes ayant ce nombre d’enfants (ni )

0 103
1 115
2 95
3 35
4 10
5 2
Le diagramme en bâtons est construit en joignant par un segment de droite le point (Xi , ni )
et l’abscisse Xi . On obtient le polygone des fréquences en reliant les sommets successifs du
diagramme en bâtons.
1.3.1.2 Diagramme cumulatif
Xi 0 1 2 3 4
Fi 0,29 0,61 0,87 0,97 0,99
Le diagramme des fréquences relatives cumulées appelé diagramme cumulatif est obtenu en
joignant les points dont les abscisses sont les valeurs Xi et dont les ordonnées sont les valeurs
Fi. Le diagramme cumulatif est la représentation graphique d’une fonction F, appelée fonction
de répartition de la variable statistique discrète ou variable aléatoire discrète, abrégée v.a.d.
1.3.2 Cas d’une variable continue
1.3.2.1 Histogramme des effectifs
Ages (ans) Nombre de personnes dans cette tranche d’âges

20 à 30 100
30 à 40 150
40 à 50 90
50 à 65 20
Le diagramme représentant la série est un histogramme : ce sont des rectangles juxtaposés dont
chacune des bases est égale à l’intervalle de chaque classe et dont la hauteur est telle que l’aire
de chaque rectangle soit proportionnelle aux effectifs (histogramme des fréquences absolues) ou
aux fréquences de la classe correspondante (histogramme des fréquences relatives).On obtient
le polygone des effectifs (ou des fréquences) en reliant les milieux des bases supérieures des
rectangles.
1.3.2.2 Courbe cumulative

Classe Xi Fi
[0 ; 10] 5 0,00
[10 ; 20] 15 0,00
[20 ; 30] 25 0,28
[30 ; 40] 35 0,69
[40 ; 50] 45 0,94
[50 ; 65] 57,5 1
La courbe cumulative (ou polygone des fréquences cumulées) est obtenue en portant les
points dont les abscisses représentent la borne supérieure de chaque classe et dont les ordonnées
représentent les fréquences relatives cumulées correspondantes, puis en reliant ces points par des
segments de droite. Son équivalent dans la théorie probabiliste est la fonction de répartition.
1.3.3 Autres représentations graphiques
1.3.3.1 Graphique circulaire ou à secteurs circulaires
Ages (ans) Nombre de personnes dans cette tranche d’âges

20 à 30 100
30 à 40 150
40 à 50 90
50 à 65 20
1.3.3.2 Diagramme à colonnes

Chapitre 2
Statistique descriptive univariée
2.1 Objectif
Résumer l’information contenue dans une série statistique. Pour se faire, on calcule des valeurs
statistiques ou des paramètres statistiques. En plus des tableaux et graphiques, les paramètres
statistiques ont pour but de résumer, à partir de quelques nombres clés l’essentiel de l’informa-
tion relative à l’observation d’une variable quantitative. Certains sont dits de tendance centrale,
car ils représentent une valeur numérique autour de laquelle les observations sont réparties.
D’autres encore sont dits de dispersion, car ils permettent de résumer le plus ou moins grand
étalement des observations de part et d’autre de la tendance centrale. Moyenne et médiane sont
des valeurs autour desquelles les observations sont réparties ; ce sont deux façons complémen-
taires de caractériser la tendance centrale. D’autres, enfin, sont dits de forme, car ils déterminent
la forme de la courbes des fréquences par l’asymétrie et par l’aplatissement.
2.2 Paramètres de tendance centrale (ou de position)
Ce sont des paramètres qui ont tendance à se positionner au centre d’une distribution statistique
(moyenne arithmétique, mode, médiane, fractiles,. . . )
2.2.1 La moyenne arithmétique (X̄) ou moyenne
Définition 2.2.1. C’est une valeur représentative d’un ensemble de données, qui a tendance à
se situer au milieu de cet ensemble.
a. Calcul de la moyenne arithmétique d’une distribution discrète
20
Statistique descriptive univariée, Prof. Dr. Ndondo M. Apollinaire 21
Soit x1 , x2 , . . . xn n valeurs observées d’une série statistique. La moyenne est donnée par :
x1 + x2 + ... + xn
x̄ =
n
n
X
x̄ = xi (formule simple)
i1
Si les valeurs observées xi sont au nombre k et chacune avec sa fréquence absolue ni, on utilise
la formule pondérée :
n1 x1 + n2 x2 + ... + nk xn
X̄ =
n
k
1X
X̄ = ni xi (formule pondérée)
n i
1
5+8+4+5+2+10 34
Soitlasériesuivante(5, 8, 4, 5, 2, 10) : x̄ = 6 = 6 = 5, 6
Autrement, par la formule pondérée :
x ni ni x
2 1 2
4 1 4
5 2 10
8 1 8
10 1 10
n=6 34
(1 × 2) + (1 × 4) + (2 × 5) + (1 × 8) + (1 × 10) 34
X̄ = = = 5, 6
6 6
b. Calcul de la moyenne arithmétique d’une distribution continue
On calcul d’abord des centres des classes (xi), puis on applique la formule pondérée.
Table 2.1 – Exemple d’une distribution d’ages

Age (ans) ni Centre xi ni xi
20-25 9 22,5 202,5
25-30 27 27,5 742,5
30-35 36 32,5 1170
35-40 45 37,5 1687,5
40-45 18 42,5 765
45-50 9 47,5 157,5
50-55 3 52,5 157,5
55-60 3 52,5 172,5
n = 150
202, 5 + 742, 5 + 1170 + 1687, 5 + 765 + 427, 5 + 157, 5 + 172, 5 + 172, 5 5325
x̄ = =
150 150
= 35, 5
Dans le cas d’une variable continue, cette moyenne pondérée n’est
qu’une valeur approchée de la vraie valeur moyenne de la série
statistique, car on remplace chaque Xj de la série statistique par le
centre de la classe à laquelle il appartient.
2.2.2 Mode (Mo)
Définition 2.2.2. C’est la valeur observée dont la fréquence absolue est la plus grande.
2.2.2.1 Remarques
Mo n’existe pas toujours. Lorsque le mode existe, il peut ne pas être unique. D’où on peut
trouver : Une distribution unimodale ou une distribution multimodale
2.2.2.2 Détermination du mode
1. Cas d’une distribution discrète

La détermination est immédiate
Exemple 2. 15; 12; 10; 12; 15; 18; 15.M o = 15
Exemple 3. 11; 15; 12; 11; 15; 11; 10; 15.M o1 = 11; M o2 = 15
2. Cas d’une distribution continue

Procédure :
a. Déterminer la classe, celle qui admet la plus grande fréquence absolue.
b. Utiliser la formule d’interpolation suivante :
∆1
Mo = li + h
∆1 + ∆ 2
li est la limite inférieure de la classe modale

h est l’amplitude
∆1 = fréquence classe modale – fréquence classe précédente
∆2 = fréquence classe modale – fréquence classe suivante.

Age (ans) ni
20-25 9
25-30 28
30-35 36
35-40 45
40-45 18
45-50 9
50-55 3
55-60 2
n = 150
li = 35
h = 40 − 35 = 5
∆1 = 45 − 36 = 9
∆2 = 45 − 18 = 27= fréquence classe modale – fréquence classe suivante.
9
Mo = 35 + 5 = 36, 25 = 36 ans 3 mois
9 + 27
2.2.3 Médiane ou (Me ou X1/2 )
Définition 2.2.3. La médiane est la valeur de la variable telle qu’il y ait autant d’observations,
en dessous d’elle qu’au-dessus ou, ce qui revient au même, la valeur correspondant à 50% des
observations.
1. Détermination de la Médiane
a. Cas d’une distribution discrète

On examine la parité de n (n= taille de l’échantillon).
n+1
On a 2 cas : Si n est impair : Me = X n+1 c’est-à-dire Me est la 2 è observation
2
kieme observation +(k+1)ieme observation

1
Si n est pair : M e = 2 X n2 + X n2 +1 ou Me = 2
Avec n = 2k (nombre pair). M e est la moyenne arithmétique des deux observations

centrales et Xk et Xk+1 Exemples :
Exemple 4. 10; 12; 13; 14; 18
Xn+1
Avec (n = 5) impair, nous utilisons la formule M e =
2
n+1 5+1
= = 3 valeur dans la série statistique
2 2
Donc M e = 13
Exemple 5. 10 ;12 ;13 ;14 ;18 ;20  
1
Avec (n = 6) pair nous utilisons la formule M e = X 1 + X 1 

2 +1
2 2
n
2 = 3; n2 + 1 = 4; Me = x3 +X4
2 = 13+14
2 = 27
2 = 13, 6 (valeur qui n’apparait pas
dans la série statistique)
b. Cas d’une distribution continue

Me vérifie F (M e) = 0.5, où F est la fonction de répartition de la variable. On trouve sur
le graphique de F l’abscisse dont l’ordonnée vaut 0.5. Autrement, on détermine un inter-
n
valle médian (intervalle contenant la médiane, l’observation d’indice si n est pair ou
2
n+1
l’observation d’indice si n est impair), puis on procède à l’intérieur de cette classe
2 n
N
à une interpolation linéaire cM e = 1i + h 2 nI−1
1
oú li est la limite inférieure de la classe médiane
hestlamplitudedelaclassemédiane
ni est la fréquence absolue de la classe médiane
n est la taille de la série statistique
Ni−1 est la fréquence absolue cumulée de la
classeprécédantlaclassemédiane

Age (ans) ni Ni ( Marquage)
20-25 9 9 1e , . . . , 9e
25-30 27 36 10e , . . . , 9e
30-35 36 72 37e , . . . , 9e
35-40 45 117 73e , . . . , 9e
40-45 18 135 118e , . . . , 9e
45-50 9 144 136e , . . . , 9e
50-55 3 147 145e , . . . , 9e
55-60 3 150 148e , . . . , 9e
n = 150; n2 = 150
2 = 75e observation se trouve dans la classe dont
li = 35; h = 5; Ni−1 = 72; ni = 45
M e = 35 + 5 75−72
45 = 35 +
3
9 = 35, 3 ans Me = 35 ans 3mois18 jours
2.2.4 Généralisation : notion de fractiles

1
On appelle fractiles d’ordre k les valeurs F1 , F2 , ..., Fk−1 qui divisent la série en k parties d’effec-
tifs égaux. Ces fractiles se calculent exactement comme la médiane. Le quartile Q2 est d’ailleurs
égal à la médiane. Les quantiles Q1, Q2, Q3 divisent la série statistique ordonnée en 4 parties
1
d’effectifs égaux. Quantile d’ordre 4 : Cest la valeur Q1 tel que F (Q1 ) = 0.25.
1
Quantile d’ordre 2 : Cest la valeur Q2 tel que F (Q2 ) = 0.5
1
Quantile d’ordre 4 : Cest la valeur Q3 tel que F (Q3 ) = 0.75.
Les déciles D1, . . . , D9 divisent la série ordonnée en dix parties

d’effectifs égaux.
1 2
Déciles d’ordre 10 , 10 . . . : F(D1) = 0.1, F(D2) = 0.2 . . .
Les centiles divisent la série ordonnée de fagon croissante en 100
parties de mêmes effectifs.
Les déciles, et surtout les centaines au moins pour des centiles).
Remarque : Ces élements se déterminent facilement à partir des
courbes cumulatives, en cherchant les abscisses des points
1 n
d’ordonnées 2 pour Me, 4 pour Q1 . . .
2.3 Paramètres de dispersion
Ce sont des paramètres qui déterminent les écarts des différentes valeurs de la série statistique
vis-à-vis de la moyenne.
2.3.1 Etendue(E) :
E = valeurmin − valeurmax
Oùvaleurmax la valeur maximale et valeurmin la valeur minimale de la série statistique
2.3.2 Variance(S 2 )
Définition 2.3.1. C’est la moyenne des carrés des écarts de diverses valeurs de la série statis-
tique vis-à-vis de la moyenne arithmétique.
2.3.2.1 Formule
Formule simple :
n
(x1 − x̄)2 + (x2 − x̄)2 + · · · + (xn − x̄)2 1X
S2 = ou S 2 = (xi − x̄)2
n n i=1
Formule pondérée :
n1 (x1 − x̄)2 + n2 (x2 − x̄)2 + · · · + nk (xk − x̄)2

S2 =
n
n
1X
2
S = ni (xi − x̄)2
n i=1
La variance est donc toujours positive ou nulle. Les formules ci-dessus imposent de calculer les
différences (xi − x̄)2 ce qui est assez fastidieux. On peut éviter cet inconvénient en utilisant le
théorème de Koenig. Théorème de KOENIG
n
1 X
S2 = ( x2j ) − x̄2 (formule simple)
n i=1
n k
1 X X
( xi x2i ) − x̄2 = ( fi x2i )fprmule pondérée
n i=1 i=1
2.3.3 Ecart- type (S)( Standard de déviation)
√
S = + S2
2.3.4 Coefficient de variation (C.V.)

s
C.V = × 100 (C.V s’exprime en %)
x̄
Nota. Si C.V < 17%,on parled’une dispersion faible
Si C.V. ≥ 17%, on parle d’une dispersion forte
Table 2.4 – Exemple de calcul de la variance , de l’écart-type et du coefficient de variation
1P 8250
a) Variance S 2 = ni (xi − x̄)2 = = 55an2 Autre manière de calculer : par le théorème
n 150
de KOENIG :
k k
! !
2 1X X
S = ni x2i − x̄2 = fi x2i − x̄2
n i=1 i=1
197287, 5
S2 = − 1260, 25 = 1315, 25 − 1260, 25 = 55
150
√
b) Ecart-types = + s2 = 7, 4 ' 7ans
c) Coefficient de variation (C.V )

S
C.V = × 100 = 20, 8%
x̄
Nous sommes en présence d’une dispersion forte.
Nota. Changement de variable La moyenne et l’écart-type peuvent aussi être calculés après
un changement de variable :
xi − a
ui =
h
Dès lors , on aura x̄ = ūh + a et S = hSu

Avec
a ≡ une valeur prise au milieu de la distribution
h ≡ l’amplitude de la distribution ū ≡ la moyenne des ui Su ≡ l’écart-type des ui
2.4 Les paramètres de forme
Ce sont des paramètres qui caractérisent la forme de la courbe de fréquences. Ils permettent
d’étudier l’asymétrie et l’aplatissement.
2.4.1 Coefficients d’asymétrie.
2.4.1.1 Coefficient d’Asymétrie de SKEWNESS
x̄ − Mo
Sk =
S
Si SK = 0, la distribution est symétrique Si SK > 0, la distribution est dissymétrique à droite

Si SK < 0, la distribution est dissymétrique à gauche
Nota. Le coefficient de SKEWNESS est empirique.

2.4.1.2 Le coefficient de FISHER
v 3
n n
u
m3 1X u1 X
g1 = 3 avecm3 = ni (xi − x̄3 ) et S 3 = t ni (xi x̄2 )
S n i=1 n i=1
Si g1 = 0, il y a symétrie
Si g1 > 0, il y a dissymétrie à droite
Si g1 < 0, il y a dissymétrie à gauche.
Une distribution est asymétrique si une de ses queues est plus longue que l’autre. Une distribution
asymétrique positive est telle qu’elle a une longue queue dans la direction positive. Elle est aussi
dite distribution asymétrique à droite. Une distribution asymétrique négative est telle qu’elle
a une longue queue dans la direction négative. Elle est aussi dite distribution asymétrique à
gauche. Une distribution symétrique n’a pas de queue.
Nota. Lorsque les trois paramètres de position mode, médiane et moyenne sont à peu près alignés
sur la même valeur ou la même classe, cela indique généralement une distribution relativement
symétrique des observations. Le cas échéant, cela signe une certaine asymétrie de la distribution.
Dans ce cas, la médiane étant toujours située entre le mode et la moyenne (lorsque la distribution
est unimodale uniquement), la position de la moyenne par rapport au mode permet de déterminer
le sens de l’asymétrie :
• lorsque l’on a : mode < médiane < moyenne, la distribution est asymétrique vers la droite,
tandis que
• lorsque l’on a : moyenne < médiane < mode, l’asymétrie est à gauche.
2.4.2 Coefficients d’aplatissement
Selon le degré d’aplatissement, on peut classer la courbe en :
• Leptokurtique, si elle est aiguë (avec b2> 3)
• Platykurtique, si elle est aplatie (avec b2< 3)
• Mésokurtique, si elle est normale (avec b2 = 3).Coefficient de FISHER

v 4
n u n
m4 1X 1 X
ni (xi − x̄4 ) et S 4 = t
u
b2 = avecm4 = ni (xi x̄2 )
S4 n i=1
n i=1
Chapitre 3
Statistique descriptive bivariée
3.1 Régression et corrélation
3.1.1 Introduction
En présence d’une distribution statistique de deux variables (X, Y ) nous pouvons nous poser la
question suivante :
La connaissance d’une valeur de la variable X apporte-t-elle une information supplémentaire sur
les valeurs de la variable Y ?
La réponse à cette question est du domaine de la régression : dans un tel cas, on dit que X est
la variable explicative et Y la variable expliquée. Dans d’autres cas, aucune des deux variables
ne peut être privilégiée : la liaison stochastique entre X et Y s’apprécie alors de façon symétrique
par la mesure de la corrélation.
On s’intéresse à deux variables X et Y. Ces deux variables sont mesurées sur les n unités sta-
tistiques. Pour chacune de ces n unités, on obtient donc deux mesures. La série statistique est
alors une suite de n couples des valeurs prises par les deux variables sur chacun de n individus :
(X1 , Y1 ), . . . , (Xi , Yi ), . . . , (Xn , Yn ).
3.1.2 Régression
3.1.2.1 Construction de la droite de régression de y par rapport à x
Les deux variables X et Y sont quantitatives réelles ou entières.

La première étape consiste à déterminer la forme de la courbe, la seconde étape est celle de
trouver l’équation de cette courbe.
On considère la série statistique de n couples. Un couple de nombres (entiers ou réels) peut
toujours être représenté comme un point dans un plan
29
Statistique descriptive bivariée, Prof. Dr. Ndondo M. Apollinaire 30
(X1 , Y1 ), . . . , (Xi , Yi ), . . . , (Xn , Yn ). L’ensemble de ces n points dans le plan forme un nuage de
points :
La droite de régression est la droite qui ajuste au mieux un nuage de points (Xi , Yi ).
On considère que la variable X est explicative et que la variable Y est dépendante.
L’équation de la droite est de la forme Y = aX + b.
3.1.2.2 Procédés d’ajustement
Il y a plusieurs procédés d’ajustement, parmi lesquels nous retenons l’ajustement analytique
1. Ajustement analytique
Le problème d’ajustement analytique est de trouver le meilleur ajustement des données,
c’est-à-dire une fonction qui doit s’adapter de la façon la plus satisfaisante aux observations
faites et conduire à une courbe d’ajustement aussi simple que possible.
De divers procédés permettant de trouver les paramètres a et b de l’équation Y = aX + b,
nous retiendrons le principe ou la méthode des moindres carrés.
2. Méthode des moindres carrés

Soit l’équation d’une droite : ei = Yi − aXi
Si les coefficients a et b étaient connus, on pourrait calculer les écarts de régression : L’écart
ei est l’erreur que l’on commet en utilisant la droite de régression pour prédire Yi à partir
de Xi. Ces écarts peuvent être positifs ou négatifs.
Pour déterminer les valeurs des coefficients a et b, on utilise la méthode des moindres
carrés qui consiste à chercher la droite qui minimise la somme des carrés des écarts :
n n
(Yi − b − aXi )2
X X
M (a, b) = e2i =
i=1 i=1
Le minimum M (a, b) au point (a, b) s’obtient en annulant les dérivées partielles par rapport
à a et à b :
n
∂M (a, b) X
= 2 (Yi − b − aXi ) Xi = 0
∂a i=1
n
∂M (a, b) X
= 2 (Yi − b − aXi ) = 0
∂b i=1
En divisant les deux équations par −2n, on obtient :
n
1X
(Yi − b − aXi ) Xi = 0
n i=1
n
1X
(Yi − b − aXi ) = 0
n i=1
Ou encore :
n n n
1X 1X 1X
Yi Xi − bXi − aXi2 = 0
n i=1 n i=1 n i=1
n n n
1X 1X 1X
Yi − b−a Xi = 0
n i=1 n i=1 n i=1
Ainsi :
n n
1X 1X
Yi Xi − bX̄ − aXi2 = 0 (3.1)
n i=1 n i=1
Ȳ − b − aX̄ = 0 (3.2)
De (3.2) :
b = Ȳ − aX̄ (3.3)
En remplaçant (3.3) dans (3.1), on :
n n
!
1X 1X
Xi Yi − X̄ Ȳ − a X 2 − X̄ 2 =0
n i=1 n i=1 i
Donc les formules qui permettent d’obtenir a et b sont :
Pn
i=1 Xi − X̄ Yi − Ȳ Cov(X, Y )
a = 2 =
Var(X)
Pn
i=1 Xi − X̄
Pn 1 Pn Pn
i=1 Xi Yi −i=1 Xi i=1 Yi
a = n
1 Pn
( i=1 Xi )2
Pn 2
i=1 Xi −
n
b = Ȳ − aX̄
Remarque 1. La droite de régression de Yen X n’est pas la même que la droite de régression
de X en Y.
3.1.3 Corrélation
3.1.3.1 Existence d’une liaison statistique entre deux variables quantitatives
La corrélation statistique relie les variations réciproques de deux caractères statistiques sur une
même unité statistique. Il s’agit d’une relation beaucoup moins rigide que la relation fonction-
nelle y = f (x) où la connaissance de l’une de ses variables suffit pour déterminer complètement
la valeur correspondante de l’autre variable. Les variables statistiques sont soumises à des fluc-
tuations c’est-à-dire à une valeur donnée d’une des variables il correspond non pas une seule,
mais toute une distribution des valeurs de l’autre variable. Et inversement.
On ne saurait dire, par exemple, que le poids est une fonction de la taille au sens mathématique
de ce terme, ou inversement. Pour une valeur donnée de la taille, dans un groupe de sujets
dont on étudie la taille et le poids, on trouvera toute une série de sujets ayant cette taille, mais
différents entr’eux par le poids. Inversement, pour une valeur donnée du poids on trouvera toute
une série de sujets différents entr’eux par taille.
Quand le nuage des points se présente sous la forme (1) ou (2), on dit que le nuage a la forme
allongée et les variables X et Y sont liées (ou qu’il existe une liaison entre X et Y).
Pour (1), la liaison est appelée corrélation linéaire positive (car X et Y croît ou décroît au même
moment). Pour (2), la liaison est appelée corrélation linéaire négative (car si X croît, Y décroît
et vice versa). Pour (3), la liaison est nulle.
3.1.3.2 Intensité de la liaison : Coefficient de corrélation
Après avoir décelé graphiquement la corrélation entre deux variables, on va en mesurer l’in-
tensité grâce au coefficient de corrélation. La liaison entre deux variables numériques peut être
étudiée grâce au coefficient de corrélation. Néanmoins, il faut bien garder présent à l’esprit que
le coefficient de corrélation de Bravais-Pearson ne mesure que des relations linéaires, et sa valeur
n’est en rien le reflet de l’existence d’un lien de causalité entre les deux variables.
Le coefficient de corrélation de Bravais-Pearson mesure en fait l’intensité de l’association entre
les deux variables. Il est donné par la formule suivante :
Pn
i=1 Xi − X̄ Yi − Ȳ Cov(X, Y ) Cov(X, Y )
r = r 2 = pVar(X)Var(Y ) =
Pn 2 P
n
SX SY
i=1 Xi − X̄ i=1 Yi − Ȳ
Pn 1 Pn Pn
i=1 Xi Yi
i=1 Xi− i=1 Yi
r = n
2 − 1 (Pn X )2 2 − 1 (Pn Y )2

Pn Pn
X
i=1 i i=1 i Y
i=1 i i=1 i
n n
3.1.3.3 Propriétés de r
• r est un nombre pur c’est-à-dire qui n’a pas d’unités
• −1 ≤ r ≤ +1 c’est-à-dire r se situe entre -1 et +1
• Si r = ±1, on dit que la corrélation est parfaite (r = 1 ou r = −1)
• Si |r| > 0, 75, on dit que la liaison statistique entre les deux variables est significative, on dit
aussi que les deux variables sont fortement corrélées
• Si |r| < 0, 75, on dit que les deux variables sont faiblement corrélées.
Nota. En pratique, cette conclusion est obtenue en procédant à la lecture de la table statistique
du coefficient de corrélation (test du coefficient de corrélation).
• Si r > 0, la corrélation est positive. Voir figure (1) ci-dessus
• Si r < 0, la corrélation est négative. Voir figure (2) ci-dessus
• Si r = 0, il n’y a pas de corrélation. Voir figure (3) ci-dessus
Remarque 2. Si l’interprétation de la corrélation est facilitée par l’élaboration d’une repré-

sentation graphique bivariée, le nuage de points, il convient de bien faire attention aux unités
de mesure utilisées, avant de juger l’inclinaison du nuage de points ou la pente de la droite de
régression qui est souvent associée au coefficient de corrélation : en effet, la pente de la droite
ajustant le nuage de points est dépendante de l’échelle utilisée, tandis que le coefficient de cor-
rélation est indépendant de l’unité de mesure. Par ailleurs, un coefficient de corrélation élevée
ne traduit pas toujours une relation linéaire avérée.
Ainsi également, un faible coefficient de corrélation ne signifie pas forcément l’indépendance des
deux variables considérées, puisque celles-ci peuvent être liées par des relations non-linéaires (ex.
polynomiale, logarithmique, parabolique, etc.).
Exercices, Prof. Dr. Ndondo M. Apollinaire 35
EXERCICES SUR LA PREMIERE PARTIE
Exercice 1. En vue de ses recherches sur les MST en milieu estudiantin à Kinshasa, un étudiant
en médecine désire constituer un échantillon représentatif constitué de 300 étudiants. Le tableau
suivant donne l’effectif d’étudiants
no Université/ Institut Supérieur Effectif

1 UNIKIN 20 000
2 ISC 10 000
3 ISTA 8 000
4 UPN 12 000
5 UPC 3 000
6 UWB 2 000
7 UC 5 000
a) S’il procède par la méthode de stratification, calculer le nombre n2 d’individus à tirer de la

2è strate
b) S’il utilise la méthode d’échantillonnage aléatoire systématique de base b2 = 125 et si dans

la 2è strate, les individus sont numérotés de 1 à N2 , donner les 10 premiers numéros à tirer
pour constituer n2 .
Exercice 2. Je veux tirer un échantillon de 30 personnes au hasard dans une salle de 110
étudiants (N = 110). Si je dois faire un tirage systématique, quelles sont les étapes pour y
arriver ?
Exercice 3. Dans une population de 300 personnes je souhaite interroger 15 personnes. La

population est composée de 200 hommes et 100 femmes. Tirez en un échantillon représentatif ?
Exercice 4. Dans une ville qui compte 2 000 élèves en Classe de 6è primaire qui se répartissent
à 80% dans des écoles publiques et 20% dans des écoles privées, vous souhaitez travailler sur les
modalités d’apprentissage de la lecture. Or une de partie de vos hypothèses se réfère au clivage
privé/public. Les moyens disponibles permettent d’interroger au maximum 200 élèves. Comment
allez-vous faire pour avoir un échantillon représentatif ?
Exercice 5. Une enquête a été menée pour recueillir l’opinion des habitants d’un quartier sur
un projet d’aménagement social. 300 personnes ont 46 répondu. Les réponses sont traduites sur
une échelle numérique totalement ordonnée formée des entiers de 0 à 20 inclus.
xi 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
ni 3 6 8 10 10 12 14 16 16 16 18 18 18 18 20 21 26 28 13 9 0
1°) donner la médiane, le 1er quartile, le 3è quartile.
2°) calculer la densité de fréquence sur les intervalle suivants :

[0; 5.5]; [5.5; 8.5]; [8.5; 11.5]; [11.5; 14.5]; [14.5; 17.5]; [17.5; 20]
3°) tracer l’histogramme de ces densités de fréquences.
4°) représenter la fonction de répartition empirique. Calculer le mode et la médiane de la nouvelle distribution.
Conclusion ?
Exercice 6. On a indiqué dans le tableau suivant la distance entre le bureau et le domicile (en
km) d’un échantillon d’agents sanitaires.
Distance 0 1 2 3 4 5 8
Effectif 5 21 24 15 20 13 2
1. a) Combien d’employés comporte le groupe étudié ?

b) Déterminer la distance moyenne entre le domicile et le lieu de
2. 2) Quel est l’écart-type s de cette série (on arrondira au centième) ?
3. Quelle est la médiane de cette série ? Déterminer l’intervalle interquartile. Représenter le

diagramme en boîtes de cette série.
4. On s’intéresse maintenant uniquement aux employés qui n’habitent pas dans les environs
immédiats du bureau (ceux qui habitent à au moins 1 kilomètre).Quel est, parmi eux, le
pourcentage des employés qui travaillent à cinq kilomètres ou plus de leur domicile (on
arrondira au centième) ? Déterminer la moyenne obtenue par ce procédé.
Pourquoi ne trouve-t-on pas 225 Go ?
Exercice 7. Lors d’une visite médicale dans un centre de santé, on a prélevé le poids (kgs) d’un
échantillon de 50 patients souffrant de la gastroentérite. On a obtenu les résultats suivants :
47 82 61 46 76 80 48 74 80 73
75 69 67 45 79 90 65 40 73 84
44 79 71 76 84 92 84 41 72 73
75 97 77 44 54 87 71 81 56 59
60 51 86 76 98 82 59 51 49 88
1) Regrouper ces données en utilisant des classes de poids d’amplitude 10kgs du type suivant :
[40, 50] ; [50, 60] ; . . .
2) Construire l’histogramme et l’ogive des fréquences cumulées de cette distribution et indiquer

les quartiles.
3) Déterminer le poids moyen et l’écart-type de cette distribution
Exercice 8. D’après les enquêtes d’une organisation sanitaire, dans la ville de Kinshasa, voici
les données(en âges) de personnes vivant avec le VIH dans les communes de Barumbu et Kin-
shasa
15 25 32 17 25 30 19 17 37 34
16 20 23 27 24 21 32 30 25 47
33 40 43 42 19 24 36 42 44 34
25 24 32 31 21 24 35 42 40 18
22 24 26 25 23 28 27 30 29 17
33 35 40 27 34 30 29 42 43 45
15 20 23 31 23 29 17 25 22 30
1) Regrouper ces données en âges
2) Calculer la proportion d’individus atteints du VIH dont l’âge est supérieur ou égale à 30 ans.
3) Déterminer l’âge moyen, modal et médian de la population ainsi que le coefficient de variation
4) Calculer l’écart inter décile
5) Construire l’histogramme et le polygone des fréquences
6) Construire la courbe des fréquences cumulées
Exercice 9. On prélève la tension artérielle systolique (TAS) de 60 patients d’un centre de

santé. Les résultats trouvés (en mmHg) sont consignés dans le tableau suivant :
158 172 166 170 168 175 152 190 191 157
163 160 149 186 183 172 173 184 181 180
172 169 171 173 171 180 198 167 175 177
170 173 168 167 169 180 181 178 166 164
159 168 166 162 170 182 183 190 167 169
170 160 171 188 168 169 172 157 149 180
a) Grouper ces données par classes d’amplitude 5 mmHg
b) Construire l’histogramme et le polygone des fréquences
c) Construire la courbe des fréquences cumulées croissantes
d) Déterminer graphiquement Q1 , Q2 et Q3
e) Calculer la moyenne, la médiane, le mode et le coefficient de variation
f) Discuter sur le degré d’asymétrie de cette distribution
Exercice 10. La distribution suivante représente le nombre de kilomètres parcourus par les 100
camions de la compagnie de produits PHARMA JOB durant l’année 2011 :
Kilomètres parcours Nombre de camions

[10000, 14000[ 5
[14000, 18000[ 10
[18000, 22000[ 12
[22000, 26000[ 20
[26000, 30000[ 24
[30000, 34000[ 14
[34000, 38000[ 11
[38000, 42000[ 4
a) Construisez l’histogramme et le polygone de fréquences de cette distribution.
b) Construisez l’ogive et localisez graphiquement la valeur de la médiane.
c) Calculez le nombre moyen, médian et modal de kilomètres parcourus par ces camions
d) Cette distribution est – elle dissymétrique ? expliquez votre réponse en vous basant sur les
paramètres de forme étudiés.
Exercice 11. Lors d’une expérience portant sur la mémorisation d’une liste de 112 mots, on
demande à 10 sujets adultes de langue maternelle française sélectionnés au hasard de redire dans
l’ordre qu’ils veulent le plus de mots possible après 10 minutes de mémorisation. Aux mêmes
adultes, on fait passer un test logique permettant d’examiner la faculté d’établir des liens entre
divers éléments et de découvrir les relations existantes au sein d’ensembles complexes. Notons
X la variable correspondant au résultat obtenu au test logique et Y la variable correspondant au
nombre de mots mémorisés en 10 minutes.
Le tableau ci-dessous présente les résultats obtenus par les 10 sujets.
Sujet i xi yi
1 87 38
2 80 35
3 90 45
4 95 58
5 100 65
6 115 76
7 135 108
8 110 75
9 93 35
10 89 52
Total 994 587
(i) Calculez le coefficient de corrélation rxy .
(ii) Déterminez l’équation de la droite de régression permettant de prédire la variable Y à partir

de la variable X.
(iii) A quel nombre de mots mémorisés en 10 minutes peut-on s’attendre chez un sujet qui
obtiendrait un score de 85 au test logique ?
Exercice 12. Une expérience a été faite sur 20 grenouilles mâles, choisies pour leur extrême
noirceur ou leur extrême pâleur, pour essayer de voir s’il existe une relation entre la teneur en
mélanine de la peau de ces grenouilles et leurs poids.
On désigne par X la densité de mélanine et par Y le poids de la grenouille exprimé en grammes.
On a obtenu :
X 0,11 0,15 0,32 0,68 0,64 0,29 0,45 0,51 0,05 0,71
Y 11 19 20 18 17 22 25 24 21 26
X 0,37 0,56 0,97 0,75 0,77 0,86 1,04 0,74 0,32 0,64
Y 28 30 31 23 25 27 29 17 15 25
1. Calculer le coefficient de corrélation linéaire r de X et de Y,
2. Donner l’équation de la régression linéaire (Y = a + bX).
Exercice 13. Les données ci-contre sont les résultats d’une expérience tentant de mettre en
relation la variable X et la variable Y.
X 10 15 20 25 30 35 40 45 50 55
Y 4,78 4,74 4,91 5,56 5,63 5,17 5,55 5,55 6,38 5,76
X 60 65 70 75 80 85 90 95 100
Y 6,25 6,5 5,95 6,28 6,53 6,39 6,59 6,59 6,41
a) Calculez le coefficient de corrélation rxy .
b) Donner l’équation de la régression linéaire (Y = a + bX).
Exercice 14. L’infirmier-chef de l’hôpital de Référence de Kinshasa désire déterminer s’il existe
une relation entre le nombre de jours qu’un patient passe à l’hôpital et le nombre de visites que
doit lui faire l’infirmier dans une période de 24 heures. L’infirmier-chef a compilé les données
suivantes :
Patients Nbre de jours à l’hôpital (x) Nbre total de visites de l’infirmier (y)
Mr L’Heureux 2 2
M. Lacharitè 4 3
M. Lavigueur 5 3
Mr Lajoie 6 4
M. Ladouceur 3 2
Mr Letendre 15 10
M. Latendresse 7 5
Mr Lesperance 15 11
M. Labonté 2 1
a) Déterminez l’équation de la droite de régression selon le critère des moindres carrés

b) Quel serait le nombre total de visites de l’infirmier sur les patients M. Labonté et Mr Letendre
si le nombre de jours à l’hôpital était respectivement 8 et 9. Commentez le résultat.
c) Existe-t-il une liaison significative entre le nombre de jours qu’un patient passe à l’hôpital et
le nombre de visites que doit lui faire l’infirmier ?justifiez votre réponse
d) Représentez le nuage de points observé.
Exercice 15. Les mesure du nombre X de jours de pluie et de la hauteur Y (en mm) de pluie
à Paris tous les 5 ans entre 1960 et 1995 sont récapitulées dans le tableau suivant.
Année 1960 1965 1970 1975 1980 1985 1990 1995

X 198 196 199 164 170 163 149 162
Y 739 880 631 658 690 501 501 670
(a) Représenter graphiquement le nuage de points.
(b) Calculer le coefficient de corrélation.
(c) Y a-t-il une relation de liaison entre les variables X et Y ?
Exercice 16. Neuf étudiants émettent un avis pédagogique vis-à-vis d’un professeur selon une
échelle d’appréciation de 1 à 20. On relève par ailleurs la note obtenue par ces étudiants l’année
précédente auprès du professeur.
Etudiants
y = Avis 5 7 16 6 12 14 10 9 8
x=Résultat 8 11 10 13 9 17 7 15 16
1. Représentez graphiquement les deux variables.
2. Déterminez le coefficient de corrélation entre les variables X et Y. Ensuite, donnez une

interprétation de ce coefficient. 51
3. Déterminez la droite de régression Y en fonction de X.
4. Etablissez, sur base du modèle, l’avis pour un étudiant ayant obtenu 12/20.
Exercice 17. Considérons un échantillon de 10 employés d’un Centre Médical (ayant entre 40et
50 ans). Soit X le nombre d’années de service et Y le nombre de jours d’absence pour raison
de maladie (au cours de l’année précédente) déterminé pour chaque personne appartenant à cet
échantillon.
xi 2 14 16 8 13 20 24 7 5 11
yi 3 13 17 12 10 8 20 7 2 8
1. Représentez le nuage de points.
2. Calculez le coefficient de corrélation entre X et Y.

3. Déterminez l’équation de la droite de régression de Y en fonction de X.
4. Etablissez, sur base de ce modèle, le nombre de jours d’absence pour un employé ayant 22
ans de service.
Deuxième partie
ELEMENT DES PROBABILITES
42
Chapitre 4
Le Calcul des Probabilités
4.1 Introduction
La théorie ou le calcul des probabilités est la théorie mathématique, qui permet de modéliser
des phénomènes aléatoires, ou non déterministes.
Cette théorie permet de construire des modèles de ces phénomènes et permet le calcul : c’est à
partir d’un modèle probabiliste d’un jeu de hasard comme le jeu de dés que l’on peut prédire
les fréquences d’apparition d’événements comme le nombre de fois que l’on obtient une valeur
paire en jetant un dé un grand nombre de fois.
Lorsqu’on jette un dé on est certain qu’il va tomber sur la table ou le sol (phénomène détermi-
niste), mais on n’est pas capable de prédire la valeur qui va sortir (phénomène aléatoire).
Un phénomène déterministe est un phénomène dont on peut prévoir le résultat ; les lois de la
physique classique sont des modèles permettant de prédire le résultat d’une expérience donnée.
La loi d’Ohm, par exemple, permet de prédire la valeur de l’intensité du courant connaissant la
résistance et la tension aux bornes.
Définition 4.1.1 (Expérience aléatoire (ε)). C’est une expérience dont le résultat n’est pas
prévisible.
Exemple 6.
• la naissance d’un enfant.
• le jeu des cartes
• le jet de dé
Définition 4.1.2 (Espace des éventualités ou Ensemble fondamental ou Univers). Pour une
expérience aléatoire donnée, l’ensemble des résultats possibles est appelé l’ensemble fondamental,
que nous noterons Ω. Chaque résultat d’expérience est un point ou un élément de Ω.
43
Le Calcul des Probabilités, Prof. Dr. Ndondo M. Apollinaire 44
Définition 4.1.3 (Evénement aléatoire). Un événement aléatoire est un événement qui, lors
d’une expérience aléatoire, peut ou ne pas se réaliser. On note les événements aléatoires par les
lettres majuscules de l’alphabet français en particulier : A, B, C, D, E, F, G, . . .
Un événement A est un sous ensemble de Ω, c’est-à-dire un ensemble de résultats.
L’événement {a}, constitué par un seul point de Ω, donc par un seul résultat, est appelé événe-
ment élémentaire.
L’ensemble vide ∅ ne contient aucun des résultats possibles : il est appelé événement impos-
sible.
L’ensemble Ω contient tous les résultats possibles : c’est l’événement certain.
Nota. Si Ω est fini, ou infini dénombrable, tout sous-ensemble de Ω est un événement ; ce n’est
pas vrai si Ω est non dénombrable (ceci sort du cadre de ce cours).
Exemple 7.
1. On jette un dé et on observe le résultat obtenu. L’ensemble fondamental est formé par les 6
résultats possibles : Ω = {1, 2, 3, 4, 5, 6}
L’événement correspondant à l’apparition d’un nombre pair est A = {2, 4, 6}, qui est bien un
sous ensemble de Ω. L’événement correspondant à l’apparition d’un nombre premier est B =
{1, 2, 3, 5}, et l’événement correspondant à l’apparition d’un 3 est C = {3}.
2. Dans l’exemple précédent Ω était fini et donc dénombrable ; Ω peut être infini dénombrable
comme dans le cas suivant. On jette une pièce de monnaie jusqu’à ce qu’on obtienne pile ;
l’ensemble fondamental correspondant est la suite des nombres entiers Ω = {1, 2, 3, . . . , n, . . .}
puisqu’on peut avoir un pile au bout d’un jet, de 2 jets, de n jets, n’étant aussi grand que l’on
veut.
3. On vise avec une fléchette une cible suffisamment grande ; si on admet que l’impact de la
fléchette sur la cible est très fin, comme le serait un point de la géométrie, l’espace fondamental
Ω est la surface de la cible qui est constituée de points et donc infini et non dénombrable (ceci
sort du cadre de ce cours).
4.2 Opérations sur les événements aléatoires
Les événements peuvent se combiner entre eux pour former de nouveaux événements. Si A et B
sont deux événements, les opérations de combinaison sont :
1. L’intersection de deux événements A et B, notée A ∩ B est l’événement qui se produit si

les événements A et B se réalisent simultanément.
2. L’union de deux événements A et B, notée A ∪ B est l’événement qui se produit si A ou

B (ou les deux) se réalise.
3. L’événement complémentaire de A, noté CA ou A, est l’événement qui se produit si A n’est

pas réalisé.
4.3 Quelques événements particuliers
Définition 4.3.1 (Evénements disjoints). A et B sont des événements disjoints ou exclusifs ou

incompatibles si A ∩ B = ∅.
Exemple 8. Soit ε "jet d’un dé homogène une fois". Les événements A "obtenir un chiffre pair"
et B "obtenir un chiffre impair" sont disjoints.
Définition 4.3.2 (Système complet d’événements). On dit que les événements A1 , A2 , . . . , An

forment une famille complète si les Ai constituent une partition de Ω, c’est-à-dire si :
1. les événements sont deux à deux disjoints : ∀(i 6= j), (Ai ∩ Aj = ∅)

n
2. ils couvrent tout l’espace :
[
Ai = Ω
i=1
Définition 4.3.3 (les événements sont deux à deux disjoints). Deux événements A et B sont
indépendants si P (A ∩ B) = P (A)P (B)
Trois événements A, B et C sont indépendants
c1) s’ils sont indépendants 2 à 2 : A indépendant de B ; A indépendant de C ; et B indépendant
de C ;
c2) et si P (A ∩ B ∩ C) = P (A).P (B).P (C)
Définition 4.3.4 (symétrie mutuelle). Une expérience aléatoire admet la symétrie mutuelle si
tous les cas possibles a priori ont la même chance de se réaliser.
Exemple 9. On suppose qu’avant la naissance, garçon et fille ont la même chance de naitre.
4.4 Notion de probabilité
4.4.1 Définition de Laplace
Soit ε une expérience aléatoire possédant la symétrie mutuelle et soit A un événement relatif à
ε. On définit la probabilité par :
Nombre de cas favorables à A

P (A) =
Nombre de cas également possibles
4.4.2 Définition de la probabilité de Kolmogorov
D’après Kolmogorov, la probabilité d’un événement est une application réelle notée P, à valeurs
dans l’intervalle [0,1], définie dans P(Ω) l’ensemble des parties de Ω
P : P(Ω) −→ [0, 1]
Vérifiant les axiomes suivants : événements A et B
a) 0 ≤ P (A) ≤ 1
b) P (∅) = 0 et P (Ω) = 1
c) P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
N.B. Si A et B sont disjoints, c-à-d P (A ∩ B) = 0,
on a : P (A ∪ B) = P (A) + P (B)
d) P (A) + P (A) = 1
Exemple 10. Soit l’expérience aléatoire ε "jeu de 52 cartes". Considérons les événements ci-
après : A "tirer un As" et B "tirer une trèfle ".
On a :
A ∪ B "tirer au moins un As ou une trèfle "
A ∩ B "tirer un As et une trèfle".
Ainsi :
P (A) = 4/52; P (B) = 13/52; P (A ∩ B) = 1/52
A ∪ B = 4/52 + 13/52˘1/52 = 16/52 = 4/13 = 0, 31
Définition 4.4.1 (Probabilités conditionnelles). Les probabilités conditionnelles de l’événement

A sachant que l’événement B est réalisé, notée P (A|B) est la probabilité de la réalisation de A,
à condition que B s’est réalisé.
Dans l’hypothèse de la symétrie mutuelle, si note |Ω| le nombre d’éléments de Ω, on a :
|A ∩ B
P (A ∩ B) =
|Ω|
|B|
P (B) =
|Ω|
P (A ∩ B)
P (A|B) =
P (B)
Exemple 11. On jette une paire de dés bien équilibrés (espace équiprobable). On observe une
réalisation de l’événement {somme des dés = 6}. Quelle est la probabilité pour qu’un des deux
dés ait donné le résultat 2 ?

B = {somme des deux dés = 6} ;
A = {au moins un des deux dés donne2}
B = {(2, 4), (4, 2), (1, 5), (5, 1), (3, 3)}
Nombre de réalisations de (A ∩ B) = {(2, 4), (4, 2)} = 2
P (A ∩ B) |A ∩ B| 2
D’où P (A|B) = = =
P (B) |B| 5
4.4.3 Multiplication des probabilités
De ce qui précède, on a P (A ∩ B) = P (A|B).P (B) = P (B|A).P (A) = P (A ∩ B), on tire la

formule :
P (A|B)
P (B|A) =
P (A)
4.4.4 Probabilités totales
Si l’événement A ne peut se réaliser que si l’un des événements B1 , B2 , . . . , Bn formant un

système complet d’événements est réalisé, alors la probabilité de l’événement A est donnée par
la formule :
P (A) = P (B1 ).P (A|B1 ) + P (B2 ).P (A|B2 ) + · · · + P (Bn ).P (A|Bn )
n
X
P (A) = P (Bi ).P (A|Bi )
i=1
Exemple 12. Trois coups sont tirés à la file sur une même cible.
La probabilité d’atteinte de la cible est respectivement égale p1 = 0.3 à au premier coup, p2 = 0.6
au 2e coup et p3 = 0.8 au 3e coup.
La probabilité de destruction de la cible est respectivement égale à
t1 = 0.4 quand elle est touchée une fois t2 = 0.7 quand elle est touchée deux fois t3 = 1 quand
elle est touchée trois fois
Quelle est la probabilité de détruire la cible quand 3 coups sont tirés
Soit A l’événement "détruire la cible quand 3 coups sont tirés"
B1 ≡ "détruire la cible après une" atteinte"
B2 ≡ "détruire la cible après deux" atteinte"
B3 ≡ "détruire la cible après trois" atteinte"
B4 ≡ "manque cible"
Le nombre d’atteintes de la cible est ≤ au nombre de coups tirés.
Après 3 coups tirés, on peut avoir une, deux ou trois atteintes.
La probabilité de manquer la cible est de : 1 − p1 au 1er coup ; 1 − p2 au 2e coup et 1 − p3 au 3e

coup.
P (B1 ) = p1 (1 − p2 )(1 − p3 ) + (1 − p1 )p2 (1 − p3 ) + (1 − p1 )(1 − p2 )p3 = 0.332
P (B2 ) = p1 p2 (1 − p3 ) + p1 (1 − p2 )p3 + (1 − p1 )p2 p3 = 0.468
P (B3 ) = p1 p2 p3 = 0.144
P (B4 ) = (1 − p1 )(1 − p2 )(1 − p3 ) = 0.056
Les probabilités conditionnelles de détruire la cible quand elle est touchée sont : t1 = P (A|B1 ) =
0.4 ; t2 = P (A|B2 ) = 0.7 ; t3 = P (A|B3 ) = 1 ; P (A|B) = 0
La probabilité de détruire la cible quand 3 coups sont tirés est :
n
X
P (A) = P (Bi ).P (A|Bi ) = 0.6044
i=1
4.4.5 Probabilités de causes ou théorème de Bayes
Considérons le système complet d’événements B1 , B2 , . . . , Bn et l’événement A qui ne peut se

réaliser que conjointement avec l’un des événements B1 , B2 , . . . , Bn que nous appelons des causes.
En vertu du théorème des probabilités totales,
n
X
P (A) = P (Bi ).P (A|Bi )
i=1
Si A se réalise, déterminons alors les probabilités conditionnelles.

En effet, P (A ∩ Bi ) = P (Bi ).P (A|Bi ) = P (A).P (Bi |A) = P (Bi ∩ A)
P (Bi )P (A|Bi )
Dès lors, P (Bi |A) =
P (A)
Donc,
P (Bi )P (A|Bi )
P (Bi |A) = Pn
i=1 P (Bi )P (A|Bi )
Le théorème de Bayes montre comment les probabilités des causes sont modifiées lorsque l’évé-
nement qu’elles occasionnent est réalisé.
Exemple 13. L’événement A dont les causes équiprobables B1 , B2 , B3 , B4 sont telles que P (A|B1 ) =
0.7 ; P (A|B2 ) = 0.1 ; P (A|B3 ) = 0.1 ; P (A|B4 ) = 0.02.
On donne
P (B1 ) = P (B2 ) = P (B3 ) = P (B4 ) = 0.25
n
Que deviennent les causes si l’événement A est réalisé ? P (A) =
X
P (Bi ).P (A|Bi ) = 0.23
i=1
P (B1 ).P (A|B1 ) P (B2 ).P (A|B2 )
P (B1 |A) = = 0.76 ; P (B2 |A) = = 0.11 ;
P (A) P (A)
P (B3 ).P (A|B3 ) P (B4 ).P (A|B4 )

P (B3 |A) = = 0.11 ; P (B4 |A) = = 0.002
P (A) P (A)
Exemple 14. Considérons le problème du diagnostic d’une douleur aiguë de l’abdomen. Il s’agit
d’un patient arrivant aux urgences pour un "mal au ventre".
Si l’on ne sait rien d’autre sur le patient (on n’a pas fait d’examen clinique ou complémentaire),
on ne connaît que les probabilités d’avoir tel ou tel diagnostic si on observe une douleur.
Soient, et les 3 diagnostics principaux (il y en a en fait au moins une douzaine) et exclusifs ;
par exemple D1 = appendicite, D2 = perforation d’ulcère, D3 = autres diagnostics.
Soit un signe A pour lequel on connaît P (A|D1 ), P (A|D2 ), et P (A|D3 ).
Par exemple, A serait "présence d’une fièvre ≥ 38, 5◦ C” ; P (A|D1 ) = 0, 90 ; P (A|D2 ) = 0, 30 ;
et P (A|D3 ) = 0, 10. Ces probabilités peuvent être estimées sur une population de patients en
dénombrant le nombre de sujets ayant le diagnostic et présentant le signe A. De même, on peut
connaître P (D1 ), P (D2 ) et P (D3 ) avec une population de 82 patients dont 15 présentent l’ap-
pendicite, 9 l’ulcère et le reste présente d’autres diagnostics.
Le problème diagnostique se pose comme celui de choisir par exemple le diagnostic le plus pro-
bable connaissant le signe A ; pour ce faire, on calcule P (D1 |A), P (D2 |A), P (D3 |A) et on retient
le diagnostic qui a la plus grande probabilité : c’est l’application de l’approche bayésienne au
problème de l’aide au diagnostic.
Chapitre 5
Variable aléatoire et distributions de

probabilités
5.1 Variable aléatoire
Considérons un ensemble fondamental Ω correspondant à une certaine expérience aléatoire ε.

Les éléments de Ω, résultats possibles de l’expérience aléatoire, ne sont généralement pas des
nombres. Il est cependant utile de faire correspondre un nombre à chaque élément de Ω, en vue
de faire ensuite des calculs.
Une variable aléatoire X, sur un ensemble fondamental Ω, est une application de Ω dans R,
X : Ω −→ R
telle qu’à tout résultat possible de l’expérience aléatoire (à tout élément de Ω), la variable
aléatoire X fait correspondre un nombre réel. Lorsque Ω est fini ou infini dénombrable, toute
application de Ω dans R est une variable aléatoire, puis que la définition rigoureuse d’une variable
aléatoire X impose que tout intervalle de R soit l’image d’une partie de Ω par l’application X.
Or toute partie de Ω est un événement aléatoire.
On parle de variable aléatoire discrète lorsque la variable est une application de Ω dans un sous
ensemble discret de R, le plus souvent N ou une partie de N . On parle sinon de variable aléatoire
continue.
En d’autres termes, la variable aléatoire X est discrète, si X(Ω) ⊆ N ;la variable aléatoire X
est continue, si X(Ω) ⊆ R ou si X(Ω) est un intervalle de R.X(Ω) est l’ensemble-image de la
variable aléatoire X ou l’ensemble de valeurs possibles que prend la variable aléatoire X. Pour
un nombre entier a donné, l’événement constitué de tous les résultats ξi d’expérience aléatoire
50
Variable aléatoire et distributions de probabilités, Prof. Dr. Ndondo M. Apollinaire 51
ε tels que X(ξi )= a est noté [X(ξi ) = a], ou, en abrégé,X = a

Pour deux nombres réels a et b (a ≤ b), l’événement constitué de tous les résultats ξi d’expérience
aléatoire tels que a ≤ X(ξi ) ≤ b est noté [a ≤ X(ξi ) ≤ b] ou, en abrégé, a ≤ X ≤ b
5.2 Distribution de probabilités d’une variable aléatoire
5.2.1 Cas 1 : X est une variable aléatoire discrète (v.a.d).
Considérons le cas d’une variable aléatoire discrète, c-à-d,X(Ω) ⊆ N

Soit X une variable aléatoire sur un ensemble fondamental Ω à valeurs finies : X(Ω) = x1 , x2 , ..., xn .X(Ω)
devient un ensemble probabilisé si l’on définit la probabilité P (X = xi ) pour chaque xi , que l’on
note π.
L’ensemble des valeurs π = P (X = xi ) est appelé distribution ou loi de probabilité de la variable
aléatoire X. Puisque les π sont des probabilités sur les événements X = x1 , X = x2 , ..., X = xn ,
on a :
n
X
(∀), π ≥ 0 et π=1
i=1
La distribution de probabilités de la v.a.d est représentée La fonction de répartition est une fonc-
tion en escalier. Les discontinuités se produisent pour les valeurs xi possédant des probabilités
non nulles. Pour chacune de ces valeurs de xi , la hauteur d’une discontinuité est la probabilité
de l’événement aléatoire X = xi .Dans tous les cas, F (x) est une fonction monotone croissante,
c’est-à-dire
F(b) ≥ F(a)sib ≥ 0
De plus
lim F(x) = 0 et lim F(x) = 1
x−→−∞ x−→−∞
5.2.2 Cas 2 : X est une variable aléatoire continue (v.a.c)
La généralisation au continu est délicate et même difficile si on ne dispose pas d’outils mathé-
matiques hors du champ de ce cours. Nous nous contenterons de procéder par analogie avec le
cas discret. Une variable aléatoire X dont l’ensemble-image X(ω) est un intervalle de R est une
variable aléatoire continue (continue par opposition à discrète).
Rappelons que, par définition d’une variable aléatoire,a ≤ X ≤ b est un événement aléatoire de
Ω dont la probabilité est bien définie.
On définit la loi de probabilité de X, ou distribution de probabilité de X, à l’aide d’une fonction
f (x), appelée densité de probabilité de X, telle que
Z b
f (x)dx = P (a ≤ X ≤ b)
a
En utilisant cette analogie, on admettra les définitions suivantes pour une variable aléatoire X,
continue, de densité de probabilité f (x) :
1° f (x) ≥ (analoguepi ≥ 0)
R +∞ P
2° −∞ f (x) = 1 (analogue à i pi = 1)
Rx P
3° F (x) = P (X 6 x) = −∞ f (τ )dτ (analogue à xi ≤x pi )
Rb
4° P (a ≤ X ≤ b) = a f (x)dx = F (b) − F (a) Les propriétés de la fonction de répartition F sont
telle que : F fonction monotone croissante, partant de 0 pour x −→ −∞ et atteignant 1 pour
.
Remarque 3. Si f est donnée, la probabilité P (a ≤ X ≤ b)est l’aire sous la courbe entre les
verticales passant respectivement par a et b
Remarque 4. Le passage du discret au continu transforme les sommes en intégrales et pi

P R
en f(x)dx.
5.3 Paramètres caractéristiques d’une distribution de probabi-

lité.
5.3.1 Moyenne théorique ou Espérance mathématique d’une variable aléa-

toire X.
5.3.1.1 Cas 1. X est une variable aléatoire discrète.

Pn
µ = E(X) = i=1
5.3.1.2 Cas 2. X est une variable aléatoire continue.
Z
µ = E(X) = abxf (x)dx
5.3.2 Variance et écart-type d’une variable aléatoire.
5.3.2.1 Cas 1. X est une variable aléatoire discrète.
n n
!2
X X
variance : σ 2 = V ar(X) = E(X 2 ) − µ2 = x2i pi − xi pi
i=1 i=1
√
Ecart − type : σ = σ2
5.3.2.2 Cas 2. X est une variable aléatoire continue.
Z b Z b !2
2 2 2 2
variance : σ = V ar(X) = E(X ) − µ = x f (x)dx − xf (x)dx
a a
√
Ecart − type : σ = σ2
5.4 Variables aléatoires indépendantes
Nous ne traitons que le cas de deux variables aléatoires discrètes. Soient X et Y deux variables
aléatoires discrètes sur un même espace fondamental Ω. Etant donnée la loi conjointe d’un couple
aléatoire réel discret (X, Y ), la loi marginale de Xest la loi de probabilité de X. Elle se calcule en
faisant la somme, pour toutes les valeurs possibles de yj , des probabilités P ([X = xi ]∩[Y = yj ]) :
X
P (X = xi ) = P ([X = xi ] ∩ [Y = yj ])
yj
De même, la loi marginale de Y est la loi de probabilité de Y . Elle se calcule en faisant la somme,
pour toutes les valeurs possibles de xi , des probabilités P ([X = xi ] ∩ [Y = yj ]) :
X
P (Y = yj ) = P ([X = xi ] ∩ [Y = yj ])
xi
Les lois marginales se représentent, habituellement, par les sommes des lignes et des colonnes
du tableau de la loi conjointe :
Table 5.1
X/Y yi ··· yi ··· Total loi marginale de X
Xi P ([X = xi ] ∩ [Y = yj ]) ··· P ([X = xi ] ∩ [Y = yj ]) ··· P (Y = yi )
··· ··· ··· yi ··· ···
xi P ([X = xi ] ∩ [Y = yj ]) ··· P ([X = xi ] ∩ [Y = yj ]) ··· P (Y = yi )
··· ··· ··· ··· ··· ···
Total loi marginale de Y P (Y = yi ) ··· P (Y = yi ) ··· 1
Les variables aléatoires réelles discrètes X et Y sont dites indépendantes si, et seulement si, la
loi conjointe est le produit des lois marginales, c-à-d, tous les événements X = xi et Y = yj sont
indépendants : P ([X = xi ] ∩ [Y = yj ])=P ([X = xi ] × P [Y = yj ])∀ les couples(i, j)
Il en découle les propriétés importantes suivantes : si Xet Y sont indépendantes, on a (attention
la réciproque n’est pas toujours vraie) :
1. E(XY ) = E(X) × E(Y )
2. var(X + Y ) = var(X) + var(Y )
3. cov(X, Y ) = 0
Chapitre 6
Quelques distributions de
probabilités usuelles
Remarque 5. De nombreuses situations pratiques peuvent être modélisées à l’aide de variables

aléatoires qui sont régies par des lois spécifiques. Il importe donc d’étudier ces modèles proba-
bilistes qui nous permettrons par la suite d’analyser les fluctuations de certains phénomènes en
évaluant, par exemple, les probabilités que tel événement ou tel résultat soit observé.
6.1 Distributions de probabilité discrètes.
6.1.1 Distribution de Bernoulli
6.1.1.1 Variable de Bernoulli ou variable indicatrice
Une variable aléatoire discrète X qui ne prend que les valeurs 1 et 0 avec les probabilités
respectives p et q = 1 − p est appelée variable de BERNOULLI ou variable indicatrice. Plus
généralement, on utilisera une variable de Bernoulli lorsqu’on effectue une épreuve qui n’a que
deux éventualités : le succès et l’échec (ou la présence et absence d’une certaine caractéristique
sur les individus d’une population). Une telle expérience est alors appelée épreuve de Bernoulli.
On affecte alors 1 à la variable en cas de succès et 0 en cas d’échec :
P (X = 1) = p et P (X = 0) = 1 − p = q avec X(Ω) = {0, 1} on note : X ' B(1, p)
6.1.1.2 Paramètres caractéristiques
a. Moyenne ou Espérance mathématique :
2
X
µ = E(X) = xi pi = (0 × q) + (1 × p) = p
i=1
55
Quelques distributions de probabilités usuelles, Prof. Dr. Ndondo M. Apollinaire 56
b. σ = E(X 2 ) − µ2 = [(02 × q) + (12 × q)] − p2 = p − p2 = p(1 − p) = qp
Exemple 15. Une urne contient cinq boules : une rouge et quatre vertes. On tire une boule
de l’urne. La variable aléatoire X =nombre de boules rouges tirées est une variable de Ber-
1 4
noulli.On a :P (X = 1) = = p et P (X = 0) = = q
5 5
6.1.2 Distribution binomiale.
6.1.2.1 Situation concrète
a) On effectue une épreuve de Bernoulli. Elle n’a donc que deux issues : le succès avec une
probabilité p ou l’échec avec une probabilité q. b) On répète n fois cette épreuve c) Les n
épreuves sont identiques et indépendantes entre elles, ce qui signifie que la probabilité de
réalisation de l’événement "succès" est la même à chaque épreuve et est toujours égale à p.
Dans cette situation, on s’intéresse à la variable X ="nombre de succès au cours de ces n
épreuves".
Définition 6.1.1. Une variable aléatoire X suit une loi binomiale B(n, p) si elle prend les
(n + 1) valeurs 0, 1, 2, ..., n avec les probabilités :
P (X = k) = Cnk pk q nk où k ∈ 0, 1, 2, ..., n
Une variable Binomiale B(n, p) peut être interprétée comme la somme de n variables de
Bernoulli indépendantes et de même paramètre p. On note : X ' B(n, p). La loi binomiale
dépend de deux paramètres n et p L’adjectif binomial vient du fait que lorsqu’on somme toutes
ces probabilités, on retrouve le développement du binôme de Newton :
n n
= Cnk pk q nk où k ∈ 0, 1, 2, ..., n
X X
P (X = k) =
k=0 k=0
On note P (X = k) ou Pk la probabilité d’obtenir k succès au cours de n essais(ou épreuves

ou répétitions). C’est la loi qu’on rencontre lors d’un échantillonnage avec remise (quand on
tire des boules dans une urne, et qu’on remet la boule dans l’urne avant de tirer la suivante).
On la rencontre par exemple en écologie, quand on cherche à dénombrer les individus d’une es-
pèce. On capture des animaux, régulièrement, et on les marque (par exemple avec des bagues).
Au bout d’un moment, une partie de la population est baguée (on connait son effectif, car on
a numéroté les bagues), l’autre partie de la population n’est pas baguée. Lors de nouvelles
captures, on a un certain nombre d’animaux marqués et un certain nombre d’animaux non
marqués : ces nombres vont aider à déterminer la taille de la population.
Exemple 16. Dans une population donnée, 30% d’individus sont vaccinés contre une maladie
donnée. Quelle est la probabilité pour qu’il y ait, dans un échantillon aléatoire de 10 personnes
tirées de cette population, exactement 4 personnes vaccinées ? On a : p = 0, 30 ; q = 0, 70; n =
10; k = 4. Dès lors P4 = C10
4 (0, 304 )(0, 70)10−4 = 0, 20
6.1.2.2 Paramètres caractéristiques.
a. Moyenne : µ = np
b. Variance :σ 2 = npq
√
c. Ecart-type :σ = npq
6.1.2.3 Convergence ou approximation
On retiendra qu’il y a deux types d’approximation, l’une par une loi discrète (ce sera souvent
le cas pour des événements — rares avec p très petit, tendant vers zéro), l’autre par une loi
continue. Les conditions de validité des approximations dépendent de la précision exigée.
En pratique :
1. Dès que n > 20 et np < 5 , alors la loi B(n, p) est proche de la loi de Poisson P (np).
2. Dès que np(1 − p) > 9, la loi B(n, p) est proche de la loi normale N (np, np(1 − p))
6.1.3 Distribution de Poisson.
Beaucoup de situations sont liées à l’étude de la réalisation d’un événement dans un intervalle
de temps donné (arrivée de clients qui se présentent à un guichet d’une banque en une heure,
apparitions de pannes dans un réseau informatique en une année, arrivée de malades aux
urgences d’un hôpital en une nuit,....). Les phénomènes ainsi étudiés sont des phénomènes
d’attente.
Pour décrire les réalisations dans le temps d’un événement donné, on peut :
• soit chercher le nombre de réalisations de l’événement dans un intervalle de temps donné
qui est distribué suivant une loi de Poisson.
• soit chercher le temps entre deux réalisations successives de l’événement qui est distribué
suivant une loi exponentielle. La loi de Poisson peut être interprétée comme un cas limite
d’une loi binomiale et la seconde comme un cas limite d’une loi géométrique.
Définition 6.1.2. On appelle processus de Poisson, le modèle probabiliste obéissant aux

conditions suivantes :
(1) la probabilité pour que l’événement se réalise une fois, au cours d’un petit intervalle de
temps ∆t , est proportionnelle à la taille de l’intervalle et vaut α∆t , où α est une valeur
positive que l’on suppose constante tout au long de la période d’observation ;α représente le
nombre moyen de réalisations par unité de temps et on l’appelle l’intensité du processus ;
(2) la probabilité que l’évènement se produise dans un intervalle est indépendante de la pro-
babilité d’apparition dans n’importe quel intervalle disjoint ; c’est-à-dire que le nombre de
réalisations au cours d’un intervalle de temps est indépendant du nombre de réalisations au
cours d’intervalles de temps antérieurs ;
(3) il n’y a pas d’évènements simultanés, c’est-à-dire que la probabilité pour que l’événement
se réalise plus d’une fois au cours de l’intervalle de temps ∆t est négligeable. Sous les hy-
pothèses du processus de Poisson, la variable aléatoire X = "nombre de fois où l’événement
considéré se réalise au cours d’un intervalle de temps de durée t est distribuée suivant une
loi de Poisson de paramètre λ = αt Nous cherchons alors à déterminer la loi de probabilité
de la variable X, sachant que le nombre moyen de réalisations de cet événement par unité
de temps est α. Une variable aléatoire X suit une loi de Poisson, si elle prend des valeurs
λk − e−λ
entières k avec les probabilités : P (X = k) = Pk = où k ∈ 0, 1, 2, ..., nect.. = 2, 718
k!
on note :X ' P (λ)
6.1.3.2 Domaines d’application de la loi de Poisson :
La loi de Poisson peut s’appliquer au nombre des pannes d’une machine dans une entreprise,
au nombre d’accidents, au nombre de fautes dans un texte, à l’apparition de pannes dans un
réseau informatique, à l’apparition d’anomalies diverses, à l’arrivée de malades aux urgences
d’un hôpital en une nuit, à l’arrivée de clients qui se présentent à un guichet d’une banque
en une heure, à la gestion des files d’attentes, au nombre de colonies bactériennes dans une
boîte de Pétri, etc.
Exemple 17.
1. Soit X la variable aléatoire du nombre de personnes réservant un billet d’avion pour Berlin
le 6 février à 9H30. X X suit en théorie une loi binomiale dont l’effectif est très grand (tous
les clients potentiels, des millions), et le paramètre p est infinitésimal (la probabilité pour
qu’un individu lambda ait envie de se rendre à Berlin le 6 février par le vol de 9H30). On
approxime en général la loi de X par la loi de Poisson de paramètre np.
2. Dans une grande usine, le nombre moyen d’accidents sérieux est de 5 par an. Si le nombre
d’employés reste constant, quelle est la probabilité pour que dans l’année en cours il y ait
exactement 7 accidents ?
On a :a = 5 et t = 1ans ;λ = α· = 5 × 1 = 5 Par application de la formule :
57 × (2, 718)−5
P (X = 7) = P7 = = 0, 104
7!

√
a.Moyenne : E(X) = λ b.Variance : V ar(X) = λ c.Ecart-type :δ(X) = λ
6.1.3.4 Convergence ou approximation
A mesure que λ augmente, la forme de la distribution tend à devenir symétrique et s’approche

de celle de la loi normale. Cela est vérifié pour λ ≥ 10 et même acceptable pour λ ≥ 5. La loi
binomiale dépend de deux paramètres n et p. La loi de Poisson ne dépend que d’un paramètre
λ, ce qui la rend donc plus pratique. Il faut donc avoir toujours présent à l’esprit que, lorsque
les conditions le permettent, on peut avoir intérêt à remplacer une loi binomiale par une loi
de Poisson.
Lorsque n est grand et p petit, de telle façon que le produit np = λ reste petit par rapport
à n, la loi binomiale B(n, p) peut être approchée par la loi de Poisson P (λ = np). Cette
approximation s’appliquant lorsque p est petit, la loi de Poisson est appelée la loi des événe-
ments rares.
En pratique, l’approximation de la loi binomiale par la loi de Poisson est valable si : n > 30,
p ≤ 0, 1 et np 6 5. On approche la loi de Poisson P (λ) par la loi normale N (λ, λ) dès que
λ ≥ 10.
6.1.4 Distribution géométrique
a) On effectue une épreuve de Bernoulli. Elle n’a donc que deux éventualités : le succès avec une
probabilité p ou l’échec avec une probabilité q = 1 − p.
b) On répète l’épreuve jusqu’à l’apparition du premier succès.
c) Toutes les épreuves sont indépendantes entre elles, ce qui signifie que la probabilité de réali-
sation de l’événement "succès" est la même à chaque épreuve et est toujours égale à p.
Dans cette situation, on s’intéresse à la variable X = "nombre de fois qu’il faut répéter l’épreuve
pour obtenir le premier succès". On est donc dans les mêmes hypothèses que pour la loi bino-
miale, mais le nombre d’épreuves n’est pas fixé à l’avance. On s’arrête au premier succès. On
cherche la probabilité d’avoir recours à k épreuves pour obtenir le premier succès :
Ce succès a une probabilité de réalisation de p. Puisque c’est le premier, il a été précédé de
(k − 1) échecs qui ont chacun eu la probabilité q de se produire. Étant donné l’indépendance des
épreuves, on peut dire que la probabilité de réalisation de (k − 1) échecs suivis d’un succès est
le produit des probabilités de réalisation de chacun des résultats.
Définition 6.1.3. Une variable aléatoire X suit une loi géométrique de paramètre p, si elle
prend des valeurs entières k avec les probabilités :
P (X = k) = Pk = q k−1 p où k ∈ {1, 2, ...} :
on note :X ' G( p)
L’appellation géométrique vient du fait qu’en sommant toutes les probabilités, on obtient une
série géométrique :
X X p
p(1 − p)n−1 = p (1 − p)n−1 = =1
n∈N ∗ n∈N ∗
1 − (1 − p)
Exemple 18. Quelle est la probabilité qu’au 3è choix, l’individu désigné soit malade dans une
population où la fréquence de la maladie est de 17% ? P (X = 3) = P3 = q 3−1 × p = (1 −
0, 17)3−1 × 0, 17 = 0, 832 × 0, 17 = 0, 117

1
a. Moyenne : E(X) =
p
1−p
b. Variance : V ar(X) = σ 2 (X) =
p2
√
1−p
c. Ecart-type :σ(X) =
p
6.1.4.3 Propriété remarquable
La propriété la plus importante de la loi géométrique est sans doute d’être sans mémoire.
En effet, la loi de probabilité du nombre d’épreuves à répéter jusqu’à l’obtention d’un premier
succès dans une suite d’épreuves de Bernoulli identiques indépendantes est la même quel que
soit le nombre d’échecs accumulés auparavant. On comprend intuitivement que cela découle de
l’indépendance des épreuves qui sont toutes identiques. C’est la seule loi discrète qui possède
cette propriété.
6.1.5 Distribution hypergéométrique
Définition 6.1.4. La distribution hypergéométrique est une distribution de probabilité discrète

donnant la probabilité de k succès dans une séquence de n essais (sans remise) pour une popu-
lation finie de taille N qui contient N1 succès. Une variable aléatoire X suit une loi hypergéo-
métrique de paramètres N, N1 et n, si elle prend des valeurs entières k avec les probabilités :
C k C n−k
P (X = k) = Pk = N1 nN −N1 où max(0, n − N2 ) ≤ k ≤ min(N1 , n)etN2 = N − N1
CN
on note :X ' H(N, N1 , n)

N1
a. Moyenne : E(X) = µ = n
N
N1 (N − N1 ) n−1
b. Variance : V ar(X) = σ 2 (X) = n (1 − )
N2 N −1
n−1
r
nN1 (N − N1 )(1 − )
c. Ecart-type :σ(X) = σ = N − 1
N
6.1.5.2 Convergence de la distribution hypergéométrique vers une distribution bi-

nomiale
Il existe manifestement un lien entre distribution binomiale et distribution hypergéométrique :

la distribution hypergéométrique peut s’interpréter comme une variante de la distribution bino-
miale avec tirage sans remise depuis une population finie.
N1
La distribution hypergéométrique H(N, N 1, n) tend vers la distribution binomiale B(n, p = )
N
N1
lorsque n ≡ cte et N −→ +∞tq −→ p
N
En pratique, l’approximation de la loi hypergéométrique par la loi binomiale est valable si
n
< 10%, N1 > n et N2 = (N − N1 ) > n.
N
Exemple 19. (1) Loi HYPER-GEOMETRIQUE (3; 3; 6) pour k = 2 renvoie pk = 0, 45
. (2) Si une urne contient 3 balles rouges et 3 balles vertes, la probabilité que 2 balles rouges
27
soient sélectionnées après 3 essais sans remplacement est = 0, 45
60
6.1.5.3 Importance pratique de la loi hypergéométrique
Contrôle statistique de la qualité :

Le contrôle de la qualité est ’dynamique’ : il ne s’intéresse pas au résultat isolé et instantané,
mais au suivi dans le temps ; il ne suffit pas qu’une pièce soit dans les limites des spécifications,
il faut aussi surveiller la répartition chronologique des pièces à l’intérieur des intervalles de to-
lérances. Le contrôle à la réception a pour but de vérifier si un lot fourni par un producteur est
de qualité satisfaisante ou si, au contraire, cette qualité est insuffisante.
Concrètement, lorsque l’acheteur reçoit un lot, il prélève au hasard un échantillon d’articles
et, en fonction des résultats de l’examen de ces articles, l’acheteur accepte ou rejette le lot.
Lors du contrôle qualitatif, on détermine, selon le cas, le nombre k d’articles non conformes
dans l’échantillon par rapport à des spécifications préalablement définies, ou bien le nombre de
non-conformités présentes sur les articles de l’échantillon. Le lot est accepté si ce nombre k est
inférieur ou égal à une valeur σ préalablement fixée.
La taille n de l’échantillon et le nombre maximum σ d’articles non conformes ou de non conformi-
tés sont définis avant le contrôle, en fonction du risque du producteur et du risque de l’acheteur.
Le risque du producteur correspond à la probabilité de rejeter le lot, alors que la qualité de
ce lot est satisfaisante. Le risque de l’acheteur est la probabilité d’accepter le lot, alors que la
qualité du lot n’est pas satisfaisante. Ces notions de risque sont directement liées à la courbe
d’efficacité du plan d’échantillonnage qui donne la probabilité d’accepter le lot, en fonction de
la qualité réelle du lot. Selon la situation envisagée, l’établissement de la courbe repose sur l’uti-
lisation d’une des trois lois de probabilité suivantes : la distribution binomiale, la distribution
hypergéométrique ou la distribution de POISSON.
On prélève un échantillon d’effectif n dans un lot de taille N et on détermine le nombre d’ar-
ticles non conformes k présents dans l’échantillon. Le lot est accepté si k > σ, σ ; il est rejeté si
, étant fixé. La courbe d’efficacité donne, pour différentes valeurs du nombre N1 d’articles non
conformes dans le lot, la probabilité :P (X 6' N 1). On considère alors que la variable aléatoire
X suit une distribution hypergéométrique dont les paramètres sont N , N1 et n.
6.2 Distributions de probabilité continues
6.2.1 Distribution exponentielle
On se place dans les hypothèses du processus de Poisson et on s’intéresse à la variable aléatoire

qui représente le temps entre deux réalisations successives d’un événement ou le temps d’attente
pour la réalisation d’un événement ou le temps d’attente entre la réalisation de deux événements
successifs.
Si on se place dans le cas où l’intensité α du processus de Poisson est constante, ce temps
d’attente suit une loi exponentielle de paramètre α Lorsque l’événement attendu est la mort
d’un individu (ou la panne d’un équipement), α(étant contant) s’appelle le taux de mortalité
(ou le taux de panne) dans la mesure où il n’y a pas de vieillissement de la population (ou
pas d’usure s’il s’agit d’un équipement), la mort ou la panne intervenant de façon purement
accidentelle.
On veut déterminer la loi de la variable T = temps d’attente entre la réalisation de deux
événements successifs où le nombre moyen de réalisations de l’événement par unité de temps est
α.
Définition 6.2.1. Une variable aléatoire continue T suit une loi exponentielle de paramètre α,si
elle prend les valeurs positives réelles t telles que :
R +∞
P (T > t) = F (t) = αe−αt = t αe−αu du où t > 0 et e = 2, 718 la fonction de densité de la
variable aléatoire continue T est
f (x) = αe−αt si t > 0
On note :X ' Exp(α)

1
a. Moyenne : E(X) = µ = n
α
1
b. Variance : V ar(X) = σ 2 (X) =
α2
1
c. Ecart-type :S( X) = σ =
α
6.2.2 Distribution normale (ou Laplace – Gauss)
On rencontre souvent des phénomènes complexes qui sont le résultat de causes nombreuses, plus
ou moins indépendantes, dont les effets s’additionnent et dont aucune n’est prépondérante. Une
situation où la distribution dépend de telles causes est modélisée par une distribution normale.
C’est le cas, par exemple en biologie, pour la distribution de caractères biométriques comme la
taille ou le poids d’individus appartenant à une population homogène.
Définition 6.2.2. On parle de loi normale lorsque l’on a affaire à une variable aléatoire conti-
nue dépendant d’un grand nombre de causes indépendantes dont les effets s’additionnent et dont
aucune n’est prépondérante (conditions de Borel). Cette loi acquiert sa forme définitive avec
Gauss_ (en 1809) et Laplace (en 1812). C’est pourquoi elle porte également les noms de : loi
de Laplace, loi de Gauss et loi de Laplace-Gauss. Une variable aléatoire continue X suit une loi
normale de paramètres, si elle prend les valeurs réelles x suivant la densité de probabilité donnée
par :
1 x − µ2

1 σ
f (x) = √ e2 où x ∈ R
2πσ
Les probabilités sont données par :
Rx
P (X < x) = F (x) = −∞ f (v)dv avec − ∞ ≤ x ≤ +∞
On note : X ' N (µ, Xσ) où µ est la moyenne etσ l’écart-type.
a. Moyenne : E(X) = µ
b. Variance : V ar(X) = σ 2
c. Ecart-type :S( X) = σ
Remarque 6. Si µ = 0etσ = 1, on obtient la distribution normale centrée-réduite notée par

Z = N (0, 1). C’est le cas le plus utilisé (en pratique).
Si X est une variable distribuée selon une loi normale d’espérance µ et d’écart-type σ alors
X −µ
Z= est une variable distribuée selon une loi normale centrée réduite.
σ
Les probabilités obtenues pour la loi centrée réduite permettent de calculer les probabilités pour
une loi normale quelconque.
Soit par exemple à calculer P (a ≤ X ≤ b). Par la transformation, on a :
P (a ≤ X ≤ b) = P (c ≤ Z ≤ d)
a−µ b−µ
avec c = et d =
σ σ
La probabilité cherchée, sur la variable X, revient donc à lire sur la table de la loi normale
centrée réduite (variable Z), la probabilité de se trouver entre c et d.
Exemple 20. Le poids moyen d’un échantillon de 50 étudiants vaut 78kg avec un écart-type
de 10kg. Déterminer le poids centré-réduit d’un étudiant pesant 93kg.µ = 78kg, σ = 10kg et
X = 93kg. Par transformation
93 − 78
Z= = 15Kg
10
6.2.2.3 Comment utiliser la table de la loi centrée réduite ?
La fonction de répartition d’une variable normale de paramètres (µ, σ) peut toujours s’exprimer
à l’aide de la fonction de répartition F de la variable normale centrée réduite avec µ = 0 et σ = 1 :
u−µ
P (Z < u) = F ( ) = F (u)
σ
Pour tout intervalle de bornes (a,b), éventuellement infinies,on a :
b−µ a−µ
P (a < Z < b) = F ( ) − F( ) = F (b) − F (b)
σ σ
Les valeurs F(u) de la fonction de répartition F de la variable normale centrée réduite se lisent
dans la table pour u ≥ 0.
La première colonne de la table indique les unités et les dixièmes des valeurs de Z, alors que
les centièmes des valeurs de Z se lisent sur la ligne supérieure de la table. La valeur trouvée à
l’intersection de la ligne et de la colonne adéquates donne l’aire cherchée.
a) Je cherche la valeur de P (0 ≤ Z ≤ 0, 5 à l’intersection de la ligne 0.5 et de la colonne

0.00 je lis 0, 1915 b) Je cherche la valeur de P (−0, 5 ≤ Z ≤ 0) j’utilise la symétrie de la
courbe par rapport à l’axe des ordonnées et P (−0, 5 ≤ Z ≤ 0)=P (0 ≤ Z ≤ 0, 5)=0, 1915 c)
Je cherche la valeur de P (−0, 5 ≤ Z ≤ 0) l’aire cherchée correspond à la somme suivante :
P (−2, 24 ≤ Z ≤ 01, 12 = P (−2, 24 ≤ Z ≤ 0) + P (0 ≤ Z ≤ 1, 12) = 0, 4875 + 0, 3686 d) Je
cherche la valeur de P (1, 0 ≤ Z ≤ 2, 0 L’aire cherchée correspond à la différence suivante :
P (1, 0 ≤ Z ≤ 2, 0) = P (0 ≤ Z ≤ 2, 0) − P (0 ≤ Z ≤ 1, 0) = 0, 4772 − 0, 3413 = 0, 1359 e) Je
cherche la valeur z de Z telle que P (0 ≤ Z ≤ z) = 0, 4750 C’est le problème inverse de celui des
exemples précédents. Il s’agit de localiser dans la table l’aire donnée et de déterminer la valeur
de Z correspondante. Je trouve : z = 1, 96.
Nota. Si la valeur de l’aire ne peut se lire directement dans les valeurs de la table, on pourra
toujours effectuer une interpolation linéaire entre deux valeurs adjacentes ou prendre la valeur
la plus proche.
La formule de l’interpolation linéaire :
Si la valeur z est coincée entre les valeurs z2 et z1 dont les aires correspondantes sont p2 et p1,
pour trouver l’aire p correspondant à z, on applique la formule ci-après :
z − z1 p − p1 z − z1
= =⇒ p = p1 + (p2 − p1 )
z2 − z 1 p2 − p1 z2 − z1
6.2.3 Distribution de Chi-carré (x2 )
Définition 6.2.3. Soient X1 , . . . , Xn des variables aléatoires indépendantes, chacune étant dis-
tribuée selon une loi normale centrée réduite.
La distribution de S = X12 + ... + Xn2 (somme des carrés des Xi) est appelée distribution de
X 2 à n degrés de liberté (en abrégé ddl). On note : X '2 (n) où n est le nombre de ddl, seul
paramètre de la loi.
a. Moyenne : E(X) = n
b. Variance : V ar(X) = 2n
√
c. Ecart-type :S( X) = 2n
Remarque 7. (1) De même que pour la loi normale centrée réduite, une table existe pour la
loi du X 2 Cette table indique pour une probabilité α donnée, et un degré de liberté n donné, la
valeur telle que P (X > kα,n ) = α . (2) La distribution du X 2 est dissymétrique et tend à devenir
symétrique lorsque n augmente en se rapprochant de la distribution normale à laquelle elle peut
être assimilée lorsque n > 30.
On a représenté ci-dessus la loi du χ2 pour diverses valeurs de n, depuis n = 1 (loi en jaune),

jusqu’à n = 30 (rouge), en passant par n = 2 (vert), n = 4 (bleu) et n = 10 (magenta).
6.2.4 Distribution de Student (ou de Gosset)
Définition 6.2.4. On considère une première variable aléatoire X, distribuée selon une loi
normale centrée réduite, puis une seconde variable Y , indépendante de X, distribuée selon une
√ X
loi X 2 à n degrés de liberté. Alors la variable aléatoire T = n √ est distribuée selon une loi
Y
de Student à n degré de liberté. On note : t( n).
a.Moyenne :E(X) = 0
n
b.Variance :V (X) =
rn − 2
n
c.Ecart-type :Sx =
n−2
Remarque 8. 1) Les valeurs tabulées de la variable T dépendent d’un seuil α que l’on peut
choisir et du nombre de degré de liberté n. La table donne la valeur tα,n définie par P (|T | >
tα,n) = α . 2) La courbe correspondante est symétrique autour de 0, et son allure est proche de
celle de la loi normale. 3) Lorsque n croît, en pratique pour n > 30, la variance peut être prise
égale à 1, et la distribution est assimilée à celle d’une loi normale centrée réduite.
On a représenté ci-dessus la loi de Student pour diverses valeurs de n, depuis n = 1 (loi de

Cauchy en rouge), jusqu’à l’infini (loi normale en vert), en passant par n = 2 (jaune) et n = 4
(bleu).
(4) La loi de Student (ou loi de Student-Fisher) est utilisée lors des tests de comparaison de
paramètres comme la moyenne et dans l’estimation de paramètres de la population à partir de
données sur un échantillon (Test de Student). Student est le pseudonyme du statisticien anglais
William Gosset qui travaillait comme conseiller à la brasserie Guinness et qui publia en 1908
sous ce nom, une étude portant sur cette variable aléatoire.
6.2.5 Distribution de Fisher (F)
Définition 6.2.5. Considérons deux échantillons de tailles respectives n1 et n2 et de variances

respectives S12 et S22 , tirés de deux populations normales de variances σ12 et σ22 . Définissons la
statistique :
n1 S12
(n1 − 1)σ12
F =
n2 S22
(n2 − 1)σ22
Alors la distribution d’échantillonnage de F est appelée la distribution F de Fisher, ou briève-

ment la distribution F , avec v1 = n1 − 1 et v2 = n2 − 1 degrés de liberté.
Autre définition :
SiX12 et X22 sont deux variables aléatoires indépendantes selon une loi de khi-carré de ddl res-
pectifs n1 et n2 , alors la variable aléatoire définie par
X12
n
F = 12
X2
n2
Suit la loi de Fischer-Snedecor à n1 et n2 ddl
Remarque 9. (1) Les valeurs tabulées de la variable F dépendent d’un seuil que l’on peut
choisir et des nombres de degré de liberté n1 et n2 . La table donne la valeur Fα (n1 , n2 ) définie
par P (F > α(n1 , n2 )) = α
Il faut faire attention à l’ordre de n1 et n2 : n1 représente le nombre de degrés de liberté du
numérateur et n2 celui du dénominateur et ne peuvent être intervertis.
(2) La loi de Fisher-Snedecor est utilisée pour comparer deux variances observées et sert surtout
dans les très nombreux tests d’analyse de variance et de covariance.
On a représenté ci-dessus cette loi F de Fisher-Snedecor pour diverses valeurs de

(n1 , n2 ) : n2 = 20; n1 = 2 (vert), 4(jaune), 8(bleu), 16(rouge).
EXERCICES SUR LA DEUXIEME PARTIE
Exercice 18.
1. Une famille de deux enfants a au moins une fille. Quelle est la probabilité pour que cette
famille ait deux filles ?
2. Une famille de deux enfants a au moins une fille qui s’appelle Sophie. Quelle est la pro-
babilité pour que cette famille ait deux filles ?
Exercice 19. En première année de médecine, parmi les 1000 inscrits, on compte 400 filles. Il
y a 300 reçus dont 200 filles. Quelle est la probabilité d’être reçu sachant que l’on est une fille ?
Exercice 20. Au sein d’une population de 1 000 individus, on en a dénombré 120 atteints d’une
maladie M, les 880 autres étant indemnes de cette maladie.
a) Quelle est la probabilité pour qu’un individu tiré au hasard au sein de cette population soit
atteint de la maladie M ?
b) On observe un petit échantillon de 5 sujets tirés au hasard (avec remise) au sein de cette
population. Quelle est la probabilité que les 5 sujets soient indemnes de la maladie M ?
Exercice 21. La probabilité de naissance d’un garçon est de 0,51.Un couple a décidé de fonder
une famille de 4 enfants. Il désirait avoir trois filles et un garçon. En supposant l’absence de
possibilité de grossesse multiple, quelles sont les probabilités que le couple réalise son vœu :
a) Dans le cas où le garçon est le dernier de la fratrie.
b) Dans le cas où le garçon occupe un rang quelconque de la fratrie.
Exercice 22. Dans une maternité on constate que sur l’ensemble des accouchements, 20 %
présentent des complications et 10 % ont lieu avant le terme normal (40 semaines).
a) Si le terme est indépendant de l’existence de complications, quelle est la probabilité pour

qu’une femme ait un accouchement normal à terme ?
b) En fait, il y a 40% de complications quand l’accouchement a lieu avant terme. Dans ces
conditions, quelle est la probabilité :
i) D’un accouchement avant terme et avec complications ?
ii) D’un accouchement normal à terme.
Exercice 23. On suppose que la femme en période d’activité génitale est fécondable entre le 11e
jour du cycle et le 16e jour du cycle. Soit Pt la probabilité de fécondation au jour t quand il y a
eu un rapport et Xt la variable dichotomique prenant la valeur 1 s’il y a un rapport le jour t et
0 sinon.
a) Calculer la probabilité P(c) de fécondité pour un cycle en supposant que la fécondité est
indépendante d’un jour à l’autre pour une femme donnée.
b) Soit Vt la probabilité qu’un embryon conçu à l’instant t se développe. Calculer la probabilité

d’avoir une fécondation viable P(G) dans un cycle en supposant que les développements des
grossesses sont indépendants.
Exercice 24. Une enquête sur la taille (en cm) de 60 personnes donne les résultats suivants :
190 170 152 166 168 175 172 191 157 158
184 186 173 149 188 172 160 181 180 163
167 173 198 171 171 180 169 175 177 172
178 167 181 168 169 180 173 166 164 170
190 162 183 166 170 182 168 167 169 159
157 188 172 171 168 169 160 149 180 170
a) Grouper ces données par classes d’amplitude 10 cm Quelle est la probabilité pour une personne
b) d’avoir une taille comprise entre 149 cm et 179 cm ?
c) d’avoir une taille inférieure à 189 cm ?
d) d’avoir une taille inférieure à 169 cm ou supérieure à 189 cm ?
Exercice 25. Dans le cadre d’un essai thérapeutique, on souhaite constituer un échantillon
aléatoire de 4 patients parmi les 15 patients vérifiant les critères d’inclusion dans l’essai et
présents un jour donné dans un service de médecine.
i) De combien de manière peut t on constituer cet échantillon ?
ii) Comment constituer cet échantillon si on souhaite qu’il soit composé de 2 femmes et 2
hommes, parmi les 15 patients du service répartis en 7 femmes et 8 hommes.
Exercice 26. Un patient peut avoir l’une de deux formes (A et B) d’une maladie M avec les
probabilités suivantes : P (A) = 0, 57 et P (B) = 0, 43. Chaque forme correspond à un traitement
différent (TA ou TB ) qui peuvent tous les deux donner un même effet secondaire grave (G) avec
les probabilités suivantes :P (GA ) = 0, 09 et P (GB ) = 0.04
a) La probabilité qu’un patient, pris au hasard dans la population de malades traités pour la
maladie M, ne présente pas l’effet secondaire G vaut ?
b) Trois sujets chez qui on a diagnostiqué la maladie M, sans que l’on sache encore la forme (A
ou B) , sont admis dans un service hospitalier. La probabilité a priori que l’un d’entre eux
seulement présente l’effet secondaire G une fois le traitement adapté mis en place vaut ?
Exercice 27. A partir des données obtenues ces dernières années, on peut supposer que l’âge
auquel un enfant commence à marcher suit une loi normale de moyenne et d’écart-type .
i) Quelle est la probabilité qu’un enfant commence à marcher avant : 11 mois, 15 mois ?
ii) Quelle est la probabilité qu’un enfant marche entre 11 et 15 mois ?
iii) Quelle est la probabilité qu’un enfant commence à marcher exactement à 13 mois ?
Exercice 28. L’ hémocult est un test biologique utilisé pour le diagnostic du cancer du côlon.
Sachant que :
• 0,5 % des personnes sont atteintes de cette pathologie dans la population générale
• Le test est positif dans 60% des cas chez les sujets atteints du cancer côlon
• Pour un sujet indemne de la maladie, le test est positif dans 2% des cas
i) Calculer la probabilité qu’un sujet ne soit pas atteint d’un cancer du côlon, sachant que le
résultat du test est négatif.
ii) En supposant indépendants les résultats successifs du test chez un même sujet, évaluer la
probabilité que le test soit négatif 3 fois de suite chez un sujet non atteint de cancer du
côlon.
Exercice 29. Les congolais de plus de 50 ans ont des poids distribués approximativement selon
la loi de Gauss avec une moyenne de 60Kg et un écart – type de 4Kg.
i) Si un congolais est tirée au hasard, quelle est la probabilité que son poids dépasse 68 Kg ?
ii) Si on tire au hasard un échantillon de 25 congolais, quelle est la probabilité que la moyenne
des poids de l’échantillon dépasse 68 Kg.
Troisième partie
NOTIONS D’INFERENCE
STATISTIQUE
72
Notions d’inférence, Prof. Dr. Ndondo M. Apollinaire 73
Trois aspects seront analysés dans cette partie :
• Le problème d’estimation
* L’estimation ponctuelle
* L’estimation par intervalles
• Les tests d’hypothèses paramétriques.
• Les tests d’hypothèses non paramétriques.

Chapitre 7
Théorie statistique de l’estimation
7.1 Généralités
Etudier une population dans son ensemble se heurte à certaines contraintes : le coût, la main
d’œuvre, le matériel, le délai d’exploitation, la qualité des résultats. C’est ainsi que l’on ramène
l’étude à une partie de la population, l’échantillon. À partir des résultats mesurés sur cet échan-
tillon, nous essayons d’induire des conclusions valables pour l’entièreté de la population : c’est
la partie de la statistique que l’on appelle statistique inductive ou l’inférence statistique. De
manière générale, l’inférence statistique consiste à induire les caractéristiques inconnues d’une
population à partir d’un échantillon issu de cette population. Les caractéristiques de l’échan-
tillon, une fois connues, reflètent avec une certaine marge d’erreur (la limite de confiance, le
risque) celles de la population.
Il faudrait alors prendre en considération la représentativité de l’échantillon et les fluctuations
d’échantillonnage pour éviter que les résultats manquent d’exactitude.
7.1.1 Représentativité de l’échantillon
L’échantillon est représentatif de la population, s’il est prélevé d’une manière aléatoire, c’est-à-
dire que tous les éléments de la population ont la même probabilité d’être choisis. Les méthodes
de sélection d’un échantillon représentatif ont été vues au 1.1.1 f) au chapitre I.
7.1.2 Fluctuations d’échantillonnages
Les fluctuations d’échantillonnage sont imprévisibles : le hasard peut produire n’importe quel
écart par rapport à la valeur observée. C’est ainsi qu’au moyen des calculs des probabilités, le
statisticien définit un intervalle autour de la valeur observée, intervalle qui contient probable-
ment la vraie valeur : c’est l’intervalle de confiance, plus couramment, la fourchette.
74
Théorie statistique de l’estimation, Prof. Dr. Ndondo M. Apollinaire 75
Mais la fourchette n’a de signification qu’assortie d’un certain risque d’erreurs. On adopte sou-
vent un risque de 5% au niveau de confiance de 95%.
On considérera généralement des intervalles de confiance de niveau 1 − α. La valeur α sera alors
le risque, "la probabilité" pour qu’un intervalle de confiance ne contienne pas la valeur observée.
7.2 Estimation
Le problème de l’estimation statistique est le suivant : on cherche à connaître les valeurs de cer-
taines caractéristiques d’une variable aléatoire grâce à des observations réalisées sur un échan-
tillon.
Un grand nombre de problèmes statistiques consistent en la détermination de la moyenne "vraie",
sur la base d’observations réalisées sur un échantillon. Cependant, on peut aussi chercher à
connaître les valeurs d’autres caractéristiques, comme par exemple les variances.
Exemple 21.
a. quelle est la fréquence de survenue de tel type de cancer chez les souris ?
b. quelle est la vraie valeur de la glycémie de ce patient ?
c. quelle est la variance de la glycémie mesurée chez ce patient ?
Il est bien sûr impossible de répondre à ces questions au sens strict. On y apporte généralement
deux types de réponses :
1. On produit une valeur qui nous semble être la meilleure possible : on parle alors d’estimation
ponctuelle.
2. On produit un intervalle de valeurs possibles, compatibles avec les observations. C’est la

notion d’intervalle de confiance ou d’estimation par intervalle.
Dans la suite, on note X la variable aléatoire dont on cherche à estimer une caractéristique, aussi
appelée paramètre, dont la valeur est notée θ. Par exemple le paramètre peut être la glycémie, et
sa valeur celle du patient considéré.
Estimer un paramètre d’une population, c’est donc en chercher une valeur approchée en se basant
sur les résultats obtenus dans un échantillon.
7.2.1 Estimation ponctuelle
On parle d’estimation ponctuelle lorsque dans une population donnée, l’estimation d’un para-
mètre est donnée par une seule valeur.
Si la population est de taille N, tout échantillon représentatif de taille n tiré de cette population
est une combinaison de N éléments pris n à n.
A partir des échantillons de tailles n, on construit une nouvelle variable aléatoire notée Tn et
appelée estimateur de θ.
Si E(Tn ) = θ, alors on dit que Tn est un estimateur sans biais ; sinon on dit que Tn est un
estimateur biaisé et son biais est mesuré par E(Tn ) − θ.
Nous allons déterminer quels sont les estimateurs non biaisés de l’espérance mathématique et
de la variance d’un paramètre de la population :
Dans la population,
N N
1 X 1 X
µ= xi et σ 2 = (xi − µ)2
N i=1 N i=1
Dans l’échantillon représentatif de la population,
n n
1X 1X
x̄ = xi et S 2 = (xi − x̄)2
n i=1 n i=1
L’espérance mathématique de la moyenne de l’échantillon vaut :
n n
!
1X 1X nµ
E(x̄) = E xi = E(xi ) = =µ
n i=1 n i=1 n
Ceci montre que la moyenne de l’échantillon est un estimateur non biaisé de la moyenne de la
population µ.
L’espérance mathématique de la variance de l’échantillon vaut :
n n
! !
1X 1X
E(S 2 ) = E (xi − x̄)2 =E [(xi − µ) − (x̄ − µ)]2
n i=1 n i=1
Après un raisonnement essentiellement mathématique, dont nous nous épargnons les détails,
nous avons :
n
" !#
2 1 X
E(S ) = E (xi − µ)2 − n(x̄ − µ)2
n i=1
n h
1X i h i
= (xi − µ)2 − E (x̄ − µ)2
n i=1
1
= Var(xi ) − Var(x̄)
n
σ2 n−1 2
= σ2 − = σ
n n
Ceci démontre que S 2 n’est pas un estimateur non biaisé de σ 2 , mais
n
Sb = S2
n−1
est un estimateur non biaisé de σ 2
Exemple 22. 1546 élèves sont inscrits dans un lycée. On veut obtenir une estimation de la
moyenne et de l’écart-type du poids des élèves du lycée. Pour ce faire, on mesure le poids des
élèves d’un échantillon représentatif. Les mesures sont reprises dans le tableau suivant :
poids (kg) effectif

60 1
61 3
62 1
63 5
64 8
65 5
66 13
67 16
68 13
69 8
70 11
71 8
72 1
73 6
74 1
n=100
Déterminez une estimation non biaisée de la moyenne et une estimation de l’écart-type du poids
des élèves du lycée sur base de cet échantillon.
Le poids moyen de l’échantillon est :
1P
x̄ = poidsi × effectifi = 67, 45kg
n
Donc, une estimation non biaisée du poids moyen de la population des élèves du lycée est de
67.45 kg.
L’écart-type de l’échantillon vaut
sP
effectifi × (poidsi − x̄)2
S= = 3, 01kg
n
Par conséquent, une estimation non biaisé de l’écart-type de la population de tous les élèves du
lycée est : s
n 100
r
Sb = S= × 3, 01 = 3, 03kg
n−1 100 − 1
Nous constatons sur cet exemple que si la taille l’échantillon est grande (n>30), il
y a peu de différence entre S et S
b
7.2.2 Estimation par intervalle
De façon générale, l’intervalle de confiance au risque α d’une valeur que l’on cherche à estimer est
un intervalle qui contient avec une probabilité 1 − α la valeur cherchée ; il s’agit d’un intervalle
que l’on devra être en mesure de construire à l’issue d’une expérience portant sur un échantillon.
Soit une population infinie caractérisée par une variable aléatoire X dont on cherche à estimer
une caractéristique, un paramètre et dont on connait la loi de probabilité (la loi normale est
utilisée comme la loi de probabilité par défaut).
Soit θ la valeur du paramètre à estimer.
Soit Tn un estimateur sans biais de θ.
Il est question de trouver "d" la limite telle que
P (Tn − d ≤ θ ≤ Tn + d) = 1 − α (7.1)
Où 1 − α est un niveau de confiance imposé dès le départ de l’étude ( très petit, le risque
d’erreur).
P (Tn − d ≤ θ ≤ Tn + d) = 1 − α ⇐⇒ P (Tn − d ≤ θ et θ ≤ Tn + d) = 1 − α
⇐⇒ P (Tn ≤ θ + d et θ − d ≥ Tn ) = 1 − α
La probabilité complémentaire donne :
P (Tn > θ + d ou Tn < θ − d) = α
P (Tn > θ + d) + P (Tn < θ − d) = α
Si Tn suit une loi normale, alors :
α
P (Tn > θ + d) = P (Tn < θ − d) = (7.2)
2
Nota. un intervalle de confiance pose la question suivante : entre quelle limite de part et d’autre
d’une statistique d’échantillon (un estimateur sans biais), la valeur θ du paramètre à estimer
dans la population se trouve-t-elle au risque α ?
7.2.2.1 Cas de la moyenne d’une population
a. Grands échantillons (n ≥ 30)

X la moyenne d’échantillon est un estimateur sans biais de la moyenne de la population :
Tn = X.
(7.1) devient :
P (X − d ≤ θ ≤ X + d) = 1 − α (7.3)
α
De (7.2), on a P (Tn > θ + d) =
2
α
En remplaçant Tn par X, on a : P (X > θ + d) =
2
α
P (X ≤ θ + d) = 1 − (probabilité complémentaire)
2
α
P (X − θ ≤ d) = 1 −
2
!
X −θ d α
P √ ≤ √ = 1−
S/ n S/ n 2
La loi de probabilité de la moyenne x̄ d’un échantillon de grande taille (n > 30) tiré dans une
population de moyenne µ et d’écart-type σ tend à suivre, d’après le théorème central limite,
σ
la loi normale de moyenne µ et d’écart-type √ .
n
Si nous ne connaissons pas l’écart-type de la population, et c’est le cas le plus fréquent, nous
utilisons son estimation donnée par
n
r
S
Sb n−1 S S
√ = √ =√ ≈ √ pour n > 30
n n n−1 n
x̄ − µ
Par changement de variable Z = √ et avec θ = µ, on a :
S/ n
d α

P Z≤ √ =1−
S/ n 2
On trouve la valeur critique Z1−α/2 dans la table de la loi normale centrée réduite et on pose
d = Z1− α2 × √S
n
en remplaçant d par sa valeur dans (7.3) :
S S

P X − Z1− α2 × √ ≤ µ ≤ X + Z1− α2 × √ =1−α
n n
h i
Dès lors, µ ∈ X − Z1− α2 × √S , X + Z1− α2 × √S
n n
Donc, l’intervalle de confiance pour la moyenne de la population d’où on tire de grands

échantillons est :
S S

Iµ = X − Z1− α2 × √ , X + Z1− α2 × √
n n
Exemple 23. Reprenons les données de l’exercice précédent. Calculons les intervalles de
confiance à 95% et à 99% pour l’estimation du poids des élèves.

Déterminons d’abord l’intervalle de confiance au seuil de confiance de 95%.
x̄ = 67, 45Kg, S = 3, 01Kg
A 95%, Z1− α2 = 1, 96, d’où Imu = [66, 86; 68, 04] c’est-à-dire qu’au seuil de confiance de 95%,
la moyenne de la population se trouve dans l’intervalle ci-dessus indiqué. A 99%, Z1− α2 =
2, 58, d’où Imu = [66, 68; 68, 22]
Nous sommes donc confiants à 99% que la valeur de la moyenne de la population se trouve
entre les deux valeurs de l’intervalle indiqué.
On constate que l’étendue de l’intervalle est plus grande puisque nous avons demandé un
seuil de confiance plus élevé. Pour diminuer l’étendue de l’intervalle en gardant le
même seuil de confiance, il faut augmenter la taille de l’échantillon !
b. Petits échantillons (n < 30)

On raisonne comme précédemment en travaillant avec la loi de Student en lieu et place de la
loi normale, on trouve la valeur critique tn−1,p et on pose d = tn−1,p · √S
n
S S

P X − tn−1,p × √ ≤ θ ≤ X + tn−1,p × √ =1−α
n n
h i
Dès lors, θ ∈ overlineX − tn−1,p × √S ≤ θ ≤ X + tn−1,p × √S
n n
Donc, l’intervalle de confiance pour la moyenne de la population d’où on tire de petits échan-
tillons est :
S S

Iµ = θ ∈ overlineX − tn−1,p × √ ≤ θ ≤ X + tn−1,p × √
n n
α
où tn−1,p est la valeur critique à n-1 ddl et correspondant à l’aire p = .
2
Exercice 30. Un kinésithérapeute voudrait estimer, avec un risque de 5%, la force moyenne
d’un muscle donné dans une certaine population. Les scores de force musculaire sont approxi-
mativement distribués normalement avec une variance égale à 144. Si un échantillon de 25
personnes présente un score moyen de 87,5, estimer le paramètre θ dans le cas de la moyenne
d’une population.
Solution :
x̄ = 87, 5; S = 144; tn−1,p = t25−1, 0,05 = 2, 064
2
µ ∈ [28, 057; 146, 94] = Iµ

7.2.2.2 Cas de la proportion d’un événement dans une population
Soit p la proportion exacte d’un caractère C dans une population. Cela signifie que les éléments
de la population vérifient le caractère C en proportion p et ne le vérifient pas en proportion
n∗
q = 1 − p. La valeur de p est inconnue et nous l’estimons par la fréquence f = où désigne le
n
nombre d’éléments vérifiant le caractère C dans l’échantillon de taille n et suit une loi binomiale
B(n, p). f est alors un estimateur sans biais de la proportion p.
Dans le cas d’un échantillon de grande taille, la loi de probabilité d’une proportion f suit une
loi binomiale de paramètres n et p. Si nous supposons être dans les conditions d’approximation
f −µ
de la loi binomiale par la loi normale, c’est-à-dire que npq ≥ 9, alors Z = suit une loi
σ
normale centrée réduite.
f −p
Cette variable s’écrit encore : Z = q
pq
n
Si nous adoptons le risque d’erreur α, alors on a :
 s s 
f (1 − f ) f (1 − f ) 
P f − Z1− α2 × ≤ p ≤ f + Z1− α2 × =1−α
n n
Dès lors, on a  s s 
f (1 − f ) f (1 − f ) 
p ∈ f − Z1− α2 × , f + Z1− α2 ×
n n
Donc, l’intervalle de confiance pour la proportion d’un événement dans une population d’où on
tire de grands échantillons est :
 s s 
f (1 − f ) f (1 − f ) 
Ip = f − Z1− α2 × , f + Z1− α2 ×
n n
Exemple 24. Une enquête nutritionnelle est menée dans une zone de santé dans la ville de
Kinshasa. Dans un échantillon aléatoire de 700 enfants, 200 d’entr’eux sont classés comme
mal nourris. Estimer à 95% le paramètre de la proportion d’enfants mal nourris au sein de la
population de cette zone de santé.
Solution :
A 95%, Z1− α2 = 1, 96; f = 0, 28 et 1 − f = 0, 72 ;
On a : p ∈ [0, 252; 0, 308]
7.2.2.3 Cas de la variance d’une population
Soit une population de variance σ 2 inconnue et dont on veut estimer la valeur θ. Un estimateur
sans biais de la variance est donné par
n
n X
Sb2 = S 2 avec S 2 = (xi − x̄)2
n−1 i=1
(n − 1)Sb2
Il est établit que est une variable aléatoire χ2 à (n − 1)ddl. D’où
σ2
!
2 (n − 1)Sb2
P χα ≤ ≤ χ21− α =1−α
2 σ2 2
α
où χ2α est la valeur limite au seuil d’une loi du χ2 à (n − 1)ddl
2 2
α
et χ21− α est la valeur au seuil 1 − d’une loi du χ2 à (n − 1)ddl
2 2
Dès lors, on a  
Sb2 Sb2
σ 2 ∈ (n − 1) 2 , (n − 1) 2 
χ1− α χα
2 2
ou encore  
n × S2 n × S2 
σ2 ∈  2 ,
χ1− α χ2α
2 2
Donc, l’intervalle de confiance pour la variance d’une population est :

 
n × S2 n × S2 
Iσ2  2 ,
χ1− α χ2α
2 2
7.2.2.4 Cas de la somme et la différence des moyennes de deux populations
Soient deux P1 et P2 populations normales. Soient θ1 et θ2 les valeurs de leurs moyennes res-
pectives.
X 1 : la moyenne d’échantillon tiré de P1
X 2 : la moyenne d’échantillon tiré de P2 S1 : l’écart – type d’échantillon tiré de P1
S2 : l’écart – type d’échantillon tiré de P2 n1 : la taille de l’échantillon tiré de la population P1
n2 : la taille de l’échantillon tiré de la population P2 Intervalle de confiance de la somme des
moyennes :
 s s 
S 2 S 2 S 2 S 2
1
µ1 + µ2 ∈  X 1 + X 2 − Z1− α2 × + 2 , X 1 + X 2 + Z1− α2 × 1
+ 2  = Iµ1 +µ2
n1 n2 n1 n2
Intervalle de confiance de la différence des moyennes :

 s s 
S12 S22 S12 S22 
|µ1 + µ2 | ∈  X 1 + X 2 − Z1− α2 × + , X 1 + X 2 + Z1− α2 × + = Iµ1 −µ2
n1 n2 n1 n2
7.2.2.5 Cas de la somme et de la différence des proportions de deux populations
Soit pi la proportion exacte d’un caractère C dans une population Pi ( avec i = 1 ou 2). Cela
signifie que les éléments de la population Pi vérifient le caractère C en proportion pi et ne le
vérifient pas en proportion qi = 1 − pi . La valeur de pi est inconnue et nous l’estimons par la
n∗
fréquence fi = i où n∗i désigne le nombre d’éléments vérifiant le caractère C dans l’échantillon
ni
de taille ni et suit une loi binomiale B(ni , pi ). fi est alors un estimateur sans biais de la proportion
pi . On note gi = 1 − fi .
Dans le cas d’un échantillon de grande taille, la loi de probabilité d’une proportion fi suit une
loi binomiale de paramètres ni et pi . Si nous supposons être dans les conditions d’approximation
de la loi binomiale par la loi normale, c’est-à-dire que ni pi qi ≥ 9, alors l’intervalle de confiance
pour la somme des proportions d’un événement dans une population d’où on tire de grands
échantillons est :
" s s #
f1 g1 f2 g2 f1 g1 f2 g2
p1 + p2 ∈ (f1 + f2 ) − Z1− α2 × + , (f1 + f2 ) + Z1− α2 × + = Ip1 +p2
n1 n2 n1 n2
" s s #
f1 g1 f2 g2 f1 g1 f2 g2
|p1 + p2 | ∈ |f1 + f2 | − Z1− α2 × + , |f1 + f2 | + Z1− α2 × + = Ip1 −p2
n1 n2 n1 n2
Chapitre 8
Tests d’hypothèses paramétriques
8.1 Introduction
Les tests d’hypothèse paramétriques concernent les variables quantitatives.

On étudie dans une population un caractère mesurable. La valeur du paramètre relative au
caractère étudié est inconnue.
On formule une hypothèse quant à cette valeur et on veut, à l’aide de données d’échantillon,
rejeter ou maintenir cette hypothèse. On l’appelle hypothèse nulle et on la note H0 . Toute
hypothèse contraire à celle-ci est appelée hypothèse alternative, notée H1 .
Il est évident que la statistique (la variable d’échantillonnage) servant d’estimateur au paramètre
de la population ne prendra pas une valeur rigoureusement égale à la valeur théorique proposée
dans l’hypothèse. Cette variable aléatoire comporte des fluctuations d’échantillonnage qui sont
régies par des distributions connues.
Les méthodes de l’inférence statistique permettent de conclure si l’écart observé entre la valeur
de la statistique obtenue dans l’échantillon et celle du paramètre supposée dans l’hypothèse est
trop important pour être uniquement imputable au hasard de l’échantillonnage.
L’expérimentateur se fixe a priori une limite afin de séparer ce qu’il considère comme des valeurs
conformes (la zone de confiance)et des valeurs non conformes(la zone d’erreur de type I).
Cette limite s’appelle seuil ou niveau de signification et a pour valeur critique :
Grand échantillon (n ≥ 30) Petit échantillon (ni < 30)
Test unilatéral Z1−α tα , n1 + n2 − 2
Test bilatéral Z1− α2 t α2 , n1 + n2 − 2
Un test est unilatéral si H1 s’exprime avec le symbole <, ≤, > ou ≥.

Un test est bilatéral si H1 est exprimée avec le symbole 6=.
L’erreur de type I (ou de «première espèce») est l’erreur commise quand l’hypothèse nulle est
rejetée, alors qu’elle est vraie (cette erreur est jugée plus grave que l’autre).
84
Tests d’hypothèses paramétriques, Prof. Dr. Ndondo M. Apollinaire 85
L’erreur de type II (ou de «deuxième espèce») est l’erreur commise quand l’hypothèse nulle est
maintenue, alors qu’elle est fausse.
En fait, il y a quatre possibilités qu’on représente par le tableau suivant :
DECISION H0 est maintenue H0 est rejetée

REALITE
H0 est vraie Aucune erreur erreur de type I
H0 est fausse erreur de type II Aucune erreur
8.2 Etapes d’un test d’hypothèse
Etape 1 : choix du test et vérification des conditions d’utilisation.

Conditions d’utilisation :
• Il faudrait qu’il y ait 2 échantillons à comparer
• Le critère de jugement doit être une variable aléatoire continue
• S’agit-il de grands ou de petits échantillons ?
Etape 2 : formuler les hypothèses H0 et H1
Etape 3 : fixer le risque ou seuil de signification, calculer la valeur critique en fonction du seuil
de signification et définir la règle de décision.
De façon générale, la règle de décision est formulée de façon suivante : Maintenir H0 si la
statistique se situe dans la région d’acceptation ou rejeter H0 si la statistique se situe dans la
région de rejet.
Par exemple, dans le cas de grands échantillons (n ≥ 30), pour α = 0, 05(5%), graphiquement,
on a la figure suivante :
Pour un test bilatéral
Pour un test unilatéral

Etape 4 : calculer la statistique

Etape 5 : appliquer la règle de décision
Etape 4 : conclure sur les populations
Le tableau des valeurs critiques pour les tests bilatéraux et unilatéraux dans le cas de grands
échantillons :
Seuil α 0,10 0,05 0,01 0,005 0,002

(10%) (5%) 1%
Valeurs de z pour -1,28 ou -1,64 ou -2,33 ou -2,58 ou -2,88 ou
des tests unilatéraux 1,28 1,64 2,33 2,58 2,88
Valeurs de z pour -1,64 et -1,96 et -2,58 et -2,81 et -3,08 et
des tests bilatéraux 1,64 1,96 2,58 2,81 3,08
8.3 Quelques tests d’hypothèses
8.3.1 Test de comparaison de 2 moyennes
Soit deux populations P1 et P2 dont on prélève deux échantillons indépendants de tailles res-
pectives n1 et n2 , de moyennes respectives x̄1 et x̄2 , d’écart-types respectifs S1 et S2 .
Nous souhaitons comparer la moyenne de la variable aléatoire X (critère de jugement) dans les
deux populations. On note respectivement cette moyenne µ1 dans P1 et µ2 dans P2 .
On considère le test bilatéral :
H0 : µ1 = µ2 (Il n’existe pas de différence significative entre les moyennes dans les 2 popula-
tions).
H1 : µ1 6= µ2 (Il existe une différence significative entre les moyennes dans les 2 populations)
ou le test unilatéral :
H0 : µ1 = µ2 (Il n’existe pas de différence significative entre les moyennes dans les 2 popula-
tions).
H1 : µ1 > µ2 ou µ1 < µ2 (Il existe une différence significative entre les moyennes dans les 2
populations)
8.3.1.1 Cas de 2 grands échantillons (n1 ≥ 30 et n2 ≥ 30)
Construction du test sous l’hypothèse H0 : µ1 = µ2

Sous l’hypothèse H0 : µ1 = µ2 , on construit le test
a. Calcul de la statistique
x̄1 − x̄2
Z=r
S12 S22
n1 + n2
b. Un seuil de confiance α(0, 05 ou 0, 01)

Lire dans la table de la loi normale centrée réduite la valeur critique Z1− α2 (ou Z1−α )
c. Une règle de décision

• si |Z| < Z1− α2 ou |Z| < Z1−α , on maintient H0
Il n’existe pas de différence significative entre les moyennes de deux populations.
• si |Z| ≥ Z1− α2 ou |Z| ≥ Z1−α , on rejette H0 pour accepter H1 Il existe une différence
significative entre les moyennes de deux populations
Exemple 25. Dans une étude expérimentale, on veut comparer un nouveau traitement T2 à un
ancien T1 . Le critère de jugement est la durée de survie. 100 souris sont atteintes de mélanome
stade 1.
On tire au sort les souris qu’on soumet au traitement T ou T2 (50 dans chaque groupe).
On suit les souris jusqu’à leur décès. Toutes les conditions sont égales entre les 2 groupes hormis
le traitement.
T1 : survie moyenne de 175 ± 60 jours
T2 : survie moyenne de 200 ± 80 jours
Le traitement T2 donne-t-il une meilleure survie chez la souris atteinte d’un mélanome de stade
1 au risque de 5% ?
Solution :

— Test : comparaison de 2 moyennes
— 2 échantillons de grande taille : n1 = 50 > 30 et n2 = 50 > 30
— Critère de jugement : survie (en jours) ≡ variable aléatoire continue.
H0 : µ1 = µ2
H1 : µ2 > µ1
Etape 3 : fixer le risque ou seuil de signification, calculer la valeur critique en fonction du seuil
de signification et définir la règle de décision.
α = 5% ; test unilatéral : Z1−α = 1, 64

Rejet de H0 si |Z| ≥ 1, 64
Maintient de H0 si |Z| < 1, 64
x̄1 − x̄2 200 − 175

Z=r =q 2 = 1, 77
2
S1 S22 80 602
+
n1 + n2 50 50

Z = 1, 77 > 1, 64 = Z1−α , on rejette ”H0 : µ1 = µ2 ” et on accepte ”H1 : µ1 > µ2 ”

Au vu des résultats et de la méthodologie de cette expérimentation, on conclut que T2 améliore
la survie des souris par rapport à T1 .
8.3.1.2 Cas où l’un au moins des échantillons est petit (n1 < 30 ou n1 < 30)
Construction du test sous l’hypothèse H0 : µ1 = µ2
s
x̄1 − x̄2 n1 S12 + n2 S22
q où S =
S× 1
+ 1 n1 + n2 − 2
n1 n2

Lire dans la table de la loi de Student la valeur critique
α
tp,n1 +n2 −2 à (n1 + n2 − 2)ddl et à l’aire p = α ou .
2
c. Règle de décision
• |t| < tp,n1 +n2 −2 , on maintient H0
d’où pas de différence significative entre les moyennes de deux populations.
• |t| ≥ tp,n1 +n2 −2 , on rejette H0 pour accepter H1
d’où il existe une différence significative entre les moyennes de deux populations
Exemple 26. On considère la tension artérielle de deux groupes de patients :

Groupe 1 : n1 = 16; x̄1 = 107; S1 = 10
Groupe 2 : n2 = 14; x̄2 = 112; S2 = 8.
Existe-t-il une différence significative entre les tensions artérielles de deux groupes aux seuils
de 5 % ?
Solution :

— Test : comparaison de 2 moyennes
— 2 échantillons de petite taille : n1 = 16 < 30 et n2 = 14 < 30
— Critère de jugement : tension artérielle ≡ variable aléatoire continue.
H0 : µ1 = µ2
H1 : µ1 6= µ2
Etape 3 : fixer le risque ou seuil de signification, calculer la valeur critique en fonction du

seuil de signification et définir la règle de décision.
α = 5% ; test bilatéral : t 0,05 ;16−14−2 = t0,025;28 = 2, 048
2
Rejet de H0 si |t| ≥ 2, 048

Maintient de H0 si |t| < 2, 048
s
x̄1 − x̄2 n1 S12 + n2 S22
t= q où S =
S 1
+ 1 n1 + n2 − 2
n1 n2
s s
n1 S12 + n2 S22 16 × 102 + 14 × 82
S= =S= = 9, 2
n1 + n2 − 2 16 + 14 + 2
x̄1 − x̄2 107 − 112
t= q = q = −1, 5
1 1 1 1
S n1 + n2 9, 4 × 16 + 14

t = 1, 5 < 2, 048 = Z1−α , on maintient ”H0 : µ1 = µ2 ”

Au vu des résultats, on conclut qu’il n’y a pas de différence significative entre les tensions
artérielles de deux groupes.
8.3.2 Test de comparaison d’une moyenne observée ou expérimentale à une

moyenne théorique
Soit µ la moyenne d’une population P représentée par l’échantillon de taille n. Soit P0 la popu-
lation de référence de moyenne µ0 .
Nous voudrions savoir si la moyenne de la population dont est issu l’échantillon est la même que
celle de la population de référence.
On considère le test suivant :

H0 : µ = µ0
H1 : µ 6= µ0 (ou µ < µ0 ou encore µ > µ0 )
Construction du test sous l’hypothèse H0 : µ = µ0
8.3.2.1 Cas où l’échantillon est de grande taille (n > 30), la population P est nor-
male de variance σ 2 connue
x̄ − µ0
Z= σ
√
n
b. Choix d’un seuil α et détermination de la valeur critique Z1− α2 (ou Z1−α )

• |Z| < Z1− α2 , on maintient H0
La moyenne de la population dont est issu l’échantillon est la même que celle de la popu-
lation de référence.
• |Z| ≥ Z1− α2 (ou |Z| ≥ Z1−α ), on rejette H0 pour accepter H1
La moyenne de la population dont est issu l’échantillon diffère de celle de la population
de référence.
Exemple 27. Soit un échantillon de 30 garçons âgés de 13 ans et dont le poids moyen est
43,5kg. Sur le critère du poids, cet échantillon peut-il provenir d’une population dont le poids
moyen est de 44kg et la variance (2, 54)2 ?
8.3.2.2 Cas où l’un au moins des échantillons est petite taille (n < 30), la population
P est normale de variance σ 2 inconnue
x̄ − µ
t= (loi de Student à (n − 1)ddl)
S
√
n−1
b. Un seuil α et détermination de la valeur critique t α

,n−1
2
• |t| < t α (ou |t| < tα,n−1 ), on maintient H0
,n−1
2
La moyenne de la population dont est issu l’échantillon est la même que celle de la popu-
• |t| ≥ t α (ou |t| < tα,n−1 ), on rejette H0 pour accepter H1
,n−1
2
La moyenne de la population dont est issu l’échantillon diffère de celle de la population
de référence.
Exemple 28 (à résoudre pendant les tp). On sait que la concentration plasmatique du calcium
du sujet sain est de µ0 = 2, 5µmol/ml. Chez 18 personnes, on a trouvé une moyenne de x̄ ==
2, 5µmol/ml.
Peut-on conclure que la calcémie moyenne de ces 18 personnes soit augmentée ? On suppose que
la moyenne µ de la calcémie, dans la population dont est issu l’échantillon, suit une loi normale.
8.3.3 Test de comparaison de deux proportions
Il y a de nombreuses situations où nous devons décider si l’écart observé entre deux propor-
tions échantillonnales sur un même caractère est significatif ou s’il est attribuable au hasard des
fluctuations d’échantillonnage. On s’intéresse pour cela à une variable aléatoire binaire prenant
la valeur 1 lorsqu’un individu de la population possède le caractère faisant l’objet de l’étude, 0
sinon.
Nous disposons d’un premier échantillon de taille n1 issu d’une population P1 dont les indivi-
dus possèdent le caractère concerné dans une proportion inconnue p1 . Le deuxième échantillon
de taille n2 issu d’une population P2 dont les individus possèdent le même caractère dans une
proportion inconnue p2 .
Nous voudrons savoir si p1 = p2 .
n∗i
Pour i = 1 ou 2, un estimateur sans biais de pi est la fréquence relative observée fi = où n∗
ni
est le nombre d’individus possédant le caractère dans l’échantillon de taille ni .
Plus la taille de l’échantillon est grande, meilleure est l’estimation. Nous allons donc prendre de
grands échantillons (ni ≥ 30).
H0 : p1 = p2 (Il n’existe pas de différence significative entre les proportions dans les 2 popula-
tions).
H1 : p1 6= p2 (Il existe une différence significative entre les proportions dans les 2 populations)
ou le test unilatéral :
H0 : p1 = p2 (Il n’existe pas de différence significative entre les proportions dans les 2 popula-
tions).
H1 : p1 > p2 ou p1 < p2 (Il existe une différence significative entre les proportions dans les 2
populations) Construction du test sous l’hypothèse H0 : p1 = p2
f1 − f2
Z=q
f1 (1−f1 ) f2 (1−f2 )
n1 + n2

Lire dans la table de la loi normale centrée réduite la valeur critique Z1− α2 (ou Z1−α )

Il n’existe pas de différence significative entre les moyennes de deux populations.
• si |Z| ≥ Z1− α2 ou |Z| ≥ Z1−α , on rejette H0 pour accepter H1
Il existe une différence significative entre les moyennes de deux populations
Exemple 29 (à résoudre pendant les tp). Selon les résultats d’une enquête 15 femmes sur 100
fument la cigarette contre 18 hommes sur total de 100. Existe –t-il une différence signification
entre les deux proportions aux seuils de : a) 0,05 ? et b) 0,01 ?
8.3.4 Test de comparaison d’une proportion observée P à une proportion

théorique P0
Soit p la proportion d’un caractère qualitatif dans une population P représentée par l’échantillon
de taille n. Soit P0 la population de référence dont les individus possèdent ce même caractère
dans une proportion p0 .
Nous voudrions savoir si la proportion dans la population dont est issu l’échantillon est la même
que celle dans la population de référence.
On suppose que l’on dispose d’un grand échantillon (n ≥ 30) et que « p n’est pas trop petit »
(de manière que l’on ait np ≥ 15 et n(1 − p) ≥ 15).
n∗
Un estimateur sans biais de est la fréquence relative observée f + où n∗ est le nombre
n
d’individus possédant le caractère dans l’échantillon de taille n.
On considère le test suivant :
H0 : p = p0
H1 : p 6= p0 (ou p < p0 )
Construction du test sous l’hypothèse H0 : p = p0
f − p0
Z=q
p0 (1−p0 )
n
b. Choix d’un seuil α et détermination de la valeur critique Z1− α2 (ou Z1−α )

La proportion dans la population dont est issu l’échantillon est la même que celle dans la
population de référence.
• si |Z| ≥ Z1− α2 ou (|Z| ≥ Z1−α ), on rejette H0 pour accepter H1
La proportion dans la population dont est issu l’échantillon diffère de celle dans la popu-
8.3.5 Comparaison des moyennes des données appariées
Le principe de l’appariement est d’écarter le risque de fausser les résultats lorsqu’on mesure
un même effet sur deux échantillons indépendants. On crée alors des paires d’observations, par
exemple, lorsque les mêmes sujets ont été mesurés avant et après un traitement.
Ce schéma "avant-après" est la forme la plus populaire de l’appariement. Elle permet de réduire
le risque de seconde espèce du test. L’appariement est en réalité plus large que le seul schéma
"avant-après". Il est efficace à partir du moment où nous réunissons les deux conditions suivantes :
• les individus dans chaque paire se ressemblent le plus possible, ou appartiennent à une
même entité statistique (un ménage, des jumeaux, etc.) ;
• les paires d’observations sont très différentes les unes des autres.
L’appariement, que l’on retrouve sous différentes appellation (mesures répétées, échantillons dé-
pendants (paired samples ou matched pairs samples en anglais) est une procédure très populaire
en statistique. Elle permet une analyse fine des différences entre les populations.
Nous considérons un échantillon de n observations. Chaque observation étant constituée d’une
paire de valeurs. Nous formons une nouvelle variable aléatoire D dont les valeurs di sont obtenues
par différences des paires de valeurs c.-à-d.
di = xi1 − xi2
Les variables aléatoires X1 et X2 (dont les valeurs sont xi1 et xi2 ) étant normales, D l’est
également.
2 = σ2
On note : µD = µX1 −X2 = µ1 − µ2 (la moyenne de la variable aléatoire D) et σD X1 −X2 (la
variance de la variable aléatoire D).

2 ne peut pas se résumer à

Les variables X1 et X2 ne sont pas indépendantes, la variance σD
la somme des variances des variables individuelles. Il faudrait prendre en compte la covariance
entre X1 et X2 ,
2 2
σD = σX 1 −X2
= σ12 + σ22 − 2 × Cov(X1 , X2 )

H0 : µD = 0
H1 : µD 6= 0 Le principe est de tester la moyenne des différences par rapport à zéro.
Construction du test sous l’hypothèse H0 : µD = 0
8.3.5.1 Cas où la variance dans la population est inconnue
v
n n
d¯ − 0
u
u 1
(loi de Student à(n − 1)ddl) où d¯ = ¯2
X X
t= di et SD = t × (di − d)
SD n − 1 i=1
√ i=1
n
b. Choix d’un seuil α et détermination de la valeur critique t α2 ,n−1
c. Une règle de décisio

• si |t| < t α2 ,n−1 , on maintient H0
• si |t| ≥ t α2 ,n−1 , on rejette H0 pour accepter H1
8.3.5.2 2 dans la population est connue

Cas où la variance σD
d¯ − 0
Z = σD
√
n
b. Choix d’un seuil α et détermination de la valeur critique Z1− α2

• si |Z| < Z1− α2 , on maintient H0
• si |t| ≥ Z1− α2 , on rejette H0 pour accepter H1
Exemple 30 (à résoudre pendant les tp). On mesure l’effet du stress sur la glycémie chez 9
patients. On suppose que la glycémie suit une loi normale dans la population dont sont issus les
9 patients.
Pour chaque sujet, 2 mesures sont effectués, l’une à l’état basal après une période de sommeil,
l’autre 15 mn après un stress provoqué.
Patient 1 2 3 4 5 6 7 8 9
Basal 5,5 4,3 6,5 4,5 5,2 4,3 5,0 5,4 5,2
stress 5,4 6,7 6,5 6,0 5,2 5,0 4,8 4,7 4,5
Le stress modifie-t-elle la glycémie ?
Exemple 31. Les pattes avant et arrière des chevreuils ont-elles la même longueur ?
Chevreuil Longueur des pattes arrières (cm) Longueur des pattes avant (cm) Différence di (cm)
1 142 138 4
2 140 136 4
3 144 147 -3
4 144 139 5
5 142 143 -1
6 146 141 5
7 149 143 6
8 150 145 5
9 142 136 6
10 148 146 2
8.3.6 Test d’existence d’une liaison statistique linéaire
Soit X et Y deux variables aléatoires discrètes dont on étudie la corrélation linéaire. On note :
ρ : le coefficient de corrélation linéaire entre X et Y au sein d’une population.
r : le coefficient de corrélation linéaire entre X et Y dans un échantillon de taille n tiré de cette
population.
H0 : ρ = 0
H1 : ρ 6= 0
Construction du test sous l’hypothèse H0 : ρ = 0
√
n−2
t=r× √ (loi de Student à (n − 2)ddl)
1 − r2
b. Choix d’un seuil α et détermination de la valeur critique t α2 ,n−2
• si |t| < t α2 ,n−2 , on maintient H0
• si |t| ≥ t α2 ,n−2 , on rejette H0 pour accepter H1
Comment faire un bon travail statistique ?

Un travail statistique comporte essentiellement 4 phases
1. On définit les caractères statistiques sur lesquels va porter l’étude(les quantités ou les
qualités)
2. On procède au recueil des données : (échantillonnage, sondages, inventaire, recensements,

enquêtes par questionnaires)
3. On passe ensuite à la statistique descriptive univariée pour résumer l’information qui

ressort de l’ensemble des données, pour décrire le comportement de l’ensemble des données :
— On organise les données recueillies à l’aide d’un tableau statistique, selon le type de
distribution. Si le nombre des données est supérieur ou égal à 30, alors la distribution
est continue ; sinon elle est discrète.
— On présente les données à l’aide des graphiques selon le type de distribution(histogramme,
diagramme en bâtonnets, polygone statistique, diagramme à colonnes
— On résume le comportement de l’ensemble des données grâce aux valeurs typiques
de tendance centrale (moyenne, mode, médianes), de dispersion (variance, écart-type,
étendue, quartiles, coefficient de variation) et de forme (moments, coefficients de Fisher,
coefficient de Pearson)
4. On essaie enfin de généraliser ce comportement à l’ensemble de la population en rattachant

les valeurs typiques à un modèle ou à une loi statistique (binomiale, normale, etc).
C’est déjà là la statistique inférentielle. En généralisant, on est tenu d’émettre des réserves
d’où la notion d’intervalles de confiance.
Tableau statistiques, Prof. Dr. Ndondo M. Apollinaire 97
ANNEXES : TABLEAU STATISTIQUES
8.4 Tableau de la loi normale centrée réduite
Lecture de la table : Pour z=1,24 (intersection de la ligne 1,2 et de la colonne

0,04), on a la proportion P(Z < 1, 24) = 0, 8925
Rappels :
1. P (Z > z) = 1 − P (Z < z) et
2. P (Z < −z) = P (Z > z)
Exemple : Sachant P (Z < 1, 24) = 0, 8925, on en déduit :
1. P (Z > 1, 24) = 1 − P (Z < 1, 24) = 1 − 0, 8925 = 0, 1075
2. P (Z < −1, 24) = P (Z > 1, 24) = 0, 1075

Distribution du Khi-2
La table donne les valeurs critiques de χ2 pour un nombre de degrés de liberté (ddl) et pourun
seuil repère donnés (α).
Par exemple :
Pour ddl = 3 et α = 0, 05 la table indique χ2 = 7, 81
Ceci signifie que : P (χ2|3| > 7, 81) = 0, 05 = α
Distribution du t de STUDENT
Table des valeurs critiques bilatérales usuelles
Pour une distribution de Student à ddl degrés de liberté et pour une proportion a (0,05 ; 0,01
ou 0,001), la table indique t tel que P (|T | > t) = α
Exemple : Pour ddl = 5, on a P (|T | > 2, 571) = 0, 05 (on note tα;ddl cette valeur)
Distribution de FISHER

Cours de Statistique

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours de Statistique

Transféré par

Droits d'auteur :

Formats disponibles

Table des matières

1 Elaboration et présentation des données statistiques 8

2 Statistique descriptive univariée 20

3 Statistique descriptive bivariée 29

4 Le Calcul des Probabilités 43

5 Variable aléatoire et distributions de probabilités 50

6 Quelques distributions de probabilités usuelles 55

III NOTIONS D’INFERENCE STATISTIQUE 72

7 Théorie statistique de l’estimation 74

8 Tests d’hypothèses paramétriques 84

• De réaliser des progrès dans le domaine de la recherche clinique ;

• D’optimiser la thérapeutique, choisir le traitement le mieux adapté à un patient donné (choix

0.2 Définition de la Statistique et des statistiques

Le terme statistique désigne à la fois un ensemble de données d’observations, et l’activité qui

0.3 Les grandes parties de la statistique

La Statistique comprend deux grandes parties essentielles :

1° Statistique descriptive (ou Statistique déductive).

2° Statistique Inférentielle (ou Statistique inductive ou Statistique mathématique ou Inférence

La Statistique descriptive est l’ensemble des méthodes et techniques mathématiques per-

0.4 Organisation des travaux pratiques

0.5 Pourquoi le cours de Statistique à la Faculté de Médecine

Le cours de Statistique, orientation statistique appliquée aux sciences biomédicales apprend

0.6 Définition des termes et concepts importants

0.7 Méthode d’observation

0.8 Bref aperçu sur le cours

Ce cours comprend 4 parties :

Elaboration et présentation des

1.1 Méthodes de collecte des données

• Comment choisir les unités statistiques à examiner ?

1.1.1 Concepts de base en échantillonnage

a) Base de sondage : c’est la liste exhaustive d’étude.

b) Taille de la population (N ) : c’est le nombre de sujets composant la population.

f) Représentativité d’un échantillon

1.1.2 Méthodes d’échantillonnage

Il existe deux types de méthodes :

• Les méthodes d’échantillonnage aléatoires ou probabilistes ;

• Les méthodes non aléatoires ou à choix raisonné.

1.1.2.1 Les méthodes d’échantillonnage aléatoires ou probabilistes

Elles consistent à analyser une fraction de la population supposée représentative de la population

1. Cas où la population est homogène

a. Méthode d’échantillonnage aléatoire simple

• l’échantillon aléatoire avec remise ;

• l’échantillon aléatoire sans remise.

• attribuer un numéro à chaque individu ;

• opérer le tirage l’un après l’autre jusqu’à n.

b. Méthode d’échantillonnage aléatoire systématique

• dresser la base du sondage et ordonner suivant un critère déterminé ;

• attribuer un numéro à chaque individu de l’univers de 1 à N ;

• calculer le pas de sondage ou raison r ;

• prendre au hasard une base : nombre compris entre 1 et r ;

• ajouter à la base la raison et ainsi de suite.

2. Cas où la population est hétérogène

• La population est subdivisée (partitionnée) en k classes : C1 , C2 , . . . , Ck plus ou moins

Ni = taille de la strate N = taille de la population.

Nota. La strate, pris dans son ensemble, doit :

1.1.2.2 Les méthodes non aléatoires ou à choix raisonné

1.1.3 Taille de l’échantillon

Elle est déterminée à l’aide de la formule suivante :

1.2 Tableaux statistiques

1.2.1 Tableau du premier ordre

Ce type de tableau comprend une seule variable.

N◦ Causes de décès Nombre de décès

1.2.2 Tableau du deuxième ordre ou tableau à double entrée

C’est un tableau comprenant deux variables.