Académique Documents
Professionnel Documents
Culture Documents
0 Introduction générale 1
0.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
0.2 Définition de la Statistique et des statistiques . . . . . . . . . . . . . . . . . . . . 2
0.3 Les grandes parties de la statistique . . . . . . . . . . . . . . . . . . . . . . . . . 2
0.4 Organisation des travaux pratiques . . . . . . . . . . . . . . . . . . . . . . . . . . 3
0.5 Pourquoi le cours de Statistique à la Faculté de Médecine . . . . . . . . . . . . . 3
0.6 Définition des termes et concepts importants . . . . . . . . . . . . . . . . . . . . 3
0.7 Méthode d’observation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
0.8 Bref aperçu sur le cours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
I STATISTIQUE DESCRIPTIVE 7
i
II ELEMENT DES PROBABILITES 42
Introduction générale
0.1 Introduction
Pour prendre une décision diagnostique ou thérapeutique, le médecin doit avoir des éléments lui
permettant de prendre en compte la variabilité caractéristique des systèmes biologiques. Cette
variabilité est la somme d’une variabilité expérimentale ou métrologique (liée au protocole de
mesure, aux conditions de mesure et aux erreurs induites par l’appareil de mesure utilisé) et
d’une variabilité proprement biologique (décomposée en termes de variabilité intra-individuelle
et de variabilité inter-individuelle). Ces éléments lui permettront de distinguer ce qui est normal
de ce qui est pathologique (décision à propos d’un patient) et d’évaluer la qualité d’un nouvel
examen ou d’une nouvelle thérapeutique (décision thérapeutique). Ces éléments lui sont fournis
par des méthodes statistiques. Tout résultat de recherche médicale résulte d’une expérimenta-
tion (clinique ou biologique) qui s’appuie sur une méthodologie statistique rigoureuse, et dont les
résultats sont analysés en termes statistiques. De même, la démarche statistique permet d’éva-
luer les risques (ou les bénéfices) d’une prescription, de déterminer dans une situation donnée
l’examen qui apportera la meilleure information diagnostique. L’outil et la démarche statistiques
permettent :
• De mieux connaitre l’état de santé d’une population, la fréquence et la gravité d’une épidémie,
grâce aux échantillons convenablement choisis ;
• D’améliorer la pratique médicale dans ses aspects décisionnels, à savoir choisir le meilleur
examen (clinique ou para-clinique) pour aboutir le plus rapidement et le plus surement au
diagnostic ;
1
Introduction générale, Prof. Dr. Ndondo M. Apollinaire 2
Faire acquérir les notions essentielles de la statistique descriptive revient à apprendre comment
décrire de façon claire et concise l’information apportée par des observations nombreuses et
variées sur un phénomène donné.
Il s’agit de trier ces données, les décrire, les résumer sous forme de tableaux, de graphiques, et
sous forme d’un petit nombre de paramètres-clés (moyenne, médiane par exemple). Ces données
sont dites données statistiques ou statistiques.
Introduction générale, Prof. Dr. Ndondo M. Apollinaire 3
Outre les exercices numériques, les travaux pratiques comportent des travaux d’enquête et d’ana-
lyse des données portant sur les problèmes de santé communautaire dans la ville de Kinshasa.
Les observations sont prélevées sur un grand ensemble dit population statistique. Une population
est un ensemble d’objets, d’êtres vivants ou d’objets abstraits de même nature. Une population
peut donc être réelle ou fictive, finie ou infinie, dénombrable ou non dénombrable.
Chacun des éléments de cet ensemble est un individu ou une unité statistique. Chacune des
caractéristiques de chacun de ces individus de cette population est dite variable statistique ou
caractère. Le but de l’étude statistique est de voir comment cette variable varie sur la population :
ses valeurs sont-elles comparables ou très différentes, et dans quelle mesure ?
L’ensemble de valeurs ou modalités que prend une variable statistique est appelé série statistique
brute.
La nature des variables conditionne les études ultérieures. On distingue les variables quantitatives
et les variables qualitatives.
Introduction générale, Prof. Dr. Ndondo M. Apollinaire 4
Les variables quantitatives ou numériques s’expriment par des nombres entiers ou réels
sur lesquels les opérations arithmétiques courantes (somme, moyenne . . .) ont un sens. Dans
l’exemple ci-dessous (1), les variables âge, cholestérol, acide uriques, poids, taille sont quantita-
tives.
Les variables qualitatives sont celles dont les modalités sont des expressions littérales (des
mots) ou des nombres sur lesquels les opérations arithmétiques courantes n’ont aucun sens. Dans
ce même exemple ci-dessous, les variables sexe, profession, antécédents familiaux, fumeur ou pas
sont des variables qualitatives.
On sépare les variables qualitatives en deux catégories :
• Lorsque ses modalités possèdent un ordre naturel, la variable est qualifiée d’ordinale.
• Lorsqu’il n’y a pas d’ordonnancement possible des modalités, on parle de variable nominale
La nature (quantitative ou qualitative) d’une variable est une propriété intrinsèque, qui ne
dépend pas de la façon dont on note ses modalités ou valeurs. On parlera des valeurs possibles
prises par une variable quantitative mais on préférera le terme de modalités pour une variable
qualitative.
Il existe deux sortes de variables quantitatives. Une variable quantitative est discrète si elle
ne peut prendre que des valeurs isolées, généralement entières. Elle est continue si ses valeurs
peuvent être n’importe lesquelles d’un intervalle réel.
Nous résumons ces différents cas en ajoutant quelques exemples :
Exemple 1 (d’une population et ses variables). Un médecin, pour étudier les risques cardio-
vasculaires de ses patients, peut remplir pour chacun d’eux une fiche notant un certain nombre
de caractéristiques.
L’ensemble de ces patients constitue la population statistique, le patient est un individu ou une
unité statistique. Plusieurs études statistiques peuvent être faites sur cette même population
selon que l’on s’intéresse à une ou l’autre de ces variables : sexe, âge, profession, fumeur ou pas,
cholestérol, poids, taille, etc.
Introduction générale, Prof. Dr. Ndondo M. Apollinaire 5
Toute étude statistique commence par des observations. Ces observations permettent de recueillir
des données de base qui serviront à l’étude. La collecte de données consiste à leur rassemblement
et à leur enregistrement.
L’observation est directe quand l’observateur va lui-même mesurer ou compter.
L’observation est indirecte lorsqu’il se base sur les dires d’autrui (les réponses fournies par les
individus).
La collecte des données par observation directe fait appel à deux procédés : le dénombrement
instantané et le dénombrement continu. Le dénombrement instantané est la mesure d’un phé-
nomène à un moment donné (ex : le recensement de la population, enquête sanitaire etc . . .).
Le dénombrement continu est l’enregistrement permettant des résultats d’observation (ex : le
remplissage de la fiche des malades que fait l’infirmier chaque jour).
La collecte de données par observation indirecte fait souvent appel à des questionnaires.
L’étude complète d’une population, son recensement, c’est-à-dire l’examen de toutes les unités
qui la composent n’est pas toujours possible.
Cette étude peut demander du temps, elle peut être coûteuse ou carrément impossible à réaliser.
C’est pour cette raison qu’on est conduit à n’observer qu’une partie de la population c’est-à-dire
procéder à un sondage (échantillonnage) ; les unités étudiées dans le sondage constitueront un
échantillon. L’étude de cet échantillon fournira des informations qui pourront être
étendues à la population complète.
Les principaux documents d’enregistrement sont les registres, les fiches et les questionnaires.
Sur ces documents, l’enregistrement consiste à noter avec précision l’identité de l’unité statistique
et la valeur de l’observation.
Le registre sert à garder les renseignements à utiliser plus tard (ex : dans le recensement médical,
toutes les personnes recensées sont inscrites sur le registre avec leur nom, adresse, âge et sexe
ainsi que les résultats de l’examen médical).
La fiche est une feuille de papier ou de carton imprimé en un nombre suffisant d’exemplaires et
d’après un modèle déterminé. On emploie la fiche pour chaque individu. Une partie est réservée
pour l’identification et l’autre partie pour l’observation.
Le questionnaire est une forme de fiche où toutes les informations demandées sont présentées
sous forme des questions. On les utilise fréquemment dans le recensement démographique et
dans les enquêtes sociales.
Introduction générale, Prof. Dr. Ndondo M. Apollinaire 6
STATISTIQUE DESCRIPTIVE
7
Chapitre 1
Une opération de collecte des données peut porter sur l’ensemble des unités statistiques (po-
pulation) ou sur une partie de ces unités statistiques (échantillon). Par ailleurs, tout travail de
collecte des données se heurte à certaines contraintes : le coût, la main-d’œuvre et le matériel, le
délai d’exploitation et la qualité des résultats. Dans cette section, nous allons répondre à deux
questions fondamentales
• Quel nombre d’unités statistiques faut-il interroger en vue d’obtenir l’information recherchée.
8
Elaboration et présentation des données statistiques, Prof. Dr. Ndondo M. Apollinaire 9
Ce qui revient à considérer que chaque élément de la population a une même chance d’appar-
tenir à un même échantillon. Les unités statistiques doivent être tirées au hasard (échantillon
aléatoire).
Pour obtenir un échantillon représentatif, on suppose que la population est homogène face
au caractère faisant l’objet de l’étude statistique. On procède alors à un tirage au sort avec
ou sans remise après avoir attribué un numéro à chaque individu de la population et logé ces
numéros dans une urne en prenant soin de brasser tous les numéros inscrits sur des papiers
avant de les tirer.
On peut, en outre, procéder à un tirage aléatoire systématique consistant à ne tirer au sort
que le 1er numéro qu’on appelle base. Dans la suite, on tire successivement les autres numéros
à intervalle fixe appelé pas de sondage ou raison (r).
Si la population est hétérogène face au caractère qui fait l’objet de l’étude statistique, on la
partitionne en k strates plus ou moins homogènes face au caractère faisant l’objet de l’étude
statistique.
Procédé du tirage :
• identifier tous les N individus de la population et les ranger suivant un critère déterminé ;
• inscrire ces numéros sur des bouts de papier à placer dans une urne ;
Le tirage aléatoire simple implique un effort énorme, car chaque nombre doit être tiré de
façon aléatoire. Dans l’échantillon aléatoire systématique, seul le premier nombre est tiré
au hasard. Dans la suite, on tire successivement des nombres à intervalle fixe.
Procédé du tirage :
a. Méthode de stratification
Sur la même population, il peut y avoir plus d’une variable statistique. On fait générale-
ment abstraction des autres pour rendre la population homogène face au caractère faisant
l’objet de l’étude statistique. L’exemple du 0.6 à la page 11 montre que sur la population
des patients, on a recueilli plus d’une variable quantitative : âge, cholestérol, acide uriques,
poids, taille, etc.
Lorsque la population est hétérogène face au caractère faisant l’objet de l’étude statistique,
on recourt à la méthode de stratification.
Description de la méthode :
• Le nombre d’individu appartenant à chaque strate et qui devra faire partie de l’échan-
tillon est donné par la formule suivante :
∼ Ni × n
ni =
N
où
ni = nombre d’individus à tirer dans la strate
n = taille de l’échantillon
Elaboration et présentation des données statistiques, Prof. Dr. Ndondo M. Apollinaire 11
L’échantillon obtenu par choix raisonné est constitué d’unités statistiques qui n’ont pas été tirés
au hasard. De ce fait, elles n’ont pas la même chance d’appartenir à un échantillon.
Méthode des quotas (utilisée surtout dans les sondages)
On constitue un échantillon de manière à ce que certaines proportions observées dans la popula-
tion se retrouvent dans l’échantillon. Dans les limites qui lui seront fixées, l’enquêteur reste libre
d’interroger les unités statistiques qu’il veut. Il devra respecter les quotas qui lui sont imposés.
z 2 pq
n=
d2
Où
z : écart-réduit, fixé en général à (1,96), qui correspond à un degré de confiance de 95% ;
p : proportion de la population ayant une caractéristique donnée.
Si aucune estimation n’existe, on prendra p = 0, 50 ; q = 1 − p ;
d : degré de précision voulu. En général, d = 0, 05, parfois 0,01.
Table 1.1 – Causes de décès chez les malades hospitalisés dans un centre hospitalier :
Elaboration et présentation des données statistiques, Prof. Dr. Ndondo M. Apollinaire 12
Table 1.2 – Distribution par âge et par sexe des cas de cancer de poumons au cours d’une année
dans les hôpitaux de Kindu.
Sexe
Age (ans) Total
Masculin Féminine
1-5 14 5 19
6-10 15 17 32
11-15 24 23 47
16-20 42 18 60
21 et plus 43 36 79
Total 138 99 237
Table 1.3 – Répartition par âge, par sexe et par groupe de maladie des patients ayant reçu des
soins ambulatoires dans un Centre de Santé.
Elaboration et présentation des données statistiques, Prof. Dr. Ndondo M. Apollinaire 13
Table 1.4 – Etat nutritionnel et résultats scolaires de 70 élèves d’une école secondaire de Kin-
shasa.
Résultats Etat nutritionnel
Total
scolaires Bon Médiocre
Satisfaisant 11 15 26
Mauvais 8 26 34
Total 19 41 70
Ce tableau à double entrée croise les deux variables qualitatives (« Etat nutritionnel » et «
Résultats scolaires ») et regroupe les effectifs observés modalité par modalité.
Les effectifs totaux de chaque ligne (dernière colonne) et de chaque colonne (dernière ligne) sont
appelés effectifs marginaux, car ils sont écrits en marge du tableau. Ils nous renseignent sur
la distribution de chaque variable indépendamment de l’autre. Les effectifs situés à « l’intérieur
» du tableau sont eux appelés effectifs conjoints puisqu’on y observe la répartition conjointe
de ces deux variables qualitatives.
C’est un tableau comprenant des observations groupées selon leurs fréquences absolues. On
l’enrichit parfois avec des fréquences absolues cumulées, des fréquences relatives et des fréquences
relatives cumulées.
• La fréquence absolue : nombre d’individus de la classe dans le cas d’une variable continue ou
nombre de répétitions de la valeur Xi de la variable discrète : on le note ni
Le tableau est construit en mettant dans la première colonne les diverses valeurs (x1 , x2 , . . . , xn )
que prend la variable, en ordre croissant.
Table 1.5 – Distribution des fréquences du personnel d’un centre de santé d’après le nombre
d’enfants en charge.
Dans le cas d’une variable continue, la présentation sous forme de tableau requiert de longs
calculs, car le nombre de valeurs est élevé. On évite cette situation en effectuant un groupement
des données en classes.
c) Chaque classe (sauf la dernière) contient sa borne inférieure mais pas sa borne supérieure.
• Dans les calculs, une classe sera représentée par son centre, qui est le milieu de l’intervalle.
• Une fois la classe constituée, on considère les individus répartis uniformément entre les deux
bornes (ce qui entraîne une perte d’informations par rapport aux données brutes).
Table 1.6 – Distribution des fréquences des ouvriers d’une clinique suivant leur âge
Elaboration et présentation des données statistiques, Prof. Dr. Ndondo M. Apollinaire 15
• L’intervalle ou l’amplitude d’une classe est donnée par le rapport entre l’étendue de la série
statistique et le nombre de classes :
• Centre de classe : c’est la valeur centrale d’une classe ; d’autres termes, c’est la moyenne
arithmétique des deux bornes d’une classe :
bornesup + borneinf
Xi =
2
Où bornesup la borne supérieure de la ième classe et borneinf la borne inférieure de la ième classe
Nota. Lors que dans une série statistique brute, on peut compter un nombre inférieur à 20
valeurs distinctes avec leurs fréquences respectives, alors la distribution qui en découle est une
distribution discrète, sinon elle est continue.
Le but de la construction de tableaux et de graphiques est d’obtenir des résumés clairs et concis,
mais en conservant l’essentiel de l’information contenue dans les données initiales, et en utilisant
Elaboration et présentation des données statistiques, Prof. Dr. Ndondo M. Apollinaire 16
Le diagramme en bâtons est construit en joignant par un segment de droite le point (Xi , ni )
et l’abscisse Xi . On obtient le polygone des fréquences en reliant les sommets successifs du
diagramme en bâtons.
Xi 0 1 2 3 4
Fi 0,29 0,61 0,87 0,97 0,99
Elaboration et présentation des données statistiques, Prof. Dr. Ndondo M. Apollinaire 17
Le diagramme des fréquences relatives cumulées appelé diagramme cumulatif est obtenu en
joignant les points dont les abscisses sont les valeurs Xi et dont les ordonnées sont les valeurs
Fi. Le diagramme cumulatif est la représentation graphique d’une fonction F, appelée fonction
de répartition de la variable statistique discrète ou variable aléatoire discrète, abrégée v.a.d.
Le diagramme représentant la série est un histogramme : ce sont des rectangles juxtaposés dont
chacune des bases est égale à l’intervalle de chaque classe et dont la hauteur est telle que l’aire
de chaque rectangle soit proportionnelle aux effectifs (histogramme des fréquences absolues) ou
aux fréquences de la classe correspondante (histogramme des fréquences relatives).On obtient
le polygone des effectifs (ou des fréquences) en reliant les milieux des bases supérieures des
rectangles.
La courbe cumulative (ou polygone des fréquences cumulées) est obtenue en portant les
points dont les abscisses représentent la borne supérieure de chaque classe et dont les ordonnées
représentent les fréquences relatives cumulées correspondantes, puis en reliant ces points par des
segments de droite. Son équivalent dans la théorie probabiliste est la fonction de répartition.
2.1 Objectif
Résumer l’information contenue dans une série statistique. Pour se faire, on calcule des valeurs
statistiques ou des paramètres statistiques. En plus des tableaux et graphiques, les paramètres
statistiques ont pour but de résumer, à partir de quelques nombres clés l’essentiel de l’informa-
tion relative à l’observation d’une variable quantitative. Certains sont dits de tendance centrale,
car ils représentent une valeur numérique autour de laquelle les observations sont réparties.
D’autres encore sont dits de dispersion, car ils permettent de résumer le plus ou moins grand
étalement des observations de part et d’autre de la tendance centrale. Moyenne et médiane sont
des valeurs autour desquelles les observations sont réparties ; ce sont deux façons complémen-
taires de caractériser la tendance centrale. D’autres, enfin, sont dits de forme, car ils déterminent
la forme de la courbes des fréquences par l’asymétrie et par l’aplatissement.
Ce sont des paramètres qui ont tendance à se positionner au centre d’une distribution statistique
(moyenne arithmétique, mode, médiane, fractiles,. . . )
Définition 2.2.1. C’est une valeur représentative d’un ensemble de données, qui a tendance à
se situer au milieu de cet ensemble.
20
Statistique descriptive univariée, Prof. Dr. Ndondo M. Apollinaire 21
Soit x1 , x2 , . . . xn n valeurs observées d’une série statistique. La moyenne est donnée par :
x1 + x2 + ... + xn
x̄ =
n
n
X
x̄ = xi (formule simple)
i1
Si les valeurs observées xi sont au nombre k et chacune avec sa fréquence absolue ni, on utilise
la formule pondérée :
n1 x1 + n2 x2 + ... + nk xn
X̄ =
n
k
1X
X̄ = ni xi (formule pondérée)
n i
1
5+8+4+5+2+10 34
Soitlasériesuivante(5, 8, 4, 5, 2, 10) : x̄ = 6 = 6 = 5, 6
Autrement, par la formule pondérée :
x ni ni x
2 1 2
4 1 4
5 2 10
8 1 8
10 1 10
n=6 34
(1 × 2) + (1 × 4) + (2 × 5) + (1 × 8) + (1 × 10) 34
X̄ = = = 5, 6
6 6
b. Calcul de la moyenne arithmétique d’une distribution continue
On calcul d’abord des centres des classes (xi), puis on applique la formule pondérée.
n = 150
Statistique descriptive univariée, Prof. Dr. Ndondo M. Apollinaire 22
202, 5 + 742, 5 + 1170 + 1687, 5 + 765 + 427, 5 + 157, 5 + 172, 5 + 172, 5 5325
x̄ = =
150 150
= 35, 5
Dans le cas d’une variable continue, cette moyenne pondérée n’est
qu’une valeur approchée de la vraie valeur moyenne de la série
statistique, car on remplace chaque Xj de la série statistique par le
centre de la classe à laquelle il appartient.
Définition 2.2.2. C’est la valeur observée dont la fréquence absolue est la plus grande.
2.2.2.1 Remarques
Mo n’existe pas toujours. Lorsque le mode existe, il peut ne pas être unique. D’où on peut
trouver : Une distribution unimodale ou une distribution multimodale
Exemple 3. 11; 15; 12; 11; 15; 11; 10; 15.M o1 = 11; M o2 = 15
∆1
Mo = li + h
∆1 + ∆ 2
Age (ans) ni
20-25 9
25-30 28
30-35 36
35-40 45
40-45 18
45-50 9
50-55 3
55-60 2
n = 150
li = 35
h = 40 − 35 = 5
∆1 = 45 − 36 = 9
∆2 = 45 − 18 = 27= fréquence classe modale – fréquence classe suivante.
9
Mo = 35 + 5 = 36, 25 = 36 ans 3 mois
9 + 27
Définition 2.2.3. La médiane est la valeur de la variable telle qu’il y ait autant d’observations,
en dessous d’elle qu’au-dessus ou, ce qui revient au même, la valeur correspondant à 50% des
observations.
1. Détermination de la Médiane
n
2 = 3; n2 + 1 = 4; Me = x3 +X4
2 = 13+14
2 = 27
2 = 13, 6 (valeur qui n’apparait pas
dans la série statistique)
n = 150; n2 = 150
2 = 75e observation se trouve dans la classe dont
li = 35; h = 5; Ni−1 = 72; ni = 45
M e = 35 + 5 75−72
45 = 35 +
3
9 = 35, 3 ans Me = 35 ans 3mois18 jours
Ce sont des paramètres qui déterminent les écarts des différentes valeurs de la série statistique
vis-à-vis de la moyenne.
2.3.1 Etendue(E) :
E = valeurmin − valeurmax
Oùvaleurmax la valeur maximale et valeurmin la valeur minimale de la série statistique
2.3.2 Variance(S 2 )
Définition 2.3.1. C’est la moyenne des carrés des écarts de diverses valeurs de la série statis-
tique vis-à-vis de la moyenne arithmétique.
2.3.2.1 Formule
Formule simple :
n
(x1 − x̄)2 + (x2 − x̄)2 + · · · + (xn − x̄)2 1X
S2 = ou S 2 = (xi − x̄)2
n n i=1
Statistique descriptive univariée, Prof. Dr. Ndondo M. Apollinaire 26
Formule pondérée :
n
1X
2
S = ni (xi − x̄)2
n i=1
La variance est donc toujours positive ou nulle. Les formules ci-dessus imposent de calculer les
différences (xi − x̄)2 ce qui est assez fastidieux. On peut éviter cet inconvénient en utilisant le
théorème de Koenig. Théorème de KOENIG
n
1 X
S2 = ( x2j ) − x̄2 (formule simple)
n i=1
n k
1 X X
( xi x2i ) − x̄2 = ( fi x2i )fprmule pondérée
n i=1 i=1
√
S = + S2
1P 8250
a) Variance S 2 = ni (xi − x̄)2 = = 55an2 Autre manière de calculer : par le théorème
n 150
de KOENIG :
Statistique descriptive univariée, Prof. Dr. Ndondo M. Apollinaire 27
k k
! !
2 1X X
S = ni x2i − x̄2 = fi x2i − x̄2
n i=1 i=1
197287, 5
S2 = − 1260, 25 = 1315, 25 − 1260, 25 = 55
150
√
b) Ecart-types = + s2 = 7, 4 ' 7ans
Nota. Changement de variable La moyenne et l’écart-type peuvent aussi être calculés après
un changement de variable :
xi − a
ui =
h
Ce sont des paramètres qui caractérisent la forme de la courbe de fréquences. Ils permettent
d’étudier l’asymétrie et l’aplatissement.
x̄ − Mo
Sk =
S
v 3
n n
u
m3 1X u1 X
g1 = 3 avecm3 = ni (xi − x̄3 ) et S 3 = t ni (xi x̄2 )
S n i=1 n i=1
Si g1 = 0, il y a symétrie
Si g1 > 0, il y a dissymétrie à droite
Si g1 < 0, il y a dissymétrie à gauche.
Une distribution est asymétrique si une de ses queues est plus longue que l’autre. Une distribution
asymétrique positive est telle qu’elle a une longue queue dans la direction positive. Elle est aussi
dite distribution asymétrique à droite. Une distribution asymétrique négative est telle qu’elle
a une longue queue dans la direction négative. Elle est aussi dite distribution asymétrique à
gauche. Une distribution symétrique n’a pas de queue.
Nota. Lorsque les trois paramètres de position mode, médiane et moyenne sont à peu près alignés
sur la même valeur ou la même classe, cela indique généralement une distribution relativement
symétrique des observations. Le cas échéant, cela signe une certaine asymétrie de la distribution.
Dans ce cas, la médiane étant toujours située entre le mode et la moyenne (lorsque la distribution
est unimodale uniquement), la position de la moyenne par rapport au mode permet de déterminer
le sens de l’asymétrie :
• lorsque l’on a : mode < médiane < moyenne, la distribution est asymétrique vers la droite,
tandis que
• lorsque l’on a : moyenne < médiane < mode, l’asymétrie est à gauche.
3.1.1 Introduction
En présence d’une distribution statistique de deux variables (X, Y ) nous pouvons nous poser la
question suivante :
La connaissance d’une valeur de la variable X apporte-t-elle une information supplémentaire sur
les valeurs de la variable Y ?
La réponse à cette question est du domaine de la régression : dans un tel cas, on dit que X est
la variable explicative et Y la variable expliquée. Dans d’autres cas, aucune des deux variables
ne peut être privilégiée : la liaison stochastique entre X et Y s’apprécie alors de façon symétrique
par la mesure de la corrélation.
On s’intéresse à deux variables X et Y. Ces deux variables sont mesurées sur les n unités sta-
tistiques. Pour chacune de ces n unités, on obtient donc deux mesures. La série statistique est
alors une suite de n couples des valeurs prises par les deux variables sur chacun de n individus :
(X1 , Y1 ), . . . , (Xi , Yi ), . . . , (Xn , Yn ).
3.1.2 Régression
29
Statistique descriptive bivariée, Prof. Dr. Ndondo M. Apollinaire 30
(X1 , Y1 ), . . . , (Xi , Yi ), . . . , (Xn , Yn ). L’ensemble de ces n points dans le plan forme un nuage de
points :
La droite de régression est la droite qui ajuste au mieux un nuage de points (Xi , Yi ).
On considère que la variable X est explicative et que la variable Y est dépendante.
L’équation de la droite est de la forme Y = aX + b.
1. Ajustement analytique
Le problème d’ajustement analytique est de trouver le meilleur ajustement des données,
c’est-à-dire une fonction qui doit s’adapter de la façon la plus satisfaisante aux observations
faites et conduire à une courbe d’ajustement aussi simple que possible.
De divers procédés permettant de trouver les paramètres a et b de l’équation Y = aX + b,
nous retiendrons le principe ou la méthode des moindres carrés.
n n
(Yi − b − aXi )2
X X
M (a, b) = e2i =
i=1 i=1
Le minimum M (a, b) au point (a, b) s’obtient en annulant les dérivées partielles par rapport
Statistique descriptive bivariée, Prof. Dr. Ndondo M. Apollinaire 31
à a et à b :
n
∂M (a, b) X
= 2 (Yi − b − aXi ) Xi = 0
∂a i=1
n
∂M (a, b) X
= 2 (Yi − b − aXi ) = 0
∂b i=1
n
1X
(Yi − b − aXi ) Xi = 0
n i=1
n
1X
(Yi − b − aXi ) = 0
n i=1
Ou encore :
n n n
1X 1X 1X
Yi Xi − bXi − aXi2 = 0
n i=1 n i=1 n i=1
n n n
1X 1X 1X
Yi − b−a Xi = 0
n i=1 n i=1 n i=1
Ainsi :
n n
1X 1X
Yi Xi − bX̄ − aXi2 = 0 (3.1)
n i=1 n i=1
Ȳ − b − aX̄ = 0 (3.2)
De (3.2) :
b = Ȳ − aX̄ (3.3)
n n
!
1X 1X
Xi Yi − X̄ Ȳ − a X 2 − X̄ 2 =0
n i=1 n i=1 i
Statistique descriptive bivariée, Prof. Dr. Ndondo M. Apollinaire 32
Pn
i=1 Xi − X̄ Yi − Ȳ Cov(X, Y )
a = 2 =
Var(X)
Pn
i=1 Xi − X̄
Pn 1 Pn Pn
i=1 Xi Yi −i=1 Xi i=1 Yi
a = n
1 Pn
( i=1 Xi )2
Pn 2
i=1 Xi −
n
b = Ȳ − aX̄
Remarque 1. La droite de régression de Yen X n’est pas la même que la droite de régression
de X en Y.
3.1.3 Corrélation
La corrélation statistique relie les variations réciproques de deux caractères statistiques sur une
même unité statistique. Il s’agit d’une relation beaucoup moins rigide que la relation fonction-
nelle y = f (x) où la connaissance de l’une de ses variables suffit pour déterminer complètement
la valeur correspondante de l’autre variable. Les variables statistiques sont soumises à des fluc-
tuations c’est-à-dire à une valeur donnée d’une des variables il correspond non pas une seule,
mais toute une distribution des valeurs de l’autre variable. Et inversement.
On ne saurait dire, par exemple, que le poids est une fonction de la taille au sens mathématique
de ce terme, ou inversement. Pour une valeur donnée de la taille, dans un groupe de sujets
dont on étudie la taille et le poids, on trouvera toute une série de sujets ayant cette taille, mais
différents entr’eux par le poids. Inversement, pour une valeur donnée du poids on trouvera toute
une série de sujets différents entr’eux par taille.
Quand le nuage des points se présente sous la forme (1) ou (2), on dit que le nuage a la forme
allongée et les variables X et Y sont liées (ou qu’il existe une liaison entre X et Y).
Pour (1), la liaison est appelée corrélation linéaire positive (car X et Y croît ou décroît au même
Statistique descriptive bivariée, Prof. Dr. Ndondo M. Apollinaire 33
moment). Pour (2), la liaison est appelée corrélation linéaire négative (car si X croît, Y décroît
et vice versa). Pour (3), la liaison est nulle.
Après avoir décelé graphiquement la corrélation entre deux variables, on va en mesurer l’in-
tensité grâce au coefficient de corrélation. La liaison entre deux variables numériques peut être
étudiée grâce au coefficient de corrélation. Néanmoins, il faut bien garder présent à l’esprit que
le coefficient de corrélation de Bravais-Pearson ne mesure que des relations linéaires, et sa valeur
n’est en rien le reflet de l’existence d’un lien de causalité entre les deux variables.
Le coefficient de corrélation de Bravais-Pearson mesure en fait l’intensité de l’association entre
les deux variables. Il est donné par la formule suivante :
Pn
i=1 Xi − X̄ Yi − Ȳ Cov(X, Y ) Cov(X, Y )
r = r 2 = pVar(X)Var(Y ) =
Pn 2 P
n
SX SY
i=1 Xi − X̄ i=1 Yi − Ȳ
Pn 1 Pn Pn
i=1 Xi Yi
i=1 Xi− i=1 Yi
r = n
2 − 1 (Pn X )2 2 − 1 (Pn Y )2
Pn Pn
X
i=1 i i=1 i Y
i=1 i i=1 i
n n
3.1.3.3 Propriétés de r
• Si |r| > 0, 75, on dit que la liaison statistique entre les deux variables est significative, on dit
aussi que les deux variables sont fortement corrélées
• Si |r| < 0, 75, on dit que les deux variables sont faiblement corrélées.
Nota. En pratique, cette conclusion est obtenue en procédant à la lecture de la table statistique
du coefficient de corrélation (test du coefficient de corrélation).
régression qui est souvent associée au coefficient de corrélation : en effet, la pente de la droite
ajustant le nuage de points est dépendante de l’échelle utilisée, tandis que le coefficient de cor-
rélation est indépendant de l’unité de mesure. Par ailleurs, un coefficient de corrélation élevée
ne traduit pas toujours une relation linéaire avérée.
Ainsi également, un faible coefficient de corrélation ne signifie pas forcément l’indépendance des
deux variables considérées, puisque celles-ci peuvent être liées par des relations non-linéaires (ex.
polynomiale, logarithmique, parabolique, etc.).
Exercices, Prof. Dr. Ndondo M. Apollinaire 35
Exercice 1. En vue de ses recherches sur les MST en milieu estudiantin à Kinshasa, un étudiant
en médecine désire constituer un échantillon représentatif constitué de 300 étudiants. Le tableau
suivant donne l’effectif d’étudiants
Exercice 2. Je veux tirer un échantillon de 30 personnes au hasard dans une salle de 110
étudiants (N = 110). Si je dois faire un tirage systématique, quelles sont les étapes pour y
arriver ?
Exercice 4. Dans une ville qui compte 2 000 élèves en Classe de 6è primaire qui se répartissent
à 80% dans des écoles publiques et 20% dans des écoles privées, vous souhaitez travailler sur les
modalités d’apprentissage de la lecture. Or une de partie de vos hypothèses se réfère au clivage
privé/public. Les moyens disponibles permettent d’interroger au maximum 200 élèves. Comment
allez-vous faire pour avoir un échantillon représentatif ?
Exercice 5. Une enquête a été menée pour recueillir l’opinion des habitants d’un quartier sur
un projet d’aménagement social. 300 personnes ont 46 répondu. Les réponses sont traduites sur
une échelle numérique totalement ordonnée formée des entiers de 0 à 20 inclus.
xi 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
ni 3 6 8 10 10 12 14 16 16 16 18 18 18 18 20 21 26 28 13 9 0
Exercices, Prof. Dr. Ndondo M. Apollinaire 36
4°) représenter la fonction de répartition empirique. Calculer le mode et la médiane de la nouvelle distribution.
Conclusion ?
Exercice 6. On a indiqué dans le tableau suivant la distance entre le bureau et le domicile (en
km) d’un échantillon d’agents sanitaires.
Distance 0 1 2 3 4 5 8
Effectif 5 21 24 15 20 13 2
4. On s’intéresse maintenant uniquement aux employés qui n’habitent pas dans les environs
immédiats du bureau (ceux qui habitent à au moins 1 kilomètre).Quel est, parmi eux, le
pourcentage des employés qui travaillent à cinq kilomètres ou plus de leur domicile (on
arrondira au centième) ? Déterminer la moyenne obtenue par ce procédé.
Pourquoi ne trouve-t-on pas 225 Go ?
Exercice 7. Lors d’une visite médicale dans un centre de santé, on a prélevé le poids (kgs) d’un
échantillon de 50 patients souffrant de la gastroentérite. On a obtenu les résultats suivants :
47 82 61 46 76 80 48 74 80 73
75 69 67 45 79 90 65 40 73 84
44 79 71 76 84 92 84 41 72 73
75 97 77 44 54 87 71 81 56 59
60 51 86 76 98 82 59 51 49 88
1) Regrouper ces données en utilisant des classes de poids d’amplitude 10kgs du type suivant :
[40, 50] ; [50, 60] ; . . .
Exercice 8. D’après les enquêtes d’une organisation sanitaire, dans la ville de Kinshasa, voici
les données(en âges) de personnes vivant avec le VIH dans les communes de Barumbu et Kin-
shasa
Exercices, Prof. Dr. Ndondo M. Apollinaire 37
15 25 32 17 25 30 19 17 37 34
16 20 23 27 24 21 32 30 25 47
33 40 43 42 19 24 36 42 44 34
25 24 32 31 21 24 35 42 40 18
22 24 26 25 23 28 27 30 29 17
33 35 40 27 34 30 29 42 43 45
15 20 23 31 23 29 17 25 22 30
2) Calculer la proportion d’individus atteints du VIH dont l’âge est supérieur ou égale à 30 ans.
3) Déterminer l’âge moyen, modal et médian de la population ainsi que le coefficient de variation
158 172 166 170 168 175 152 190 191 157
163 160 149 186 183 172 173 184 181 180
172 169 171 173 171 180 198 167 175 177
170 173 168 167 169 180 181 178 166 164
159 168 166 162 170 182 183 190 167 169
170 160 171 188 168 169 172 157 149 180
d) Déterminer graphiquement Q1 , Q2 et Q3
Exercice 10. La distribution suivante représente le nombre de kilomètres parcourus par les 100
camions de la compagnie de produits PHARMA JOB durant l’année 2011 :
Exercices, Prof. Dr. Ndondo M. Apollinaire 38
c) Calculez le nombre moyen, médian et modal de kilomètres parcourus par ces camions
d) Cette distribution est – elle dissymétrique ? expliquez votre réponse en vous basant sur les
paramètres de forme étudiés.
Exercice 11. Lors d’une expérience portant sur la mémorisation d’une liste de 112 mots, on
demande à 10 sujets adultes de langue maternelle française sélectionnés au hasard de redire dans
l’ordre qu’ils veulent le plus de mots possible après 10 minutes de mémorisation. Aux mêmes
adultes, on fait passer un test logique permettant d’examiner la faculté d’établir des liens entre
divers éléments et de découvrir les relations existantes au sein d’ensembles complexes. Notons
X la variable correspondant au résultat obtenu au test logique et Y la variable correspondant au
nombre de mots mémorisés en 10 minutes.
Le tableau ci-dessous présente les résultats obtenus par les 10 sujets.
Sujet i xi yi
1 87 38
2 80 35
3 90 45
4 95 58
5 100 65
6 115 76
7 135 108
8 110 75
9 93 35
10 89 52
Total 994 587
(iii) A quel nombre de mots mémorisés en 10 minutes peut-on s’attendre chez un sujet qui
obtiendrait un score de 85 au test logique ?
Exercice 12. Une expérience a été faite sur 20 grenouilles mâles, choisies pour leur extrême
noirceur ou leur extrême pâleur, pour essayer de voir s’il existe une relation entre la teneur en
mélanine de la peau de ces grenouilles et leurs poids.
On désigne par X la densité de mélanine et par Y le poids de la grenouille exprimé en grammes.
On a obtenu :
X 0,11 0,15 0,32 0,68 0,64 0,29 0,45 0,51 0,05 0,71
Y 11 19 20 18 17 22 25 24 21 26
X 0,37 0,56 0,97 0,75 0,77 0,86 1,04 0,74 0,32 0,64
Y 28 30 31 23 25 27 29 17 15 25
Exercice 13. Les données ci-contre sont les résultats d’une expérience tentant de mettre en
relation la variable X et la variable Y.
X 10 15 20 25 30 35 40 45 50 55
Y 4,78 4,74 4,91 5,56 5,63 5,17 5,55 5,55 6,38 5,76
X 60 65 70 75 80 85 90 95 100
Y 6,25 6,5 5,95 6,28 6,53 6,39 6,59 6,59 6,41
Exercice 14. L’infirmier-chef de l’hôpital de Référence de Kinshasa désire déterminer s’il existe
une relation entre le nombre de jours qu’un patient passe à l’hôpital et le nombre de visites que
doit lui faire l’infirmier dans une période de 24 heures. L’infirmier-chef a compilé les données
suivantes :
Patients Nbre de jours à l’hôpital (x) Nbre total de visites de l’infirmier (y)
Mr L’Heureux 2 2
M. Lacharitè 4 3
M. Lavigueur 5 3
Mr Lajoie 6 4
M. Ladouceur 3 2
Mr Letendre 15 10
M. Latendresse 7 5
Mr Lesperance 15 11
M. Labonté 2 1
b) Quel serait le nombre total de visites de l’infirmier sur les patients M. Labonté et Mr Letendre
si le nombre de jours à l’hôpital était respectivement 8 et 9. Commentez le résultat.
c) Existe-t-il une liaison significative entre le nombre de jours qu’un patient passe à l’hôpital et
le nombre de visites que doit lui faire l’infirmier ?justifiez votre réponse
Exercice 15. Les mesure du nombre X de jours de pluie et de la hauteur Y (en mm) de pluie
à Paris tous les 5 ans entre 1960 et 1995 sont récapitulées dans le tableau suivant.
Exercice 16. Neuf étudiants émettent un avis pédagogique vis-à-vis d’un professeur selon une
échelle d’appréciation de 1 à 20. On relève par ailleurs la note obtenue par ces étudiants l’année
précédente auprès du professeur.
Etudiants
y = Avis 5 7 16 6 12 14 10 9 8
x=Résultat 8 11 10 13 9 17 7 15 16
4. Etablissez, sur base du modèle, l’avis pour un étudiant ayant obtenu 12/20.
Exercice 17. Considérons un échantillon de 10 employés d’un Centre Médical (ayant entre 40et
50 ans). Soit X le nombre d’années de service et Y le nombre de jours d’absence pour raison
de maladie (au cours de l’année précédente) déterminé pour chaque personne appartenant à cet
échantillon.
xi 2 14 16 8 13 20 24 7 5 11
yi 3 13 17 12 10 8 20 7 2 8
4. Etablissez, sur base de ce modèle, le nombre de jours d’absence pour un employé ayant 22
ans de service.
Deuxième partie
42
Chapitre 4
4.1 Introduction
La théorie ou le calcul des probabilités est la théorie mathématique, qui permet de modéliser
des phénomènes aléatoires, ou non déterministes.
Cette théorie permet de construire des modèles de ces phénomènes et permet le calcul : c’est à
partir d’un modèle probabiliste d’un jeu de hasard comme le jeu de dés que l’on peut prédire
les fréquences d’apparition d’événements comme le nombre de fois que l’on obtient une valeur
paire en jetant un dé un grand nombre de fois.
Lorsqu’on jette un dé on est certain qu’il va tomber sur la table ou le sol (phénomène détermi-
niste), mais on n’est pas capable de prédire la valeur qui va sortir (phénomène aléatoire).
Un phénomène déterministe est un phénomène dont on peut prévoir le résultat ; les lois de la
physique classique sont des modèles permettant de prédire le résultat d’une expérience donnée.
La loi d’Ohm, par exemple, permet de prédire la valeur de l’intensité du courant connaissant la
résistance et la tension aux bornes.
Définition 4.1.1 (Expérience aléatoire (ε)). C’est une expérience dont le résultat n’est pas
prévisible.
Exemple 6.
• le jet de dé
Définition 4.1.2 (Espace des éventualités ou Ensemble fondamental ou Univers). Pour une
expérience aléatoire donnée, l’ensemble des résultats possibles est appelé l’ensemble fondamental,
que nous noterons Ω. Chaque résultat d’expérience est un point ou un élément de Ω.
43
Le Calcul des Probabilités, Prof. Dr. Ndondo M. Apollinaire 44
Définition 4.1.3 (Evénement aléatoire). Un événement aléatoire est un événement qui, lors
d’une expérience aléatoire, peut ou ne pas se réaliser. On note les événements aléatoires par les
lettres majuscules de l’alphabet français en particulier : A, B, C, D, E, F, G, . . .
Un événement A est un sous ensemble de Ω, c’est-à-dire un ensemble de résultats.
L’événement {a}, constitué par un seul point de Ω, donc par un seul résultat, est appelé événe-
ment élémentaire.
L’ensemble vide ∅ ne contient aucun des résultats possibles : il est appelé événement impos-
sible.
L’ensemble Ω contient tous les résultats possibles : c’est l’événement certain.
Nota. Si Ω est fini, ou infini dénombrable, tout sous-ensemble de Ω est un événement ; ce n’est
pas vrai si Ω est non dénombrable (ceci sort du cadre de ce cours).
Exemple 7.
1. On jette un dé et on observe le résultat obtenu. L’ensemble fondamental est formé par les 6
résultats possibles : Ω = {1, 2, 3, 4, 5, 6}
L’événement correspondant à l’apparition d’un nombre pair est A = {2, 4, 6}, qui est bien un
sous ensemble de Ω. L’événement correspondant à l’apparition d’un nombre premier est B =
{1, 2, 3, 5}, et l’événement correspondant à l’apparition d’un 3 est C = {3}.
2. Dans l’exemple précédent Ω était fini et donc dénombrable ; Ω peut être infini dénombrable
comme dans le cas suivant. On jette une pièce de monnaie jusqu’à ce qu’on obtienne pile ;
l’ensemble fondamental correspondant est la suite des nombres entiers Ω = {1, 2, 3, . . . , n, . . .}
puisqu’on peut avoir un pile au bout d’un jet, de 2 jets, de n jets, n’étant aussi grand que l’on
veut.
3. On vise avec une fléchette une cible suffisamment grande ; si on admet que l’impact de la
fléchette sur la cible est très fin, comme le serait un point de la géométrie, l’espace fondamental
Ω est la surface de la cible qui est constituée de points et donc infini et non dénombrable (ceci
sort du cadre de ce cours).
Les événements peuvent se combiner entre eux pour former de nouveaux événements. Si A et B
sont deux événements, les opérations de combinaison sont :
Exemple 8. Soit ε "jet d’un dé homogène une fois". Les événements A "obtenir un chiffre pair"
et B "obtenir un chiffre impair" sont disjoints.
Définition 4.3.3 (les événements sont deux à deux disjoints). Deux événements A et B sont
indépendants si P (A ∩ B) = P (A)P (B)
Trois événements A, B et C sont indépendants
c1) s’ils sont indépendants 2 à 2 : A indépendant de B ; A indépendant de C ; et B indépendant
de C ;
c2) et si P (A ∩ B ∩ C) = P (A).P (B).P (C)
Définition 4.3.4 (symétrie mutuelle). Une expérience aléatoire admet la symétrie mutuelle si
tous les cas possibles a priori ont la même chance de se réaliser.
Exemple 9. On suppose qu’avant la naissance, garçon et fille ont la même chance de naitre.
Soit ε une expérience aléatoire possédant la symétrie mutuelle et soit A un événement relatif à
ε. On définit la probabilité par :
D’après Kolmogorov, la probabilité d’un événement est une application réelle notée P, à valeurs
dans l’intervalle [0,1], définie dans P(Ω) l’ensemble des parties de Ω
P : P(Ω) −→ [0, 1]
a) 0 ≤ P (A) ≤ 1
b) P (∅) = 0 et P (Ω) = 1
c) P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
N.B. Si A et B sont disjoints, c-à-d P (A ∩ B) = 0,
on a : P (A ∪ B) = P (A) + P (B)
d) P (A) + P (A) = 1
Exemple 10. Soit l’expérience aléatoire ε "jeu de 52 cartes". Considérons les événements ci-
après : A "tirer un As" et B "tirer une trèfle ".
On a :
A ∪ B "tirer au moins un As ou une trèfle "
A ∩ B "tirer un As et une trèfle".
Ainsi :
P (A) = 4/52; P (B) = 13/52; P (A ∩ B) = 1/52
A ∪ B = 4/52 + 13/52˘1/52 = 16/52 = 4/13 = 0, 31
|A ∩ B
P (A ∩ B) =
|Ω|
|B|
P (B) =
|Ω|
P (A ∩ B)
P (A|B) =
P (B)
Exemple 11. On jette une paire de dés bien équilibrés (espace équiprobable). On observe une
réalisation de l’événement {somme des dés = 6}. Quelle est la probabilité pour qu’un des deux
Le Calcul des Probabilités, Prof. Dr. Ndondo M. Apollinaire 47
P (A) = P (B1 ).P (A|B1 ) + P (B2 ).P (A|B2 ) + · · · + P (Bn ).P (A|Bn )
n
X
P (A) = P (Bi ).P (A|Bi )
i=1
Exemple 12. Trois coups sont tirés à la file sur une même cible.
La probabilité d’atteinte de la cible est respectivement égale p1 = 0.3 à au premier coup, p2 = 0.6
au 2e coup et p3 = 0.8 au 3e coup.
La probabilité de destruction de la cible est respectivement égale à
t1 = 0.4 quand elle est touchée une fois t2 = 0.7 quand elle est touchée deux fois t3 = 1 quand
elle est touchée trois fois
Quelle est la probabilité de détruire la cible quand 3 coups sont tirés
Soit A l’événement "détruire la cible quand 3 coups sont tirés"
B1 ≡ "détruire la cible après une" atteinte"
B2 ≡ "détruire la cible après deux" atteinte"
B3 ≡ "détruire la cible après trois" atteinte"
B4 ≡ "manque cible"
Le nombre d’atteintes de la cible est ≤ au nombre de coups tirés.
Après 3 coups tirés, on peut avoir une, deux ou trois atteintes.
Le Calcul des Probabilités, Prof. Dr. Ndondo M. Apollinaire 48
n
X
P (A) = P (Bi ).P (A|Bi ) = 0.6044
i=1
n
X
P (A) = P (Bi ).P (A|Bi )
i=1
Le théorème de Bayes montre comment les probabilités des causes sont modifiées lorsque l’évé-
nement qu’elles occasionnent est réalisé.
Exemple 13. L’événement A dont les causes équiprobables B1 , B2 , B3 , B4 sont telles que P (A|B1 ) =
0.7 ; P (A|B2 ) = 0.1 ; P (A|B3 ) = 0.1 ; P (A|B4 ) = 0.02.
On donne
P (B1 ) = P (B2 ) = P (B3 ) = P (B4 ) = 0.25
n
Que deviennent les causes si l’événement A est réalisé ? P (A) =
X
P (Bi ).P (A|Bi ) = 0.23
i=1
P (B1 ).P (A|B1 ) P (B2 ).P (A|B2 )
P (B1 |A) = = 0.76 ; P (B2 |A) = = 0.11 ;
P (A) P (A)
Le Calcul des Probabilités, Prof. Dr. Ndondo M. Apollinaire 49
X : Ω −→ R
telle qu’à tout résultat possible de l’expérience aléatoire (à tout élément de Ω), la variable
aléatoire X fait correspondre un nombre réel. Lorsque Ω est fini ou infini dénombrable, toute
application de Ω dans R est une variable aléatoire, puis que la définition rigoureuse d’une variable
aléatoire X impose que tout intervalle de R soit l’image d’une partie de Ω par l’application X.
Or toute partie de Ω est un événement aléatoire.
On parle de variable aléatoire discrète lorsque la variable est une application de Ω dans un sous
ensemble discret de R, le plus souvent N ou une partie de N . On parle sinon de variable aléatoire
continue.
En d’autres termes, la variable aléatoire X est discrète, si X(Ω) ⊆ N ;la variable aléatoire X
est continue, si X(Ω) ⊆ R ou si X(Ω) est un intervalle de R.X(Ω) est l’ensemble-image de la
variable aléatoire X ou l’ensemble de valeurs possibles que prend la variable aléatoire X. Pour
un nombre entier a donné, l’événement constitué de tous les résultats ξi d’expérience aléatoire
50
Variable aléatoire et distributions de probabilités, Prof. Dr. Ndondo M. Apollinaire 51
n
X
(∀), π ≥ 0 et π=1
i=1
La distribution de probabilités de la v.a.d est représentée La fonction de répartition est une fonc-
tion en escalier. Les discontinuités se produisent pour les valeurs xi possédant des probabilités
non nulles. Pour chacune de ces valeurs de xi , la hauteur d’une discontinuité est la probabilité
de l’événement aléatoire X = xi .Dans tous les cas, F (x) est une fonction monotone croissante,
c’est-à-dire
F(b) ≥ F(a)sib ≥ 0
De plus
lim F(x) = 0 et lim F(x) = 1
x−→−∞ x−→−∞
La généralisation au continu est délicate et même difficile si on ne dispose pas d’outils mathé-
matiques hors du champ de ce cours. Nous nous contenterons de procéder par analogie avec le
cas discret. Une variable aléatoire X dont l’ensemble-image X(ω) est un intervalle de R est une
variable aléatoire continue (continue par opposition à discrète).
Rappelons que, par définition d’une variable aléatoire,a ≤ X ≤ b est un événement aléatoire de
Ω dont la probabilité est bien définie.
On définit la loi de probabilité de X, ou distribution de probabilité de X, à l’aide d’une fonction
Variable aléatoire et distributions de probabilités, Prof. Dr. Ndondo M. Apollinaire 52
Z b
f (x)dx = P (a ≤ X ≤ b)
a
En utilisant cette analogie, on admettra les définitions suivantes pour une variable aléatoire X,
continue, de densité de probabilité f (x) :
1° f (x) ≥ (analoguepi ≥ 0)
R +∞ P
2° −∞ f (x) = 1 (analogue à i pi = 1)
Rx P
3° F (x) = P (X 6 x) = −∞ f (τ )dτ (analogue à xi ≤x pi )
Rb
4° P (a ≤ X ≤ b) = a f (x)dx = F (b) − F (a) Les propriétés de la fonction de répartition F sont
telle que : F fonction monotone croissante, partant de 0 pour x −→ −∞ et atteignant 1 pour
.
Remarque 3. Si f est donnée, la probabilité P (a ≤ X ≤ b)est l’aire sous la courbe entre les
verticales passant respectivement par a et b
en f(x)dx.
Z
µ = E(X) = abxf (x)dx
Variable aléatoire et distributions de probabilités, Prof. Dr. Ndondo M. Apollinaire 53
n n
!2
X X
variance : σ 2 = V ar(X) = E(X 2 ) − µ2 = x2i pi − xi pi
i=1 i=1
√
Ecart − type : σ = σ2
Z b Z b !2
2 2 2 2
variance : σ = V ar(X) = E(X ) − µ = x f (x)dx − xf (x)dx
a a
√
Ecart − type : σ = σ2
Nous ne traitons que le cas de deux variables aléatoires discrètes. Soient X et Y deux variables
aléatoires discrètes sur un même espace fondamental Ω. Etant donnée la loi conjointe d’un couple
aléatoire réel discret (X, Y ), la loi marginale de Xest la loi de probabilité de X. Elle se calcule en
faisant la somme, pour toutes les valeurs possibles de yj , des probabilités P ([X = xi ]∩[Y = yj ]) :
X
P (X = xi ) = P ([X = xi ] ∩ [Y = yj ])
yj
De même, la loi marginale de Y est la loi de probabilité de Y . Elle se calcule en faisant la somme,
pour toutes les valeurs possibles de xi , des probabilités P ([X = xi ] ∩ [Y = yj ]) :
X
P (Y = yj ) = P ([X = xi ] ∩ [Y = yj ])
xi
Les lois marginales se représentent, habituellement, par les sommes des lignes et des colonnes
du tableau de la loi conjointe :
Table 5.1
X/Y yi ··· yi ··· Total loi marginale de X
Xi P ([X = xi ] ∩ [Y = yj ]) ··· P ([X = xi ] ∩ [Y = yj ]) ··· P (Y = yi )
··· ··· ··· yi ··· ···
xi P ([X = xi ] ∩ [Y = yj ]) ··· P ([X = xi ] ∩ [Y = yj ]) ··· P (Y = yi )
··· ··· ··· ··· ··· ···
Total loi marginale de Y P (Y = yi ) ··· P (Y = yi ) ··· 1
Variable aléatoire et distributions de probabilités, Prof. Dr. Ndondo M. Apollinaire 54
Les variables aléatoires réelles discrètes X et Y sont dites indépendantes si, et seulement si, la
loi conjointe est le produit des lois marginales, c-à-d, tous les événements X = xi et Y = yj sont
indépendants : P ([X = xi ] ∩ [Y = yj ])=P ([X = xi ] × P [Y = yj ])∀ les couples(i, j)
Il en découle les propriétés importantes suivantes : si Xet Y sont indépendantes, on a (attention
la réciproque n’est pas toujours vraie) :
1. E(XY ) = E(X) × E(Y )
2. var(X + Y ) = var(X) + var(Y )
3. cov(X, Y ) = 0
Chapitre 6
Quelques distributions de
probabilités usuelles
Une variable aléatoire discrète X qui ne prend que les valeurs 1 et 0 avec les probabilités
respectives p et q = 1 − p est appelée variable de BERNOULLI ou variable indicatrice. Plus
généralement, on utilisera une variable de Bernoulli lorsqu’on effectue une épreuve qui n’a que
deux éventualités : le succès et l’échec (ou la présence et absence d’une certaine caractéristique
sur les individus d’une population). Une telle expérience est alors appelée épreuve de Bernoulli.
On affecte alors 1 à la variable en cas de succès et 0 en cas d’échec :
P (X = 1) = p et P (X = 0) = 1 − p = q avec X(Ω) = {0, 1} on note : X ' B(1, p)
2
X
µ = E(X) = xi pi = (0 × q) + (1 × p) = p
i=1
55
Quelques distributions de probabilités usuelles, Prof. Dr. Ndondo M. Apollinaire 56
Exemple 15. Une urne contient cinq boules : une rouge et quatre vertes. On tire une boule
de l’urne. La variable aléatoire X =nombre de boules rouges tirées est une variable de Ber-
1 4
noulli.On a :P (X = 1) = = p et P (X = 0) = = q
5 5
a) On effectue une épreuve de Bernoulli. Elle n’a donc que deux issues : le succès avec une
probabilité p ou l’échec avec une probabilité q. b) On répète n fois cette épreuve c) Les n
épreuves sont identiques et indépendantes entre elles, ce qui signifie que la probabilité de
réalisation de l’événement "succès" est la même à chaque épreuve et est toujours égale à p.
Dans cette situation, on s’intéresse à la variable X ="nombre de succès au cours de ces n
épreuves".
Définition 6.1.1. Une variable aléatoire X suit une loi binomiale B(n, p) si elle prend les
(n + 1) valeurs 0, 1, 2, ..., n avec les probabilités :
P (X = k) = Cnk pk q nk où k ∈ 0, 1, 2, ..., n
Une variable Binomiale B(n, p) peut être interprétée comme la somme de n variables de
Bernoulli indépendantes et de même paramètre p. On note : X ' B(n, p). La loi binomiale
dépend de deux paramètres n et p L’adjectif binomial vient du fait que lorsqu’on somme toutes
ces probabilités, on retrouve le développement du binôme de Newton :
n n
= Cnk pk q nk où k ∈ 0, 1, 2, ..., n
X X
P (X = k) =
k=0 k=0
Exemple 16. Dans une population donnée, 30% d’individus sont vaccinés contre une maladie
donnée. Quelle est la probabilité pour qu’il y ait, dans un échantillon aléatoire de 10 personnes
tirées de cette population, exactement 4 personnes vaccinées ? On a : p = 0, 30 ; q = 0, 70; n =
10; k = 4. Dès lors P4 = C10
4 (0, 304 )(0, 70)10−4 = 0, 20
a. Moyenne : µ = np
b. Variance :σ 2 = npq
√
c. Ecart-type :σ = npq
On retiendra qu’il y a deux types d’approximation, l’une par une loi discrète (ce sera souvent
le cas pour des événements — rares avec p très petit, tendant vers zéro), l’autre par une loi
continue. Les conditions de validité des approximations dépendent de la précision exigée.
En pratique :
1. Dès que n > 20 et np < 5 , alors la loi B(n, p) est proche de la loi de Poisson P (np).
2. Dès que np(1 − p) > 9, la loi B(n, p) est proche de la loi normale N (np, np(1 − p))
Beaucoup de situations sont liées à l’étude de la réalisation d’un événement dans un intervalle
de temps donné (arrivée de clients qui se présentent à un guichet d’une banque en une heure,
apparitions de pannes dans un réseau informatique en une année, arrivée de malades aux
urgences d’un hôpital en une nuit,....). Les phénomènes ainsi étudiés sont des phénomènes
d’attente.
Pour décrire les réalisations dans le temps d’un événement donné, on peut :
• soit chercher le nombre de réalisations de l’événement dans un intervalle de temps donné
qui est distribué suivant une loi de Poisson.
• soit chercher le temps entre deux réalisations successives de l’événement qui est distribué
suivant une loi exponentielle. La loi de Poisson peut être interprétée comme un cas limite
d’une loi binomiale et la seconde comme un cas limite d’une loi géométrique.
(1) la probabilité pour que l’événement se réalise une fois, au cours d’un petit intervalle de
temps ∆t , est proportionnelle à la taille de l’intervalle et vaut α∆t , où α est une valeur
positive que l’on suppose constante tout au long de la période d’observation ;α représente le
nombre moyen de réalisations par unité de temps et on l’appelle l’intensité du processus ;
(2) la probabilité que l’évènement se produise dans un intervalle est indépendante de la pro-
babilité d’apparition dans n’importe quel intervalle disjoint ; c’est-à-dire que le nombre de
réalisations au cours d’un intervalle de temps est indépendant du nombre de réalisations au
cours d’intervalles de temps antérieurs ;
(3) il n’y a pas d’évènements simultanés, c’est-à-dire que la probabilité pour que l’événement
se réalise plus d’une fois au cours de l’intervalle de temps ∆t est négligeable. Sous les hy-
pothèses du processus de Poisson, la variable aléatoire X = "nombre de fois où l’événement
considéré se réalise au cours d’un intervalle de temps de durée t est distribuée suivant une
loi de Poisson de paramètre λ = αt Nous cherchons alors à déterminer la loi de probabilité
de la variable X, sachant que le nombre moyen de réalisations de cet événement par unité
de temps est α. Une variable aléatoire X suit une loi de Poisson, si elle prend des valeurs
λk − e−λ
entières k avec les probabilités : P (X = k) = Pk = où k ∈ 0, 1, 2, ..., nect.. = 2, 718
k!
on note :X ' P (λ)
La loi de Poisson peut s’appliquer au nombre des pannes d’une machine dans une entreprise,
au nombre d’accidents, au nombre de fautes dans un texte, à l’apparition de pannes dans un
réseau informatique, à l’apparition d’anomalies diverses, à l’arrivée de malades aux urgences
d’un hôpital en une nuit, à l’arrivée de clients qui se présentent à un guichet d’une banque
en une heure, à la gestion des files d’attentes, au nombre de colonies bactériennes dans une
boîte de Pétri, etc.
Exemple 17.
1. Soit X la variable aléatoire du nombre de personnes réservant un billet d’avion pour Berlin
le 6 février à 9H30. X X suit en théorie une loi binomiale dont l’effectif est très grand (tous
les clients potentiels, des millions), et le paramètre p est infinitésimal (la probabilité pour
qu’un individu lambda ait envie de se rendre à Berlin le 6 février par le vol de 9H30). On
approxime en général la loi de X par la loi de Poisson de paramètre np.
2. Dans une grande usine, le nombre moyen d’accidents sérieux est de 5 par an. Si le nombre
d’employés reste constant, quelle est la probabilité pour que dans l’année en cours il y ait
exactement 7 accidents ?
Quelques distributions de probabilités usuelles, Prof. Dr. Ndondo M. Apollinaire 59
57 × (2, 718)−5
P (X = 7) = P7 = = 0, 104
7!
a) On effectue une épreuve de Bernoulli. Elle n’a donc que deux éventualités : le succès avec une
probabilité p ou l’échec avec une probabilité q = 1 − p.
b) On répète l’épreuve jusqu’à l’apparition du premier succès.
c) Toutes les épreuves sont indépendantes entre elles, ce qui signifie que la probabilité de réali-
sation de l’événement "succès" est la même à chaque épreuve et est toujours égale à p.
Dans cette situation, on s’intéresse à la variable X = "nombre de fois qu’il faut répéter l’épreuve
pour obtenir le premier succès". On est donc dans les mêmes hypothèses que pour la loi bino-
miale, mais le nombre d’épreuves n’est pas fixé à l’avance. On s’arrête au premier succès. On
cherche la probabilité d’avoir recours à k épreuves pour obtenir le premier succès :
Ce succès a une probabilité de réalisation de p. Puisque c’est le premier, il a été précédé de
Quelques distributions de probabilités usuelles, Prof. Dr. Ndondo M. Apollinaire 60
(k − 1) échecs qui ont chacun eu la probabilité q de se produire. Étant donné l’indépendance des
épreuves, on peut dire que la probabilité de réalisation de (k − 1) échecs suivis d’un succès est
le produit des probabilités de réalisation de chacun des résultats.
Définition 6.1.3. Une variable aléatoire X suit une loi géométrique de paramètre p, si elle
prend des valeurs entières k avec les probabilités :
on note :X ' G( p)
L’appellation géométrique vient du fait qu’en sommant toutes les probabilités, on obtient une
série géométrique :
X X p
p(1 − p)n−1 = p (1 − p)n−1 = =1
n∈N ∗ n∈N ∗
1 − (1 − p)
Exemple 18. Quelle est la probabilité qu’au 3è choix, l’individu désigné soit malade dans une
population où la fréquence de la maladie est de 17% ? P (X = 3) = P3 = q 3−1 × p = (1 −
0, 17)3−1 × 0, 17 = 0, 832 × 0, 17 = 0, 117
La propriété la plus importante de la loi géométrique est sans doute d’être sans mémoire.
En effet, la loi de probabilité du nombre d’épreuves à répéter jusqu’à l’obtention d’un premier
succès dans une suite d’épreuves de Bernoulli identiques indépendantes est la même quel que
soit le nombre d’échecs accumulés auparavant. On comprend intuitivement que cela découle de
l’indépendance des épreuves qui sont toutes identiques. C’est la seule loi discrète qui possède
cette propriété.
lation finie de taille N qui contient N1 succès. Une variable aléatoire X suit une loi hypergéo-
métrique de paramètres N, N1 et n, si elle prend des valeurs entières k avec les probabilités :
C k C n−k
P (X = k) = Pk = N1 nN −N1 où max(0, n − N2 ) ≤ k ≤ min(N1 , n)etN2 = N − N1
CN
on note :X ' H(N, N1 , n)
Lors du contrôle qualitatif, on détermine, selon le cas, le nombre k d’articles non conformes
dans l’échantillon par rapport à des spécifications préalablement définies, ou bien le nombre de
non-conformités présentes sur les articles de l’échantillon. Le lot est accepté si ce nombre k est
inférieur ou égal à une valeur σ préalablement fixée.
La taille n de l’échantillon et le nombre maximum σ d’articles non conformes ou de non conformi-
tés sont définis avant le contrôle, en fonction du risque du producteur et du risque de l’acheteur.
Le risque du producteur correspond à la probabilité de rejeter le lot, alors que la qualité de
ce lot est satisfaisante. Le risque de l’acheteur est la probabilité d’accepter le lot, alors que la
qualité du lot n’est pas satisfaisante. Ces notions de risque sont directement liées à la courbe
d’efficacité du plan d’échantillonnage qui donne la probabilité d’accepter le lot, en fonction de
la qualité réelle du lot. Selon la situation envisagée, l’établissement de la courbe repose sur l’uti-
lisation d’une des trois lois de probabilité suivantes : la distribution binomiale, la distribution
hypergéométrique ou la distribution de POISSON.
On prélève un échantillon d’effectif n dans un lot de taille N et on détermine le nombre d’ar-
ticles non conformes k présents dans l’échantillon. Le lot est accepté si k > σ, σ ; il est rejeté si
, étant fixé. La courbe d’efficacité donne, pour différentes valeurs du nombre N1 d’articles non
conformes dans le lot, la probabilité :P (X 6' N 1). On considère alors que la variable aléatoire
X suit une distribution hypergéométrique dont les paramètres sont N , N1 et n.
événements successifs où le nombre moyen de réalisations de l’événement par unité de temps est
α.
Définition 6.2.1. Une variable aléatoire continue T suit une loi exponentielle de paramètre α,si
elle prend les valeurs positives réelles t telles que :
R +∞
P (T > t) = F (t) = αe−αt = t αe−αu du où t > 0 et e = 2, 718 la fonction de densité de la
variable aléatoire continue T est
f (x) = αe−αt si t > 0
On note :X ' Exp(α)
On rencontre souvent des phénomènes complexes qui sont le résultat de causes nombreuses, plus
ou moins indépendantes, dont les effets s’additionnent et dont aucune n’est prépondérante. Une
situation où la distribution dépend de telles causes est modélisée par une distribution normale.
C’est le cas, par exemple en biologie, pour la distribution de caractères biométriques comme la
taille ou le poids d’individus appartenant à une population homogène.
Définition 6.2.2. On parle de loi normale lorsque l’on a affaire à une variable aléatoire conti-
nue dépendant d’un grand nombre de causes indépendantes dont les effets s’additionnent et dont
aucune n’est prépondérante (conditions de Borel). Cette loi acquiert sa forme définitive avec
Gauss_ (en 1809) et Laplace (en 1812). C’est pourquoi elle porte également les noms de : loi
de Laplace, loi de Gauss et loi de Laplace-Gauss. Une variable aléatoire continue X suit une loi
normale de paramètres, si elle prend les valeurs réelles x suivant la densité de probabilité donnée
par :
1 x − µ2
1 σ
f (x) = √ e2 où x ∈ R
2πσ
Les probabilités sont données par :
Rx
P (X < x) = F (x) = −∞ f (v)dv avec − ∞ ≤ x ≤ +∞
Quelques distributions de probabilités usuelles, Prof. Dr. Ndondo M. Apollinaire 64
a. Moyenne : E(X) = µ
b. Variance : V ar(X) = σ 2
c. Ecart-type :S( X) = σ
P (a ≤ X ≤ b) = P (c ≤ Z ≤ d)
a−µ b−µ
avec c = et d =
σ σ
La probabilité cherchée, sur la variable X, revient donc à lire sur la table de la loi normale
centrée réduite (variable Z), la probabilité de se trouver entre c et d.
Exemple 20. Le poids moyen d’un échantillon de 50 étudiants vaut 78kg avec un écart-type
de 10kg. Déterminer le poids centré-réduit d’un étudiant pesant 93kg.µ = 78kg, σ = 10kg et
X = 93kg. Par transformation
93 − 78
Z= = 15Kg
10
La fonction de répartition d’une variable normale de paramètres (µ, σ) peut toujours s’exprimer
à l’aide de la fonction de répartition F de la variable normale centrée réduite avec µ = 0 et σ = 1 :
u−µ
P (Z < u) = F ( ) = F (u)
σ
b−µ a−µ
P (a < Z < b) = F ( ) − F( ) = F (b) − F (b)
σ σ
Quelques distributions de probabilités usuelles, Prof. Dr. Ndondo M. Apollinaire 65
Les valeurs F(u) de la fonction de répartition F de la variable normale centrée réduite se lisent
dans la table pour u ≥ 0.
La première colonne de la table indique les unités et les dixièmes des valeurs de Z, alors que
les centièmes des valeurs de Z se lisent sur la ligne supérieure de la table. La valeur trouvée à
l’intersection de la ligne et de la colonne adéquates donne l’aire cherchée.
Nota. Si la valeur de l’aire ne peut se lire directement dans les valeurs de la table, on pourra
toujours effectuer une interpolation linéaire entre deux valeurs adjacentes ou prendre la valeur
la plus proche.
La formule de l’interpolation linéaire :
Si la valeur z est coincée entre les valeurs z2 et z1 dont les aires correspondantes sont p2 et p1,
pour trouver l’aire p correspondant à z, on applique la formule ci-après :
z − z1 p − p1 z − z1
= =⇒ p = p1 + (p2 − p1 )
z2 − z 1 p2 − p1 z2 − z1
Définition 6.2.3. Soient X1 , . . . , Xn des variables aléatoires indépendantes, chacune étant dis-
tribuée selon une loi normale centrée réduite.
Quelques distributions de probabilités usuelles, Prof. Dr. Ndondo M. Apollinaire 66
La distribution de S = X12 + ... + Xn2 (somme des carrés des Xi) est appelée distribution de
X 2 à n degrés de liberté (en abrégé ddl). On note : X '2 (n) où n est le nombre de ddl, seul
paramètre de la loi.
a. Moyenne : E(X) = n
b. Variance : V ar(X) = 2n
√
c. Ecart-type :S( X) = 2n
Remarque 7. (1) De même que pour la loi normale centrée réduite, une table existe pour la
loi du X 2 Cette table indique pour une probabilité α donnée, et un degré de liberté n donné, la
valeur telle que P (X > kα,n ) = α . (2) La distribution du X 2 est dissymétrique et tend à devenir
symétrique lorsque n augmente en se rapprochant de la distribution normale à laquelle elle peut
être assimilée lorsque n > 30.
Définition 6.2.4. On considère une première variable aléatoire X, distribuée selon une loi
normale centrée réduite, puis une seconde variable Y , indépendante de X, distribuée selon une
√ X
loi X 2 à n degrés de liberté. Alors la variable aléatoire T = n √ est distribuée selon une loi
Y
de Student à n degré de liberté. On note : t( n).
Quelques distributions de probabilités usuelles, Prof. Dr. Ndondo M. Apollinaire 67
a.Moyenne :E(X) = 0
n
b.Variance :V (X) =
rn − 2
n
c.Ecart-type :Sx =
n−2
Remarque 8. 1) Les valeurs tabulées de la variable T dépendent d’un seuil α que l’on peut
choisir et du nombre de degré de liberté n. La table donne la valeur tα,n définie par P (|T | >
tα,n) = α . 2) La courbe correspondante est symétrique autour de 0, et son allure est proche de
celle de la loi normale. 3) Lorsque n croît, en pratique pour n > 30, la variance peut être prise
égale à 1, et la distribution est assimilée à celle d’une loi normale centrée réduite.
(4) La loi de Student (ou loi de Student-Fisher) est utilisée lors des tests de comparaison de
paramètres comme la moyenne et dans l’estimation de paramètres de la population à partir de
données sur un échantillon (Test de Student). Student est le pseudonyme du statisticien anglais
William Gosset qui travaillait comme conseiller à la brasserie Guinness et qui publia en 1908
sous ce nom, une étude portant sur cette variable aléatoire.
X12
n
F = 12
X2
n2
Remarque 9. (1) Les valeurs tabulées de la variable F dépendent d’un seuil que l’on peut
choisir et des nombres de degré de liberté n1 et n2 . La table donne la valeur Fα (n1 , n2 ) définie
par P (F > α(n1 , n2 )) = α
Il faut faire attention à l’ordre de n1 et n2 : n1 représente le nombre de degrés de liberté du
numérateur et n2 celui du dénominateur et ne peuvent être intervertis.
(2) La loi de Fisher-Snedecor est utilisée pour comparer deux variances observées et sert surtout
dans les très nombreux tests d’analyse de variance et de covariance.
Exercice 18.
1. Une famille de deux enfants a au moins une fille. Quelle est la probabilité pour que cette
famille ait deux filles ?
2. Une famille de deux enfants a au moins une fille qui s’appelle Sophie. Quelle est la pro-
babilité pour que cette famille ait deux filles ?
Exercice 19. En première année de médecine, parmi les 1000 inscrits, on compte 400 filles. Il
y a 300 reçus dont 200 filles. Quelle est la probabilité d’être reçu sachant que l’on est une fille ?
Exercice 20. Au sein d’une population de 1 000 individus, on en a dénombré 120 atteints d’une
maladie M, les 880 autres étant indemnes de cette maladie.
a) Quelle est la probabilité pour qu’un individu tiré au hasard au sein de cette population soit
atteint de la maladie M ?
b) On observe un petit échantillon de 5 sujets tirés au hasard (avec remise) au sein de cette
population. Quelle est la probabilité que les 5 sujets soient indemnes de la maladie M ?
Exercice 21. La probabilité de naissance d’un garçon est de 0,51.Un couple a décidé de fonder
une famille de 4 enfants. Il désirait avoir trois filles et un garçon. En supposant l’absence de
possibilité de grossesse multiple, quelles sont les probabilités que le couple réalise son vœu :
Exercice 22. Dans une maternité on constate que sur l’ensemble des accouchements, 20 %
présentent des complications et 10 % ont lieu avant le terme normal (40 semaines).
b) En fait, il y a 40% de complications quand l’accouchement a lieu avant terme. Dans ces
conditions, quelle est la probabilité :
Exercice 23. On suppose que la femme en période d’activité génitale est fécondable entre le 11e
jour du cycle et le 16e jour du cycle. Soit Pt la probabilité de fécondation au jour t quand il y a
eu un rapport et Xt la variable dichotomique prenant la valeur 1 s’il y a un rapport le jour t et
0 sinon.
Exercices, Prof. Dr. Ndondo M. Apollinaire 70
a) Calculer la probabilité P(c) de fécondité pour un cycle en supposant que la fécondité est
indépendante d’un jour à l’autre pour une femme donnée.
Exercice 24. Une enquête sur la taille (en cm) de 60 personnes donne les résultats suivants :
190 170 152 166 168 175 172 191 157 158
184 186 173 149 188 172 160 181 180 163
167 173 198 171 171 180 169 175 177 172
178 167 181 168 169 180 173 166 164 170
190 162 183 166 170 182 168 167 169 159
157 188 172 171 168 169 160 149 180 170
a) Grouper ces données par classes d’amplitude 10 cm Quelle est la probabilité pour une personne
Exercice 25. Dans le cadre d’un essai thérapeutique, on souhaite constituer un échantillon
aléatoire de 4 patients parmi les 15 patients vérifiant les critères d’inclusion dans l’essai et
présents un jour donné dans un service de médecine.
ii) Comment constituer cet échantillon si on souhaite qu’il soit composé de 2 femmes et 2
hommes, parmi les 15 patients du service répartis en 7 femmes et 8 hommes.
Exercice 26. Un patient peut avoir l’une de deux formes (A et B) d’une maladie M avec les
probabilités suivantes : P (A) = 0, 57 et P (B) = 0, 43. Chaque forme correspond à un traitement
différent (TA ou TB ) qui peuvent tous les deux donner un même effet secondaire grave (G) avec
les probabilités suivantes :P (GA ) = 0, 09 et P (GB ) = 0.04
a) La probabilité qu’un patient, pris au hasard dans la population de malades traités pour la
maladie M, ne présente pas l’effet secondaire G vaut ?
b) Trois sujets chez qui on a diagnostiqué la maladie M, sans que l’on sache encore la forme (A
ou B) , sont admis dans un service hospitalier. La probabilité a priori que l’un d’entre eux
seulement présente l’effet secondaire G une fois le traitement adapté mis en place vaut ?
Exercice 27. A partir des données obtenues ces dernières années, on peut supposer que l’âge
auquel un enfant commence à marcher suit une loi normale de moyenne et d’écart-type .
Exercices, Prof. Dr. Ndondo M. Apollinaire 71
i) Quelle est la probabilité qu’un enfant commence à marcher avant : 11 mois, 15 mois ?
iii) Quelle est la probabilité qu’un enfant commence à marcher exactement à 13 mois ?
Exercice 28. L’ hémocult est un test biologique utilisé pour le diagnostic du cancer du côlon.
Sachant que :
• 0,5 % des personnes sont atteintes de cette pathologie dans la population générale
• Le test est positif dans 60% des cas chez les sujets atteints du cancer côlon
• Pour un sujet indemne de la maladie, le test est positif dans 2% des cas
i) Calculer la probabilité qu’un sujet ne soit pas atteint d’un cancer du côlon, sachant que le
résultat du test est négatif.
ii) En supposant indépendants les résultats successifs du test chez un même sujet, évaluer la
probabilité que le test soit négatif 3 fois de suite chez un sujet non atteint de cancer du
côlon.
Exercice 29. Les congolais de plus de 50 ans ont des poids distribués approximativement selon
la loi de Gauss avec une moyenne de 60Kg et un écart – type de 4Kg.
i) Si un congolais est tirée au hasard, quelle est la probabilité que son poids dépasse 68 Kg ?
ii) Si on tire au hasard un échantillon de 25 congolais, quelle est la probabilité que la moyenne
des poids de l’échantillon dépasse 68 Kg.
Troisième partie
NOTIONS D’INFERENCE
STATISTIQUE
72
Notions d’inférence, Prof. Dr. Ndondo M. Apollinaire 73
• Le problème d’estimation
* L’estimation ponctuelle
7.1 Généralités
Etudier une population dans son ensemble se heurte à certaines contraintes : le coût, la main
d’œuvre, le matériel, le délai d’exploitation, la qualité des résultats. C’est ainsi que l’on ramène
l’étude à une partie de la population, l’échantillon. À partir des résultats mesurés sur cet échan-
tillon, nous essayons d’induire des conclusions valables pour l’entièreté de la population : c’est
la partie de la statistique que l’on appelle statistique inductive ou l’inférence statistique. De
manière générale, l’inférence statistique consiste à induire les caractéristiques inconnues d’une
population à partir d’un échantillon issu de cette population. Les caractéristiques de l’échan-
tillon, une fois connues, reflètent avec une certaine marge d’erreur (la limite de confiance, le
risque) celles de la population.
Il faudrait alors prendre en considération la représentativité de l’échantillon et les fluctuations
d’échantillonnage pour éviter que les résultats manquent d’exactitude.
L’échantillon est représentatif de la population, s’il est prélevé d’une manière aléatoire, c’est-à-
dire que tous les éléments de la population ont la même probabilité d’être choisis. Les méthodes
de sélection d’un échantillon représentatif ont été vues au 1.1.1 f) au chapitre I.
Les fluctuations d’échantillonnage sont imprévisibles : le hasard peut produire n’importe quel
écart par rapport à la valeur observée. C’est ainsi qu’au moyen des calculs des probabilités, le
statisticien définit un intervalle autour de la valeur observée, intervalle qui contient probable-
ment la vraie valeur : c’est l’intervalle de confiance, plus couramment, la fourchette.
74
Théorie statistique de l’estimation, Prof. Dr. Ndondo M. Apollinaire 75
Mais la fourchette n’a de signification qu’assortie d’un certain risque d’erreurs. On adopte sou-
vent un risque de 5% au niveau de confiance de 95%.
On considérera généralement des intervalles de confiance de niveau 1 − α. La valeur α sera alors
le risque, "la probabilité" pour qu’un intervalle de confiance ne contienne pas la valeur observée.
7.2 Estimation
Le problème de l’estimation statistique est le suivant : on cherche à connaître les valeurs de cer-
taines caractéristiques d’une variable aléatoire grâce à des observations réalisées sur un échan-
tillon.
Un grand nombre de problèmes statistiques consistent en la détermination de la moyenne "vraie",
sur la base d’observations réalisées sur un échantillon. Cependant, on peut aussi chercher à
connaître les valeurs d’autres caractéristiques, comme par exemple les variances.
Exemple 21.
a. quelle est la fréquence de survenue de tel type de cancer chez les souris ?
b. quelle est la vraie valeur de la glycémie de ce patient ?
c. quelle est la variance de la glycémie mesurée chez ce patient ?
Il est bien sûr impossible de répondre à ces questions au sens strict. On y apporte généralement
deux types de réponses :
1. On produit une valeur qui nous semble être la meilleure possible : on parle alors d’estimation
ponctuelle.
Dans la suite, on note X la variable aléatoire dont on cherche à estimer une caractéristique, aussi
appelée paramètre, dont la valeur est notée θ. Par exemple le paramètre peut être la glycémie, et
sa valeur celle du patient considéré.
Estimer un paramètre d’une population, c’est donc en chercher une valeur approchée en se basant
sur les résultats obtenus dans un échantillon.
On parle d’estimation ponctuelle lorsque dans une population donnée, l’estimation d’un para-
mètre est donnée par une seule valeur.
Si la population est de taille N, tout échantillon représentatif de taille n tiré de cette population
est une combinaison de N éléments pris n à n.
Théorie statistique de l’estimation, Prof. Dr. Ndondo M. Apollinaire 76
A partir des échantillons de tailles n, on construit une nouvelle variable aléatoire notée Tn et
appelée estimateur de θ.
Si E(Tn ) = θ, alors on dit que Tn est un estimateur sans biais ; sinon on dit que Tn est un
estimateur biaisé et son biais est mesuré par E(Tn ) − θ.
Nous allons déterminer quels sont les estimateurs non biaisés de l’espérance mathématique et
de la variance d’un paramètre de la population :
Dans la population,
N N
1 X 1 X
µ= xi et σ 2 = (xi − µ)2
N i=1 N i=1
n n
1X 1X
x̄ = xi et S 2 = (xi − x̄)2
n i=1 n i=1
n n
!
1X 1X nµ
E(x̄) = E xi = E(xi ) = =µ
n i=1 n i=1 n
Ceci montre que la moyenne de l’échantillon est un estimateur non biaisé de la moyenne de la
population µ.
L’espérance mathématique de la variance de l’échantillon vaut :
n n
! !
1X 1X
E(S 2 ) = E (xi − x̄)2 =E [(xi − µ) − (x̄ − µ)]2
n i=1 n i=1
Après un raisonnement essentiellement mathématique, dont nous nous épargnons les détails,
nous avons :
n
" !#
2 1 X
E(S ) = E (xi − µ)2 − n(x̄ − µ)2
n i=1
n h
1X i h i
= (xi − µ)2 − E (x̄ − µ)2
n i=1
1
= Var(xi ) − Var(x̄)
n
σ2 n−1 2
= σ2 − = σ
n n
n
Sb = S2
n−1
Théorie statistique de l’estimation, Prof. Dr. Ndondo M. Apollinaire 77
Exemple 22. 1546 élèves sont inscrits dans un lycée. On veut obtenir une estimation de la
moyenne et de l’écart-type du poids des élèves du lycée. Pour ce faire, on mesure le poids des
élèves d’un échantillon représentatif. Les mesures sont reprises dans le tableau suivant :
n=100
Déterminez une estimation non biaisée de la moyenne et une estimation de l’écart-type du poids
des élèves du lycée sur base de cet échantillon.
Le poids moyen de l’échantillon est :
1P
x̄ = poidsi × effectifi = 67, 45kg
n
Donc, une estimation non biaisée du poids moyen de la population des élèves du lycée est de
67.45 kg.
L’écart-type de l’échantillon vaut
sP
effectifi × (poidsi − x̄)2
S= = 3, 01kg
n
Par conséquent, une estimation non biaisé de l’écart-type de la population de tous les élèves du
lycée est : s
n 100
r
Sb = S= × 3, 01 = 3, 03kg
n−1 100 − 1
Nous constatons sur cet exemple que si la taille l’échantillon est grande (n>30), il
y a peu de différence entre S et S
b
Théorie statistique de l’estimation, Prof. Dr. Ndondo M. Apollinaire 78
De façon générale, l’intervalle de confiance au risque α d’une valeur que l’on cherche à estimer est
un intervalle qui contient avec une probabilité 1 − α la valeur cherchée ; il s’agit d’un intervalle
que l’on devra être en mesure de construire à l’issue d’une expérience portant sur un échantillon.
Soit une population infinie caractérisée par une variable aléatoire X dont on cherche à estimer
une caractéristique, un paramètre et dont on connait la loi de probabilité (la loi normale est
utilisée comme la loi de probabilité par défaut).
Soit θ la valeur du paramètre à estimer.
Soit Tn un estimateur sans biais de θ.
Il est question de trouver "d" la limite telle que
P (Tn − d ≤ θ ≤ Tn + d) = 1 − α (7.1)
Où 1 − α est un niveau de confiance imposé dès le départ de l’étude ( très petit, le risque
d’erreur).
P (Tn − d ≤ θ ≤ Tn + d) = 1 − α ⇐⇒ P (Tn − d ≤ θ et θ ≤ Tn + d) = 1 − α
⇐⇒ P (Tn ≤ θ + d et θ − d ≥ Tn ) = 1 − α
α
P (Tn > θ + d) = P (Tn < θ − d) = (7.2)
2
Nota. un intervalle de confiance pose la question suivante : entre quelle limite de part et d’autre
d’une statistique d’échantillon (un estimateur sans biais), la valeur θ du paramètre à estimer
dans la population se trouve-t-elle au risque α ?
Tn = X.
(7.1) devient :
P (X − d ≤ θ ≤ X + d) = 1 − α (7.3)
α
De (7.2), on a P (Tn > θ + d) =
2
α
En remplaçant Tn par X, on a : P (X > θ + d) =
2
α
P (X ≤ θ + d) = 1 − (probabilité complémentaire)
2
α
P (X − θ ≤ d) = 1 −
2
!
X −θ d α
P √ ≤ √ = 1−
S/ n S/ n 2
La loi de probabilité de la moyenne x̄ d’un échantillon de grande taille (n > 30) tiré dans une
population de moyenne µ et d’écart-type σ tend à suivre, d’après le théorème central limite,
σ
la loi normale de moyenne µ et d’écart-type √ .
n
Si nous ne connaissons pas l’écart-type de la population, et c’est le cas le plus fréquent, nous
utilisons son estimation donnée par
n
r
S
Sb n−1 S S
√ = √ =√ ≈ √ pour n > 30
n n n−1 n
x̄ − µ
Par changement de variable Z = √ et avec θ = µ, on a :
S/ n
d α
P Z≤ √ =1−
S/ n 2
On trouve la valeur critique Z1−α/2 dans la table de la loi normale centrée réduite et on pose
d = Z1− α2 × √S
n
S S
P X − Z1− α2 × √ ≤ µ ≤ X + Z1− α2 × √ =1−α
n n
h i
Dès lors, µ ∈ X − Z1− α2 × √S , X + Z1− α2 × √S
n n
Exemple 23. Reprenons les données de l’exercice précédent. Calculons les intervalles de
Théorie statistique de l’estimation, Prof. Dr. Ndondo M. Apollinaire 80
Nous sommes donc confiants à 99% que la valeur de la moyenne de la population se trouve
entre les deux valeurs de l’intervalle indiqué.
On constate que l’étendue de l’intervalle est plus grande puisque nous avons demandé un
seuil de confiance plus élevé. Pour diminuer l’étendue de l’intervalle en gardant le
même seuil de confiance, il faut augmenter la taille de l’échantillon !
S S
P X − tn−1,p × √ ≤ θ ≤ X + tn−1,p × √ =1−α
n n
h i
Dès lors, θ ∈ overlineX − tn−1,p × √S ≤ θ ≤ X + tn−1,p × √S
n n
Donc, l’intervalle de confiance pour la moyenne de la population d’où on tire de petits échan-
tillons est :
S S
Iµ = θ ∈ overlineX − tn−1,p × √ ≤ θ ≤ X + tn−1,p × √
n n
α
où tn−1,p est la valeur critique à n-1 ddl et correspondant à l’aire p = .
2
Exercice 30. Un kinésithérapeute voudrait estimer, avec un risque de 5%, la force moyenne
d’un muscle donné dans une certaine population. Les scores de force musculaire sont approxi-
mativement distribués normalement avec une variance égale à 144. Si un échantillon de 25
personnes présente un score moyen de 87,5, estimer le paramètre θ dans le cas de la moyenne
d’une population.
Solution :
x̄ = 87, 5; S = 144; tn−1,p = t25−1, 0,05 = 2, 064
2
Soit p la proportion exacte d’un caractère C dans une population. Cela signifie que les éléments
de la population vérifient le caractère C en proportion p et ne le vérifient pas en proportion
n∗
q = 1 − p. La valeur de p est inconnue et nous l’estimons par la fréquence f = où désigne le
n
nombre d’éléments vérifiant le caractère C dans l’échantillon de taille n et suit une loi binomiale
B(n, p). f est alors un estimateur sans biais de la proportion p.
Dans le cas d’un échantillon de grande taille, la loi de probabilité d’une proportion f suit une
loi binomiale de paramètres n et p. Si nous supposons être dans les conditions d’approximation
f −µ
de la loi binomiale par la loi normale, c’est-à-dire que npq ≥ 9, alors Z = suit une loi
σ
normale centrée réduite.
f −p
Cette variable s’écrit encore : Z = q
pq
n
Si nous adoptons le risque d’erreur α, alors on a :
s s
f (1 − f ) f (1 − f )
P f − Z1− α2 × ≤ p ≤ f + Z1− α2 × =1−α
n n
Dès lors, on a s s
f (1 − f ) f (1 − f )
p ∈ f − Z1− α2 × , f + Z1− α2 ×
n n
Donc, l’intervalle de confiance pour la proportion d’un événement dans une population d’où on
tire de grands échantillons est :
s s
f (1 − f ) f (1 − f )
Ip = f − Z1− α2 × , f + Z1− α2 ×
n n
Exemple 24. Une enquête nutritionnelle est menée dans une zone de santé dans la ville de
Kinshasa. Dans un échantillon aléatoire de 700 enfants, 200 d’entr’eux sont classés comme
mal nourris. Estimer à 95% le paramètre de la proportion d’enfants mal nourris au sein de la
population de cette zone de santé.
Solution :
A 95%, Z1− α2 = 1, 96; f = 0, 28 et 1 − f = 0, 72 ;
On a : p ∈ [0, 252; 0, 308]
Théorie statistique de l’estimation, Prof. Dr. Ndondo M. Apollinaire 82
Soit une population de variance σ 2 inconnue et dont on veut estimer la valeur θ. Un estimateur
sans biais de la variance est donné par
n
n X
Sb2 = S 2 avec S 2 = (xi − x̄)2
n−1 i=1
(n − 1)Sb2
Il est établit que est une variable aléatoire χ2 à (n − 1)ddl. D’où
σ2
!
2 (n − 1)Sb2
P χα ≤ ≤ χ21− α =1−α
2 σ2 2
α
où χ2α est la valeur limite au seuil d’une loi du χ2 à (n − 1)ddl
2 2
α
et χ21− α est la valeur au seuil 1 − d’une loi du χ2 à (n − 1)ddl
2 2
Dès lors, on a
Sb2 Sb2
σ 2 ∈ (n − 1) 2 , (n − 1) 2
χ1− α χα
2 2
ou encore
n × S2 n × S2
σ2 ∈ 2 ,
χ1− α χ2α
2 2
Soient deux P1 et P2 populations normales. Soient θ1 et θ2 les valeurs de leurs moyennes res-
pectives.
X 1 : la moyenne d’échantillon tiré de P1
X 2 : la moyenne d’échantillon tiré de P2 S1 : l’écart – type d’échantillon tiré de P1
S2 : l’écart – type d’échantillon tiré de P2 n1 : la taille de l’échantillon tiré de la population P1
n2 : la taille de l’échantillon tiré de la population P2 Intervalle de confiance de la somme des
moyennes :
s s
S 2 S 2 S 2 S 2
1
µ1 + µ2 ∈ X 1 + X 2 − Z1− α2 × + 2 , X 1 + X 2 + Z1− α2 × 1
+ 2 = Iµ1 +µ2
n1 n2 n1 n2
Théorie statistique de l’estimation, Prof. Dr. Ndondo M. Apollinaire 83
Soit pi la proportion exacte d’un caractère C dans une population Pi ( avec i = 1 ou 2). Cela
signifie que les éléments de la population Pi vérifient le caractère C en proportion pi et ne le
vérifient pas en proportion qi = 1 − pi . La valeur de pi est inconnue et nous l’estimons par la
n∗
fréquence fi = i où n∗i désigne le nombre d’éléments vérifiant le caractère C dans l’échantillon
ni
de taille ni et suit une loi binomiale B(ni , pi ). fi est alors un estimateur sans biais de la proportion
pi . On note gi = 1 − fi .
Dans le cas d’un échantillon de grande taille, la loi de probabilité d’une proportion fi suit une
loi binomiale de paramètres ni et pi . Si nous supposons être dans les conditions d’approximation
de la loi binomiale par la loi normale, c’est-à-dire que ni pi qi ≥ 9, alors l’intervalle de confiance
pour la somme des proportions d’un événement dans une population d’où on tire de grands
échantillons est :
" s s #
f1 g1 f2 g2 f1 g1 f2 g2
p1 + p2 ∈ (f1 + f2 ) − Z1− α2 × + , (f1 + f2 ) + Z1− α2 × + = Ip1 +p2
n1 n2 n1 n2
" s s #
f1 g1 f2 g2 f1 g1 f2 g2
|p1 + p2 | ∈ |f1 + f2 | − Z1− α2 × + , |f1 + f2 | + Z1− α2 × + = Ip1 −p2
n1 n2 n1 n2
Chapitre 8
8.1 Introduction
84
Tests d’hypothèses paramétriques, Prof. Dr. Ndondo M. Apollinaire 85
L’erreur de type II (ou de «deuxième espèce») est l’erreur commise quand l’hypothèse nulle est
maintenue, alors qu’elle est fausse.
En fait, il y a quatre possibilités qu’on représente par le tableau suivant :
Etape 3 : fixer le risque ou seuil de signification, calculer la valeur critique en fonction du seuil
de signification et définir la règle de décision.
De façon générale, la règle de décision est formulée de façon suivante : Maintenir H0 si la
statistique se situe dans la région d’acceptation ou rejeter H0 si la statistique se situe dans la
région de rejet.
Par exemple, dans le cas de grands échantillons (n ≥ 30), pour α = 0, 05(5%), graphiquement,
on a la figure suivante :
Pour un test bilatéral
Soit deux populations P1 et P2 dont on prélève deux échantillons indépendants de tailles res-
pectives n1 et n2 , de moyennes respectives x̄1 et x̄2 , d’écart-types respectifs S1 et S2 .
Nous souhaitons comparer la moyenne de la variable aléatoire X (critère de jugement) dans les
deux populations. On note respectivement cette moyenne µ1 dans P1 et µ2 dans P2 .
On considère le test bilatéral :
H0 : µ1 = µ2 (Il n’existe pas de différence significative entre les moyennes dans les 2 popula-
tions).
H1 : µ1 6= µ2 (Il existe une différence significative entre les moyennes dans les 2 populations)
ou le test unilatéral :
H0 : µ1 = µ2 (Il n’existe pas de différence significative entre les moyennes dans les 2 popula-
tions).
H1 : µ1 > µ2 ou µ1 < µ2 (Il existe une différence significative entre les moyennes dans les 2
populations)
Tests d’hypothèses paramétriques, Prof. Dr. Ndondo M. Apollinaire 87
a. Calcul de la statistique
x̄1 − x̄2
Z=r
S12 S22
n1 + n2
Exemple 25. Dans une étude expérimentale, on veut comparer un nouveau traitement T2 à un
ancien T1 . Le critère de jugement est la durée de survie. 100 souris sont atteintes de mélanome
stade 1.
On tire au sort les souris qu’on soumet au traitement T ou T2 (50 dans chaque groupe).
On suit les souris jusqu’à leur décès. Toutes les conditions sont égales entre les 2 groupes hormis
le traitement.
T1 : survie moyenne de 175 ± 60 jours
T2 : survie moyenne de 200 ± 80 jours
Le traitement T2 donne-t-il une meilleure survie chez la souris atteinte d’un mélanome de stade
1 au risque de 5% ?
Solution :
Etape 3 : fixer le risque ou seuil de signification, calculer la valeur critique en fonction du seuil
de signification et définir la règle de décision.
Tests d’hypothèses paramétriques, Prof. Dr. Ndondo M. Apollinaire 88
8.3.1.2 Cas où l’un au moins des échantillons est petit (n1 < 30 ou n1 < 30)
a. Calcul de la statistique
s
x̄1 − x̄2 n1 S12 + n2 S22
q où S =
S× 1
+ 1 n1 + n2 − 2
n1 n2
Solution :
Tests d’hypothèses paramétriques, Prof. Dr. Ndondo M. Apollinaire 89
s
x̄1 − x̄2 n1 S12 + n2 S22
t= q où S =
S 1
+ 1 n1 + n2 − 2
n1 n2
s s
n1 S12 + n2 S22 16 × 102 + 14 × 82
S= =S= = 9, 2
n1 + n2 − 2 16 + 14 + 2
x̄1 − x̄2 107 − 112
t= q = q = −1, 5
1 1 1 1
S n1 + n2 9, 4 × 16 + 14
Soit µ la moyenne d’une population P représentée par l’échantillon de taille n. Soit P0 la popu-
lation de référence de moyenne µ0 .
Nous voudrions savoir si la moyenne de la population dont est issu l’échantillon est la même que
celle de la population de référence.
Tests d’hypothèses paramétriques, Prof. Dr. Ndondo M. Apollinaire 90
8.3.2.1 Cas où l’échantillon est de grande taille (n > 30), la population P est nor-
male de variance σ 2 connue
a. Calcul de la statistique
x̄ − µ0
Z= σ
√
n
Exemple 27. Soit un échantillon de 30 garçons âgés de 13 ans et dont le poids moyen est
43,5kg. Sur le critère du poids, cet échantillon peut-il provenir d’une population dont le poids
moyen est de 44kg et la variance (2, 54)2 ?
8.3.2.2 Cas où l’un au moins des échantillons est petite taille (n < 30), la population
P est normale de variance σ 2 inconnue
a. Calcul de la statistique
x̄ − µ
t= (loi de Student à (n − 1)ddl)
S
√
n−1
La moyenne de la population dont est issu l’échantillon est la même que celle de la popu-
lation de référence.
• |t| ≥ t α (ou |t| < tα,n−1 ), on rejette H0 pour accepter H1
,n−1
2
La moyenne de la population dont est issu l’échantillon diffère de celle de la population
de référence.
Exemple 28 (à résoudre pendant les tp). On sait que la concentration plasmatique du calcium
du sujet sain est de µ0 = 2, 5µmol/ml. Chez 18 personnes, on a trouvé une moyenne de x̄ ==
2, 5µmol/ml.
Peut-on conclure que la calcémie moyenne de ces 18 personnes soit augmentée ? On suppose que
la moyenne µ de la calcémie, dans la population dont est issu l’échantillon, suit une loi normale.
Il y a de nombreuses situations où nous devons décider si l’écart observé entre deux propor-
tions échantillonnales sur un même caractère est significatif ou s’il est attribuable au hasard des
fluctuations d’échantillonnage. On s’intéresse pour cela à une variable aléatoire binaire prenant
la valeur 1 lorsqu’un individu de la population possède le caractère faisant l’objet de l’étude, 0
sinon.
Nous disposons d’un premier échantillon de taille n1 issu d’une population P1 dont les indivi-
dus possèdent le caractère concerné dans une proportion inconnue p1 . Le deuxième échantillon
de taille n2 issu d’une population P2 dont les individus possèdent le même caractère dans une
proportion inconnue p2 .
Nous voudrons savoir si p1 = p2 .
n∗i
Pour i = 1 ou 2, un estimateur sans biais de pi est la fréquence relative observée fi = où n∗
ni
est le nombre d’individus possédant le caractère dans l’échantillon de taille ni .
Plus la taille de l’échantillon est grande, meilleure est l’estimation. Nous allons donc prendre de
grands échantillons (ni ≥ 30).
On considère le test bilatéral :
H0 : p1 = p2 (Il n’existe pas de différence significative entre les proportions dans les 2 popula-
tions).
H1 : p1 6= p2 (Il existe une différence significative entre les proportions dans les 2 populations)
ou le test unilatéral :
H0 : p1 = p2 (Il n’existe pas de différence significative entre les proportions dans les 2 popula-
tions).
H1 : p1 > p2 ou p1 < p2 (Il existe une différence significative entre les proportions dans les 2
Tests d’hypothèses paramétriques, Prof. Dr. Ndondo M. Apollinaire 92
a. Calcul de la statistique
f1 − f2
Z=q
f1 (1−f1 ) f2 (1−f2 )
n1 + n2
Exemple 29 (à résoudre pendant les tp). Selon les résultats d’une enquête 15 femmes sur 100
fument la cigarette contre 18 hommes sur total de 100. Existe –t-il une différence signification
entre les deux proportions aux seuils de : a) 0,05 ? et b) 0,01 ?
Soit p la proportion d’un caractère qualitatif dans une population P représentée par l’échantillon
de taille n. Soit P0 la population de référence dont les individus possèdent ce même caractère
dans une proportion p0 .
Nous voudrions savoir si la proportion dans la population dont est issu l’échantillon est la même
que celle dans la population de référence.
On suppose que l’on dispose d’un grand échantillon (n ≥ 30) et que « p n’est pas trop petit »
(de manière que l’on ait np ≥ 15 et n(1 − p) ≥ 15).
n∗
Un estimateur sans biais de est la fréquence relative observée f + où n∗ est le nombre
n
d’individus possédant le caractère dans l’échantillon de taille n.
On considère le test suivant :
H0 : p = p0
H1 : p 6= p0 (ou p < p0 )
Construction du test sous l’hypothèse H0 : p = p0
Tests d’hypothèses paramétriques, Prof. Dr. Ndondo M. Apollinaire 93
a. Calcul de la statistique
f − p0
Z=q
p0 (1−p0 )
n
Le principe de l’appariement est d’écarter le risque de fausser les résultats lorsqu’on mesure
un même effet sur deux échantillons indépendants. On crée alors des paires d’observations, par
exemple, lorsque les mêmes sujets ont été mesurés avant et après un traitement.
Ce schéma "avant-après" est la forme la plus populaire de l’appariement. Elle permet de réduire
le risque de seconde espèce du test. L’appariement est en réalité plus large que le seul schéma
"avant-après". Il est efficace à partir du moment où nous réunissons les deux conditions suivantes :
• les individus dans chaque paire se ressemblent le plus possible, ou appartiennent à une
même entité statistique (un ménage, des jumeaux, etc.) ;
• les paires d’observations sont très différentes les unes des autres.
L’appariement, que l’on retrouve sous différentes appellation (mesures répétées, échantillons dé-
pendants (paired samples ou matched pairs samples en anglais) est une procédure très populaire
en statistique. Elle permet une analyse fine des différences entre les populations.
Nous considérons un échantillon de n observations. Chaque observation étant constituée d’une
paire de valeurs. Nous formons une nouvelle variable aléatoire D dont les valeurs di sont obtenues
par différences des paires de valeurs c.-à-d.
di = xi1 − xi2
Les variables aléatoires X1 et X2 (dont les valeurs sont xi1 et xi2 ) étant normales, D l’est
également.
2 = σ2
On note : µD = µX1 −X2 = µ1 − µ2 (la moyenne de la variable aléatoire D) et σD X1 −X2 (la
a. Calcul de la statistique
v
n n
d¯ − 0
u
u 1
(loi de Student à(n − 1)ddl) où d¯ = ¯2
X X
t= di et SD = t × (di − d)
SD n − 1 i=1
√ i=1
n
a. Calcul de la statistique
d¯ − 0
Z = σD
√
n
Exemple 30 (à résoudre pendant les tp). On mesure l’effet du stress sur la glycémie chez 9
patients. On suppose que la glycémie suit une loi normale dans la population dont sont issus les
9 patients.
Pour chaque sujet, 2 mesures sont effectués, l’une à l’état basal après une période de sommeil,
l’autre 15 mn après un stress provoqué.
Tests d’hypothèses paramétriques, Prof. Dr. Ndondo M. Apollinaire 95
Patient 1 2 3 4 5 6 7 8 9
Basal 5,5 4,3 6,5 4,5 5,2 4,3 5,0 5,4 5,2
stress 5,4 6,7 6,5 6,0 5,2 5,0 4,8 4,7 4,5
Exemple 31. Les pattes avant et arrière des chevreuils ont-elles la même longueur ?
Chevreuil Longueur des pattes arrières (cm) Longueur des pattes avant (cm) Différence di (cm)
1 142 138 4
2 140 136 4
3 144 147 -3
4 144 139 5
5 142 143 -1
6 146 141 5
7 149 143 6
8 150 145 5
9 142 136 6
10 148 146 2
Soit X et Y deux variables aléatoires discrètes dont on étudie la corrélation linéaire. On note :
ρ : le coefficient de corrélation linéaire entre X et Y au sein d’une population.
r : le coefficient de corrélation linéaire entre X et Y dans un échantillon de taille n tiré de cette
population.
On considère le test bilatéral :
H0 : ρ = 0
H1 : ρ 6= 0
Construction du test sous l’hypothèse H0 : ρ = 0
a. Calcul de la statistique
√
n−2
t=r× √ (loi de Student à (n − 2)ddl)
1 − r2
c. Règle de décision
• si |t| < t α2 ,n−2 , on maintient H0
• si |t| ≥ t α2 ,n−2 , on rejette H0 pour accepter H1
1. On définit les caractères statistiques sur lesquels va porter l’étude(les quantités ou les
qualités)
Rappels :
1. P (Z > z) = 1 − P (Z < z) et
Distribution du Khi-2
La table donne les valeurs critiques de χ2 pour un nombre de degrés de liberté (ddl) et pourun
seuil repère donnés (α).
Par exemple :
Pour ddl = 3 et α = 0, 05 la table indique χ2 = 7, 81
Ceci signifie que : P (χ2|3| > 7, 81) = 0, 05 = α
Tableau statistiques, Prof. Dr. Ndondo M. Apollinaire 100
Distribution du t de STUDENT
Pour une distribution de Student à ddl degrés de liberté et pour une proportion a (0,05 ; 0,01
ou 0,001), la table indique t tel que P (|T | > t) = α
Exemple : Pour ddl = 5, on a P (|T | > 2, 571) = 0, 05 (on note tα;ddl cette valeur)
Tableau statistiques, Prof. Dr. Ndondo M. Apollinaire 101
Distribution de FISHER