Support Cours Biostatistique USTA

STATISTIQUE POUR
PHARMACIEN-NE-S
1
Chapitre 1: Introduction
1. Plan du cours
2. Matériel
3. Objectifs
4. Exemples
• Effet de la conservation sur des échantillons de sang
• Propriétés d’un test diagnostique
• Déficit alimentaire et myopie
• Etude expérimentale sur le risque d’attaque cardiaque après
administration d’aspirine
2
1. Plan du cours
Le cours est composé de 30 périodes de cours et de 24 périodes d’exercices.
Cours
Menu:
1. Introduction
2. Descriptions graphiques de distributions
3. Descriptions numériques de distributions
4. Description de la relation entre deux variables
5. Probabilités
6. Variables aléatoires
7. Modèles de distributions fréquents
8. Inférence, échantillonnage et estimation
9. Distribution d’un estimateur
10. Introduction aux tests statistiques
11. Tests et intervalles de confiance pour proportions
12. Tests et intervalles de confiance pour moyennes 3
Exercices
• Une série d’exercices par chapitre
• Les problèmes proposés sont similaires aux problèmes qui vous seront posés à
l’examen.
• Parfois je ferai quelques rappels et donnerai des instructions lors des s éances
d’exercices.
• En règle générale les étudiant(e)s qui participent aux séances d’exercices s’en
sortent mieux à l’examen.
4
2. Matériel
• Transparents: un jeu par chapitre
• Exercices et solutions
• Tables de distributions
• Exemples d’examens
• Polycopié du Prof. Marazzi
Matière d’examen
La matière d’examen est composée des transparents et des exercices et solutions.
5
3. Objectifs
On peut définir la statistique comme l’ensemble des méthodes qui ont pour objet la
collecte, le traitement et l’interprétation de données d’observation relatives à un groupe
d’individus ou d’unités.
Ce cours présente une introduction aux techniques statistiques, que l’on peut répartir
dans deux catégories:
• La statistique descriptive: Techniques permettant d’explorer des données et de les
représenter graphiquement, afin de repérer des structures, des tendances.
→ Chapitres 2 à 4
• La statistique inférentielle: Techniques permettant de tester si une structure
observée dans un échantillon pourrait être le simple fait du hasard, ou si elle
correspond à un phénomène réel.
→ Chapitres 8 à 12
Les chapitres 5 à 7 présentent les outils de calcul de probabilités nécessaires à l’inférence.
Les chapitres les plus importants sont les chapitres 10-12 (tests statistiques).
6
Buts de ce cours d’introduction:
• Se familiariser avec les notions et outils statistiques les plus courants
• Comprendre les principes et le mécanisme de l’inférence statistique
Le but n’est pas d’être capable de mener soi-même des analyses complexes mais de
pouvoir comprendre et interpréter correctement des résultats qu’on vous présenterait ou
que vous liriez. Celles et ceux qui feront de la recherche devront suivre un cours plus
avancé.
→ Le cours ne présente pas de logiciel statistique
→ Les exercices sont de type “papier-crayon”
Le cours permet néanmoins de résoudre certains problèmes simples. En guise

d’introduction, les transparents qui suivent présentent quelques exemples de problèmes
statistiques dans les sciences biomédicales, que vous serez capables de résoudre à la fin
de ce cours.
7
4. Exemples
Effet de la conservation sur des échantillons de sang
Les triglycérides sont des lipides associés au transport de certaines protéines dans le
sang. Une concentration trop élevée de triglycérides dans le sang augmente les risques
de souffrir de maladies cardiovasculaires.
Question: est-ce que la concentration de triglycérides change si un échantillon de sang

est conservé pendant un certain temps?
Dans une étude menée par Wood (1973), les échantillons de 30 sujets ont été analysés
immédiatement après la prise de sang et 8 mois après.
On appelle ce type de données des données appariées, car elles vont par paires.
8
Les données obtenues sont les suivantes (en mg/100 ml):
Avant le stockage: 74 80 75 136 104 102 177 88 85 267

Après 8 mois: 66 85 71 132 103 103 185 96 76 273
Différence: -8 5 -4 -4 -1 1 8 8 -9 6
Après 8 mois: 73 172 133 69 302 106 94 67 81 74
Différence: 2 -2 7 -3 1 7 -3 -4 -2 -5
Après 8 mois: 129 48 148 127 227 129 81 212 182 84
Différence: 5 6 3 -4 -1 14 -2 1 13 0
Moyenne des différences: 1.17 mg/100ml

→ Dans notre échantillon de 30 sujets, la concentration de triglycérides a augmenté en
moyenne de 1.17 mg/100ml après un stockage de 8 mois.
→ Cette augmentation pourrait-elle être le simple fait du hasard, ou
correspond-elle à un effet réel de la conservation?
→ La statistique permet de répondre à cette question.
9
Propriétés d’un test diagnostique
Lors de l’application d’un test de dépistage d’une maladie, il peut arriver

que le résultat soit erroné, par exemple que le test soit positif alors que le
patient n’est pas atteint de la maladie.
Lors de l’élaboration d’un nouveau test, il convient de quantifier la
probabilité d’erreur. Pour cela on applique le test à un échantillon de
patients, puis on détermine pour chaque patient s’il est atteint ou non de
la maladie à l’aide d’un test de référence (appelé gold standard) dont le
résultat est considéré comme sûr. On obtient alors des données du type
suivant:
10
Atteints Non atteints Total
Test positif 215 16 231
Test négatif 15 114 129
Total 230 130 360
En général, on quantifie en fait la probabilité d’un résultat correct.

→ Quelle est la probabilité que le test soit positif si on l’applique à un patient atteint
(appelée sensibilité du test)?
→ Quelle est la probabilité que le test soit négatif si on l’applique à un patient non
atteint (appelée spécificité du test)?
→ Quelle est la probabilité qu’un patient soit atteint si son test est positif (appelée
valeur prédictive positive du test)?
→ Quelle est la probabilité qu’un patient soit non atteint si son test est négatif
(appelée valeur prédictive négative du test)?
→ Avec quelle précision peut-on estimer les quantités ci-dessus à l’aide des données
récoltées?
11
Déficit alimentaire et myopie
Question: Le déficit alimentaire protéique est-il associé à la myopie?
Dans une étude publiée par Young, Leary, Zimmerman et Strobel (1973), les chercheurs
ont nourri un groupe de singes avec une diète à faible contenu protéique et un autre
groupe avec une diète à haut contenu protéique. Au bout de plusieurs mois, ils ont
mesuré la réfraction oculaire des singes. Voici un sous-ensemble des données obtenues:
Niveau protéique faible:

1.27 -4.98 -0.50 1.25 -0.25 0.75 -2.75 0.75 1.00 3.00
2.25 0.53 1.25 -1.50 -5.00 0.75 1.50 0.50 1.75 1.50
Niveau protéique élevé:

-6.00 0.25 1.25 -2.00 3.14 2.00 0.75 1.75 0.00 0.75
0.75 0.25 1.25 1.25 1.00 0.50 -2.25
La myopie est caractérisée par une réfraction oculaire négative.

→ Ces mesures soutiennent-elles l’hypothèse que le déficit alimentaire protéique est
associé à la myopie?
→ Ce problème sera traité dans différentes séries d’exercices. 12
Etude expérimentale sur le risque d’attaque car-
diaque après administration d’apirine
Dans une étude publiée en 1987 (Hennekens et al.) portant sur un échantillon de 22071
personnes, les auteurs ont attribué, au hasard, un traitement à l’aspirine à la moitié des
participants et un placebo à l’autre moitié (ce processus s’appelle la randomisation).
Ils ont ensuite observé les participants pendant une certaine période et ont obtenu les
résultats suivants:
Attaque Pas d’attaque Total

Traitement 104 10933 11037
Placebo 189 10845 11034
Total 293 21778 22071
→ Comment mesurer l’effet du traitement?

→ Différence de risque d’attaque: P (Attaque|P lacebo)−P (Attaque|T raitement) =
189/11034 − 104/11037 = 0.0077 = 0.77%
→ Rapport des risques d’attaque: P (Attaque|T raitement)/P (Attaque|P lacebo) =
104/11037
189/11034
= 0.55
→ Cette diminution observée du risque d’attaque pourrait-elle être le simple fait du
hasard, ou correspond-elle à un effet réel de l’aspirine?
13
Références
— Wood, P. D., 1973, Unpublished.
— Young, F.A., Leary, G.A., Zimmerman, R.R. et al., 1973, Diet
and refractive characteristics. American Journal of Optometry and
Physiological Optics, 50(3):226-233
— Hennekens, C.H., Peto, R., Hutchinson, G.B., Doll, R, 1988, An
overview of the British and American Aspirin Studies. New England
Journal of Medicine, 318(14):923-924
14
Chapitre 2: Descriptions graphiques
de distributions
1. Terminologie et notations
2. Distribution d’une variable qualitative
3. Distribution d’une variable quantitative
1
1. Terminologie et notations
La statistique s’intéresse à des populations. Le terme population est à comprendre dans
un sens élargi. Exemples de populations:
• Les habitants d’une ville, d’une région, d’un pays
• Les voitures qui circulent dans un pays
• L’ensemble des séjours hospitaliers pendant une année dans un hôpital
• L’ensemble des jets possibles d’une pièce de monnaie
Les éléments d’une population sont appelés des unités d’observation. Ils peuvent être de
différentes natures. Dans les exemples ci-dessus, on trouve les types suivants:
• Des personnes
• Des objets (voitures)
• Des unités abstraites (séjours hospitaliers, jets d’une pièce de monnaie)
2
Les unités d’observation possèdent des caractéristiques:
• Habitants: âge, nombre d’enfants, sexe, état de santé
• Voitures: couleur, kilométrage, nombre de roues
• Séjours hospitaliers: durée en jours, spécialité, coût
• Jets d’une pièce: côté (pile ou face), bruit
Ces caractéristiques sont appelées des variables (car leur valeur varie d’une
unité d’observation à l’autre). Les valeurs possibles d’une variable sont
appelées ses modalités.
3
On distingue plusieurs types de variables:
• variable quantitative: les modalités sont des nombres qui expriment des quantités.
→ variable quantitative continue: les modalités sont des nombres réels, elles ne
sont pas dénombrables (ex.: poids, taille)
→ variable quantitative discrète: les modalités sont dénombrables: nombres
entiers, demi-entiers, etc (ex.: durées de déjours hostpitaliers en jours ou en
demi-journées, nombre de frères et soeurs)
• variable qualitative: les modalités ne sont pas des quantités numériques
→ variable qualitative catégorielle: les modalités sont des qualités (ex.: couleur
des yeux, lieu de naissance)
→ variable qualitative ordinale: les modalités sont des qualités pouvant être
ordonnées (ex.: qualité d’un film, état de santé (bon, moyen, mauvais))
4
En général, la population est trop grande pour qu’on puisse l’observer en entier, et on
devra alors tirer un échantillon. On adopera alors les notations suivantes:
• n pour la taille de l’échantillon
• Lettres majuscules pour les variables. Ex.: A pour l’âge, C pour la couleur des
yeux.
• Lettres minuscules pour les valeurs observées des variables dans l’échantillon.
Certaines de ces valeurs peuvent être égales. Ex.: c1, c2, ..., cn pour les couleurs
des yeux des n individus de l’échantillon.
• Attention: on utilise la même notation pour désigner les modalités d’une
variable. Toutes les modalités sont différentes. Ex.: c1 = brun, c2 = bleu, c3 =
vert, c4 = noir, c5 = gris.
5
Exemple: étudiant(e)s de 1ère année
Population: Ensemble des étudiant(e)s de 1ère année à l’UNIL en 1981

Unités d’observation: Etudiant(e)s
Variables: • Sexe, noté S: qualitative catégorielle
• Taille en cm, notée T : quantitative continue
• Poids en kg, noté P : quantitative continue
• Nombre de frères et soeurs, noté F : quantitative discrète
• Couleur des yeux, notée C: qualitative catégorielle
Modalités: • Sexe: {femme,homme}
• Taille en cm: [40, 280]
• Poids en kg: [20, 400]
• Nombre de frères et soeurs: {0,1,...,50}
• Couleur des yeux: {brun, bleu, vert, noir, gris}
On a tiré un échantillon de taille n = 45.
6
Données:
T P S F C T P S F C T P S F C
180 70 h 2 brun 190 66 h 1 brun 168 52 f 0 brun
177 57 h 3 brun 183 78 h 0 bleu 157 47 f 1 vert
180 60 h 1 bleu 167 60 h 4 bleu 167 53 f 2 vert
180 66 h 0 brun 181 67 h 0 brun 168 57 f 4 bleu
183 62 h 6 vert 179 98 h 2 brun 163 65 f 1 brun
184 68 h 0 brun 173 75 h 1 vert 167 60 f 2 brun
185 65 h 1 noir 170 68 h 1 gris 166 68 f 2 bleu
184 72 h 2 brun 170 59 h 3 brun 164 49 f 7 vert
174 65 h 3 noir 183 72 h 2 bleu 172 57 f 3 brun
180 72 h 1 brun 179 73 h 3 vert 165 59 f 2 bleu
168 52 h 3 brun 180 72 h 3 bleu 158 62 f 0 brun
180 75 h 0 bleu 188 70 h 2 brun 161 65 f 1 brun
183 75 h 2 brun 176 65 h 1 vert 160 61 f 1 bleu
181 68 h 0 bleu 178 72 h 1 brun 162 58 f 2 brun
180 65 h 4 brun 185 71 h 1 bleu 165 58 f 5 brun
7
2. Distribution d’une variable qualitative
Soit X une variable qualitative et {x1, x2, ..., xk } l’ensemble de ses modalités. Pour
un échantillon de taille n, soit ni le nombre d’individus ayant la modalité xi. On appelle
• fréquence absolue de xi le nombre ni
• fréquence relative de xi le nombre fi = ni/n
• distribution de fréquence de X l’ensemble des couples (xi, ni) ou des couples
(xi, fi)
Exemple: distribution de fréquence de la variable couleur des yeux.

Modalité (ci) Fréquence absolue (ni) Fréquence relative (fi = ni/n)
brun 23 0.511=51.1%
bleu 12 0.267=26.7%
vert 7 0.156=15.6%
noir 2 0.044=4.4%
gris 1 0.022=2.2%
Totaux n = 45 1.000=100%
Propriétés: • ni = n1 + ... + nk = n
P
• fi = f1 + ... + fk = 1
P
8
Pour représenter graphiquement une distribution de fréquence, on peut utiliser
• un diagramme à barres:
20
Fréquence absolue
15
10
5
0
brun bleu vert noir gris
• un diagramme en secteurs:
brun
51.11 %
gris
2.22 %
noir
4.44 %
bleu vert
26.67 % 15.56 %
9
3. Distribution d’une variable quantitative
Nous allons distinguer trois cas:
1. Le nombre d’observations est petit (n < 20)
2. Le nombre d’observations différentes est petit
3. Le nombre d’observations est grand avec beaucoup d’observations

différentes
10
1. Le nombre d’observations est petit
Ex.: Tailles des filles dans notre échantillon d’étudiant(e)s
• ••
•• ••••••••• •
150 160 170
Dans ce cas on peut simplement représenter les données sur un axe. Cette représentation
permet de se faire une idée rapide de la forme de la distribution (symétrie, etc) et de
repérer des éventuelles observations aberrantes (appelées outliers).
2. Le nombre d’observations différentes est petit

Ex.: Nombre de frères et soeurs dans notre échantillon d’étudiant(e)s
10 12
Fréquence absolue
8
6
4
2
0
0 1 2 3 4 5 6 7
Nb de frères et soeurs
Dans ce cas on procède de façon similaire au cas d’une variables qualitative, avec un
diagramme en barres qui tient compte de l’ordre des modalités.
11
3. Le nombre d’observations est grand avec beaucoup d’observations
différentes
Ex.: Tailles des étudiant(e)s
8
Fréquence
6
4
2
0
155 160 165 170 175 180 185 190

Taille [cm]
Dans ce cas on regroupe les données en classes de largeurs égales. On construit un

graphique similaire à un diagramme en barres, où la hauteur des barres est égale au
nombre d’observations dans la classe correspondante.
En règle générale, le nombre classes est compris entre 5 et 20.
Le graphique obtenu s’appelle un histogramme.

12
Fonction de distribution cumulative empirique
Pour des observations x1, ..., xn d’une variable quantitative X, la fonction de
distribution cumlative empirique, notée Fn(x) est définie par
nombre de xi ≤ x
Fn(x) = .
n
Ex.: Tailles des étudiant(e)s
1.0
Une fonction de distribution cu-

0.8
mulative commence toujours à 0

0.6
Fn(Taille)
Fn(180) − Fn(165) = 0.53

et finit à toujours à 1.
0.4
Elle est toujours croissante.

0.2
0.0
160 165 170 175 180 185 190
Taille [cm]
La forme de la fonction de distribution cumulative est en général moins facile à interpréter

que celle de l’histogramme. Par contre, la fonction de distribution cumulative est utile
pour certains calculs. Par exemple, pour trouver la proportion d’invividus mesurant entre
165 et 180 cm, il suffit de calculer Fn(180) − Fn(165).
13
Chapitre 3: Descriptions numériques
de distributions
1. Principales caractéristiques d’une distribution
2. Mesures de position
3. Mesures de dispersion
4. Le box-plot
1
1. Principales caractéristiques d’une distribution
Dans ce chapitre on s’intéresse plus particulièrement aux variables quantitatives avec
un grand nombre de modalités, et on considère les caractéristiques suivantes de leur
distribution:
— position: “Où se situe la distribution?”
— dispersion: “A quel point la distribution est-elle éparpillée”
2
2. Mesures de position
Mesures du “milieu” d’une distribution
Pour mesurer le “milieu” d’une distribution, i.e. où se trouvent les données de façon
globale, les deux mesures les plus utilisées sont la moyenne arithmétique, souvent appelée
simplement moyenne, et la médiane. Une troisième mesure parfois utilisée est le mode.
Moyenne
Soient x1, ..., xn les observations d’une variable X. La moyenne de X, notée m(X),
est définie par
P
xi x + ... + xn
m(X) = = 1 .
n n
3
Exemples
1. Tailles des filles [cm]: 168, 157, 167, 168, 163, 167, 166, 164, 172, 165, 158, 161,
160, 162, 165
m(T)
● ● ●
● ● ● ● ● ● ● ● ● ● ● ●
155 160 165 170 175

Tailles des filles (T)
m(T ) = (168 + 157 + 167 + 168 + 163 + 167 + 166 + 164 +

172 + 165 + 158 + 161 + 160 + 162 + 165)/15 = 164.2
La moyenne est un bon résumé du “milieu” de la distribution.
2. Durées de séjour dans un hôpital [jours]: 7, 12, 14, 7, 34, 8, 8, 9, 6, 7

● m(D)
● ●
● ● ● ● ● ● ●
5 10 15 20 25 30 35
Durée (D)
m(D) = (7 + 12 + 14 + 7 + 34 + 8 + 8 + 9 + 6 + 7)/10 = 11.2 La

moyenne est un mauvais résumé du “milieu” de la distribution, elle est influencée
par quelques valeurs extrêmes. 4
Propriétés de la moyenne
Soient X et Y deux variables, x1, ..., xn et y1, ..., yn leurs observations sur les mêmes
individus 1 à n. Soient a, b et c des constantes.
1. Si tous les xi sont ≥ 0 alors m(X) ≥ 0
2. m(aX) = am(X) La variable aX est définie comme ayant
les observations ax1, ..., axn.
Ex: Si X est une taille en m et que
a = 100, aX est cette taille en cm.
3. m(X + a) = m(X) + a La variable X + a est définie comme ayant
les observations x1 + a, ..., xn + a.
Ex: Si X est une température en degrés Celsius
et que a = 273.15, X + a est cette
température en degrés Kelvin.
4. m(X + Y ) = m(X) + m(Y ) La variable X + Y est définie comme ayant
les observations x1 + y1, ..., xn + yn.
Ex: Si X et Y sont les pts obtenus à deux
questions d’examen, X + Y est le total des pts.
5. m(aX + bY + c) = a m(X) + b m(Y ) + c (découle de 2., 3. et 4.)
6. En général, m(XY ) 6= m(X)m(Y )
5
Médiane
La médiane est une valeur telle que la moitié des observations se trouve à sa gauche et
l’autre moitié à sa droite.
Soient x1, ..., xn les observations d’une variable X. Pour trouver leur médiane, il
faut d’abord ordonner les observations.
Notation: on notera x[1], ..., x[n] les observations mises dans l’ordre croissant.
Autrement dit, on aura toujours (par définition) que x[1] ≤ ... ≤ x[n].
La médiane de X, notée med(X), est alors définie par




 xh n+1 i si n est impair
 2
med(X) =

 x n +x 2 si n est pair

[2] [ n2 +1]

6
Exemples
1. Tailles des filles dans l’ordre croissant [cm]:

t[1] t[2] t[3] t[4] t[5] t[6] t[7] t[8] t[9] t[10] t[11] t[12] t[13] t[14] t[15]
157 158 160 161 162 163 164 165 165 166 167 167 168 168 172
n = 15 est impair et donc med(T ) = th n+1 i = t[8] = 165

2
m(T) med(T)
● ● ●
● ● ● ● ● ● ● ● ● ● ● ●
155 160 165 170 175

Tailles des filles (T)
La médiane est un bon résumé du “milieu” de la distribution. Elle est très proche de la
moyenne.
7
Exemples
2. Durées de séjour dans un hôpital dans l’ordre croissant [jours]:

d[1] d[2] d[3] d[4] d[5] d[6] d[7] d[8] d[9] d[10]
6 7 7 7 8 8 9 12 14 34
.
n = 10 est pair et donc med(D) = d[ n ] + d[ n +1] 2 = d[5] + d[6] 2=
2 2
(8 + 8)/ 2 = 8
● med(D) m(D)
● ●
● ● ● ● ● ● ●
5 10 15 20 25 30 35
Durée (D)
La médiane est un meilleur résumé du “milieu” de la distribution que la moyenne. Elle est
peu influencée par les valeurs extrêmes.
8
Propriétés de la médiane
Soient X et Y deux variables, x1, ..., xn et y1, ..., yn leurs observations sur les mêmes
individus 1 à n. Soit a une constante.
1. Si tous les xi sont ≥ 0 alors med(X) ≥ 0
2. med(aX) = a med(X) La variable aX est définie comme ayant
les observations ax1, ..., axn.
Ex: Si X est une taille en m et que
a = 100, aX est cette taille en cm.
3. med(X + a) = med(X) + a La variable X + a est définie comme ayant
les observations x1 + a, ..., xn + a.
Ex: Si X est une température en degrés Celsius
et que a = 273.15, X + a est cette
température en degrés Kelvin.
4. En général, med(X + Y ) 6= med(X) + med(Y )
5. En général, med(XY ) 6= med(X)med(Y )
9
Faut-il utiliser la moyenne ou la médiane?
→ Cela dépend de ce que l’on veut mesurer.
Exemple: Revenus dans le canton de Vaud. Les distributions de revenus ont typiquement
une forme asymétrique.
med(Revenu) m(Revenu)
150000
Fréquence
50000
0
Revenu
→ Pour un habitant, il est plus intéressant de connaı̂tre la médiane: elle permet de se

situer dans la moitié riche ou la moitié pauvre de la population.
→ Pour l’administration des impôts, il est plus utile de connaı̂tre la moyenne: elle permet
de se faire une idée des rentrées fiscales (≈ revenu moyen × coefficient moyen × nb
d’habitants). La moyenne est utile lorsqu’on s’intéresse à un total.
10
Cela dit, lorsque la distribution est symétrique la moyenne et la médiane sont égales.
Exemple: Tailles (simulées) de 30 hommes:

10
8
Fréquence
med(Taille) m(Taille)
6
4
2
0
165 170 175 180 185 190 195

Taille [cm]
Par contre la moyenne est très sensible aux outliers: si on ajoute le plus grand homme du
monde à notre échantillon, elle change d’environ 2 cm alors que la médiane ne change
presque pas. Si on a affaire à une distribution symétrique mais qu’on s’attend à ce qu’il
y ait des outliers, il vaut donc mieux utiliser la médiane.
11
Cela dit, lorsque la distribution est symétrique la moyenne et la médiane sont égales.
Exemple: Tailles (simulées) de 30 hommes:

10
Le plus grand homme

du monde (270 cm)
8
Fréquence
med(Taille) m(Taille)
6
4
2
0
165 170 175 180 185 190 195

Taille [cm]
Par contre la moyenne est très sensible aux outliers: si on ajoute le plus grand homme du
monde à notre échantillon, elle change d’environ 2 cm alors que la médiane ne change
presque pas. Si on a affaire à une distribution symétrique mais qu’on s’attend à ce qu’il
y ait des outliers, il vaut donc mieux utiliser la médiane.
12
Mode
Le mode d’une distribution est défini comme la modalité qui a la plus haute fréquence.
De façon plus générale, on pourra appeler mode toute valeur où la fréquence atteint
un maximum local. On pourra ainsi avoir des distributions bimodales, trimodales, etc.
Pour les variables quantitatives continues, on définit les modes à partir de l’histogramme,
comme les milieux des classes de fréquence maximale.
Lorsqu’une distribution a plusieurs modes, c’est souvent le signe que la population est
constituée de plusieurs sous-populations distinctes. Ex: tailles des étudiant(e)s:
8
Fréquence
6
4
2
0
155 160 165 170 175 180 185 190

Taille [cm]
On observe deux modes (166 cm et 180 cm), correspondant aux sous-populations des
filles et des garçons.
13
Autres mesures de position: les quantiles
On a vu que la médiane partage la distribution en deux parties, de telle sorte que 50% des
données lui sont inférieures et 50% lui sont supérieures. On peut généraliser ce procédé
en demandant qu’une proportion α des données soient dans la première partie et le reste
dans la deuxième. La limite entre les deux parties s’appelle alors le quantile d’ordre α et
on le note qα. Autrement dit, le quantile d’ordre α est une valeur telle qu’une proportion
α des observations se trouve à sa gauche et une proportion 1 − α à sa droite.
Pour définir les quantiles, on se sert de la fonction de distribution cumulative:

Que vaut q0.75(T ), le quantile d’ordre 75% de la distribution des tailles des filles?
0.00 0.25 0.50 0.75 1.00
Fn(Taille)
160 165 q0.75(T) = 167 170
Taille [cm]
Les quantiles sont obtenus en inversant la fonction de distribution cumulative.

14
Cas spécial:
Que vaut q0.8(T ), le quantile d’ordre 80% de la distribution des tailles des filles?
0.0 0.2 0.4 0.6 0.8 1.0
Fn(Taille)
160 165 q0.8(T) = 167.5 170
Taille [cm]
Lorsqu’on tombe sur un plateau, on prend la moyenne des valeurs extrêmes

du plateau.
Une définition qui englobe ces deux cas est la suivante:
.
qα(X) = x[dnαe] + x[bnα+1c] 2,
où le symbole d e indique qu’on arrondit à l’entier supérieur et le symbole b c indique
qu’on arrondit à l’entier inférieur.
Remarque: à part dans le cas ci-dessus, les deux parties délimitées par qα contiennent
des proportions α et 1 − α des données de façon approximative.
15
Exemples:
Quantiles de la distribution de la taille des filles.
Tailles des filles dans l’ordre croissant [cm]:
157 158 160 161 162 163 164 165 165 166 167 167 168 168 172
.
q0.75(T ) = t[d15×0.75e] + t[b15×0.75+1c] 2
.
= t[d11.25e] + t[b12.25c] 2
.
= t[12] + t[12] 2
= t[12]
= 167
16
Exemples:
Quantiles de la distribution de la taille des filles.
Tailles des filles dans l’ordre croissant [cm]:
157 158 160 161 162 163 164 165 165 166 167 167 168 168 172
.
q0.8(T ) = t[d15×0.8e] + t[b15×0.8+1c] 2
.
= t[d12e] + t[b13c] 2
.
= t[12] + t[13] 2
= (167 + 168)/ 2
= 167.5
17
3. Mesures de dispersion
La mesure de dispersion (ou éparpillement) la plus utilisée est la variance, et plus
particulièrement sa racine carrée appelée l’écart-type. Deux mesures alternatives sont
le mad (median absolute deviation) et l’écart interquartile.
Variance
Soient x1, ..., xn les observations d’une variable X. La variance de X, notée s2(X),
est définie par
2

2
1X
s (X) = m (X − m(X)) = (xi − m(X))2.
n
En mots, il s’agit de la moyenne des carrés des écarts entre X et sa moyenne.
L’écart-type s(X) est défini comme la racine carrée de la variance:

q
s(X) = s2(X).
18
Exemple: Tailles des filles
ti ti − m(ti ) (ti − m(ti ))2
168 3.8 14.44
157 -7.2 51.84
167 2.8 7.84
168 3.8 14.44
163 -1.2 1.44
167 2.8 7.84
166 1.8 3.24
164 -0.2 0.04
172 7.8 60.84
165 0.8 0.64
158 -6.2 38.44
161 -3.2 10.24
160 -4.2 17.64
162 -2.2 4.84
165 0.8 0.64
moyenne 164.2 0 15.63
√
On a donc s2(T ) = 15.63 cm2 et s(T ) = 15.63 cm = 3.95 cm.
Contrairement à la variance, l’écart-type est mesuré dans les mêmes unités que la variable.
19
Propriétés de la variance et de l’écart-type
Soient X et Y deux variables et soient a, b et c des constantes.
1. s2(c) = 0
2. s2(aX + b) = a2s2(X)
3. s(aX + b) = |a| s(X)
4. En général, s2(X + Y ) 6= s2(X) + s2(Y )
5. La somme des écarts xi − m(X) est toujours nulle
6. s2(X) = m(X 2) − m(X)2
La formule 6. est utile pour les calculs à la main, car elle évite de calculer tous les écarts
xi − m(X).
Remarque: On trouve aussi dans certains ouvrages la définition alternative suivante de

la variance:
2 1 X
s (X) = (xi − m(X))2.
n−1
La raison pour prendre un dénominateur égal à n − 1 au lieu de n dépasse le cadre de
ce chapitre. Notez que la formule 6. ne fonctionne pas avec cette définition alternative.
20
Variable standardisée
Soit X une variable. La variable Z définie comme

X − m(X)
Z=
s(X)
est appelée la version standardisée ou centrée et réduite de X.
En appliquant les propriétés de la moyenne et de la variance, on obtient que

• m(Z) = 0
• s2(Z) = 1
Cette opération est utile lorsqu’on veut ramener des variables différentes sur une échelle
commune, ou lorsqu’on veut se ramener à une situation standard (v. chapitres suivants).
21
mad
Soit X une variable. Le mad (median absolute deviation) de X est défini par
mad(X) = med(|X − med(X)|).

En mots, il s’agit de la médiane des écarts absolus entre X et sa médiane.
De façon analogue à la relation entre moyenne et médiane, l’écart-type est une mesure
très sensible aux outliers, alors que le mad est résistant.
22
Ecart interquartile
Pour une variable X, on définit le premier, le deuxième et le troisième quartile comme
q0.25(X), q0.5(X) et q0.75(X) respectivement. Ainsi
• Les quartiles partagent la distribution en quatre parties contenant chacune 25%
des observations
• Le deuxième quartile n’est autre que la médiane.
L’écart interquatile de X, noté Iq (X) est simplement défini comme la différence entre
le troisième et le premier quartile de X:
Iq (X) = q0.75(X) − q0.25(X).
L’écart interquartile est plus résistant aux outliers que l’écart-type. Le mad résiste encore
mieux, mais il est plus difficile à interpréter.
23
4. Le Box-plot
Le box-plot, ou box-and-whiskers plot (en français boı̂te à moustaches) est une
représentation graphique simple mais puissante d’un échantillon.
Construction
Le long d’un axe vertical, on trace tout d’abord la box (boı̂te), qui va du premier au
troisième quartile. Ainsi, la box contient approximativement la moitié (50%) centrale des
données.
La box est ensuite partagée en deux par un trait horizontal au niveau de la médiane.
Ensuite on va définir les inliers, i.e. les observations non extrêmes, comme toutes les
observations se trouvant dans un intervalle défini comme suit:
• la borne supérieure est égale au troisième quartile plus 1.5 × Iq (Iq = Intervalle
interquartile = hauteur de la box)
• la borne inférieure est égale au premier quartile moins 1.5 × Iq
→ Cette procédure trouve une justification dans le cadre de la distribution normale
que nous verrons au chapitre 7. Dans le cadre de ce modèle fréquent dans la
nature, la définition ci-dessus conduit à environ 99% d’inliers et 1% d’outliers.
On peut alors tracer les moustaches:
• La moustache supérieure va du sommet de la boı̂te au plus grand des inliers
• La moustache inférieure va du bas de la boı̂te au plus petit des inliers
Les données qui ne sont pas des inliers sont marquées individuellement par le symbole
“O” (outlier).
24
Exemple: poids des garçons
100
● Outlier
90 80
Moustache supérieure:
Poids [kg]
1.5 x Iq le plus grand des inliers

I
N 3e quartile
70
L
Iq I Médiane
E
R 1er quartile
S
60
1.5 x Iq
Moustache inférieure:
le plus petit des inliers
● Outlier
50
25
Le box-plot permet en un coup d’oeil d’apprécier les caractéristiques suivantes d’une
distribution:
• Position: la box indique ou se trouve la moitié centrale des données, et comment
elle se répartit autour de la médiane.
• Dispersion: la hauteur de la box donne l’écart interquartile. La longueur des
moustaches donne une idée de la dispersion des données extérieures à la box.
• Asymétrie: la position de la médiane dans la box et la différence de longueur
entre les moustaches nous renseigne sur le degré d’asymétrie.
• Présence d’outliers: marqués individuellement.
Pour comparer des échantillons, on peut représenter plusieurs box-plots côte à côte.
→ Voir exemple à la fin du chapitre 2 du polycopié de Marazzi (paragraphe 2.6).
26
Chapitre 4: Description de la relation
entre deux variables
1. Diagramme de dispersion
2. Covariance et corrélation
3. Moyenne mobile
4. Régression linéaire
5. Ajustement
1
1. Diagramme de dispersion
Comme dans le chapitre précédent, nous allons nous concentrer sur les variables
quantitatives avec un grand nombre de modalités.
Pour visualiser l’association entre deux telles variables, le moyen le plus simple est de
construire un diagramme de dispersion ou scatter plot. Un diagramme de dispersion
représente les observations de deux variables en reportant l’une sur l’axe horizontal et
l’autre sur l’axe vertical. Voici par exemple le diagramme de dispersion des poids et tailles
des étudiant(e)s de première année:
Tailles et poids
●
75
● ● ●
●
● ● ● ●
●
70
● ●
● ● ● ●
●
● ●
65
Poids
● ● ● ● ● ●
● ●
●
60
● ●
● ●
● ●
● ● ●
55
●
●
50
160 165 170 175 180 185 190

Taille
N.B.: Pour simplifier la suite, l’étudiant dont le poids était particulièrement élevé a été retiré de l’échantillon.
2
Le graphique semble indiquer une association entre les variables poids et taille: une plus
grande taille semble correspondre en moyenne à un plus grand poids.
Une façon de quantifier cette association est le coefficient de covariance. Pour deux
variables X et Y mesurées sur les mêmes unités d’observation, le coefficient de
covariance (ou simplement covariance), noté v(X, Y ), est défini par:

v(X, Y ) = m (X − m(X)) (Y − m(Y )) .
Exemple de calcul:
xi yi xi − m(X) yi − m(Y ) (xi − m(X))(yi − m(Y ))
-9 4 -7 3 -21
-5 3 -3 2 -6
3 -1 5 -2 -10
7 -3 9 -4 -36
-1 0 1 -1 -1
-7 3 -5 2 -10
Moyenne -2 1 0 0 -14
Dans cet exemple, on a donc v(X, Y ) = −14.
3
Propriétés de la covariance
Soient X, Y et Z des variables et soient a, b, c et d des constantes.
1. Si v(X, Y ) > 0, cela suggère* que les grandes valeurs de X sont généralement
associées aux grandes valeurs de Y et les petites valeurs de X aux petites valeurs
de Y .
2. Si v(X, Y ) < 0, cela suggère* que les grandes valeurs de X sont généralement
associées aux petites valeurs de Y et les petites valeurs de X aux grandes valeurs
de Y .
3. v(X, X) = s2(X)
4. Symétrie: v(X, Y ) = v(Y, X)
5. v(X, c) = 0
6. v(aX + bY, Z) = a v(X, Z) + b v(Y, Z)
7. v(aX + b, cY + d) = ac v(X, Y )
8. s2(X + Y ) = s2(X) + s2(Y ) + 2v(X, Y )
9. v(X, Y ) = m(XY ) − m(X)m(Y )
La propriété 9. est pratique pour faire le calcul à la main car elle évite de calculer tous
les écarts (xi − m(X)) et (yi − m(Y )).
* La présence d’outliers peut invalider ces interprétations.
4
L’inconvénient de la covariance comme mesure de l’association entre deux variables est
qu’elle dépend des unités de mesures. Par exemple, la covariance entre les tailles et les
poids des étudiant(e)s vaut v(T, P ) = 41.82 cm kg. Si on décidait de mesurer la taille
en mètres (Tm) et le poids en grammes (Pg ), on obtiendrait v(Tm, Pg ) = 418.2 m g.
Or, il est clair que l’association entre la taille et le poids des étudiants ne dépend pas des
unités dans lesquelles elles sont mesurées! Il est donc difficile d’interpréter la covariance
entre deux variables.
Pour remédier à cet inconvénient, on définit le coefficient de corrélation (ou simplement

corrélation), noté r(X, Y ), entre les variables X et Y comme
v(X, Y )
r(X, Y ) = .
s(X)s(Y )
Pour les poids et tailles, on obtient
r(T, P ) = r(Tm, Pg ) = 0.64.

La corrélation est une mesure sans unité. Elle est donc interprétable même dans des cas
où les unités des variables ne nous sont pas familières.
5
Propriétés de la corrélation
Soient X et Y des variables et soient a, b, c et d des constantes.
1. Si r(X, Y ) > 0, cela suggère* que les grandes valeurs de X sont généralement
associées aux grandes valeurs de Y et les petites valeurs de X aux petites valeurs
de Y .
2. Si r(X, Y ) < 0, cela suggère* que les grandes valeurs de X sont généralement
associées aux petites valeurs de Y et les petites valeurs de X aux grandes valeurs
de Y .
3. r(X, X) = 1
4. Symétrie: r(X, Y ) = r(Y, X)
v(X,c)
5. r(X, c) = s(X)s(c) =0
0 est indéfini
6. r(aX + b, cY + d) = signe(ac) r(X, Y )
7. r(aX + b, X) = signe(a) r(X, X) = ±1
8. −1 ≤ r(X, Y ) ≤ 1
La corrélation entre deux variables est donc toujours comprise entre -1 et 1,
et ces bornes maximale et minimale sont atteintes lorsqu’il a y une relation
linéaire parfaite entre les variables.
* La présence d’outliers peut invalider ces interprétations.
6
La corrélation est une mesure de l’association linéaire entre deux variables.
Une autre formulation des propriétés 1. et 2. est la suivante: Si une valeur de X supérieure
à la moyenne de X est généralement associée à une valeur de Y supérieure à la moyenne
de Y , et de même pour les valeurs inférieures à la moyenne, r(X, Y ) aura tendance à
être positif. Une association renversée conduira r(X, Y ) à être négatif.
r(X,Y) = 0.79 r(X,Y) = −0.58
m(X) m(X)
23
● ●
● ●
●
5
●
● ●
● ● ● ● ● ● ●
● ●
●
22
● ●
● ● ● ● ●●
●● ●● ● ● ●
● ● ● ● ● ●
●
4
● ●●● ● ●
●
● ● ● ● ●● ● ● ●●● ● ● ●
● ●
● ● ●●● ●●● ●
● ●●●●● ●
●
●● ● ● ●●●
●
● ●● ● ●
●
● ●●●●●●●● ●● ● ●● ● ● ● ●● ●●● ●●
● ●●
21
● ● ● ● ● ● ● ●●●
● ● ●●● ● ●
● ●●● ● ●●● ● ● ● ●
● ● ●● ●
● ● ● ● ●●●● ● ● ● ● ● ●●
●● ● ●●● ● ●●● ●● ●
●
●
● ●●●●● ● ● ● ●● ● ● ● ● ● ●
● ●
3
● ● ● ●●●● ● ●● ● ●●●●● ● ● ● ● ●
● ● ● ●
● ● ● ● ●●● ●● ● ● ●● ● ● ●●● ●● ●
● ●● ● ●● ● ●●● ●●●●● ● ● ● ● ● ● ●● ●● ● ●●●●●●● ● ●● ●
m(Y) ●●● ●
●
● ● ●
●●●
●
●●●● ● ● ●
●
●
●●●● ● ● ● ● ● ●● ● ●●●● ●●●● ● ● ● ●
● ●
● ● ●●● ● ●●● ●●●●●●●
●●●
● ●●
●● ● ●●
●● ●● ● ●● ● ● ●●●● ●
● ●● ●●● ● ● ●
●●● ● ● ●● ● ● ●● ● ● ●
20
● ● ● ● ●● ●● ●
● ● ●●● ●
Y
Y
●
●●●● ● ● ● ● ● ●●
● ●● ●●●
● ● ● ● ● ●●
●● ●●
● ●●●●●●●
●
● ●●●● m(Y) ● ● ● ●
● ● ● ●●
● ● ●●● ●
●● ●●● ● ●
●●●●●●●
●●●●●●●●
●
●●●●
●● ●●
●● ● ●
● ●
● ●● ●● ● ●
●●● ● ●
●●● ●●● ● ● ●● ●
●● ●● ●
●●● ● ●
●● ●
●● ●● ●●● ● ●●
2
●● ●
● ●● ●
●
●●
●
●●●●
●●
● ●●
● ● ●● ●
● ● ●●
●●●● ●● ● ●
●
●● ●
● ●
●
● ● ● ●● ●● ● ●
● ● ●● ●
●● ● ●● ●● ●●
●● ●●●
●
● ● ● ● ● ● ● ● ● ● ● ●● ●● ●●●●●●●
● ●
●● ● ● ●● ● ● ●
●●● ●● ●● ●●●●● ●● ● ● ● ●● ● ●●●● ●● ● ●● ●●
● ● ● ● ●●
●● ● ● ● ●●● ●●
● ●● ● ● ● ● ●●
●● ● ●
● ● ● ●● ●● ●
●●●●● ● ● ●●●
●● ●●●●●
19
● ●●● ● ● ● ●● ●● ●●
●
●● ●
● ●● ●● ●● ● ●● ●● ● ● ●●●● ●● ●●
●●●● ● ● ●
● ● ● ●● ● ●● ●●
● ● ● ●● ● ●● ●
●●● ● ● ● ● ● ● ●
1
● ● ●● ●●
● ●●●●● ● ● ●● ●● ● ●●● ●
● ● ● ●
●● ● ● ● ●
● ● ●● ● ●
●● ●●●●● ● ● ●● ●
● ●● ● ●● ● ● ●
● ● ●●● ● ● ●●
● ●● ● ●
●● ● ●
18
● ●
● ● ● ● ●● ● ● ●
● ● ● ● ●● ● ●● ●
●
0
● ● ●● ●
● ● ●
● ●
17
● ● ● ●
−1
7 8 9 10 11 12 13 47 48 49 50 51 52
X X
7
Cas des tailles et des poids, où comme on l’a vu la corrélation est positive:
r(Taille,Poids) = 0.64
m(Taille) ●
75
● ● ●
●
● ● ● ●
●
70
● ●
● ● ● ●
●
● ●
65
Poids
● ● ● ● ● ●
m(Poids)
● ●
●
60
● ●
● ●
● ●
● ● ●
55
●
●
50
160 165 170 175 180 185 190

Taille
8
Voici quelques exemples de diagrammes de dispersion correspondant à différentes valeurs
positives de la corrélation:
r = 0.01 r = 0.22 r = 0.44
● ● ● ●
● ●
● ●
● ● ● ● ● ●
● ● ●
● ● ● ●
● ● ●
●● ● ● ● ●
● ● ● ● ●
● ● ●
● ● ● ● ● ●● ● ●
● ● ● ● ● ● ●
● ● ●● ● ●
● ●
● ● ● ● ●● ●
● ● ● ● ● ●
●
●
● ● ●● ●
● ●
● ● ● ● ●
● ●● ●●● ● ● ● ● ●
● ●
● ● ● ● ● ● ●
● ● ●●
● ● ● ● ●● ●●
● ●● ●●● ●● ● ● ●● ● ● ●● ● ● ● ● ●● ●● ● ● ●
● ● ● ●● ●● ● ● ● ●
● ● ● ● ●●
● ●
● ●
● ●● ● ●● ●● ● ●●
● ● ●
●
●
● ●
● ●●
●
● ● ●●
● ●● ●
● ● ●● ●
● ●●● ● ● ● ● ● ● ●●● ●●● ●
● ● ● ●● ●●● ●● ●●● ● ● ●●
● ● ● ●● ● ●
● ● ● ● ● ● ●● ●
● ● ● ●● ●● ● ● ● ● ● ● ● ● ●●
● ● ● ●● ●●
● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ●●● ●● ●●● ●● ● ● ● ● ● ● ● ● ● ● ● ●
● ●● ●●
● ● ●●● ● ● ●● ●●● ● ●●●
● ●
●● ● ●● ● ●●●● ● ● ● ● ●● ●
● ● ● ●●● ● ● ● ● ● ● ● ●● ●●
●● ● ●
● ● ● ●●● ● ● ● ● ● ●● ● ● ● ● ●●● ● ●● ● ●● ● ● ●● ●● ●● ●●
●
● ● ● ● ●● ●● ● ● ● ● ●● ● ● ● ●
●● ● ●●● ●●
●
● ●● ● ● ● ● ●
● ● ●●●
● ● ●● ● ● ● ●●● ● ● ● ●
● ●
● ● ●●● ● ●●
● ● ●● ● ●●●
● ● ● ● ● ● ●● ● ● ●
● ●● ● ●
● ● ● ●●
● ●●●
● ●●● ● ● ● ● ●
● ●● ●●● ●●●● ●●● ●●● ●
●
●
●● ● ●●● ● ● ●●● ●
●
●●● ●●●● ● ● ●● ●●●●●●●● ● ●●● ● ● ●
●
● ●● ●● ● ● ● ●● ●●● ● ● ● ● ● ●
● ●● ● ● ●● ● ● ●● ● ●●●
●
●●● ● ●●
● ● ●●● ● ● ●●●●●● ●●●● ●
● ●●
● ●● ● ●● ● ●● ●●● ●●
● ●● ● ●● ●● ●● ● ●
●
●●● ● ● ● ●
● ●
●● ●●● ●●●●● ● ● ● ●● ●● ● ●●● ●●● ● ●● ● ●● ● ● ● ●●●● ●
●
●●●
● ● ● ●●●●
● ●
● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ●● ●● ●●●●● ●● ● ●●●
●
● ● ● ● ●● ●
●●
●
●●● ●●● ●
● ● ● ● ● ● ● ● ●
● ● ●● ● ● ● ● ● ●●●
● ● ●● ●●● ● ● ● ● ●● ● ● ● ●● ● ●●● ● ●
● ● ● ● ●● ●● ●● ●●● ●● ● ● ●●● ●●● ●
● ●
●● ●●● ● ●
●
● ● ●●
●● ● ● ●●
● ●● ●● ● ●
●● ● ● ● ● ●●● ● ● ●
● ● ●● ●●●●● ●
●
●●●● ●● ● ● ●●●●● ● ● ● ●● ● ●● ● ● ●● ● ● ●● ●●● ● ●●
● ● ● ●
● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ●●● ● ● ●
● ●● ● ● ●
●
●●●● ●● ● ● ● ●●
● ●● ● ● ●● ●● ● ● ●●
● ● ●● ●●● ●● ● ● ●●
● ● ● ● ●●
●● ● ●● ● ● ● ●● ● ● ●● ● ● ●
● ●●●
● ● ●
● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ●
● ● ●●
● ● ● ●
● ●
●●
● ● ●● ● ● ●
●●
●
● ●● ● ●
● ● ● ●●●● ● ●● ● ● ● ● ● ● ● ● ● ●● ●
●
●●
● ● ●● ●
●
● ● ● ●● ● ●
●● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ●●● ● ●● ● ● ●
●● ● ●● ●●● ●
● ●
●
●●● ● ●●●● ●● ● ● ● ●● ● ●●● ● ●
● ● ● ●● ● ● ● ● ●● ●●● ● ● ●● ● ●● ●
●● ● ●●
● ●
●● ● ● ● ● ● ● ● ● ●●● ● ● ●● ● ● ●
● ● ● ● ● ●● ● ● ● ●
●
●
●
●
● ●● ●●● ●●
●
● ●● ● ● ● ● ●● ● ●
● ●●
● ● ●
● ●● ● ● ●● ● ●
● ● ●
● ● ● ● ● ●● ● ●
● ● ●
●
●● ● ●● ● ● ● ●
● ● ● ●●
●● ● ● ● ● ●● ● ●
●● ● ● ●●● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ●● ● ●● ● ● ●
● ● ● ● ● ● ●● ● ●
● ● ● ● ● ● ● ● ●
●● ●● ● ●
●● ● ●● ● ● ● ● ● ●
● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ●
● ● ● ●●
● ● ● ● ● ●
● ● ● ● ● ● ●
● ● ● ●
● ●
● ● ●
r = 0.75 r = 0.9 r = 0.99

● ● ●
● ●
● ● ●
● ●
● ●● ●
●●
●●
● ● ● ●●
● ● ● ● ● ●
● ● ●●
● ●● ●
● ● ●● ●● ● ● ● ●●
●
● ●●
● ●● ● ● ● ● ●●
● ● ● ●●●
● ●
●● ● ● ● ●
● ● ● ● ● ●●
●●● ● ● ●
● ●
● ● ● ●● ●
● ● ●● ● ●●● ● ●
● ● ● ● ●●
●●●
●
●
● ●● ●●
● ●● ● ● ● ● ●
● ●●● ●
● ●●
●
●●
● ●
● ●●
●●
● ● ● ●
● ●●●●●●●●
● ●●● ●● ●● ●● ● ● ●● ●
●
● ● ● ●
●●●
●● ●● ●●● ● ● ● ●
●
●● ● ●●● ●
●●
●
●●
●
●
●●
● ●
●
●
●
● ● ● ●● ●●● ● ●● ●●● ● ● ● ●●
●●●
●
●
●
●●
●● ● ●● ● ●● ●● ● ●
● ●
●● ●●● ●● ● ●
●
●●● ●●●
●● ●●● ●
●●
●
●● ●
●
●● ● ●● ● ● ● ●
● ● ● ●● ●
●● ●● ● ●● ● ●
●
●●
●●
●
●●
● ●
●● ●●●●●
●
● ● ● ●● ● ● ●●●●● ● ●●
●●
● ●
●●● ●● ● ● ●
● ●●●●● ● ●
● ● ● ●● ● ●
● ●●
●●●
●
●
●
●●●
●●
● ●●●
●
●
● ● ● ●●
● ● ●●● ●● ●● ● ● ●●●● ●●● ●● ●●● ●● ●
●●● ●
● ●●●●● ● ●
● ● ● ● ●● ●●● ● ●● ● ● ●
●● ● ● ● ●
● ● ● ● ●●
● ●●
●
●●
●●● ●●
●
● ●● ● ●●●●
● ●
●● ● ●● ●●
●● ●● ●
●● ● ● ●● ● ● ●●●● ● ●●●●●● ●●● ● ● ●
● ●●●● ●●
● ●● ●●●● ●● ●●●
●
●
●●
●●
●●
●
●
●
●
●
●●
●
● ● ●● ● ●●●● ●
● ● ●● ● ●●●●●● ●●
●●
●● ●●●
●
●
●●
●
●
●
●
●
●●●●●
●●
● ●●●
●●●●● ● ●
● ● ● ●● ● ● ●●●●
●●
● ●●● ●
●●●●●
● ●●●●●●● ● ●●●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●●●●●●● ● ● ●● ●
● ●● ●●● ●●●● ●●● ● ● ●● ●
●●
●
● ●●●
●●
● ● ● ●● ● ● ●● ●●● ●●
●
●●
●
● ●●●
●
●●●●
●●●●●
●
●● ● ● ●
●●
●
●●
●
●
●●●
●
●
●
●●●●
●● ●
● ●● ● ●●●●
● ●●●●●●
●●●●●● ● ●● ● ● ● ● ●●
●● ●● ●
● ●●●
●● ●●●
● ●●
● ●●●●●● ● ● ● ●● ● ●●● ●●
● ●●●● ●● ● ●●●● ●
●
●
●
●
●●
●
●
●●
●●●●●
●●
● ● ●
● ● ●
●●● ● ● ●● ●●●● ●●●
● ● ●●● ●●
● ●
●● ●
●
● ● ● ● ●●
●●
● ●
●●
● ●
● ●●● ●●
● ●● ●
● ●● ●
●●●
●●●
●● ●●●●●●
● ●●
●● ●●● ● ●●
●
●
●
●
●
●
●
●
●
● ●
●●●
● ●● ●●
●●●
● ●● ●●
●● ● ●●●
●●
●●
● ●●
●● ●● ● ● ●● ●●
● ●
●●
● ●●
● ●●●
●●●
●
●●●●●
● ● ●
●
●
●
●●
●●
●●
●●
●
● ● ● ● ●● ● ●●●●●●●
●● ●
● ● ● ● ●● ●● ● ●●●●●●● ● ●●
● ●●●● ●●
● ● ●●●●● ●
●●
● ● ● ● ●● ● ● ●● ●● ● ●●
●● ●
●
●
● ●● ● ●●●
●●● ●
● ● ●●
● ●●● ● ●●
● ●●
●●●●● ●●● ●●
● ●
●● ●
●●●
●
●
●● ●●
●
● ● ● ●● ●●●●
●●●●
●
●● ●● ●●●●
●
● ● ● ● ●● ● ● ● ●●●●
●●
●
●●
●
●
●● ●● ● ●
●
●
●
●
●●●
● ● ●● ● ●
● ● ●
●●●
● ● ● ● ●● ● ●
●●●
●●●
●● ●●● ● ●
●● ●● ●●
● ● ●●●
●
●● ● ● ● ● ● ●● ●
●● ●● ● ● ● ● ● ●
● ● ● ● ●●●● ●
● ● ●● ● ● ● ●● ● ● ●
● ●●
●● ● ● ● ● ●
●●
● ● ● ● ●
● ●
● ● ● ● ●●●●
● ●● ● ●●
● ● ● ●
●
●●● ●● ●●
● ●
● ● ●
● ●
● ● ●
● ●
● ● ●
● ●
● ● ● ●
9
Et voici quelques exemples de diagrammes de dispersion correspondant à différentes
valeurs négatives de la corrélation:
r = −0.01 r = −0.22 r = −0.44
● ● ● ●
● ● ●
● ●
● ● ●
● ● ● ● ●
● ● ● ●
● ● ●
● ● ● ● ●
●
● ●
● ● ●
● ● ● ● ●
●●● ●● ● ● ● ●●
● ● ●● ● ●● ● ●
● ●
● ● ● ●● ●● ● ●● ● ●● ● ●
●● ● ● ● ● ● ● ● ●● ● ●●
● ● ● ● ● ● ●●● ●● ● ● ● ●
● ●● ●● ● ● ●
● ● ●● ●
● ● ● ●
●● ● ●●●● ● ● ●●● ●● ●● ● ●
● ● ● ● ● ● ● ● ●
● ● ●
● ● ●● ● ● ● ● ● ●●
●
●
● ● ●●● ●●● ● ●● ● ●● ● ● ● ● ●
● ● ● ● ●
● ●●
●
● ● ● ● ● ● ● ● ●● ●● ● ● ● ●
● ● ● ● ● ●●
● ● ● ● ● ●●● ● ● ●● ● ● ● ● ●●●●
● ● ●● ●●
● ● ● ● ● ● ●
● ● ● ● ● ● ● ●
●●
● ●●
● ● ●● ●● ●●● ● ● ● ●●●●● ● ● ●●●●
●
● ● ● ●● ● ●●●● ● ● ● ●
● ● ● ●●
● ● ● ● ● ●● ● ●● ● ● ● ● ● ●● ● ● ●● ●● ●● ● ● ● ●
● ●
●● ●
●● ● ● ●● ● ● ●● ● ● ● ● ●● ● ● ●● ●●● ●
● ● ●● ●●●● ● ●
●● ● ●● ● ● ●● ●●● ● ● ● ● ●● ● ● ● ● ●● ● ● ●● ●●● ● ● ● ●● ● ●● ● ●
● ●● ●
● ● ●● ● ●●● ● ● ●
● ● ● ● ● ● ● ● ●
●● ●● ● ● ●
● ● ● ● ● ● ● ●● ● ●● ● ●
● ● ● ●● ●● ●● ● ●●● ● ● ● ●●
● ● ● ● ● ●
● ● ● ●● ● ● ●● ● ● ●● ● ● ● ● ● ● ●● ●● ●● ●●● ● ● ●● ●
●● ●
●●
● ●● ● ● ●● ● ●● ● ●
●●●●●
● ●● ●● ●● ● ● ●
● ●● ● ● ●
● ●● ● ●
● ●●●●●●
● ●● ●●● ● ●● ● ● ●● ● ●● ● ● ● ●● ● ● ● ● ●●
●● ● ●
● ●
● ● ●● ●● ●●
● ● ● ● ●● ●●
● ●● ● ●
●● ● ● ●●● ●●
● ●● ● ●●
●
●
● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ●● ●● ●● ●● ●● ●● ●
● ● ● ●●● ● ●● ● ● ● ● ● ● ●● ● ● ● ●●●● ● ●
● ●● ●●
● ●
● ●
● ●● ● ● ●● ●
● ●●●●
●● ●● ● ● ● ●
● ● ● ● ●●
●●● ● ●●● ● ● ●●●●● ● ●
●● ● ● ●
● ● ●●● ●●●● ● ●
● ●●● ●●
● ●
●● ●●● ●
● ●● ●●● ● ●●
● ●
● ● ● ● ● ● ● ●●●●● ● ●● ● ● ●
●● ● ●● ●● ● ● ● ●
●● ●●● ●● ● ● ●
●● ●● ●
● ● ● ●●
● ●●● ●●● ●●●●●●●● ● ●● ● ● ●●
●●
● ● ●
● ● ●
● ●● ● ●●● ● ● ● ● ● ● ●● ● ● ●● ● ● ●
● ●
●● ● ●● ●● ●●●● ●● ● ● ● ●
● ● ● ● ● ●
● ● ● ●
●● ● ●● ● ●● ●● ● ● ● ● ●
●
●
● ●● ●● ●● ●●
● ● ● ●● ●●●
● ●● ●●●●
●● ● ●● ● ●
● ● ● ● ● ● ● ● ● ● ● ●
● ●●
●● ● ● ● ● ● ● ● ● ● ●●
●●
●●
●● ● ● ●●●● ●●●●● ●●● ●
● ●
● ●● ● ●● ● ●
● ● ● ●● ● ● ● ●●● ● ● ● ●● ● ● ● ●● ●●
● ● ● ● ●● ● ● ● ● ●●
●● ●● ●
● ●●
● ●●● ● ● ●● ● ● ●●● ● ●● ● ●
● ● ●
●
●● ● ●● ● ●● ● ● ● ●
● ● ● ● ●
●●●● ● ● ●●
●● ●● ● ●●
●●●● ●
● ●●● ● ● ●● ●● ●● ● ● ● ● ●
● ● ●● ●● ● ●
● ● ● ●
● ●● ●● ● ● ● ● ●● ●● ●● ● ● ●● ●● ●
●● ●●
●● ● ●●
● ●●● ●
●
●● ● ● ● ● ● ● ● ● ●● ●●●● ● ●●● ●
●
●●
● ● ● ●●●
● ● ● ● ●● ●● ● ●
● ● ● ● ● ●● ●●● ● ● ●●
● ● ● ●
● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ●●● ● ● ●
● ● ● ●● ● ●● ●● ●● ● ●● ●● ●●●●● ●
● ● ● ●
● ● ● ●
● ● ●
● ●●● ●● ● ● ●● ●● ● ● ● ● ●● ●
●
● ● ● ●●
● ●● ●● ● ●●
● ● ●● ●
● ●
●● ● ● ●●● ●
●
● ● ● ●
● ●● ●
● ●● ● ●
● ●● ● ● ●
● ● ● ● ●
● ● ●
● ●● ● ● ● ● ● ● ● ●
●● ● ● ●● ● ● ● ●
● ●
● ● ● ●
● ● ●●● ● ● ●
●
● ●
●● ●
● ● ●●
● ● ● ● ● ● ● ● ● ● ●
● ● ● ●
● ● ● ● ● ●
● ● ●
● ●
●
●
● ● ● ●● ●
r = −0.75 r = −0.9 r = −0.99

● ● ● ●
● ●
● ● ●●
● ●●
●●●
●
● ● ●
● ● ● ● ● ●●● ● ●
● ● ●● ●
●●
●●
● ● ●● ●
● ● ● ● ●●
● ●● ● ●● ● ●●
● ● ● ● ●● ● ●● ● ●
●
● ●●● ● ●●●●●
●
● ● ● ●● ●●
●
● ●
● ● ● ●●
●● ●● ●
● ● ●
● ● ● ●● ●●
●● ●●●
●●●●
● ● ● ● ●●● ● ●
● ●●
●
● ●● ● ●●● ● ● ●
● ● ● ●●● ●●
●●●●●
● ● ● ● ●● ●●● ●
●
● ●
●● ●
● ●●● ● ● ●● ● ●● ●
● ● ●
●
●●●●●
●
●
●● ●
●●
●
● ●●● ● ● ● ●● ●●●
● ●● ●
● ● ●● ●●●● ●● ●
●
●●
●● ●●●
● ●● ●● ● ●
● ● ● ●● ● ●●●●
● ●●
●
●
● ● ● ●●
● ●●● ●● ● ● ●●● ● ●● ● ●
●●●●●●●
● ●
●●
●●
●
●● ●●●● ●●●
● ● ● ●●● ● ●●●● ● ● ●
●●
●●
●
●
●●
● ●
●●●● ●●● ● ●●●● ●
●●● ●
● ●
● ●
●●● ● ●
● ● ● ●● ● ● ●●
●●● ● ●●
● ●
● ●
● ●●●●●●
●●
●● ●● ● ●●● ●●● ● ● ● ● ● ● ●●●● ●
●● ●●
●●
●● ●●●●●●
● ● ●● ●
● ● ●● ● ● ● ● ●●
●●●●● ●● ●● ●
●●●●●●●
●● ●
● ●●●●●●●● ●
●
●●
●
● ●
●
●
● ● ●
●
●●● ● ●
●●● ● ●
●
● ●● ● ●
●
●
●
● ●
●●
●
●
●
●●●
●●●● ●
●● ●● ●●● ●● ●●● ●● ●● ● ●●●●●
●
● ●●● ●
●●●
● ●● ● ●●●
●●●●
●●
● ● ●
● ● ● ● ● ● ● ●●●●● ●● ●
●●
●●● ●● ● ● ●
●
● ●●●
●
●●●●●●
● ●● ● ●●● ●● ● ● ● ● ● ●●●● ●● ●
●●
●● ●●●●●
●
● ●●● ●● ● ●
●●●
●●
●●
●
●● ●
●●
● ● ●● ●●●● ● ●●● ●●●● ● ● ● ● ●● ● ●●●
●●
● ● ● ●●
● ● ●● ●
●●
●
●●
●●
●●
●●
●●●●●
● ●●●● ● ● ●
●●
● ●● ●
● ●
● ●
● ● ●●
●
●● ● ●
●●●●
●● ●●● ●
● ● ●●
● ●●●●●●
●●●● ●●
●● ●● ●●●● ● ● ● ● ● ●
● ●● ● ●● ● ●● ● ●● ●●
●●●● ●● ●●●
● ●
●● ● ●
● ● ●● ● ●●
●●
● ●●
●
●●●
● ●● ● ● ● ●● ●
●●●
●●●
●
●
●
●
●
●●
●
●
●
●
● ●● ● ●●
●●●●● ●● ●● ● ●● ● ●● ●● ●●●
● ● ● ●
●● ●●● ●●
● ●
● ●●●
● ●
●●
●●
●● ●●
● ●
●●
●●
●●
●
●●
●●
● ● ● ● ●
●
● ●●●●● ● ●●● ●
●
● ● ●●●●
●●● ● ● ● ●●● ●●
●●
●
●● ●
●●●
● ● ● ● ●● ● ● ● ● ● ● ● ●
● ● ●● ●● ● ●● ● ● ● ● ● ●● ●● ● ● ●● ●●●●
● ●● ●● ●
●●●●
●
● ● ●● ● ●●● ● ●● ● ●● ●
●● ●●● ●●
● ●●● ●
●
●●
●
● ●● ●
●
●
● ●●●● ● ●
● ● ●● ● ● ● ● ● ●● ● ●●● ●● ● ● ●●●●●
●●
●
●
●
●
●●
●●
●●●
● ● ●● ●
● ●●●● ●
●
●
●
●●
●●
● ●● ● ●
●
●
●
● ●●
●
●
●●● ●●●●●●● ●● ●● ●
●
●●●
● ●
●
●●
●
●●●●
● ● ● ●● ●● ●● ●
● ● ● ●● ● ●
● ●● ●● ● ●●● ● ● ● ● ●● ●
●●
●
●●
●
● ● ●
● ●●●●●●
●●
●● ●
●● ● ● ●●● ● ●● ●● ● ●● ●
●
● ● ● ●●● ●●●●● ● ● ● ●● ●●
● ●●● ●● ● ●●● ●
●●
●●
●● ● ● ● ●
●●
●● ●● ●●
● ● ●● ●
● ● ●●●
●●●●
●● ● ● ●● ● ● ●
● ● ●●●●
● ●●
●● ● ●●● ● ●●● ●
● ●● ● ●
●● ●●● ●
● ● ●● ● ●
●●
●● ●
●● ●●● ●
● ● ● ●
● ● ● ●
●
● ●
●
● ● ●●
●
● ●
● ●
● ● ●
●
●● ● ●
● ● ● ●
10
Lorsqu’on interprète une corrélation, il convient d’être attentif aux points
suivants:
• Une corrélation nulle ne signifie pas qu’il n’y a pas de relation entre
deux variables, elle signifie seulement qu’il n’y a pas d’association
linéaire. Par exemple dans le cas ci-dessous il y a une association
quadratique exacte entre les deux variables, mais la corrélation est
nulle.
25
● ●
● ●
20
● ●
● ●
●
r(X,Y) = 0 ●
15
● ●
Y
● ●
10
● ●
● ●
● ●
● ●
5
● ●
● ●
● ●
● ●
● ●
● ● ●
● ● ● ● ●
0
−4 −2 0 2 4
X
11
• De façon générale, il est toujours bon de faire un scatter plot des
données avant d’interpréter une corrélation. Une illustration de ce
fait est le quartet d’Anscombe: quatre jeux de données très différents
où la corrélation est la même:
Le quartet d'Anscombe
r(x1,y1) = 0.82 r(x2,y2) = 0.82
12
12
●
10
10
●
● ● ●
● ● ●
●
y1
y2
● ● ●
8
8
●
● ●
●
●
6
6
●
● ●
●
4
4
●
5 10 15 20 5 10 15 20
x1 x2
r(x3,y3) = 0.82 ● r(x4,y4) = 0.82 ●

12
12
10
10
● ●
●
y3
y4
●
8
● ●
●
●
● ●
● ●
● ●
●
6
● ●
● ●
●
4
5 10 15 20 5 10 15 20
x3 x4
12
Commentaires sur les exemples du quartet d’Anscombe:
• 1er cas: La relation semble linéaire, la corrélation fait sens
• 2e cas: la relation entre les variables n’est pas linéaire. Si on s’arrête
à la corrélation, on manque une part importante de la nature de
l’association entre X2 et Y 2.
• 3e cas: la présence d’un outlier exerce une forte influence sur la
corrélation (qui serait égale à 1 sans cette observation)
• 4e cas: il n’y a pas suffisamment de valeurs différentes de x4 pour
pouvoir vérifier la linéarité de la relation
13
Effet d’un outlier sur la corrélation
Le 3e cas du quartet d’Anscombe nous met en garde contre la forte
influence que peut exercer un outlier sur la corrélation. Dans l’exemple
ci-dessous, la présence d’un seul outlier change complètement la valeur de
la corrélation et invalide l’interprétation usuelle:
r(X,Y) = 0.81
●
22
● ●
●
●
●
●
●
● ●
● ●
● ●●●
●
●
● ●
● ●
●
20
● ● ● ●
●
● ● ●●
● ● ● ●
●
● ●
●
● ● ●
● ●
● ●
● ●
●
18
Y
16
14
8 10 12 14 16
X
D’où l’importance de regarder le scatter plot avant d’interpréter une

corrélation!
14
Effet d’un outlier sur la corrélation
Le 3e cas du quartet d’Anscombe nous met en garde contre la forte
influence que peut exercer un outlier sur la corrélation. Dans l’exemple
ci-dessous, la présence d’un seul outlier change complètement la valeur de
la corrélation et invalide l’interprétation usuelle:
r(X,Y) = −0.09
●
22
● ●
●
●
●
●
●
● ●
● ●
● ●●●
●
●
● ●
● ●
●
20
● ● ● ●
●
● ● ●●
● ● ● ●
●
● ●
●
● ● ●
● ●
● ●
● ●
●
18
Y
16
14
outlier ●
8 10 12 14 16
X
D’où l’importance de regarder le scatter plot avant d’interpréter une

corrélation!
15
3. Moyenne mobile
Pour décrire de façon plus détaillée la relation entre deux variables X et

Y , on cherche un modèle mathématique de cette relation, caractérisé par
une fonction y = f (x). Une façon de déterminer f est la suivante:
1. Choisir une “largeur de fenêtre” 2δ
2. Déplacer la fenêtre le long de l’axe horizontal et calculer à chaque

fois la moyenne des yi tels que xi se trouve dans la fenêtre
Autrement dit:
f (x) = moyenne des yi tels que xi ∈ [x − δ, x + δ].
16
Ce qui donne:
Tailles et poids
●
75
● ● ●
●
● ● ● ●
●
70
● ●
● 22
● ● ●
●
● ●
65
Poids
● ● ● ● ● ●
● ●
●
60
● ●
● 23
●
● ●
34
● m(●p11, p22, p●23, p34, p31)
55
●
11●31
50
160 165 x−δ x x+δ 180 185 190

Taille
Pour obtenir un résultat plus lisse, on peut pondérer la moyenne des points dans la
fenêtre par δ - distance au centre de la fenêtre. Cette moyenne est notée mp (moyenne
pondérée) sur la figure.
17
Ce qui donne:
Tailles et poids
●
75
● ● ●
●
● ● ● ●
●
70
● ●
● 22
● ● ●
●
● ●
65
Poids
● ● ● ● ● ●
●
●
mp(p11, p22, p23, p34, p31) ●
60
● ●
● 23
●
● ●
34
● ● ●
55
●
11●31
50
160 165 x−δ x x+δ 180 185 190

Taille
Pour obtenir un résultat plus lisse, on peut pondérer la moyenne des points dans la
fenêtre par δ - distance au centre de la fenêtre. Cette moyenne est notée mp (moyenne
pondérée) sur la figure.
18
4. Régression linéaire
Souvent on préfère choisir un modèle plus simple que la moyenne mobile

pour décrire la relation entre deux variables. L’avantage est qu’un modèle
plus simple sera plus facile à interpréter. Un modèle très courant est celui
de la régression linéaire, où la fonction y = f (x) est une droite. On
appelle cette droite la droite de régression.
→ Quelle droite choisir?

→ → Celle qui “colle” le mieux aux données, selon un certain critère.
Critère généralement utilisé: critère des moindres carrés.

→ → Choisir la droite qui minimise la somme des carrés des distances
entre la droite et les observations.
19
Exemple:
Tailles et poids
Somme des carrés = 6960.9

80 Somme des carrés = 2108.8
Somme des carrés = 1419.9 ●
● ● ●
●
● ● ● ●
●
70
● ●
Poids
● ● ● ●
●
● ●
● ● ● ● ● ●
● ●
●
60
● ●
● ●
● ●
● ● ●
●
●
50
160 165 170 175 180 185 190

Taille
20
Exemple:
Tailles et poids

● ● ●
●
● ● ● ●
●
70
● ●
Poids
● ● ● ●
●
● ●
● ● ● ● ● ●
● ●
●
60
● ●
● ●
● ●
● ● ●
●
●
50
160 165 170 175 180 185 190

Taille
21
Exemple:
Tailles et poids

● ● ●
●
● ● ● ●
●
70
● ●
Poids
● ● ● ●
●
● ●
● ● ● ● ● ●
● ●
●
60
● ●
● ●
● ●
● ● ●
●
●
50
160 165 170 175 180 185 190

Taille
22
Pour la régression d’une variable Y par rapport à une variable X,
l’ordonnée à l’origine (ou intercept) β̂0 et la pente β̂1 de la droite des
moindres carrés peuvent être calculés analytiquement et sont donnés par
les formules suivantes:
s(Y )
β̂1 = r(X, Y ) ,
s(X)
β̂0 = m(Y ) − β̂1m(X).

β̂1 est le coefficient de régression associé à la variable X et quantifie
l’association entre X et Y . On voit qu’il est égal à la corrélation multipliée
pas le rapport des écarts types de Y et X. Il dépend donc des unités de
Y et de X.
23
Cas des tailles et des poids:
Tailles et poids
●
^
β1= 0.54 kg/cm
75
● ● ●
●
● ● ● ●
●
70 ● ●
● ● ● ●
●
● ●
65
Poids
● ● ● ● ● ●
● ●
●
60
● ●
● ●
● ●
● ● ●
55
●
●
50
160 165 170 175 180 185 190

Taille
Le coefficient de régression s’interprète de la façon suivante: à un accrois-

sement de la taille de 1 cm correspond en moyenne un accroissement du
poids de 0.54 kg.
24
Terminologie et définitions:
• Dans le contexte de la régression, on convient d’appeler Y la variable réponse ou
la variable dépendante et X la variable explicative ou la variable indépendante.
• Lorsqu’on calcule les valeurs de β̂0 et de β̂1, on fait une estimation d’un modèle
sous-jacent que l’on postule au niveau de la population:
Y = β0 + β1X + ε,
où β0 et β1 sont les vraies valeurs de l’intercept et de la pente au niveau de la
population et ε est une variable appelée l’erreur. En statistique, on utilise souvent
le “ˆ” (chapeau) pour indiquer qu’une variable est une estimation d’un paramètre.
• Ŷ = β̂0 + β̂1X est la variable des réponses calculées. (ŷi est la valeur sur la
droite correspondant à xi.)
• ε̂ = Y − Ŷ est la variable des résidus.
Propriétés
Y = Ŷ + ε̂
•
réponse observée = réponse calculée + résidu
• La droite des moindres carrés passe par le point (m(X), m(Y )).
• La somme des résidus est nulle: ε̂i = 0.
P
25
Différence entre corrélation et coefficient de régression
Corrélation et coefficient de régression sont deux mesures complémentaires de

l’association entre deux variables. Ils renseignent chacun sur un aspect différent de la
relation entre les deux variables: la corrélation informe sur la précision avec laquelle
on peut prédire l’une à partir de l’autre, tandis que le coefficient de régression mesure
l’importance de l’“effet” moyen de l’une sur l’autre.
Regardons cela de plus près.
26
Corrélation
Pour comprendre l’information délivrée par le coefficient de corrélation, nous allons tout
d’abord nous intéresser à la précision avec laquelle on peut prédire la valeur de Y pour
un individu quelconque, sans rien connaı̂tre de X. Cette information nous est donnée
par l’intervalle de prédiction défini comme
m(Y ) ± 2s(Y ).
On peut montrer en effet que cet intervalle contient environ 95% des observations si
les données suivent une distribution normale, ou modèle de Gauss, hypothèse que nous
ferons. (Le modèle de Gauss sera présenté en détail au chapitre 7.)
Si des observations de X sont disponibles, on peut améliorer cette prédiction en utilisant
la relation entre X et Y . Un nouvel intervalle de prédiction pour la valeur de Y pour
un individu dont on connaı̂t la valeur x de X est donné par
β̂0 + β̂1x ± 2s(ε̂).

A nouveau, on peut montrer que cet intervalle contient environ 95% des observations
(sous le modèle de Gauss).
Les figures des pages suivantes illustrent la situation.
27
Intervalles de prédiction
80
m(Y) + 2s(Y)
●
75
●
●
●
●
70 ●
●
●
●
65
Y = Poids
●
m(Y) 4s(Y)
●
●
60
●
●
●
●
55
●
●
50
●
m(Y) − 2s(Y)
28
Intervalles de prédiction
80
●
^ ^
75
β0 + β1X
● ● ●
● 2s(ε^)
● ● ● ●
●
70 ● ●
● ● ● ●
●
● ●
65
Y = Poids
● ● ● ● ● ●
4s(Y)
● 4s(ε^) 2s(ε^)
●
●
60
● ●
● ●
● ●
● ● ●
55
●
Gain de précision
●
50
160 165 170 175 180 185 190
X = Taille
29
Les précisions des prédictions avec et sans connaissance de X sont donc respectivement
de 4s(ε̂) et 4s(Y ). Le gain de précision, rapporté à la précision initiale, est donc égal à
s(Y )−s(ε̂)
s(Y )
. Il s’agit du pourcentage de réduction de l’intervalle de prédiction, lorsqu’on
utilise l’information fournie par X. Or, on peut démontrer qu’il existe la relation suivante
entre le pourcentage de réduction et la corrélation:
s(Y ) − s(ε̂)
q
=1− 1 − r2(X, Y ).
s(Y )
100%
80%
s(Y) − s(^ε)
60%
s(Y)
40%
20%
0%
−1.00 −0.75 −0.50 −0.25 0.00 0.25 0.50 0.75 1.00

r(X,Y)
Plus la corrélation est proche de 1 ou -1, plus la réduction de l’intervalle de prédiction est
importante, et donc meilleure est la prédiction de Y à l’aide de X. Pour une corrélation
nulle, il n’y a aucun gain de précision lorsqu’on utilise X pour prédire Y .
30
Coefficient de régression
Le coefficient de régression mesure l’importance de l’“effet” moyen d’une variable sur
l’autre, représenté par la pente de la droite de régression. Plus la pente est forte (en
valeur absolue), plus le changement moyen de Y associé à un changement donné de X
est important.
Comme dit précédemment, corrélation et coefficient de régression sont deux mesures

complémentaires de l’association entre deux variables. Une forte amélioration de la
prédiction n’implique pas un fort effet moyen, et vice versa.
La page qui suit illustre ce fait. On y a représenté quatre situations avec différentes
combinaisons de valeurs faibles et fortes de la corrélation et du coefficient de régression.
Des bandes de largeur 4s(ε̂) autour de la droite de régression et de largeur 4s(Y )
autour de la moyenne de Y représentent la précision de la prédiction avec et sans
connaissance de X.
31
^ s(Y) − s(^ε) ^ s(Y) − s(^ε)
r = 0.95, β1 = 2.86, = 0.7 r = 0.4, β1 = 2.85, = 0.09
s(Y) s(Y)
30
30
●
● ●
●
● ●
●
●
● ●● ●●
● ●
●
● ●● ●
20
20
● ● ●
● ● ● ●
● ●
● ● ●● ● ●● ●
● ● ●● ● ● ● ●
●● ●
● ● ●
●
●
● ● ●●
●●
●● ● ● ●● ●●
●●●● ● ● ● ● ● ●
● ● ● ● ● ●
● ● ●● ● ●●● ●
● ● ● ●
● ●●● ● ●●
● ● ● ● ● ● ●●● ● ●●
● ● ●
●● ●● ●● ● ●
● ●● ● ● ● ● ● ●● ●●● ●●● ●
●●
● ●● ● ● ● ●●● ●●●
●● ●
●●●●●●●● ●● ● ● ●● ● ● ● ● ●
●●●●
●●
● ●
●●
●
●
●●
●●
●●●●
●●
●●
● ● ● ● ● ● ● ● ●● ● ●
●●● ● ● ● ●
● ●●
●● ● ●●
●● ●● ● ●● ●● ●● ● ●●
●
●● ●
● ●
●●●●
● ● ● ● ● ● ●● ● ● ●●
● ●
10
10
● ● ●●
●●●●
●●●●●●●
●●●● ● ● ● ● ●● ●
●●● ●●●●
●
●
●●
●● ●
●●
●●
●●
●●
●
●●
●●●● ●
●●● ●
●●● ● ● ●●
● ● ●●
● ● ● ● ●● ●
●
●
● ● ●
●●● ●●●
●●
●●
●●
●
●●
●
●
●
●● ●●●
●● ●●●
●●●●●● ●● ● ●● ●● ●● ●●● ● ● ●●
●● ● ●
●● ●●
● ●●●● ●
●
●
●●●●●
●
●
●●●
●
●
●●●●
●●
●
●
●●
●●● ● ●●
●
●● ● ●● ● ●● ● ● ●●●
●
● ● ●●●●
●●
●
●
●●
● ●● ●● ● ● ●● ●●● ● ●
● ●● ●
●
●●
●●
●
●●
●
● ●●
●
●●●
●●
●
● ●●
●● ●
●●
●
●●●●● ● ●
●
● ● ● ● ● ●●● ● ● ●● ●●●●● ●
●
●
●●●●●●
●● ●
●●
● ● ● ●●
● ●●
●● ● ●● ● ● ● ●● ●● ● ● ● ● ●
●●
●●●●
●●●●●●●
●●
●
●
●●● ●●●
●●●● ●
● ●
●● ● ●● ●
● ● ●●
● ●●● ●
●● ● ● ● ● ●
● ● ●● ●●●●● ●●● ● ● ●●● ●● ● ●● ●●●●● ●
●
●● ●●●●●
●
● ●●
●● ●●
●●●●●●
● ● ● ● ●● ● ●●●● ●● ● ●● ● ● ●
●● ●●● ●●●
●
●● ● ● ● ● ●●●● ● ● ● ●●●● ●
●● ● ●
●●
● ●
●●●●●●●●
●
● ● ●
● ● ● ●●●● ●●
● ●●
● ●
●● ● ● ● ●● ● ● ●●●
● ●●● ● ● ● ● ●● ● ●● ● ● ● ●●
● ● ● ●
● ● ● ● ● ● ●● ● ● ● ●
● ● ● ● ● ●●
● ●
Précision: ● ●●
● ● ● ● ●
0
0
● ● ● ● ●● ●
● ●
● ● ●● ●● ●● ●●
●
● ●
●
● ● ● ● ● ●
● ● ● ●● ● ● ●● ● ● ●
● ●●● ● ● ●
● ●
● ● ● ●●● ● ●
Sans connaître x: m(Y) +/− 2s(Y) ●
● ●
●
● ●● ●
●
●
●
● ●
^ ^
En connaissant x: β0 + β1x +/− 2s(^ε)
−10
−10
●
●
●
0 1 2 3 4 5 6 0 1 2 3 4 5 6
^ s(Y) − s(^ε) ^ s(Y) − s(^ε)

r = 0.95, β1 = 0.95, = 0.7 r = 0.4, β1 = 0.95, = 0.09
s(Y) s(Y)
30
30
20
20
10
10
● ● ●
● ●
●●
● ● ●●● ● ● ●● ● ●●
●
● ● ● ● ●● ● ●● ●
●●
●● ● ●● ●●● ●●● ●●● ● ● ● ● ●● ● ●
● ●
● ●●● ● ● ●
● ● ●●●
●
●●●●
● ● ●
●● ● ● ●
●
● ● ● ●●●● ● ● ● ●
● ●
●
● ●● ●● ●●●●●
●●● ●● ● ● ● ●●
● ●● ●●●
● ● ● ●●●● ●●
●● ●●●●●●●
●● ● ● ●●●
● ●●● ●●
●●
●●●●
●●
●●●
●
●●●●●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●●
●
●●●
●●
●●
●
●●●
●
●
● ●● ●●●
● ●
● ● ●● ● ● ● ● ●●●● ● ● ●
●●●
●
●●
● ●
●●
●●●
●●
●
●
●
● ● ●
● ● ●●● ●●
● ●● ● ●
● ●
●●●
●
●
●●
●
●
●●
●●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
● ●
●
●●●●
●
● ●
● ●● ●
● ● ● ●● ●
●
●●●●
● ●
●
●
●
●
●● ●●●●●
●
●
● ●●
●● ●
●● ●
●
● ● ●
●● ●
●●
●●
●●
●●● ●
●●●
●●
●●●●
●●
●●
●
●● ●
●● ●
● ●● ● ●● ● ●● ●●●● ●●● ●●● ●●● ● ● ●
●●● ● ● ● ● ● ●
●●● ●●●
●
● ●
●●
●
●●●
● ●
●
●●
● ●
●●
●●
●
●●
● ●
●●
●● ●
● ● ● ● ● ●
●● ● ●●
● ●●●●●
●●
● ●●● ●●●●● ●● ●
● ● ● ●●●
● ●●●●●
●●●●
●●●●●●
●●●●
●●
●
●●●
● ●
●●
● ●
●● ● ● ● ● ●●● ●● ●●● ● ●●●● ●● ●
●● ● ●
●●●
●●●●
●●● ●●●●● ●●●●●●●●● ● ●
● ●● ●
●●
●● ● ●●●
●●
● ●
●
●
● ● ●● ●
● ●●●● ●● ●●● ● ●
● ● ●
●● ●● ● ●● ●
●
●●●●●● ●●●
● ●●● ● ●●
●● ● ● ● ●
● ● ● ●
0
● ● ● ● ● ●● ● ● ● ●
● ●
●● ●● ●
● ● ● ●● ●● ●●●●
● ●● ●●● ●●●● ●● ● ● ● ●
●●● ● ●● ●
● ●● ●
●
● ●● ● ● ●● ● ●●● ● ● ●
● ●
● ●
● ●
●
−10
−10
0 1 2 3 4 5 6 0 1 2 3 4 5 6
32
Commentaire sur la page précédente:
• Dans les graphiques du haut, la taille de l’“effet” moyen de X sur Y est plus
grande que dans les graphiques du bas (pente plus élevée: changement moyen
plus grand de Y avec X).
? Si on cherche à influencer la réponse en agissant sur la variable X, les
situations du haut sont plus favorables. Ex.: Y = dextérité au piano (nb
notes par minute), X = nb heures de pratique hebdomadaire.
? Attention: le coefficient de régression dépend des unités dans lesquelles X et
Y sont mesurés.
• Dans les graphiques de gauche, la réduction de la variabilité de la réponse
offerte par la régression est plus importante que dans les graphiques de droite.
? Si on cherche à prédire Y grâce à X, les situations de gauche sont plus
favorables. Ex.: Y est une mesure de la pression intracrânienne précise mais qui
nécessite une perforation crânienne, et X est une nouvelle méthode de mesure
ne nécessitant pas de perforation mais potentiellement moins précise. Peut-on
remplacer Y par X, autrement dit: la connaissance de X nous informe-t-elle
précisément sur Y ?
? La corrélation ne dépend pas des unités de mesure de X et de Y .
33
5. Ajustement
(Ce chapitre est présent pour information, il ne fait pas partie de la matière d’examen.)
Reprenons l’exemple des tailles et des poids:

Tailles et poids
●
^
75 β1= 0.54 kg/cm ● ● ●
●
● ● ● ●
●
70
● ●
● ● ● ●
●
● ●
65
Poids
● ● ● ● ● ●
● ●
●
60
● ●
● ●
● ●
● ● ●
55
●
●
50
160 165 170 175 180 185 190

Taille
On trouve donc un coefficient de régression égal à 0.54 kg/cm.
Avons-nous correctement identifié la relation entre le poids et la taille dans la population?

34
La notion d’ajustement
Lors de l’interprétation d’un coefficient de regression, on pourrait être

tenté d’insuffler une notion de causalité du genre de“si par une intervention
je parviens à augmenter X d’une unité, Y augmentera de β1”. D’ailleurs,
un paramètre de régression est souvent appelé un effet.
Il convient de rester très prudent à ce sujet pour différentes raisons:
• La regression ne fait que mettre en évidence une association
moyenne entre deux variables, mais ne donne aucun argument pour
conlure que “X cause Y ”: la relation causale pourrait tout à fait
aller dans l’autre sens
• Même en présence d’arguments excluant une des directions, la
prudence est de mise: une ou plusieurs autres variables pourrai(en)t
35
causer Y , ou X, ou les deux, totalement ou en partie.
La causalité est de façon générale une question complexe. Pour s’en
approcher, on peut suivre l’approche suivante:
1. Identifier et mesurer les principales variables susceptibles d’influencer

Y , appelées facteurs confondants
2. Estimer un effet ajusté, correspondant à l’augmentation moyenne

de Y lorsque X augmente d’une unité et que toutes les autres
variables restent fixées
Idée: si l’on pouvait ajuster pour tous les facteurs confondants, l’effet
ajusté pourrait avoir une interprétation causale (bien que la direction reste
à déterminer).
36
Pour calculer un effet ajusté, on utilise la régression linéaire multiple.
Admettons que, souhaitant mesurer l’effet de X sur Y , on ait identifié la
variable Z comme facteur confondant potentiel. On considérera le modèle
de régression multiple suivant:
Y = β0 + β1X + β2Z + ε.
Ainsi, β1 pourra s’interpréter comme le changement moyen de Y lorsque

X augmente d’une unité et que Z reste fixé.
Soient β̂0, β̂1 et β̂2 les estimations de β0, β1 et β2 réalisées à partir des
données. On définit les résidus de façon analogue à la régression simple
comme
εˆi = yi − β̂0 − β̂1xi − β̂2zi.
Et comme en régression simple les estimations β̂0, β̂1 et β̂2 sont
déterminées de façon à minimiser la somme des carrés des résidus.
37
Reprenons l’exemple des tailles et des poids. L’échantillon contenait en
fait des hommes et des femmes.
Le poids est lié au sexe, la variable Sexe est donc un facteur confondant
potentiel. On construit donc le modèle suivant:
P oids = β0M + β1M · T aille + β2 · Sexe + ε,
où on a codé la variable Sexe de la façon suivante:

• Sexe = 0: Hommes
• Sexe = 1: Femmes
Ce modèle nous fournira deux droites de même pente β̂1M , une pour les
hommes et une pour les femmes:
ˆ
• P oids|Homme = β̂0M + β̂1M · T aille
ˆ
• P oids|F emme = β̂0M + β̂1M · T aille + β̂2 38
Résultat:
Tailles et poids: ajustement pour le sexe
●
Hommes
Femmes
75
● ● ●
●
● ● ● ●
●
70
● ●
● ● ● ●
●
● ●
65
● ● ● ● ● ●
Poids
● ●
●
60
● ●
● ●
● ●
● ● ●
55
●
●
^
β1M = 0.37 kg/cm
50
●
^
● β1 = 0.54 kg/cm
160 165 170 175 180 185 190
Taille
β̂1M est le coefficient associé à la taille, ajusté pour le sexe (modèle multiple)
β̂1 est le coefficient associé à la taille, non ajusté (modèle simple)
39
En ajustant pour le sexe, le coefficient de régression est donc passé de
0.54 kg/cm à 0.37 kg/cm. En n’ajustant pas pour le sexe, on surestimait
l’effet de la taille sur le poids.
On peut aussi voir le problème dans l’autre sens:

Question: les hommes sont-ils plus lourds que les femmes?
→ La différence des poids moyens des hommes et des femmes est de 9.52
kg.
Question plus intéressante: à taille égale, les hommes sont-ils plus lourds
que les femmes?
→ En ajustant pour la taille, cette différence n’est plus que de 3.96 kg.
40
Sexe et poids: ajustement pour la taille
●
Hommes
Femmes
75
● ● ●
●
● ● ● ●
●
70
● ●
● ● ● ●
●
● ●
65
● ● ● ● ● ●
Poids
3.96 kg
9.52 kg
● ●
●
60
● ●
● ●
● ●
● ● ●
55
●
●
50
160 165 170 175 180 185 190

Taille
41
Autre exemple d’ajustement:
Comparaison du taux de créatine entre un groupe de n1 = 31 femmes
atteintes d’une maladie génétique et un groupe contrôle de n0 = 39
femmes non atteintes de cette maladie. On considère le log du taux pour
s’approcher d’un modèle de régression linéaire.
Question: un taux de créatine élevé est-il un symptôme (i.e. une
conséquence) de la maladie?
→ Différence entre les log-taux moyens des groupes: 1.05
Mais le groupe malade est nettement plus âgé que le groupe non malade
et cette différence pourrait être due à l’âge et non à la maladie.
→ En ajustant pour l’âge, la différence diminue (0.87). On peut exclure
que la différence restante soit due à l’âge.
42
Créatine: ajustement pour l'âge
●
Groupe malades
Groupe contrôle ●
●
●
6 ●
● ●
●
● ●
LogCreatine
●
5
● ●
● ●
●
● ●
●
0.87 ●
●
● ● ●
●
●
●
● 1.05
● ●
●
4
● ●
●
● ● ●
●
● ● ●
● ● ● ●
● ●
● ● ●
● ●
● ● ●
● ●
●
● ● ●
● ● ●
●
●
3
20 25 30 35 40
Age
43
Chapitre 5: Eléments de probabilités
Sensibilité et spécificité d’un test de diagnostic

Dans une phase d’évaluation, un test est appliqué à un groupe d’individus
“malades” et à un groupe d’individus “non malades”. La présence de la
maladie est établie à l’aide d’un test de référence (gold standard) dont le
résultat est considéré comme sûr. Pour chaque individu, on s’intéresse donc
aux caractères suivants:
M = avoir la “maladie”,
M̄ = ne pas avoir la “maladie”,
T = avoir un résultat positif au test,
T̄ = avoir un résultat négatif au test.
On détermine les fréquences absolues (comptages) des quatre résultats

possibles:
M M̄
T nT M nT M̄
T̄ nT̄ M nT̄ M̄
Définitions: Total nM nM̄

nT M
Sensibilité = = proportion de “+” parmi les malades,
nM
n
Spécificité = T̄ M̄ = proportion de “−” parmi les sains.
nM̄
Exemple
Le test a été administré à 1000 personnes avec M

et à 1000 personnes sans M :
M M̄
T 950 10
T̄ 50 990
Total 1000 1000

Donc:
950 990
Sensibilité = = 95%, Spécificité = = 99%.
1000 1000
Remarque
La “précision” des valeurs obtenues (“estimations”) dépend du nombre d’individus
testés. Cet aspect n’est pas traité ici.
Problème
Supposons que la sensibilité et la spécificité d’un certain test soient:
Sensibilité = 95%
Spécificité = 99%.
Le médecin applique ce test à un patient et obtient un résultat positif.

Quelle est la probabilité que le patient soit réellement malade ?
Pour résoudre ce problème une information supplémentaire est nécessaire: la

fréquence (relative) de la maladie M dans la population ou prévalence.
Supposons que
1
Prévalence = .
10 000
La prévalence de M dans la population est la probabilité a priori (avant

connaissance du résultat du test) que le patient soit malade.
Pour résoudre ce problème, il conviendra d’utiliser les concepts fondamentaux
et le formalisme du calcul des probabilités.
Concepts de calcul de probabilités
Définitions
Considérons une population de taille N et soit NA le nombre d’individus avec
le caractère A. Supposons le tirage au sort d’un individu.
Population
N individus au total
NA individus avec A
La probabilité de tirer un individu avec A est:

NA
P (A) = .
N
On dit aussi que P (A) est la probabilité de l’événement A. Dans notre
définition elle est égale à la proportion d’individus avec A.
Supposons maintenant que les individus aient un deuxième caractère B, et
indiquons par NAB le nombre d’individus avec les deux caractères A et B
simultanément.
La probabilité conjointe de A et B est: Population
NAB
P (A ∩ B) = . A
N
La probabilité conditionnelle de B sachant que A est:
NAB
P (B|A) = . A et B
NA
C’est la proportion d’individus avec B (et A)
dans la sous-population d’individus avec A. B
On dit que A et B sont indépendants si:
P (B|A) = P (B).
Propriétés mathématiques élémentaires des probabilités
• 0 ≤ P (A) ≤ 1 pour tout événement A.
• Si Ā signifie “ne pas avoir A”, alors, pour tout événement A,
P (Ā) = 1 − P (A).
• Si A et B sont des événements incompatibles, c’est-à-dire, tels que A∩B =

∅ (événement impossible), alors:
P (A ∪ B) = P (A) + P (B).
• En général
P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
• Pour tout A et tout B:
P (A ∩ B)
P (B|A) = ,
P (A)
P (A ∩ B)
P (A|B) = .
P (B)
• Si A et B sont indépendants:
P (B|A) = P (B),
P (A|B) = P (A),
P (A ∩ B) = P (A) · P (B).
• Formule de Bayes:
P (A|B)P (B)
P (B|A) = .
P (A)
• Formule de la probabilité totale:
P (A) = P (A ∩ B) + P (A ∩ B̄)
= P (A|B)P (B) + P (A|B̄)P (B̄).
Plus généralement, si B∩C = ∅, C∩D = ∅, B∩D = ∅ et P (B∪C∪D) = 1
(on dit alors que B, C et D forment une partition de la population),
P (A) = P (A ∩ B) + P (A ∩ C) + P (A ∩ D)
= P (A|B)P (B) + P (A|C)P (C) + P (A|D)P (D).
Cette formule se généralise évidemment à une partition en plus de trois
événements.
Solution du problème à l’aide de la formule de Bayes
On veut déterminer
P (M |T ) =Probabilité que le patient soit malade

sachant que le résultat du test est positif.
On sait que:
P (T |M )= 95% = sensibilité,
P (T̄ |M̄ )= 99% = spécificité,
P (M ) = 1/10 000 = prévalence,
et donc
P (T |M̄ ) = 1% P (M̄ ) = 9 999/10 000.
Selon les formules de Bayes et de la probabilité totale:
P (T |M )P (M ) P (T |M )P (M )
P (M |T ) = = .
P (T ) P (T |M )P (M ) + P (T |M̄ )P (M̄ )
On obtient:
0.95 × 0.0001
P (M |T ) = = 0.0094.
0.95 × 0.0001 + 0.01 × 0.9999
P (M |T ) est la probabilité a posteriori (après connaissance du résultat du test)

que le patient soit malade.
Solution intuitive
La prévalence de 1/10’000 nous permet d’affirmer que dans une population
hypothétique de 1’000’000 d’individus, on peut s’attendre à 100 malades et
999’900 sains. Le test dépiste 95 cas positifs et 5 cas négatifs parmi les
malades, car sa sensibilité est de 95%. Le test trouve aussi 9’999 résultats
positifs et 989’901 résultats négatifs dans la partie saine de la population.
Population
1 000 000
prev. = 1/10000
100 999 900

malades sains
Sens. = 95% Spec. = 99%
95 5 9 999 989 901

+ − + −
Cas positifs et négatifs attendus dans une population de 1 000 000
Ce schéma peut aussi être représenté dans un tableau de fréquences attendues:
Fréquences attendues
malades sains Total
positifs 95 9 999 10 094

négatifs 5 989 901 989 906
Total 100 999 900 1 000 000

En conclusion, la proportion de malades parmi les cas positifs est de 95/10’094,
ce qui indique que les chances q’un individu positif au test soit réellement
malade sont seulement de 0.0094 (≈ 1%). Assurez-vous qu l’on trouve les
mêmes proportions si la taille de la population est changée, par exemple
4’000’000.
Terminologie
P (T |M ) = sensibilité du test,
P (T̄ |M̄ ) = spécificité du test,
P (M |T ) = valeur prédictive positive du test,

P (M̄ |T̄ ) = valeur prédictive négative du test,
P (T |M̄ ) = taux de faux positifs = 1 − spécificité,

P (T̄ |M ) = taux de faux négatifs = 1 − sensibilité.
Attention: pour certains auteurs:
taux de faux positifs = P (M̄ |T ),

taux de faux négatifs = P (M |T̄ ).
Vérifiez donc toujours la définition utilisée !
Le rôle de la prévalence
Il est souvent difficile de connaı̂tre P (M ) avec précision. Il convient alors
d’examiner le test pour différentes valeurs de P (M ).
Par exemple, si P (T |M ) = 0.95 et P (T̄ |M̄ ) = 0.99, on obtient:
P (M ) P (M̄ |T ) P (M |T̄ )
1/1 000 000 0.9999 0.00000
1/100 000 0.9991 0.00000
1/10 000 0.9906 0.00001
1/1000 0.9132 0.00005
1/500 0.8401 0.00010
1/200 0.6769 0.00025
1/100 0.5103 0.00051
Le taux P (M |T̄ ) est faible: dans le pire des cas (P (M ) = 1%), sur 10 000
tests négatifs, environ 5 correspondent à des patients atteints. Par contre le
taux P (M̄ |T ) est élevé (> 50%): sur 100 individus positifs plus de 50 sont
sains. La décision de maintenir un tel test dépendra de l’importance de la
maladie, des conséquences du test, des coûts des examens complémentaires et
de l’éventuel traitement, des chances de succès du traitement, etc.
Il est parfois possible de réduire les taux d’erreur en combinant deux (ou
plusieurs) tests.
Evaluation basée sur un seul échantillon
Dans certaines études d’évaluation, on ne considère pas deux groupes séparés
(malades et non malades) de tailles fixées (nM et nM̄ ): un seul échantillon de
taille n est étudié; ses éléments sont classés dans les quatres cases du tableau:
M M̄ Total
T nT M nT M̄ nT
T̄ nT̄ M nT̄ M̄ nT̄
Total nM nM̄ n
On obtient
P (M ∩ T ) nT M
Sensibilité = P (T |M ) = ≈ ,
P (M ) nM
P (M̄ ∩ T̄ ) n
Spécificité = P (T̄ |M̄ ) = ≈ T̄ M̄ ,
P (M̄ ) nM̄
P (M ∩ T ) nT M
Valeur préd. pos. = P (M |T ) = ≈ ,
P (T ) nT
P (M̄ ∩ T̄ ) n
Valeur préd. neg. = P (M̄ |T̄ ) = ≈ T̄ M̄ .
P (T̄ ) nT̄
Chapitre 6: Variables aléatoires
1. Définition
2. Distribution d’une variable aléatoire discrète
3. Distribution d’une variable aléatoire continue
4. Fonction de distribution cumulative
5. Espérance
6. Variance et écart-type
7. Quantiles
8. Distribution conjointe et indépendance
1
1. Définition
Pour étudier des variables et faire de l’inférence (extrapolation des résultats observés sur
un échantillon à la population), nous allons nous servir d’outils mathématiques appelés
des variables aléatoires.
Définition
Une variable aléatoire est une fonction mathématique qui associe un résultat,
généralement un nombre réel, à chaque issue possible d’une expérience.
Exemples:
1. Expérience: jet d’une pièce de monnaie.
Ensemble des issues possibles: {Pile, Face}.
Variable aléatoire: X: {Pile, Face} → R définie par
X(Pile) = 0; X(Face) = 1.
2. Expérience: tirage d’un invididu dans une population
Ensemble des issues possibles: U = Ensemble des individus dans la population
Variable aléatoire: P : U → R définie par
P (individu i) = poids de l’individu i.
2
De même que pour les variables considérées jusqu’ici, les valeurs possibles d’une variable
aléatoire sont appelées ses modalités.
Les variables aléatoires seront désignées par des lettres majuscules et leurs modalités par
des lettres minuscules.
Et comme précédemment, on parlera de variable aléatoire discrète si les modalités sont

dénombrables (ex. 1 de la slide précédente) et de variable aléatoire continue si elles ne
le sont pas (ex. 2).
Et à nouveau, on utilisera les mêmes notations (lettres minuscules) pour désigner les
modalités d’une variable aléatoire et sa valeur sur l’issue d’une expérience.
3
2. Distribution d’une variable aléatoire discrète
A chaque modalité d’une variable aléatoire, on peut associer une probabilité. Dans l’ex. 1
ci-dessus, si on considère que la pièce est équilibrée, on définira
P (X = 0) = 0.5, P (X = 1) = 0.5.
Autre exemple: jet d’un dé
• Expérience: jet du dé
Ensemble des issues possibles: V ={face 1, face 2, face 3, face 4, face 5, face 6}
Variable aléatoire: D: V → R définie par
D(face i) = i.
Si on considère que le dé est équilibré, on définira
P (D = i) = 1/6, i = 1, ..., 6.
La distribution d’une variable aléatoire discrète Y dont les modalités sont y1, y2, ... est
définie comme l’ensemble des couples
(y1, p1), (y2, p2), ...,

où pi est la probabilité associée à la modalité yi.
4
3. Distribution d’une variable aléatoire continue
Considérons la variable P (poids d’un individu) et considérons un échantillon de
taille n tiré d’une population. Pour représenter graphiquement la distribution des
poids dans notre échantillon, nous avons vu qu’on peut utiliser un histogramme:
15
13
n = 50
Fréquence absolue
10
9
8
7
4
5
3 3
2
1
0
60 65 70 75 80 85 90
Poids [kg]
Sur cet histogramme, la hauteur d’une barre est égale à la fréquence absolue (comptage)
des observations dans l’intervalle correspondant.
5
Alternative: construire l’histogramme de façon à ce que la surface d’une barre soit égale
à la fréquence relative (proportion) des observations dans l’intervalle correspondant.
Pour atteindre ce but, il faut que la hauteur hi d’une barre soit égale à la fréquence
relative fi divisée par la largeur l de l’intervalle: hi = fi/l. Ainsi sa surface si vaudra
f
si = hi · l = i · l = fi.
l
0.15
(13/50)/2
n = 50
l = 2 kg
0.10
(9/50)/2
Densité
(8/50)/2
(7/50)/2
0.05
(4/50)/2
(3/50)/2 (3/50)/2
(2/50)/2
(1/50)/2
0.00
60 65 70 75 80 85 90
Poids [kg]
On voit que la forme de l’histogramme reste la même, seule l’échelle de l’axe vertical
change. Cet axe est à présent labellisé “Densité”, car ce graphique va nous conduire à la
définition d’une notion très importante: la densité d’une variable aléatoire continue.
6
Que vaut la surface totale de l’histogramme (en mode “densité”) de la slide précédente?
→ La surface d’une barre étant égale à la proportion d’observations dans l’intervalle
correspondant, la surface totale vaut 1.
→ Cette surface peut s’interpréter comme la probabilité de trouver un individu dont le
poids se situe dans l’intervalle correspondant.
Considérons à présent une version lissée de l’histogramme, obtenue en reliant les milieux
des sommets des barres, et plaçons-nous dans le cadre hypothétique d’une population de
taille infinie.
0.15
(13/50)/2
n = 50
0.10
l = 2 kg (9/50)/2
Densité
(8/50)/2
(7/50)/2
0.05
(4/50)/2
(3/50)/2 (3/50)/2
(2/50)/2
(1/50)/2
0.00
60 65 70 75 80 85 90
Poids [kg]
En tirant des échantillons de plus en plus grands et en prenant des intervalles de plus
en plus petits, la courbe verte va tendre vers la courbe de la densité de probabilité (ou
simplement densité) de la variable P .
7
taille infinie.
0.15
n = 200
0.10
Densité
0.05
0.00
60 65 70 75 80 85 90
Poids [kg]
8
taille infinie.
0.15
n = 1600
0.10
Densité
0.05
0.00
60 65 70 75 80 85 90
Poids [kg]
9
taille infinie.
0.15
n = 12800
0.10
Densité
0.05
0.00
60 65 70 75 80 85 90
Poids [kg]
10
taille infinie.
0.15
n = 409600
0.10
Densité
0.05
0.00
60 65 70 75 80 85 90
Poids [kg]
11
Que vaut la surface totale sous la courbe de la densité?
→ Comme on l’a vu sur les slides précédentes, la surface totale de l’histogramme en
mode “densité” vaut 1, et on en déduit que la surface totale sous la courbe densité
vaut 1 elle aussi.
Comment peut-on interpréter la surface sous la courbe densité correspondant à un certain

intervalle?
P(75 < P < 80)

0.08
Densité
0.04
0.00
60 65 70 75 80 85 90
Poids [kg]
→ De façon analogue à l’interprétation de la surface des barres d’un histogramme en

mode “densité”, la surface sous la courbe de la densité d’une variable aléatoire
est égale à la probabilité que la variable prenne une valeur dans l’intervalle
correspondant.
12
A l’aide de la courbe de la densité d’une variable aléatoire, on peut calculer la probabilité
de n’importe quel événement défini avec cette variable:
Probabilité de tirer une personne pesant entre 75 et 80 kg:
0.08
Densité
0.04
0.00
60 65 70 75 80 85 90
Poids [kg]
Soit fP (x) la fonction définissant la courbe de densité de la variable aléatoire P . La

surface hachurée est égale à l’intégrale de fP (x) sur le sous-ensemble correspondant:
Z 80
P (75 < P < 80) = fP (x)dx.
75
= P (80 < P < 85)pourl0espacement
13
Probabilité de tirer une personne pesant entre 65 et 70 kg ou entre 80 et 85 kg:
0.08
Densité
0.04
0.00
60 65 70 75 80 85 90
Poids [kg]

P (65 < P < 70 ∪ 80 < P < 85) = P (65 < P < 70) + P (80 < P < 85)
Z 70 Z 85
= fP (x)dx + fP (x)dx.
65 80
14
Probabilité de tirer une personne pesant plus de 80 kg:
0.08
Densité
0.04
0.00
60 65 70 75 80 85 90
Poids [kg]

Z ∞
P (P > 80) = fP (x)dx.
80
= P (80 < P < 85)pourl0espacement
15
Définition:
La densité de probabilité (ou simplement densité) d’une variable aléatoire continue est
une fonction telle que la surface sous la courbe est égale à la probabilité que la variable
prenne une valeur dans l’intervalle correspondant.
Ainsi:
• La distribution d’une variable aléatoire continue est complètement déterminée par sa
densité.
• N’importe quelle fonction positive avec surface sous la courbe égale à 1 définit une
distribution.
NB: Pour une variable aléatoire continue X, la probabilité de prendre une valeur précise,
n’importe laquelle, est nulle:
P (X = x) = 0 ∀x.
On se rend bien compte en effet que pour un point isolé la surface sous la courbe est
nulle.
Intuitivement: la probabilité de tirer un individu pesant exactement 70 kg (avec une
précision infinie) est nulle.
16
La densité de probabilité est un outil très utilisé pour modéliser la distribution des
variables continues. Dans la pratique, évidemment, les populations n’ont pas une taille
infinie. Néanmoins, les modèles continus présentent de nombreux avantages pratiques et
théoriques et sont très proches de la réalité dans de nombreuses situations.
Dans ce qui suit, on dira souvent simplement variable au lieu de variable aléatoire.
D’ailleurs, une variable au sens des chapitres 2 à 4, lorsqu’on l’observe par le tirage
aléatoire d’une unité d’observation, n’est autre qu’une variable aléatoire dont la
distribution (inconnue) est déterminée par la population.
17
4. Fonction de distribution cumulative
Soit une variable X dont on a observé un échantillon {x1, ..., xn}. Rappel: la fonction
de distribution cumulative empirique de X, Fn(x), est définie comme
nombre de xi ≤ x
Fn(x) = (Fonction en escalier).
n
De façon analogue, la fonction de distribution cumulative FY d’une variable aléatoire Y
est définie comme
FY (y) = P (Y ≤ y).
Une fonction de distribution cumulative a les propriétés suivantes:
• elle est croissante
• elle prend des valeurs entre 0 et 1
• elle tend vers 0 si x tend vers −∞ et vers 1 si x tend vers +∞
On utilise souvent l’abréviation cdf (pour cumulative distribution function).
18
Pour une variable discrète:
• La fonction de distribution cumulative est une fonction en escalier
• Pour une variable de distribution (x1, p1), (x2, p2), ..., la cdf est égale à
X
FX (x) = pi
xi ≤x
Exemple: jet d’un dé
0.8
P(D=d)
0.4
p1 p2 p3 p4
0.0
1 2 3 4 5 6
d
0.8
FD(4) = p1 + p2 + p3 + p4
FD(d)
0.4
0.0
1 2 3 4 5 6
d
19
Pour une variable continue:
• La fonction de distribution cumulative est continue
• Pour une variable de densité fX , la cdf est égale à
Z x
FX (x) = fX (t)dt
−∞
Exemple: poids d’un individu
0.08
fP(p)
P(P ≤ 80)
0.04
0.00
60 65 70 75 80 85 90
p
Fp(80) = P(P ≤ 80)

0.8
FP(p)
0.4
0.0
60 65 70 75 80 85 90
p
20
Pour une variable continue, on a encore que
• fX (x) = dx d F (x)
X
• P (X ≤ x) = P (X < x)
De plus, de façon générale (variable dicrète ou continue):
P (a < X ≤ b) = FX (b) − FX (a).
Notation
Souvent, si aucune confusion n’est possible, on note simplement f (x) pour la densité
et F (x) pour la cdf.
21
5. Espérance
Derrière ce terme poétique se cache une notion assez terre à terre mais très importante
en statistique.
Exemple introductif: Jet d’un dé.
On jette n fois un dé équilibré et on s’intéresse à la moyenne m(D) des points obtenus.
Soit ni la fréquence absolue de la modalité i. m(D) est égale à
1
m(D) = (n1 · 1 + n2 · 2 + ... + n6 · 6)
n
= f1 · 1 + f2 · 2 + ... + f6 · 6,
où fi = ni/n est la fréquence relative de la modalité i.
En augmentant le nombre de jets, les fi vont s’apporcher des pi, les probabilités des
modalités. Pour un dé équilibré, pi = 1/6 ∀i. m(D) va donc s’approcher de
E(D) = p1 · 1 + p2 · 2 + ... + p6 · 6 = 1/6 · (1 + 2 + ... + 6) = 3.5.
E(D) s’appelle la moyenne de population ou espérance de D. Ici, il s’agit de la moyenne
de D dans la population infinie de tous les jets possibles du dé.
De façon générale, pour une variable discrète X de distribution (xi, pi), l’espérance est
définie comme
X
E(X) = xi p i .
i
22
Considérons à présent une variable continue et plaçons-nous à nouveau dans le cadre
hypothétique d’une population infinie, comme lors de l’introduction de la densité.
Exemple introductif: Poids d’un individu.
0.15
n = 50 ~ (P) = 75.2
m
0.10
Densité
0.05
0.00
60 65 70 75 80 85 90
Poids [kg]
A partir de cet histogramme, on peut calculer une approximation du poids moyen dans
l’échantillon avec la formule
X
m̃(P ) = ci di l,
i
où les ci sont les centres des intervalles, les di sont les hauteurs des barres
correspondantes et l est la largeur des intervalles.
Lorsque la taille de l’échantillon augmente et que la largeur des intervalles diminue, m̃
tend vers Z ∞
E(P ) = p fP (p) dp.
−∞
23
0.15
n = 200 ~ (P) = 74.98454
m
0.10
Densité
0.05
0.00
60 65 70 75 80 85 90
Poids [kg]
X
m̃(P ) = ci di l,
i
tend vers Z ∞
−∞
24
0.15
n = 1600 ~ (P) = 75.08871
m
0.10
Densité
0.05
0.00
60 65 70 75 80 85 90
Poids [kg]
X
m̃(P ) = ci di l,
i
tend vers Z ∞
−∞
25
0.15
n = 12800 ~ (P) = 74.99999
m
0.10
Densité
0.05
0.00
60 65 70 75 80 85 90
Poids [kg]
X
m̃(P ) = ci di l,
i
tend vers Z ∞
−∞
26
0.15
n = 409600 ~ (P) = 75.00601
m
0.10
Densité
0.05
0.00
60 65 70 75 80 85 90
Poids [kg]
X
m̃(P ) = ci di l,
i
tend vers Z ∞
−∞
27
0.15
"n = ∞" E(P) = 75
0.10
Densité
fP(p)
0.05
0.00
60 65 70 75 80 85 90
Poids [kg]
X
m̃(P ) = ci di l,
i
tend vers Z ∞
−∞
28
De façon générale, pour une variable continue Y de densité fY l’espérance est définie
comme
Z ∞
E(Y ) = y fY (y) dy.
−∞
Elle s’interprète comme la moyenne de Y dans la population infinie qui a servi à définir
la densité. Dans ce sens, l’espérance est une moyenne de population.
L’appellation “espérance” se justifie par le fait que c’est la valeur qu’on peut espérer
obtenir, en moyenne, lorsqu’on observe la variable.
Propriétés
• Soient X et Y deux variables aléatoires et a, b et c des constantes.
E(aX + bY + c) = aE(X) + bE(Y ) + c

• Soit X une variable et Y = g(X) une transformation de X, où g est une fonction
quelconque. L’espérance de Y est égale à
X
E(Y ) = g(xi) pi
i
dans le cas discret et Z ∞
E(Y ) = g(x) fX (x) dx
−∞
29
dans le cas continu.
6. Variance et écart-type
De même qu’on a défini l’espérance d’une variable aléatoire comme une moyenne
de population, on définit la variance d’une variable aléatoire comme une variance de
population.
Soit X une variable et {x1, ..., xn} un échantillon. Au chapitre 3, nous avons défini la
variance sur cet échantillon comme
n
2 1 X
s (X) = (xi − m(X))2,
n i=1
c’est à dire comme la moyenne des carrés des écarts à la moyenne.
De façon naturelle, on définit donc la variance d’une variable aléatoire comme

2
var(X) = E (X − E(X)) .
En considérant (X − E(X))2 comme une transformation de la variable X et en
appliquant les formules de la slide précédente, on obtient
(xi − E(X))2 pi
X
var(X) =
i
dans le cas discret, et Z ∞
var(X) = (x − E(X))2 fX (x) dx
−∞
dans le cas continu.
30
De façon analogue à ce qui a été fait au chapitre 3, on définit l’écart-type sd(X) d’une
variable aléatoire X comme
q
sd(X) = var(X)
(en anglais: standard deviation).
Propriétés de la variance et de l’écart-type

Soit X une variable et a et b des constantes
1. var(X) ≥ 0
2. var(X) = 0 ⇐⇒ X est constante
3. var(a + bX) = b2var(X)
4. var(X) = E(X 2) − E(X)2
Des propriétés analogues pour l’écart-type se déduisent des propriétés ci-dessus. En
particulier sd(a + bX) = |b| sd(X).
31
Exemples
• Jet d’un dé
On a vu que E(D) = 3.5. A l’aide de la propriété 4:
E(D2) = 1/6 · 12 + 1/6 · 22 + ... + 1/6 · 62 = 15.167

et donc
var(D) = E(D2) − E(D)2 = 15.167 − 3.52 = 2.917.
• Soit X une variable continue de densité
(
1 si 0 ≤ x ≤ 1
f (x) =
0 sinon
On dit que X a une distribution uniforme entre 0 et 1. On a
1 21
Z ∞ Z 1
1
E(X) = x f (x) dx = x · 1 dx = x =
−∞ 0 2 0 2
1 31
Z ∞ Z 1
1
E(X 2) = x2 f (x) dx = 2
x · 1 dx = x =
−∞ 0 3 0 3
et donc
var(X) = E(X 2) − E(X)2 = 1/3 − (1/2)2 = 1/12.
32
7. Quantiles
Le quantile qα(X) d’une variable aléatoire X est défini à l’aide de sa fonction de
distribution cumulative FX (x).
• Pour une variable continue, on pose simplement
−1
qα(X) = FX (α),
−1
où FX est la fonction inverse de FX .
α 1
FX(x)
0
qα
x
• Pour une variable discrète, on procède de façon analogue au chapitre 3.
33
8. Distribution conjointe et indépendance
Soient X et Y deux variables discrètes observées simultanément dans la même
population. Soient (xi, pXi) et (yj , pY j ) leurs distributions respectives et définissons
pij = P (X = xi ∩ Y = yj ).
La distribution conjointe de X et Y est définie comme l’ensemble des triplets
(xi, yj , pij ).
Exemple
Soit T la taille d’un individu codée en trois classes (1 = petit, 2 = moyen, 3 = grand) et
S son niveau salarial également codé en trois classes (1 = bas, 2 = moyen, 3 = élevé).
La table ci-dessous donne leur distribution conjointe (estimée dans une population):
S=1 S=2 S=3 Total

T =1 0.10 0.20 0.20 0.50
T =2 0.04 0.08 0.08 0.20
T =3 0.06 0.12 0.12 0.30
Total 0.20 0.40 0.40 1.00
34
Les sommes des lignes et des colonnes définissent les distributions marginales de T et
de S, qui ne sont autres que les distributions individuelles de T et de S.
S=1 S=2 S=3 Total S=1 S=2 S=3 Total

T =1 p11 p12 p13 pT 1 T =1 0.10 0.20 0.20 0.50
T =2 p21 p22 p23 pT 3 T =2 0.04 0.08 0.08 0.20
T =3 p31 p32 p33 pT 3 T =3 0.06 0.12 0.12 0.30
Total pS1 pS2 pS3 1 Total 0.20 0.40 0.40 1
En divisant les colonnes de la table par la probabilité marginale correspondante, on obtient

les distributions conditionnelles de T sachant S:
pij
gi|j = P (T = i | S = j) =
pSj
S=1 S=2 S=3 S=1 S=2 S=3

T =1 g1|1 g1|2 g1|3 T =1 0.50 0.50 0.50
T =2 g2|1 g2|2 g2|3 T =2 0.20 0.20 0.20
T =3 g3|1 g3|2 g3|3 T =3 0.30 0.30 0.30
Total 1 1 1 Total 1 1 1
35
La même opération sur les lignes conduit aux distibutions conditionnelles de S sachant
T.
Sur les tables de la slide précédente on constate que les trois distributions conditionnelles
de T sachant S sont égales, et qu’elles sont égales à la distribution marginale de T . On
en déduit que la distribution de T ne dépend pas de S. On peut montrer que dans
ce cas toutes les distributions conditionnelles de S sachant T sont égales à la distribution
marginale de S (la distribution de S ne dépend pas de T ).
Deux variables présentant cette propriété sont dites indépendantes.
Si deux variables X et Y sont indépendantes, n’importe quel événement défini à partir

de X est indépendant de n’importe quel événement défini à partir de Y :
P (X = xi ∩ Y = yj ) = P (X = xi) · P (Y = yj ).
36
Jusqu’ici nous avons considéré le cas de deux variables discrètes. Le cas de deux variables
continues est un peu plus compliqué, et passe par la définition de la densité conjointe
de deux variables. Nous n’allons pas approfondir ce sujet. Néanmoins, on peut toujours
définir l’indépendance entre deux variables de la façon suivante:
Deux variables sont indépendantes si et seulement si n’importe quel
événement défini à partir de l’une est indépendant de n’importe quel
événement défini à partir de l’autre.
37
La covariance cov(X, Y ) entre deux variables aléatoires X et Y est définie comme

cov(X, Y ) = E (X − E(X))(Y − E(Y )) .
Le calcul de la covariance entre deux variables passe par leur distribution conjointe et
peut être compliqué.
La corrélation cor(X, Y ) entre deux variables aléatoires X et Y est définie comme

cov(X, Y )
cor(X, Y ) = .
sd(X)sd(Y )
38
Les propriétés de la covariance et de la corrélation sont similaires à celles du coefficient
de covariance et du coefficient de corrélation introduits au chapitre 4. En particulier:
1. −1 ≤ cor(X, Y ) ≤ 1, ∀X et Y
2. cor(X, Y ) = ±1 ⇐⇒ X = a + bY , a et b des constantes (relation linéaire
entre X et Y )
3. var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y )
4. Si X et Y sont indépendantes, alors cov(X, Y ) = 0 (réciproque pas vraie)
5. cov(X, Y ) = E(XY ) − E(X)E(Y )
Les propriétés 3 et 4 impliquent que la variance de la somme de deux variables
indépendantes est égale à la somme de leurs variances.
La propriété 5 permet de trouver l’espérance du produit de deux variables aléatoires en
connaissant leurs espérances et leur covariance.
39
Chapitre 7: Modèles de distributions
fréquents
1. Modèles discrets
(a) Distribution binomiale
(b) Distribution de Poisson

2. Modèles continus
(a) Distribution normale
(b) Distribution uniforme
(c) Distribution χ2
(d) Distribution t
1
On présente dans ce chapitre les modèles de distributions les plus fréquemment utilisés
comme descriptions approximatives de distributions réelles. La distribution binomiale et
la distribution normale sont particulièrement importantes.
1. Modèles discrets
(a) Distribution binomiale
Considérons une expérience qui n’a que deux issues possibles (ex: jet d’une pièce), et
convenons d’appeler S la première issue (“succès”) et E la seconde (“échec”). Considérons
à présent n répétitions indépendantes de cette expérience et définissons la variable
aléatoire X = “nombre de succès parmi les n répétitions”. La variable X a (ou suit)
une distribution binomiale.
→ De quoi va dépendre la distribution de X?
→ → Du nombre de répétitions n
→ → De la probabilité p de succès à chaque répétition
→ On utilise la notation X ∼ B(n, p).
On dit aussi que la variable X est une variable binomiale.

2
Quelle est la distribution de X?
→ Si n = 1, les issues possibles sont {E} et {S} et on a
P (X = 0) = 1 − p; P (X = 1) = p.
→ Si n = 2, les issues possibles sont {EE}, {ES}, {SE} et {SS} et on a
P (X = 0) = (1 − p)2; P (X = 1) = 2p(1 − p); P (X = 2) = p2.
→ Cas général:
La distribution de X ∼ B(n, p) est donnée par
n
P (X = k) = pk (1 − p)n−k ,
k
où le coefficient binomial est défini comme
n n!
= ,
k k!(n − k)!
n
et n! = 1 · 2 · ... · n (n factoriel). Par convention, 0! = 1. est égal au nombre
k
d’échantillons différents de taille k qu’on peut tirer dans une population de taille n.
Un exemple détaillé de la façon de parvenir à ce résultat se trouve dans la série d’exercices

du chapitre 6.
3
Que valent l’espérance et la variance de X ∼ B(n, p)?
→ Cas n = 1:
• E(X) = 0 · (1 − p) + 1 · p = p
• E(X 2) = 02 · (1 − p) + 12 · p = p
→ var(X) = E(X 2) − E(X)2 = p − p2 = p(1 − p)
→ Cas général:
Plutôt que de faire le calcul en appliquant la définition comme ci-dessus, ce
qui devient très long lorsque n devient grand, constatons que X ∼ B(n, p)
est la somme de n variables indépendantes Xi telles que Xi ∼ B(1, p). En
effet, compter le nombre de succès dans n répétitions d’une expérience revient à
attribuer “1” à chaque succès et “0” à chaque échec et à additionner les résultats
des expériences.
4
Donc,
X = X1 + ... + Xn, Xi ∼ B(1, p)
En appliquant les propriétés de l’espérance et de la variance (chapitre 6), nous obtenons
n
X
E(X) = E(Xi) = np
i=0
car l’espérance d’une somme est égale à la somme des espérances, et
n
X
var(X) = var(Xi) = np(1 − p)
i=0
car la variance d’une somme de variables indépendantes est égale à la somme de leurs
variances.
Terminologie et notation
— Une variable qui suit une distribution binomiale avec n = 1 est appelée une
variable de Bernoulli.
— Souvent, on utilise la notation q = 1 − p, par exemple var(X) = npq pour
X ∼ B(n, p).
5
(b) Distribution de Poisson
Soit λ > 0. Une variable X suit une distribution de Poisson de paramètre λ, ce qu’on
note X ∼ P(λ), si
λk −λ
P (X = k) = e , k = 0, 1, 2, ....
k!
Les modalités d’une variable Poisson sont donc tous les entiers positifs plus 0.
La distribution de Poisson est un cas limite de la distribution binomiale, lorsque n devient

très grand et p très petit. En effet, on peut montrer que pour Y ∼ B(n, p), si n → ∞,
p → 0 et np = λ (np reste constant),
n
k n−k λk −λ
P (Y = k) = p (1 − p) → e .
k k!
Propriétés
→ L’espérance et la variance d’une variable X ∼ P(λ) sont données par
• E(X) = λ
• var(X) = λ
→ Stabilité par addition: soient X1, X2, ..., Xn des variables indépendantes
distribuées selon P(λ1), ..., P(λn) respectivement. Alors
X
X = X1 + X2 + ... + Xn ∼ P( λi).
6
Exemple: “Tant va la cruche à l’eau qu’enfin elle se brise”.
On remplit n = 1000 cruches au même endroit d’une rivière. On fait l’hypothèse que
la probabilité qu’une cruche se brise pendant l’opération est p = 1/1000. Quelle est
la probabilité qu’au moins une cruche se brise?
→ Le nombre X de cruches brisées suit une distribution B(n, p). On trouve donc
P (X ≥ 1) = 1 − P (X = 0)
1000
= 1− (0.999)1000
0
= 0.632.
→ L’évaluation de l’expression ci-dessus avec une calculatrice peut poser problème
au niveau de la précision. En utilisant l’approximation X ∼ P(np) = P(1),
on trouve
P (X ≥ 1) = 1 − P (X = 0)
10 −1
≈ 1− e
0!
= 0.632.
7
Les distributions B(1000, 0.001) et P(1) sont représentées ci-dessous, et on voit
qu’elles sont extrêmement similaires.
X ~ B(1000,0.001)
0.3
P(X=x)
0.2
0.1
0.0
0 1 2 3 4 5 6
x
X ~ P(1)
0.3
P(X=x)
0.2
0.1
0.0
0 1 2 3 4 5 6
x
8
Dans la pratique la distribution de Poisson est souvent utilisée pour modéliser des données
de comptage, par exemple le nombre de nouveaux cas de cancer dans une certaine
région pendant une certaine période de temps (en épidémiologie on appelle ce nombre
l’incidence).
Le fait que la distribution de Poisson soit souvent appropriée pour modéliser ce type de
données peut se comprendre de la façon suivante: pour un individu donné, la probabilité
de développer un cancer est faible, mais en considérant une grande population, et en
considérant chaque individu comme une “tentative”, on se retrouve en présence d’un
phénomène où le nombre de “tentatives” est très élevé et la probabilité de “succès” est
très faible, ce qui donne lieu à une distribution de Poisson.
9
1. Modèles continus
(a) Distribution normale

C’est la distribution la plus importante en statistique, pour deux raisons principales:
• De nombreux phénomènes naturels sont modélisables avec des variables normales
• La distribution normale joue un rôle central dans le domaine de l’inférence, comme
nous le verrons dans les derniers chapitres de ce cours.
On dit qu’une variable X a une distribution normale, ou gaussienne, ou de Gauss,

d’espérance µ et de variance σ 2 si sa densité est égale à
(x − µ)2
!
1
f (x) = √ exp − .
σ 2π 2σ 2
On écrit alors X ∼ N (µ, σ 2).
Terminologie: On dit aussi “de moyenne µ” à la place de “d’espérance µ” (comme on

l’a vu, l’espérance est une moyenne de population).
10
Dans le graphe ci-dessous on trouve
• en rouge la densité d’une variable X ∼ N (µ1, σ12)
• en vert la densité d’une variable Y ∼ N (µ2, σ22), avec µ2 > µ1 et σ2 < σ1
fY
≈ 0.95
fX
µ1 − 2σ1 µ1 µ1 + 2σ1
µ2 − 2σ2 µ2 µ2 + 2σ2
Propriétés (valables pour toute variable normale):

• fX est symétrique autour de µ1
• P (µ1 − 2σ1 < X < µ1 + 2σ1) ≈ 0.95
• fY est symétrique autour de µ2
• P (µ2 − 2σ2 < Y < µ2 + 2σ2) ≈ 0.95 11
Distribution normale standard
Une variable X ∼ N (0, 1) i.e. une variable normale de moyenne 0 et de variance 1 est
appelée une variable normale standard ou centrée et réduite. La densité d’une variable
normale standard est communément désignée à l’aide du symbole ϕ(x). D’après la
formule de la page 10, on a
x2
!
1
ϕ(x) = √ exp − .
2π 2
La fonction de distribution cumulative d’une normale standard est communément
désignée à l’aide du symbole Φ(x) et définie comme
t2
Z x !
1
Φ(x) = √ exp − dt.
2π −∞ 2
Les valeurs de Φ(x) s’obtiennent à l’aide d’un logiciel ou de tables.
Standardisation
Soit X ∼ N (µ, σ 2). Alors la variable Z définie comme
X −µ
Z=
σ
a une distribution normale standard.
L’opération ci-dessus s’appelle la standardisation.
12
Exemple de problème
Soit X ∼ N (17, 9). Quelle est la probabilité que X prenne une valeur inférieure à
11?
Pour résoudre ce problème à l’aide d’une table de valeurs de Φ, on va se servir de la

standardisation:
!
X − 17 11 − 17
P (X < 11) = P √ < √
9 9
= P (Z < −2)
= Φ(−2),
où Z ∼ N (0, 1).
La table ne donne la valeur de Φ(x) que pour des valeurs de x supérieures à 0.
13
On se sert donc de la symétrie de la densité normale pour trouver:
Φ(−2) = P (Z < −2) = P (Z > 2) = 1 − P (Z < 2) = 1 − Φ(2).
−2 0
Dans la table, on trouve Φ(2) = 0.9772 et on ontient donc

Φ(−2) = 1 − 0.9772 = 0.0228.
14
Φ(−2) = P (Z < −2) = P (Z > 2) = 1 − P (Z < 2) = 1 − Φ(2).
−2 0 2

Φ(−2) = 1 − 0.9772 = 0.0228.
15
Φ(−2) = P (Z < −2) = P (Z > 2) = 1 − P (Z < 2) = 1 − Φ(2).
−2 0 2

Φ(−2) = 1 − 0.9772 = 0.0228.
16
Résumé des propriétés importantes de la loi normale:
Soit X ∼ N (µ, σ 2).

• Symétrie: f (x), la densité de X, est symétrique autour de µ, i.e. f (µ − x) =
f (µ + x) ∀x.
• P (µ − 2σ < X < µ + 2σ) ≈ 0.95: une variable normale a une probabilité
d’environ 95% de prendre une valeur dans un intervalle large de 4 écarts types,
centré sur la moyenne. Dans un échantillon, on s’attend donc à trouver environ
95% des observations dans un tel intervalle.
• Standardisation: Z = X−µ σ ∼ N (0, 1).
• Stabilité par addition: Soient X1 ∼ N (µ1, σ12) et X2 ∼ N (µ2, σ22)
indépendantes. Alors X3 = X1 + X2 ∼ N (µ1 + µ2, σ12 + σ22).
17
(b) Distribution uniforme
Soient a et b des constantes. Une variable dont la densité f est donnée par

 1 si x ∈ [a, b]
b−a
f (x) =
 0 sinon
est dite uniforme entre a et b.
f(x)
b−a
1
x
0
a b
L’espérance et la variance d’une variable X uniforme entre a et b sont E(X) = a+b

2
2
et var(X) = (b−a) 12 .
18
(c) Distribution χ2 (écrit “chi carré”, prononcé “ki carré”)
Soient X1, ..., Xn des variables normales standard indépendantes. Soit alors
Y = X12 + ... + Xn2.
La variable Y a une distribution χ2 à n degrés de liberté, ce qu’on note Y ∼ χ2 n . Sa
densité f (y) est une fonction assez compliquée et sa fonction de distribution cumulative
s’obtient à l’aide d’un logiciel ou de tables. L’espérance et la variance de Y sont E(Y ) =
n et var(Y ) = 2n.
n=1
f(y)
1
n=2
n=3
n=4
0.8
n=5
0.6
0.4
0.2
y
0
0 1 2 3 4 5 6 7 8
La distribution χ2 s’utilise dans certains procédés d’inférence que nous verrons dans les
chapitres à venir.
19
(d) Distribution t
Soient X0, X1, ..., Xn des variables normales standard indépendantes. Soit alors
X0
T = r .
1 X 2 + ... + X 2
n 1 n
La variable T a une distribution t à n degrés de liberté, ce qu’on note T ∼ tn. Sa densité

f (t) est une fonction assez compliquée et sa fonction de distribution cumulative s’obtient
à l’aide d’un logiciel ou de tables. L’espérance et la variance de T sont E(T ) = 0 et
var(T ) = n/(n − 2), pour n > 2.
Distribution t
0.4
t1
t2
t5
0.3
t10
t20
densité
t30
0.2
N(0,1)
0.1
0.0
−4 −2 0 2 4
t
20
Propriétés
• La distribution t est symétrique autour de 0

• lorsque n → ∞, la densité d’une variable T ∼ tn tend vers une densité normale
standard
• La distribution t est utilisée dans certains procédés d’inférence que nous verrons
dans les chapitres à venir.
21
Chapitre 8: Inférence, échantillon-
nage et estimation
1. Echantillonnage aléatoire simple
2. Inférence statistique
3. Estimation
4. Evaluation graphique de l’adéquation d’un modèle de distribution
1
L’inférence regroupe l’ensemble des techniques visant à généraliser à la population des
résultats observés sur un échantillon. Ce chapitre place le contexte théorique sur lequel se
base généralement un processus d’inférence, et présente un outil graphique pour évaluer
l’adéquation d’un modèle pour résumer des données (qq-plot).
1. Echantillonnage aléatoire simple

Afin d’obtenir un échantillon représentatif d’une population, il est nécessaire de le tirer
de façon aléatoire.
L’exemple classique d’échantillonnage aléatoire simple consiste à placer des billets
contenant les noms de tous les individus de la population dans une urne et de tirer
des billets au hasard sans remise.
Dans la pratique, ce principe est mis en oeuvre à l’aide de logiciels permettant de générer
des nombres aléatoires, sur la base desquels on sélectionne des individus à partir d’une
liste (ex.: annuaire téléphonique).
Il existe des procédés d’échantillonage plus sophistiqués, comme par exemple l’échantillonnage
aléatoire stratifié, où l’on échantillonne séparément dans des sous-populations (appelées
strates), par exemple pour garantir d’avoir des proportions d’individus de chaque strate
qui soient conformes aux proportions de la population.
Dans ce cours, nous nous concentrerons sur l’échantillonnage aléatoire simple.
2
Considérons un ensemble de n individus tirés d’une population à l’aide d’un
échantillonnage aléatoire simple et intéressons-nous à une caractéristique C de ces
individus. On considère les mesures de C que nous allons faire sur chaque individu
comme des variables aléatoires C1, ..., Cn, et on fait les hypothèses suivantes:
• Les variables C1, ..., Cn sont indépendantes
• Les variables C1, ..., Cn ont toutes la même distribution F , où F est la distribution
(inconnue) de la caractéristique d’intétêt dans la population.
On résume ces deux hypothèses en disant que C1, ..., Cn sont indépendantes et
identiquement distribuées selon F , ce qu’on note
C1, ..., Cn i.i.d. ∼ F .
3
2. Inférence statistique
L’inférence consiste en la détermination de la distribution de population F et de ses
caractéristiques (moyenne, variance, quantiles,...) à partir des observations c1, ..., cn sur
l’échantillon, ainsi qu’en l’étude de la précision avec laquelle ces caractéristiques sont
déterminées.
Echantilonnage
Population Echantillon
Inférence
Souvent, on aura recours à un modèle mathématique pour F , qui prendra la forme d’une
famille de distributions dépendant d’un ou plusieurs paramètres (ex.: normale, binomiale,
Poisson). Il faudra alors déterminer le ou les paramètres qui conviennent le mieux à
l’échantillon. On parle dans ce cas d’une approche paramétrique de l’inférence.
4
3. Estimation
Le processus de détermination de la distribution de population à l’aide des observations
est appelé l’estimation. Dans le cadre d’une approche paramétrique, il s’agit d’estimer
les paramètres inconnus du modèle choisi.
Exemple: jet d’une pièce

On jette 6 fois une pièce de monnaie et on obtient le résultat suivant:
(Pile, Pile, Face, Pile, Face, Pile) .

On décide de modéliser cette expérience avec une distribution binomiale B(1, p), où
p est la probabilité d’obtenir “Pile”. On décrit chaque jet i par une variable aléatoire
Xi ∼ B(1, p) (Xi = 1 si le jet est “Pile”; Xi = 0 si le jet est “Face”), et il nous faut
donc estimer le paramètre p à l’aide des données.
NB: avec cette modélisation, on a fait l’hypothèse que p est le même à chaque jet.
5
De façon générale, on peut se poser la question de savoir comment déterminer les
paramètres inconnus à partir des données.
Un principe très utilisé est celui du maximum de vraisemblance. Il consiste à choisir

les paramètres qui maximisent la probabilité d’observer l’échantillon obtenu, appelée la
vraisemblance des paramètres.
Dans l’exemple de la pièce, on le met en oeuvre de la façon suivante:

• Calcul de la probabilité d’obtenir exactement l’échantillon observé O:
On a O = (Pile, Pile, Face, Pile, Face, Pile) et la vraisemblance est donc égale à
P (O) = p · p · (1 − p) · p · (1 − p) · p = p4(1 − p)2.
Ici on a utilisé l’hypothèse d’indépendance entre les jets pour exprimer P (O) comme
le produit des probabilités des résultats des jets individuels.
On doit donc trouver la valeur de p qui rend P (O) maximal.
• L’approche généralement utilisée pour maximiser P (O) consiste à maximiser son
logarithme:
log (P (O)) = 4 log(p) + 2 log(1 − p).
En effet, le logarithme étant une fonction croissante, maximiser P (O) est équivalent
à maximiser log (P (O)). (De plus, P (O) étant une probabilité, c’est une quantité
forcément positive et son logarithme est donc toujours défini). 6
• Pour maximiser log (P (O)), on cherche la valeur de p où sa dérivée s’annule:
d log (P (O)) 4 2
= − =0
dp p 1−p
La solution de cette équation est p = 64 , et on vérifie facilement que 4 correspond
6
bien au maximum (et non à un minimum) de log (P (O)).
Ici, nous avons donc obtennu que 4 6 est l’estimation du maximum de vraisemblance
de p.
Remarques
• La valeur obtenue n’est pas suprenante, elle correspond à la proportion de “Pile” dans
l’échantillon.
• Le fait de prendre le logarithme de la vraisemblance transforme le produit en une
somme, ce qui facilite le calcul de la dérivée
7
Illustration du calcul des pages précédentes:
0.020
P(O)
0.010
0.000
0.0 0.2 0.4 0.6 4 0.8 1.0

p 6
−5
−25 −20 −15 −10
log(P(O))
0.0 0.2 0.4 0.6 4 0.8 1.0

p 6
8
Cas général
On se propose de résoudre le même problème de façon générale, avec n lancers de la
pièce et k resultats “Pile”. Cela revient à trouver la valeur de p qui maximise
P (X1 = 1)·...·P (Xk = 1)·P (Xk+1 = 0)·...·P (Xn = 0) = pk (1−p)n−k .
La solution de ce problème est

k
p̂(X1, ..., Xn) = .
n
Ainsi, d’une façon générale, la valeur de p qui maximise la vraisemblance dans ce type
d’expériences est la proportion de succès dans l’échantillon.
p̂ est une fonction des variables aléatoires qui représentent les observations. p̂ est donc
lui-même une variable aléatoire, appelée un estimateur, en l’occurrence l’estimateur
du maximum de vraisemblance de p. Les propriétés des estimations fournies par un
estimateur vont dépendre de ses propriétés en tant que variable aléatoire (espérance,
variance, etc). La question de la distribution d’un estimateur sera abordée dans le prochain
chapitre.
9
Le principe du maximum du vraisemblance peut être appliqué à une grande variété de
cas:
• Modèle normal:
Soient X1, ..., Xn i.i.d ∼ N (µ, σ 2). Les estimateurs du maximum de vraisemblance
pour les paramètres µ et σ 2 sont
n n
1 X 1
σˆ2 = (Xi − µ̂)2.
X
µ̂ = Xi et
n i=1 n i=1
Les estimateurs du maximum de vraisemblance de la moyenne et de la variance d’une
distribution normale sont donc égaux à la moyenne et à la variance de l’échantillon
telles que définies au chapitre 3.
• Modèle de Poisson:
Soient Y1, ..., Yn i.i.d ∼ P(λ). L’estimateur du maximum de vraisemblance pour le
paramètre λ est
n
1 X
λ̂ = Yi .
n i=1
Ici aussi, l’estimateur du maximum de vraisemblance de la moyenne d’une distribution
de Poisson est égal à la moyenne de l’échantillon.
10
Exemple pour le cas normal
Reprenons les poids des étudiant(e)s en première année et considérons uniquement les
garçons (sans l’outlier déjà constaté). On obtient µ̂ = 67.59 kg et σˆ2 = 35.55 kg2
et la figure représente la densité correspondante superposée à l’histogramme.
0.08
0.06
Densité
0.04
0.02
0.00
50 55 60 65 70 75 80
Poids
Comme on le voit, l’approximation offerte par le modèle normal n’est pas parfaite. Cela
dit, le modèle normal n’est pas trop violemment mis en défaut, par exemple par une forte
asymétrie ou la présence d’outliers.
11
En passant:
Retour sur la régression: modélisation de la relation entre deux variables X et Y à l’aide
d’une droite.
Nous avons vu au chapitre 4 que lorsqu’on calcule une valeur pour l’intercept (β̂0) et
pour la pente (β̂1) d’une droite de régression, on postule implicitement que les variables
X et Y suivent le modèle suivant:
Yi = β0 + β1Xi + εi, i = 1, ..., n

où β0 et β1 sont les vraies valeurs de l’intercept et de la pente au niveau de la population.
En prenant l’approche paramétrique suivante pour modéliser les erreurs εi:
εi i.i.d. ∼ N (0, σ 2), indépendants de Xi,

et en calculant les estimations de l’intercept et de la pente selon le maximum de
vraisemblance, on obtient justement les estimateurs des moindres carrés β̂0 et β̂1 que
nous avons vus au chapitre 4.
Autrement dit, si on postule que les erreurs suivent une distribution normale, la méthode
du maximum de vraisemblance est equivalente à celle des moindres carrés.
12
L’approche du maximum de vraisemblance est une approche paramétrique. Elle implique
de faire une hypothèse assez forte sur la forme de la distribution des données. Si on
ne souhaite pas faire une hypothèse aussi forte, on peut prendre une approche non
paramétrique. Par exemple, on peut estimer F par Fn, la fonction de distribution
cumulative empirique.
Avantage d’une approche non paramétrique:

Moins d’hypothèses, donc moins de biais dûs à de fausses hypothèses.
Avantage d’une approche paramétrique:

La distribution est entièrement déterminée par quelques paramètres, ce qui simplifie les
calculs des autres caractéristiques de la distribution (par ex. les quantiles).
13
4. Evaluation graphique de l’adéquation d’un mo-
dèle de distribution
Nous avons vu plus haut un exemple d’évaluation graphique du modèle normal (poids
des étudiants), qui consiste à superposer la densité du modèle à l’histogramme des
données. Voici encore deux exemples, avec les données de la série d’exercices 1 (nombres
d’étamines). Comme pour les poids des étudiants, on a estimé les paramètres µ et σ 2
du modèle normal par maximum de vraisemblance et on obtient les graphiques ci-dessous:
0.0012
0.0008
Densité
0.0004
0.0000
0 1000 2000 3000 4000 5000

Nombre d'étamines
14
0.4
0.3
Densité
0.2
0.1
0.0
3 4 5 6 7 8 9
log(Nombre d'étamines)
On voit que le modèle normal n’est pas approprié pour décrire la distribution du nombre
d’étamines, qui est très asymétrique. Il l’est par contre beaucoup plus pour décrire la
distribution du logarithme du nombre d’étamines, comme on le voit sur le graphique
ci-dessus.
Nous allons à présent introduire un procédé graphique plus efficace pour évaluer
l’adéquation d’un modèle, appelé qq-plot (quantile-quantile plot).
Dans la série d’exercices 8, vous l’appliquerez aux deux cas ci-dessus.

15
Le qq-plot
L’idée est de comparer les quantiles de la distribution empirique à ceux du modèle, en
les répresentant sur un graphique. Si les quantiles empiriques sont proches de ceux du
modèle, les points du graphique devraient être alignés sur la diagonale (“y=x”).
Appliquons ceci aux poids des étudiants, au nombre de n = 29.

i−1/2
• Que valent les quantiles empiriques correspondant aux probabilités αi = n ,
i = 1, ..., n?
→ Il sont égaux au observations dans l’ordre croissant. (V. illustration p. suivante)
• On va donc représenter sur un graphique:
• Sur l’axe vertical: les observations
• Sur l’axe horizontal: les quantiles du modèle pour les probabilités αi, donnés par
!
i − 1/2
qαi = F̂ −1 ,
n
où F̂ est la cumulative du modèle.
16
Fn(Poids)
0 α1 α2 α3 α4 α5 α6 α7 α8 α9 α10 α11 α12 α13 α14 α15 α16 α17 α18 α19 α20 α21 α22 α23 α24 α25 α26 α27 α28 α291
55
60
65
Poids [cm]
70
75
80
17
Dans le cas des poids des étudiants, nous avions obtenu µ̂ = 67.59 kg et σˆ2 = 35.55
kg2 et le modèle correspondant est donc F̂ = N (67.59, 35.55). Nous calculons donc
les valeurs correspondantes des qαi et nous obtenons le tableau suivant, qui contient les
coordonnnées des points du qq-plot:
qαi 54.98 57.88 59.45 60.60 61.54 62.34 63.06 63.72 64.34 64.92
p[i] 52.00 57.00 59.00 60.00 60.00 62.00 65.00 65.00 65.00 65.00
qαi 65.48 66.02 66.55 67.07 67.59 68.10 68.62 69.15 69.69 70.25
p[i] 66.00 66.00 67.00 68.00 68.00 68.00 70.00 70.00 71.00 72.00
qαi 70.83 71.45 72.11 72.83 73.64 74.57 75.72 77.30 80.19
p[i] 72.00 72.00 72.00 72.00 73.00 75.00 75.00 75.00 78.00
18
Avec les données de la page précédente, on obtient le graphique suivant, où l’on voit que
les points ne s’éloignent pas trop de la diagonale “y=x”.
●
75
●● ●
●
●●●●●
●
70
●●
●●●
●
●●
65
pi
●●●●
●
60
●●
●
●
55
55 60 65 70 75 80
qαi
19
Propriété de la distribution normale:
A la place de définir qαi comme les quantiles de N (µ̂, σ̂ 2), on peut les définir
comme les quantiles d’une normale standard N (0, 1). On obtient alors le graphique
suivant, exactement pareil au graphique précédent à l’exception de la graduation de l’axe
horizontal (et de la droite).
Cette propriété de la famille normale permet de
●
construire le qq-plot sans avoir à calculer µ̂ et
ˆ2. C’est cette représentation que proposent les
75
●● ●
●
σ
●●●●●
● logiciels de statistique. Bien sûr, les points ne
70
●●
●
●●● sont plus alignés sur la diagonale “y=x”, puisque
●●
65
la graduation de l’axe horizontal a changé. Afin

pi
●●●●
●
de pouvoir apprécier visuellement l’alignement des
60
●●
●
●
points, on représente en général sur ce genre de
graphiques une droite passant par les premier et
55
● troisième quartiles des données et du modèle. De

−2 −1 0 1 2 cette façon, on accorde plus d’importance à la
i
qα partie centrale du graphique, plus stable que les
extrémités. Souvent en effet, les extrémités s’éloignent de la droite même si le modèle
est adéquat, en raison de leur plus grande variabilité.
20
Chapitre 9: Distribution d’un estima-
teur
1. Distribution de la moyenne arithmétique
2. Bootstrap
1
Au chapitre précédent, nous avons considéré le problème de l’estimation de caractéris-
tiques de la distribution d’une variable, comme sa moyenne ou sa variance.
Nous avons défini un estimateur comme une fonction des observations dont on se sert
pour estimer ces caractéristiques.
Nous avons remarqué qu’un estimateur est lui-même une variable aléatoire.
La précision des estimations fournies par un estimateur va dépendre des caractéristiques

de sa distribution.
2
Comme nous l’avons vu, nous modélisons désormais les mesures d’une caractéristique
X sur un échantillon de taille n comme des variables aléatoires X1, ..., Xn i.i.d. ∼
FX (indépendantes et identiquement distribuées selon FX ). On notera alors les valeurs
observées de X sur l’échantillon par les lettres minuscules correspondantes x1, ..., xn.
On dira que x1, ..., xn sont des observations issues des variables aléatoires X1, ..., Xn.
Un estimateur est une fonction B(X1, ..., Xn), et suivant la même convention on
notera sa valeur observée sur l’échantillon par la lettre minuscule correspondante b. Plus
précisément, b est défini comme b = B(x1, ..., xn) et on l’appelle une estimation.
On voit bien que l’estimation serait différente si l’échantillon était différent. On peut donc
définir la distribution de B sur la population de tous les échantillons de taille n, appelée
distribution d’échantillonnage et notée FB . Evidemment, FB va dépendre de FX qui
n’est pas connue dans la pratique. Pour l’approcher, on pourra utiliser soit un modèle
mathématique dépendant de paramètres (approche paramétrique), soit la fonction de
distribution cumulative empirique des observations (approche non paramétrique).
3
1. Distribution de la moyenne arithmétique
Nous avons vu au chapitre précédent que la moyenne arithmétique est l’estimateur du
maximum de vraisemblance de l’espérance mathématique pour de nombreux modèles
de distributions. Dans la suite de ce cours nous utiliserons la notation usuelle X pour
désigner la moyenne arithmétique en tant qu’estimateur:
n
1 X
X= Xi .
n i=1
On a par exemple (en utilisant le suffixe M V pour désigner l’estimateur du maximum de
vraisemblance):
• Distribution normale: µ̂M V = X pour X1, ..., Xn i.i.d. ∼ N (µ, σ 2)
• Distribution de Poisson: λ̂M V = X pour X1, ..., Xn i.i.d. ∼ P(λ)
• Distribution binomiale: p̂M V = X pour X1, ..., Xn i.i.d. ∼ B(1, p)
Nous allons nous intéresser aux propriétés de X de façon générale.
4
Soient X1, ..., Xn i.i.d. ∼ FX avec E(Xi) = µ et var(Xi) = σ 2, i = 1, ..., n.
• Espérance de X: en applicant les propriétés de l’espérance, on trouve
   
n n n
1 X1 1 X X 1
E(X) = E  Xi = E
  Xi =
 E(Xi) = nµ = µ.
n i=1 n i=1 n i=1 n
L’espérance mathématique de l’estimateur X est donc égale à l’espérance mathé-

matique des Xi. Cela signifie qu’en moyenne, l’estimation x fournie par X sur un
échantillon vaudra E(Xi), qui est précisément la caratéristique que nous voulions
estimer. On dit que X est un estimateur sans biais de E(Xi).
• Variance de X: en appliquant les propriétés de la variance et en utilisant l’indépendance
des Xi, on trouve
   
n n n 2
1 X 1 X 1 X 1 2 σ
var(X) = var  Xi = 2 var  Xi = 2 var(Xi) = 2 nσ = .
n i=1 n i=1 n i=1 n n
La variance de la moyenne arithmétique est égale à la variance des Xi divisée par
la taille de l’échantillon. La précision de l’estimation augmente donc avec la taille de
l’échantillon.
• Ecart-type de X: le résultat pour la variance implique sd(X) = √σn .
5
Quelle est la distribution de X?
→ Loi normale:
Propriété de stabilité par addition de la loi normale: Soient X1 ∼ N (µ1, σ12) et
X2 ∼ N (µ2, σ22) indépendantes. Alors
(X1 + X2) ∼ N (µ1 + µ2, σ12 + σ22).

En utilisant cela, on obtient
 
n
σ2
!
1 X
X= Xi  ∼ N µ,
n i=1 n
si X1, ..., Xn i.i.d. ∼ N (µ, σ 2).
6
Pour les autres distributions, le résultat ci-dessus reste vrai approximativement et pour
les grands échantillons grâce au résultat fondamental suivant:
Théorème central limite

Soient X1, ..., Xn i.i.d. ∼ FX avec E(Xi) = µ et var(Xi) = σ 2, i = 1, ..., n,
1 Pn
soit X = n i=1 Xi et soit
X −µ
V = √ ∼ FV .
σ/ n
V est la moyenne arithmétique centrée et réduite (on a soustrait à X son espérance
et divisé le résultat par son écart-type). Alors
lim FV (t) = Φ(t),
n→∞
où FV (t) désigne la cumulative de V et Φ(t) est la cumulative de la distribution
normale standard.
La cumulative d’une variable (de même que sa densité) détermine complètement sa

distribution. Le résultat ci-dessus signifie donc que la moyenne arithmétique centrée
et réduite est approximativement normale N (0, 1) si n est
suffisamment grand. Ceci
σ 2
implique que X est approximativement normale N µ, n .
7
Ce qui est remarquable, c’est que le résultat de la page précédente est valable quelle que
soit FX , la distribution des Xi (pourvu que leur espérance et leur variance soient bien
définies).
Par contre, la taille d’échantillon n à partir de laquelle l’approximation est bonne dépend
de FX , et il n’y a pas en général de règle simple pour la déterminer.
Dans les pages qui suivent figurent trois exemples où on a représenté les histogrammes
et les qq-plots de x pour différents modèles FX et différentes tailles d’échantillon n.
Pour les obtenir, on a généré à l’aide d’un ordinateur 1000 échantillons de taille n
d’observations suivant le modèle FX , et calculé à chaque fois la valeur de x.
8
X est uniforme entre 0 et 100.
Histogram of xbar Histogram of xbar Histogram of xbar Histogram of xbar Histogram of xbar Histogram of xbar
n=1 n=5 n = 10 n = 15 n = 20 n = 25
0.030
0.06
0.00 0.01 0.02 0.03 0.04 0.05
0.00 0.01 0.02 0.03 0.04 0.05
0.03
0.008
0.020
0.04
Density
Density
Density
Density
Density
Density
0.02
0.004
0.010
0.02
0.01
0.000
0.000
0.00
0.00
0 20 60 100 20 40 60 80 20 40 60 80 30 50 70 30 50 70 30 40 50 60 70
xbar xbar xbar xbar xbar xbar
Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot
80
100
70
●●● ● ● ●● ● ●
70
●
●●
●
●●
●
●●
●
●
●● ●●
70
●
●
●●
●
● ● ● ●
●
●
● ●
● ●●
●
80
●●
● ●●
●●
● ●
●● ● ●
●●
●
● ● ●● ●●
● ●●
●
● ●
● ●
● ● ●
● ●
65
●
70
●● ●
● ●
●
● ●
●
●● ●
●● ●
●
● ●
●
● ● ●
●● ● ●
●
● ● ● ●
●
80
●●
● ●
●● ●● ●● ●
●
● ●
●
●
● ●
●●
● ●
●●
● ●●
● ●
●
● ●●
● ● ● ●
● ●● ●
60
●
●● ●
●● ●
●● ●
● ●
● ●
●
●●
Sample Quantiles
Sample Quantiles
Sample Quantiles
Sample Quantiles
Sample Quantiles
Sample Quantiles
●
60
● ● ● ● ● ●
●
60
●
● ●
●
●
● ●
●
● ●
●
● ●
●
● ●●
● ●
●
● ●● ●
● ●
● ●
●
60
● ● ● ● ● ●
60
●
● ●
●
●
● ●
● ●
●● ●
●● ●
●
●
●
●
● ●
●
● ●
●
● ●●
● ●●
● ●
●
●● ●
●● ●
●● ●
● ●
●
● ●
●●
60
●
● ●● ●● ●● ●● ●●
●
● ● ● ● ●
55
●
● ●●
● ●●
● ●
●●
● ●● ●
●
●
●●
● ●
●
● ●
●
● ●●
● ●●
●
● ●
●
●
●
● ●
● ●
● ●
● ●
● ●●
50
● ●
● ●
● ●● ●
● ●
●
50
● ●
50
●
● ●
● ●
●
● ●
●
● ●●
● ●
●
●
●● ●
●● ●
●● ●
●
● ●
●
● ●
●
●●
● ● ● ● ● ●
50
● ●● ● ● ● ●
40
●
● ●
●
● ●
●
● ●
●
● ●●
● ●●
●
40
●● ●
●
● ●
●● ●
●
● ●●
● ●
●
●
●
● ●● ●
● ●● ●
● ●
●
●
●
● ●
● ●
●
●
● ●
●
● ●
●
●● ●●
●● ●
●
●
● ●
● ●
● ●● ●●
●
●
● ● ●
40
●
● ●
● ●● ●● ●
● ●
●
45
●
● ●●
● ●●
● ●
●
● ●
●
● ●
●
●
● ● ● ● ●
40
● ● ●
● ●
● ●
40
●
●
● ●
●
● ●
●● ●
●
● ●
●● ●●
●
●
● ●
●
● ●●
● ●
●
● ●● ●
● ● ● ● ● ●●
20
● ●
●
● ●
●●
● ●
●
●
● ●●
● ●
●
20
●
● ●● ●
● ●
● ●
●
● ●●
●
40
●
●● ● ●
●● ●●
● ●●
●
●
● ●
●
●●
●
●
30
●● ● ●● ●●
● ●
●●
●
● ●
● ●
● ●
● ●●
● ●
●●
●●
● ●● ●
●● ●● ● ●
●●
●
●●
● ● ●
●● ●
● ● ●
●●
●●
●
● ●● ●
●
●● ●● ●●
30
●
●
● ●●
35
●
●●●●
●
●●
●
●●
●
●
●●
●
●
●
●
●● 30 ●
●●● ●● ●
0
−3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3
Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles
On voit que l’approximation normale est bonne déjà pour de très petites tailles
d’échantillon.
9
X est lognormale d’espérance et d’écat-type égaux à 2.
n=1 n = 10 n = 30 n = 50 n = 70 n = 90
1.0
2.5
2.0
0.4
1.5
2.0
0.8
2.0
1.5
0.3
1.5
1.0
0.6
1.5
Density
Density
Density
Density
Density
Density
1.0
0.2
1.0
0.4
1.0
0.5
0.5
0.1
0.5
0.2
0.5
0.0
0.0
0.0
0.0
0.0
0.0
0 2 4 6 8 12 1.0 2.0 3.0 1.5 2.0 2.5 3.0 1.4 1.8 2.2 2.6 1.6 2.0 2.4 1.6 2.0 2.4
2.6
2.6
3.0
● ● ● ● ● ●
●● ● ●●
12
● ● ● ●
1.4 1.6 1.8 2.0 2.2 2.4 2.6

3.5
●
● ●
●
●
● ● ●
● ●
● ●●
2.4
●
● ●
● ●●
●
● ●
●
●● ●
● ●
● ●
●
2.4
● ●
● ●
● ●
●
● ●
●● ●
● ●
●
10
● ●
●
●●
● ●● ●
●
● ●●
●
●
● ●
●
● ●
● ●● ●
●
●
● ● ● ●
Sample Quantiles
Sample Quantiles
Sample Quantiles
Sample Quantiles
Sample Quantiles
Sample Quantiles
3.0
●
● ●
● ●
● ●
●
● ●
●
2.5
● ● ●● ● ●●
●● ●
●
●
● ●
● ●
●
●
● ●
●
● ●
●
●
2.2
●●
● ●●
● ●
● ●
● ●
●●
●
●
●●
● ● ●
● ●● ● ●
2.2
●
●
● ●
●
● ●●
● ●
●
● ●●
● ●
8
●
● ●
● ●●
● ●●
● ●●
● ●
●
● ●
● ●
●
● ●
● ●
● ●
●
● ● ●
● ● ●● ●
2.5
● ●
● ●
● ●
●
● ●
● ●
●●
● ●
● ●
●
● ●
●● ●
●● ●●
●
● ●
●
● ●
●
●
● ●
● ●
● ●●
●
● ● ● ●
● ●
● ●
2.0
●
● ●● ●●
● ●●
● ●● ●●
●
● ● ● ● ●
6
●
● ● ●
● ●● ●
● ●
●
2.0
●● ●
● ●
● ●
● ●
● ●
●
●
2.0
●
● ●●
● ●
●● ●● ●
●● ●
●
●●
● ●
● ●
● ●●
● ●
● ●
●●
● ● ● ● ● ●
2.0
●
● ●
●
● ●●
●
● ●
●●
● ●●
● ●
●
●●
●
● ●
●● ●
●
● ●● ●
●
● ●●
●● ●●
● ●
●
●
● ●●
●
● ●
●
● ●
●
●
●
● ●
●
● ●
● ●
● ● ●
●
4
1.8
●● ●
●
● ●
●●
● ●
●
● ●
●
● ●●
●
●
●
● ●
●● ●
●●
● ●
●● ●
●
● ●
●
●
● ● ● ●
1.8
●
●
●● ●
●
●
● ●
●●
● ●
● ●
●
● ●●
●
●
●● ●
●
● ●●
● ●●
● ●
● ●
●
● ● ● ● ● ●
1.5
●
●
● ●
●
● ●
● ●●
● ●
●
● ●
●
●
●
●● ●
●●
●
●
● ●●
●
● ●
●●
●
● ●●
●
● ●
●
●
●
●
●● ● ●
● ●
●● ● ●●
●
●
2
● ● ● ● ● ●
●
1.5
●●
●
●
●● ●
●●
●
● ●
●
● ●
●
●● ●● ●
●
● ●● ●
●
● ● ●
1.6
●●
●
●
●●
● ●
●●
● ●
●●
●
●● ●
●● ●
●
●●
●
●
●
●●
●
● ●●
● ●● ●
● ●●
●
●●
●●
●
●
● ●
● ●● ●●
1.6
●
●●
●
●
●●
●
●
●●
●
● ●●
●
●
●●
●
●●
●
●
●●
● ●
●●
●
● ●●●
1.0
●
●●●●
●
●●
● ● ● ● ●
0
−3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3
Lognormale: variable dont le log suit une distribution normale.

L’approximation normale ne devient bonne qu’à partir de n ≈ 30.
10
X est un mélange de lognormale d’espérance et d’écat-type égaux à 2 et d’une uniforme
entre 10 et 50 (outliers) dans les proportions 90% et 10%.
n=1 n = 10 n = 30 n = 50 n = 70 n = 90
0.25
0.20
0.15
0.20
0.3
0.3
0.15
0.20
0.15
0.10
Density
Density
Density
Density
Density
Density
0.2
0.2
0.10
0.10
0.10
0.05
0.1
0.05
0.1
0.05
0.00
0.00
0.00
0.00
0.0
0.0
0 10 30 50 5 10 15 2 4 6 8 10 2 4 6 8 10 2 4 6 8 10 3 4 5 6 7 8
50
10
● ●● ● ● ● ●
●●
10
●●● ● ●
8
●
●● ●
●● ● ●
●
●
● ●
● ● ●
15
●
● ●●
●
●
10
● ● ●● ●● ● ●
● ●
● ●
●
● ●
● ● ● ●
40
● ● ●●
● ●
●
●
● ● ●
7
● ●●
● ●
● ●●
● ● ●
● ●
● ●
● ● ● ●
8
● ● ● ● ●
Sample Quantiles
Sample Quantiles
Sample Quantiles
Sample Quantiles
Sample Quantiles
Sample Quantiles
● ●
8
● ●
● ●● ● ●
● ●●
●
● ●● ●
● ●● ●
●
● ●
●
●
● ● ●● ● ● ●
●
● ● ● ● ●
8
● ●
● ●
● ●
●● ●
● ●●
● ●
●● ●
● ●
● ● ●
●
●
30
● ● ● ● ●
● ●●
6
● ●
●● ●● ●●
●
● ●
● ●
●
●
●
●
10
●
● ●
● ●
●
● ●
●
● ●●
● ●
●
●
● ●
● ●
● ●
●
● ●
●
● ●
●●
● ●
● ●
● ●● ●
●
● ●
●
● ● ● ● ●
6
● ●
● ●
● ●
● ●
●
6
● ●
● ●
● ●
●
● ●
●
● ●●
● ● ●
● ● ●● ●
●
6
● ●
● ●
● ●
●
● ●●
●
● ●
●●
●
● ● ●
● ● ●
5
●
20
● ●
●
● ●●
● ●●
● ●● ●
●●
● ●
● ●
●
● ●
●
● ●
●
● ●●
●
●
● ●● ●● ●
● ●
●
● ●
●
●
● ●
●
● ●●
● ●
●● ●●
●
● ●
●● ●
●
●
● ●●
● ●● ●
●
●
● ●●
● ●
● ●
● ●●
●
● ●
●
● ●
● ●
● ●
●● ●
●
● ●
●
● ●
● 4 ●●
● ●
● ●
●
4
● ●
● ● ●
● ●
● ●
●
4
● ● ●
5
● ● ●● ● ●
4
● ● ●
● ●
● ●● ●
●
10
●
● ●
●
● ●
●
●● ●
●
● ●●
●
● ●
●
●
●
● ●
●● ●
●● ●
●● ●
●●
●
● ●
●
●
● ● ●●
● ●
●●
● ●
●●
● ●
●●
●
● ●●
● ●●
● ●
●
●● ●
●●
● ●
●●
●
● ●
● ●●
●
● ●●
●
●● ●
●● ●
●
●●
●
●
●● ●● ●●
●
● ●
●●
●
● ●
●●
● ●●
●
●
●●
● ●●
●
● ●
●
● ●
●● ●●
●
●●
● ●
●●
●
3
●
●
●● ●●
● ●
● ● ●●
●
● ●
●
2
●
●
●●
●
●
●● ●
●
●
●●
●
● ●
●
●
●● ●
●
●● ●
●●
● ●
●
2
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●● ●
●
●●
●
●
●●
●
●●
●
●
● ●●
●
●●
●
● ●● ● ●
●
●●●●
●
●●
●●
●
●
●
●●
● ●
●
●●
●
●
●●
●
●
●●●
●
●●
●
●
●●
●
●●
●● ●
●●●
●
●
●
●●
●
●
● ●
●
●
●●
●
● ●
●●●●
●
●●
●
●●
●
●
●●
●
●● ●●● ●● ● ●
●●●●
●
●
0
2
−3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3
La présence d’outliers fait qu’une plus grande taille d’échantillon est nécessaire pour
obtenir une bonne approximation normale.
11
Distribution binomiale et distribution de Poisson
Nous avons vu que pour X1, ..., Xn i.i.d. ∼ FX avec E(Xi) = µ et var(Xi) = σ 2,
i = 1, ..., n, la moyenne centrée et réduite
Pn
i=1 Xi
V = n √ −µ
σ/ n
avait approximativement une distribution normale standard lorsque n est suffisamment
grand, ce que nous noterons V ∼ ˙ N (0, 1). Cela implique que la somme des Xi a
approximativement une distribution normale N (nµ, nσ 2). En effet,
n
X √
Xi = nσV + nµ.
i=1
Or, nous avons vu qu’une variable binomiale Y ∼ B(n, p) n’est autre que la somme de
n variables indépendantes Yi ∼ B(1, p) (Y ∼ B(n, p) est le nombre de succès parmi
n répétition indépendantes d’une expérience avec probabilité de succès p, ce qui revient
à additionner n variables B(1, p)). On a E(Yi) = p et var(Yi) = p(1 − p) et on
obtient donc que
Y ∼
˙ N (np, np(1 − p)).
12
Autrement dit, si n est suffisamment grand, une binomiale ressemble à une
normale de même moyenne et de même variance. Pour le cas binomial, il existe
une règle approximative disant que l’approximation normale est bonne si
np > 5 et nq > 5,
où q = 1 − p.
On peut faire une considération similaire à propos de la distribution de Poisson en se

souvenant de sa propriété de stabilité par addition: Une variable Poisson Y ∼ P(λ)
avec λ entier est égale à la somme de λ variables indépendantes Yi ∼ P(1). On en
déduit que
Y ∼
˙ N (λ, λ).
Pour le cas Poisson, on considère généralement que l’approximation est bonne si
λ ≥ 20.
Les pages suivantes montrent des illustrations de ces proporiétés pour la binomiale et la
distribution de Poisson.
13
Histogram of X ~ B(n,p) Histogram of X ~ B(n,p) Histogram of X ~ B(n,p) Histogram of X ~ B(n,p) Histogram of X ~ B(n,p)
n = 1, p = 0.4, n = 5, p = 0.4, n = 10, p = 0.4, n = 20, p = 0.4, n = 30, p = 0.4,
np = 0.4, nq = 0.6 np = 2, nq = 3 np = 4, nq = 6 np = 8, nq = 12 np = 12, nq = 18
0.15
6
0.20
0.15
0.6
5
0.10
0.15
4
0.10
Density
Density
Density
Density
Density
0.4
3
0.10
0.05
2
0.05
0.2
0.05
1
0.00
0.00
0.00
0.0
0
0.0 0.2 0.4 0.6 0.8 1.0 0 1 2 3 4 5 0 2 4 6 8 2 4 6 8 10 14 5 10 15 20

X X X X X
Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot
1.0
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●●
●
●
●●
●
●●
●
●
●●
●●
●
●●
●
●●
●●
●●● ● ●
●
●●
●
●●
●
●●●●● ● ●● ● ●
5
10 12 14
●
●●●
20
8 ●
●
●●
●
●●
●
●●●● ●●
●
●
●●
●●
●
●●
●
●
●●●
0.8
●
●
●
●●
●
●●
●
●
●●
●
●●
●
●
●●
●
●
4
●
●
●
●●
●
●●
●
●
●●
●
● ●
●
●
●●
●
●●
●
●
●●
●
● ●●
●●
●
●●
●
Sample Quantiles
Sample Quantiles
Sample Quantiles
Sample Quantiles
Sample Quantiles
●
●
●
●●
●
●
●●
●
●
●●
● ●
●●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●●
● ●
●
●
●●
●
●●
●
●
●●
6
●
●
●
●●
●
●
●●
●
●
●●
●
●
15
0.6
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
● ●
●
●
●●
●
●
●●
●
●
●
3
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
● ●
●
●
●●
●
●
●●
●
●
●●
● ●●
●
●
●●
●
●
●●
●
●
●
●
●
●
●●
●
●
●●
●
●
●●
●
● ●
●●
●
●
●●
●
●
●●
●
●
8
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
● ●●
●
●
●●
●
●
●●
●
●
4
●
●
●
●●
●
●
●●
●
●
●●
●
0.4
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
2
●
●●
●
●
●●
●
●
●●
●
●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●
10
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
● ●●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●●
● ●●
●
●
●●
●
●
●●
●
●
●
0.2
●
●
●
●●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
● ●
●
●●
●
●
●●
●
●
2
●
●
●
●●
●
●●
●
●
●●
●
●
4
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
1
●
●
●●
●
●
●●
●
●●
●●
●●
●●
●
●●
●
●●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●●
●
●●
● ●●
●
●●
●
●●
●
●●
●
2
●●●
●●
5
0.0
● ●●●
●●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●●
●
●●
●
●
●●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●● ● ●●●
●●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●●
●
●●
●
●
●●
●
●●
● ● ●●● ● ●
0
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles
14
Histogram of X ~ B(n,p) Histogram of X ~ B(n,p) Histogram of X ~ B(n,p) Histogram of X ~ B(n,p) Histogram of X ~ B(n,p)
n = 10, p = 0.1, n = 30, p = 0.1, n = 50, p = 0.1, n = 70, p = 0.1, n = 90, p = 0.1,
np = 1, nq = 9 np = 3, nq = 27 np = 5, nq = 45 np = 7, nq = 63 np = 9, nq = 81
0.15
0.8
0.12
0.15
0.20
0.6
0.10
0.08
0.10
Density
Density
Density
Density
Density
0.4
0.10
0.05
0.04
0.05
0.2
0.00
0.00
0.00
0.00
0.0
0 1 2 3 4 5 0 2 4 6 8 0 2 4 6 8 10 12 0 5 10 15 0 5 10 15 20
X X X X X
Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot
● ●● ●● ● ●
5
15
12
●
20
●●
●
●
●●
●●
●●
8
●
●●
●
●●●● ●●
●
●
●●
●
●
●
●
●●
●●
●●●● ●
●●
●
●● ●
4
10
●
●
●
●●
●
●●
●● ●
●
●●
●
●●
●
● ●
Sample Quantiles
Sample Quantiles
Sample Quantiles
Sample Quantiles
Sample Quantiles
●
●●
●
●●
●
●
●●
●
●
●●
●
●●
●
●
●
●●
●
●●
●
●
● ●
●
●●
●
●
●●
●
●
●●
●
15
●
●
●
●●
●
●●
●
●
●●
● ●●
●●
●
●
6
10
●
●
●
●●
●
●
●●
●
●●
● ●●
●
●
●●
●
●
●● ●
●
●●
●
●●
●
●
●
8
●
●
●
●●
●
●●
●
●
●●
●
●●
●
●●
●
●
3
●
●
●
●●
●
●
●●
●
●
●●
●
● ●
●
●
●●
●
●
●●
●
● ●
●●
●
●
●●
●
●●
●
●
●
●●
●
●
●●
●
●
●● ●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
● ●
●
●
●●
●
●
●●
●
●
●●
6
10
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
4
●
●
●
●●
●
●
●●
●
●
● ●
●
●●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
2
●
●
●
●●
●
●
●●
●
●
●●
● ●●
●
●
●●
●
●
●●
●
●
● ●
●●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
● ●
●●
●
●
●●
●
●
●●
●
●
● ●
●●
●
●
●●
●
●
●●
●
5
●
●
●
●●
●
●
●●
●
●
●●
●
4
●
●●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
● ●
●
●
●●
●
●
●●
●
●
●●
●
● ●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
2
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
1
●
●●
●
●●
●
●
●●
5
●
●
●
●●
●
●●
●
●
●●
●
●
●
●
●
●●
●
●●
●
●
●●
●
●
●●
●
●
2
●
●
●●
●
●●
●
●●
●
● ●
●
●●
●
●
●●
●
●●
●
●
●
●
●●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
● ●
●●
●
●●
●
●●
●
●●
●
●●
●●
●
●●
●
●●
●
●●
●
●●
●
●
● ●●●
●●
● ●●●
●
● ●●●
●●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●●
●
●●
●
●
●●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
● ● ●●●
●●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●●
●
●● ● ●● ● ●
0
0
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles
15
Histogram of X ~ P(λ) Histogram of X ~ P(λ) Histogram of X ~ P(λ) Histogram of X ~ P(λ) Histogram of X ~ P(λ) Histogram of X ~ P(λ)
λ=1 λ=5 λ = 10 λ = 15 λ = 20 λ = 25
0.10
0.20
0.12
0.06
0.08
0.6
0.15
0.08
0.08
0.06
0.04
Density
Density
Density
Density
Density
Density
0.4
0.10
0.04
0.04
0.04
0.02
0.2
0.05
0.02
0.00
0.00
0.00
0.00
0.00
0.0
0 1 2 3 4 5 0 2 4 6 8 12 0 5 10 15 20 5 10 15 20 25 10 20 30 10 20 30 40 50
X X X X X X
14
35
●● ● ● ●● ● ●
5
45
20
●
●● ● ●
25
● ●
●●
●● ●●
●
●
●
●●
● ●
●
●●
●●
12
●
●●
● ●
●
● ●●
●
●
40
●
●
●
●●
● ●
●●
30
●
●
●●
●
●●
●
●●
●● ●
●●
●
●
●●
●
● ●
●
● ●
●
4
●
●
●
●●
●●
●
● ●
●
●●
●
● ●
●
●
●
●● ●
●
●●
●
●● ●
●
●
●
Sample Quantiles
Sample Quantiles
Sample Quantiles
Sample Quantiles
Sample Quantiles
Sample Quantiles
10
15
●
●
●●
20
●
●
●
●● ●
●
●●
●
● ●●
●
●●
● ●
●●
●
●
●●
●
35
●●
●
●
●● ●
●●
●
●
●
●●
●
●
●● ●
●
●●
●
●
● ●
●●
●
● ●
●●
●
●
●
●
●
●●
●
●●
25
●
●
●●
●
●
● ●●
●
●
●●
● ●
●
●
●●
● ●
●
●●
●
●
●
●
●●
●
●
●●
●
●●
●
● ●
●
●●
3
●
●
●
●●
●
● ●
●●
●
●
●● ●
●
●
●●
●
● ●
●●
●
●
● ●
●
●
●●
8
30
●
●●
●
●
●●
● ●
●●
●
●
●● ●
●●
●
● ●●
●
●
●
15
●
●
●
●●
●
●
●●
●
●
● ●
●
●
●●
●
● ●
●
●
●●
● ●
●●
●
●
●
10
●●
●
●
●●
●
● ●
●
●●
●
●
●
●
●●
●
●
● ●●
●
●
●● ●
●
●●
●
20
●
●
●
●●
●
●
●●
● ●●
●
●
●●
●
●
● ●
●
●
●●
6
●
●
●●
●
●
●
25
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●● ●
●
●●
●
●
●● ●
●
●
●●
2
●●
●
●
●●
●
● ●
●
●●
●
●
●●
● ●●
●
●
●● ●
●●
●
●
●
●
●
●
●●
●
●
●●
●
●
●● ●
●●
●
●
● ●
●
●●
●
●
●
●●
●
●
●●
●
●
● ●
●
●
●●
● ●
●
●
●●
10
●
●
●●
●
●
● ●●
●
●●
●
●
●
●
●●
●
●
●●
●
●
● ●
●
●●
●
●
●●
● ●●
●
●
●
4
20
●●
●
●
●● ●
●●
●
●
● ●
●
●●
●
●
15
●●
●
●
●●
●
5
●
●
●
●●
●
●
●●
●
●
●● ●
●●
●
●
●●
● ●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●● ●●
●
●
●●
● ●
●●
●
●
●
1
●●
●
●
●●
●
●●
●
● ●
●
●●
●
●●
●●
●
● ●●
●
●
●● ●●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●●
● ●●
●●
●
●
●●
● ●
●●
●
●
2
15
●
●●
●
● ●●
●
●
●●
● ●
●
●●
●
●● ● ●
●
●
5
●
●
●●
●
●●
●
●
●●
●
●●
● ●
●●
●
● ●
●●
●●
10
●● ●
●
●
● ●
● ●●
●●
●●
●
●
●●
●●
●
●
●●
●
●●
●
●
●●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
● ● ●●
●●
●●
● ● ● ● ●●
●●
● ●
0
10
−3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3
16
2. Bootstrap
Nous avons vu que le théorème central limite (TCL) nous permet connaı̂tre la distribution
de la moyenne arithmétique de façon approximative. Nous avons vu cependant que la
taille d’échantillon à partir de laquelle l’approximation est bonne n’est pas toujours facile
à déterminer. Si on ne souhaite pas avoir recours à l’approximation normale, on peut
utiliser la technique du bootstrap.
D’autre part, la moyenne arithmétique est un estimateur de l’espérance d’une variable

aléatoire. Si on s’intéresse à d’autres caractéristiques, on n’a pas toujours un théorème
comme le TCL pour nous fournir une approximation de la distribution de l’estimateur
correspondant. Là aussi, le boostrap peut être utilisé.
17
Le bootstrap est une technique consistant à simuler des échantillons par ordinateur. On
distingue deux formes de bootstrap:
• bootstrap paramétrique
• bootstrap non paramétrique
L’idée est la suivante: pour connaı̂tre la distribution d’un estimateur étant donnée une
taille d’échantillon n, on génère à l’aide d’un ordinateur un grand nombre d’échantillons
de taille n et on calcule la valeur observée de l’estimateur sur chacun de ces échantillons.
On utilise alors la distribution empirique de ces valeurs observées comme estimation de
la distribution de l’estimateur.
→ C’est ce qu’on a fait dans la pages précédentes pour voir si l’approximation normale
était appropriée dans différentes situations.
→ C’est un exemple de boostrap paramétrique: on simule les échantillons en postulant
qu’ils proviennent d’un certain modèle paramétrique (lognormal, uniforme, binomial, etc).
→ La différence avec la pratique est que dans un cas réel on a un échantillon
d’observations à partir duquel on détermine les paramètres du modèle considéré, puis
on génère les échantillons avec ces paramètres.
18
Parfois, on ne souhaite pas faire l’hypothèse que les observations suivent une certain
modèle paramétrique. On fait alors du bootstrap non paramétrique.
→ L’idée est d’utiliser comme modèle la distribution empirique des observations dans
l’échantillon que l’on a à disposition.
→ Pour simuler un échantillon de taille n provenant de ce modèle, on tire avec remise n
valeurs dans l’échantillon. On peut prouver qu’on obtient alors un échantillon distribué
selon Fn, la fonction de distribution cumulative empirique de la variable sur l’échantillon.
Exemple:
Les données ci-dessous sont des durées de séjour pour des patients hospitalisés au CHUV
pour des troubles du système nerveux.
1 1 2 2 2 2 2 2 3 3 3 3
3 4 4 4 4 4 5 5 5 5 6 6
7 7 8 9 16 115 198 374
19
On s’intéresse à la médiane de ces durées de séjours. Sur l’échantillon à disposition elle
est de 4 jours et on se demande à quel point cette médiane pourrait varier si on prenait
un autre échantillon de même taille parmi des patients souffrant de troubles similaires.
On tire avec remise 5000 échantillons de taille 34 et on calcule à chaque fois la médiane.
La distribution des médianes obtenues est illustrée dans la figure ci-dessous.
51%
2000
98%
1000
0
2 2.5 3 3.5 4 4.5 5 5.5 6 6.5
On voit que la probabilité que la médiane d’un nouvel échantillon soit égale à 4 est
estimée à 51% et la probabilité qu’elle se situe entre 3 et 5 est estimée à 98%.
20
Chapitre 10: Introduction aux tests
statistiques
1. Approche
• Hypothèse nulle
• p-value et niveau
• Statistique de test
• Hypothèse alternative
• Puissance
2. Formalisme général d’un test statistique
3. Intervalle de confiance
1
1. Approche
Exemple introductif (démonstration au cours)
On imagine un casino proposant un jeu basé sur le jet d’une pièce prétendument
équilibrée. On jette un certain nombre de fois la pièce et on obtient (ou prétend obtenir...)
“Pile” à chaque fois. Après chaque jet, on demande aux étudiants s’ils estiment que le
degré d’évidence quant au déséquilibre de la pièce est suffisant pour décider de fermer le
casino. Exemple de résultat obtenu:
Positions des étudiants après n lancers de pièce, tous "Pile"
Fermer le casino Ne pas fermer le casino

100 %
80 %
60 %
40 %
20 %
0%
1 2 3 4 5 6
2
Cet exemple montre qu’une même expérience n’amène pas spontanément tout le monde
aux mêmes conclusions.
La logique des tests statistiques permet de formaliser la façon de tirer des conlusions à
partir d’une expérience.
Ce chapitre expose cette logique, commune à toute procédure de test statistique, en

suivant deux exemples concrets.
3
Hypothèse nulle
Un test statistique se base sur les points suivants:
1. Formulation d’une hypothèse. Traditionnellement, on appelle cette hypothèse
l’hypothèse nulle et on la note H0. (La raison de cette appellation apparaı̂tra plus
clairement dans la suite.)
2. Utilisation de la théorie statistique pour déterminer si les données soutiennent cette
hypothèse H0 ou non.
3. Rejet de H0 si les données ne la soutiennent pas.
4
Dans l’exemple de la pièce, on fait l’hypothèse qu’on a une pièce équilibrée:
H0: P (P ile) = P (F ace) = 1 2.
→ A quel point l’observation d’un jet P ile sur un, de deux jets P ile sur deux, ..., de
six jets P ile sur six soutient-elle cette hypothèse?
Dans ce qui suit, on va en fait calculer à quel point ces observations condamnent cette
hypothèse.
Pour ce faire on va calculer, sous l’hypothèse H0, la probabilité que les observations
s’éloignent au moins autant de H0 que ce qui a été observé.
→ Si cette probabilité est faible, on en conclura que soit H0 n’est pas vraie, soit un
événement rare a eu lieu. Ne croyant pas en la survenue d’un événement rare, on rejettera
alors H0.
N.B.: Notation: Dans ce qui suit, on utilisera la notation PH0 pour indiquer qu’une
probabilité est calculée sous H0, i.e. en considérant que H0 est vraie.
5
• Un jet P ile sur un:
Notre hypothèse H0 plaiderait pour autant de P ile que de F ace, or il y a 1 P ile
et 0 F ace. Avec un seul jet, on ne peut pas satisfaire H0 : si on avait eu F ace, on
s’en éloignerait autant mais de l’autre coté.
→ PH0 (s’éloigner au moins autant de H0) = PH0 (P ile ou F ace) = 1
→ A tous les coups, on s’éloigne au moins autant de H0
• Deux jets P ile sur deux:
On s’éloignerait autant de H0 avec deux F ace.
→ PH0 (s’éloigner au moins autant de H0) = PH0 (2P ile ou 2F ace)
= PH0 (2P ile) + PH0 (2F ace) = 0.52 + 0.52 = 0.5
→ Sous H0, on a une chance sur deux de s’éloigner au moins autant de H0
• Trois jets P ile sur trois:
On s’éloignerait autant de H0 avec trois F ace.
= PH0 (3P ile) + PH0 (3F ace) = 0.53 + 0.53 = 0.25
→ Sous H0, on a une chance sur quatre de s’éloigner au moins autant de H0
6
• Quatre jets P ile sur quatre:
On s’éloignerait autant de H0 avec quatre F ace.
= PH0 (4P ile) + PH0 (4F ace) = 0.54 + 0.54 = 0.125
→ Sous H0, on a une chance sur huit de s’éloigner au moins autant de H0
• Cinq jets P ile sur cinq:
On s’éloignerait autant de H0 avec cinq F ace.
= PH0 (5P ile) + PH0 (5F ace) = 0.55 + 0.55 = 0.0625
→ Sous H0, on a une chance sur seize de s’éloigner au moins autant de H0
• Six jets P ile sur six:
On s’éloignerait autant de H0 avec six F ace.
= PH0 (6P ile) + PH0 (6F ace) = 0.56 + 0.56 = 0.03125
→ Sous H0, on a une chance sur trente-deux de s’éloigner au moins autant de H0
7
On constate donc qu’au fur et à mesure que les P ile s’accumulent, une pièce équilibrée
a de moins en moins de chances de produire un résultat aussi extrême. Autrement dit,
H0 est de plus en plus condamnée par l’expérience. Le fait que l’expérience condamne
H0 va nous conduire à la rejeter. Mais à partir de quand devrait-on rejeter H0?
Dans la recherche scientifique, un usage largement répandu consiste à rejeter une

hypothèse nulle si PH0 (s’éloigner au moins autant de H0) ≤ 5%. Le raisonnement
est alors le suivant:
Si H0 était vraie, j’aurais une probabilité inférieure à 5% d’observer

quelque chose d’aussi extrême ou plus extrême que ce que j’ai
observé. Je considère que cette probabilité est trop faible pour
croire en H0 et je la rejette.
Ou, en d’autres termes: Soit H0 est fausse, soit un événement rare s’est produit. Je ne
crois pas à la survenue d’un événement rare et donc je rejette H0.
On voit donc qu’il y a une part de subjectivité dans la décision de rejeter H0. Rien dans
la théorie statistique ne dit qu’il faut fixer la valeur limite à 5% plutôt qu’à 1%, 2% ou
10% par exemple.
8
p-value et niveau
Quelques définitions
• Le processus décrit dans les transparents qui précèdent s’appelle un test statistique.
• PH0 (s’éloigner au moins autant de H0) (la probabilité sous H0 que les observations
s’éloignent de H0 au moins autant que ce qui a été observé) s’appelle la p-value du
test.
• La valeur limite pour la p-value, au-dessous de laquelle on rejette H0, s’appelle le
niveau (ou le seuil) du test.
Avec ces nouveaux termes:
Dans un test statistique, on rejette l’hypothèse nulle lorsque la

p-value est inférieure ou égale au niveau du test.
• Lorsque la p-value est inférieure ou égale au niveau, on dit que le résultat est
statistiquement significatif.
9
Dans l’exemple de la pièce, on aurait donc:
Nombre de jets tous P ile p-value

1 1
2 0.5
3 0.25
4 0.125
5 0.0625
6 0.03125
En fixant le niveau à 5%, on ne rejetterait donc H0 qu’au bout de 6 jets P ile sur 6.
1 et
On dirait alors que la probabilité d’obtenir P ile est significativement supérieure à 2
on aurait montré statistiquement que la pièce est déséquilibrée.
10
Attention:
• Nulle part dans cette procédure on ne parle de la probabilité que H0 soit vraie.
D’ailleurs, il n’est pas évident de définir “la probabilité que H0 soit vraie”. Par exemple,
le sens de la phrase “la probabilité que H0 soit vraie est de 90%” n’est pas clair.
Dans notre exemple, soit la pièce est équilibrée, soit elle ne l’est pas. Il n’y a pas de
phénomène aléatoire sur lequel définir une probabilité.
Dans ce cours, à chaque fois qu’on parlera de la probabilité d’un événement, on aura en
tête la répétition hypothétique d’une expérience, et la probabilité est définie comme
la proportion moyenne des fois où l’événement aura eu lieu. Ainsi P(P ile) est la
proportion moyenne de P ile si on lance plusieurs fois la pièce. Dire que la pièce est
équilibrée, i.e. P (P ile) = 1 2 , revient à dire que si on lance plusieurs fois la pièce on
aura en moyenne autant de P ile que de F ace.
• Une des erreurs les plus fréquentes d’interprétation de la p-value est justement de dire
que la p-value est la probabilité que H0 soit vraie, étant donné les observations. En
fait, ce serait plutôt le contraire : La p-value est la probabilité d’obtenir les observations
(ou des observations plus extrêmes), étant donné H0.
11
Autre exemple: poissons du lac
Dans le cadre d’une étude environnementale, on cherche à savoir si la faune d’un certain
lac évolue au cours du temps ou si elle reste stable. On souhaite notamment savoir si
la taille moyenne des poissons peuplant ce lac a changé depuis la dernière mesure, égale
à 5 cm. En termes statistiques, on souhaite tester l’hypothèse nulle selon laquelle les
poissons du lac ont une taille moyenne µ de µ0 = 5 cm. On pose donc H0: µ = µ0.
On prélève un échantillon aléatoire de 30 poissons de tailles x1, ..., x30, et on trouve
que leur taille moyenne x̄ vaut 7 cm.
Peut-on en déduire que la taille moyenne des poissons du lac est supérieure à 5 cm?
Est-il crédible que la taille moyenne des poissons du lac soit malgré tout de 5 cm, alors
que la moyenne dans notre échantillon est de 7 cm? Si la taille moyenne des poissons du
lac était de 5 cm, serait-il fréquent ou rare que le hasard de l’échantillonnage produise
un tel échantillon?
Plus précisément: si la taille moyenne des poissons du lac était de 5 cm, quelle serait la
probabilité de tirer un échantillon de taille 30 où la taille moyenne s’éloigne au moins
autant de 5 cm?
→ Cette probabilité est la p-value du test de H0.
→ Comment la calculer?
12
Grâce au théorème central limite, on connaı̂t approximativement la distribution de X̄:
σ2
!
X̄ ∼
˙ N µ, ,
n
où σ 2 est la variance des tailles des poissons du lac.
Si H0: µ = µ0 était vraie, on aurait donc que
σ2
!
X̄ ∼
˙ N µ0 , .
n
σ 2 est inconnu, mais non peut l’estimer par la variance de l’échantillon:
30
2 1 X
σ̂ = (xi − x̄)2 = 20.3 cm2.
n i=1
Connaissant la distribution de X̄ sous H0, nous pouvons à présent calculer la probabilité
qu’elle s’éloigne au moins autant de 5 cm que ce que nous avons observé (7 cm).
13
Si H0: µ = µ0 était vraie, on aurait donc:
PH0 (s’éloigner au moins autant de H0) = PH0 (X̄ ≤ 3 ou X̄ ≥ 7)
= 2PH0 (X̄ ≥ 7)
!
X̄ − µ0 7 − µ0
= 2PH0 √ ≥ √
σ̂/ n σ̂/ n
!
X̄ − µ0 7−5
= 2PH0 √ ≥√ √
σ̂/ n 20.3/ 30
!
X̄ − µ0
= 2PH0 √ ≥ 2.43
σ̂/ n
≈ 2(1 − Φ(2.43))
= 0.015
La p-value de notre test est donc égale à 1.5%. Au seuil de 5%, on rejette donc H0 et
on en conclut que la taille moyenne des poissons du lac est significativement supérieure
à 5 cm.
On a montré que si H0 était vraie il serait rare (1.5 chances sur 100) d’observer, par le
hasard de l’échantillonnage, un résultat au moins aussi extrême que celui qu’on a observé.
Ne croyant pas en la survenue d’un événement rare, on rejette H0.
14
Statistique de test
L’outil qui nous a permis de calculer la p-value est la variable standardisée Z = X̄−µ
√ 0.
σ̂/ n
On a utilisé le fait que sous H0, grâce au théorème central limite, on a
Z∼
˙ N (0, 1).
On appelle cette variable la statistique de test.
Les deux caractéristiques essentielles de la statistique de test sont les suivantes

1. Elle permet de mesurer à quel point les observations s’éloignent de l’hypothèse nulle
2. Sa distribution sous H0 est connue
Ainsi, dans l’exemple des poissons du lac, Z = X̄−µ √ 0 est une mesure standardisée de la
σ̂/ n
différence entre les observations (X̄) et l’hypothèse nulle (µ0). Sous H0, sa distribution
est connue grâce au TCL.
Ce sont ces deux points qui permettent la calcul de la p-value.
15
On a la situation suivante pour la distribution de Z sous H0:
0 z=2.43
Comme on l’a vu en page 14, la p-value est égale à

!
X̄ − µ0
PH0 (s’éloigner au moins autant de H0) = 2PH0 √ ≥ 2.43
σ̂/ n
Pour quelles valeurs de z va-t-on rejeter H0?
= 2P ≥ 2.43)
(Zp-value
H0ala
→
QuePour
vautunz, test
la valeur observ
au niveau αée=de5%,
Z sur
lesl’valeurs
échantillon?
telles Onque est ≤ 0.05.
= 1.5% est le quantile d’ordre 0.975
x̄ − µ|z|
Il s’agit des valeurs pour lesquelles 0
≥ z 7
0.975−, o
5 ù z 0.975
de la distribution normale √ =
z =standard. √ √ = 2.43
σ̂/ n Ces valeurs
20.3/ constituent
30 le domaine de rejet de H0.
16
P−value = 1.5 %
−z=−2.43 0 z=2.43
Que vaut z, la valeur observée de Z sur l’échantillon? On a

Pour quelles valeurs de z va-t-on rejeter H0?
→ Pour on
un l’a
testvuauenniveau αx̄=− 5%, 7−5
µ0 les valeurs la p-value est ≤ 0.05.
Comme page
z= 14, la√ = √ galetelles
p-value est é √à que
= 2.43
σ̂/ n
Il s’agit des valeurs pour lesquelles 20.3/
|z| ≥ z0.975 , où 30
z0.975 est le quantile d’ordre
! 0.975
X̄ − µ0
de la Pdistribution normale
H0 (s’éloigner standard.
au moins Ces
autant devaleurs
H0) constituent
= 2PH0 le domaine √ ≥ de 2.43
rejet de H0.
σ̂/ n
= 2PH0 (Z ≥ 2.43)
= 1.5%
17
5% Domaine de rejet de H0
] [
− z0.975=−1.96 0 z0.975=1.96 z=2.43
Comme on l’a vu en page 14, la p-value est égale à

!
X̄ − µ0
PH0 (s’éloigner au moins autant de H0) = 2PH0 √ ≥ 2.43
Que vaut z, la valeur observée de Z sur l’échantillon? On a σ̂/ n
Pour quelles valeurs de z va-t-on ? −= 2PH0 (Z ≥ 2.43)
x̄ − µrejeter
0
H0 7 5
→ Pour un test au niveau z =α =√5%, =les√valeurs=
√ 1.5%
telles = 2.43
que la p-value est ≤ 0.05.
σ̂/ n 20.3/ 30
Il s’agit des valeurs pour lesquelles |z| ≥ z0.975, où z0.975 est le quantile d’ordre 0.975
de la distribution normale standard. Ces valeurs constituent le domaine de rejet de H0.
18
En résumé:
p-value ≤ 0.05 ⇐⇒ Z ∈ domaine de rejet
On peut donc mener le test en se basant soit sur la p-value, soit sur la valeur de la
statistique de test.
Pour un niveau α quelconque, le domaine de rejet pour ce test est défini par
z ∈ Domaine de rejet de H0 ⇐⇒ |z| ≥ z1−α/2
→ Quelle est la probabilité de rejeter l’hypothèse nulle dans le cas où elle est vraie?
PH0 (rejeter H0) = PH0 (Z ∈ domaine de rejet)
= PH0 (|Z| ≥ z1−α/2)
= α
Le fait de rejeter une hypothèse nulle vraie s’appelle une erreur de première espèce. En
fixant un niveau pour notre test, on contrôle donc la probabilité de commettre une erreur
de première espèce: à chaque fois qu’on fait un test à 5%, on sait que si H0 est vraie
on n’aura que 5% de chance de la rejeter.
19
Hypothèse alternative
Dans le formalisme classique des tests statistiques, on considère, en plus de l’hypothèse

nulle H0, une hypothèse alternative, que l’on note H1. De manière générale, l’hypothèse
alternative est la négation de l’hypothèse nulle.
Dans l’exemple des poissons du lac, on a H0 : µ = µ0, et donc on a H1 : µ 6= µ0.
On comprend mieux à présent l’appellation “hypothèse nulle”: c’est l’hypothèse d’absence
de différence ou d’absence d’effet (pour les poissons: absence de différence entre la taille
moyenne avant et après, ou absence d’effet du temps sur la taille moyenne).
Par opposition, l’hypothèse alternative postule la présence d’une différence ou d’un effet.
Elle est parfois appelée l’hypothèse scientifique, car dans une étude on est souvent
intéressé à démontrer une différence ou un effet (e.g. différence entre deux groupes
de patients: traités et non traités, i.e. effet du médicament).
Au sens statistique, démontrer a précisément la signification suivante: on dit qu’on a
démontré statistiquement une hypothèse scientifique H1 si on a rejeté H0, l’hypothèse
nulle correspondante, dans une procédure de test statistique.
20
Puissance
On a vu que lorsqu’on fait un test statistique, on commet une erreur de première espèce
si H0 est vraie et qu’on la rejette, et que ce risque est contrôlé en fixant le niveau du
test.
Un autre type d’erreur qu’on est susceptible de commettre est de ne pas rejeter H0 dans
le cas où elle est fausse. Dans ce cas, on aura manqué de détecter un effet présent dans
la population. On appelle cette erreur une erreur de deuxième espèce.
De même qu’on s’est intéressé à PH0 (rejeter H0), on peut s’intéresser à
PH1 (ne pas rejeter H0), pour connaı̂tre le rique d’erreur de deuxième espèce. En
général, on considère plutôt 1 − PH1 (ne pas rejeter H0), que l’on appelle la puissance
du test. La puissance d’un test est la probabilité de détecter un effet lorsqu’il est présent.
On souhaite donc qu’elle soit aussi élevée que possible.
21
Mais PH1 (ne pas rejeter H0) n’est pas aussi simple à calculer que PH0 (rejeter H0)
car, contrairement à H0, H1 ne spécifie pas de valeur précise pour le paramètre d’intérêt,
elle dit juste qu’il est différent de µ0. La valeur de PH1 (ne pas rejeter H0), et donc de
la puissance, va dépendre de la vraie valeur du paramètre dans la population: plus µ sera
différent de µ0, plus la puissance sera élevée. Autrement dit, plus un effet est important,
plus il sera facile de le détecter.
D’autre part, la puissance dépendra de la taille de l’échantillon: étant donné un effet,
la probabilité de le détecter va dépendre de la précision de la mesure, et on sait que la
précision augmente avec la taille de l’échantillon.
En général, on considère le problème dans l’autre sens: on postule un certaine taille d’effet
scientifiquement intéressante, et on calcule la taille d’échantillon nécessaire pour avoir
une certaine puissance (i.e. une certaine probabilité de le détecter).
On ne considérera pas davantage ce problème dans ce cours.
22
2. Formalisme général d’un test statistique
On a vu qu’on peut mener une procédure de test statistique soit en calculant la p-value
et en la comparant au seuil, soit en calculant la valeur de la statistique de test sur
l’échantillon et en regardant si elle se trouve dans le domaine de rejet. Ces deux façons
de procéder sont tout à fait équivalentes.
Dans les deux derniers chapitres de ce cours, on introduira deux procédures de test
classiques, le test du chi carré et le t-test, en suivant l’approche suivante, en quatre
étapes:
• Hypothèses
• Echantillon
• Règle de décision
23
Dans l’exemple des poissons du lac, cela donne:
• Hypothèses
H0: µ = µ0 = 5 cm H1: µ 6= µ0
• Echantillon
Tirage aléatoire de 30 poissons
Z = X̄−µ
√0
σ̂/ n
Rejeter H0 si |z| ≥ z1−α/2,

où α est le niveau du test (dans notre exemple, α = 0.05).
24
Comment se présente le test de la pièce en suivant ce formalisme?
→ La statistique de test est ici le nombre K de résultats P ile sur six lancers. K satisfait
en effet les deux propriétés essentielles d’une statistique de test:
• Elle permet de mesurer à quel point les observations s’éloignent deH0
• Sa distribution sous H0 est connue: sous H0, on a K ∼ B 6, 2 1 .
(C’est ce qu’on a utilisé, sans le dire, lors du calcul de la p-value pour ce test.)
On obtient donc:
• Hypothèses
H0: P (P ile) = 1
2 H1: P (P ile) 6= 1
2
• Echantillon
6 lancers de la pièce
K = Nombre de P ile
Rejeter H0 si K = 6 ou K = 0
Ce test s’appelle un test binomial. Dans le chapitre 11, nous verrons une autre procédure
de test que l’on peut utiliser pour ce type de données.
25
3. Intervalle de confiance
Comme mentionné plus haut, lorsqu’on mène une procédure de test statistique, on espère
souvent pouvoir rejeter l’hypothèse nulle, qui postule généralement la nullité d’un effet.
Imaginons par exemple qu’on teste un nouveau médicament contre l’hypertension en
comparant la diminution moyenne de tension artérielle dans deux groupes de patients,
les uns traités avec le nouveau médicament et les autres avec un médicament existant.
Dans cette situation on souhaite montrer que le nouveau médicament est plus efficace
que l’ancien. En notant µ1 et µ2 les diminutions moyennes dans le groupe nouveau et
le groupe ancien médicament, on aura:
H0: µ1 = µ2 et H1: µ1 6= µ2.
Si sur l’échantillon on observe µ̂1 > µ̂2 et que le test rejette H0, on conclura que le
nouveau médicament est significativement meilleur que l’ancien.
Cependant, il nous manquera encore une information importante pour pouvoir décider
d’abandonner l’ancien médicament en faveur du nouveau: à quel point le nouveau
médicament est-il meilleur? Il nous serait utile de pouvoir donner une fourchette de
valeurs plausibles de la différence de diminution entre les deux groupes, d = µ1 − µ2.
Cette information nous est fournie par l’intervalle de confiance sur le paramètre d.
26
Nous avons vu qu’un test statistique va rejeter l’hypothèse nulle si les observations ne
plaident pas en sa faveur. Dans l’exemple des poissons, l’hypothèse que la taille moyenne
est de 5cm a été rejetée par le test. Quel aurait été le résultat si on avait considéré une
autre hypothèse nulle, par exemple H0 : µ = µ0 = 6cm?
→ calcul de z, la valeur observée de la statistique de test sur l’échantillon:

x̄ − µ0 7−6
z= √ =√ √ = 1.22
σ̂/ n 20.3/ 30
Cette fois, on a |z| < 1.96 = z0.975 et on ne rejette donc pas H0. La valeur de 6cm
n’est pas mise en défaut par les observations et on peut donc la considérer comme une
valeur plausible de la vraie taille moyenne µ des poissons du lac.
Pour construire une fourchette de valeurs plausibles de µ, nous allons chercher toutes
les valeurs qui ne sont pas rejetées par le test.
27
Ces valeurs sont celles qui satisfont la relation
x̄ − µ
|z| = √ ≤ z0.975,
σ̂/ n
c’est à dire
x̄ − µ
−z0.975 ≤ √ ≤ z0.975.
σ̂/ n
En manipulant cette expression, on arrive à
σ̂ σ̂
x̄ − z0.975 √ ≤ µ ≤ x̄ + z0.975 √
n n
(v. développement à la page suivante). En conséquence, on définit l’intervalle de confiance
pour le paramètre µ comme
" #
σ̂ σ̂
IC = x̄ − z0.975 √ , x̄ + z0.975 √ .
n n
En remplaçant les symboles par les valeurs numériques, on obtient:
" √ √ #
20.3 20.3
IC = 7 − 1.96 √ , 7 + 1.96 √
30 30
= [5.39, 8.61]
28
Développement de la relation de la page précédente:
x̄ − µ
−z0.975 ≤ √ ≤ z0.975
σ̂/ n
⇐⇒
σ̂ σ̂
−z0.975 √ ≤ x̄ − µ ≤ z0.975 √
n n
⇐⇒
σ̂ σ̂
−x̄ − z0.975 √ ≤ −µ ≤ −x̄ + z0.975 √
n n
⇐⇒
σ̂ σ̂
x̄ + z0.975 √ ≥ µ ≥ x̄ − z0.975 √
n n
⇐⇒
σ̂ σ̂
x̄ − z0.975 √ ≤ µ ≤ x̄ + z0.975 √
n n
29
Dans l’exemple des poissons, on a donc obtenu
" #
σ̂ σ̂
IC = x̄ − z0.975 √ , x̄ + z0.975 √
n n
= [5.39cm, 8.61cm]
comme fourchette de valeurs plausibles de la taille moyenne des poissons du lac. On voit
que la valeur de 5cm ne fait pas partie de cette fourchette, ce qui est normal puisqu’on
a vu que l’hypothèse nulle H0 : µ = 5cm est rejetée par le test, et que la fourchette
contient toutes les valeurs NON rejetées (par exemple, elle contient la valeur 6cm).
Plus généralement, le lien entre intervalle de confiance et test statistique implique qu’un
intervalle de confiance donne le résultat du test statistique correspondant pour n’importe
quelle valeur µ0 du paramètre sous H0. En effet, si µ0 est à l’intérieur de l’IC, H0 :
µ = µ0 n’est pas rejetée; si µ0 est à l’extérieur de l’IC, H0 : µ = µ0 est rejetée.
Un IC fournit donc une idée de la précision avec laquelle un échantillon permet d’estimer
un paramètre: plus l’intervalle est étroit, plus la précision est grande. On voit que cette
précision dépend
• de la variabilité des données, estimée par σ̂: plus la variabilité est grande, plus la
précision est faible
• de la taille de l’échantillon n: plus n est grand, plus la précision est élevée 30
La largeur d’un intervalle de confiance dépend encore du degré de confiance que l’on
souhaite avoir. Dans ce qui précède, nous avons défini un intervalle de confiance en nous
basant sur un test avec un niveau de 5%. Si on avait utilisé un niveau de 1% on aurait
obtenu
" #
σ̂ σ̂
IC = x̄ − z0.995 √ , x̄ + z0.995 √ .
n n
En insérant z0.995 = 2.58 dans l’équation ci-dessus, on obtient l’intervalle
IC = [4.88cm, 9.12cm],
qui est plus large que le précédent.
Ce résultat est logique: un test au niveau 1% exige plus d’évidence qu’un test à 5% pour
donner un résultat significatif. Il est donc normal que les valeurs non rejetées (i.e. non
significatives) à 5% ne le soient pas non plus à 1%.
31
Propriété essentielle d’un intervalle de confiance
Reprenons la relation qui définit l’IC basé sur un test de niveau 5%:
σ̂ σ̂
x̄ − z0.975 √ ≤ µ ≤ x̄ + z0.975 √ .
n n
Dans cette expression, x̄ est la valeur observée de la variable aléatoire X̄. L’intervalle de
confiance que nous avons vu est donc en fait la valeur observée de l’intervalle aléatoire
" #
σ̂ σ̂
IC = X̄ − z0.975 √ , X̄ + z0.975 √ .
n n
On peut se demander quelle est la probabilité que cet intervalle contienne la vraie taille
moyenne µ. Autrement dit, que vaut
!
σ̂ σ̂
P X̄ − z0.975 √ ≤ µ ≤ X̄ + z0.975 √ ?
n n
32
En utilisant le développement de la p. 20 dans l’autre sens, on obtient

P X̄ − z0.975 √σ̂n ≤ µ ≤ X̄ + z0.975 √σ̂n

X̄−µ
= P −z0.975 ≤ σ̂/√ ≤ z0.975
n
≈ 0.95,
puisque le théorème central limite nous assure que
X̄ − µ
√ ∼ ˙ N (0, 1).
σ̂/ n
On obtient donc que la probabilité que la vraie taille moyenne µ se trouve dans cet
intervalle est de 95%.
Il faut comprendre cela de la façon suivante: si on tirait un grand nombre d’échantillons

de la population et qu’on calculait à chaque fois l’intervalle IC, alors 95% en moyenne
de ces intervalles contiendraient la vraie valeur µ inconnue.
On dit que l’intervalle IC est un intervalle de confiance de niveau de couverture 95%, ou

simplement un intervalle de confiance à 95%, pour le paramètre µ.
33
On vient de voir que le niveau de couverture d’un intervalle de confiance construit à
partir d’un test de niveau 5% est de 95%. En faisant le même raisonnement avec un IC
défini à partir d’un test à 1%, on obtient

P X̄ − z0.995 √σ̂n ≤ µ ≤ X̄ + z0.995 √σ̂n

X̄−µ
= P −z0.995 ≤ σ̂/√ ≤ z0.995
n
≈ 0.99,
et le niveau de couverture de cet IC est donc de 99%.
Ce résultat rend d’autant plus évident le fait que cet IC doit être plus large que le
précédent, puisque la probabilité qu’il contienne la vraie valeur µ est plus élevée.
De façon générale, un intervalle de confiance construit à partir d’un test de niveau α a

un niveau de converture 1 − α.
34
NB: Cette propriété de l’intervalle de confiance repose sur une approximation valable
pour des tailles d’échantillon suffisamment grandes (théorème central limite).
La taille d’échantillon à partir de laquelle l’intervalle peut-être considéré comme valide,

i.e. à partir laquelle la probabilité que l’intervalle de niveau de couverture 1−α contienne
la vraie valeur est vraiment de 1 − α, dépend de la distribution des données.
Le même problème se pose quant au niveau α du test qui a servi à définir l’IC: la
probabilité de rejeter l’hypothèse nulle lorsqu’elle est vraie vaudra α seulement si la taille
de l’échantillon est suffisamment élevée.
35
Méthode de Wald
Considérons encore l’intervalle de confiance à 95%
" #
σ̂ σ̂
IC = X̄ − z0.975 √ , X̄ + z0.975 √
n n
et remarquons (ou souvenons-nous) que sd(X̄), l’écart-type de l’estimateur X̄ est égal
à √σn , ce que l’on peut estimer par sd(
ˆ X̄) = √σ̂ .
n
On obtient alors que l’intervalle de confiance à 95% pour µ est égal à

h i
ˆ X̄) , X̄ + z0.975 sd(
IC = X̄ − z0.975 sd( ˆ X̄) .
Cette dernière formule est assez générale et s’applique à n’importe quel estimateur
asymptotiquement normal, i.e. dont la distribution s’approche de plus en plus d’une
distribution normale lorsque la taille de l’échantillon devient grande, comme c’est le
cas pour la moyenne arithmétique X̄. Comme la plupart des estimateurs utilisés en
statistique ont cette propriété, cette méthode peut presque toujours être utilisée (si la
taille de l’échantillon est suffisamment grande). Elle s’appelle la méthode de Wald, et
l’intervalle de confiance obtenu est appelé un intervalle de confiance de Wald.
36
De plus, en se souvenant que z0.975 = 1.96 ≈ 2, on obtient la formule approximative
suivante:
h i
ˆ X̄) , X̄ + 2 sd(
IC ≈ X̄ − 2 sd( ˆ X̄) .
La connaissance de la valeur approximative de z0.975 permet donc de de calculer de

tête un intervalle de confiance à 95% lorsqu’on connaı̂t l’écart-type d’un estimateur.
De façon plus générale, l’intervalle de confiance de Wald de niveau de couverture 1 − α

pour un estimateur θ̂ d’un paramètre θ est donné par

ˆ θ̂) , θ̂ + z1− α sd(
IC = θ̂ − z1− α sd( ˆ θ̂) .
2 2
37
Commentaire à propos de l’intervalle de confiance et de la
p-value
En règle générale un intervalle de confiance est plus informatif qu’une p-value. En effet,
un intervalle de confiance donne une idée de la valeur du paramètre d’intérêt, ce que ne
fournit pas la p-value. De plus, la p-value dépend beaucoup de la taille de l’échantillon.
On peut rejeter à peu près n’importe quelle hypothèse nulle en prenant un échantillon
suffisammenent grand, mais l’importance du résultat peut-être très faible au niveau
pratique.
Pour reprendre l’exemple des poissons, imaginons qu’on ait tiré un échantillon de
1’000’000 de poissons et trouvé l’estimation x̄ = 5.01 cm, avec la même variabilité
que précédemment, i.e. σ̂ 2 = 20.3 cm2. La p-value correspondante pour tester
H0 : µ = 5 cm est
!
x̄ − 5
P |Z| ≥ √ = P (|Z| ≥ 2.22) = 0.03
σ̂/ n
et on en déduit que la taille moyenne des poissons du lac est significativement supérieure
à 5 cm. A-t-on fait une importante découverte scientifique?
38
L’intervalle de confiance à 95% est ici de
" #
σ̂ σ̂
IC = x̄ − 1.96 √ , x̄ + 1.96 √ = [5.001 , 5.02].
n n
On voit donc que la différence avec 5 cm, quoique significative, est infime, et n’est
probablement d’aucun intérêt scientique.
Dans la recherche biomédicale, on a parfois tendance à accorder trop d’importance à la

p-value, sans considérer l’importance scientifique du résultat.
39
Chapitre 11: Tests et intervalles de
confiance pour proportions
1. Test statistique pour une proportion
2. Intervalle de confiance pour une proportion
3. Test statistique pour deux proportions
1
1. Test statistique pour une proportion
Ex: Taux d’individus ayant une caractéristique A dans une population.
Soit p = P (A) ce taux.
De façon générale dans ce chapitre, on utilisera la notation q = 1 − p

(de même, q̂ = 1 − p̂, etc.)
2
– Hypothèses
H0 : p = p 0 H1: p 6= p0
– Echantillon
Tirage aléatoire de n individus
– Statistique de test
K = Nombre d’individus avec A dans l’échantillon
3
Sous H0, on peut calculer la distribution de K.
Ex: H0: p = 0.4; n = 120
Distribution: K ∼ B(120, 0.4)
0.06
0.04
P(K=k)
0.02
0.00
0 20 40 60 80 100 120
k
On peut par exemple adopter la règle de décision suivante:

Règle de décision: rejeter H0 si k ≤ 37 ou si k ≥ 60
Niveau: p1 + p2 = 0.041
4
Sous H0, on peut calculer la distribution de K.
Ex: H0: p = 0.4; n = 120
Distribution: K ∼ B(120, 0.4)
0.06
0.04
P(K=k)
0.02
p1 = 0.024 p2 = 0.017
0.00
0 20 40 60 80 100 120
k
On peut par exemple adopter la règle de décision suivante:

Règle de décision: rejeter H0 si k ≤ 37 ou si k ≥ 60
Niveau: p1 + p2 = 0.041
4
Avantage de cette approche: le niveau est connu exactement, pas
d’approximation.
Désavantage: Il faut trouver les bornes “manuellement” pour chaque valeur

de n et de p0.
On appelle cette procédure un test binomial.
5
Sous certaines conditions (grâce au théorème central limite), la distribution
de K est bien approximée par la distribution normale:
0.06
0.04
P(K=k)
0.02
0.00
0 20 40 60 80 100 120
k
6
Sous certaines conditions (grâce au théorème central limite), la distribution
de K est bien approximée par la distribution normale:
0.06
0.04
P(K=k)
Densité de X ~ N(np0, np0(1 − p0))

0.02
0.00
0 20 40 60 80 100 120
k
6
A la place de K, on prend comme statistique de test:
K/n − p0
Z=q .
p0(1 − p0)/n
Sous H0, et sous les conditions d’application (v. p. suivante), Z a approximativement
une distribution N (0, 1).
→ Règle de décision pour un test au niveau α:

Rejeter H0 si |z| ≥ z1−α/2
où z est la valeur observée de Z et z1−α/2 est le quantile 1 − α/2 de la distribution

N (0, 1).
7
Conditions d’application: il faut que n soit suffisamment grand pour que
l’approximation normale soit bonne. Or, plus p est extrême (proche de 0
ou de 1), plus n doit être grand. Concrètement, si n et p sont tels que
np > 5 et n(1 − p) > 5,
alors
K/n − p
q
p(1 − p)/n
a approximativement une distribution N (0, 1).
Nous avons déjà rencontré ces conditions dans le chapitre 9.
8
2. Intervalle de confiance pour une proportion
Rappel: un intervalle de confiance contient toutes les valeurs du paramètre

d’intérêt qui ne seraient pas rejetées par un test.
Ici, ce sont les valeurs de p telles que

|k/n − p|
|z| = q ≤ z1−α/2, (1)
p(1 − p)/n
où k est la valeur observée de K dans l’échantillon.
9
La relation (1) est satisfaite pour des valeurs de p situées entre
1
r !
pi = p̂ + c/2 − c2/4 + cp̂(1 − p̂)
1+c
et
1
r !
ps = p̂ + c/2 + c2/4 + cp̂(1 − p̂) ,
1+c
où
2
c = z1−α/2 /n et p̂ = k/n.
Cet intervalle s’appelle l’intervalle de Wilson, que l’on notera ICW I . On

a donc
ICW I = [pi, ps].
10
Au chapitre précédent, nous avons vu une méthode générale pour construire des
intervalles de confiance pour un paramètre θ, appelée la méthode de Wald. Elle se base
sur la valeur observée θ̂ de l’estimateur du paramètre et définit l’intervalle avec niveau
de couverture 1 − α comme
ˆ θ̂) , θ̂ + z1− α sd(
[θ̂ − z1− α sd( ˆ θ̂)],
2 2
ˆ θ̂) est une estimation de l’écart-type de θ̂.
où sd(
Dans le cas où le paramètre est une proportion p, on a:

• Estimateur de p: p̂ = K n , la proportion observée dans l’échantillon.
ˆ
Que vaut sd(p̂)? → On sait que K, le nombre de personnes avec la caractéristique
d’intérêt (“succès”) dans l’échantillon, suit une distribution binomiale B(n, p). Son écart
√
type est donc sd(K) = npq. On en déduit (propriété de l’écart-type) que sd(p̂) =
q
pq/n, que l’on estime par q
ˆ
sd(p̂) = p̂q̂/n.
On obtient donc que l’intervale de confiance de Wald pour une proportion, noté ICW A
est donné par q q
ICW A = p̂ − z1− α p̂q̂/n , p̂ + z1− α p̂q̂/n .
2 2
11
L’intervalle de Wald est plus simple mais moins précis que l’intervalle de
Wilson, qui fait moins d’approximations. Concrètemement, on ne l’utilisera
que lorsque
• 0.3 ≤ p̂ ≤ 0.7 et
• n ≥ 50.
Pour l’intervalle de Wald, il peut arriver que la formule de la page
précédente donne une valeur inférieure à 0 pour la borne inférieure ou
une valeur supérieure à 1 pour la borne supérieure. Il faut alors corriger
l’intervalle en mettant respectivement 0 ou 1 à la place de la borne qui
sort de l’intervalle [0,1]. L’intervalle de Wilson n’a pas ce problème, ses
bornes étant automatiquement comprises entre 0 et 1.
12
3. Test statistique pour deux proportions
Ex: Taux p1 et p2 d’individus ayant une caractéristique A dans deux

populations différentes.
On se demande si les proportions d’individus ayant la caractéristique

d’intérêt sont les mêmes dans les deux populations ou si elles sont
différentes.
13
– Hypothèses
H0 : p 1 = p 2 H1: p1 6= p2
– Echantillon
Tirage aléatoire de n1 individus dans la première

population et n2 dans la deuxième
– Statistique de test
Sous H0 et si n1 et n2 sont suffisamment grands, la variable
K1/n1 − K2/n2
Z= q
pq/n1 + pq/n2
a approximativement une distribution N (0, 1).

Ici K1 est le nb d’individus avec A dans le premier échantillon et
analoguement pour K2, et p = p1 = p2.
14
Pour effectuer le test, on calcule la valeur observée de Z sur nos échantillons:
pˆ1 − pˆ2
z=q
p̂q̂(1/n1 + 1/n2)
où
pˆ1 = k1/n1, pˆ2 = k2/n2
et
p̂ = (k1 + k2)/(n1 + n2)
Règle de décision:
Rejeter H0 si |z| > z1−α/2 .
15
Les données peuvent être présentées de la façon suivante:
Caractère A
Echantillon Présent Absent Total
1 n11 n12 n1.
2 n21 n22 n2.
Total n.1 n.2 n
On peut démontrer que
2 n(n11n22 − n12n21)2
z =
n1.n2.n.1n.2
Règle de décision équivalente:

Rejeter H0 si z 2 > χ2 1,1−α , où χ 2
1,1−α est le quantile 1 − α de la distribution χ 2 à
2
un degré de liberté, notée χ1.
(En effet, on rappelle que, par définition de la distribution χ2 , si Z ∼ N (0, 1), alors Z 2 ∼ χ21 .)
16
Au niveau des statistiques de test, on a la situation suivante:
Densité de Z sous H0:
P0(|Z|>z1−α2) = α
ϕ
− z1−α2 0 z1−α2
Densité de Z 2 sous H0:

densité χ21
P0(Z2>χ21,1−α) = α
0 (z1− )2 = χ21,1−α
α
2
17
Exemple: On veut tester si la proportion de nouveaux nés dont le poids à
la naissance est inférieur à 2500g est différente dans les deux populations
suivantes:
– Age de la mère ≤ 20 ans
– Age de la mère > 20 ans
On prélève deux échantillons de taille 100 et on obtient la situation
suivante:
Poids à la naissance
Age Proportion de faibles
maternel ≤ 2500g > 2500g Total poids à la naissance
≤ 20 20 80 100 0.20 (= p̂1)
> 20 10 90 100 0.10 (= p̂2)
Total 30 170 200 0.15 (= p̂)
18
Calculs:
pˆ1 − pˆ2
z = q
p̂q̂(1/n1 + 1/n2)
0.2 − 0.1
= q
0.15 × 0.85 × (1/100 + 1/100)
= 1.98
n(n n − n n ) 2
11 22 12 21
z2 =
n1.n2.n.1n.2
200 × (20 × 90 − 10 × 80)2
=
(100 × 100 × 30 × 170)
= 3.92
On a bien 1.982 = 3.92.
19
Décision:
z > 1.96 = z0.975 et donc on rejette H0.
De façon équivalente:
z 2 > 3.84 = χ2
1,0.95 et donc on rejette H0.
On vient de tester l’hypothèse d’indépendance entre les variables “poids à

la naissance inférieur à 2500g” et “âge de la mère inférieur à 20 ans”. En
effet, demander si la proprotion de bébés dont le poids à la naissance est
inférieur à 2500g diffère entre les populations des mères de moins et de
plus de 20 ans revient à demander s’il y a une dépendance entre ces deux
variables. Si les proportions diffèrent cela implique que le fait de connaı̂tre
l’âge de la mère donne une information sur le poids du bébé, ce qui est le
propre d’une dépendance entre deux variables.
20
De façon générale, on pourra donc tester l’indépendance entre deux variables
dichotomiques (i.e. qui n’ont que deux modalités) de la façon ci-dessus. Souvent,
ces variables indiquent la présence ou l’absence d’un caractère (ex.: âge ≤ 20 ans),
et on parle alors de test sur l’indépendance de deux caractères. Donc, pour tester
l’indépendance entre deux caractères A et B, on pose
H0 : A et B indépendants H1 : A et B pas indépendants
et on construit le tableau suivant:
B présent B absent Total

A présent n11 n12 n1.
A absent n21 n22 n2.
Total n.1 n.2 n
On calcule ensuite la valeur observée de la statistique de test Z 2:
2 n(n11n22 − n12n21)2
z = .
n1.n2.n.1n.2
On rejette alors H0 si z 2 > χ2 2

1,1−α , où χ1,1−α est le quantile 1−α de la distribution
χ2 à un degré de liberté.
21
Pour information:
Souvent, lorsqu’on s’intéresse à la dépendance entre deux caractères, il y a un caractère,
appelé facteur antédédant ou facteur de risque qui cause potentiellement l’autre (par
exemple une maladie). Par exemple, le facteur antécédent fumer cause potentiellement
le caractère cancer du poumon. Il y a alors trois types d’études qui se distinguent par
leur mode d’échantillonnage:
• Etude prospective: On prélève des échantillons de tailles fixées dans les populations
avec et sans le facteur de risque, et on observe ensuite quels individus développent la
maladie.
• Etude rétrospective: On prélève des échantillons de tailles fixées dans les
populations avec et sans la maladie et on regarde quels individus ont le facteur de
risque.
• Etude transversale: On prélève un seul échantillon dans la population globale et
on détermine quels individus ont (ou développent) la maladie et quels individus ont le
facteur de risque.
Suivant la situation, on choisira le type d’étude le plus approprié (ou le plus réalisable).
Par exemple, dans le cas d’une maladie rare, une étude rétrospective est généralement
plus puissante, car avec les deux autres types on obtiendrait très peu d’individus avec la
maladie.
Dans les trois cas, on pourra utiliser la méthode ci-dessus pour tester l’indépendance.
22
Chapitre 12: Tests et intervalles de
confiance pour moyennes
1. Test statistique pour une moyenne
2. Intervalle de confiance pour une moyenne
3. Tests statistiques pour deux moyennes
4. Intervalle de confiance pour une différence de moyennes
1
Dans ce chapitre, nous allons considérer des variables quantitatives
continues et nous intéresser à leur moyenne.
1. Test statistique pour une moyenne
Ex: Taille moyenne des individus d’une population
Soit µ cette moyenne.
2
• Hypothèses
H 0 : µ = µ0 H1: µ 6= µ0
• Echantillon
Tirage aléatoire de n individus. On observe les n variables aléatoires X1, . . . , Xn.
Différence standardisée entre la moyenne des observations et µ0:

X̄ − µ0
T = √ .
S/ n
où
v
n u n (X − X̄)2
uP
1 X i
X̄ = Xi et S = t i=1
n i=1 n−1
Attention: dans ce chapitre, S et s désignent l’écart-type dans sa version avec n − 1
au dénominateur (et non n comme au chapitre 3).
3
Sous H0 et sous les conditions d’application que les Xi sont indépendants et que
Xi ∼ N (µ, σ 2), i = 1, . . . n,
on peut montrer que T a une distribution t à n − 1 degrés de liberté, notée tn−1 .
Rappel: la distribution t est une famille de distributions dépendant d’un paramètre appelé
le nombre de degrés de liberté. comme le motre la figure ci-dessous, plus le nombre de
degrés de liberté est élevé, plus la distribution t s’approche de la distribution normale
standard.
Distribution t
0.4
t1
t2
t5
0.3
t10
t20
t30
densité
N(0,1)
0.2
0.1
0.0
−4 −2 0 2 4
t
4
Remarques:
→ Ce test est dit exact, car sous H0 et les conditions d’application la distribution de
la statistique de test est connue exactement et non approximativement comme dans les
chapitres précédents.
→ La différence avec la statistique de test que nous avons utilisée dans le chapitre 10 pour
les poissons du lac est que la variance est estimée en utilisant n − 1 au dénominateur
et non n.
→ Comme le nombre de degrés de liberté est égal à n − 1, on voit que pour des grandes
tailles d’échantillon la procédure de test décrite ici devient équivalente à celle du chapitre
10, où on utilisait la normale standard.
Concrètement, le test est mené de la façon habituelle, mais le domaine de rejet de H0

n’est plus défini à l’aide du quantile de la normale standard z1−α/2 mais avec celui de
la loi t à n − 1 degrés de liberté, noté tn−1 , 1−α/2 .
• Règle de décision (pour un test de niveau α):
Rejeter H0 si |t| > tn−1 , 1−α/2 ,
où tn−1 , 1−α/2 est le quantile 1 − α/2 de la distribution t à n − 1 degrés de liberté
et t est la valeur observée de T .
Ce test s’appelle le test de Student ou t-test pour une seule moyenne.
5
2. Intervalle de confiance pour une moyenne
Comme précédemment, on définit une fourchette de valeurs plausibles de la vraie moyenne
µ dans la population en déterminant toutes les valeurs qui ne sont pas rejetées par le
test. Ce sont les valeurs pour lesquelles
x̄ − µ
√ ≤ tn−1,1−α/2 ,
s/ n
ce qui est équivalent à
√ √
x̄ − tn−1 , 1−α/2 s/ n < µ < x̄ + tn−1 , 1−α/2 s/ n .
| {z } | {z }
binf bsup
On définit donc l’intervalle de confiance comme
IC = [binf , bsup].
6
Et comme précédemment, on obtient le résultat suivant pour la probabilité que l’intervalle
de confiance contienne la vraie moyenne µ:
Comme
X̄ − µ
T = √ ∼ tn−1 ,
S/ n
on a que
!
X̄ − µ
P −tn−1 , 1−α/2 < √ < tn−1 , 1−α/2 = 1 − α,
S/ n
 
 √ √ 
P X̄ − tn−1 , 1−α/2 S/ n < µ < X̄ + tn−1 , 1−α/2 S/ n = 1 − α
 
| {z } | {z }
Binf Bsup
Et donc

P Binf < µ < Bsup = 1 − α :
la probabilité que l’intervalle de confiance contienne le vrai paramètre est de 1 − α.
7
Au chapitre 10, nous avons vu que l’intervalle de confiance basé sur la statistique de test
X̄ − µ0
Z = rP
n
i=1 (Xi −X̄)
2 √
n / n
avec la règle de rejeter H0 si
|z| > z1−α/2
avait un coefficient de couverture inférieur à 1 − α, même dans le cas où les données
ont une distribution normale.
En remplaçant les quantiles de N (0, 1) par ceux de la loi t à n − 1 degrés de liberté,

on corrige ce défaut en élargissant un peu l’intervalle de confiance. En effet, comme les
distributions t sont un peu plus écartées que la distribution N (0, 1), on aura toujours
tn−1 , 1−α/2 > z1−α/2 , ∀n.
8
La différence de largeur entre les IC normal et Student a pour base le fait que σ, l’écart
type des données, n’est pas connu et doit être estimé, ce qui représente une source de
variabilité supplémentaire. L’IC normal n’en tient pas compte (il serait exact si σ était
connu), alors que l’IC Student en tient compte.
Rappelons encore que le test de Student est exact si les données ont une distribution
normale. En pratique il convient donc de s’assurer que le modèle normal est approprié
pour décrire les données, par exemple au moyen d’un qq-plot.
9
Exemple: On se demande si la masse cérébrale moyenne µ dans une population donnée
est égale à la valeur moyenne pour l’humanité qui est de 1.5kg. On a mesuré la masse
cérébrale de 10 individus et obtenu les valeurs suivantes xi (en kg):
0.77 1.00 1.07 1.20 1.33 1.37 1.45 1.49 1.61 1.82
Le qq-plot indique que le modèle normal n’est pas trop mis en défaut:
Normal Q−Q Plot
●
1.8
1.6
●
Sample Quantiles
●
1.4
●
●
1.2
●
1.0
●
0.8
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

Theoretical Quantiles
10
On Procède donc au test:
• Hypothèses:
H0: µ = µ0 = 1.5kg H1: µ 6= µ0
• Calcul de la statistique de test:
x̄ − µ0
t= √ .
s/ n
Avec
v
u n (x − x̄)2
uP
i
x̄ = 1.311, et s = t i=1 = 0.310,
n−1
on trouve
t = −1.930.
• Décision (pour un test au niveau 5%):
Comme |t| < tn−1,0.975 = 2.262, on ne rejette pas H0.
11
Pour avoir une idée de la précision avec laquelle on a estimé le poids moyen du cerveau
dans notre population, on construit un intervalle de confiance à 95%:
√ √
IC = [x̄ − tn−1 , 0.975 s/ n , x̄ + tn−1 , 0.975 s/ n]
= [1.09kg , 1.53kg],
et on constate que, conformément au résultat du test, la valeur de 1.5kg fait partie de
l’intervalle de confiance.
12
3. Tests statistiques pour deux moyennes
Deux situations distinctes:

– Les données sont observées par paires. Il y a deux mesures par unité
d’observation. On parle dans ce cas de données appariées.
Exemple: On mesure une caractéristique deux fois sur chaque patient
d’un échantillon; une fois avant un traitement et une fois après. La
première et la deuxième observation ne sont pas indépendantes.
– Les observations proviennent de deux populations différentes et sont
indépendantes. On parle alors de données non appariées.
Exemple: Poids moyens dans un échantillon de femmes et un échantillon
d’hommes. Les échantillons n’ont pas forcément la même taille.
13
t-test pour données appariées
Soient X1, . . . , Xn et Y1, . . . , Yn les variables qui représentent les deux
séries de mesures, X1 allant de paire avec Y1, etc.
On calcule les différences
Di = Yi − Xi
et on teste
H0 : E(Di) = 0 contre H1 : E(Di) 6= 0
en se basant sur la condition d’application que
Di ∼ N (µ, σ 2), i = 1, . . . , n.
On utilise pour cela le t-test pour une seule moyenne du paragraphe

précédent.
14
t-test pour données non appariées
Soient X1, . . . , Xm et Y1, . . . , Yn les variables qui représentent les deux séries de
mesures.
Conditions d’application:
Xi ∼ N (µ1, σ 2), Yj ∼ N (µ2, σ 2), i = 1, . . . , m, j = 1, . . . , n.

avec Xi et Yj indépendantes ∀i = 1, . . . , m, j = 1, . . . , n.
Nous avons donc supposé que les deux séries de mesures proviennent de populations qui
ont la même variance σ 2.
• Hypothèses
H 0 : µ1 = µ2 H1: µ1 6= µ2
• Echantillons
Tirage aléatoire de m individus dans la première et n individus dans la deuxième
population.
15
Différence standardisée entre les moyennes des échantillons:
D
T = , où
SD
v
2 2
s
t (m − 1)Sx + (n − 1)Sy
u
1 1u
D = X̄ − Ȳ et SD = + ,
m n (m − 1) + (n − 1)
avec comme d’habitude
v
m u m (X − X̄)2
uP
1 X i
X̄ = Xi et Sx = t i=1
m i=1 m−1
et de même pour Y .
Sous H0 et les conditions d’application, on peut montrer que
T ∼ tm+n−2 ,
c’est-à-dire que T a une distribution t à m + n − 2 degrés de liberté.
16
• Règle de décision (pour un test de niveau α):
Rejeter H0 si |t| > tm+n−2 , 1−α/2 ,
où tm+n−2 , 1−α/2 est le quantile 1 − α/2 de la distribution t à m + n − 2 degrés
de liberté et t est la valeur observée de la statistique de test.
Lorsqu’on rejette H0, on dit que la différence de moyennes est significativement différente
de zéro, ou simplement que la différence de moyennes est significative.
17
4.Intervalle de confiance pour une différence de
moyennes
Soit Dpop = µ1 − µ2 la vraie différence entre les moyennes des
populations. Ci-dessus, On a testé H0: Dpop = 0. Pour construire un
intervalle de confiance, on teste d’autres valeurs de Dpop et on garde
toutes celles qui ne sont pas rejetées. On peut montrer que:
D − Dpop
T = ∼ tm+n−2 .
SD
On a donc que
 
−t
D − Dpop
P m+n−2 , 1−α/2
< < tm+n−2 , 1−α/2  = 1 − α,
SD

P D − tm+n−2 , 1−α/2 SD < Dpop < D + tm+n−2 , 1−α/2 SD = 1 − α
18
Exemple: Déficit alimentaire et myopie.
Reprenons encore une fois les données de réfraction occulaire de singes rencontrées dans
le chapitre 1 et différentes séries d’exercice. Rappel: on se demande si le déficit alimentaire
protéique est associé à la myopie. Dans une étude publiée par Young, Leary, Zimmerman
et Strobel (1973), les chercheurs ont nourri un groupe de singes avec une diète à faible
contenu protéique et un autre groupe avec une diète à haut contenu protéique. Au bout
de plusieurs mois, ils ont mesuré la réfraction oculaire des singes. Voici un sous-ensemble
des données obtenues:
Niveau protéique faible (xi):

1.27 -4.98 -0.50 1.25 -0.25 0.75 -2.75 0.75 1.00 3.00
2.25 0.53 1.25 -1.50 -5.00 0.75 1.50 0.50 1.75 1.50
Niveau protéique élevé (yi):

-6.00 0.25 1.25 -2.00 3.14 2.00 0.75 1.75 0.00 0.75
0.75 0.25 1.25 1.25 1.00 0.50 -2.25
19
Les écarts types observés sont:
v
u Pn 2
x
t i=1(xi − x̄)
u
sx = = 2.165,
nx − 1
v
u Pny
u
i=1 (yi − ȳ)2
sy = t = 2.069,
ny − 1
ils ne sont donc pas trop différents. Voyons les qq-plots:
Niveau protéique faible Niveau protéique élevé
● ●
●
●
2
2
● ●
●● ●● ●
●● ●
Sample Quantiles
Sample Quantiles
● ●
●●● ●●●
●
●● ●●
●
0
0
●
●
−2
● ●
●
−2
−4
−4
−6
● ● ●
−2 −1 0 1 2 −2 −1 0 1 2
Theoretical Quantiles Theoretical Quantiles
Le modèle normal n’est pas tout à fait adéquat pour décrire ces données, même si
la plupart des observations sont alignées sur une droite. En utilisant une méthode de
génération numérique de données, on a cependant pu s’assurer que le niveau réel d’un
t-test à 5% avec des données distribuées de la sorte était proche de 0.05, de sorte que
l’on décide d’appliquer cette procédure à nos données.
20
On Procède donc au test:
• Hypothèses:
H0: µx = µy H1: µx 6= µy ,
où µx et µy sont les vraies réfractions occulaires moyennes dans les deux populations
de singes.
• Calcul de la statistique de test:
d
t= .
sD
Avec
d = x̄ − ȳ = −0.119,
v
(nx − 1)s2 2
s
x + (ny − 1)sy
u
1 1u
sD = + t = 0.700,
nx ny (nx − 1) + (ny − 1)
on trouve
t = −0.171.
• Décision (pour un test au niveau 5%):
Comme |t| < tnx+ny −2 , 0.975 = 2.030, on ne rejette pas H0.
21
Pour avoir une idée de la précision avec laquelle on a estimé la différence entre les
réfractions occulaires moyennes des deux populations, on construit un intervalle de
confiance à 95%:
IC = [d − tm+n−2 , 0.975 sD , d + tm+n−2 , 0.975 sD ]

= [−1.540 , 1.301],
et on constate que, conformément au résultat du test, la valeur de 0 fait partie de
l’intervalle de confiance.
22

Support Cours Biostatistique USTA

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Support Cours Biostatistique USTA

Transféré par

Droits d'auteur :

Formats disponibles

STATISTIQUE POUR

Le cours permet néanmoins de résoudre certains problèmes simples. En guise

Effet de la conservation sur des échantillons de sang

Question: est-ce que la concentration de triglycérides change si un échantillon de sang

Avant le stockage: 74 80 75 136 104 102 177 88 85 267

Moyenne des différences: 1.17 mg/100ml

Lors de l’application d’un test de dépistage d’une maladie, il peut arriver

En général, on quantifie en fait la probabilité d’un résultat correct.

Niveau protéique faible:

Niveau protéique élevé:

La myopie est caractérisée par une réfraction oculaire négative.

Attaque Pas d’attaque Total

→ Comment mesurer l’effet du traitement?

2. Distribution d’une variable qualitative

3. Distribution d’une variable quantitative

Population: Ensemble des étudiant(e)s de 1ère année à l’UNIL en 1981

On a tiré un échantillon de taille n = 45.

Exemple: distribution de fréquence de la variable couleur des yeux.

Nous allons distinguer trois cas:

1. Le nombre d’observations est petit (n < 20)

2. Le nombre d’observations différentes est petit

3. Le nombre d’observations est grand avec beaucoup d’observations

2. Le nombre d’observations différentes est petit

155 160 165 170 175 180 185 190

Dans ce cas on regroupe les données en classes de largeurs égales. On construit un

En règle générale, le nombre classes est compris entre 5 et 20.

Le graphique obtenu s’appelle un histogramme.

Une fonction de distribution cu-

mulative commence toujours à 0

Fn(180) − Fn(165) = 0.53

Elle est toujours croissante.

160 165 170 175 180 185 190

La forme de la fonction de distribution cumulative est en général moins facile à interpréter

1. Principales caractéristiques d’une distribution

155 160 165 170 175

m(T ) = (168 + 157 + 167 + 168 + 163 + 167 + 166 + 164 +

2. Durées de séjour dans un hôpital [jours]: 7, 12, 14, 7, 34, 8, 8, 9, 6, 7

m(D) = (7 + 12 + 14 + 7 + 34 + 8 + 8 + 9 + 6 + 7)/10 = 11.2 La

La médiane de X, notée med(X), est alors définie par

1. Tailles des filles dans l’ordre croissant [cm]:

n = 15 est impair et donc med(T ) = th n+1 i = t[8] = 165

155 160 165 170 175

2. Durées de séjour dans un hôpital dans l’ordre croissant [jours]:

4. En général, med(X + Y ) 6= med(X) + med(Y )

5. En général, med(XY ) 6= med(X)med(Y )

→ Cela dépend de ce que l’on veut mesurer.

→ Pour un habitant, il est plus intéressant de connaı̂tre la médiane: elle permet de se

Exemple: Tailles (simulées) de 30 hommes:

165 170 175 180 185 190 195

Exemple: Tailles (simulées) de 30 hommes:

Le plus grand homme

165 170 175 180 185 190 195

155 160 165 170 175 180 185 190

Pour définir les quantiles, on se sert de la fonction de distribution cumulative:

160 165 q0.75(T) = 167 170

Les quantiles sont obtenus en inversant la fonction de distribution cumulative.

160 165 q0.8(T) = 167.5 170

Lorsqu’on tombe sur un plateau, on prend la moyenne des valeurs extrêmes

L’écart-type s(X) est défini comme la racine carrée de la variance:

Remarque: On trouve aussi dans certains ouvrages la définition alternative suivante de

Soit X une variable. La variable Z définie comme

En appliquant les propriétés de la moyenne et de la variance, on obtient que

mad(X) = med(|X − med(X)|).

Iq (X) = q0.75(X) − q0.25(X).