Vous êtes sur la page 1sur 289

STATISTIQUE POUR

PHARMACIEN-NE-S

1
Chapitre 1: Introduction
1. Plan du cours

2. Matériel

3. Objectifs

4. Exemples
• Effet de la conservation sur des échantillons de sang
• Propriétés d’un test diagnostique
• Déficit alimentaire et myopie
• Etude expérimentale sur le risque d’attaque cardiaque après
administration d’aspirine

2
1. Plan du cours
Le cours est composé de 30 périodes de cours et de 24 périodes d’exercices.
Cours
Menu:
1. Introduction
2. Descriptions graphiques de distributions
3. Descriptions numériques de distributions
4. Description de la relation entre deux variables
5. Probabilités
6. Variables aléatoires
7. Modèles de distributions fréquents
8. Inférence, échantillonnage et estimation
9. Distribution d’un estimateur
10. Introduction aux tests statistiques
11. Tests et intervalles de confiance pour proportions
12. Tests et intervalles de confiance pour moyennes 3
Exercices
• Une série d’exercices par chapitre
• Les problèmes proposés sont similaires aux problèmes qui vous seront posés à
l’examen.
• Parfois je ferai quelques rappels et donnerai des instructions lors des s éances
d’exercices.
• En règle générale les étudiant(e)s qui participent aux séances d’exercices s’en
sortent mieux à l’examen.

4
2. Matériel
• Transparents: un jeu par chapitre
• Exercices et solutions
• Tables de distributions
• Exemples d’examens
• Polycopié du Prof. Marazzi

Matière d’examen
La matière d’examen est composée des transparents et des exercices et solutions.

5
3. Objectifs
On peut définir la statistique comme l’ensemble des méthodes qui ont pour objet la
collecte, le traitement et l’interprétation de données d’observation relatives à un groupe
d’individus ou d’unités.
Ce cours présente une introduction aux techniques statistiques, que l’on peut répartir
dans deux catégories:
• La statistique descriptive: Techniques permettant d’explorer des données et de les
représenter graphiquement, afin de repérer des structures, des tendances.
→ Chapitres 2 à 4
• La statistique inférentielle: Techniques permettant de tester si une structure
observée dans un échantillon pourrait être le simple fait du hasard, ou si elle
correspond à un phénomène réel.
→ Chapitres 8 à 12
Les chapitres 5 à 7 présentent les outils de calcul de probabilités nécessaires à l’inférence.
Les chapitres les plus importants sont les chapitres 10-12 (tests statistiques).

6
Buts de ce cours d’introduction:
• Se familiariser avec les notions et outils statistiques les plus courants
• Comprendre les principes et le mécanisme de l’inférence statistique
Le but n’est pas d’être capable de mener soi-même des analyses complexes mais de
pouvoir comprendre et interpréter correctement des résultats qu’on vous présenterait ou
que vous liriez. Celles et ceux qui feront de la recherche devront suivre un cours plus
avancé.
→ Le cours ne présente pas de logiciel statistique
→ Les exercices sont de type “papier-crayon”

Le cours permet néanmoins de résoudre certains problèmes simples. En guise


d’introduction, les transparents qui suivent présentent quelques exemples de problèmes
statistiques dans les sciences biomédicales, que vous serez capables de résoudre à la fin
de ce cours.

7
4. Exemples

Effet de la conservation sur des échantillons de sang

Les triglycérides sont des lipides associés au transport de certaines protéines dans le
sang. Une concentration trop élevée de triglycérides dans le sang augmente les risques
de souffrir de maladies cardiovasculaires.

Question: est-ce que la concentration de triglycérides change si un échantillon de sang


est conservé pendant un certain temps?

Dans une étude menée par Wood (1973), les échantillons de 30 sujets ont été analysés
immédiatement après la prise de sang et 8 mois après.

On appelle ce type de données des données appariées, car elles vont par paires.

8
Les données obtenues sont les suivantes (en mg/100 ml):

Avant le stockage: 74 80 75 136 104 102 177 88 85 267


Après 8 mois: 66 85 71 132 103 103 185 96 76 273
Différence: -8 5 -4 -4 -1 1 8 8 -9 6
Avant le stockage: 71 174 126 72 301 99 97 71 83 79
Après 8 mois: 73 172 133 69 302 106 94 67 81 74
Différence: 2 -2 7 -3 1 7 -3 -4 -2 -5
Avant le stockage: 124 42 145 131 228 115 83 211 169 84
Après 8 mois: 129 48 148 127 227 129 81 212 182 84
Différence: 5 6 3 -4 -1 14 -2 1 13 0

Moyenne des différences: 1.17 mg/100ml


→ Dans notre échantillon de 30 sujets, la concentration de triglycérides a augmenté en
moyenne de 1.17 mg/100ml après un stockage de 8 mois.
→ Cette augmentation pourrait-elle être le simple fait du hasard, ou
correspond-elle à un effet réel de la conservation?
→ La statistique permet de répondre à cette question.
9
Propriétés d’un test diagnostique

Lors de l’application d’un test de dépistage d’une maladie, il peut arriver


que le résultat soit erroné, par exemple que le test soit positif alors que le
patient n’est pas atteint de la maladie.
Lors de l’élaboration d’un nouveau test, il convient de quantifier la
probabilité d’erreur. Pour cela on applique le test à un échantillon de
patients, puis on détermine pour chaque patient s’il est atteint ou non de
la maladie à l’aide d’un test de référence (appelé gold standard) dont le
résultat est considéré comme sûr. On obtient alors des données du type
suivant:

10
Atteints Non atteints Total
Test positif 215 16 231
Test négatif 15 114 129
Total 230 130 360

En général, on quantifie en fait la probabilité d’un résultat correct.


→ Quelle est la probabilité que le test soit positif si on l’applique à un patient atteint
(appelée sensibilité du test)?
→ Quelle est la probabilité que le test soit négatif si on l’applique à un patient non
atteint (appelée spécificité du test)?
→ Quelle est la probabilité qu’un patient soit atteint si son test est positif (appelée
valeur prédictive positive du test)?
→ Quelle est la probabilité qu’un patient soit non atteint si son test est négatif
(appelée valeur prédictive négative du test)?
→ Avec quelle précision peut-on estimer les quantités ci-dessus à l’aide des données
récoltées?

11
Déficit alimentaire et myopie
Question: Le déficit alimentaire protéique est-il associé à la myopie?

Dans une étude publiée par Young, Leary, Zimmerman et Strobel (1973), les chercheurs
ont nourri un groupe de singes avec une diète à faible contenu protéique et un autre
groupe avec une diète à haut contenu protéique. Au bout de plusieurs mois, ils ont
mesuré la réfraction oculaire des singes. Voici un sous-ensemble des données obtenues:

Niveau protéique faible:


1.27 -4.98 -0.50 1.25 -0.25 0.75 -2.75 0.75 1.00 3.00
2.25 0.53 1.25 -1.50 -5.00 0.75 1.50 0.50 1.75 1.50

Niveau protéique élevé:


-6.00 0.25 1.25 -2.00 3.14 2.00 0.75 1.75 0.00 0.75
0.75 0.25 1.25 1.25 1.00 0.50 -2.25

La myopie est caractérisée par une réfraction oculaire négative.


→ Ces mesures soutiennent-elles l’hypothèse que le déficit alimentaire protéique est
associé à la myopie?
→ Ce problème sera traité dans différentes séries d’exercices. 12
Etude expérimentale sur le risque d’attaque car-
diaque après administration d’apirine
Dans une étude publiée en 1987 (Hennekens et al.) portant sur un échantillon de 22071
personnes, les auteurs ont attribué, au hasard, un traitement à l’aspirine à la moitié des
participants et un placebo à l’autre moitié (ce processus s’appelle la randomisation).
Ils ont ensuite observé les participants pendant une certaine période et ont obtenu les
résultats suivants:

Attaque Pas d’attaque Total


Traitement 104 10933 11037
Placebo 189 10845 11034
Total 293 21778 22071

→ Comment mesurer l’effet du traitement?


→ Différence de risque d’attaque: P (Attaque|P lacebo)−P (Attaque|T raitement) =
189/11034 − 104/11037 = 0.0077 = 0.77%
→ Rapport des risques d’attaque: P (Attaque|T raitement)/P (Attaque|P lacebo) =
104/11037
189/11034
= 0.55
→ Cette diminution observée du risque d’attaque pourrait-elle être le simple fait du
hasard, ou correspond-elle à un effet réel de l’aspirine?
13
Références
— Wood, P. D., 1973, Unpublished.
— Young, F.A., Leary, G.A., Zimmerman, R.R. et al., 1973, Diet
and refractive characteristics. American Journal of Optometry and
Physiological Optics, 50(3):226-233
— Hennekens, C.H., Peto, R., Hutchinson, G.B., Doll, R, 1988, An
overview of the British and American Aspirin Studies. New England
Journal of Medicine, 318(14):923-924

14
Chapitre 2: Descriptions graphiques
de distributions

1. Terminologie et notations

2. Distribution d’une variable qualitative

3. Distribution d’une variable quantitative

1
1. Terminologie et notations
La statistique s’intéresse à des populations. Le terme population est à comprendre dans
un sens élargi. Exemples de populations:
• Les habitants d’une ville, d’une région, d’un pays
• Les voitures qui circulent dans un pays
• L’ensemble des séjours hospitaliers pendant une année dans un hôpital
• L’ensemble des jets possibles d’une pièce de monnaie
Les éléments d’une population sont appelés des unités d’observation. Ils peuvent être de
différentes natures. Dans les exemples ci-dessus, on trouve les types suivants:
• Des personnes
• Des objets (voitures)
• Des unités abstraites (séjours hospitaliers, jets d’une pièce de monnaie)

2
Les unités d’observation possèdent des caractéristiques:
• Habitants: âge, nombre d’enfants, sexe, état de santé
• Voitures: couleur, kilométrage, nombre de roues
• Séjours hospitaliers: durée en jours, spécialité, coût
• Jets d’une pièce: côté (pile ou face), bruit

Ces caractéristiques sont appelées des variables (car leur valeur varie d’une
unité d’observation à l’autre). Les valeurs possibles d’une variable sont
appelées ses modalités.

3
On distingue plusieurs types de variables:
• variable quantitative: les modalités sont des nombres qui expriment des quantités.
→ variable quantitative continue: les modalités sont des nombres réels, elles ne
sont pas dénombrables (ex.: poids, taille)
→ variable quantitative discrète: les modalités sont dénombrables: nombres
entiers, demi-entiers, etc (ex.: durées de déjours hostpitaliers en jours ou en
demi-journées, nombre de frères et soeurs)
• variable qualitative: les modalités ne sont pas des quantités numériques
→ variable qualitative catégorielle: les modalités sont des qualités (ex.: couleur
des yeux, lieu de naissance)
→ variable qualitative ordinale: les modalités sont des qualités pouvant être
ordonnées (ex.: qualité d’un film, état de santé (bon, moyen, mauvais))

4
En général, la population est trop grande pour qu’on puisse l’observer en entier, et on
devra alors tirer un échantillon. On adopera alors les notations suivantes:
• n pour la taille de l’échantillon
• Lettres majuscules pour les variables. Ex.: A pour l’âge, C pour la couleur des
yeux.
• Lettres minuscules pour les valeurs observées des variables dans l’échantillon.
Certaines de ces valeurs peuvent être égales. Ex.: c1, c2, ..., cn pour les couleurs
des yeux des n individus de l’échantillon.
• Attention: on utilise la même notation pour désigner les modalités d’une
variable. Toutes les modalités sont différentes. Ex.: c1 = brun, c2 = bleu, c3 =
vert, c4 = noir, c5 = gris.

5
Exemple: étudiant(e)s de 1ère année

Population: Ensemble des étudiant(e)s de 1ère année à l’UNIL en 1981


Unités d’observation: Etudiant(e)s
Variables: • Sexe, noté S: qualitative catégorielle
• Taille en cm, notée T : quantitative continue
• Poids en kg, noté P : quantitative continue
• Nombre de frères et soeurs, noté F : quantitative discrète
• Couleur des yeux, notée C: qualitative catégorielle
Modalités: • Sexe: {femme,homme}
• Taille en cm: [40, 280]
• Poids en kg: [20, 400]
• Nombre de frères et soeurs: {0,1,...,50}
• Couleur des yeux: {brun, bleu, vert, noir, gris}

On a tiré un échantillon de taille n = 45.

6
Données:

T P S F C T P S F C T P S F C
180 70 h 2 brun 190 66 h 1 brun 168 52 f 0 brun
177 57 h 3 brun 183 78 h 0 bleu 157 47 f 1 vert
180 60 h 1 bleu 167 60 h 4 bleu 167 53 f 2 vert
180 66 h 0 brun 181 67 h 0 brun 168 57 f 4 bleu
183 62 h 6 vert 179 98 h 2 brun 163 65 f 1 brun
184 68 h 0 brun 173 75 h 1 vert 167 60 f 2 brun
185 65 h 1 noir 170 68 h 1 gris 166 68 f 2 bleu
184 72 h 2 brun 170 59 h 3 brun 164 49 f 7 vert
174 65 h 3 noir 183 72 h 2 bleu 172 57 f 3 brun
180 72 h 1 brun 179 73 h 3 vert 165 59 f 2 bleu
168 52 h 3 brun 180 72 h 3 bleu 158 62 f 0 brun
180 75 h 0 bleu 188 70 h 2 brun 161 65 f 1 brun
183 75 h 2 brun 176 65 h 1 vert 160 61 f 1 bleu
181 68 h 0 bleu 178 72 h 1 brun 162 58 f 2 brun
180 65 h 4 brun 185 71 h 1 bleu 165 58 f 5 brun

7
2. Distribution d’une variable qualitative
Soit X une variable qualitative et {x1, x2, ..., xk } l’ensemble de ses modalités. Pour
un échantillon de taille n, soit ni le nombre d’individus ayant la modalité xi. On appelle
• fréquence absolue de xi le nombre ni
• fréquence relative de xi le nombre fi = ni/n
• distribution de fréquence de X l’ensemble des couples (xi, ni) ou des couples
(xi, fi)

Exemple: distribution de fréquence de la variable couleur des yeux.


Modalité (ci) Fréquence absolue (ni) Fréquence relative (fi = ni/n)
brun 23 0.511=51.1%
bleu 12 0.267=26.7%
vert 7 0.156=15.6%
noir 2 0.044=4.4%
gris 1 0.022=2.2%
Totaux n = 45 1.000=100%

Propriétés: • ni = n1 + ... + nk = n
P

• fi = f1 + ... + fk = 1
P

8
Pour représenter graphiquement une distribution de fréquence, on peut utiliser
• un diagramme à barres:

20
Fréquence absolue

15
10
5
0
brun bleu vert noir gris

• un diagramme en secteurs:
brun
51.11 %

gris
2.22 %
noir
4.44 %

bleu vert
26.67 % 15.56 %

9
3. Distribution d’une variable quantitative

Nous allons distinguer trois cas:

1. Le nombre d’observations est petit (n < 20)

2. Le nombre d’observations différentes est petit

3. Le nombre d’observations est grand avec beaucoup d’observations


différentes

10
1. Le nombre d’observations est petit
Ex.: Tailles des filles dans notre échantillon d’étudiant(e)s

• ••
•• ••••••••• •
150 160 170
Dans ce cas on peut simplement représenter les données sur un axe. Cette représentation
permet de se faire une idée rapide de la forme de la distribution (symétrie, etc) et de
repérer des éventuelles observations aberrantes (appelées outliers).

2. Le nombre d’observations différentes est petit


Ex.: Nombre de frères et soeurs dans notre échantillon d’étudiant(e)s
10 12
Fréquence absolue
8
6
4
2
0

0 1 2 3 4 5 6 7
Nb de frères et soeurs

Dans ce cas on procède de façon similaire au cas d’une variables qualitative, avec un
diagramme en barres qui tient compte de l’ordre des modalités.
11
3. Le nombre d’observations est grand avec beaucoup d’observations
différentes
Ex.: Tailles des étudiant(e)s
8
Fréquence
6
4
2
0

155 160 165 170 175 180 185 190


Taille [cm]

Dans ce cas on regroupe les données en classes de largeurs égales. On construit un


graphique similaire à un diagramme en barres, où la hauteur des barres est égale au
nombre d’observations dans la classe correspondante.

En règle générale, le nombre classes est compris entre 5 et 20.

Le graphique obtenu s’appelle un histogramme.


12
Fonction de distribution cumulative empirique
Pour des observations x1, ..., xn d’une variable quantitative X, la fonction de
distribution cumlative empirique, notée Fn(x) est définie par
nombre de xi ≤ x
Fn(x) = .
n
Ex.: Tailles des étudiant(e)s
1.0

Une fonction de distribution cu-


0.8

mulative commence toujours à 0


0.6
Fn(Taille)

Fn(180) − Fn(165) = 0.53


et finit à toujours à 1.
0.4

Elle est toujours croissante.


0.2
0.0

160 165 170 175 180 185 190

Taille [cm]

La forme de la fonction de distribution cumulative est en général moins facile à interpréter


que celle de l’histogramme. Par contre, la fonction de distribution cumulative est utile
pour certains calculs. Par exemple, pour trouver la proportion d’invividus mesurant entre
165 et 180 cm, il suffit de calculer Fn(180) − Fn(165).
13
Chapitre 3: Descriptions numériques
de distributions

1. Principales caractéristiques d’une distribution

2. Mesures de position

3. Mesures de dispersion

4. Le box-plot

1
1. Principales caractéristiques d’une distribution
Dans ce chapitre on s’intéresse plus particulièrement aux variables quantitatives avec
un grand nombre de modalités, et on considère les caractéristiques suivantes de leur
distribution:
— position: “Où se situe la distribution?”
— dispersion: “A quel point la distribution est-elle éparpillée”

2
2. Mesures de position
Mesures du “milieu” d’une distribution
Pour mesurer le “milieu” d’une distribution, i.e. où se trouvent les données de façon
globale, les deux mesures les plus utilisées sont la moyenne arithmétique, souvent appelée
simplement moyenne, et la médiane. Une troisième mesure parfois utilisée est le mode.

Moyenne
Soient x1, ..., xn les observations d’une variable X. La moyenne de X, notée m(X),
est définie par
P
xi x + ... + xn
m(X) = = 1 .
n n

3
Exemples
1. Tailles des filles [cm]: 168, 157, 167, 168, 163, 167, 166, 164, 172, 165, 158, 161,
160, 162, 165
m(T)
● ● ●

● ● ● ● ● ● ● ● ● ● ● ●

155 160 165 170 175


Tailles des filles (T)

m(T ) = (168 + 157 + 167 + 168 + 163 + 167 + 166 + 164 +


172 + 165 + 158 + 161 + 160 + 162 + 165)/15 = 164.2
La moyenne est un bon résumé du “milieu” de la distribution.

2. Durées de séjour dans un hôpital [jours]: 7, 12, 14, 7, 34, 8, 8, 9, 6, 7


● m(D)
● ●

● ● ● ● ● ● ●

5 10 15 20 25 30 35
Durée (D)

m(D) = (7 + 12 + 14 + 7 + 34 + 8 + 8 + 9 + 6 + 7)/10 = 11.2 La


moyenne est un mauvais résumé du “milieu” de la distribution, elle est influencée
par quelques valeurs extrêmes. 4
Propriétés de la moyenne
Soient X et Y deux variables, x1, ..., xn et y1, ..., yn leurs observations sur les mêmes
individus 1 à n. Soient a, b et c des constantes.
1. Si tous les xi sont ≥ 0 alors m(X) ≥ 0
2. m(aX) = am(X) La variable aX est définie comme ayant
les observations ax1, ..., axn.
Ex: Si X est une taille en m et que
a = 100, aX est cette taille en cm.
3. m(X + a) = m(X) + a La variable X + a est définie comme ayant
les observations x1 + a, ..., xn + a.
Ex: Si X est une température en degrés Celsius
et que a = 273.15, X + a est cette
température en degrés Kelvin.
4. m(X + Y ) = m(X) + m(Y ) La variable X + Y est définie comme ayant
les observations x1 + y1, ..., xn + yn.
Ex: Si X et Y sont les pts obtenus à deux
questions d’examen, X + Y est le total des pts.
5. m(aX + bY + c) = a m(X) + b m(Y ) + c (découle de 2., 3. et 4.)
6. En général, m(XY ) 6= m(X)m(Y )
5
Médiane
La médiane est une valeur telle que la moitié des observations se trouve à sa gauche et
l’autre moitié à sa droite.

Soient x1, ..., xn les observations d’une variable X. Pour trouver leur médiane, il
faut d’abord ordonner les observations.
Notation: on notera x[1], ..., x[n] les observations mises dans l’ordre croissant.
Autrement dit, on aura toujours (par définition) que x[1] ≤ ... ≤ x[n].

La médiane de X, notée med(X), est alors définie par





 xh n+1 i si n est impair
 2
med(X) =  

 x n +x 2 si n est pair

[2] [ n2 +1]

6
Exemples

1. Tailles des filles dans l’ordre croissant [cm]:


t[1] t[2] t[3] t[4] t[5] t[6] t[7] t[8] t[9] t[10] t[11] t[12] t[13] t[14] t[15]
157 158 160 161 162 163 164 165 165 166 167 167 168 168 172

n = 15 est impair et donc med(T ) = th n+1 i = t[8] = 165


2

m(T) med(T)
● ● ●

● ● ● ● ● ● ● ● ● ● ● ●

155 160 165 170 175


Tailles des filles (T)

La médiane est un bon résumé du “milieu” de la distribution. Elle est très proche de la
moyenne.

7
Exemples

2. Durées de séjour dans un hôpital dans l’ordre croissant [jours]:


d[1] d[2] d[3] d[4] d[5] d[6] d[7] d[8] d[9] d[10]
6 7 7 7 8 8 9 12 14 34

   .
n = 10 est pair et donc med(D) = d[ n ] + d[ n +1] 2 = d[5] + d[6] 2=
2 2
(8 + 8)/ 2 = 8

● med(D) m(D)
● ●

● ● ● ● ● ● ●

5 10 15 20 25 30 35
Durée (D)

La médiane est un meilleur résumé du “milieu” de la distribution que la moyenne. Elle est
peu influencée par les valeurs extrêmes.
8
Propriétés de la médiane
Soient X et Y deux variables, x1, ..., xn et y1, ..., yn leurs observations sur les mêmes
individus 1 à n. Soit a une constante.
1. Si tous les xi sont ≥ 0 alors med(X) ≥ 0
2. med(aX) = a med(X) La variable aX est définie comme ayant
les observations ax1, ..., axn.
Ex: Si X est une taille en m et que
a = 100, aX est cette taille en cm.
3. med(X + a) = med(X) + a La variable X + a est définie comme ayant
les observations x1 + a, ..., xn + a.
Ex: Si X est une température en degrés Celsius
et que a = 273.15, X + a est cette
température en degrés Kelvin.

4. En général, med(X + Y ) 6= med(X) + med(Y )

5. En général, med(XY ) 6= med(X)med(Y )

9
Faut-il utiliser la moyenne ou la médiane?

→ Cela dépend de ce que l’on veut mesurer.

Exemple: Revenus dans le canton de Vaud. Les distributions de revenus ont typiquement
une forme asymétrique.
med(Revenu) m(Revenu)
150000
Fréquence
50000
0

Revenu

→ Pour un habitant, il est plus intéressant de connaı̂tre la médiane: elle permet de se


situer dans la moitié riche ou la moitié pauvre de la population.
→ Pour l’administration des impôts, il est plus utile de connaı̂tre la moyenne: elle permet
de se faire une idée des rentrées fiscales (≈ revenu moyen × coefficient moyen × nb
d’habitants). La moyenne est utile lorsqu’on s’intéresse à un total.
10
Cela dit, lorsque la distribution est symétrique la moyenne et la médiane sont égales.

Exemple: Tailles (simulées) de 30 hommes:


10
8
Fréquence

med(Taille) m(Taille)
6
4
2
0

165 170 175 180 185 190 195


Taille [cm]

Par contre la moyenne est très sensible aux outliers: si on ajoute le plus grand homme du
monde à notre échantillon, elle change d’environ 2 cm alors que la médiane ne change
presque pas. Si on a affaire à une distribution symétrique mais qu’on s’attend à ce qu’il
y ait des outliers, il vaut donc mieux utiliser la médiane.

11
Cela dit, lorsque la distribution est symétrique la moyenne et la médiane sont égales.

Exemple: Tailles (simulées) de 30 hommes:


10

Le plus grand homme


du monde (270 cm)
8
Fréquence

med(Taille) m(Taille)
6
4
2
0

165 170 175 180 185 190 195


Taille [cm]

Par contre la moyenne est très sensible aux outliers: si on ajoute le plus grand homme du
monde à notre échantillon, elle change d’environ 2 cm alors que la médiane ne change
presque pas. Si on a affaire à une distribution symétrique mais qu’on s’attend à ce qu’il
y ait des outliers, il vaut donc mieux utiliser la médiane.

12
Mode
Le mode d’une distribution est défini comme la modalité qui a la plus haute fréquence.
De façon plus générale, on pourra appeler mode toute valeur où la fréquence atteint
un maximum local. On pourra ainsi avoir des distributions bimodales, trimodales, etc.
Pour les variables quantitatives continues, on définit les modes à partir de l’histogramme,
comme les milieux des classes de fréquence maximale.
Lorsqu’une distribution a plusieurs modes, c’est souvent le signe que la population est
constituée de plusieurs sous-populations distinctes. Ex: tailles des étudiant(e)s:
8
Fréquence
6
4
2
0

155 160 165 170 175 180 185 190


Taille [cm]

On observe deux modes (166 cm et 180 cm), correspondant aux sous-populations des
filles et des garçons.
13
Autres mesures de position: les quantiles
On a vu que la médiane partage la distribution en deux parties, de telle sorte que 50% des
données lui sont inférieures et 50% lui sont supérieures. On peut généraliser ce procédé
en demandant qu’une proportion α des données soient dans la première partie et le reste
dans la deuxième. La limite entre les deux parties s’appelle alors le quantile d’ordre α et
on le note qα. Autrement dit, le quantile d’ordre α est une valeur telle qu’une proportion
α des observations se trouve à sa gauche et une proportion 1 − α à sa droite.

Pour définir les quantiles, on se sert de la fonction de distribution cumulative:


Que vaut q0.75(T ), le quantile d’ordre 75% de la distribution des tailles des filles?
0.00 0.25 0.50 0.75 1.00
Fn(Taille)

160 165 q0.75(T) = 167 170

Taille [cm]

Les quantiles sont obtenus en inversant la fonction de distribution cumulative.


14
Cas spécial:
Que vaut q0.8(T ), le quantile d’ordre 80% de la distribution des tailles des filles?
0.0 0.2 0.4 0.6 0.8 1.0
Fn(Taille)

160 165 q0.8(T) = 167.5 170

Taille [cm]

Lorsqu’on tombe sur un plateau, on prend la moyenne des valeurs extrêmes


du plateau.
Une définition qui englobe ces deux cas est la suivante:
 .
qα(X) = x[dnαe] + x[bnα+1c] 2,
où le symbole d e indique qu’on arrondit à l’entier supérieur et le symbole b c indique
qu’on arrondit à l’entier inférieur.
Remarque: à part dans le cas ci-dessus, les deux parties délimitées par qα contiennent
des proportions α et 1 − α des données de façon approximative.
15
Exemples:
Quantiles de la distribution de la taille des filles.
Tailles des filles dans l’ordre croissant [cm]:
t[1] t[2] t[3] t[4] t[5] t[6] t[7] t[8] t[9] t[10] t[11] t[12] t[13] t[14] t[15]
157 158 160 161 162 163 164 165 165 166 167 167 168 168 172

 .
q0.75(T ) = t[d15×0.75e] + t[b15×0.75+1c] 2
 .
= t[d11.25e] + t[b12.25c] 2
 .
= t[12] + t[12] 2
= t[12]
= 167

16
Exemples:
Quantiles de la distribution de la taille des filles.
Tailles des filles dans l’ordre croissant [cm]:
t[1] t[2] t[3] t[4] t[5] t[6] t[7] t[8] t[9] t[10] t[11] t[12] t[13] t[14] t[15]
157 158 160 161 162 163 164 165 165 166 167 167 168 168 172

 .
q0.8(T ) = t[d15×0.8e] + t[b15×0.8+1c] 2
 .
= t[d12e] + t[b13c] 2
 .
= t[12] + t[13] 2
= (167 + 168)/ 2
= 167.5

17
3. Mesures de dispersion
La mesure de dispersion (ou éparpillement) la plus utilisée est la variance, et plus
particulièrement sa racine carrée appelée l’écart-type. Deux mesures alternatives sont
le mad (median absolute deviation) et l’écart interquartile.

Variance
Soient x1, ..., xn les observations d’une variable X. La variance de X, notée s2(X),
est définie par
2

2
 1X
s (X) = m (X − m(X)) = (xi − m(X))2.
n
En mots, il s’agit de la moyenne des carrés des écarts entre X et sa moyenne.

L’écart-type s(X) est défini comme la racine carrée de la variance:


q
s(X) = s2(X).

18
Exemple: Tailles des filles
ti ti − m(ti ) (ti − m(ti ))2
168 3.8 14.44
157 -7.2 51.84
167 2.8 7.84
168 3.8 14.44
163 -1.2 1.44
167 2.8 7.84
166 1.8 3.24
164 -0.2 0.04
172 7.8 60.84
165 0.8 0.64
158 -6.2 38.44
161 -3.2 10.24
160 -4.2 17.64
162 -2.2 4.84
165 0.8 0.64
moyenne 164.2 0 15.63


On a donc s2(T ) = 15.63 cm2 et s(T ) = 15.63 cm = 3.95 cm.

Contrairement à la variance, l’écart-type est mesuré dans les mêmes unités que la variable.

19
Propriétés de la variance et de l’écart-type
Soient X et Y deux variables et soient a, b et c des constantes.
1. s2(c) = 0
2. s2(aX + b) = a2s2(X)
3. s(aX + b) = |a| s(X)
4. En général, s2(X + Y ) 6= s2(X) + s2(Y )
5. La somme des écarts xi − m(X) est toujours nulle
6. s2(X) = m(X 2) − m(X)2
La formule 6. est utile pour les calculs à la main, car elle évite de calculer tous les écarts
xi − m(X).

Remarque: On trouve aussi dans certains ouvrages la définition alternative suivante de


la variance:
2 1 X
s (X) = (xi − m(X))2.
n−1
La raison pour prendre un dénominateur égal à n − 1 au lieu de n dépasse le cadre de
ce chapitre. Notez que la formule 6. ne fonctionne pas avec cette définition alternative.
20
Variable standardisée

Soit X une variable. La variable Z définie comme


X − m(X)
Z=
s(X)
est appelée la version standardisée ou centrée et réduite de X.

En appliquant les propriétés de la moyenne et de la variance, on obtient que


• m(Z) = 0
• s2(Z) = 1
Cette opération est utile lorsqu’on veut ramener des variables différentes sur une échelle
commune, ou lorsqu’on veut se ramener à une situation standard (v. chapitres suivants).

21
mad
Soit X une variable. Le mad (median absolute deviation) de X est défini par

mad(X) = med(|X − med(X)|).


En mots, il s’agit de la médiane des écarts absolus entre X et sa médiane.

De façon analogue à la relation entre moyenne et médiane, l’écart-type est une mesure
très sensible aux outliers, alors que le mad est résistant.

22
Ecart interquartile
Pour une variable X, on définit le premier, le deuxième et le troisième quartile comme
q0.25(X), q0.5(X) et q0.75(X) respectivement. Ainsi
• Les quartiles partagent la distribution en quatre parties contenant chacune 25%
des observations
• Le deuxième quartile n’est autre que la médiane.

L’écart interquatile de X, noté Iq (X) est simplement défini comme la différence entre
le troisième et le premier quartile de X:

Iq (X) = q0.75(X) − q0.25(X).

L’écart interquartile est plus résistant aux outliers que l’écart-type. Le mad résiste encore
mieux, mais il est plus difficile à interpréter.

23
4. Le Box-plot
Le box-plot, ou box-and-whiskers plot (en français boı̂te à moustaches) est une
représentation graphique simple mais puissante d’un échantillon.
Construction
Le long d’un axe vertical, on trace tout d’abord la box (boı̂te), qui va du premier au
troisième quartile. Ainsi, la box contient approximativement la moitié (50%) centrale des
données.
La box est ensuite partagée en deux par un trait horizontal au niveau de la médiane.
Ensuite on va définir les inliers, i.e. les observations non extrêmes, comme toutes les
observations se trouvant dans un intervalle défini comme suit:
• la borne supérieure est égale au troisième quartile plus 1.5 × Iq (Iq = Intervalle
interquartile = hauteur de la box)
• la borne inférieure est égale au premier quartile moins 1.5 × Iq
→ Cette procédure trouve une justification dans le cadre de la distribution normale
que nous verrons au chapitre 7. Dans le cadre de ce modèle fréquent dans la
nature, la définition ci-dessus conduit à environ 99% d’inliers et 1% d’outliers.
On peut alors tracer les moustaches:
• La moustache supérieure va du sommet de la boı̂te au plus grand des inliers
• La moustache inférieure va du bas de la boı̂te au plus petit des inliers
Les données qui ne sont pas des inliers sont marquées individuellement par le symbole
“O” (outlier).
24
Exemple: poids des garçons
100
● Outlier
90 80

Moustache supérieure:
Poids [kg]

1.5 x Iq le plus grand des inliers


I
N 3e quartile
70

L
Iq I Médiane
E
R 1er quartile
S
60

1.5 x Iq
Moustache inférieure:
le plus petit des inliers

● Outlier
50

25
Le box-plot permet en un coup d’oeil d’apprécier les caractéristiques suivantes d’une
distribution:
• Position: la box indique ou se trouve la moitié centrale des données, et comment
elle se répartit autour de la médiane.
• Dispersion: la hauteur de la box donne l’écart interquartile. La longueur des
moustaches donne une idée de la dispersion des données extérieures à la box.
• Asymétrie: la position de la médiane dans la box et la différence de longueur
entre les moustaches nous renseigne sur le degré d’asymétrie.
• Présence d’outliers: marqués individuellement.

Pour comparer des échantillons, on peut représenter plusieurs box-plots côte à côte.
→ Voir exemple à la fin du chapitre 2 du polycopié de Marazzi (paragraphe 2.6).

26
Chapitre 4: Description de la relation
entre deux variables

1. Diagramme de dispersion

2. Covariance et corrélation

3. Moyenne mobile

4. Régression linéaire

5. Ajustement

1
1. Diagramme de dispersion
Comme dans le chapitre précédent, nous allons nous concentrer sur les variables
quantitatives avec un grand nombre de modalités.
Pour visualiser l’association entre deux telles variables, le moyen le plus simple est de
construire un diagramme de dispersion ou scatter plot. Un diagramme de dispersion
représente les observations de deux variables en reportant l’une sur l’axe horizontal et
l’autre sur l’axe vertical. Voici par exemple le diagramme de dispersion des poids et tailles
des étudiant(e)s de première année:
Tailles et poids

75

● ● ●


● ● ● ●

70

● ●

● ● ● ●

● ●
65
Poids

● ● ● ● ● ●

● ●

60

● ●
● ●
● ●
● ● ●
55



50

160 165 170 175 180 185 190


Taille

N.B.: Pour simplifier la suite, l’étudiant dont le poids était particulièrement élevé a été retiré de l’échantillon.

2
2. Covariance et corrélation
Le graphique semble indiquer une association entre les variables poids et taille: une plus
grande taille semble correspondre en moyenne à un plus grand poids.
Une façon de quantifier cette association est le coefficient de covariance. Pour deux
variables X et Y mesurées sur les mêmes unités d’observation, le coefficient de
covariance (ou simplement covariance), noté v(X, Y ), est défini par:
 
v(X, Y ) = m (X − m(X)) (Y − m(Y )) .
Exemple de calcul:
xi yi xi − m(X) yi − m(Y ) (xi − m(X))(yi − m(Y ))
-9 4 -7 3 -21
-5 3 -3 2 -6
3 -1 5 -2 -10
7 -3 9 -4 -36
-1 0 1 -1 -1
-7 3 -5 2 -10
Moyenne -2 1 0 0 -14
Dans cet exemple, on a donc v(X, Y ) = −14.

3
Propriétés de la covariance
Soient X, Y et Z des variables et soient a, b, c et d des constantes.
1. Si v(X, Y ) > 0, cela suggère* que les grandes valeurs de X sont généralement
associées aux grandes valeurs de Y et les petites valeurs de X aux petites valeurs
de Y .
2. Si v(X, Y ) < 0, cela suggère* que les grandes valeurs de X sont généralement
associées aux petites valeurs de Y et les petites valeurs de X aux grandes valeurs
de Y .
3. v(X, X) = s2(X)
4. Symétrie: v(X, Y ) = v(Y, X)
5. v(X, c) = 0
6. v(aX + bY, Z) = a v(X, Z) + b v(Y, Z)
7. v(aX + b, cY + d) = ac v(X, Y )
8. s2(X + Y ) = s2(X) + s2(Y ) + 2v(X, Y )
9. v(X, Y ) = m(XY ) − m(X)m(Y )
La propriété 9. est pratique pour faire le calcul à la main car elle évite de calculer tous
les écarts (xi − m(X)) et (yi − m(Y )).
* La présence d’outliers peut invalider ces interprétations.

4
L’inconvénient de la covariance comme mesure de l’association entre deux variables est
qu’elle dépend des unités de mesures. Par exemple, la covariance entre les tailles et les
poids des étudiant(e)s vaut v(T, P ) = 41.82 cm kg. Si on décidait de mesurer la taille
en mètres (Tm) et le poids en grammes (Pg ), on obtiendrait v(Tm, Pg ) = 418.2 m g.
Or, il est clair que l’association entre la taille et le poids des étudiants ne dépend pas des
unités dans lesquelles elles sont mesurées! Il est donc difficile d’interpréter la covariance
entre deux variables.

Pour remédier à cet inconvénient, on définit le coefficient de corrélation (ou simplement


corrélation), noté r(X, Y ), entre les variables X et Y comme
v(X, Y )
r(X, Y ) = .
s(X)s(Y )
Pour les poids et tailles, on obtient

r(T, P ) = r(Tm, Pg ) = 0.64.


La corrélation est une mesure sans unité. Elle est donc interprétable même dans des cas
où les unités des variables ne nous sont pas familières.
5
Propriétés de la corrélation
Soient X et Y des variables et soient a, b, c et d des constantes.
1. Si r(X, Y ) > 0, cela suggère* que les grandes valeurs de X sont généralement
associées aux grandes valeurs de Y et les petites valeurs de X aux petites valeurs
de Y .
2. Si r(X, Y ) < 0, cela suggère* que les grandes valeurs de X sont généralement
associées aux petites valeurs de Y et les petites valeurs de X aux grandes valeurs
de Y .
3. r(X, X) = 1
4. Symétrie: r(X, Y ) = r(Y, X)
v(X,c)
5. r(X, c) = s(X)s(c) =0
0 est indéfini
6. r(aX + b, cY + d) = signe(ac) r(X, Y )
7. r(aX + b, X) = signe(a) r(X, X) = ±1
8. −1 ≤ r(X, Y ) ≤ 1
La corrélation entre deux variables est donc toujours comprise entre -1 et 1,
et ces bornes maximale et minimale sont atteintes lorsqu’il a y une relation
linéaire parfaite entre les variables.
* La présence d’outliers peut invalider ces interprétations.

6
La corrélation est une mesure de l’association linéaire entre deux variables.
Une autre formulation des propriétés 1. et 2. est la suivante: Si une valeur de X supérieure
à la moyenne de X est généralement associée à une valeur de Y supérieure à la moyenne
de Y , et de même pour les valeurs inférieures à la moyenne, r(X, Y ) aura tendance à
être positif. Une association renversée conduira r(X, Y ) à être négatif.

r(X,Y) = 0.79 r(X,Y) = −0.58

m(X) m(X)
23

● ●
● ●

5

● ●
● ● ● ● ● ● ●
● ●

22

● ●
● ● ● ● ●●
●● ●● ● ● ●
● ● ● ● ● ●

4
● ●●● ● ●

● ● ● ● ●● ● ● ●●● ● ● ●
● ●
● ● ●●● ●●● ●
● ●●●●● ●

●● ● ● ●●●

● ●● ● ●

● ●●●●●●●● ●● ● ●● ● ● ● ●● ●●● ●●
● ●●
21

● ● ● ● ● ● ● ●●●
● ● ●●● ● ●
● ●●● ● ●●● ● ● ● ●
● ● ●● ●
● ● ● ● ●●●● ● ● ● ● ● ●●
●● ● ●●● ● ●●● ●● ●


● ●●●●● ● ● ● ●● ● ● ● ● ● ●
● ●

3
● ● ● ●●●● ● ●● ● ●●●●● ● ● ● ● ●
● ● ● ●
● ● ● ● ●●● ●● ● ● ●● ● ● ●●● ●● ●
● ●● ● ●● ● ●●● ●●●●● ● ● ● ● ● ● ●● ●● ● ●●●●●●● ● ●● ●
m(Y) ●●● ●

● ● ●
●●●

●●●● ● ● ●


●●●● ● ● ● ● ● ●● ● ●●●● ●●●● ● ● ● ●
● ●
● ● ●●● ● ●●● ●●●●●●●
●●●
● ●●
●● ● ●●
●● ●● ● ●● ● ● ●●●● ●
● ●● ●●● ● ● ●
●●● ● ● ●● ● ● ●● ● ● ●
20

● ● ● ● ●● ●● ●
● ● ●●● ●
Y

Y

●●●● ● ● ● ● ● ●●
● ●● ●●●
● ● ● ● ● ●●
●● ●●
● ●●●●●●●

● ●●●● m(Y) ● ● ● ●
● ● ● ●●
● ● ●●● ●
●● ●●● ● ●
●●●●●●●
●●●●●●●●

●●●●
●● ●●
●● ● ●
● ●
● ●● ●● ● ●
●●● ● ●
●●● ●●● ● ● ●● ●
●● ●● ●
●●● ● ●
●● ●
●● ●● ●●● ● ●●

2
●● ●
● ●● ●

●●

●●●●
●●
● ●●
● ● ●● ●
● ● ●●
●●●● ●● ● ●

●● ●
● ●

● ● ● ●● ●● ● ●
● ● ●● ●
●● ● ●● ●● ●●
●● ●●●

● ● ● ● ● ● ● ● ● ● ● ●● ●● ●●●●●●●
● ●
●● ● ● ●● ● ● ●
●●● ●● ●● ●●●●● ●● ● ● ● ●● ● ●●●● ●● ● ●● ●●
● ● ● ● ●●
●● ● ● ● ●●● ●●
● ●● ● ● ● ● ●●
●● ● ●
● ● ● ●● ●● ●
●●●●● ● ● ●●●
●● ●●●●●
19

● ●●● ● ● ● ●● ●● ●●

●● ●
● ●● ●● ●● ● ●● ●● ● ● ●●●● ●● ●●
●●●● ● ● ●
● ● ● ●● ● ●● ●●
● ● ● ●● ● ●● ●
●●● ● ● ● ● ● ● ●

1
● ● ●● ●●
● ●●●●● ● ● ●● ●● ● ●●● ●
● ● ● ●
●● ● ● ● ●
● ● ●● ● ●
●● ●●●●● ● ● ●● ●
● ●● ● ●● ● ● ●
● ● ●●● ● ● ●●
● ●● ● ●
●● ● ●
18

● ●
● ● ● ● ●● ● ● ●
● ● ● ● ●● ● ●● ●

0
● ● ●● ●
● ● ●
● ●
17

● ● ● ●
−1

7 8 9 10 11 12 13 47 48 49 50 51 52
X X

7
Cas des tailles et des poids, où comme on l’a vu la corrélation est positive:
r(Taille,Poids) = 0.64
m(Taille) ●
75
● ● ●


● ● ● ●

70

● ●

● ● ● ●

● ●
65
Poids

● ● ● ● ● ●
m(Poids)
● ●

60

● ●
● ●
● ●
● ● ●
55



50

160 165 170 175 180 185 190


Taille

8
Voici quelques exemples de diagrammes de dispersion correspondant à différentes valeurs
positives de la corrélation:
r = 0.01 r = 0.22 r = 0.44
● ● ● ●
● ●
● ●
● ● ● ● ● ●
● ● ●
● ● ● ●
● ● ●
●● ● ● ● ●
● ● ● ● ●
● ● ●
● ● ● ● ● ●● ● ●
● ● ● ● ● ● ●
● ● ●● ● ●
● ●
● ● ● ● ●● ●
● ● ● ● ● ●


● ● ●● ●
● ●
● ● ● ● ●
● ●● ●●● ● ● ● ● ●
● ●
● ● ● ● ● ● ●
● ● ●●
● ● ● ● ●● ●●
● ●● ●●● ●● ● ● ●● ● ● ●● ● ● ● ● ●● ●● ● ● ●
● ● ● ●● ●● ● ● ● ●
● ● ● ● ●●
● ●
● ●
● ●● ● ●● ●● ● ●●
● ● ●


● ●
● ●●

● ● ●●
● ●● ●
● ● ●● ●
● ●●● ● ● ● ● ● ● ●●● ●●● ●
● ● ● ●● ●●● ●● ●●● ● ● ●●
● ● ● ●● ● ●
● ● ● ● ● ● ●● ●
● ● ● ●● ●● ● ● ● ● ● ● ● ● ●●
● ● ● ●● ●●
● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ●●● ●● ●●● ●● ● ● ● ● ● ● ● ● ● ● ● ●
● ●● ●●
● ● ●●● ● ● ●● ●●● ● ●●●
● ●
●● ● ●● ● ●●●● ● ● ● ● ●● ●
● ● ● ●●● ● ● ● ● ● ● ● ●● ●●
●● ● ●
● ● ● ●●● ● ● ● ● ● ●● ● ● ● ● ●●● ● ●● ● ●● ● ● ●● ●● ●● ●●

● ● ● ● ●● ●● ● ● ● ● ●● ● ● ● ●
●● ● ●●● ●●

● ●● ● ● ● ● ●
● ● ●●●
● ● ●● ● ● ● ●●● ● ● ● ●
● ●
● ● ●●● ● ●●
● ● ●● ● ●●●
● ● ● ● ● ● ●● ● ● ●
● ●● ● ●
● ● ● ●●
● ●●●
● ●●● ● ● ● ● ●
● ●● ●●● ●●●● ●●● ●●● ●


●● ● ●●● ● ● ●●● ●

●●● ●●●● ● ● ●● ●●●●●●●● ● ●●● ● ● ●

● ●● ●● ● ● ● ●● ●●● ● ● ● ● ● ●
● ●● ● ● ●● ● ● ●● ● ●●●

●●● ● ●●
● ● ●●● ● ● ●●●●●● ●●●● ●
● ●●
● ●● ● ●● ● ●● ●●● ●●
● ●● ● ●● ●● ●● ● ●

●●● ● ● ● ●
● ●
●● ●●● ●●●●● ● ● ● ●● ●● ● ●●● ●●● ● ●● ● ●● ● ● ● ●●●● ●

●●●
● ● ● ●●●●
● ●
● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ●● ●● ●●●●● ●● ● ●●●

● ● ● ● ●● ●
●●

●●● ●●● ●
● ● ● ● ● ● ● ● ●
● ● ●● ● ● ● ● ● ●●●
● ● ●● ●●● ● ● ● ● ●● ● ● ● ●● ● ●●● ● ●
● ● ● ● ●● ●● ●● ●●● ●● ● ● ●●● ●●● ●
● ●
●● ●●● ● ●

● ● ●●
●● ● ● ●●
● ●● ●● ● ●
●● ● ● ● ● ●●● ● ● ●
● ● ●● ●●●●● ●

●●●● ●● ● ● ●●●●● ● ● ● ●● ● ●● ● ● ●● ● ● ●● ●●● ● ●●
● ● ● ●
● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ●●● ● ● ●
● ●● ● ● ●

●●●● ●● ● ● ● ●●
● ●● ● ● ●● ●● ● ● ●●
● ● ●● ●●● ●● ● ● ●●
● ● ● ● ●●
●● ● ●● ● ● ● ●● ● ● ●● ● ● ●
● ●●●
● ● ●
● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ●
● ● ●●
● ● ● ●
● ●
●●
● ● ●● ● ● ●
●●

● ●● ● ●
● ● ● ●●●● ● ●● ● ● ● ● ● ● ● ● ● ●● ●

●●
● ● ●● ●

● ● ● ●● ● ●
●● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ●●● ● ●● ● ● ●
●● ● ●● ●●● ●
● ●

●●● ● ●●●● ●● ● ● ● ●● ● ●●● ● ●
● ● ● ●● ● ● ● ● ●● ●●● ● ● ●● ● ●● ●
●● ● ●●
● ●
●● ● ● ● ● ● ● ● ● ●●● ● ● ●● ● ● ●
● ● ● ● ● ●● ● ● ● ●




● ●● ●●● ●●

● ●● ● ● ● ● ●● ● ●
● ●●
● ● ●
● ●● ● ● ●● ● ●
● ● ●
● ● ● ● ● ●● ● ●
● ● ●

●● ● ●● ● ● ● ●
● ● ● ●●
●● ● ● ● ● ●● ● ●
●● ● ● ●●● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ●● ● ●● ● ● ●
● ● ● ● ● ● ●● ● ●
● ● ● ● ● ● ● ● ●
●● ●● ● ●
●● ● ●● ● ● ● ● ● ●
● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ●
● ● ● ●●
● ● ● ● ● ●
● ● ● ● ● ● ●
● ● ● ●
● ●
● ● ●

r = 0.75 r = 0.9 r = 0.99


● ● ●
● ●
● ● ●
● ●
● ●● ●
●●
●●
● ● ● ●●
● ● ● ● ● ●
● ● ●●
● ●● ●
● ● ●● ●● ● ● ● ●●

● ●●
● ●● ● ● ● ● ●●
● ● ● ●●●
● ●
●● ● ● ● ●
● ● ● ● ● ●●
●●● ● ● ●
● ●
● ● ● ●● ●
● ● ●● ● ●●● ● ●
● ● ● ● ●●
●●●


● ●● ●●
● ●● ● ● ● ● ●
● ●●● ●
● ●●

●●
● ●
● ●●
●●
● ● ● ●
● ●●●●●●●●
● ●●● ●● ●● ●● ● ● ●● ●

● ● ● ●
●●●
●● ●● ●●● ● ● ● ●

●● ● ●●● ●
●●

●●


●●
● ●



● ● ● ●● ●●● ● ●● ●●● ● ● ● ●●
●●●



●●
●● ● ●● ● ●● ●● ● ●
● ●
●● ●●● ●● ● ●

●●● ●●●
●● ●●● ●
●●

●● ●

●● ● ●● ● ● ● ●
● ● ● ●● ●
●● ●● ● ●● ● ●

●●
●●

●●
● ●
●● ●●●●●

● ● ● ●● ● ● ●●●●● ● ●●
●●
● ●
●●● ●● ● ● ●
● ●●●●● ● ●
● ● ● ●● ● ●
● ●●
●●●



●●●
●●
● ●●●


● ● ● ●●
● ● ●●● ●● ●● ● ● ●●●● ●●● ●● ●●● ●● ●
●●● ●
● ●●●●● ● ●
● ● ● ● ●● ●●● ● ●● ● ● ●
●● ● ● ● ●
● ● ● ● ●●
● ●●

●●
●●● ●●

● ●● ● ●●●●
● ●
●● ● ●● ●●
●● ●● ●
●● ● ● ●● ● ● ●●●● ● ●●●●●● ●●● ● ● ●
● ●●●● ●●
● ●● ●●●● ●● ●●●


●●
●●
●●





●●

● ● ●● ● ●●●● ●
● ● ●● ● ●●●●●● ●●
●●
●● ●●●


●●





●●●●●
●●
● ●●●
●●●●● ● ●
● ● ● ●● ● ● ●●●●
●●
● ●●● ●
●●●●●
● ●●●●●●● ● ●●●●

●●














●●●


●●●●●●● ● ● ●● ●
● ●● ●●● ●●●● ●●● ● ● ●● ●
●●

● ●●●
●●
● ● ● ●● ● ● ●● ●●● ●●

●●

● ●●●

●●●●
●●●●●

●● ● ● ●
●●

●●


●●●



●●●●
●● ●
● ●● ● ●●●●
● ●●●●●●
●●●●●● ● ●● ● ● ● ● ●●
●● ●● ●
● ●●●
●● ●●●
● ●●
● ●●●●●● ● ● ● ●● ● ●●● ●●
● ●●●● ●● ● ●●●● ●




●●


●●
●●●●●
●●
● ● ●
● ● ●
●●● ● ● ●● ●●●● ●●●
● ● ●●● ●●
● ●
●● ●

● ● ● ● ●●
●●
● ●
●●
● ●
● ●●● ●●
● ●● ●
● ●● ●
●●●
●●●
●● ●●●●●●
● ●●
●● ●●● ● ●●









● ●
●●●
● ●● ●●
●●●
● ●● ●●
●● ● ●●●
●●
●●
● ●●
●● ●● ● ● ●● ●●
● ●
●●
● ●●
● ●●●
●●●

●●●●●
● ● ●



●●
●●
●●
●●

● ● ● ● ●● ● ●●●●●●●
●● ●
● ● ● ● ●● ●● ● ●●●●●●● ● ●●
● ●●●● ●●
● ● ●●●●● ●
●●
● ● ● ● ●● ● ● ●● ●● ● ●●
●● ●


● ●● ● ●●●
●●● ●
● ● ●●
● ●●● ● ●●
● ●●
●●●●● ●●● ●●
● ●
●● ●
●●●


●● ●●

● ● ● ●● ●●●●
●●●●

●● ●● ●●●●

● ● ● ● ●● ● ● ● ●●●●
●●

●●


●● ●● ● ●




●●●
● ● ●● ● ●
● ● ●
●●●
● ● ● ● ●● ● ●
●●●
●●●
●● ●●● ● ●
●● ●● ●●
● ● ●●●

●● ● ● ● ● ● ●● ●
●● ●● ● ● ● ● ● ●
● ● ● ● ●●●● ●
● ● ●● ● ● ● ●● ● ● ●
● ●●
●● ● ● ● ● ●
●●
● ● ● ● ●
● ●
● ● ● ● ●●●●
● ●● ● ●●
● ● ● ●

●●● ●● ●●
● ●
● ● ●
● ●
● ● ●
● ●
● ● ●
● ●
● ● ● ●

9
Et voici quelques exemples de diagrammes de dispersion correspondant à différentes
valeurs négatives de la corrélation:
r = −0.01 r = −0.22 r = −0.44
● ● ● ●
● ● ●
● ●
● ● ●
● ● ● ● ●
● ● ● ●
● ● ●
● ● ● ● ●

● ●
● ● ●
● ● ● ● ●
●●● ●● ● ● ● ●●
● ● ●● ● ●● ● ●
● ●
● ● ● ●● ●● ● ●● ● ●● ● ●
●● ● ● ● ● ● ● ● ●● ● ●●
● ● ● ● ● ● ●●● ●● ● ● ● ●
● ●● ●● ● ● ●
● ● ●● ●
● ● ● ●
●● ● ●●●● ● ● ●●● ●● ●● ● ●
● ● ● ● ● ● ● ● ●
● ● ●
● ● ●● ● ● ● ● ● ●●


● ● ●●● ●●● ● ●● ● ●● ● ● ● ● ●
● ● ● ● ●
● ●●

● ● ● ● ● ● ● ● ●● ●● ● ● ● ●
● ● ● ● ● ●●
● ● ● ● ● ●●● ● ● ●● ● ● ● ● ●●●●
● ● ●● ●●
● ● ● ● ● ● ●
● ● ● ● ● ● ● ●
●●
● ●●
● ● ●● ●● ●●● ● ● ● ●●●●● ● ● ●●●●

● ● ● ●● ● ●●●● ● ● ● ●
● ● ● ●●
● ● ● ● ● ●● ● ●● ● ● ● ● ● ●● ● ● ●● ●● ●● ● ● ● ●
● ●
●● ●
●● ● ● ●● ● ● ●● ● ● ● ● ●● ● ● ●● ●●● ●
● ● ●● ●●●● ● ●
●● ● ●● ● ● ●● ●●● ● ● ● ● ●● ● ● ● ● ●● ● ● ●● ●●● ● ● ● ●● ● ●● ● ●
● ●● ●
● ● ●● ● ●●● ● ● ●
● ● ● ● ● ● ● ● ●
●● ●● ● ● ●
● ● ● ● ● ● ● ●● ● ●● ● ●
● ● ● ●● ●● ●● ● ●●● ● ● ● ●●
● ● ● ● ● ●
● ● ● ●● ● ● ●● ● ● ●● ● ● ● ● ● ● ●● ●● ●● ●●● ● ● ●● ●
●● ●
●●
● ●● ● ● ●● ● ●● ● ●
●●●●●
● ●● ●● ●● ● ● ●
● ●● ● ● ●
● ●● ● ●
● ●●●●●●
● ●● ●●● ● ●● ● ● ●● ● ●● ● ● ● ●● ● ● ● ● ●●
●● ● ●
● ●
● ● ●● ●● ●●
● ● ● ● ●● ●●
● ●● ● ●
●● ● ● ●●● ●●
● ●● ● ●●


● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ●● ●● ●● ●● ●● ●● ●
● ● ● ●●● ● ●● ● ● ● ● ● ● ●● ● ● ● ●●●● ● ●
● ●● ●●
● ●
● ●
● ●● ● ● ●● ●
● ●●●●
●● ●● ● ● ● ●
● ● ● ● ●●
●●● ● ●●● ● ● ●●●●● ● ●
●● ● ● ●
● ● ●●● ●●●● ● ●
● ●●● ●●
● ●
●● ●●● ●
● ●● ●●● ● ●●
● ●
● ● ● ● ● ● ● ●●●●● ● ●● ● ● ●
●● ● ●● ●● ● ● ● ●
●● ●●● ●● ● ● ●
●● ●● ●
● ● ● ●●
● ●●● ●●● ●●●●●●●● ● ●● ● ● ●●
●●
● ● ●
● ● ●
● ●● ● ●●● ● ● ● ● ● ● ●● ● ● ●● ● ● ●
● ●
●● ● ●● ●● ●●●● ●● ● ● ● ●
● ● ● ● ● ●
● ● ● ●
●● ● ●● ● ●● ●● ● ● ● ● ●


● ●● ●● ●● ●●
● ● ● ●● ●●●
● ●● ●●●●
●● ● ●● ● ●
● ● ● ● ● ● ● ● ● ● ● ●
● ●●
●● ● ● ● ● ● ● ● ● ● ●●
●●
●●
●● ● ● ●●●● ●●●●● ●●● ●
● ●
● ●● ● ●● ● ●
● ● ● ●● ● ● ● ●●● ● ● ● ●● ● ● ● ●● ●●
● ● ● ● ●● ● ● ● ● ●●
●● ●● ●
● ●●
● ●●● ● ● ●● ● ● ●●● ● ●● ● ●
● ● ●

●● ● ●● ● ●● ● ● ● ●
● ● ● ● ●
●●●● ● ● ●●
●● ●● ● ●●
●●●● ●
● ●●● ● ● ●● ●● ●● ● ● ● ● ●
● ● ●● ●● ● ●
● ● ● ●
● ●● ●● ● ● ● ● ●● ●● ●● ● ● ●● ●● ●
●● ●●
●● ● ●●
● ●●● ●

●● ● ● ● ● ● ● ● ● ●● ●●●● ● ●●● ●

●●
● ● ● ●●●
● ● ● ● ●● ●● ● ●
● ● ● ● ● ●● ●●● ● ● ●●
● ● ● ●
● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ●●● ● ● ●
● ● ● ●● ● ●● ●● ●● ● ●● ●● ●●●●● ●
● ● ● ●
● ● ● ●
● ● ●
● ●●● ●● ● ● ●● ●● ● ● ● ● ●● ●

● ● ● ●●
● ●● ●● ● ●●
● ● ●● ●
● ●
●● ● ● ●●● ●

● ● ● ●
● ●● ●
● ●● ● ●
● ●● ● ● ●
● ● ● ● ●
● ● ●
● ●● ● ● ● ● ● ● ● ●
●● ● ● ●● ● ● ● ●
● ●
● ● ● ●
● ● ●●● ● ● ●

● ●
●● ●
● ● ●●
● ● ● ● ● ● ● ● ● ● ●
● ● ● ●
● ● ● ● ● ●
● ● ●
● ●


● ● ● ●● ●

r = −0.75 r = −0.9 r = −0.99


● ● ● ●
● ●

● ● ●●
● ●●
●●●

● ● ●
● ● ● ● ● ●●● ● ●
● ● ●● ●
●●
●●
● ● ●● ●
● ● ● ● ●●
● ●● ● ●● ● ●●
● ● ● ● ●● ● ●● ● ●

● ●●● ● ●●●●●

● ● ● ●● ●●

● ●
● ● ● ●●
●● ●● ●
● ● ●
● ● ● ●● ●●
●● ●●●
●●●●
● ● ● ● ●●● ● ●
● ●●

● ●● ● ●●● ● ● ●
● ● ● ●●● ●●
●●●●●
● ● ● ● ●● ●●● ●

● ●
●● ●
● ●●● ● ● ●● ● ●● ●
● ● ●

●●●●●


●● ●
●●

● ●●● ● ● ● ●● ●●●
● ●● ●
● ● ●● ●●●● ●● ●

●●
●● ●●●
● ●● ●● ● ●
● ● ● ●● ● ●●●●
● ●●


● ● ● ●●
● ●●● ●● ● ● ●●● ● ●● ● ●
●●●●●●●
● ●
●●
●●

●● ●●●● ●●●
● ● ● ●●● ● ●●●● ● ● ●
●●
●●


●●
● ●
●●●● ●●● ● ●●●● ●
●●● ●
● ●
● ●
●●● ● ●
● ● ● ●● ● ● ●●
●●● ● ●●
● ●
● ●
● ●●●●●●
●●
●● ●● ● ●●● ●●● ● ● ● ● ● ● ●●●● ●
●● ●●
●●
●● ●●●●●●
● ● ●● ●
● ● ●● ● ● ● ● ●●
●●●●● ●● ●● ●
●●●●●●●
●● ●
● ●●●●●●●● ●

●●

● ●


● ● ●

●●● ● ●
●●● ● ●

● ●● ● ●



● ●
●●



●●●
●●●● ●
●● ●● ●●● ●● ●●● ●● ●● ● ●●●●●

● ●●● ●
●●●
● ●● ● ●●●
●●●●
●●
● ● ●
● ● ● ● ● ● ● ●●●●● ●● ●
●●
●●● ●● ● ● ●

● ●●●

●●●●●●
● ●● ● ●●● ●● ● ● ● ● ● ●●●● ●● ●
●●
●● ●●●●●

● ●●● ●● ● ●
●●●
●●
●●

●● ●
●●
● ● ●● ●●●● ● ●●● ●●●● ● ● ● ● ●● ● ●●●
●●
● ● ● ●●
● ● ●● ●
●●

●●
●●
●●
●●
●●●●●
● ●●●● ● ● ●
●●
● ●● ●
● ●
● ●
● ● ●●

●● ● ●
●●●●
●● ●●● ●
● ● ●●
● ●●●●●●
●●●● ●●
●● ●● ●●●● ● ● ● ● ● ●
● ●● ● ●● ● ●● ● ●● ●●
●●●● ●● ●●●
● ●
●● ● ●
● ● ●● ● ●●
●●
● ●●

●●●
● ●● ● ● ● ●● ●
●●●
●●●





●●




● ●● ● ●●
●●●●● ●● ●● ● ●● ● ●● ●● ●●●
● ● ● ●
●● ●●● ●●
● ●
● ●●●
● ●
●●
●●
●● ●●
● ●
●●
●●
●●

●●
●●
● ● ● ● ●

● ●●●●● ● ●●● ●

● ● ●●●●
●●● ● ● ● ●●● ●●
●●

●● ●
●●●
● ● ● ● ●● ● ● ● ● ● ● ● ●
● ● ●● ●● ● ●● ● ● ● ● ● ●● ●● ● ● ●● ●●●●
● ●● ●● ●
●●●●

● ● ●● ● ●●● ● ●● ● ●● ●
●● ●●● ●●
● ●●● ●

●●

● ●● ●


● ●●●● ● ●
● ● ●● ● ● ● ● ● ●● ● ●●● ●● ● ● ●●●●●
●●




●●
●●
●●●
● ● ●● ●
● ●●●● ●



●●
●●
● ●● ● ●



● ●●


●●● ●●●●●●● ●● ●● ●

●●●
● ●

●●

●●●●
● ● ● ●● ●● ●● ●
● ● ● ●● ● ●
● ●● ●● ● ●●● ● ● ● ● ●● ●
●●

●●

● ● ●
● ●●●●●●
●●
●● ●
●● ● ● ●●● ● ●● ●● ● ●● ●

● ● ● ●●● ●●●●● ● ● ● ●● ●●
● ●●● ●● ● ●●● ●
●●
●●
●● ● ● ● ●
●●
●● ●● ●●
● ● ●● ●
● ● ●●●
●●●●
●● ● ● ●● ● ● ●
● ● ●●●●
● ●●
●● ● ●●● ● ●●● ●
● ●● ● ●
●● ●●● ●
● ● ●● ● ●
●●
●● ●
●● ●●● ●
● ● ● ●
● ● ● ●

● ●

● ● ●●

● ●
● ●
● ● ●

●● ● ●
● ● ● ●

10
Lorsqu’on interprète une corrélation, il convient d’être attentif aux points
suivants:
• Une corrélation nulle ne signifie pas qu’il n’y a pas de relation entre
deux variables, elle signifie seulement qu’il n’y a pas d’association
linéaire. Par exemple dans le cas ci-dessous il y a une association
quadratique exacte entre les deux variables, mais la corrélation est
nulle.
25

● ●

● ●
20

● ●

● ●


r(X,Y) = 0 ●
15

● ●
Y

● ●
10

● ●
● ●
● ●
● ●
5

● ●
● ●
● ●
● ●
● ●
● ● ●
● ● ● ● ●
0

−4 −2 0 2 4
X
11
• De façon générale, il est toujours bon de faire un scatter plot des
données avant d’interpréter une corrélation. Une illustration de ce
fait est le quartet d’Anscombe: quatre jeux de données très différents
où la corrélation est la même:
Le quartet d'Anscombe
r(x1,y1) = 0.82 r(x2,y2) = 0.82
12

12

10

10

● ● ●
● ● ●

y1

y2
● ● ●
8

8

● ●


6

6

● ●

4

4

5 10 15 20 5 10 15 20
x1 x2

r(x3,y3) = 0.82 ● r(x4,y4) = 0.82 ●


12

12
10

10
● ●

y3

y4


8

● ●


● ●
● ●
● ●

6

● ●
● ●

4

5 10 15 20 5 10 15 20
x3 x4

12
Commentaires sur les exemples du quartet d’Anscombe:
• 1er cas: La relation semble linéaire, la corrélation fait sens
• 2e cas: la relation entre les variables n’est pas linéaire. Si on s’arrête
à la corrélation, on manque une part importante de la nature de
l’association entre X2 et Y 2.
• 3e cas: la présence d’un outlier exerce une forte influence sur la
corrélation (qui serait égale à 1 sans cette observation)
• 4e cas: il n’y a pas suffisamment de valeurs différentes de x4 pour
pouvoir vérifier la linéarité de la relation

13
Effet d’un outlier sur la corrélation
Le 3e cas du quartet d’Anscombe nous met en garde contre la forte
influence que peut exercer un outlier sur la corrélation. Dans l’exemple
ci-dessous, la présence d’un seul outlier change complètement la valeur de
la corrélation et invalide l’interprétation usuelle:
r(X,Y) = 0.81

22
● ●





● ●
● ●
● ●●●


● ●
● ●

20
● ● ● ●

● ● ●●
● ● ● ●

● ●

● ● ●
● ●
● ●
● ●


18
Y
16
14

8 10 12 14 16
X

D’où l’importance de regarder le scatter plot avant d’interpréter une


corrélation!
14
Effet d’un outlier sur la corrélation
Le 3e cas du quartet d’Anscombe nous met en garde contre la forte
influence que peut exercer un outlier sur la corrélation. Dans l’exemple
ci-dessous, la présence d’un seul outlier change complètement la valeur de
la corrélation et invalide l’interprétation usuelle:
r(X,Y) = −0.09

22
● ●





● ●
● ●
● ●●●


● ●
● ●

20
● ● ● ●

● ● ●●
● ● ● ●

● ●

● ● ●
● ●
● ●
● ●


18
Y
16
14

outlier ●

8 10 12 14 16
X

D’où l’importance de regarder le scatter plot avant d’interpréter une


corrélation!
15
3. Moyenne mobile

Pour décrire de façon plus détaillée la relation entre deux variables X et


Y , on cherche un modèle mathématique de cette relation, caractérisé par
une fonction y = f (x). Une façon de déterminer f est la suivante:

1. Choisir une “largeur de fenêtre” 2δ

2. Déplacer la fenêtre le long de l’axe horizontal et calculer à chaque


fois la moyenne des yi tels que xi se trouve dans la fenêtre

Autrement dit:

f (x) = moyenne des yi tels que xi ∈ [x − δ, x + δ].

16
Ce qui donne:

Tailles et poids

75
● ● ●


● ● ● ●

70

● ●

● 22
● ● ●

● ●
65
Poids

● ● ● ● ● ●

● ●

60

● ●
● 23

● ●
34
● m(●p11, p22, p●23, p34, p31)
55


11●31
50

160 165 x−δ x x+δ 180 185 190


Taille
Pour obtenir un résultat plus lisse, on peut pondérer la moyenne des points dans la
fenêtre par δ - distance au centre de la fenêtre. Cette moyenne est notée mp (moyenne
pondérée) sur la figure.
17
Ce qui donne:

Tailles et poids

75
● ● ●


● ● ● ●

70

● ●

● 22
● ● ●

● ●
65
Poids

● ● ● ● ● ●



mp(p11, p22, p23, p34, p31) ●
60

● ●
● 23

● ●
34
● ● ●
55


11●31
50

160 165 x−δ x x+δ 180 185 190


Taille
Pour obtenir un résultat plus lisse, on peut pondérer la moyenne des points dans la
fenêtre par δ - distance au centre de la fenêtre. Cette moyenne est notée mp (moyenne
pondérée) sur la figure.
18
4. Régression linéaire

Souvent on préfère choisir un modèle plus simple que la moyenne mobile


pour décrire la relation entre deux variables. L’avantage est qu’un modèle
plus simple sera plus facile à interpréter. Un modèle très courant est celui
de la régression linéaire, où la fonction y = f (x) est une droite. On
appelle cette droite la droite de régression.

→ Quelle droite choisir?


→ → Celle qui “colle” le mieux aux données, selon un certain critère.

Critère généralement utilisé: critère des moindres carrés.


→ → Choisir la droite qui minimise la somme des carrés des distances
entre la droite et les observations.
19
Exemple:
Tailles et poids

Somme des carrés = 6960.9


80 Somme des carrés = 2108.8
Somme des carrés = 1419.9 ●

● ● ●


● ● ● ●

70

● ●
Poids

● ● ● ●

● ●
● ● ● ● ● ●

● ●

60

● ●
● ●
● ●
● ● ●



50

160 165 170 175 180 185 190


Taille

20
Exemple:
Tailles et poids

Somme des carrés = 6960.9


80 Somme des carrés = 2108.8
Somme des carrés = 1419.9 ●

● ● ●


● ● ● ●

70

● ●
Poids

● ● ● ●

● ●
● ● ● ● ● ●

● ●

60

● ●
● ●
● ●
● ● ●



50

160 165 170 175 180 185 190


Taille

21
Exemple:
Tailles et poids

Somme des carrés = 6960.9


80 Somme des carrés = 2108.8
Somme des carrés = 1419.9 ●

● ● ●


● ● ● ●

70

● ●
Poids

● ● ● ●

● ●
● ● ● ● ● ●

● ●

60

● ●
● ●
● ●
● ● ●



50

160 165 170 175 180 185 190


Taille

22
Pour la régression d’une variable Y par rapport à une variable X,
l’ordonnée à l’origine (ou intercept) β̂0 et la pente β̂1 de la droite des
moindres carrés peuvent être calculés analytiquement et sont donnés par
les formules suivantes:
s(Y )
β̂1 = r(X, Y ) ,
s(X)

β̂0 = m(Y ) − β̂1m(X).


β̂1 est le coefficient de régression associé à la variable X et quantifie
l’association entre X et Y . On voit qu’il est égal à la corrélation multipliée
pas le rapport des écarts types de Y et X. Il dépend donc des unités de
Y et de X.

23
Cas des tailles et des poids:
Tailles et poids

^
β1= 0.54 kg/cm

75
● ● ●


● ● ● ●

70 ● ●

● ● ● ●

● ●
65
Poids

● ● ● ● ● ●

● ●

60

● ●
● ●
● ●
● ● ●
55



50

160 165 170 175 180 185 190


Taille

Le coefficient de régression s’interprète de la façon suivante: à un accrois-


sement de la taille de 1 cm correspond en moyenne un accroissement du
poids de 0.54 kg.
24
Terminologie et définitions:
• Dans le contexte de la régression, on convient d’appeler Y la variable réponse ou
la variable dépendante et X la variable explicative ou la variable indépendante.
• Lorsqu’on calcule les valeurs de β̂0 et de β̂1, on fait une estimation d’un modèle
sous-jacent que l’on postule au niveau de la population:

Y = β0 + β1X + ε,
où β0 et β1 sont les vraies valeurs de l’intercept et de la pente au niveau de la
population et ε est une variable appelée l’erreur. En statistique, on utilise souvent
le “ˆ” (chapeau) pour indiquer qu’une variable est une estimation d’un paramètre.
• Ŷ = β̂0 + β̂1X est la variable des réponses calculées. (ŷi est la valeur sur la
droite correspondant à xi.)
• ε̂ = Y − Ŷ est la variable des résidus.

Propriétés
Y = Ŷ + ε̂

réponse observée = réponse calculée + résidu
• La droite des moindres carrés passe par le point (m(X), m(Y )).
• La somme des résidus est nulle: ε̂i = 0.
P
25
Différence entre corrélation et coefficient de régression

Corrélation et coefficient de régression sont deux mesures complémentaires de


l’association entre deux variables. Ils renseignent chacun sur un aspect différent de la
relation entre les deux variables: la corrélation informe sur la précision avec laquelle
on peut prédire l’une à partir de l’autre, tandis que le coefficient de régression mesure
l’importance de l’“effet” moyen de l’une sur l’autre.

Regardons cela de plus près.

26
Corrélation

Pour comprendre l’information délivrée par le coefficient de corrélation, nous allons tout
d’abord nous intéresser à la précision avec laquelle on peut prédire la valeur de Y pour
un individu quelconque, sans rien connaı̂tre de X. Cette information nous est donnée
par l’intervalle de prédiction défini comme

m(Y ) ± 2s(Y ).
On peut montrer en effet que cet intervalle contient environ 95% des observations si
les données suivent une distribution normale, ou modèle de Gauss, hypothèse que nous
ferons. (Le modèle de Gauss sera présenté en détail au chapitre 7.)
Si des observations de X sont disponibles, on peut améliorer cette prédiction en utilisant
la relation entre X et Y . Un nouvel intervalle de prédiction pour la valeur de Y pour
un individu dont on connaı̂t la valeur x de X est donné par

β̂0 + β̂1x ± 2s(ε̂).


A nouveau, on peut montrer que cet intervalle contient environ 95% des observations
(sous le modèle de Gauss).
Les figures des pages suivantes illustrent la situation.
27
Intervalles de prédiction

80
m(Y) + 2s(Y)

75




70 ●




65
Y = Poids


m(Y) 4s(Y)



60





55



50


m(Y) − 2s(Y)

28
Intervalles de prédiction

80

^ ^

75
β0 + β1X
● ● ●

● 2s(ε^)
● ● ● ●

70 ● ●

● ● ● ●

● ●
65
Y = Poids

● ● ● ● ● ●
4s(Y)

● 4s(ε^) 2s(ε^)


60

● ●
● ●
● ●
● ● ●
55


Gain de précision

50

160 165 170 175 180 185 190

X = Taille

29
Les précisions des prédictions avec et sans connaissance de X sont donc respectivement
de 4s(ε̂) et 4s(Y ). Le gain de précision, rapporté à la précision initiale, est donc égal à
s(Y )−s(ε̂)
s(Y )
. Il s’agit du pourcentage de réduction de l’intervalle de prédiction, lorsqu’on
utilise l’information fournie par X. Or, on peut démontrer qu’il existe la relation suivante
entre le pourcentage de réduction et la corrélation:
s(Y ) − s(ε̂)
q
=1− 1 − r2(X, Y ).
s(Y )
100%

80%
s(Y) − s(^ε)

60%
s(Y)

40%

20%

0%

−1.00 −0.75 −0.50 −0.25 0.00 0.25 0.50 0.75 1.00


r(X,Y)

Plus la corrélation est proche de 1 ou -1, plus la réduction de l’intervalle de prédiction est
importante, et donc meilleure est la prédiction de Y à l’aide de X. Pour une corrélation
nulle, il n’y a aucun gain de précision lorsqu’on utilise X pour prédire Y .
30
Coefficient de régression
Le coefficient de régression mesure l’importance de l’“effet” moyen d’une variable sur
l’autre, représenté par la pente de la droite de régression. Plus la pente est forte (en
valeur absolue), plus le changement moyen de Y associé à un changement donné de X
est important.

Comme dit précédemment, corrélation et coefficient de régression sont deux mesures


complémentaires de l’association entre deux variables. Une forte amélioration de la
prédiction n’implique pas un fort effet moyen, et vice versa.
La page qui suit illustre ce fait. On y a représenté quatre situations avec différentes
combinaisons de valeurs faibles et fortes de la corrélation et du coefficient de régression.
Des bandes de largeur 4s(ε̂) autour de la droite de régression et de largeur 4s(Y )
autour de la moyenne de Y représentent la précision de la prédiction avec et sans
connaissance de X.

31
^ s(Y) − s(^ε) ^ s(Y) − s(^ε)
r = 0.95, β1 = 2.86, = 0.7 r = 0.4, β1 = 2.85, = 0.09
s(Y) s(Y)

30

30

● ●

● ●


● ●● ●●
● ●

● ●● ●

20

20
● ● ●
● ● ● ●
● ●
● ● ●● ● ●● ●
● ● ●● ● ● ● ●
●● ●
● ● ●


● ● ●●
●●
●● ● ● ●● ●●
●●●● ● ● ● ● ● ●
● ● ● ● ● ●
● ● ●● ● ●●● ●
● ● ● ●
● ●●● ● ●●
● ● ● ● ● ● ●●● ● ●●
● ● ●
●● ●● ●● ● ●
● ●● ● ● ● ● ● ●● ●●● ●●● ●
●●
● ●● ● ● ● ●●● ●●●
●● ●
●●●●●●●● ●● ● ● ●● ● ● ● ● ●
●●●●
●●
● ●
●●


●●
●●
●●●●
●●
●●
● ● ● ● ● ● ● ● ●● ● ●
●●● ● ● ● ●
● ●●
●● ● ●●
●● ●● ● ●● ●● ●● ● ●●

●● ●
● ●
●●●●
● ● ● ● ● ● ●● ● ● ●●
● ●
10

10
● ● ●●
●●●●
●●●●●●●
●●●● ● ● ● ● ●● ●
●●● ●●●●


●●
●● ●
●●
●●
●●
●●

●●
●●●● ●
●●● ●
●●● ● ● ●●
● ● ●●
● ● ● ● ●● ●


● ● ●
●●● ●●●
●●
●●
●●

●●



●● ●●●
●● ●●●
●●●●●● ●● ● ●● ●● ●● ●●● ● ● ●●
●● ● ●
●● ●●
● ●●●● ●


●●●●●


●●●


●●●●
●●


●●
●●● ● ●●

●● ● ●● ● ●● ● ● ●●●

● ● ●●●●
●●


●●
● ●● ●● ● ● ●● ●●● ● ●
● ●● ●

●●
●●

●●

● ●●

●●●
●●

● ●●
●● ●
●●

●●●●● ● ●

● ● ● ● ● ●●● ● ● ●● ●●●●● ●


●●●●●●
●● ●
●●
● ● ● ●●
● ●●
●● ● ●● ● ● ● ●● ●● ● ● ● ● ●
●●
●●●●
●●●●●●●
●●


●●● ●●●
●●●● ●
● ●
●● ● ●● ●
● ● ●●
● ●●● ●
●● ● ● ● ● ●
● ● ●● ●●●●● ●●● ● ● ●●● ●● ● ●● ●●●●● ●

●● ●●●●●

● ●●
●● ●●
●●●●●●
● ● ● ● ●● ● ●●●● ●● ● ●● ● ● ●
●● ●●● ●●●

●● ● ● ● ● ●●●● ● ● ● ●●●● ●
●● ● ●
●●
● ●
●●●●●●●●

● ● ●
● ● ● ●●●● ●●
● ●●
● ●
●● ● ● ● ●● ● ● ●●●
● ●●● ● ● ● ● ●● ● ●● ● ● ● ●●
● ● ● ●
● ● ● ● ● ● ●● ● ● ● ●
● ● ● ● ● ●●
● ●
Précision: ● ●●
● ● ● ● ●
0

0
● ● ● ● ●● ●
● ●
● ● ●● ●● ●● ●●

● ●

● ● ● ● ● ●
● ● ● ●● ● ● ●● ● ● ●
● ●●● ● ● ●
● ●
● ● ● ●●● ● ●
Sans connaître x: m(Y) +/− 2s(Y) ●
● ●

● ●● ●



● ●
^ ^
En connaissant x: β0 + β1x +/− 2s(^ε)
−10

−10


0 1 2 3 4 5 6 0 1 2 3 4 5 6

^ s(Y) − s(^ε) ^ s(Y) − s(^ε)


r = 0.95, β1 = 0.95, = 0.7 r = 0.4, β1 = 0.95, = 0.09
s(Y) s(Y)
30

30
20

20
10

10
● ● ●
● ●
●●
● ● ●●● ● ● ●● ● ●●

● ● ● ● ●● ● ●● ●
●●
●● ● ●● ●●● ●●● ●●● ● ● ● ● ●● ● ●
● ●
● ●●● ● ● ●
● ● ●●●

●●●●
● ● ●
●● ● ● ●

● ● ● ●●●● ● ● ● ●
● ●

● ●● ●● ●●●●●
●●● ●● ● ● ● ●●
● ●● ●●●
● ● ● ●●●● ●●
●● ●●●●●●●
●● ● ● ●●●
● ●●● ●●
●●
●●●●
●●
●●●

●●●●●
●●


●●










●●

●●


●●

●●●
●●
●●

●●●


● ●● ●●●
● ●
● ● ●● ● ● ● ● ●●●● ● ● ●
●●●

●●
● ●
●●
●●●
●●



● ● ●
● ● ●●● ●●
● ●● ● ●
● ●
●●●


●●


●●
●●








●●


●●

●●
●●

●●













●●

●●






●●

●●









●●




●●
● ●

●●●●

● ●
● ●● ●
● ● ● ●● ●

●●●●
● ●




●● ●●●●●


● ●●
●● ●
●● ●

● ● ●
●● ●
●●
●●
●●
●●● ●
●●●
●●
●●●●
●●
●●

●● ●
●● ●
● ●● ● ●● ● ●● ●●●● ●●● ●●● ●●● ● ● ●
●●● ● ● ● ● ● ●
●●● ●●●

● ●
●●

●●●
● ●

●●
● ●
●●
●●

●●
● ●
●●
●● ●
● ● ● ● ● ●
●● ● ●●
● ●●●●●
●●
● ●●● ●●●●● ●● ●
● ● ● ●●●
● ●●●●●
●●●●
●●●●●●
●●●●
●●

●●●
● ●
●●
● ●
●● ● ● ● ● ●●● ●● ●●● ● ●●●● ●● ●
●● ● ●
●●●
●●●●
●●● ●●●●● ●●●●●●●●● ● ●
● ●● ●
●●
●● ● ●●●
●●
● ●


● ● ●● ●
● ●●●● ●● ●●● ● ●
● ● ●
●● ●● ● ●● ●

●●●●●● ●●●
● ●●● ● ●●
●● ● ● ● ●
● ● ● ●
0

● ● ● ● ● ●● ● ● ● ●
● ●
●● ●● ●
● ● ● ●● ●● ●●●●
● ●● ●●● ●●●● ●● ● ● ● ●
●●● ● ●● ●
● ●● ●

● ●● ● ● ●● ● ●●● ● ● ●
● ●
● ●
● ●

−10

−10

0 1 2 3 4 5 6 0 1 2 3 4 5 6
32
Commentaire sur la page précédente:
• Dans les graphiques du haut, la taille de l’“effet” moyen de X sur Y est plus
grande que dans les graphiques du bas (pente plus élevée: changement moyen
plus grand de Y avec X).
? Si on cherche à influencer la réponse en agissant sur la variable X, les
situations du haut sont plus favorables. Ex.: Y = dextérité au piano (nb
notes par minute), X = nb heures de pratique hebdomadaire.
? Attention: le coefficient de régression dépend des unités dans lesquelles X et
Y sont mesurés.
• Dans les graphiques de gauche, la réduction de la variabilité de la réponse
offerte par la régression est plus importante que dans les graphiques de droite.
? Si on cherche à prédire Y grâce à X, les situations de gauche sont plus
favorables. Ex.: Y est une mesure de la pression intracrânienne précise mais qui
nécessite une perforation crânienne, et X est une nouvelle méthode de mesure
ne nécessitant pas de perforation mais potentiellement moins précise. Peut-on
remplacer Y par X, autrement dit: la connaissance de X nous informe-t-elle
précisément sur Y ?
? La corrélation ne dépend pas des unités de mesure de X et de Y .
33
5. Ajustement
(Ce chapitre est présent pour information, il ne fait pas partie de la matière d’examen.)

Reprenons l’exemple des tailles et des poids:


Tailles et poids

^
75 β1= 0.54 kg/cm ● ● ●


● ● ● ●

70

● ●

● ● ● ●

● ●
65
Poids

● ● ● ● ● ●

● ●

60

● ●
● ●
● ●
● ● ●
55



50

160 165 170 175 180 185 190


Taille
On trouve donc un coefficient de régression égal à 0.54 kg/cm.

Avons-nous correctement identifié la relation entre le poids et la taille dans la population?


34
La notion d’ajustement

Lors de l’interprétation d’un coefficient de regression, on pourrait être


tenté d’insuffler une notion de causalité du genre de“si par une intervention
je parviens à augmenter X d’une unité, Y augmentera de β1”. D’ailleurs,
un paramètre de régression est souvent appelé un effet.
Il convient de rester très prudent à ce sujet pour différentes raisons:
• La regression ne fait que mettre en évidence une association
moyenne entre deux variables, mais ne donne aucun argument pour
conlure que “X cause Y ”: la relation causale pourrait tout à fait
aller dans l’autre sens
• Même en présence d’arguments excluant une des directions, la
prudence est de mise: une ou plusieurs autres variables pourrai(en)t
35
causer Y , ou X, ou les deux, totalement ou en partie.
La causalité est de façon générale une question complexe. Pour s’en
approcher, on peut suivre l’approche suivante:

1. Identifier et mesurer les principales variables susceptibles d’influencer


Y , appelées facteurs confondants

2. Estimer un effet ajusté, correspondant à l’augmentation moyenne


de Y lorsque X augmente d’une unité et que toutes les autres
variables restent fixées
Idée: si l’on pouvait ajuster pour tous les facteurs confondants, l’effet
ajusté pourrait avoir une interprétation causale (bien que la direction reste
à déterminer).

36
Pour calculer un effet ajusté, on utilise la régression linéaire multiple.
Admettons que, souhaitant mesurer l’effet de X sur Y , on ait identifié la
variable Z comme facteur confondant potentiel. On considérera le modèle
de régression multiple suivant:

Y = β0 + β1X + β2Z + ε.

Ainsi, β1 pourra s’interpréter comme le changement moyen de Y lorsque


X augmente d’une unité et que Z reste fixé.
Soient β̂0, β̂1 et β̂2 les estimations de β0, β1 et β2 réalisées à partir des
données. On définit les résidus de façon analogue à la régression simple
comme
εˆi = yi − β̂0 − β̂1xi − β̂2zi.
Et comme en régression simple les estimations β̂0, β̂1 et β̂2 sont
déterminées de façon à minimiser la somme des carrés des résidus.
37
Reprenons l’exemple des tailles et des poids. L’échantillon contenait en
fait des hommes et des femmes.
Le poids est lié au sexe, la variable Sexe est donc un facteur confondant
potentiel. On construit donc le modèle suivant:

P oids = β0M + β1M · T aille + β2 · Sexe + ε,

où on a codé la variable Sexe de la façon suivante:


• Sexe = 0: Hommes
• Sexe = 1: Femmes
Ce modèle nous fournira deux droites de même pente β̂1M , une pour les
hommes et une pour les femmes:
ˆ
• P oids|Homme = β̂0M + β̂1M · T aille
ˆ
• P oids|F emme = β̂0M + β̂1M · T aille + β̂2 38
Résultat:
Tailles et poids: ajustement pour le sexe

Hommes
Femmes

75
● ● ●


● ● ● ●

70
● ●

● ● ● ●

● ●
65

● ● ● ● ● ●
Poids

● ●

60

● ●
● ●
● ●
● ● ●
55


^
β1M = 0.37 kg/cm
50


^
● β1 = 0.54 kg/cm
160 165 170 175 180 185 190
Taille

β̂1M est le coefficient associé à la taille, ajusté pour le sexe (modèle multiple)
β̂1 est le coefficient associé à la taille, non ajusté (modèle simple)
39
En ajustant pour le sexe, le coefficient de régression est donc passé de
0.54 kg/cm à 0.37 kg/cm. En n’ajustant pas pour le sexe, on surestimait
l’effet de la taille sur le poids.

On peut aussi voir le problème dans l’autre sens:


Question: les hommes sont-ils plus lourds que les femmes?
→ La différence des poids moyens des hommes et des femmes est de 9.52
kg.
Question plus intéressante: à taille égale, les hommes sont-ils plus lourds
que les femmes?
→ En ajustant pour la taille, cette différence n’est plus que de 3.96 kg.

40
Sexe et poids: ajustement pour la taille

Hommes
Femmes
75
● ● ●


● ● ● ●

70

● ●

● ● ● ●

● ●
65

● ● ● ● ● ●
Poids

3.96 kg
9.52 kg
● ●

60

● ●
● ●
● ●
● ● ●
55



50

160 165 170 175 180 185 190


Taille

41
Autre exemple d’ajustement:
Comparaison du taux de créatine entre un groupe de n1 = 31 femmes
atteintes d’une maladie génétique et un groupe contrôle de n0 = 39
femmes non atteintes de cette maladie. On considère le log du taux pour
s’approcher d’un modèle de régression linéaire.
Question: un taux de créatine élevé est-il un symptôme (i.e. une
conséquence) de la maladie?
→ Différence entre les log-taux moyens des groupes: 1.05
Mais le groupe malade est nettement plus âgé que le groupe non malade
et cette différence pourrait être due à l’âge et non à la maladie.
→ En ajustant pour l’âge, la différence diminue (0.87). On peut exclure
que la différence restante soit due à l’âge.

42
Créatine: ajustement pour l'âge

Groupe malades
Groupe contrôle ●


6 ●

● ●

● ●
LogCreatine


5

● ●
● ●

● ●

0.87 ●

● ● ●



● 1.05
● ●

4

● ●

● ● ●

● ● ●
● ● ● ●
● ●
● ● ●
● ●
● ● ●
● ●

● ● ●
● ● ●


3

20 25 30 35 40
Age

43
Chapitre 5: Eléments de probabilités

Sensibilité et spécificité d’un test de diagnostic


Dans une phase d’évaluation, un test est appliqué à un groupe d’individus
“malades” et à un groupe d’individus “non malades”. La présence de la
maladie est établie à l’aide d’un test de référence (gold standard) dont le
résultat est considéré comme sûr. Pour chaque individu, on s’intéresse donc
aux caractères suivants:
M = avoir la “maladie”,
M̄ = ne pas avoir la “maladie”,
T = avoir un résultat positif au test,
T̄ = avoir un résultat négatif au test.

On détermine les fréquences absolues (comptages) des quatre résultats


possibles:
M M̄

T nT M nT M̄
T̄ nT̄ M nT̄ M̄

Définitions: Total nM nM̄


nT M
Sensibilité = = proportion de “+” parmi les malades,
nM
n
Spécificité = T̄ M̄ = proportion de “−” parmi les sains.
nM̄

Exemple

Le test a été administré à 1000 personnes avec M


et à 1000 personnes sans M :

M M̄

T 950 10
T̄ 50 990

Total 1000 1000


Donc:
950 990
Sensibilité = = 95%, Spécificité = = 99%.
1000 1000

Remarque
La “précision” des valeurs obtenues (“estimations”) dépend du nombre d’individus
testés. Cet aspect n’est pas traité ici.

Problème
Supposons que la sensibilité et la spécificité d’un certain test soient:

Sensibilité = 95%
Spécificité = 99%.

Le médecin applique ce test à un patient et obtient un résultat positif.


Quelle est la probabilité que le patient soit réellement malade ?

Pour résoudre ce problème une information supplémentaire est nécessaire: la


fréquence (relative) de la maladie M dans la population ou prévalence.
Supposons que
1
Prévalence = .
10 000

La prévalence de M dans la population est la probabilité a priori (avant


connaissance du résultat du test) que le patient soit malade.
Pour résoudre ce problème, il conviendra d’utiliser les concepts fondamentaux
et le formalisme du calcul des probabilités.
Concepts de calcul de probabilités
Définitions
Considérons une population de taille N et soit NA le nombre d’individus avec
le caractère A. Supposons le tirage au sort d’un individu.

Population
N individus au total
NA individus avec A

La probabilité de tirer un individu avec A est:


NA
P (A) = .
N
On dit aussi que P (A) est la probabilité de l’événement A. Dans notre
définition elle est égale à la proportion d’individus avec A.
Supposons maintenant que les individus aient un deuxième caractère B, et
indiquons par NAB le nombre d’individus avec les deux caractères A et B
simultanément.
La probabilité conjointe de A et B est: Population

NAB
P (A ∩ B) = . A
N
La probabilité conditionnelle de B sachant que A est:
NAB
P (B|A) = . A et B
NA
C’est la proportion d’individus avec B (et A)
dans la sous-population d’individus avec A. B

On dit que A et B sont indépendants si:

P (B|A) = P (B).
Propriétés mathématiques élémentaires des probabilités
• 0 ≤ P (A) ≤ 1 pour tout événement A.
• Si Ā signifie “ne pas avoir A”, alors, pour tout événement A,
P (Ā) = 1 − P (A).

• Si A et B sont des événements incompatibles, c’est-à-dire, tels que A∩B =


∅ (événement impossible), alors:
P (A ∪ B) = P (A) + P (B).

• En général
P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
• Pour tout A et tout B:
P (A ∩ B)
P (B|A) = ,
P (A)
P (A ∩ B)
P (A|B) = .
P (B)
• Si A et B sont indépendants:
P (B|A) = P (B),
P (A|B) = P (A),
P (A ∩ B) = P (A) · P (B).
• Formule de Bayes:
P (A|B)P (B)
P (B|A) = .
P (A)
• Formule de la probabilité totale:
P (A) = P (A ∩ B) + P (A ∩ B̄)
= P (A|B)P (B) + P (A|B̄)P (B̄).
Plus généralement, si B∩C = ∅, C∩D = ∅, B∩D = ∅ et P (B∪C∪D) = 1
(on dit alors que B, C et D forment une partition de la population),
P (A) = P (A ∩ B) + P (A ∩ C) + P (A ∩ D)
= P (A|B)P (B) + P (A|C)P (C) + P (A|D)P (D).
Cette formule se généralise évidemment à une partition en plus de trois
événements.
Solution du problème à l’aide de la formule de Bayes
On veut déterminer

P (M |T ) =Probabilité que le patient soit malade


sachant que le résultat du test est positif.
On sait que:
P (T |M )= 95% = sensibilité,
P (T̄ |M̄ )= 99% = spécificité,
P (M ) = 1/10 000 = prévalence,
et donc
P (T |M̄ ) = 1% P (M̄ ) = 9 999/10 000.
Selon les formules de Bayes et de la probabilité totale:

P (T |M )P (M ) P (T |M )P (M )
P (M |T ) = = .
P (T ) P (T |M )P (M ) + P (T |M̄ )P (M̄ )

On obtient:
0.95 × 0.0001
P (M |T ) = = 0.0094.
0.95 × 0.0001 + 0.01 × 0.9999

P (M |T ) est la probabilité a posteriori (après connaissance du résultat du test)


que le patient soit malade.
Solution intuitive
La prévalence de 1/10’000 nous permet d’affirmer que dans une population
hypothétique de 1’000’000 d’individus, on peut s’attendre à 100 malades et
999’900 sains. Le test dépiste 95 cas positifs et 5 cas négatifs parmi les
malades, car sa sensibilité est de 95%. Le test trouve aussi 9’999 résultats
positifs et 989’901 résultats négatifs dans la partie saine de la population.

Population
1 000 000
prev. = 1/10000

100 999 900


malades sains
Sens. = 95% Spec. = 99%

95 5 9 999 989 901


+ − + −
Cas positifs et négatifs attendus dans une population de 1 000 000
Ce schéma peut aussi être représenté dans un tableau de fréquences attendues:
Fréquences attendues

malades sains Total

positifs 95 9 999 10 094


négatifs 5 989 901 989 906

Total 100 999 900 1 000 000


En conclusion, la proportion de malades parmi les cas positifs est de 95/10’094,
ce qui indique que les chances q’un individu positif au test soit réellement
malade sont seulement de 0.0094 (≈ 1%). Assurez-vous qu l’on trouve les
mêmes proportions si la taille de la population est changée, par exemple
4’000’000.
Terminologie

P (T |M ) = sensibilité du test,
P (T̄ |M̄ ) = spécificité du test,

P (M |T ) = valeur prédictive positive du test,


P (M̄ |T̄ ) = valeur prédictive négative du test,

P (T |M̄ ) = taux de faux positifs = 1 − spécificité,


P (T̄ |M ) = taux de faux négatifs = 1 − sensibilité.

Attention: pour certains auteurs:

taux de faux positifs = P (M̄ |T ),


taux de faux négatifs = P (M |T̄ ).

Vérifiez donc toujours la définition utilisée !

Le rôle de la prévalence
Il est souvent difficile de connaı̂tre P (M ) avec précision. Il convient alors
d’examiner le test pour différentes valeurs de P (M ).
Par exemple, si P (T |M ) = 0.95 et P (T̄ |M̄ ) = 0.99, on obtient:

P (M ) P (M̄ |T ) P (M |T̄ )
1/1 000 000 0.9999 0.00000
1/100 000 0.9991 0.00000
1/10 000 0.9906 0.00001
1/1000 0.9132 0.00005
1/500 0.8401 0.00010
1/200 0.6769 0.00025
1/100 0.5103 0.00051

Le taux P (M |T̄ ) est faible: dans le pire des cas (P (M ) = 1%), sur 10 000
tests négatifs, environ 5 correspondent à des patients atteints. Par contre le
taux P (M̄ |T ) est élevé (> 50%): sur 100 individus positifs plus de 50 sont
sains. La décision de maintenir un tel test dépendra de l’importance de la
maladie, des conséquences du test, des coûts des examens complémentaires et
de l’éventuel traitement, des chances de succès du traitement, etc.
Il est parfois possible de réduire les taux d’erreur en combinant deux (ou
plusieurs) tests.
Evaluation basée sur un seul échantillon
Dans certaines études d’évaluation, on ne considère pas deux groupes séparés
(malades et non malades) de tailles fixées (nM et nM̄ ): un seul échantillon de
taille n est étudié; ses éléments sont classés dans les quatres cases du tableau:

M M̄ Total

T nT M nT M̄ nT
T̄ nT̄ M nT̄ M̄ nT̄

Total nM nM̄ n

On obtient
P (M ∩ T ) nT M
Sensibilité = P (T |M ) = ≈ ,
P (M ) nM
P (M̄ ∩ T̄ ) n
Spécificité = P (T̄ |M̄ ) = ≈ T̄ M̄ ,
P (M̄ ) nM̄
P (M ∩ T ) nT M
Valeur préd. pos. = P (M |T ) = ≈ ,
P (T ) nT
P (M̄ ∩ T̄ ) n
Valeur préd. neg. = P (M̄ |T̄ ) = ≈ T̄ M̄ .
P (T̄ ) nT̄
Chapitre 6: Variables aléatoires

1. Définition
2. Distribution d’une variable aléatoire discrète
3. Distribution d’une variable aléatoire continue
4. Fonction de distribution cumulative
5. Espérance
6. Variance et écart-type
7. Quantiles
8. Distribution conjointe et indépendance
9. Covariance et corrélation
1
1. Définition
Pour étudier des variables et faire de l’inférence (extrapolation des résultats observés sur
un échantillon à la population), nous allons nous servir d’outils mathématiques appelés
des variables aléatoires.

Définition
Une variable aléatoire est une fonction mathématique qui associe un résultat,
généralement un nombre réel, à chaque issue possible d’une expérience.

Exemples:
1. Expérience: jet d’une pièce de monnaie.
Ensemble des issues possibles: {Pile, Face}.
Variable aléatoire: X: {Pile, Face} → R définie par
X(Pile) = 0; X(Face) = 1.
2. Expérience: tirage d’un invididu dans une population
Ensemble des issues possibles: U = Ensemble des individus dans la population
Variable aléatoire: P : U → R définie par
P (individu i) = poids de l’individu i.
2
De même que pour les variables considérées jusqu’ici, les valeurs possibles d’une variable
aléatoire sont appelées ses modalités.

Les variables aléatoires seront désignées par des lettres majuscules et leurs modalités par
des lettres minuscules.

Et comme précédemment, on parlera de variable aléatoire discrète si les modalités sont


dénombrables (ex. 1 de la slide précédente) et de variable aléatoire continue si elles ne
le sont pas (ex. 2).

Et à nouveau, on utilisera les mêmes notations (lettres minuscules) pour désigner les
modalités d’une variable aléatoire et sa valeur sur l’issue d’une expérience.

3
2. Distribution d’une variable aléatoire discrète
A chaque modalité d’une variable aléatoire, on peut associer une probabilité. Dans l’ex. 1
ci-dessus, si on considère que la pièce est équilibrée, on définira

P (X = 0) = 0.5, P (X = 1) = 0.5.
Autre exemple: jet d’un dé
• Expérience: jet du dé
Ensemble des issues possibles: V ={face 1, face 2, face 3, face 4, face 5, face 6}
Variable aléatoire: D: V → R définie par

D(face i) = i.
Si on considère que le dé est équilibré, on définira

P (D = i) = 1/6, i = 1, ..., 6.
La distribution d’une variable aléatoire discrète Y dont les modalités sont y1, y2, ... est
définie comme l’ensemble des couples

(y1, p1), (y2, p2), ...,


où pi est la probabilité associée à la modalité yi.
4
3. Distribution d’une variable aléatoire continue
Considérons la variable P (poids d’un individu) et considérons un échantillon de
taille n tiré d’une population. Pour représenter graphiquement la distribution des
poids dans notre échantillon, nous avons vu qu’on peut utiliser un histogramme:
15

13
n = 50
Fréquence absolue
10

9
8
7

4
5

3 3
2
1
0

60 65 70 75 80 85 90
Poids [kg]

Sur cet histogramme, la hauteur d’une barre est égale à la fréquence absolue (comptage)
des observations dans l’intervalle correspondant.

5
Alternative: construire l’histogramme de façon à ce que la surface d’une barre soit égale
à la fréquence relative (proportion) des observations dans l’intervalle correspondant.
Pour atteindre ce but, il faut que la hauteur hi d’une barre soit égale à la fréquence
relative fi divisée par la largeur l de l’intervalle: hi = fi/l. Ainsi sa surface si vaudra
f
si = hi · l = i · l = fi.
l
0.15

(13/50)/2
n = 50
l = 2 kg
0.10

(9/50)/2
Densité

(8/50)/2
(7/50)/2
0.05

(4/50)/2
(3/50)/2 (3/50)/2
(2/50)/2
(1/50)/2
0.00

60 65 70 75 80 85 90
Poids [kg]

On voit que la forme de l’histogramme reste la même, seule l’échelle de l’axe vertical
change. Cet axe est à présent labellisé “Densité”, car ce graphique va nous conduire à la
définition d’une notion très importante: la densité d’une variable aléatoire continue.
6
Que vaut la surface totale de l’histogramme (en mode “densité”) de la slide précédente?
→ La surface d’une barre étant égale à la proportion d’observations dans l’intervalle
correspondant, la surface totale vaut 1.
→ Cette surface peut s’interpréter comme la probabilité de trouver un individu dont le
poids se situe dans l’intervalle correspondant.
Considérons à présent une version lissée de l’histogramme, obtenue en reliant les milieux
des sommets des barres, et plaçons-nous dans le cadre hypothétique d’une population de
taille infinie.
0.15

(13/50)/2
n = 50
0.10

l = 2 kg (9/50)/2
Densité

(8/50)/2
(7/50)/2
0.05

(4/50)/2
(3/50)/2 (3/50)/2
(2/50)/2
(1/50)/2
0.00

60 65 70 75 80 85 90
Poids [kg]

En tirant des échantillons de plus en plus grands et en prenant des intervalles de plus
en plus petits, la courbe verte va tendre vers la courbe de la densité de probabilité (ou
simplement densité) de la variable P .
7
Que vaut la surface totale de l’histogramme (en mode “densité”) de la slide précédente?
→ La surface d’une barre étant égale à la proportion d’observations dans l’intervalle
correspondant, la surface totale vaut 1.
→ Cette surface peut s’interpréter comme la probabilité de trouver un individu dont le
poids se situe dans l’intervalle correspondant.
Considérons à présent une version lissée de l’histogramme, obtenue en reliant les milieux
des sommets des barres, et plaçons-nous dans le cadre hypothétique d’une population de
taille infinie.
0.15

n = 200
0.10
Densité
0.05
0.00

60 65 70 75 80 85 90
Poids [kg]

En tirant des échantillons de plus en plus grands et en prenant des intervalles de plus
en plus petits, la courbe verte va tendre vers la courbe de la densité de probabilité (ou
simplement densité) de la variable P .
8
Que vaut la surface totale de l’histogramme (en mode “densité”) de la slide précédente?
→ La surface d’une barre étant égale à la proportion d’observations dans l’intervalle
correspondant, la surface totale vaut 1.
→ Cette surface peut s’interpréter comme la probabilité de trouver un individu dont le
poids se situe dans l’intervalle correspondant.
Considérons à présent une version lissée de l’histogramme, obtenue en reliant les milieux
des sommets des barres, et plaçons-nous dans le cadre hypothétique d’une population de
taille infinie.
0.15

n = 1600
0.10
Densité
0.05
0.00

60 65 70 75 80 85 90
Poids [kg]

En tirant des échantillons de plus en plus grands et en prenant des intervalles de plus
en plus petits, la courbe verte va tendre vers la courbe de la densité de probabilité (ou
simplement densité) de la variable P .
9
Que vaut la surface totale de l’histogramme (en mode “densité”) de la slide précédente?
→ La surface d’une barre étant égale à la proportion d’observations dans l’intervalle
correspondant, la surface totale vaut 1.
→ Cette surface peut s’interpréter comme la probabilité de trouver un individu dont le
poids se situe dans l’intervalle correspondant.
Considérons à présent une version lissée de l’histogramme, obtenue en reliant les milieux
des sommets des barres, et plaçons-nous dans le cadre hypothétique d’une population de
taille infinie.
0.15

n = 12800
0.10
Densité
0.05
0.00

60 65 70 75 80 85 90
Poids [kg]

En tirant des échantillons de plus en plus grands et en prenant des intervalles de plus
en plus petits, la courbe verte va tendre vers la courbe de la densité de probabilité (ou
simplement densité) de la variable P .
10
Que vaut la surface totale de l’histogramme (en mode “densité”) de la slide précédente?
→ La surface d’une barre étant égale à la proportion d’observations dans l’intervalle
correspondant, la surface totale vaut 1.
→ Cette surface peut s’interpréter comme la probabilité de trouver un individu dont le
poids se situe dans l’intervalle correspondant.
Considérons à présent une version lissée de l’histogramme, obtenue en reliant les milieux
des sommets des barres, et plaçons-nous dans le cadre hypothétique d’une population de
taille infinie.
0.15

n = 409600
0.10
Densité
0.05
0.00

60 65 70 75 80 85 90
Poids [kg]

En tirant des échantillons de plus en plus grands et en prenant des intervalles de plus
en plus petits, la courbe verte va tendre vers la courbe de la densité de probabilité (ou
simplement densité) de la variable P .
11
Que vaut la surface totale sous la courbe de la densité?
→ Comme on l’a vu sur les slides précédentes, la surface totale de l’histogramme en
mode “densité” vaut 1, et on en déduit que la surface totale sous la courbe densité
vaut 1 elle aussi.

Comment peut-on interpréter la surface sous la courbe densité correspondant à un certain


intervalle?

P(75 < P < 80)


0.08
Densité
0.04
0.00

60 65 70 75 80 85 90
Poids [kg]

→ De façon analogue à l’interprétation de la surface des barres d’un histogramme en


mode “densité”, la surface sous la courbe de la densité d’une variable aléatoire
est égale à la probabilité que la variable prenne une valeur dans l’intervalle
correspondant.
12
A l’aide de la courbe de la densité d’une variable aléatoire, on peut calculer la probabilité
de n’importe quel événement défini avec cette variable:
Probabilité de tirer une personne pesant entre 75 et 80 kg:

0.08
Densité
0.04
0.00

60 65 70 75 80 85 90
Poids [kg]

Soit fP (x) la fonction définissant la courbe de densité de la variable aléatoire P . La


surface hachurée est égale à l’intégrale de fP (x) sur le sous-ensemble correspondant:
Z 80
P (75 < P < 80) = fP (x)dx.
75
= P (80 < P < 85)pourl0espacement

13
A l’aide de la courbe de la densité d’une variable aléatoire, on peut calculer la probabilité
de n’importe quel événement défini avec cette variable:
Probabilité de tirer une personne pesant entre 65 et 70 kg ou entre 80 et 85 kg:

0.08
Densité
0.04
0.00

60 65 70 75 80 85 90
Poids [kg]

Soit fP (x) la fonction définissant la courbe de densité de la variable aléatoire P . La


surface hachurée est égale à l’intégrale de fP (x) sur le sous-ensemble correspondant:

P (65 < P < 70 ∪ 80 < P < 85) = P (65 < P < 70) + P (80 < P < 85)
Z 70 Z 85
= fP (x)dx + fP (x)dx.
65 80

14
A l’aide de la courbe de la densité d’une variable aléatoire, on peut calculer la probabilité
de n’importe quel événement défini avec cette variable:
Probabilité de tirer une personne pesant plus de 80 kg:

0.08
Densité
0.04
0.00

60 65 70 75 80 85 90
Poids [kg]

Soit fP (x) la fonction définissant la courbe de densité de la variable aléatoire P . La


surface hachurée est égale à l’intégrale de fP (x) sur le sous-ensemble correspondant:
Z ∞
P (P > 80) = fP (x)dx.
80
= P (80 < P < 85)pourl0espacement

15
Définition:
La densité de probabilité (ou simplement densité) d’une variable aléatoire continue est
une fonction telle que la surface sous la courbe est égale à la probabilité que la variable
prenne une valeur dans l’intervalle correspondant.

Ainsi:
• La distribution d’une variable aléatoire continue est complètement déterminée par sa
densité.
• N’importe quelle fonction positive avec surface sous la courbe égale à 1 définit une
distribution.

NB: Pour une variable aléatoire continue X, la probabilité de prendre une valeur précise,
n’importe laquelle, est nulle:

P (X = x) = 0 ∀x.
On se rend bien compte en effet que pour un point isolé la surface sous la courbe est
nulle.
Intuitivement: la probabilité de tirer un individu pesant exactement 70 kg (avec une
précision infinie) est nulle.
16
La densité de probabilité est un outil très utilisé pour modéliser la distribution des
variables continues. Dans la pratique, évidemment, les populations n’ont pas une taille
infinie. Néanmoins, les modèles continus présentent de nombreux avantages pratiques et
théoriques et sont très proches de la réalité dans de nombreuses situations.

Dans ce qui suit, on dira souvent simplement variable au lieu de variable aléatoire.
D’ailleurs, une variable au sens des chapitres 2 à 4, lorsqu’on l’observe par le tirage
aléatoire d’une unité d’observation, n’est autre qu’une variable aléatoire dont la
distribution (inconnue) est déterminée par la population.

17
4. Fonction de distribution cumulative
Soit une variable X dont on a observé un échantillon {x1, ..., xn}. Rappel: la fonction
de distribution cumulative empirique de X, Fn(x), est définie comme
nombre de xi ≤ x
Fn(x) = (Fonction en escalier).
n
De façon analogue, la fonction de distribution cumulative FY d’une variable aléatoire Y
est définie comme
FY (y) = P (Y ≤ y).
Une fonction de distribution cumulative a les propriétés suivantes:
• elle est croissante
• elle prend des valeurs entre 0 et 1
• elle tend vers 0 si x tend vers −∞ et vers 1 si x tend vers +∞

On utilise souvent l’abréviation cdf (pour cumulative distribution function).

18
Pour une variable discrète:
• La fonction de distribution cumulative est une fonction en escalier
• Pour une variable de distribution (x1, p1), (x2, p2), ..., la cdf est égale à
X
FX (x) = pi
xi ≤x
Exemple: jet d’un dé

0.8
P(D=d)
0.4

p1 p2 p3 p4
0.0

1 2 3 4 5 6
d
0.8

FD(4) = p1 + p2 + p3 + p4
FD(d)
0.4
0.0

1 2 3 4 5 6
d

19
Pour une variable continue:
• La fonction de distribution cumulative est continue
• Pour une variable de densité fX , la cdf est égale à
Z x
FX (x) = fX (t)dt
−∞
Exemple: poids d’un individu

0.08
fP(p)

P(P ≤ 80)
0.04
0.00

60 65 70 75 80 85 90
p

Fp(80) = P(P ≤ 80)


0.8
FP(p)
0.4
0.0

60 65 70 75 80 85 90
p

20
Pour une variable continue, on a encore que
• fX (x) = dx d F (x)
X
• P (X ≤ x) = P (X < x)

De plus, de façon générale (variable dicrète ou continue):

P (a < X ≤ b) = FX (b) − FX (a).

Notation
Souvent, si aucune confusion n’est possible, on note simplement f (x) pour la densité
et F (x) pour la cdf.

21
5. Espérance
Derrière ce terme poétique se cache une notion assez terre à terre mais très importante
en statistique.
Exemple introductif: Jet d’un dé.
On jette n fois un dé équilibré et on s’intéresse à la moyenne m(D) des points obtenus.
Soit ni la fréquence absolue de la modalité i. m(D) est égale à
1
m(D) = (n1 · 1 + n2 · 2 + ... + n6 · 6)
n
= f1 · 1 + f2 · 2 + ... + f6 · 6,
où fi = ni/n est la fréquence relative de la modalité i.
En augmentant le nombre de jets, les fi vont s’apporcher des pi, les probabilités des
modalités. Pour un dé équilibré, pi = 1/6 ∀i. m(D) va donc s’approcher de
E(D) = p1 · 1 + p2 · 2 + ... + p6 · 6 = 1/6 · (1 + 2 + ... + 6) = 3.5.
E(D) s’appelle la moyenne de population ou espérance de D. Ici, il s’agit de la moyenne
de D dans la population infinie de tous les jets possibles du dé.

De façon générale, pour une variable discrète X de distribution (xi, pi), l’espérance est
définie comme
X
E(X) = xi p i .
i
22
Considérons à présent une variable continue et plaçons-nous à nouveau dans le cadre
hypothétique d’une population infinie, comme lors de l’introduction de la densité.
Exemple introductif: Poids d’un individu.

0.15
n = 50 ~ (P) = 75.2
m

0.10
Densité
0.05
0.00

60 65 70 75 80 85 90
Poids [kg]

A partir de cet histogramme, on peut calculer une approximation du poids moyen dans
l’échantillon avec la formule
X
m̃(P ) = ci di l,
i
où les ci sont les centres des intervalles, les di sont les hauteurs des barres
correspondantes et l est la largeur des intervalles.
Lorsque la taille de l’échantillon augmente et que la largeur des intervalles diminue, m̃
tend vers Z ∞
E(P ) = p fP (p) dp.
−∞
23
Considérons à présent une variable continue et plaçons-nous à nouveau dans le cadre
hypothétique d’une population infinie, comme lors de l’introduction de la densité.
Exemple introductif: Poids d’un individu.

0.15
n = 200 ~ (P) = 74.98454
m

0.10
Densité
0.05
0.00

60 65 70 75 80 85 90
Poids [kg]

A partir de cet histogramme, on peut calculer une approximation du poids moyen dans
l’échantillon avec la formule
X
m̃(P ) = ci di l,
i
où les ci sont les centres des intervalles, les di sont les hauteurs des barres
correspondantes et l est la largeur des intervalles.
Lorsque la taille de l’échantillon augmente et que la largeur des intervalles diminue, m̃
tend vers Z ∞
E(P ) = p fP (p) dp.
−∞
24
Considérons à présent une variable continue et plaçons-nous à nouveau dans le cadre
hypothétique d’une population infinie, comme lors de l’introduction de la densité.
Exemple introductif: Poids d’un individu.

0.15
n = 1600 ~ (P) = 75.08871
m

0.10
Densité
0.05
0.00

60 65 70 75 80 85 90
Poids [kg]

A partir de cet histogramme, on peut calculer une approximation du poids moyen dans
l’échantillon avec la formule
X
m̃(P ) = ci di l,
i
où les ci sont les centres des intervalles, les di sont les hauteurs des barres
correspondantes et l est la largeur des intervalles.
Lorsque la taille de l’échantillon augmente et que la largeur des intervalles diminue, m̃
tend vers Z ∞
E(P ) = p fP (p) dp.
−∞
25
Considérons à présent une variable continue et plaçons-nous à nouveau dans le cadre
hypothétique d’une population infinie, comme lors de l’introduction de la densité.
Exemple introductif: Poids d’un individu.

0.15
n = 12800 ~ (P) = 74.99999
m

0.10
Densité
0.05
0.00

60 65 70 75 80 85 90
Poids [kg]

A partir de cet histogramme, on peut calculer une approximation du poids moyen dans
l’échantillon avec la formule
X
m̃(P ) = ci di l,
i
où les ci sont les centres des intervalles, les di sont les hauteurs des barres
correspondantes et l est la largeur des intervalles.
Lorsque la taille de l’échantillon augmente et que la largeur des intervalles diminue, m̃
tend vers Z ∞
E(P ) = p fP (p) dp.
−∞
26
Considérons à présent une variable continue et plaçons-nous à nouveau dans le cadre
hypothétique d’une population infinie, comme lors de l’introduction de la densité.
Exemple introductif: Poids d’un individu.

0.15
n = 409600 ~ (P) = 75.00601
m

0.10
Densité
0.05
0.00

60 65 70 75 80 85 90
Poids [kg]

A partir de cet histogramme, on peut calculer une approximation du poids moyen dans
l’échantillon avec la formule
X
m̃(P ) = ci di l,
i
où les ci sont les centres des intervalles, les di sont les hauteurs des barres
correspondantes et l est la largeur des intervalles.
Lorsque la taille de l’échantillon augmente et que la largeur des intervalles diminue, m̃
tend vers Z ∞
E(P ) = p fP (p) dp.
−∞
27
Considérons à présent une variable continue et plaçons-nous à nouveau dans le cadre
hypothétique d’une population infinie, comme lors de l’introduction de la densité.
Exemple introductif: Poids d’un individu.

0.15
"n = ∞" E(P) = 75

0.10
Densité
fP(p)

0.05
0.00

60 65 70 75 80 85 90
Poids [kg]

A partir de cet histogramme, on peut calculer une approximation du poids moyen dans
l’échantillon avec la formule
X
m̃(P ) = ci di l,
i
où les ci sont les centres des intervalles, les di sont les hauteurs des barres
correspondantes et l est la largeur des intervalles.
Lorsque la taille de l’échantillon augmente et que la largeur des intervalles diminue, m̃
tend vers Z ∞
E(P ) = p fP (p) dp.
−∞
28
De façon générale, pour une variable continue Y de densité fY l’espérance est définie
comme
Z ∞
E(Y ) = y fY (y) dy.
−∞
Elle s’interprète comme la moyenne de Y dans la population infinie qui a servi à définir
la densité. Dans ce sens, l’espérance est une moyenne de population.
L’appellation “espérance” se justifie par le fait que c’est la valeur qu’on peut espérer
obtenir, en moyenne, lorsqu’on observe la variable.

Propriétés
• Soient X et Y deux variables aléatoires et a, b et c des constantes.

E(aX + bY + c) = aE(X) + bE(Y ) + c


• Soit X une variable et Y = g(X) une transformation de X, où g est une fonction
quelconque. L’espérance de Y est égale à
X
E(Y ) = g(xi) pi
i
dans le cas discret et Z ∞
E(Y ) = g(x) fX (x) dx
−∞
29
dans le cas continu.
6. Variance et écart-type
De même qu’on a défini l’espérance d’une variable aléatoire comme une moyenne
de population, on définit la variance d’une variable aléatoire comme une variance de
population.
Soit X une variable et {x1, ..., xn} un échantillon. Au chapitre 3, nous avons défini la
variance sur cet échantillon comme
n
2 1 X
s (X) = (xi − m(X))2,
n i=1
c’est à dire comme la moyenne des carrés des écarts à la moyenne.
De façon naturelle, on définit donc la variance d’une variable aléatoire comme
 
2
var(X) = E (X − E(X)) .
En considérant (X − E(X))2 comme une transformation de la variable X et en
appliquant les formules de la slide précédente, on obtient
(xi − E(X))2 pi
X
var(X) =
i
dans le cas discret, et Z ∞
var(X) = (x − E(X))2 fX (x) dx
−∞
dans le cas continu.
30
De façon analogue à ce qui a été fait au chapitre 3, on définit l’écart-type sd(X) d’une
variable aléatoire X comme
q
sd(X) = var(X)
(en anglais: standard deviation).

Propriétés de la variance et de l’écart-type


Soit X une variable et a et b des constantes
1. var(X) ≥ 0
2. var(X) = 0 ⇐⇒ X est constante
3. var(a + bX) = b2var(X)
4. var(X) = E(X 2) − E(X)2
Des propriétés analogues pour l’écart-type se déduisent des propriétés ci-dessus. En
particulier sd(a + bX) = |b| sd(X).

31
Exemples
• Jet d’un dé
On a vu que E(D) = 3.5. A l’aide de la propriété 4:

E(D2) = 1/6 · 12 + 1/6 · 22 + ... + 1/6 · 62 = 15.167


et donc
var(D) = E(D2) − E(D)2 = 15.167 − 3.52 = 2.917.
• Soit X une variable continue de densité
(
1 si 0 ≤ x ≤ 1
f (x) =
0 sinon
On dit que X a une distribution uniforme entre 0 et 1. On a
1 21
Z ∞ Z 1
1
E(X) = x f (x) dx = x · 1 dx = x =
−∞ 0 2 0 2

1 31
Z ∞ Z 1
1
E(X 2) = x2 f (x) dx = 2
x · 1 dx = x =
−∞ 0 3 0 3
et donc
var(X) = E(X 2) − E(X)2 = 1/3 − (1/2)2 = 1/12.
32
7. Quantiles
Le quantile qα(X) d’une variable aléatoire X est défini à l’aide de sa fonction de
distribution cumulative FX (x).
• Pour une variable continue, on pose simplement
−1
qα(X) = FX (α),
−1
où FX est la fonction inverse de FX .
α 1
FX(x)
0


x

• Pour une variable discrète, on procède de façon analogue au chapitre 3.

33
8. Distribution conjointe et indépendance
Soient X et Y deux variables discrètes observées simultanément dans la même
population. Soient (xi, pXi) et (yj , pY j ) leurs distributions respectives et définissons

pij = P (X = xi ∩ Y = yj ).
La distribution conjointe de X et Y est définie comme l’ensemble des triplets
(xi, yj , pij ).

Exemple
Soit T la taille d’un individu codée en trois classes (1 = petit, 2 = moyen, 3 = grand) et
S son niveau salarial également codé en trois classes (1 = bas, 2 = moyen, 3 = élevé).
La table ci-dessous donne leur distribution conjointe (estimée dans une population):

S=1 S=2 S=3 Total


T =1 0.10 0.20 0.20 0.50
T =2 0.04 0.08 0.08 0.20
T =3 0.06 0.12 0.12 0.30
Total 0.20 0.40 0.40 1.00
34
Les sommes des lignes et des colonnes définissent les distributions marginales de T et
de S, qui ne sont autres que les distributions individuelles de T et de S.

S=1 S=2 S=3 Total S=1 S=2 S=3 Total


T =1 p11 p12 p13 pT 1 T =1 0.10 0.20 0.20 0.50
T =2 p21 p22 p23 pT 3 T =2 0.04 0.08 0.08 0.20
T =3 p31 p32 p33 pT 3 T =3 0.06 0.12 0.12 0.30
Total pS1 pS2 pS3 1 Total 0.20 0.40 0.40 1

En divisant les colonnes de la table par la probabilité marginale correspondante, on obtient


les distributions conditionnelles de T sachant S:
pij
gi|j = P (T = i | S = j) =
pSj

S=1 S=2 S=3 S=1 S=2 S=3


T =1 g1|1 g1|2 g1|3 T =1 0.50 0.50 0.50
T =2 g2|1 g2|2 g2|3 T =2 0.20 0.20 0.20
T =3 g3|1 g3|2 g3|3 T =3 0.30 0.30 0.30
Total 1 1 1 Total 1 1 1
35
La même opération sur les lignes conduit aux distibutions conditionnelles de S sachant
T.

Sur les tables de la slide précédente on constate que les trois distributions conditionnelles
de T sachant S sont égales, et qu’elles sont égales à la distribution marginale de T . On
en déduit que la distribution de T ne dépend pas de S. On peut montrer que dans
ce cas toutes les distributions conditionnelles de S sachant T sont égales à la distribution
marginale de S (la distribution de S ne dépend pas de T ).

Deux variables présentant cette propriété sont dites indépendantes.

Si deux variables X et Y sont indépendantes, n’importe quel événement défini à partir


de X est indépendant de n’importe quel événement défini à partir de Y :

P (X = xi ∩ Y = yj ) = P (X = xi) · P (Y = yj ).

36
Jusqu’ici nous avons considéré le cas de deux variables discrètes. Le cas de deux variables
continues est un peu plus compliqué, et passe par la définition de la densité conjointe
de deux variables. Nous n’allons pas approfondir ce sujet. Néanmoins, on peut toujours
définir l’indépendance entre deux variables de la façon suivante:
Deux variables sont indépendantes si et seulement si n’importe quel
événement défini à partir de l’une est indépendant de n’importe quel
événement défini à partir de l’autre.

37
9. Covariance et corrélation
La covariance cov(X, Y ) entre deux variables aléatoires X et Y est définie comme
 
cov(X, Y ) = E (X − E(X))(Y − E(Y )) .
Le calcul de la covariance entre deux variables passe par leur distribution conjointe et
peut être compliqué.

La corrélation cor(X, Y ) entre deux variables aléatoires X et Y est définie comme


cov(X, Y )
cor(X, Y ) = .
sd(X)sd(Y )

38
Les propriétés de la covariance et de la corrélation sont similaires à celles du coefficient
de covariance et du coefficient de corrélation introduits au chapitre 4. En particulier:
1. −1 ≤ cor(X, Y ) ≤ 1, ∀X et Y
2. cor(X, Y ) = ±1 ⇐⇒ X = a + bY , a et b des constantes (relation linéaire
entre X et Y )
3. var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y )
4. Si X et Y sont indépendantes, alors cov(X, Y ) = 0 (réciproque pas vraie)
5. cov(X, Y ) = E(XY ) − E(X)E(Y )
Les propriétés 3 et 4 impliquent que la variance de la somme de deux variables
indépendantes est égale à la somme de leurs variances.
La propriété 5 permet de trouver l’espérance du produit de deux variables aléatoires en
connaissant leurs espérances et leur covariance.

39
Chapitre 7: Modèles de distributions
fréquents

1. Modèles discrets
(a) Distribution binomiale

(b) Distribution de Poisson


2. Modèles continus
(a) Distribution normale

(b) Distribution uniforme

(c) Distribution χ2

(d) Distribution t
1
On présente dans ce chapitre les modèles de distributions les plus fréquemment utilisés
comme descriptions approximatives de distributions réelles. La distribution binomiale et
la distribution normale sont particulièrement importantes.

1. Modèles discrets
(a) Distribution binomiale
Considérons une expérience qui n’a que deux issues possibles (ex: jet d’une pièce), et
convenons d’appeler S la première issue (“succès”) et E la seconde (“échec”). Considérons
à présent n répétitions indépendantes de cette expérience et définissons la variable
aléatoire X = “nombre de succès parmi les n répétitions”. La variable X a (ou suit)
une distribution binomiale.
→ De quoi va dépendre la distribution de X?
→ → Du nombre de répétitions n
→ → De la probabilité p de succès à chaque répétition

→ On utilise la notation X ∼ B(n, p).

On dit aussi que la variable X est une variable binomiale.


2
Quelle est la distribution de X?
→ Si n = 1, les issues possibles sont {E} et {S} et on a
P (X = 0) = 1 − p; P (X = 1) = p.
→ Si n = 2, les issues possibles sont {EE}, {ES}, {SE} et {SS} et on a
P (X = 0) = (1 − p)2; P (X = 1) = 2p(1 − p); P (X = 2) = p2.
→ Cas général:
La distribution de X ∼ B(n, p) est donnée par
n
P (X = k) = pk (1 − p)n−k ,
k
où le coefficient binomial est défini comme
n n!
= ,
k k!(n − k)!
n
et n! = 1 · 2 · ... · n (n factoriel). Par convention, 0! = 1. est égal au nombre
k
d’échantillons différents de taille k qu’on peut tirer dans une population de taille n.

Un exemple détaillé de la façon de parvenir à ce résultat se trouve dans la série d’exercices


du chapitre 6.
3
Que valent l’espérance et la variance de X ∼ B(n, p)?

→ Cas n = 1:
• E(X) = 0 · (1 − p) + 1 · p = p
• E(X 2) = 02 · (1 − p) + 12 · p = p
→ var(X) = E(X 2) − E(X)2 = p − p2 = p(1 − p)

→ Cas général:
Plutôt que de faire le calcul en appliquant la définition comme ci-dessus, ce
qui devient très long lorsque n devient grand, constatons que X ∼ B(n, p)
est la somme de n variables indépendantes Xi telles que Xi ∼ B(1, p). En
effet, compter le nombre de succès dans n répétitions d’une expérience revient à
attribuer “1” à chaque succès et “0” à chaque échec et à additionner les résultats
des expériences.

4
Donc,
X = X1 + ... + Xn, Xi ∼ B(1, p)
En appliquant les propriétés de l’espérance et de la variance (chapitre 6), nous obtenons
n
X
E(X) = E(Xi) = np
i=0
car l’espérance d’une somme est égale à la somme des espérances, et
n
X
var(X) = var(Xi) = np(1 − p)
i=0
car la variance d’une somme de variables indépendantes est égale à la somme de leurs
variances.

Terminologie et notation
— Une variable qui suit une distribution binomiale avec n = 1 est appelée une
variable de Bernoulli.
— Souvent, on utilise la notation q = 1 − p, par exemple var(X) = npq pour
X ∼ B(n, p).
5
(b) Distribution de Poisson
Soit λ > 0. Une variable X suit une distribution de Poisson de paramètre λ, ce qu’on
note X ∼ P(λ), si
λk −λ
P (X = k) = e , k = 0, 1, 2, ....
k!
Les modalités d’une variable Poisson sont donc tous les entiers positifs plus 0.

La distribution de Poisson est un cas limite de la distribution binomiale, lorsque n devient


très grand et p très petit. En effet, on peut montrer que pour Y ∼ B(n, p), si n → ∞,
p → 0 et np = λ (np reste constant),
n
k n−k λk −λ
P (Y = k) = p (1 − p) → e .
k k!
Propriétés
→ L’espérance et la variance d’une variable X ∼ P(λ) sont données par
• E(X) = λ
• var(X) = λ
→ Stabilité par addition: soient X1, X2, ..., Xn des variables indépendantes
distribuées selon P(λ1), ..., P(λn) respectivement. Alors
X
X = X1 + X2 + ... + Xn ∼ P( λi).
6
Exemple: “Tant va la cruche à l’eau qu’enfin elle se brise”.

On remplit n = 1000 cruches au même endroit d’une rivière. On fait l’hypothèse que
la probabilité qu’une cruche se brise pendant l’opération est p = 1/1000. Quelle est
la probabilité qu’au moins une cruche se brise?
→ Le nombre X de cruches brisées suit une distribution B(n, p). On trouve donc

P (X ≥ 1) = 1 − P (X = 0)
 1000 
= 1− (0.999)1000
0
= 0.632.
→ L’évaluation de l’expression ci-dessus avec une calculatrice peut poser problème
au niveau de la précision. En utilisant l’approximation X ∼ P(np) = P(1),
on trouve

P (X ≥ 1) = 1 − P (X = 0)
10 −1
≈ 1− e
0!
= 0.632.
7
Les distributions B(1000, 0.001) et P(1) sont représentées ci-dessous, et on voit
qu’elles sont extrêmement similaires.
X ~ B(1000,0.001)

0.3
P(X=x)
0.2
0.1
0.0

0 1 2 3 4 5 6
x

X ~ P(1)
0.3
P(X=x)
0.2
0.1
0.0

0 1 2 3 4 5 6
x

8
Dans la pratique la distribution de Poisson est souvent utilisée pour modéliser des données
de comptage, par exemple le nombre de nouveaux cas de cancer dans une certaine
région pendant une certaine période de temps (en épidémiologie on appelle ce nombre
l’incidence).

Le fait que la distribution de Poisson soit souvent appropriée pour modéliser ce type de
données peut se comprendre de la façon suivante: pour un individu donné, la probabilité
de développer un cancer est faible, mais en considérant une grande population, et en
considérant chaque individu comme une “tentative”, on se retrouve en présence d’un
phénomène où le nombre de “tentatives” est très élevé et la probabilité de “succès” est
très faible, ce qui donne lieu à une distribution de Poisson.

9
1. Modèles continus

(a) Distribution normale


C’est la distribution la plus importante en statistique, pour deux raisons principales:
• De nombreux phénomènes naturels sont modélisables avec des variables normales
• La distribution normale joue un rôle central dans le domaine de l’inférence, comme
nous le verrons dans les derniers chapitres de ce cours.

On dit qu’une variable X a une distribution normale, ou gaussienne, ou de Gauss,


d’espérance µ et de variance σ 2 si sa densité est égale à
(x − µ)2
!
1
f (x) = √ exp − .
σ 2π 2σ 2
On écrit alors X ∼ N (µ, σ 2).

Terminologie: On dit aussi “de moyenne µ” à la place de “d’espérance µ” (comme on


l’a vu, l’espérance est une moyenne de population).
10
Dans le graphe ci-dessous on trouve
• en rouge la densité d’une variable X ∼ N (µ1, σ12)
• en vert la densité d’une variable Y ∼ N (µ2, σ22), avec µ2 > µ1 et σ2 < σ1

fY
≈ 0.95

fX

µ1 − 2σ1 µ1 µ1 + 2σ1

µ2 − 2σ2 µ2 µ2 + 2σ2

Propriétés (valables pour toute variable normale):


• fX est symétrique autour de µ1
• P (µ1 − 2σ1 < X < µ1 + 2σ1) ≈ 0.95
• fY est symétrique autour de µ2
• P (µ2 − 2σ2 < Y < µ2 + 2σ2) ≈ 0.95 11
Distribution normale standard
Une variable X ∼ N (0, 1) i.e. une variable normale de moyenne 0 et de variance 1 est
appelée une variable normale standard ou centrée et réduite. La densité d’une variable
normale standard est communément désignée à l’aide du symbole ϕ(x). D’après la
formule de la page 10, on a
x2
!
1
ϕ(x) = √ exp − .
2π 2
La fonction de distribution cumulative d’une normale standard est communément
désignée à l’aide du symbole Φ(x) et définie comme
t2
Z x !
1
Φ(x) = √ exp − dt.
2π −∞ 2
Les valeurs de Φ(x) s’obtiennent à l’aide d’un logiciel ou de tables.

Standardisation
Soit X ∼ N (µ, σ 2). Alors la variable Z définie comme
X −µ
Z=
σ
a une distribution normale standard.
L’opération ci-dessus s’appelle la standardisation.
12
Exemple de problème
Soit X ∼ N (17, 9). Quelle est la probabilité que X prenne une valeur inférieure à
11?

Pour résoudre ce problème à l’aide d’une table de valeurs de Φ, on va se servir de la


standardisation:
!
X − 17 11 − 17
P (X < 11) = P √ < √
9 9
= P (Z < −2)
= Φ(−2),
où Z ∼ N (0, 1).
La table ne donne la valeur de Φ(x) que pour des valeurs de x supérieures à 0.

13
On se sert donc de la symétrie de la densité normale pour trouver:
Φ(−2) = P (Z < −2) = P (Z > 2) = 1 − P (Z < 2) = 1 − Φ(2).

−2 0

Dans la table, on trouve Φ(2) = 0.9772 et on ontient donc


Φ(−2) = 1 − 0.9772 = 0.0228.

14
On se sert donc de la symétrie de la densité normale pour trouver:
Φ(−2) = P (Z < −2) = P (Z > 2) = 1 − P (Z < 2) = 1 − Φ(2).

−2 0 2

Dans la table, on trouve Φ(2) = 0.9772 et on ontient donc


Φ(−2) = 1 − 0.9772 = 0.0228.

15
On se sert donc de la symétrie de la densité normale pour trouver:
Φ(−2) = P (Z < −2) = P (Z > 2) = 1 − P (Z < 2) = 1 − Φ(2).

−2 0 2

Dans la table, on trouve Φ(2) = 0.9772 et on ontient donc


Φ(−2) = 1 − 0.9772 = 0.0228.

16
Résumé des propriétés importantes de la loi normale:

Soit X ∼ N (µ, σ 2).


• Symétrie: f (x), la densité de X, est symétrique autour de µ, i.e. f (µ − x) =
f (µ + x) ∀x.
• P (µ − 2σ < X < µ + 2σ) ≈ 0.95: une variable normale a une probabilité
d’environ 95% de prendre une valeur dans un intervalle large de 4 écarts types,
centré sur la moyenne. Dans un échantillon, on s’attend donc à trouver environ
95% des observations dans un tel intervalle.
• Standardisation: Z = X−µ σ ∼ N (0, 1).
• Stabilité par addition: Soient X1 ∼ N (µ1, σ12) et X2 ∼ N (µ2, σ22)
indépendantes. Alors X3 = X1 + X2 ∼ N (µ1 + µ2, σ12 + σ22).

17
(b) Distribution uniforme
Soient a et b des constantes. Une variable dont la densité f est donnée par

 1 si x ∈ [a, b]
b−a
f (x) =
 0 sinon
est dite uniforme entre a et b.
f(x)
b−a
1

x
0

a b

L’espérance et la variance d’une variable X uniforme entre a et b sont E(X) = a+b


2
2
et var(X) = (b−a) 12 .
18
(c) Distribution χ2 (écrit “chi carré”, prononcé “ki carré”)
Soient X1, ..., Xn des variables normales standard indépendantes. Soit alors
Y = X12 + ... + Xn2.
La variable Y a une distribution χ2 à n degrés de liberté, ce qu’on note Y ∼ χ2 n . Sa
densité f (y) est une fonction assez compliquée et sa fonction de distribution cumulative
s’obtient à l’aide d’un logiciel ou de tables. L’espérance et la variance de Y sont E(Y ) =
n et var(Y ) = 2n.
n=1
f(y)
1

n=2
n=3
n=4
0.8

n=5
0.6
0.4
0.2

y
0

0 1 2 3 4 5 6 7 8

La distribution χ2 s’utilise dans certains procédés d’inférence que nous verrons dans les
chapitres à venir.
19
(d) Distribution t
Soient X0, X1, ..., Xn des variables normales standard indépendantes. Soit alors
X0
T = r  .
1 X 2 + ... + X 2
n 1 n

La variable T a une distribution t à n degrés de liberté, ce qu’on note T ∼ tn. Sa densité


f (t) est une fonction assez compliquée et sa fonction de distribution cumulative s’obtient
à l’aide d’un logiciel ou de tables. L’espérance et la variance de T sont E(T ) = 0 et
var(T ) = n/(n − 2), pour n > 2.
Distribution t
0.4

t1
t2
t5
0.3

t10
t20
densité

t30
0.2

N(0,1)
0.1
0.0

−4 −2 0 2 4
t

20
Propriétés

• La distribution t est symétrique autour de 0


• lorsque n → ∞, la densité d’une variable T ∼ tn tend vers une densité normale
standard
• La distribution t est utilisée dans certains procédés d’inférence que nous verrons
dans les chapitres à venir.

21
Chapitre 8: Inférence, échantillon-
nage et estimation

1. Echantillonnage aléatoire simple

2. Inférence statistique

3. Estimation

4. Evaluation graphique de l’adéquation d’un modèle de distribution

1
L’inférence regroupe l’ensemble des techniques visant à généraliser à la population des
résultats observés sur un échantillon. Ce chapitre place le contexte théorique sur lequel se
base généralement un processus d’inférence, et présente un outil graphique pour évaluer
l’adéquation d’un modèle pour résumer des données (qq-plot).

1. Echantillonnage aléatoire simple


Afin d’obtenir un échantillon représentatif d’une population, il est nécessaire de le tirer
de façon aléatoire.
L’exemple classique d’échantillonnage aléatoire simple consiste à placer des billets
contenant les noms de tous les individus de la population dans une urne et de tirer
des billets au hasard sans remise.
Dans la pratique, ce principe est mis en oeuvre à l’aide de logiciels permettant de générer
des nombres aléatoires, sur la base desquels on sélectionne des individus à partir d’une
liste (ex.: annuaire téléphonique).
Il existe des procédés d’échantillonage plus sophistiqués, comme par exemple l’échantillonnage
aléatoire stratifié, où l’on échantillonne séparément dans des sous-populations (appelées
strates), par exemple pour garantir d’avoir des proportions d’individus de chaque strate
qui soient conformes aux proportions de la population.
Dans ce cours, nous nous concentrerons sur l’échantillonnage aléatoire simple.
2
Considérons un ensemble de n individus tirés d’une population à l’aide d’un
échantillonnage aléatoire simple et intéressons-nous à une caractéristique C de ces
individus. On considère les mesures de C que nous allons faire sur chaque individu
comme des variables aléatoires C1, ..., Cn, et on fait les hypothèses suivantes:
• Les variables C1, ..., Cn sont indépendantes
• Les variables C1, ..., Cn ont toutes la même distribution F , où F est la distribution
(inconnue) de la caractéristique d’intétêt dans la population.
On résume ces deux hypothèses en disant que C1, ..., Cn sont indépendantes et
identiquement distribuées selon F , ce qu’on note

C1, ..., Cn i.i.d. ∼ F .

3
2. Inférence statistique
L’inférence consiste en la détermination de la distribution de population F et de ses
caractéristiques (moyenne, variance, quantiles,...) à partir des observations c1, ..., cn sur
l’échantillon, ainsi qu’en l’étude de la précision avec laquelle ces caractéristiques sont
déterminées.

Echantilonnage

Population Echantillon

Inférence

Souvent, on aura recours à un modèle mathématique pour F , qui prendra la forme d’une
famille de distributions dépendant d’un ou plusieurs paramètres (ex.: normale, binomiale,
Poisson). Il faudra alors déterminer le ou les paramètres qui conviennent le mieux à
l’échantillon. On parle dans ce cas d’une approche paramétrique de l’inférence.
4
3. Estimation
Le processus de détermination de la distribution de population à l’aide des observations
est appelé l’estimation. Dans le cadre d’une approche paramétrique, il s’agit d’estimer
les paramètres inconnus du modèle choisi.

Exemple: jet d’une pièce


On jette 6 fois une pièce de monnaie et on obtient le résultat suivant:

(Pile, Pile, Face, Pile, Face, Pile) .


On décide de modéliser cette expérience avec une distribution binomiale B(1, p), où
p est la probabilité d’obtenir “Pile”. On décrit chaque jet i par une variable aléatoire
Xi ∼ B(1, p) (Xi = 1 si le jet est “Pile”; Xi = 0 si le jet est “Face”), et il nous faut
donc estimer le paramètre p à l’aide des données.

NB: avec cette modélisation, on a fait l’hypothèse que p est le même à chaque jet.

5
De façon générale, on peut se poser la question de savoir comment déterminer les
paramètres inconnus à partir des données.

Un principe très utilisé est celui du maximum de vraisemblance. Il consiste à choisir


les paramètres qui maximisent la probabilité d’observer l’échantillon obtenu, appelée la
vraisemblance des paramètres.

Dans l’exemple de la pièce, on le met en oeuvre de la façon suivante:


• Calcul de la probabilité d’obtenir exactement l’échantillon observé O:
On a O = (Pile, Pile, Face, Pile, Face, Pile) et la vraisemblance est donc égale à
P (O) = p · p · (1 − p) · p · (1 − p) · p = p4(1 − p)2.
Ici on a utilisé l’hypothèse d’indépendance entre les jets pour exprimer P (O) comme
le produit des probabilités des résultats des jets individuels.
On doit donc trouver la valeur de p qui rend P (O) maximal.
• L’approche généralement utilisée pour maximiser P (O) consiste à maximiser son
logarithme:
log (P (O)) = 4 log(p) + 2 log(1 − p).
En effet, le logarithme étant une fonction croissante, maximiser P (O) est équivalent
à maximiser log (P (O)). (De plus, P (O) étant une probabilité, c’est une quantité
forcément positive et son logarithme est donc toujours défini). 6
• Pour maximiser log (P (O)), on cherche la valeur de p où sa dérivée s’annule:
d log (P (O)) 4 2
= − =0
dp p 1−p
La solution de cette équation est p = 64 , et on vérifie facilement que 4 correspond
6
bien au maximum (et non à un minimum) de log (P (O)).
Ici, nous avons donc obtennu que 4 6 est l’estimation du maximum de vraisemblance
de p.

Remarques
• La valeur obtenue n’est pas suprenante, elle correspond à la proportion de “Pile” dans
l’échantillon.
• Le fait de prendre le logarithme de la vraisemblance transforme le produit en une
somme, ce qui facilite le calcul de la dérivée

7
Illustration du calcul des pages précédentes:

0.020
P(O)
0.010
0.000

0.0 0.2 0.4 0.6 4 0.8 1.0


p 6
−5
−25 −20 −15 −10
log(P(O))

0.0 0.2 0.4 0.6 4 0.8 1.0


p 6

8
Cas général
On se propose de résoudre le même problème de façon générale, avec n lancers de la
pièce et k resultats “Pile”. Cela revient à trouver la valeur de p qui maximise

P (X1 = 1)·...·P (Xk = 1)·P (Xk+1 = 0)·...·P (Xn = 0) = pk (1−p)n−k .

La solution de ce problème est


k
p̂(X1, ..., Xn) = .
n
Ainsi, d’une façon générale, la valeur de p qui maximise la vraisemblance dans ce type
d’expériences est la proportion de succès dans l’échantillon.

p̂ est une fonction des variables aléatoires qui représentent les observations. p̂ est donc
lui-même une variable aléatoire, appelée un estimateur, en l’occurrence l’estimateur
du maximum de vraisemblance de p. Les propriétés des estimations fournies par un
estimateur vont dépendre de ses propriétés en tant que variable aléatoire (espérance,
variance, etc). La question de la distribution d’un estimateur sera abordée dans le prochain
chapitre.
9
Le principe du maximum du vraisemblance peut être appliqué à une grande variété de
cas:
• Modèle normal:
Soient X1, ..., Xn i.i.d ∼ N (µ, σ 2). Les estimateurs du maximum de vraisemblance
pour les paramètres µ et σ 2 sont
n n
1 X 1
σˆ2 = (Xi − µ̂)2.
X
µ̂ = Xi et
n i=1 n i=1
Les estimateurs du maximum de vraisemblance de la moyenne et de la variance d’une
distribution normale sont donc égaux à la moyenne et à la variance de l’échantillon
telles que définies au chapitre 3.
• Modèle de Poisson:
Soient Y1, ..., Yn i.i.d ∼ P(λ). L’estimateur du maximum de vraisemblance pour le
paramètre λ est
n
1 X
λ̂ = Yi .
n i=1
Ici aussi, l’estimateur du maximum de vraisemblance de la moyenne d’une distribution
de Poisson est égal à la moyenne de l’échantillon.
10
Exemple pour le cas normal
Reprenons les poids des étudiant(e)s en première année et considérons uniquement les
garçons (sans l’outlier déjà constaté). On obtient µ̂ = 67.59 kg et σˆ2 = 35.55 kg2
et la figure représente la densité correspondante superposée à l’histogramme.
0.08
0.06
Densité
0.04
0.02
0.00

50 55 60 65 70 75 80
Poids

Comme on le voit, l’approximation offerte par le modèle normal n’est pas parfaite. Cela
dit, le modèle normal n’est pas trop violemment mis en défaut, par exemple par une forte
asymétrie ou la présence d’outliers.
11
En passant:
Retour sur la régression: modélisation de la relation entre deux variables X et Y à l’aide
d’une droite.
Nous avons vu au chapitre 4 que lorsqu’on calcule une valeur pour l’intercept (β̂0) et
pour la pente (β̂1) d’une droite de régression, on postule implicitement que les variables
X et Y suivent le modèle suivant:

Yi = β0 + β1Xi + εi, i = 1, ..., n


où β0 et β1 sont les vraies valeurs de l’intercept et de la pente au niveau de la population.
En prenant l’approche paramétrique suivante pour modéliser les erreurs εi:

εi i.i.d. ∼ N (0, σ 2), indépendants de Xi,


et en calculant les estimations de l’intercept et de la pente selon le maximum de
vraisemblance, on obtient justement les estimateurs des moindres carrés β̂0 et β̂1 que
nous avons vus au chapitre 4.
Autrement dit, si on postule que les erreurs suivent une distribution normale, la méthode
du maximum de vraisemblance est equivalente à celle des moindres carrés.

12
L’approche du maximum de vraisemblance est une approche paramétrique. Elle implique
de faire une hypothèse assez forte sur la forme de la distribution des données. Si on
ne souhaite pas faire une hypothèse aussi forte, on peut prendre une approche non
paramétrique. Par exemple, on peut estimer F par Fn, la fonction de distribution
cumulative empirique.

Avantage d’une approche non paramétrique:


Moins d’hypothèses, donc moins de biais dûs à de fausses hypothèses.

Avantage d’une approche paramétrique:


La distribution est entièrement déterminée par quelques paramètres, ce qui simplifie les
calculs des autres caractéristiques de la distribution (par ex. les quantiles).

13
4. Evaluation graphique de l’adéquation d’un mo-
dèle de distribution
Nous avons vu plus haut un exemple d’évaluation graphique du modèle normal (poids
des étudiants), qui consiste à superposer la densité du modèle à l’histogramme des
données. Voici encore deux exemples, avec les données de la série d’exercices 1 (nombres
d’étamines). Comme pour les poids des étudiants, on a estimé les paramètres µ et σ 2
du modèle normal par maximum de vraisemblance et on obtient les graphiques ci-dessous:
0.0012
0.0008
Densité
0.0004
0.0000

0 1000 2000 3000 4000 5000


Nombre d'étamines

14
0.4
0.3
Densité
0.2
0.1
0.0

3 4 5 6 7 8 9
log(Nombre d'étamines)

On voit que le modèle normal n’est pas approprié pour décrire la distribution du nombre
d’étamines, qui est très asymétrique. Il l’est par contre beaucoup plus pour décrire la
distribution du logarithme du nombre d’étamines, comme on le voit sur le graphique
ci-dessus.

Nous allons à présent introduire un procédé graphique plus efficace pour évaluer
l’adéquation d’un modèle, appelé qq-plot (quantile-quantile plot).

Dans la série d’exercices 8, vous l’appliquerez aux deux cas ci-dessus.


15
Le qq-plot
L’idée est de comparer les quantiles de la distribution empirique à ceux du modèle, en
les répresentant sur un graphique. Si les quantiles empiriques sont proches de ceux du
modèle, les points du graphique devraient être alignés sur la diagonale (“y=x”).

Appliquons ceci aux poids des étudiants, au nombre de n = 29.


i−1/2
• Que valent les quantiles empiriques correspondant aux probabilités αi = n ,
i = 1, ..., n?
→ Il sont égaux au observations dans l’ordre croissant. (V. illustration p. suivante)
• On va donc représenter sur un graphique:
• Sur l’axe vertical: les observations
• Sur l’axe horizontal: les quantiles du modèle pour les probabilités αi, donnés par
!
i − 1/2
qαi = F̂ −1 ,
n
où F̂ est la cumulative du modèle.

16
Fn(Poids)
0 α1 α2 α3 α4 α5 α6 α7 α8 α9 α10 α11 α12 α13 α14 α15 α16 α17 α18 α19 α20 α21 α22 α23 α24 α25 α26 α27 α28 α291

55
60
65

Poids [cm]
70
75
80
17
Dans le cas des poids des étudiants, nous avions obtenu µ̂ = 67.59 kg et σˆ2 = 35.55
kg2 et le modèle correspondant est donc F̂ = N (67.59, 35.55). Nous calculons donc
les valeurs correspondantes des qαi et nous obtenons le tableau suivant, qui contient les
coordonnnées des points du qq-plot:

qαi 54.98 57.88 59.45 60.60 61.54 62.34 63.06 63.72 64.34 64.92
p[i] 52.00 57.00 59.00 60.00 60.00 62.00 65.00 65.00 65.00 65.00

qαi 65.48 66.02 66.55 67.07 67.59 68.10 68.62 69.15 69.69 70.25
p[i] 66.00 66.00 67.00 68.00 68.00 68.00 70.00 70.00 71.00 72.00

qαi 70.83 71.45 72.11 72.83 73.64 74.57 75.72 77.30 80.19
p[i] 72.00 72.00 72.00 72.00 73.00 75.00 75.00 75.00 78.00

18
Avec les données de la page précédente, on obtient le graphique suivant, où l’on voit que
les points ne s’éloignent pas trop de la diagonale “y=x”.


75

●● ●

●●●●●

70

●●
●●●

●●
65
pi

●●●●


60

●●


55

55 60 65 70 75 80
qαi

19
Propriété de la distribution normale:
A la place de définir qαi comme les quantiles de N (µ̂, σ̂ 2), on peut les définir
comme les quantiles d’une normale standard N (0, 1). On obtient alors le graphique
suivant, exactement pareil au graphique précédent à l’exception de la graduation de l’axe
horizontal (et de la droite).
Cette propriété de la famille normale permet de

construire le qq-plot sans avoir à calculer µ̂ et
ˆ2. C’est cette représentation que proposent les
75

●● ●

σ
●●●●●
● logiciels de statistique. Bien sûr, les points ne
70

●●


●●● sont plus alignés sur la diagonale “y=x”, puisque
●●
65

la graduation de l’axe horizontal a changé. Afin


pi

●●●●


de pouvoir apprécier visuellement l’alignement des
60

●●


points, on représente en général sur ce genre de
graphiques une droite passant par les premier et
55

● troisième quartiles des données et du modèle. De


−2 −1 0 1 2 cette façon, on accorde plus d’importance à la
i
qα partie centrale du graphique, plus stable que les
extrémités. Souvent en effet, les extrémités s’éloignent de la droite même si le modèle
est adéquat, en raison de leur plus grande variabilité.
20
Chapitre 9: Distribution d’un estima-
teur

1. Distribution de la moyenne arithmétique

2. Bootstrap

1
Au chapitre précédent, nous avons considéré le problème de l’estimation de caractéris-
tiques de la distribution d’une variable, comme sa moyenne ou sa variance.

Nous avons défini un estimateur comme une fonction des observations dont on se sert
pour estimer ces caractéristiques.

Nous avons remarqué qu’un estimateur est lui-même une variable aléatoire.

La précision des estimations fournies par un estimateur va dépendre des caractéristiques


de sa distribution.

2
Comme nous l’avons vu, nous modélisons désormais les mesures d’une caractéristique
X sur un échantillon de taille n comme des variables aléatoires X1, ..., Xn i.i.d. ∼
FX (indépendantes et identiquement distribuées selon FX ). On notera alors les valeurs
observées de X sur l’échantillon par les lettres minuscules correspondantes x1, ..., xn.
On dira que x1, ..., xn sont des observations issues des variables aléatoires X1, ..., Xn.
Un estimateur est une fonction B(X1, ..., Xn), et suivant la même convention on
notera sa valeur observée sur l’échantillon par la lettre minuscule correspondante b. Plus
précisément, b est défini comme b = B(x1, ..., xn) et on l’appelle une estimation.
On voit bien que l’estimation serait différente si l’échantillon était différent. On peut donc
définir la distribution de B sur la population de tous les échantillons de taille n, appelée
distribution d’échantillonnage et notée FB . Evidemment, FB va dépendre de FX qui
n’est pas connue dans la pratique. Pour l’approcher, on pourra utiliser soit un modèle
mathématique dépendant de paramètres (approche paramétrique), soit la fonction de
distribution cumulative empirique des observations (approche non paramétrique).

3
1. Distribution de la moyenne arithmétique
Nous avons vu au chapitre précédent que la moyenne arithmétique est l’estimateur du
maximum de vraisemblance de l’espérance mathématique pour de nombreux modèles
de distributions. Dans la suite de ce cours nous utiliserons la notation usuelle X pour
désigner la moyenne arithmétique en tant qu’estimateur:
n
1 X
X= Xi .
n i=1
On a par exemple (en utilisant le suffixe M V pour désigner l’estimateur du maximum de
vraisemblance):
• Distribution normale: µ̂M V = X pour X1, ..., Xn i.i.d. ∼ N (µ, σ 2)
• Distribution de Poisson: λ̂M V = X pour X1, ..., Xn i.i.d. ∼ P(λ)
• Distribution binomiale: p̂M V = X pour X1, ..., Xn i.i.d. ∼ B(1, p)

Nous allons nous intéresser aux propriétés de X de façon générale.

4
Soient X1, ..., Xn i.i.d. ∼ FX avec E(Xi) = µ et var(Xi) = σ 2, i = 1, ..., n.
• Espérance de X: en applicant les propriétés de l’espérance, on trouve
   
n n n
1 X1 1 X X 1
E(X) = E  Xi = E
  Xi =
 E(Xi) = nµ = µ.
n i=1 n i=1 n i=1 n

L’espérance mathématique de l’estimateur X est donc égale à l’espérance mathé-


matique des Xi. Cela signifie qu’en moyenne, l’estimation x fournie par X sur un
échantillon vaudra E(Xi), qui est précisément la caratéristique que nous voulions
estimer. On dit que X est un estimateur sans biais de E(Xi).
• Variance de X: en appliquant les propriétés de la variance et en utilisant l’indépendance
des Xi, on trouve
   
n n n 2
1 X 1 X 1 X 1 2 σ
var(X) = var  Xi = 2 var  Xi = 2 var(Xi) = 2 nσ = .
n i=1 n i=1 n i=1 n n
La variance de la moyenne arithmétique est égale à la variance des Xi divisée par
la taille de l’échantillon. La précision de l’estimation augmente donc avec la taille de
l’échantillon.
• Ecart-type de X: le résultat pour la variance implique sd(X) = √σn .
5
Quelle est la distribution de X?

→ Loi normale:
Propriété de stabilité par addition de la loi normale: Soient X1 ∼ N (µ1, σ12) et
X2 ∼ N (µ2, σ22) indépendantes. Alors

(X1 + X2) ∼ N (µ1 + µ2, σ12 + σ22).


En utilisant cela, on obtient
 
n
σ2
!
1 X
X= Xi  ∼ N µ,
n i=1 n

si X1, ..., Xn i.i.d. ∼ N (µ, σ 2).

6
Pour les autres distributions, le résultat ci-dessus reste vrai approximativement et pour
les grands échantillons grâce au résultat fondamental suivant:

Théorème central limite


Soient X1, ..., Xn i.i.d. ∼ FX avec E(Xi) = µ et var(Xi) = σ 2, i = 1, ..., n,
1 Pn
soit X = n i=1 Xi et soit
X −µ
V = √ ∼ FV .
σ/ n
V est la moyenne arithmétique centrée et réduite (on a soustrait à X son espérance
et divisé le résultat par son écart-type). Alors
lim FV (t) = Φ(t),
n→∞
où FV (t) désigne la cumulative de V et Φ(t) est la cumulative de la distribution
normale standard.

La cumulative d’une variable (de même que sa densité) détermine complètement sa


distribution. Le résultat ci-dessus signifie donc que la moyenne arithmétique centrée
et réduite est approximativement normale N (0, 1)  si n est
 suffisamment grand. Ceci
σ 2
implique que X est approximativement normale N µ, n .

7
Ce qui est remarquable, c’est que le résultat de la page précédente est valable quelle que
soit FX , la distribution des Xi (pourvu que leur espérance et leur variance soient bien
définies).

Par contre, la taille d’échantillon n à partir de laquelle l’approximation est bonne dépend
de FX , et il n’y a pas en général de règle simple pour la déterminer.

Dans les pages qui suivent figurent trois exemples où on a représenté les histogrammes
et les qq-plots de x pour différents modèles FX et différentes tailles d’échantillon n.
Pour les obtenir, on a généré à l’aide d’un ordinateur 1000 échantillons de taille n
d’observations suivant le modèle FX , et calculé à chaque fois la valeur de x.

8
X est uniforme entre 0 et 100.
Histogram of xbar Histogram of xbar Histogram of xbar Histogram of xbar Histogram of xbar Histogram of xbar
n=1 n=5 n = 10 n = 15 n = 20 n = 25

0.030

0.06
0.00 0.01 0.02 0.03 0.04 0.05
0.00 0.01 0.02 0.03 0.04 0.05
0.03
0.008

0.020

0.04
Density

Density

Density

Density

Density

Density
0.02
0.004

0.010

0.02
0.01
0.000

0.000

0.00

0.00
0 20 60 100 20 40 60 80 20 40 60 80 30 50 70 30 50 70 30 40 50 60 70
xbar xbar xbar xbar xbar xbar

Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot

80
100

70
●●● ● ● ●● ● ●

70

●●

●●

●●


●● ●●

70


●●

● ● ● ●


● ●
● ●●

80

●●
● ●●
●●
● ●
●● ● ●
●●

● ● ●● ●●
● ●●

● ●
● ●
● ● ●
● ●

65

70
●● ●
● ●

● ●

●● ●
●● ●

● ●

● ● ●
●● ● ●

● ● ● ●

80

●●
● ●
●● ●● ●● ●

● ●


● ●
●●
● ●
●●
● ●●
● ●

● ●●
● ● ● ●
● ●● ●

60

●● ●
●● ●
●● ●
● ●
● ●

●●
Sample Quantiles

Sample Quantiles

Sample Quantiles

Sample Quantiles

Sample Quantiles

Sample Quantiles

60
● ● ● ● ● ●

60

● ●


● ●

● ●

● ●

● ●●
● ●

● ●● ●
● ●
● ●

60

● ● ● ● ● ●
60


● ●


● ●
● ●
●● ●
●● ●




● ●

● ●

● ●●
● ●●
● ●

●● ●
●● ●
●● ●
● ●

● ●
●●
60


● ●● ●● ●● ●● ●●

● ● ● ● ●

55

● ●●
● ●●
● ●
●●
● ●● ●


●●
● ●

● ●

● ●●
● ●●

● ●



● ●
● ●
● ●
● ●
● ●●

50
● ●
● ●
● ●● ●
● ●

50

● ●

50

● ●
● ●

● ●

● ●●
● ●


●● ●
●● ●
●● ●

● ●

● ●

●●
● ● ● ● ● ●

50
● ●● ● ● ● ●
40


● ●

● ●

● ●

● ●●
● ●●

40

●● ●

● ●
●● ●

● ●●
● ●



● ●● ●
● ●● ●
● ●



● ●
● ●


● ●

● ●

●● ●●
●● ●


● ●
● ●
● ●● ●●


● ● ●
40


● ●
● ●● ●● ●
● ●

45

● ●●
● ●●
● ●

● ●

● ●


● ● ● ● ●

40
● ● ●
● ●
● ●

40


● ●

● ●
●● ●

● ●
●● ●●


● ●

● ●●
● ●

● ●● ●
● ● ● ● ● ●●
20

● ●

● ●
●●
● ●


● ●●
● ●

20


● ●● ●
● ●
● ●

● ●●

40

●● ● ●
●● ●●
● ●●


● ●

●●


30

●● ● ●● ●●
● ●
●●

● ●
● ●
● ●
● ●●
● ●
●●
●●
● ●● ●
●● ●● ● ●
●●

●●
● ● ●
●● ●
● ● ●
●●
●●

● ●● ●

●● ●● ●●

30


● ●●

35

●●●●

●●

●●


●●




●● 30 ●
●●● ●● ●
0

−3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3
Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles

On voit que l’approximation normale est bonne déjà pour de très petites tailles
d’échantillon.
9
X est lognormale d’espérance et d’écat-type égaux à 2.
Histogram of xbar Histogram of xbar Histogram of xbar Histogram of xbar Histogram of xbar Histogram of xbar
n=1 n = 10 n = 30 n = 50 n = 70 n = 90

1.0

2.5
2.0
0.4

1.5

2.0
0.8

2.0
1.5
0.3

1.5
1.0
0.6

1.5
Density

Density

Density

Density

Density

Density
1.0
0.2

1.0
0.4

1.0
0.5

0.5
0.1

0.5
0.2

0.5
0.0

0.0

0.0

0.0

0.0

0.0
0 2 4 6 8 12 1.0 2.0 3.0 1.5 2.0 2.5 3.0 1.4 1.8 2.2 2.6 1.6 2.0 2.4 1.6 2.0 2.4
xbar xbar xbar xbar xbar xbar

Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot

2.6

2.6
3.0
● ● ● ● ● ●
●● ● ●●
12

● ● ● ●

1.4 1.6 1.8 2.0 2.2 2.4 2.6


3.5


● ●


● ● ●
● ●
● ●●

2.4

● ●
● ●●

● ●

●● ●
● ●
● ●

2.4
● ●
● ●
● ●

● ●
●● ●
● ●

10

● ●

●●
● ●● ●

● ●●


● ●

● ●
● ●● ●


● ● ● ●
Sample Quantiles

Sample Quantiles

Sample Quantiles

Sample Quantiles

Sample Quantiles

Sample Quantiles
3.0


● ●
● ●
● ●

● ●

2.5

● ● ●● ● ●●
●● ●


● ●
● ●


● ●

● ●

2.2
●●
● ●●
● ●
● ●
● ●
●●


●●
● ● ●
● ●● ● ●

2.2


● ●

● ●●
● ●

● ●●
● ●
8


● ●
● ●●
● ●●
● ●●
● ●

● ●
● ●

● ●
● ●
● ●

● ● ●
● ● ●● ●
2.5

● ●
● ●
● ●

● ●
● ●
●●
● ●
● ●

● ●
●● ●
●● ●●

● ●

● ●


● ●
● ●
● ●●

● ● ● ●
● ●
● ●

2.0

● ●● ●●
● ●●
● ●● ●●

● ● ● ● ●
6


● ● ●
● ●● ●
● ●

2.0
●● ●
● ●
● ●
● ●
● ●


2.0


● ●●
● ●
●● ●● ●
●● ●

●●
● ●
● ●
● ●●
● ●
● ●
●●
● ● ● ● ● ●
2.0


● ●

● ●●

● ●
●●
● ●●
● ●

●●

● ●
●● ●

● ●● ●

● ●●
●● ●●
● ●


● ●●

● ●

● ●



● ●

● ●
● ●
● ● ●

4

1.8
●● ●

● ●
●●
● ●

● ●

● ●●



● ●
●● ●
●●
● ●
●● ●

● ●


● ● ● ●

1.8


●● ●


● ●
●●
● ●
● ●

● ●●


●● ●

● ●●
● ●●
● ●
● ●

● ● ● ● ● ●
1.5



● ●

● ●
● ●●
● ●

● ●



●● ●
●●


● ●●

● ●
●●

● ●●

● ●




●● ● ●
● ●
●● ● ●●


2

● ● ● ● ● ●

1.5

●●


●● ●
●●

● ●

● ●

●● ●● ●

● ●● ●

● ● ●

1.6
●●


●●
● ●
●●
● ●
●●

●● ●
●● ●

●●



●●

● ●●
● ●● ●
● ●●

●●
●●


● ●
● ●● ●●

1.6

●●


●●


●●

● ●●


●●

●●


●●
● ●
●●

● ●●●
1.0


●●●●

●●
● ● ● ● ●
0

−3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3
Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles

Lognormale: variable dont le log suit une distribution normale.


L’approximation normale ne devient bonne qu’à partir de n ≈ 30.
10
X est un mélange de lognormale d’espérance et d’écat-type égaux à 2 et d’une uniforme
entre 10 et 50 (outliers) dans les proportions 90% et 10%.
Histogram of xbar Histogram of xbar Histogram of xbar Histogram of xbar Histogram of xbar Histogram of xbar
n=1 n = 10 n = 30 n = 50 n = 70 n = 90

0.25
0.20
0.15

0.20

0.3

0.3
0.15

0.20
0.15
0.10
Density

Density

Density

Density

Density

Density
0.2

0.2
0.10

0.10

0.10
0.05

0.1
0.05

0.1
0.05
0.00

0.00

0.00

0.00

0.0

0.0
0 10 30 50 5 10 15 2 4 6 8 10 2 4 6 8 10 2 4 6 8 10 3 4 5 6 7 8
xbar xbar xbar xbar xbar xbar

Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot
50

10
● ●● ● ● ● ●
●●

10
●●● ● ●

8

●● ●
●● ● ●


● ●
● ● ●
15


● ●●


10

● ● ●● ●● ● ●
● ●
● ●

● ●
● ● ● ●
40

● ● ●●
● ●


● ● ●

7
● ●●
● ●
● ●●
● ● ●
● ●
● ●
● ● ● ●

8
● ● ● ● ●
Sample Quantiles

Sample Quantiles

Sample Quantiles

Sample Quantiles

Sample Quantiles

Sample Quantiles
● ●

8
● ●
● ●● ● ●
● ●●

● ●● ●
● ●● ●

● ●


● ● ●● ● ● ●

● ● ● ● ●
8

● ●
● ●
● ●
●● ●
● ●●
● ●
●● ●
● ●
● ● ●


30

● ● ● ● ●
● ●●

6
● ●
●● ●● ●●

● ●
● ●




10


● ●
● ●

● ●

● ●●
● ●


● ●
● ●
● ●

● ●

● ●
●●
● ●
● ●
● ●● ●

● ●

● ● ● ● ●

6
● ●
● ●
● ●
● ●

6
● ●
● ●
● ●

● ●

● ●●
● ● ●
● ● ●● ●

6

● ●
● ●
● ●

● ●●

● ●
●●

● ● ●
● ● ●

5

20

● ●

● ●●
● ●●
● ●● ●
●●
● ●
● ●

● ●

● ●

● ●●


● ●● ●● ●
● ●

● ●


● ●

● ●●
● ●
●● ●●

● ●
●● ●


● ●●
● ●● ●


● ●●
● ●
● ●
● ●●

● ●

● ●
● ●
● ●
●● ●

● ●

● ●
● 4 ●●
● ●
● ●

4

● ●
● ● ●
● ●
● ●

4
● ● ●
5

● ● ●● ● ●

4
● ● ●
● ●
● ●● ●

10


● ●

● ●

●● ●

● ●●

● ●



● ●
●● ●
●● ●
●● ●
●●

● ●


● ● ●●
● ●
●●
● ●
●●
● ●
●●

● ●●
● ●●
● ●

●● ●
●●
● ●
●●

● ●
● ●●

● ●●

●● ●
●● ●

●●


●● ●● ●●

● ●
●●

● ●
●●
● ●●


●●
● ●●

● ●

● ●
●● ●●

●●
● ●
●●

3


●● ●●
● ●
● ● ●●

● ●

2



●●


●● ●


●●

● ●


●● ●

●● ●
●●
● ●

2

●●


●●


●●


●●


●● ●

●●


●●

●●


● ●●

●●

● ●● ● ●

●●●●

●●
●●



●●
● ●

●●


●●


●●●

●●


●●

●●
●● ●
●●●



●●


● ●


●●

● ●
●●●●

●●

●●


●●

●● ●●● ●● ● ●
●●●●


0

2
−3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3
Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles

La présence d’outliers fait qu’une plus grande taille d’échantillon est nécessaire pour
obtenir une bonne approximation normale.
11
Distribution binomiale et distribution de Poisson
Nous avons vu que pour X1, ..., Xn i.i.d. ∼ FX avec E(Xi) = µ et var(Xi) = σ 2,
i = 1, ..., n, la moyenne centrée et réduite
Pn
i=1 Xi
V = n √ −µ
σ/ n
avait approximativement une distribution normale standard lorsque n est suffisamment
grand, ce que nous noterons V ∼ ˙ N (0, 1). Cela implique que la somme des Xi a
approximativement une distribution normale N (nµ, nσ 2). En effet,
n
X √
Xi = nσV + nµ.
i=1

Or, nous avons vu qu’une variable binomiale Y ∼ B(n, p) n’est autre que la somme de
n variables indépendantes Yi ∼ B(1, p) (Y ∼ B(n, p) est le nombre de succès parmi
n répétition indépendantes d’une expérience avec probabilité de succès p, ce qui revient
à additionner n variables B(1, p)). On a E(Yi) = p et var(Yi) = p(1 − p) et on
obtient donc que
Y ∼
˙ N (np, np(1 − p)).
12
Autrement dit, si n est suffisamment grand, une binomiale ressemble à une
normale de même moyenne et de même variance. Pour le cas binomial, il existe
une règle approximative disant que l’approximation normale est bonne si

np > 5 et nq > 5,
où q = 1 − p.

On peut faire une considération similaire à propos de la distribution de Poisson en se


souvenant de sa propriété de stabilité par addition: Une variable Poisson Y ∼ P(λ)
avec λ entier est égale à la somme de λ variables indépendantes Yi ∼ P(1). On en
déduit que
Y ∼
˙ N (λ, λ).
Pour le cas Poisson, on considère généralement que l’approximation est bonne si

λ ≥ 20.

Les pages suivantes montrent des illustrations de ces proporiétés pour la binomiale et la
distribution de Poisson.
13
Histogram of X ~ B(n,p) Histogram of X ~ B(n,p) Histogram of X ~ B(n,p) Histogram of X ~ B(n,p) Histogram of X ~ B(n,p)
n = 1, p = 0.4, n = 5, p = 0.4, n = 10, p = 0.4, n = 20, p = 0.4, n = 30, p = 0.4,
np = 0.4, nq = 0.6 np = 2, nq = 3 np = 4, nq = 6 np = 8, nq = 12 np = 12, nq = 18

0.15
6

0.20

0.15
0.6
5

0.10
0.15
4

0.10
Density

Density

Density

Density

Density
0.4
3

0.10

0.05
2

0.05
0.2

0.05
1

0.00

0.00

0.00
0.0
0

0.0 0.2 0.4 0.6 0.8 1.0 0 1 2 3 4 5 0 2 4 6 8 2 4 6 8 10 14 5 10 15 20


X X X X X

Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot
1.0




●●


●●


●●


●●


●●


●●


●●


●●


●●


●●

●●


●●

●●


●●
●●

●●

●●
●●
●●● ● ●

●●

●●

●●●●● ● ●● ● ●
5

10 12 14

●●●

20
8 ●

●●

●●

●●●● ●●


●●
●●

●●


●●●
0.8




●●

●●


●●

●●


●●


4




●●

●●


●●

● ●


●●

●●


●●

● ●●
●●

●●

Sample Quantiles

Sample Quantiles

Sample Quantiles

Sample Quantiles

Sample Quantiles



●●


●●


●●
● ●
●●


●●




●●


●●


●●


●●

●●
● ●


●●

●●


●●
6




●●


●●


●●

15
0.6




●●


●●


●●


●●


●●


●●


● ●


●●


●●



3




●●


●●


●●


●●


●●
● ●


●●


●●


●●
● ●●


●●


●●






●●


●●


●●

● ●
●●


●●


●●

8



●●


●●


●●


●●

● ●●


●●


●●


4




●●


●●


●●

0.4




●●


●●


●●


●●


●●


●●


●●

2


●●


●●


●●






●●


●●


●●


10



●●


●●


●●


●●


● ●●


●●


●●




●●


●●


●●
● ●●


●●


●●



0.2




●●

●●


●●


●●


●●

● ●

●●


●●


2




●●

●●


●●

4



●●


●●


●●


●●


●●


●●


●●
1



●●


●●

●●
●●
●●
●●

●●

●●


●●

●●

●●

●●

●●


●●

●●
● ●●

●●

●●

●●

2
●●●
●●

5
0.0

● ●●●
●●
●●

●●

●●

●●

●●


●●

●●


●●

●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●●


●● ● ●●●
●●
●●

●●

●●

●●

●●


●●

●●


●●

●●
● ● ●●● ● ●
0

−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles

14
Histogram of X ~ B(n,p) Histogram of X ~ B(n,p) Histogram of X ~ B(n,p) Histogram of X ~ B(n,p) Histogram of X ~ B(n,p)
n = 10, p = 0.1, n = 30, p = 0.1, n = 50, p = 0.1, n = 70, p = 0.1, n = 90, p = 0.1,
np = 1, nq = 9 np = 3, nq = 27 np = 5, nq = 45 np = 7, nq = 63 np = 9, nq = 81

0.15
0.8

0.12
0.15
0.20
0.6

0.10

0.08
0.10
Density

Density

Density

Density

Density
0.4

0.10

0.05

0.04
0.05
0.2

0.00

0.00

0.00

0.00
0.0

0 1 2 3 4 5 0 2 4 6 8 0 2 4 6 8 10 12 0 5 10 15 0 5 10 15 20
X X X X X

Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot

● ●● ●● ● ●
5

15
12

20
●●


●●
●●
●●
8


●●

●●●● ●●


●●




●●
●●
●●●● ●
●●

●● ●
4

10



●●

●●
●● ●

●●

●●

● ●
Sample Quantiles

Sample Quantiles

Sample Quantiles

Sample Quantiles

Sample Quantiles

●●

●●


●●


●●

●●



●●

●●


● ●

●●


●●


●●

15



●●

●●


●●
● ●●
●●


6

10



●●


●●

●●
● ●●


●●


●● ●

●●

●●



8




●●

●●


●●

●●

●●


3




●●


●●


●●

● ●


●●


●●

● ●
●●


●●

●●



●●


●●


●● ●


●●


●●




●●


●●






●●


●●


●●


● ●


●●


●●


●●
6

10



●●


●●


●●


●●
4




●●


●●


● ●

●●


●●


●●



●●


●●


●●


●●


●●


●●

2




●●


●●


●●
● ●●


●●


●●


● ●
●●


●●


●●




●●


●●


●●


●●


●●
● ●
●●


●●


●●


● ●
●●


●●


●●

5



●●


●●


●●

4


●●


●●


●●




●●


●●


●●


●●
● ●


●●


●●


●●

● ●

●●


●●


●●





●●


●●


●●


●●


●●
2




●●


●●


●●


●●


●●


●●


●●


●●
1


●●

●●


●●

5



●●

●●


●●





●●

●●


●●


●●


2



●●

●●

●●

● ●

●●


●●

●●




●●

●●


●●


●●


●●


● ●
●●

●●

●●

●●

●●
●●

●●

●●

●●

●●


● ●●●
●●
● ●●●

● ●●●
●●
●●

●●

●●

●●

●●


●●

●●


●●

●●


●●


●●


●●


●●


●●


●●


●●


● ● ●●●
●●
●●

●●

●●

●●

●●


●●

●● ● ●● ● ●
0

0
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles

15
Histogram of X ~ P(λ) Histogram of X ~ P(λ) Histogram of X ~ P(λ) Histogram of X ~ P(λ) Histogram of X ~ P(λ) Histogram of X ~ P(λ)
λ=1 λ=5 λ = 10 λ = 15 λ = 20 λ = 25

0.10
0.20

0.12

0.06
0.08
0.6

0.15

0.08
0.08

0.06

0.04
Density

Density

Density

Density

Density

Density
0.4

0.10

0.04
0.04
0.04

0.02
0.2

0.05

0.02
0.00

0.00

0.00

0.00

0.00
0.0

0 1 2 3 4 5 0 2 4 6 8 12 0 5 10 15 20 5 10 15 20 25 10 20 30 10 20 30 40 50
X X X X X X

Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot
14

35
●● ● ● ●● ● ●
5

45
20


●● ● ●

25
● ●
●●
●● ●●



●●
● ●

●●
●●
12


●●
● ●

● ●●

40



●●
● ●
●●

30


●●

●●

●●
●● ●
●●


●●

● ●

● ●

4




●●
●●

● ●

●●

● ●



●● ●

●●

●● ●



Sample Quantiles

Sample Quantiles

Sample Quantiles

Sample Quantiles

Sample Quantiles

Sample Quantiles
10

15



●●

20



●● ●

●●

● ●●

●●
● ●
●●


●●

35
●●


●● ●
●●



●●


●● ●

●●


● ●
●●

● ●
●●





●●

●●

25


●●


● ●●


●●
● ●


●●
● ●

●●




●●


●●

●●

● ●

●●
3




●●

● ●
●●


●● ●


●●

● ●
●●


● ●


●●
8

30

●●


●●
● ●
●●


●● ●
●●

● ●●


15



●●


●●


● ●


●●

● ●


●●
● ●
●●



10

●●


●●

● ●

●●




●●


● ●●


●● ●

●●

20



●●


●●
● ●●


●●


● ●


●●
6



●●


25



●●


●●


●●


●●


●● ●

●●


●● ●


●●
2

●●


●●

● ●

●●


●●
● ●●


●● ●
●●






●●


●●


●● ●
●●


● ●

●●



●●


●●


● ●


●●
● ●


●●

10


●●


● ●●

●●




●●


●●


● ●

●●


●●
● ●●



4

20
●●


●● ●
●●


● ●

●●

15
●●


●●

5




●●


●●


●● ●
●●


●●
● ●


●●



●●


●●


●●


●●


●●


●● ●●


●●
● ●
●●



1

●●


●●

●●

● ●

●●

●●
●●

● ●●


●● ●●

●●




●●


●●


●●
● ●●
●●


●●
● ●
●●


2

15

●●

● ●●


●●
● ●

●●

●● ● ●


5



●●

●●


●●

●●
● ●
●●

● ●
●●
●●

10
●● ●


● ●
● ●●
●●
●●


●●
●●


●●

●●


●●

●●


●●


●●


●●


●●


●●


●●


●●
● ● ●●
●●
●●
● ● ● ● ●●
●●
● ●
0

10
−3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3
Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles

16
2. Bootstrap
Nous avons vu que le théorème central limite (TCL) nous permet connaı̂tre la distribution
de la moyenne arithmétique de façon approximative. Nous avons vu cependant que la
taille d’échantillon à partir de laquelle l’approximation est bonne n’est pas toujours facile
à déterminer. Si on ne souhaite pas avoir recours à l’approximation normale, on peut
utiliser la technique du bootstrap.

D’autre part, la moyenne arithmétique est un estimateur de l’espérance d’une variable


aléatoire. Si on s’intéresse à d’autres caractéristiques, on n’a pas toujours un théorème
comme le TCL pour nous fournir une approximation de la distribution de l’estimateur
correspondant. Là aussi, le boostrap peut être utilisé.

17
Le bootstrap est une technique consistant à simuler des échantillons par ordinateur. On
distingue deux formes de bootstrap:
• bootstrap paramétrique
• bootstrap non paramétrique
L’idée est la suivante: pour connaı̂tre la distribution d’un estimateur étant donnée une
taille d’échantillon n, on génère à l’aide d’un ordinateur un grand nombre d’échantillons
de taille n et on calcule la valeur observée de l’estimateur sur chacun de ces échantillons.
On utilise alors la distribution empirique de ces valeurs observées comme estimation de
la distribution de l’estimateur.

→ C’est ce qu’on a fait dans la pages précédentes pour voir si l’approximation normale
était appropriée dans différentes situations.
→ C’est un exemple de boostrap paramétrique: on simule les échantillons en postulant
qu’ils proviennent d’un certain modèle paramétrique (lognormal, uniforme, binomial, etc).
→ La différence avec la pratique est que dans un cas réel on a un échantillon
d’observations à partir duquel on détermine les paramètres du modèle considéré, puis
on génère les échantillons avec ces paramètres.

18
Parfois, on ne souhaite pas faire l’hypothèse que les observations suivent une certain
modèle paramétrique. On fait alors du bootstrap non paramétrique.

→ L’idée est d’utiliser comme modèle la distribution empirique des observations dans
l’échantillon que l’on a à disposition.
→ Pour simuler un échantillon de taille n provenant de ce modèle, on tire avec remise n
valeurs dans l’échantillon. On peut prouver qu’on obtient alors un échantillon distribué
selon Fn, la fonction de distribution cumulative empirique de la variable sur l’échantillon.

Exemple:
Les données ci-dessous sont des durées de séjour pour des patients hospitalisés au CHUV
pour des troubles du système nerveux.

1 1 2 2 2 2 2 2 3 3 3 3
3 4 4 4 4 4 5 5 5 5 6 6
7 7 8 9 16 115 198 374

19
On s’intéresse à la médiane de ces durées de séjours. Sur l’échantillon à disposition elle
est de 4 jours et on se demande à quel point cette médiane pourrait varier si on prenait
un autre échantillon de même taille parmi des patients souffrant de troubles similaires.
On tire avec remise 5000 échantillons de taille 34 et on calcule à chaque fois la médiane.
La distribution des médianes obtenues est illustrée dans la figure ci-dessous.

51%
2000

98%
1000
0

2 2.5 3 3.5 4 4.5 5 5.5 6 6.5

On voit que la probabilité que la médiane d’un nouvel échantillon soit égale à 4 est
estimée à 51% et la probabilité qu’elle se situe entre 3 et 5 est estimée à 98%.
20
Chapitre 10: Introduction aux tests
statistiques
1. Approche
• Hypothèse nulle
• p-value et niveau
• Statistique de test
• Hypothèse alternative
• Puissance

2. Formalisme général d’un test statistique

3. Intervalle de confiance

1
1. Approche
Exemple introductif (démonstration au cours)
On imagine un casino proposant un jeu basé sur le jet d’une pièce prétendument
équilibrée. On jette un certain nombre de fois la pièce et on obtient (ou prétend obtenir...)
“Pile” à chaque fois. Après chaque jet, on demande aux étudiants s’ils estiment que le
degré d’évidence quant au déséquilibre de la pièce est suffisant pour décider de fermer le
casino. Exemple de résultat obtenu:
Positions des étudiants après n lancers de pièce, tous "Pile"

Fermer le casino Ne pas fermer le casino


100 %

80 %

60 %

40 %

20 %

0%
1 2 3 4 5 6

2
Cet exemple montre qu’une même expérience n’amène pas spontanément tout le monde
aux mêmes conclusions.

La logique des tests statistiques permet de formaliser la façon de tirer des conlusions à
partir d’une expérience.

Ce chapitre expose cette logique, commune à toute procédure de test statistique, en


suivant deux exemples concrets.

3
Hypothèse nulle
Un test statistique se base sur les points suivants:
1. Formulation d’une hypothèse. Traditionnellement, on appelle cette hypothèse
l’hypothèse nulle et on la note H0. (La raison de cette appellation apparaı̂tra plus
clairement dans la suite.)
2. Utilisation de la théorie statistique pour déterminer si les données soutiennent cette
hypothèse H0 ou non.
3. Rejet de H0 si les données ne la soutiennent pas.

4
Dans l’exemple de la pièce, on fait l’hypothèse qu’on a une pièce équilibrée:
H0: P (P ile) = P (F ace) = 1 2.

→ A quel point l’observation d’un jet P ile sur un, de deux jets P ile sur deux, ..., de
six jets P ile sur six soutient-elle cette hypothèse?

Dans ce qui suit, on va en fait calculer à quel point ces observations condamnent cette
hypothèse.

Pour ce faire on va calculer, sous l’hypothèse H0, la probabilité que les observations
s’éloignent au moins autant de H0 que ce qui a été observé.
→ Si cette probabilité est faible, on en conclura que soit H0 n’est pas vraie, soit un
événement rare a eu lieu. Ne croyant pas en la survenue d’un événement rare, on rejettera
alors H0.

N.B.: Notation: Dans ce qui suit, on utilisera la notation PH0 pour indiquer qu’une
probabilité est calculée sous H0, i.e. en considérant que H0 est vraie.

5
• Un jet P ile sur un:
Notre hypothèse H0 plaiderait pour autant de P ile que de F ace, or il y a 1 P ile
et 0 F ace. Avec un seul jet, on ne peut pas satisfaire H0 : si on avait eu F ace, on
s’en éloignerait autant mais de l’autre coté.
→ PH0 (s’éloigner au moins autant de H0) = PH0 (P ile ou F ace) = 1
→ A tous les coups, on s’éloigne au moins autant de H0
• Deux jets P ile sur deux:
On s’éloignerait autant de H0 avec deux F ace.
→ PH0 (s’éloigner au moins autant de H0) = PH0 (2P ile ou 2F ace)
= PH0 (2P ile) + PH0 (2F ace) = 0.52 + 0.52 = 0.5
→ Sous H0, on a une chance sur deux de s’éloigner au moins autant de H0
• Trois jets P ile sur trois:
On s’éloignerait autant de H0 avec trois F ace.
→ PH0 (s’éloigner au moins autant de H0) = PH0 (3P ile ou 3F ace)
= PH0 (3P ile) + PH0 (3F ace) = 0.53 + 0.53 = 0.25
→ Sous H0, on a une chance sur quatre de s’éloigner au moins autant de H0

6
• Quatre jets P ile sur quatre:
On s’éloignerait autant de H0 avec quatre F ace.
→ PH0 (s’éloigner au moins autant de H0) = PH0 (4P ile ou 4F ace)
= PH0 (4P ile) + PH0 (4F ace) = 0.54 + 0.54 = 0.125
→ Sous H0, on a une chance sur huit de s’éloigner au moins autant de H0
• Cinq jets P ile sur cinq:
On s’éloignerait autant de H0 avec cinq F ace.
→ PH0 (s’éloigner au moins autant de H0) = PH0 (5P ile ou 5F ace)
= PH0 (5P ile) + PH0 (5F ace) = 0.55 + 0.55 = 0.0625
→ Sous H0, on a une chance sur seize de s’éloigner au moins autant de H0
• Six jets P ile sur six:
On s’éloignerait autant de H0 avec six F ace.
→ PH0 (s’éloigner au moins autant de H0) = PH0 (6P ile ou 6F ace)
= PH0 (6P ile) + PH0 (6F ace) = 0.56 + 0.56 = 0.03125
→ Sous H0, on a une chance sur trente-deux de s’éloigner au moins autant de H0

7
On constate donc qu’au fur et à mesure que les P ile s’accumulent, une pièce équilibrée
a de moins en moins de chances de produire un résultat aussi extrême. Autrement dit,
H0 est de plus en plus condamnée par l’expérience. Le fait que l’expérience condamne
H0 va nous conduire à la rejeter. Mais à partir de quand devrait-on rejeter H0?

Dans la recherche scientifique, un usage largement répandu consiste à rejeter une


hypothèse nulle si PH0 (s’éloigner au moins autant de H0) ≤ 5%. Le raisonnement
est alors le suivant:

Si H0 était vraie, j’aurais une probabilité inférieure à 5% d’observer


quelque chose d’aussi extrême ou plus extrême que ce que j’ai
observé. Je considère que cette probabilité est trop faible pour
croire en H0 et je la rejette.

Ou, en d’autres termes: Soit H0 est fausse, soit un événement rare s’est produit. Je ne
crois pas à la survenue d’un événement rare et donc je rejette H0.

On voit donc qu’il y a une part de subjectivité dans la décision de rejeter H0. Rien dans
la théorie statistique ne dit qu’il faut fixer la valeur limite à 5% plutôt qu’à 1%, 2% ou
10% par exemple.
8
p-value et niveau

Quelques définitions
• Le processus décrit dans les transparents qui précèdent s’appelle un test statistique.
• PH0 (s’éloigner au moins autant de H0) (la probabilité sous H0 que les observations
s’éloignent de H0 au moins autant que ce qui a été observé) s’appelle la p-value du
test.
• La valeur limite pour la p-value, au-dessous de laquelle on rejette H0, s’appelle le
niveau (ou le seuil) du test.
Avec ces nouveaux termes:

Dans un test statistique, on rejette l’hypothèse nulle lorsque la


p-value est inférieure ou égale au niveau du test.

• Lorsque la p-value est inférieure ou égale au niveau, on dit que le résultat est
statistiquement significatif.

9
Dans l’exemple de la pièce, on aurait donc:

Nombre de jets tous P ile p-value


1 1
2 0.5
3 0.25
4 0.125
5 0.0625
6 0.03125

En fixant le niveau à 5%, on ne rejetterait donc H0 qu’au bout de 6 jets P ile sur 6.
1 et
On dirait alors que la probabilité d’obtenir P ile est significativement supérieure à 2
on aurait montré statistiquement que la pièce est déséquilibrée.

10
Attention:
• Nulle part dans cette procédure on ne parle de la probabilité que H0 soit vraie.
D’ailleurs, il n’est pas évident de définir “la probabilité que H0 soit vraie”. Par exemple,
le sens de la phrase “la probabilité que H0 soit vraie est de 90%” n’est pas clair.
Dans notre exemple, soit la pièce est équilibrée, soit elle ne l’est pas. Il n’y a pas de
phénomène aléatoire sur lequel définir une probabilité.
Dans ce cours, à chaque fois qu’on parlera de la probabilité d’un événement, on aura en
tête la répétition hypothétique d’une expérience, et la probabilité est définie comme
la proportion moyenne des fois où l’événement aura eu lieu. Ainsi P(P ile) est la
proportion moyenne de P ile si on lance plusieurs fois la pièce. Dire que la pièce est
équilibrée, i.e. P (P ile) = 1 2 , revient à dire que si on lance plusieurs fois la pièce on
aura en moyenne autant de P ile que de F ace.
• Une des erreurs les plus fréquentes d’interprétation de la p-value est justement de dire
que la p-value est la probabilité que H0 soit vraie, étant donné les observations. En
fait, ce serait plutôt le contraire : La p-value est la probabilité d’obtenir les observations
(ou des observations plus extrêmes), étant donné H0.

11
Autre exemple: poissons du lac
Dans le cadre d’une étude environnementale, on cherche à savoir si la faune d’un certain
lac évolue au cours du temps ou si elle reste stable. On souhaite notamment savoir si
la taille moyenne des poissons peuplant ce lac a changé depuis la dernière mesure, égale
à 5 cm. En termes statistiques, on souhaite tester l’hypothèse nulle selon laquelle les
poissons du lac ont une taille moyenne µ de µ0 = 5 cm. On pose donc H0: µ = µ0.
On prélève un échantillon aléatoire de 30 poissons de tailles x1, ..., x30, et on trouve
que leur taille moyenne x̄ vaut 7 cm.

Peut-on en déduire que la taille moyenne des poissons du lac est supérieure à 5 cm?
Est-il crédible que la taille moyenne des poissons du lac soit malgré tout de 5 cm, alors
que la moyenne dans notre échantillon est de 7 cm? Si la taille moyenne des poissons du
lac était de 5 cm, serait-il fréquent ou rare que le hasard de l’échantillonnage produise
un tel échantillon?

Plus précisément: si la taille moyenne des poissons du lac était de 5 cm, quelle serait la
probabilité de tirer un échantillon de taille 30 où la taille moyenne s’éloigne au moins
autant de 5 cm?
→ Cette probabilité est la p-value du test de H0.
→ Comment la calculer?
12
Grâce au théorème central limite, on connaı̂t approximativement la distribution de X̄:
σ2
!
X̄ ∼
˙ N µ, ,
n
où σ 2 est la variance des tailles des poissons du lac.
Si H0: µ = µ0 était vraie, on aurait donc que
σ2
!
X̄ ∼
˙ N µ0 , .
n
σ 2 est inconnu, mais non peut l’estimer par la variance de l’échantillon:
30
2 1 X
σ̂ = (xi − x̄)2 = 20.3 cm2.
n i=1
Connaissant la distribution de X̄ sous H0, nous pouvons à présent calculer la probabilité
qu’elle s’éloigne au moins autant de 5 cm que ce que nous avons observé (7 cm).

13
Si H0: µ = µ0 était vraie, on aurait donc:
PH0 (s’éloigner au moins autant de H0) = PH0 (X̄ ≤ 3 ou X̄ ≥ 7)
= 2PH0 (X̄ ≥ 7)
!
X̄ − µ0 7 − µ0
= 2PH0 √ ≥ √
σ̂/ n σ̂/ n
!
X̄ − µ0 7−5
= 2PH0 √ ≥√ √
σ̂/ n 20.3/ 30
!
X̄ − µ0
= 2PH0 √ ≥ 2.43
σ̂/ n
≈ 2(1 − Φ(2.43))
= 0.015

La p-value de notre test est donc égale à 1.5%. Au seuil de 5%, on rejette donc H0 et
on en conclut que la taille moyenne des poissons du lac est significativement supérieure
à 5 cm.
On a montré que si H0 était vraie il serait rare (1.5 chances sur 100) d’observer, par le
hasard de l’échantillonnage, un résultat au moins aussi extrême que celui qu’on a observé.
Ne croyant pas en la survenue d’un événement rare, on rejette H0.
14
Statistique de test

L’outil qui nous a permis de calculer la p-value est la variable standardisée Z = X̄−µ
√ 0.
σ̂/ n
On a utilisé le fait que sous H0, grâce au théorème central limite, on a

Z∼
˙ N (0, 1).
On appelle cette variable la statistique de test.

Les deux caractéristiques essentielles de la statistique de test sont les suivantes


1. Elle permet de mesurer à quel point les observations s’éloignent de l’hypothèse nulle
2. Sa distribution sous H0 est connue
Ainsi, dans l’exemple des poissons du lac, Z = X̄−µ √ 0 est une mesure standardisée de la
σ̂/ n
différence entre les observations (X̄) et l’hypothèse nulle (µ0). Sous H0, sa distribution
est connue grâce au TCL.

Ce sont ces deux points qui permettent la calcul de la p-value.

15
On a la situation suivante pour la distribution de Z sous H0:

0 z=2.43

Comme on l’a vu en page 14, la p-value est égale à


!
X̄ − µ0
PH0 (s’éloigner au moins autant de H0) = 2PH0 √ ≥ 2.43
σ̂/ n
Pour quelles valeurs de z va-t-on rejeter H0?
= 2P ≥ 2.43)
(Zp-value
H0ala

QuePour
vautunz, test
la valeur observ
au niveau αée=de5%,
Z sur
lesl’valeurs
échantillon?
telles Onque est ≤ 0.05.
= 1.5% est le quantile d’ordre 0.975
x̄ − µ|z|
Il s’agit des valeurs pour lesquelles 0
≥ z 7
0.975−, o
5 ù z 0.975
de la distribution normale √ =
z =standard. √ √ = 2.43
σ̂/ n Ces valeurs
20.3/ constituent
30 le domaine de rejet de H0.

16
On a la situation suivante pour la distribution de Z sous H0:

P−value = 1.5 %

−z=−2.43 0 z=2.43

Que vaut z, la valeur observée de Z sur l’échantillon? On a


Pour quelles valeurs de z va-t-on rejeter H0?
→ Pour on
un l’a
testvuauenniveau αx̄=− 5%, 7−5
µ0 les valeurs la p-value est ≤ 0.05.
Comme page
z= 14, la√ = √ galetelles
p-value est é √à que
= 2.43
σ̂/ n
Il s’agit des valeurs pour lesquelles 20.3/
|z| ≥ z0.975 , où 30
z0.975 est le quantile d’ordre
! 0.975
X̄ − µ0
de la Pdistribution normale
H0 (s’éloigner standard.
au moins Ces
autant devaleurs
H0) constituent
= 2PH0 le domaine √ ≥ de 2.43
rejet de H0.
σ̂/ n
= 2PH0 (Z ≥ 2.43)
= 1.5%
17
On a la situation suivante pour la distribution de Z sous H0:

5% Domaine de rejet de H0

] [
− z0.975=−1.96 0 z0.975=1.96 z=2.43

Comme on l’a vu en page 14, la p-value est égale à


!
X̄ − µ0
PH0 (s’éloigner au moins autant de H0) = 2PH0 √ ≥ 2.43
Que vaut z, la valeur observée de Z sur l’échantillon? On a σ̂/ n
Pour quelles valeurs de z va-t-on ? −= 2PH0 (Z ≥ 2.43)
x̄ − µrejeter
0
H0 7 5
→ Pour un test au niveau z =α =√5%, =les√valeurs=
√ 1.5%
telles = 2.43
que la p-value est ≤ 0.05.
σ̂/ n 20.3/ 30
Il s’agit des valeurs pour lesquelles |z| ≥ z0.975, où z0.975 est le quantile d’ordre 0.975
de la distribution normale standard. Ces valeurs constituent le domaine de rejet de H0.
18
En résumé:

p-value ≤ 0.05 ⇐⇒ Z ∈ domaine de rejet

On peut donc mener le test en se basant soit sur la p-value, soit sur la valeur de la
statistique de test.

Pour un niveau α quelconque, le domaine de rejet pour ce test est défini par
z ∈ Domaine de rejet de H0 ⇐⇒ |z| ≥ z1−α/2

→ Quelle est la probabilité de rejeter l’hypothèse nulle dans le cas où elle est vraie?
PH0 (rejeter H0) = PH0 (Z ∈ domaine de rejet)
= PH0 (|Z| ≥ z1−α/2)
= α
Le fait de rejeter une hypothèse nulle vraie s’appelle une erreur de première espèce. En
fixant un niveau pour notre test, on contrôle donc la probabilité de commettre une erreur
de première espèce: à chaque fois qu’on fait un test à 5%, on sait que si H0 est vraie
on n’aura que 5% de chance de la rejeter.
19
Hypothèse alternative

Dans le formalisme classique des tests statistiques, on considère, en plus de l’hypothèse


nulle H0, une hypothèse alternative, que l’on note H1. De manière générale, l’hypothèse
alternative est la négation de l’hypothèse nulle.
Dans l’exemple des poissons du lac, on a H0 : µ = µ0, et donc on a H1 : µ 6= µ0.
On comprend mieux à présent l’appellation “hypothèse nulle”: c’est l’hypothèse d’absence
de différence ou d’absence d’effet (pour les poissons: absence de différence entre la taille
moyenne avant et après, ou absence d’effet du temps sur la taille moyenne).
Par opposition, l’hypothèse alternative postule la présence d’une différence ou d’un effet.
Elle est parfois appelée l’hypothèse scientifique, car dans une étude on est souvent
intéressé à démontrer une différence ou un effet (e.g. différence entre deux groupes
de patients: traités et non traités, i.e. effet du médicament).
Au sens statistique, démontrer a précisément la signification suivante: on dit qu’on a
démontré statistiquement une hypothèse scientifique H1 si on a rejeté H0, l’hypothèse
nulle correspondante, dans une procédure de test statistique.

20
Puissance

On a vu que lorsqu’on fait un test statistique, on commet une erreur de première espèce
si H0 est vraie et qu’on la rejette, et que ce risque est contrôlé en fixant le niveau du
test.
Un autre type d’erreur qu’on est susceptible de commettre est de ne pas rejeter H0 dans
le cas où elle est fausse. Dans ce cas, on aura manqué de détecter un effet présent dans
la population. On appelle cette erreur une erreur de deuxième espèce.
De même qu’on s’est intéressé à PH0 (rejeter H0), on peut s’intéresser à
PH1 (ne pas rejeter H0), pour connaı̂tre le rique d’erreur de deuxième espèce. En
général, on considère plutôt 1 − PH1 (ne pas rejeter H0), que l’on appelle la puissance
du test. La puissance d’un test est la probabilité de détecter un effet lorsqu’il est présent.
On souhaite donc qu’elle soit aussi élevée que possible.

21
Mais PH1 (ne pas rejeter H0) n’est pas aussi simple à calculer que PH0 (rejeter H0)
car, contrairement à H0, H1 ne spécifie pas de valeur précise pour le paramètre d’intérêt,
elle dit juste qu’il est différent de µ0. La valeur de PH1 (ne pas rejeter H0), et donc de
la puissance, va dépendre de la vraie valeur du paramètre dans la population: plus µ sera
différent de µ0, plus la puissance sera élevée. Autrement dit, plus un effet est important,
plus il sera facile de le détecter.
D’autre part, la puissance dépendra de la taille de l’échantillon: étant donné un effet,
la probabilité de le détecter va dépendre de la précision de la mesure, et on sait que la
précision augmente avec la taille de l’échantillon.
En général, on considère le problème dans l’autre sens: on postule un certaine taille d’effet
scientifiquement intéressante, et on calcule la taille d’échantillon nécessaire pour avoir
une certaine puissance (i.e. une certaine probabilité de le détecter).
On ne considérera pas davantage ce problème dans ce cours.

22
2. Formalisme général d’un test statistique
On a vu qu’on peut mener une procédure de test statistique soit en calculant la p-value
et en la comparant au seuil, soit en calculant la valeur de la statistique de test sur
l’échantillon et en regardant si elle se trouve dans le domaine de rejet. Ces deux façons
de procéder sont tout à fait équivalentes.

Dans les deux derniers chapitres de ce cours, on introduira deux procédures de test
classiques, le test du chi carré et le t-test, en suivant l’approche suivante, en quatre
étapes:
• Hypothèses
• Echantillon
• Statistique de test
• Règle de décision

23
Dans l’exemple des poissons du lac, cela donne:

• Hypothèses

H0: µ = µ0 = 5 cm H1: µ 6= µ0

• Echantillon

Tirage aléatoire de 30 poissons

• Statistique de test

Z = X̄−µ
√0
σ̂/ n
• Règle de décision

Rejeter H0 si |z| ≥ z1−α/2,


où α est le niveau du test (dans notre exemple, α = 0.05).

24
Comment se présente le test de la pièce en suivant ce formalisme?
→ La statistique de test est ici le nombre K de résultats P ile sur six lancers. K satisfait
en effet les deux propriétés essentielles d’une statistique de test:
• Elle permet de mesurer à quel point les observations s’éloignent  deH0
• Sa distribution sous H0 est connue: sous H0, on a K ∼ B 6, 2 1 .

(C’est ce qu’on a utilisé, sans le dire, lors du calcul de la p-value pour ce test.)

On obtient donc:
• Hypothèses
H0: P (P ile) = 1
2 H1: P (P ile) 6= 1
2
• Echantillon
6 lancers de la pièce
• Statistique de test
K = Nombre de P ile
• Règle de décision
Rejeter H0 si K = 6 ou K = 0

Ce test s’appelle un test binomial. Dans le chapitre 11, nous verrons une autre procédure
de test que l’on peut utiliser pour ce type de données.
25
3. Intervalle de confiance
Comme mentionné plus haut, lorsqu’on mène une procédure de test statistique, on espère
souvent pouvoir rejeter l’hypothèse nulle, qui postule généralement la nullité d’un effet.
Imaginons par exemple qu’on teste un nouveau médicament contre l’hypertension en
comparant la diminution moyenne de tension artérielle dans deux groupes de patients,
les uns traités avec le nouveau médicament et les autres avec un médicament existant.
Dans cette situation on souhaite montrer que le nouveau médicament est plus efficace
que l’ancien. En notant µ1 et µ2 les diminutions moyennes dans le groupe nouveau et
le groupe ancien médicament, on aura:

H0: µ1 = µ2 et H1: µ1 6= µ2.

Si sur l’échantillon on observe µ̂1 > µ̂2 et que le test rejette H0, on conclura que le
nouveau médicament est significativement meilleur que l’ancien.

Cependant, il nous manquera encore une information importante pour pouvoir décider
d’abandonner l’ancien médicament en faveur du nouveau: à quel point le nouveau
médicament est-il meilleur? Il nous serait utile de pouvoir donner une fourchette de
valeurs plausibles de la différence de diminution entre les deux groupes, d = µ1 − µ2.

Cette information nous est fournie par l’intervalle de confiance sur le paramètre d.
26
Nous avons vu qu’un test statistique va rejeter l’hypothèse nulle si les observations ne
plaident pas en sa faveur. Dans l’exemple des poissons, l’hypothèse que la taille moyenne
est de 5cm a été rejetée par le test. Quel aurait été le résultat si on avait considéré une
autre hypothèse nulle, par exemple H0 : µ = µ0 = 6cm?

→ calcul de z, la valeur observée de la statistique de test sur l’échantillon:


x̄ − µ0 7−6
z= √ =√ √ = 1.22
σ̂/ n 20.3/ 30
Cette fois, on a |z| < 1.96 = z0.975 et on ne rejette donc pas H0. La valeur de 6cm
n’est pas mise en défaut par les observations et on peut donc la considérer comme une
valeur plausible de la vraie taille moyenne µ des poissons du lac.

Pour construire une fourchette de valeurs plausibles de µ, nous allons chercher toutes
les valeurs qui ne sont pas rejetées par le test.

27
Ces valeurs sont celles qui satisfont la relation
x̄ − µ
|z| = √ ≤ z0.975,
σ̂/ n
c’est à dire
x̄ − µ
−z0.975 ≤ √ ≤ z0.975.
σ̂/ n
En manipulant cette expression, on arrive à
σ̂ σ̂
x̄ − z0.975 √ ≤ µ ≤ x̄ + z0.975 √
n n
(v. développement à la page suivante). En conséquence, on définit l’intervalle de confiance
pour le paramètre µ comme
" #
σ̂ σ̂
IC = x̄ − z0.975 √ , x̄ + z0.975 √ .
n n
En remplaçant les symboles par les valeurs numériques, on obtient:
" √ √ #
20.3 20.3
IC = 7 − 1.96 √ , 7 + 1.96 √
30 30
= [5.39, 8.61]
28
Développement de la relation de la page précédente:
x̄ − µ
−z0.975 ≤ √ ≤ z0.975
σ̂/ n
⇐⇒
σ̂ σ̂
−z0.975 √ ≤ x̄ − µ ≤ z0.975 √
n n
⇐⇒
σ̂ σ̂
−x̄ − z0.975 √ ≤ −µ ≤ −x̄ + z0.975 √
n n
⇐⇒
σ̂ σ̂
x̄ + z0.975 √ ≥ µ ≥ x̄ − z0.975 √
n n
⇐⇒
σ̂ σ̂
x̄ − z0.975 √ ≤ µ ≤ x̄ + z0.975 √
n n

29
Dans l’exemple des poissons, on a donc obtenu
" #
σ̂ σ̂
IC = x̄ − z0.975 √ , x̄ + z0.975 √
n n
= [5.39cm, 8.61cm]
comme fourchette de valeurs plausibles de la taille moyenne des poissons du lac. On voit
que la valeur de 5cm ne fait pas partie de cette fourchette, ce qui est normal puisqu’on
a vu que l’hypothèse nulle H0 : µ = 5cm est rejetée par le test, et que la fourchette
contient toutes les valeurs NON rejetées (par exemple, elle contient la valeur 6cm).

Plus généralement, le lien entre intervalle de confiance et test statistique implique qu’un
intervalle de confiance donne le résultat du test statistique correspondant pour n’importe
quelle valeur µ0 du paramètre sous H0. En effet, si µ0 est à l’intérieur de l’IC, H0 :
µ = µ0 n’est pas rejetée; si µ0 est à l’extérieur de l’IC, H0 : µ = µ0 est rejetée.

Un IC fournit donc une idée de la précision avec laquelle un échantillon permet d’estimer
un paramètre: plus l’intervalle est étroit, plus la précision est grande. On voit que cette
précision dépend
• de la variabilité des données, estimée par σ̂: plus la variabilité est grande, plus la
précision est faible
• de la taille de l’échantillon n: plus n est grand, plus la précision est élevée 30
La largeur d’un intervalle de confiance dépend encore du degré de confiance que l’on
souhaite avoir. Dans ce qui précède, nous avons défini un intervalle de confiance en nous
basant sur un test avec un niveau de 5%. Si on avait utilisé un niveau de 1% on aurait
obtenu
" #
σ̂ σ̂
IC = x̄ − z0.995 √ , x̄ + z0.995 √ .
n n
En insérant z0.995 = 2.58 dans l’équation ci-dessus, on obtient l’intervalle

IC = [4.88cm, 9.12cm],
qui est plus large que le précédent.

Ce résultat est logique: un test au niveau 1% exige plus d’évidence qu’un test à 5% pour
donner un résultat significatif. Il est donc normal que les valeurs non rejetées (i.e. non
significatives) à 5% ne le soient pas non plus à 1%.

31
Propriété essentielle d’un intervalle de confiance

Reprenons la relation qui définit l’IC basé sur un test de niveau 5%:
σ̂ σ̂
x̄ − z0.975 √ ≤ µ ≤ x̄ + z0.975 √ .
n n
Dans cette expression, x̄ est la valeur observée de la variable aléatoire X̄. L’intervalle de
confiance que nous avons vu est donc en fait la valeur observée de l’intervalle aléatoire
" #
σ̂ σ̂
IC = X̄ − z0.975 √ , X̄ + z0.975 √ .
n n
On peut se demander quelle est la probabilité que cet intervalle contienne la vraie taille
moyenne µ. Autrement dit, que vaut
!
σ̂ σ̂
P X̄ − z0.975 √ ≤ µ ≤ X̄ + z0.975 √ ?
n n

32
En utilisant le développement de la p. 20 dans l’autre sens, on obtient
 
P X̄ − z0.975 √σ̂n ≤ µ ≤ X̄ + z0.975 √σ̂n
 
X̄−µ
= P −z0.975 ≤ σ̂/√ ≤ z0.975
n
≈ 0.95,
puisque le théorème central limite nous assure que
X̄ − µ
√ ∼ ˙ N (0, 1).
σ̂/ n
On obtient donc que la probabilité que la vraie taille moyenne µ se trouve dans cet
intervalle est de 95%.

Il faut comprendre cela de la façon suivante: si on tirait un grand nombre d’échantillons


de la population et qu’on calculait à chaque fois l’intervalle IC, alors 95% en moyenne
de ces intervalles contiendraient la vraie valeur µ inconnue.

On dit que l’intervalle IC est un intervalle de confiance de niveau de couverture 95%, ou


simplement un intervalle de confiance à 95%, pour le paramètre µ.
33
On vient de voir que le niveau de couverture d’un intervalle de confiance construit à
partir d’un test de niveau 5% est de 95%. En faisant le même raisonnement avec un IC
défini à partir d’un test à 1%, on obtient
 
P X̄ − z0.995 √σ̂n ≤ µ ≤ X̄ + z0.995 √σ̂n
 
X̄−µ
= P −z0.995 ≤ σ̂/√ ≤ z0.995
n
≈ 0.99,
et le niveau de couverture de cet IC est donc de 99%.

Ce résultat rend d’autant plus évident le fait que cet IC doit être plus large que le
précédent, puisque la probabilité qu’il contienne la vraie valeur µ est plus élevée.

De façon générale, un intervalle de confiance construit à partir d’un test de niveau α a


un niveau de converture 1 − α.

34
NB: Cette propriété de l’intervalle de confiance repose sur une approximation valable
pour des tailles d’échantillon suffisamment grandes (théorème central limite).

La taille d’échantillon à partir de laquelle l’intervalle peut-être considéré comme valide,


i.e. à partir laquelle la probabilité que l’intervalle de niveau de couverture 1−α contienne
la vraie valeur est vraiment de 1 − α, dépend de la distribution des données.

Le même problème se pose quant au niveau α du test qui a servi à définir l’IC: la
probabilité de rejeter l’hypothèse nulle lorsqu’elle est vraie vaudra α seulement si la taille
de l’échantillon est suffisamment élevée.

35
Méthode de Wald
Considérons encore l’intervalle de confiance à 95%
" #
σ̂ σ̂
IC = X̄ − z0.975 √ , X̄ + z0.975 √
n n
et remarquons (ou souvenons-nous) que sd(X̄), l’écart-type de l’estimateur X̄ est égal
à √σn , ce que l’on peut estimer par sd(
ˆ X̄) = √σ̂ .
n

On obtient alors que l’intervalle de confiance à 95% pour µ est égal à


h i
ˆ X̄) , X̄ + z0.975 sd(
IC = X̄ − z0.975 sd( ˆ X̄) .

Cette dernière formule est assez générale et s’applique à n’importe quel estimateur
asymptotiquement normal, i.e. dont la distribution s’approche de plus en plus d’une
distribution normale lorsque la taille de l’échantillon devient grande, comme c’est le
cas pour la moyenne arithmétique X̄. Comme la plupart des estimateurs utilisés en
statistique ont cette propriété, cette méthode peut presque toujours être utilisée (si la
taille de l’échantillon est suffisamment grande). Elle s’appelle la méthode de Wald, et
l’intervalle de confiance obtenu est appelé un intervalle de confiance de Wald.

36
De plus, en se souvenant que z0.975 = 1.96 ≈ 2, on obtient la formule approximative
suivante:
h i
ˆ X̄) , X̄ + 2 sd(
IC ≈ X̄ − 2 sd( ˆ X̄) .

La connaissance de la valeur approximative de z0.975 permet donc de de calculer de


tête un intervalle de confiance à 95% lorsqu’on connaı̂t l’écart-type d’un estimateur.

De façon plus générale, l’intervalle de confiance de Wald de niveau de couverture 1 − α


pour un estimateur θ̂ d’un paramètre θ est donné par
 
ˆ θ̂) , θ̂ + z1− α sd(
IC = θ̂ − z1− α sd( ˆ θ̂) .
2 2

37
Commentaire à propos de l’intervalle de confiance et de la
p-value
En règle générale un intervalle de confiance est plus informatif qu’une p-value. En effet,
un intervalle de confiance donne une idée de la valeur du paramètre d’intérêt, ce que ne
fournit pas la p-value. De plus, la p-value dépend beaucoup de la taille de l’échantillon.
On peut rejeter à peu près n’importe quelle hypothèse nulle en prenant un échantillon
suffisammenent grand, mais l’importance du résultat peut-être très faible au niveau
pratique.

Pour reprendre l’exemple des poissons, imaginons qu’on ait tiré un échantillon de
1’000’000 de poissons et trouvé l’estimation x̄ = 5.01 cm, avec la même variabilité
que précédemment, i.e. σ̂ 2 = 20.3 cm2. La p-value correspondante pour tester
H0 : µ = 5 cm est
!
x̄ − 5
P |Z| ≥ √ = P (|Z| ≥ 2.22) = 0.03
σ̂/ n
et on en déduit que la taille moyenne des poissons du lac est significativement supérieure
à 5 cm. A-t-on fait une importante découverte scientifique?
38
L’intervalle de confiance à 95% est ici de
" #
σ̂ σ̂
IC = x̄ − 1.96 √ , x̄ + 1.96 √ = [5.001 , 5.02].
n n
On voit donc que la différence avec 5 cm, quoique significative, est infime, et n’est
probablement d’aucun intérêt scientique.

Dans la recherche biomédicale, on a parfois tendance à accorder trop d’importance à la


p-value, sans considérer l’importance scientifique du résultat.

39
Chapitre 11: Tests et intervalles de
confiance pour proportions

1. Test statistique pour une proportion

2. Intervalle de confiance pour une proportion

3. Test statistique pour deux proportions

1
1. Test statistique pour une proportion

Ex: Taux d’individus ayant une caractéristique A dans une population.

Soit p = P (A) ce taux.

De façon générale dans ce chapitre, on utilisera la notation q = 1 − p


(de même, q̂ = 1 − p̂, etc.)

2
– Hypothèses

H0 : p = p 0 H1: p 6= p0

– Echantillon

Tirage aléatoire de n individus

– Statistique de test

K = Nombre d’individus avec A dans l’échantillon

3
Sous H0, on peut calculer la distribution de K.
Ex: H0: p = 0.4; n = 120
Distribution: K ∼ B(120, 0.4)
0.06
0.04
P(K=k)
0.02
0.00

0 20 40 60 80 100 120
k

On peut par exemple adopter la règle de décision suivante:


Règle de décision: rejeter H0 si k ≤ 37 ou si k ≥ 60
Niveau: p1 + p2 = 0.041
4
Sous H0, on peut calculer la distribution de K.
Ex: H0: p = 0.4; n = 120
Distribution: K ∼ B(120, 0.4)
0.06
0.04
P(K=k)
0.02

p1 = 0.024 p2 = 0.017
0.00

0 20 40 60 80 100 120
k

On peut par exemple adopter la règle de décision suivante:


Règle de décision: rejeter H0 si k ≤ 37 ou si k ≥ 60
Niveau: p1 + p2 = 0.041
4
Avantage de cette approche: le niveau est connu exactement, pas
d’approximation.

Désavantage: Il faut trouver les bornes “manuellement” pour chaque valeur


de n et de p0.

On appelle cette procédure un test binomial.

5
Sous certaines conditions (grâce au théorème central limite), la distribution
de K est bien approximée par la distribution normale:
0.06
0.04
P(K=k)
0.02
0.00

0 20 40 60 80 100 120
k

6
Sous certaines conditions (grâce au théorème central limite), la distribution
de K est bien approximée par la distribution normale:
0.06
0.04
P(K=k)

Densité de X ~ N(np0, np0(1 − p0))


0.02
0.00

0 20 40 60 80 100 120
k

6
A la place de K, on prend comme statistique de test:
K/n − p0
Z=q .
p0(1 − p0)/n
Sous H0, et sous les conditions d’application (v. p. suivante), Z a approximativement
une distribution N (0, 1).

→ Règle de décision pour un test au niveau α:


Rejeter H0 si |z| ≥ z1−α/2

où z est la valeur observée de Z et z1−α/2 est le quantile 1 − α/2 de la distribution


N (0, 1).

7
Conditions d’application: il faut que n soit suffisamment grand pour que
l’approximation normale soit bonne. Or, plus p est extrême (proche de 0
ou de 1), plus n doit être grand. Concrètement, si n et p sont tels que

np > 5 et n(1 − p) > 5,

alors
K/n − p
q
p(1 − p)/n
a approximativement une distribution N (0, 1).

Nous avons déjà rencontré ces conditions dans le chapitre 9.

8
2. Intervalle de confiance pour une proportion

Rappel: un intervalle de confiance contient toutes les valeurs du paramètre


d’intérêt qui ne seraient pas rejetées par un test.

Ici, ce sont les valeurs de p telles que


|k/n − p|
|z| = q ≤ z1−α/2, (1)
p(1 − p)/n
où k est la valeur observée de K dans l’échantillon.

9
La relation (1) est satisfaite pour des valeurs de p situées entre
1
r !
pi = p̂ + c/2 − c2/4 + cp̂(1 − p̂)
1+c
et
1
r !
ps = p̂ + c/2 + c2/4 + cp̂(1 − p̂) ,
1+c
où
2
c = z1−α/2 /n et p̂ = k/n.

Cet intervalle s’appelle l’intervalle de Wilson, que l’on notera ICW I . On


a donc

ICW I = [pi, ps].

10
Au chapitre précédent, nous avons vu une méthode générale pour construire des
intervalles de confiance pour un paramètre θ, appelée la méthode de Wald. Elle se base
sur la valeur observée θ̂ de l’estimateur du paramètre et définit l’intervalle avec niveau
de couverture 1 − α comme
ˆ θ̂) , θ̂ + z1− α sd(
[θ̂ − z1− α sd( ˆ θ̂)],
2 2
ˆ θ̂) est une estimation de l’écart-type de θ̂.
où sd(

Dans le cas où le paramètre est une proportion p, on a:


• Estimateur de p: p̂ = K n , la proportion observée dans l’échantillon.
ˆ
Que vaut sd(p̂)? → On sait que K, le nombre de personnes avec la caractéristique
d’intérêt (“succès”) dans l’échantillon, suit une distribution binomiale B(n, p). Son écart

type est donc sd(K) = npq. On en déduit (propriété de l’écart-type) que sd(p̂) =
q
pq/n, que l’on estime par q
ˆ
sd(p̂) = p̂q̂/n.
On obtient donc que l’intervale de confiance de Wald pour une proportion, noté ICW A
est donné par  q q 
ICW A = p̂ − z1− α p̂q̂/n , p̂ + z1− α p̂q̂/n .
2 2

11
L’intervalle de Wald est plus simple mais moins précis que l’intervalle de
Wilson, qui fait moins d’approximations. Concrètemement, on ne l’utilisera
que lorsque
• 0.3 ≤ p̂ ≤ 0.7 et
• n ≥ 50.
Pour l’intervalle de Wald, il peut arriver que la formule de la page
précédente donne une valeur inférieure à 0 pour la borne inférieure ou
une valeur supérieure à 1 pour la borne supérieure. Il faut alors corriger
l’intervalle en mettant respectivement 0 ou 1 à la place de la borne qui
sort de l’intervalle [0,1]. L’intervalle de Wilson n’a pas ce problème, ses
bornes étant automatiquement comprises entre 0 et 1.

12
3. Test statistique pour deux proportions

Ex: Taux p1 et p2 d’individus ayant une caractéristique A dans deux


populations différentes.

On se demande si les proportions d’individus ayant la caractéristique


d’intérêt sont les mêmes dans les deux populations ou si elles sont
différentes.

13
– Hypothèses
H0 : p 1 = p 2 H1: p1 6= p2
– Echantillon

Tirage aléatoire de n1 individus dans la première


population et n2 dans la deuxième
– Statistique de test
Sous H0 et si n1 et n2 sont suffisamment grands, la variable
K1/n1 − K2/n2
Z= q
pq/n1 + pq/n2

a approximativement une distribution N (0, 1).


Ici K1 est le nb d’individus avec A dans le premier échantillon et
analoguement pour K2, et p = p1 = p2.
14
Pour effectuer le test, on calcule la valeur observée de Z sur nos échantillons:
pˆ1 − pˆ2
z=q
p̂q̂(1/n1 + 1/n2)
où
pˆ1 = k1/n1, pˆ2 = k2/n2
et
p̂ = (k1 + k2)/(n1 + n2)

Règle de décision:
Rejeter H0 si |z| > z1−α/2 .

15
Les données peuvent être présentées de la façon suivante:
Caractère A
Echantillon Présent Absent Total
1 n11 n12 n1.
2 n21 n22 n2.
Total n.1 n.2 n
On peut démontrer que

2 n(n11n22 − n12n21)2
z =
n1.n2.n.1n.2

Règle de décision équivalente:


Rejeter H0 si z 2 > χ2 1,1−α , où χ 2
1,1−α est le quantile 1 − α de la distribution χ 2 à
2
un degré de liberté, notée χ1.
(En effet, on rappelle que, par définition de la distribution χ2 , si Z ∼ N (0, 1), alors Z 2 ∼ χ21 .)

16
Au niveau des statistiques de test, on a la situation suivante:
Densité de Z sous H0:

P0(|Z|>z1−α2) = α
ϕ

− z1−α2 0 z1−α2

Densité de Z 2 sous H0:


densité χ21

P0(Z2>χ21,1−α) = α

0 (z1− )2 = χ21,1−α
α
2

17
Exemple: On veut tester si la proportion de nouveaux nés dont le poids à
la naissance est inférieur à 2500g est différente dans les deux populations
suivantes:
– Age de la mère ≤ 20 ans
– Age de la mère > 20 ans
On prélève deux échantillons de taille 100 et on obtient la situation
suivante:
Poids à la naissance
Age Proportion de faibles
maternel ≤ 2500g > 2500g Total poids à la naissance
≤ 20 20 80 100 0.20 (= p̂1)
> 20 10 90 100 0.10 (= p̂2)
Total 30 170 200 0.15 (= p̂)

18
Calculs:
pˆ1 − pˆ2
z = q
p̂q̂(1/n1 + 1/n2)
0.2 − 0.1
= q
0.15 × 0.85 × (1/100 + 1/100)
= 1.98

n(n n − n n ) 2
11 22 12 21
z2 =
n1.n2.n.1n.2
200 × (20 × 90 − 10 × 80)2
=
(100 × 100 × 30 × 170)
= 3.92

On a bien 1.982 = 3.92.

19
Décision:
z > 1.96 = z0.975 et donc on rejette H0.

De façon équivalente:
z 2 > 3.84 = χ2
1,0.95 et donc on rejette H0.

On vient de tester l’hypothèse d’indépendance entre les variables “poids à


la naissance inférieur à 2500g” et “âge de la mère inférieur à 20 ans”. En
effet, demander si la proprotion de bébés dont le poids à la naissance est
inférieur à 2500g diffère entre les populations des mères de moins et de
plus de 20 ans revient à demander s’il y a une dépendance entre ces deux
variables. Si les proportions diffèrent cela implique que le fait de connaı̂tre
l’âge de la mère donne une information sur le poids du bébé, ce qui est le
propre d’une dépendance entre deux variables.
20
De façon générale, on pourra donc tester l’indépendance entre deux variables
dichotomiques (i.e. qui n’ont que deux modalités) de la façon ci-dessus. Souvent,
ces variables indiquent la présence ou l’absence d’un caractère (ex.: âge ≤ 20 ans),
et on parle alors de test sur l’indépendance de deux caractères. Donc, pour tester
l’indépendance entre deux caractères A et B, on pose
H0 : A et B indépendants H1 : A et B pas indépendants
et on construit le tableau suivant:

B présent B absent Total


A présent n11 n12 n1.
A absent n21 n22 n2.
Total n.1 n.2 n

On calcule ensuite la valeur observée de la statistique de test Z 2:

2 n(n11n22 − n12n21)2
z = .
n1.n2.n.1n.2

On rejette alors H0 si z 2 > χ2 2


1,1−α , où χ1,1−α est le quantile 1−α de la distribution
χ2 à un degré de liberté.
21
Pour information:
Souvent, lorsqu’on s’intéresse à la dépendance entre deux caractères, il y a un caractère,
appelé facteur antédédant ou facteur de risque qui cause potentiellement l’autre (par
exemple une maladie). Par exemple, le facteur antécédent fumer cause potentiellement
le caractère cancer du poumon. Il y a alors trois types d’études qui se distinguent par
leur mode d’échantillonnage:
• Etude prospective: On prélève des échantillons de tailles fixées dans les populations
avec et sans le facteur de risque, et on observe ensuite quels individus développent la
maladie.
• Etude rétrospective: On prélève des échantillons de tailles fixées dans les
populations avec et sans la maladie et on regarde quels individus ont le facteur de
risque.
• Etude transversale: On prélève un seul échantillon dans la population globale et
on détermine quels individus ont (ou développent) la maladie et quels individus ont le
facteur de risque.
Suivant la situation, on choisira le type d’étude le plus approprié (ou le plus réalisable).
Par exemple, dans le cas d’une maladie rare, une étude rétrospective est généralement
plus puissante, car avec les deux autres types on obtiendrait très peu d’individus avec la
maladie.
Dans les trois cas, on pourra utiliser la méthode ci-dessus pour tester l’indépendance.
22
Chapitre 12: Tests et intervalles de
confiance pour moyennes

1. Test statistique pour une moyenne

2. Intervalle de confiance pour une moyenne

3. Tests statistiques pour deux moyennes

4. Intervalle de confiance pour une différence de moyennes

1
Dans ce chapitre, nous allons considérer des variables quantitatives
continues et nous intéresser à leur moyenne.

1. Test statistique pour une moyenne

Ex: Taille moyenne des individus d’une population

Soit µ cette moyenne.

2
• Hypothèses

H 0 : µ = µ0 H1: µ 6= µ0

• Echantillon

Tirage aléatoire de n individus. On observe les n variables aléatoires X1, . . . , Xn.

• Statistique de test

Différence standardisée entre la moyenne des observations et µ0:


X̄ − µ0
T = √ .
S/ n
où
v
n u n (X − X̄)2
uP
1 X i
X̄ = Xi et S = t i=1
n i=1 n−1
Attention: dans ce chapitre, S et s désignent l’écart-type dans sa version avec n − 1
au dénominateur (et non n comme au chapitre 3).

3
Sous H0 et sous les conditions d’application que les Xi sont indépendants et que

Xi ∼ N (µ, σ 2), i = 1, . . . n,
on peut montrer que T a une distribution t à n − 1 degrés de liberté, notée tn−1 .

Rappel: la distribution t est une famille de distributions dépendant d’un paramètre appelé
le nombre de degrés de liberté. comme le motre la figure ci-dessous, plus le nombre de
degrés de liberté est élevé, plus la distribution t s’approche de la distribution normale
standard.
Distribution t
0.4

t1
t2
t5
0.3

t10
t20
t30
densité

N(0,1)
0.2
0.1
0.0

−4 −2 0 2 4
t

4
Remarques:
→ Ce test est dit exact, car sous H0 et les conditions d’application la distribution de
la statistique de test est connue exactement et non approximativement comme dans les
chapitres précédents.
→ La différence avec la statistique de test que nous avons utilisée dans le chapitre 10 pour
les poissons du lac est que la variance est estimée en utilisant n − 1 au dénominateur
et non n.
→ Comme le nombre de degrés de liberté est égal à n − 1, on voit que pour des grandes
tailles d’échantillon la procédure de test décrite ici devient équivalente à celle du chapitre
10, où on utilisait la normale standard.

Concrètement, le test est mené de la façon habituelle, mais le domaine de rejet de H0


n’est plus défini à l’aide du quantile de la normale standard z1−α/2 mais avec celui de
la loi t à n − 1 degrés de liberté, noté tn−1 , 1−α/2 .
• Règle de décision (pour un test de niveau α):
Rejeter H0 si |t| > tn−1 , 1−α/2 ,
où tn−1 , 1−α/2 est le quantile 1 − α/2 de la distribution t à n − 1 degrés de liberté
et t est la valeur observée de T .
Ce test s’appelle le test de Student ou t-test pour une seule moyenne.
5
2. Intervalle de confiance pour une moyenne
Comme précédemment, on définit une fourchette de valeurs plausibles de la vraie moyenne
µ dans la population en déterminant toutes les valeurs qui ne sont pas rejetées par le
test. Ce sont les valeurs pour lesquelles
x̄ − µ
√ ≤ tn−1,1−α/2 ,
s/ n
ce qui est équivalent à
√ √
x̄ − tn−1 , 1−α/2 s/ n < µ < x̄ + tn−1 , 1−α/2 s/ n .
| {z } | {z }
binf bsup

On définit donc l’intervalle de confiance comme

IC = [binf , bsup].

6
Et comme précédemment, on obtient le résultat suivant pour la probabilité que l’intervalle
de confiance contienne la vraie moyenne µ:
Comme
X̄ − µ
T = √ ∼ tn−1 ,
S/ n
on a que
!
X̄ − µ
P −tn−1 , 1−α/2 < √ < tn−1 , 1−α/2 = 1 − α,
S/ n
ce qui est équivalent à
 
 √ √ 
P X̄ − tn−1 , 1−α/2 S/ n < µ < X̄ + tn−1 , 1−α/2 S/ n = 1 − α
 
| {z } | {z }
Binf Bsup

Et donc
 
P Binf < µ < Bsup = 1 − α :
la probabilité que l’intervalle de confiance contienne le vrai paramètre est de 1 − α.

7
Au chapitre 10, nous avons vu que l’intervalle de confiance basé sur la statistique de test
X̄ − µ0
Z = rP
n
i=1 (Xi −X̄)
2 √
n / n
avec la règle de rejeter H0 si
|z| > z1−α/2
avait un coefficient de couverture inférieur à 1 − α, même dans le cas où les données
ont une distribution normale.

En remplaçant les quantiles de N (0, 1) par ceux de la loi t à n − 1 degrés de liberté,


on corrige ce défaut en élargissant un peu l’intervalle de confiance. En effet, comme les
distributions t sont un peu plus écartées que la distribution N (0, 1), on aura toujours

tn−1 , 1−α/2 > z1−α/2 , ∀n.

8
La différence de largeur entre les IC normal et Student a pour base le fait que σ, l’écart
type des données, n’est pas connu et doit être estimé, ce qui représente une source de
variabilité supplémentaire. L’IC normal n’en tient pas compte (il serait exact si σ était
connu), alors que l’IC Student en tient compte.

Rappelons encore que le test de Student est exact si les données ont une distribution
normale. En pratique il convient donc de s’assurer que le modèle normal est approprié
pour décrire les données, par exemple au moyen d’un qq-plot.

9
Exemple: On se demande si la masse cérébrale moyenne µ dans une population donnée
est égale à la valeur moyenne pour l’humanité qui est de 1.5kg. On a mesuré la masse
cérébrale de 10 individus et obtenu les valeurs suivantes xi (en kg):

0.77 1.00 1.07 1.20 1.33 1.37 1.45 1.49 1.61 1.82

Le qq-plot indique que le modèle normal n’est pas trop mis en défaut:
Normal Q−Q Plot


1.8
1.6


Sample Quantiles


1.4



1.2


1.0


0.8

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5


Theoretical Quantiles

10
On Procède donc au test:

• Hypothèses:
H0: µ = µ0 = 1.5kg H1: µ 6= µ0
• Calcul de la statistique de test:
x̄ − µ0
t= √ .
s/ n
Avec
v
u n (x − x̄)2
uP
i
x̄ = 1.311, et s = t i=1 = 0.310,
n−1
on trouve
t = −1.930.
• Décision (pour un test au niveau 5%):
Comme |t| < tn−1,0.975 = 2.262, on ne rejette pas H0.

11
Pour avoir une idée de la précision avec laquelle on a estimé le poids moyen du cerveau
dans notre population, on construit un intervalle de confiance à 95%:
√ √
IC = [x̄ − tn−1 , 0.975 s/ n , x̄ + tn−1 , 0.975 s/ n]
= [1.09kg , 1.53kg],
et on constate que, conformément au résultat du test, la valeur de 1.5kg fait partie de
l’intervalle de confiance.

12
3. Tests statistiques pour deux moyennes

Deux situations distinctes:


– Les données sont observées par paires. Il y a deux mesures par unité
d’observation. On parle dans ce cas de données appariées.
Exemple: On mesure une caractéristique deux fois sur chaque patient
d’un échantillon; une fois avant un traitement et une fois après. La
première et la deuxième observation ne sont pas indépendantes.
– Les observations proviennent de deux populations différentes et sont
indépendantes. On parle alors de données non appariées.
Exemple: Poids moyens dans un échantillon de femmes et un échantillon
d’hommes. Les échantillons n’ont pas forcément la même taille.
13
t-test pour données appariées
Soient X1, . . . , Xn et Y1, . . . , Yn les variables qui représentent les deux
séries de mesures, X1 allant de paire avec Y1, etc.
On calcule les différences

Di = Yi − Xi

et on teste

H0 : E(Di) = 0 contre H1 : E(Di) 6= 0

en se basant sur la condition d’application que

Di ∼ N (µ, σ 2), i = 1, . . . , n.

On utilise pour cela le t-test pour une seule moyenne du paragraphe


précédent.
14
t-test pour données non appariées
Soient X1, . . . , Xm et Y1, . . . , Yn les variables qui représentent les deux séries de
mesures.
Conditions d’application:

Xi ∼ N (µ1, σ 2), Yj ∼ N (µ2, σ 2), i = 1, . . . , m, j = 1, . . . , n.


avec Xi et Yj indépendantes ∀i = 1, . . . , m, j = 1, . . . , n.
Nous avons donc supposé que les deux séries de mesures proviennent de populations qui
ont la même variance σ 2.

• Hypothèses
H 0 : µ1 = µ2 H1: µ1 6= µ2
• Echantillons
Tirage aléatoire de m individus dans la première et n individus dans la deuxième
population.

15
• Statistique de test
Différence standardisée entre les moyennes des échantillons:
D
T = , où
SD
v
2 2
s
t (m − 1)Sx + (n − 1)Sy
u
1 1u
D = X̄ − Ȳ et SD = + ,
m n (m − 1) + (n − 1)
avec comme d’habitude
v
m u m (X − X̄)2
uP
1 X i
X̄ = Xi et Sx = t i=1
m i=1 m−1
et de même pour Y .

Sous H0 et les conditions d’application, on peut montrer que

T ∼ tm+n−2 ,
c’est-à-dire que T a une distribution t à m + n − 2 degrés de liberté.

16
• Règle de décision (pour un test de niveau α):
Rejeter H0 si |t| > tm+n−2 , 1−α/2 ,
où tm+n−2 , 1−α/2 est le quantile 1 − α/2 de la distribution t à m + n − 2 degrés
de liberté et t est la valeur observée de la statistique de test.

Lorsqu’on rejette H0, on dit que la différence de moyennes est significativement différente
de zéro, ou simplement que la différence de moyennes est significative.

17
4.Intervalle de confiance pour une différence de
moyennes
Soit Dpop = µ1 − µ2 la vraie différence entre les moyennes des
populations. Ci-dessus, On a testé H0: Dpop = 0. Pour construire un
intervalle de confiance, on teste d’autres valeurs de Dpop et on garde
toutes celles qui ne sont pas rejetées. On peut montrer que:

D − Dpop
T = ∼ tm+n−2 .
SD
On a donc que
 
−t
D − Dpop
P m+n−2 , 1−α/2
< < tm+n−2 , 1−α/2  = 1 − α,
SD
ce qui est équivalent à
 
P D − tm+n−2 , 1−α/2 SD < Dpop < D + tm+n−2 , 1−α/2 SD = 1 − α

18
Exemple: Déficit alimentaire et myopie.
Reprenons encore une fois les données de réfraction occulaire de singes rencontrées dans
le chapitre 1 et différentes séries d’exercice. Rappel: on se demande si le déficit alimentaire
protéique est associé à la myopie. Dans une étude publiée par Young, Leary, Zimmerman
et Strobel (1973), les chercheurs ont nourri un groupe de singes avec une diète à faible
contenu protéique et un autre groupe avec une diète à haut contenu protéique. Au bout
de plusieurs mois, ils ont mesuré la réfraction oculaire des singes. Voici un sous-ensemble
des données obtenues:

Niveau protéique faible (xi):


1.27 -4.98 -0.50 1.25 -0.25 0.75 -2.75 0.75 1.00 3.00
2.25 0.53 1.25 -1.50 -5.00 0.75 1.50 0.50 1.75 1.50

Niveau protéique élevé (yi):


-6.00 0.25 1.25 -2.00 3.14 2.00 0.75 1.75 0.00 0.75
0.75 0.25 1.25 1.25 1.00 0.50 -2.25

19
Les écarts types observés sont:
v
u Pn 2
x
t i=1(xi − x̄)
u
sx = = 2.165,
nx − 1
v
u Pny
u
i=1 (yi − ȳ)2
sy = t = 2.069,
ny − 1
ils ne sont donc pas trop différents. Voyons les qq-plots:
Niveau protéique faible Niveau protéique élevé

● ●


2
2

● ●
●● ●● ●
●● ●
Sample Quantiles

Sample Quantiles
● ●
●●● ●●●

●● ●●

0
0


−2
● ●

−2

−4
−4

−6
● ● ●

−2 −1 0 1 2 −2 −1 0 1 2
Theoretical Quantiles Theoretical Quantiles

Le modèle normal n’est pas tout à fait adéquat pour décrire ces données, même si
la plupart des observations sont alignées sur une droite. En utilisant une méthode de
génération numérique de données, on a cependant pu s’assurer que le niveau réel d’un
t-test à 5% avec des données distribuées de la sorte était proche de 0.05, de sorte que
l’on décide d’appliquer cette procédure à nos données.
20
On Procède donc au test:

• Hypothèses:
H0: µx = µy H1: µx 6= µy ,
où µx et µy sont les vraies réfractions occulaires moyennes dans les deux populations
de singes.
• Calcul de la statistique de test:
d
t= .
sD
Avec

d = x̄ − ȳ = −0.119,
v
(nx − 1)s2 2
s
x + (ny − 1)sy
u
1 1u
sD = + t = 0.700,
nx ny (nx − 1) + (ny − 1)
on trouve
t = −0.171.
• Décision (pour un test au niveau 5%):
Comme |t| < tnx+ny −2 , 0.975 = 2.030, on ne rejette pas H0.
21
Pour avoir une idée de la précision avec laquelle on a estimé la différence entre les
réfractions occulaires moyennes des deux populations, on construit un intervalle de
confiance à 95%:

IC = [d − tm+n−2 , 0.975 sD , d + tm+n−2 , 0.975 sD ]


= [−1.540 , 1.301],
et on constate que, conformément au résultat du test, la valeur de 0 fait partie de
l’intervalle de confiance.

22

Vous aimerez peut-être aussi