Académique Documents
Professionnel Documents
Culture Documents
PHARMACIEN-NE-S
1
Chapitre 1: Introduction
1. Plan du cours
2. Matériel
3. Objectifs
4. Exemples
• Effet de la conservation sur des échantillons de sang
• Propriétés d’un test diagnostique
• Déficit alimentaire et myopie
• Etude expérimentale sur le risque d’attaque cardiaque après
administration d’aspirine
2
1. Plan du cours
Le cours est composé de 30 périodes de cours et de 24 périodes d’exercices.
Cours
Menu:
1. Introduction
2. Descriptions graphiques de distributions
3. Descriptions numériques de distributions
4. Description de la relation entre deux variables
5. Probabilités
6. Variables aléatoires
7. Modèles de distributions fréquents
8. Inférence, échantillonnage et estimation
9. Distribution d’un estimateur
10. Introduction aux tests statistiques
11. Tests et intervalles de confiance pour proportions
12. Tests et intervalles de confiance pour moyennes 3
Exercices
• Une série d’exercices par chapitre
• Les problèmes proposés sont similaires aux problèmes qui vous seront posés à
l’examen.
• Parfois je ferai quelques rappels et donnerai des instructions lors des s éances
d’exercices.
• En règle générale les étudiant(e)s qui participent aux séances d’exercices s’en
sortent mieux à l’examen.
4
2. Matériel
• Transparents: un jeu par chapitre
• Exercices et solutions
• Tables de distributions
• Exemples d’examens
• Polycopié du Prof. Marazzi
Matière d’examen
La matière d’examen est composée des transparents et des exercices et solutions.
5
3. Objectifs
On peut définir la statistique comme l’ensemble des méthodes qui ont pour objet la
collecte, le traitement et l’interprétation de données d’observation relatives à un groupe
d’individus ou d’unités.
Ce cours présente une introduction aux techniques statistiques, que l’on peut répartir
dans deux catégories:
• La statistique descriptive: Techniques permettant d’explorer des données et de les
représenter graphiquement, afin de repérer des structures, des tendances.
→ Chapitres 2 à 4
• La statistique inférentielle: Techniques permettant de tester si une structure
observée dans un échantillon pourrait être le simple fait du hasard, ou si elle
correspond à un phénomène réel.
→ Chapitres 8 à 12
Les chapitres 5 à 7 présentent les outils de calcul de probabilités nécessaires à l’inférence.
Les chapitres les plus importants sont les chapitres 10-12 (tests statistiques).
6
Buts de ce cours d’introduction:
• Se familiariser avec les notions et outils statistiques les plus courants
• Comprendre les principes et le mécanisme de l’inférence statistique
Le but n’est pas d’être capable de mener soi-même des analyses complexes mais de
pouvoir comprendre et interpréter correctement des résultats qu’on vous présenterait ou
que vous liriez. Celles et ceux qui feront de la recherche devront suivre un cours plus
avancé.
→ Le cours ne présente pas de logiciel statistique
→ Les exercices sont de type “papier-crayon”
7
4. Exemples
Les triglycérides sont des lipides associés au transport de certaines protéines dans le
sang. Une concentration trop élevée de triglycérides dans le sang augmente les risques
de souffrir de maladies cardiovasculaires.
Dans une étude menée par Wood (1973), les échantillons de 30 sujets ont été analysés
immédiatement après la prise de sang et 8 mois après.
On appelle ce type de données des données appariées, car elles vont par paires.
8
Les données obtenues sont les suivantes (en mg/100 ml):
10
Atteints Non atteints Total
Test positif 215 16 231
Test négatif 15 114 129
Total 230 130 360
11
Déficit alimentaire et myopie
Question: Le déficit alimentaire protéique est-il associé à la myopie?
Dans une étude publiée par Young, Leary, Zimmerman et Strobel (1973), les chercheurs
ont nourri un groupe de singes avec une diète à faible contenu protéique et un autre
groupe avec une diète à haut contenu protéique. Au bout de plusieurs mois, ils ont
mesuré la réfraction oculaire des singes. Voici un sous-ensemble des données obtenues:
14
Chapitre 2: Descriptions graphiques
de distributions
1. Terminologie et notations
1
1. Terminologie et notations
La statistique s’intéresse à des populations. Le terme population est à comprendre dans
un sens élargi. Exemples de populations:
• Les habitants d’une ville, d’une région, d’un pays
• Les voitures qui circulent dans un pays
• L’ensemble des séjours hospitaliers pendant une année dans un hôpital
• L’ensemble des jets possibles d’une pièce de monnaie
Les éléments d’une population sont appelés des unités d’observation. Ils peuvent être de
différentes natures. Dans les exemples ci-dessus, on trouve les types suivants:
• Des personnes
• Des objets (voitures)
• Des unités abstraites (séjours hospitaliers, jets d’une pièce de monnaie)
2
Les unités d’observation possèdent des caractéristiques:
• Habitants: âge, nombre d’enfants, sexe, état de santé
• Voitures: couleur, kilométrage, nombre de roues
• Séjours hospitaliers: durée en jours, spécialité, coût
• Jets d’une pièce: côté (pile ou face), bruit
Ces caractéristiques sont appelées des variables (car leur valeur varie d’une
unité d’observation à l’autre). Les valeurs possibles d’une variable sont
appelées ses modalités.
3
On distingue plusieurs types de variables:
• variable quantitative: les modalités sont des nombres qui expriment des quantités.
→ variable quantitative continue: les modalités sont des nombres réels, elles ne
sont pas dénombrables (ex.: poids, taille)
→ variable quantitative discrète: les modalités sont dénombrables: nombres
entiers, demi-entiers, etc (ex.: durées de déjours hostpitaliers en jours ou en
demi-journées, nombre de frères et soeurs)
• variable qualitative: les modalités ne sont pas des quantités numériques
→ variable qualitative catégorielle: les modalités sont des qualités (ex.: couleur
des yeux, lieu de naissance)
→ variable qualitative ordinale: les modalités sont des qualités pouvant être
ordonnées (ex.: qualité d’un film, état de santé (bon, moyen, mauvais))
4
En général, la population est trop grande pour qu’on puisse l’observer en entier, et on
devra alors tirer un échantillon. On adopera alors les notations suivantes:
• n pour la taille de l’échantillon
• Lettres majuscules pour les variables. Ex.: A pour l’âge, C pour la couleur des
yeux.
• Lettres minuscules pour les valeurs observées des variables dans l’échantillon.
Certaines de ces valeurs peuvent être égales. Ex.: c1, c2, ..., cn pour les couleurs
des yeux des n individus de l’échantillon.
• Attention: on utilise la même notation pour désigner les modalités d’une
variable. Toutes les modalités sont différentes. Ex.: c1 = brun, c2 = bleu, c3 =
vert, c4 = noir, c5 = gris.
5
Exemple: étudiant(e)s de 1ère année
6
Données:
T P S F C T P S F C T P S F C
180 70 h 2 brun 190 66 h 1 brun 168 52 f 0 brun
177 57 h 3 brun 183 78 h 0 bleu 157 47 f 1 vert
180 60 h 1 bleu 167 60 h 4 bleu 167 53 f 2 vert
180 66 h 0 brun 181 67 h 0 brun 168 57 f 4 bleu
183 62 h 6 vert 179 98 h 2 brun 163 65 f 1 brun
184 68 h 0 brun 173 75 h 1 vert 167 60 f 2 brun
185 65 h 1 noir 170 68 h 1 gris 166 68 f 2 bleu
184 72 h 2 brun 170 59 h 3 brun 164 49 f 7 vert
174 65 h 3 noir 183 72 h 2 bleu 172 57 f 3 brun
180 72 h 1 brun 179 73 h 3 vert 165 59 f 2 bleu
168 52 h 3 brun 180 72 h 3 bleu 158 62 f 0 brun
180 75 h 0 bleu 188 70 h 2 brun 161 65 f 1 brun
183 75 h 2 brun 176 65 h 1 vert 160 61 f 1 bleu
181 68 h 0 bleu 178 72 h 1 brun 162 58 f 2 brun
180 65 h 4 brun 185 71 h 1 bleu 165 58 f 5 brun
7
2. Distribution d’une variable qualitative
Soit X une variable qualitative et {x1, x2, ..., xk } l’ensemble de ses modalités. Pour
un échantillon de taille n, soit ni le nombre d’individus ayant la modalité xi. On appelle
• fréquence absolue de xi le nombre ni
• fréquence relative de xi le nombre fi = ni/n
• distribution de fréquence de X l’ensemble des couples (xi, ni) ou des couples
(xi, fi)
Propriétés: • ni = n1 + ... + nk = n
P
• fi = f1 + ... + fk = 1
P
8
Pour représenter graphiquement une distribution de fréquence, on peut utiliser
• un diagramme à barres:
20
Fréquence absolue
15
10
5
0
brun bleu vert noir gris
• un diagramme en secteurs:
brun
51.11 %
gris
2.22 %
noir
4.44 %
bleu vert
26.67 % 15.56 %
9
3. Distribution d’une variable quantitative
10
1. Le nombre d’observations est petit
Ex.: Tailles des filles dans notre échantillon d’étudiant(e)s
• ••
•• ••••••••• •
150 160 170
Dans ce cas on peut simplement représenter les données sur un axe. Cette représentation
permet de se faire une idée rapide de la forme de la distribution (symétrie, etc) et de
repérer des éventuelles observations aberrantes (appelées outliers).
0 1 2 3 4 5 6 7
Nb de frères et soeurs
Dans ce cas on procède de façon similaire au cas d’une variables qualitative, avec un
diagramme en barres qui tient compte de l’ordre des modalités.
11
3. Le nombre d’observations est grand avec beaucoup d’observations
différentes
Ex.: Tailles des étudiant(e)s
8
Fréquence
6
4
2
0
Taille [cm]
2. Mesures de position
3. Mesures de dispersion
4. Le box-plot
1
1. Principales caractéristiques d’une distribution
Dans ce chapitre on s’intéresse plus particulièrement aux variables quantitatives avec
un grand nombre de modalités, et on considère les caractéristiques suivantes de leur
distribution:
— position: “Où se situe la distribution?”
— dispersion: “A quel point la distribution est-elle éparpillée”
2
2. Mesures de position
Mesures du “milieu” d’une distribution
Pour mesurer le “milieu” d’une distribution, i.e. où se trouvent les données de façon
globale, les deux mesures les plus utilisées sont la moyenne arithmétique, souvent appelée
simplement moyenne, et la médiane. Une troisième mesure parfois utilisée est le mode.
Moyenne
Soient x1, ..., xn les observations d’une variable X. La moyenne de X, notée m(X),
est définie par
P
xi x + ... + xn
m(X) = = 1 .
n n
3
Exemples
1. Tailles des filles [cm]: 168, 157, 167, 168, 163, 167, 166, 164, 172, 165, 158, 161,
160, 162, 165
m(T)
● ● ●
● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ●
5 10 15 20 25 30 35
Durée (D)
Soient x1, ..., xn les observations d’une variable X. Pour trouver leur médiane, il
faut d’abord ordonner les observations.
Notation: on notera x[1], ..., x[n] les observations mises dans l’ordre croissant.
Autrement dit, on aura toujours (par définition) que x[1] ≤ ... ≤ x[n].
6
Exemples
m(T) med(T)
● ● ●
● ● ● ● ● ● ● ● ● ● ● ●
La médiane est un bon résumé du “milieu” de la distribution. Elle est très proche de la
moyenne.
7
Exemples
.
n = 10 est pair et donc med(D) = d[ n ] + d[ n +1] 2 = d[5] + d[6] 2=
2 2
(8 + 8)/ 2 = 8
● med(D) m(D)
● ●
● ● ● ● ● ● ●
5 10 15 20 25 30 35
Durée (D)
La médiane est un meilleur résumé du “milieu” de la distribution que la moyenne. Elle est
peu influencée par les valeurs extrêmes.
8
Propriétés de la médiane
Soient X et Y deux variables, x1, ..., xn et y1, ..., yn leurs observations sur les mêmes
individus 1 à n. Soit a une constante.
1. Si tous les xi sont ≥ 0 alors med(X) ≥ 0
2. med(aX) = a med(X) La variable aX est définie comme ayant
les observations ax1, ..., axn.
Ex: Si X est une taille en m et que
a = 100, aX est cette taille en cm.
3. med(X + a) = med(X) + a La variable X + a est définie comme ayant
les observations x1 + a, ..., xn + a.
Ex: Si X est une température en degrés Celsius
et que a = 273.15, X + a est cette
température en degrés Kelvin.
9
Faut-il utiliser la moyenne ou la médiane?
Exemple: Revenus dans le canton de Vaud. Les distributions de revenus ont typiquement
une forme asymétrique.
med(Revenu) m(Revenu)
150000
Fréquence
50000
0
Revenu
med(Taille) m(Taille)
6
4
2
0
Par contre la moyenne est très sensible aux outliers: si on ajoute le plus grand homme du
monde à notre échantillon, elle change d’environ 2 cm alors que la médiane ne change
presque pas. Si on a affaire à une distribution symétrique mais qu’on s’attend à ce qu’il
y ait des outliers, il vaut donc mieux utiliser la médiane.
11
Cela dit, lorsque la distribution est symétrique la moyenne et la médiane sont égales.
med(Taille) m(Taille)
6
4
2
0
Par contre la moyenne est très sensible aux outliers: si on ajoute le plus grand homme du
monde à notre échantillon, elle change d’environ 2 cm alors que la médiane ne change
presque pas. Si on a affaire à une distribution symétrique mais qu’on s’attend à ce qu’il
y ait des outliers, il vaut donc mieux utiliser la médiane.
12
Mode
Le mode d’une distribution est défini comme la modalité qui a la plus haute fréquence.
De façon plus générale, on pourra appeler mode toute valeur où la fréquence atteint
un maximum local. On pourra ainsi avoir des distributions bimodales, trimodales, etc.
Pour les variables quantitatives continues, on définit les modes à partir de l’histogramme,
comme les milieux des classes de fréquence maximale.
Lorsqu’une distribution a plusieurs modes, c’est souvent le signe que la population est
constituée de plusieurs sous-populations distinctes. Ex: tailles des étudiant(e)s:
8
Fréquence
6
4
2
0
On observe deux modes (166 cm et 180 cm), correspondant aux sous-populations des
filles et des garçons.
13
Autres mesures de position: les quantiles
On a vu que la médiane partage la distribution en deux parties, de telle sorte que 50% des
données lui sont inférieures et 50% lui sont supérieures. On peut généraliser ce procédé
en demandant qu’une proportion α des données soient dans la première partie et le reste
dans la deuxième. La limite entre les deux parties s’appelle alors le quantile d’ordre α et
on le note qα. Autrement dit, le quantile d’ordre α est une valeur telle qu’une proportion
α des observations se trouve à sa gauche et une proportion 1 − α à sa droite.
Taille [cm]
Taille [cm]
.
q0.75(T ) = t[d15×0.75e] + t[b15×0.75+1c] 2
.
= t[d11.25e] + t[b12.25c] 2
.
= t[12] + t[12] 2
= t[12]
= 167
16
Exemples:
Quantiles de la distribution de la taille des filles.
Tailles des filles dans l’ordre croissant [cm]:
t[1] t[2] t[3] t[4] t[5] t[6] t[7] t[8] t[9] t[10] t[11] t[12] t[13] t[14] t[15]
157 158 160 161 162 163 164 165 165 166 167 167 168 168 172
.
q0.8(T ) = t[d15×0.8e] + t[b15×0.8+1c] 2
.
= t[d12e] + t[b13c] 2
.
= t[12] + t[13] 2
= (167 + 168)/ 2
= 167.5
17
3. Mesures de dispersion
La mesure de dispersion (ou éparpillement) la plus utilisée est la variance, et plus
particulièrement sa racine carrée appelée l’écart-type. Deux mesures alternatives sont
le mad (median absolute deviation) et l’écart interquartile.
Variance
Soient x1, ..., xn les observations d’une variable X. La variance de X, notée s2(X),
est définie par
2
2
1X
s (X) = m (X − m(X)) = (xi − m(X))2.
n
En mots, il s’agit de la moyenne des carrés des écarts entre X et sa moyenne.
18
Exemple: Tailles des filles
ti ti − m(ti ) (ti − m(ti ))2
168 3.8 14.44
157 -7.2 51.84
167 2.8 7.84
168 3.8 14.44
163 -1.2 1.44
167 2.8 7.84
166 1.8 3.24
164 -0.2 0.04
172 7.8 60.84
165 0.8 0.64
158 -6.2 38.44
161 -3.2 10.24
160 -4.2 17.64
162 -2.2 4.84
165 0.8 0.64
moyenne 164.2 0 15.63
√
On a donc s2(T ) = 15.63 cm2 et s(T ) = 15.63 cm = 3.95 cm.
Contrairement à la variance, l’écart-type est mesuré dans les mêmes unités que la variable.
19
Propriétés de la variance et de l’écart-type
Soient X et Y deux variables et soient a, b et c des constantes.
1. s2(c) = 0
2. s2(aX + b) = a2s2(X)
3. s(aX + b) = |a| s(X)
4. En général, s2(X + Y ) 6= s2(X) + s2(Y )
5. La somme des écarts xi − m(X) est toujours nulle
6. s2(X) = m(X 2) − m(X)2
La formule 6. est utile pour les calculs à la main, car elle évite de calculer tous les écarts
xi − m(X).
21
mad
Soit X une variable. Le mad (median absolute deviation) de X est défini par
De façon analogue à la relation entre moyenne et médiane, l’écart-type est une mesure
très sensible aux outliers, alors que le mad est résistant.
22
Ecart interquartile
Pour une variable X, on définit le premier, le deuxième et le troisième quartile comme
q0.25(X), q0.5(X) et q0.75(X) respectivement. Ainsi
• Les quartiles partagent la distribution en quatre parties contenant chacune 25%
des observations
• Le deuxième quartile n’est autre que la médiane.
L’écart interquatile de X, noté Iq (X) est simplement défini comme la différence entre
le troisième et le premier quartile de X:
L’écart interquartile est plus résistant aux outliers que l’écart-type. Le mad résiste encore
mieux, mais il est plus difficile à interpréter.
23
4. Le Box-plot
Le box-plot, ou box-and-whiskers plot (en français boı̂te à moustaches) est une
représentation graphique simple mais puissante d’un échantillon.
Construction
Le long d’un axe vertical, on trace tout d’abord la box (boı̂te), qui va du premier au
troisième quartile. Ainsi, la box contient approximativement la moitié (50%) centrale des
données.
La box est ensuite partagée en deux par un trait horizontal au niveau de la médiane.
Ensuite on va définir les inliers, i.e. les observations non extrêmes, comme toutes les
observations se trouvant dans un intervalle défini comme suit:
• la borne supérieure est égale au troisième quartile plus 1.5 × Iq (Iq = Intervalle
interquartile = hauteur de la box)
• la borne inférieure est égale au premier quartile moins 1.5 × Iq
→ Cette procédure trouve une justification dans le cadre de la distribution normale
que nous verrons au chapitre 7. Dans le cadre de ce modèle fréquent dans la
nature, la définition ci-dessus conduit à environ 99% d’inliers et 1% d’outliers.
On peut alors tracer les moustaches:
• La moustache supérieure va du sommet de la boı̂te au plus grand des inliers
• La moustache inférieure va du bas de la boı̂te au plus petit des inliers
Les données qui ne sont pas des inliers sont marquées individuellement par le symbole
“O” (outlier).
24
Exemple: poids des garçons
100
● Outlier
90 80
Moustache supérieure:
Poids [kg]
L
Iq I Médiane
E
R 1er quartile
S
60
1.5 x Iq
Moustache inférieure:
le plus petit des inliers
● Outlier
50
25
Le box-plot permet en un coup d’oeil d’apprécier les caractéristiques suivantes d’une
distribution:
• Position: la box indique ou se trouve la moitié centrale des données, et comment
elle se répartit autour de la médiane.
• Dispersion: la hauteur de la box donne l’écart interquartile. La longueur des
moustaches donne une idée de la dispersion des données extérieures à la box.
• Asymétrie: la position de la médiane dans la box et la différence de longueur
entre les moustaches nous renseigne sur le degré d’asymétrie.
• Présence d’outliers: marqués individuellement.
Pour comparer des échantillons, on peut représenter plusieurs box-plots côte à côte.
→ Voir exemple à la fin du chapitre 2 du polycopié de Marazzi (paragraphe 2.6).
26
Chapitre 4: Description de la relation
entre deux variables
1. Diagramme de dispersion
2. Covariance et corrélation
3. Moyenne mobile
4. Régression linéaire
5. Ajustement
1
1. Diagramme de dispersion
Comme dans le chapitre précédent, nous allons nous concentrer sur les variables
quantitatives avec un grand nombre de modalités.
Pour visualiser l’association entre deux telles variables, le moyen le plus simple est de
construire un diagramme de dispersion ou scatter plot. Un diagramme de dispersion
représente les observations de deux variables en reportant l’une sur l’axe horizontal et
l’autre sur l’axe vertical. Voici par exemple le diagramme de dispersion des poids et tailles
des étudiant(e)s de première année:
Tailles et poids
●
75
● ● ●
●
● ● ● ●
●
70
● ●
● ● ● ●
●
● ●
65
Poids
● ● ● ● ● ●
● ●
●
60
● ●
● ●
● ●
● ● ●
55
●
●
50
N.B.: Pour simplifier la suite, l’étudiant dont le poids était particulièrement élevé a été retiré de l’échantillon.
2
2. Covariance et corrélation
Le graphique semble indiquer une association entre les variables poids et taille: une plus
grande taille semble correspondre en moyenne à un plus grand poids.
Une façon de quantifier cette association est le coefficient de covariance. Pour deux
variables X et Y mesurées sur les mêmes unités d’observation, le coefficient de
covariance (ou simplement covariance), noté v(X, Y ), est défini par:
v(X, Y ) = m (X − m(X)) (Y − m(Y )) .
Exemple de calcul:
xi yi xi − m(X) yi − m(Y ) (xi − m(X))(yi − m(Y ))
-9 4 -7 3 -21
-5 3 -3 2 -6
3 -1 5 -2 -10
7 -3 9 -4 -36
-1 0 1 -1 -1
-7 3 -5 2 -10
Moyenne -2 1 0 0 -14
Dans cet exemple, on a donc v(X, Y ) = −14.
3
Propriétés de la covariance
Soient X, Y et Z des variables et soient a, b, c et d des constantes.
1. Si v(X, Y ) > 0, cela suggère* que les grandes valeurs de X sont généralement
associées aux grandes valeurs de Y et les petites valeurs de X aux petites valeurs
de Y .
2. Si v(X, Y ) < 0, cela suggère* que les grandes valeurs de X sont généralement
associées aux petites valeurs de Y et les petites valeurs de X aux grandes valeurs
de Y .
3. v(X, X) = s2(X)
4. Symétrie: v(X, Y ) = v(Y, X)
5. v(X, c) = 0
6. v(aX + bY, Z) = a v(X, Z) + b v(Y, Z)
7. v(aX + b, cY + d) = ac v(X, Y )
8. s2(X + Y ) = s2(X) + s2(Y ) + 2v(X, Y )
9. v(X, Y ) = m(XY ) − m(X)m(Y )
La propriété 9. est pratique pour faire le calcul à la main car elle évite de calculer tous
les écarts (xi − m(X)) et (yi − m(Y )).
* La présence d’outliers peut invalider ces interprétations.
4
L’inconvénient de la covariance comme mesure de l’association entre deux variables est
qu’elle dépend des unités de mesures. Par exemple, la covariance entre les tailles et les
poids des étudiant(e)s vaut v(T, P ) = 41.82 cm kg. Si on décidait de mesurer la taille
en mètres (Tm) et le poids en grammes (Pg ), on obtiendrait v(Tm, Pg ) = 418.2 m g.
Or, il est clair que l’association entre la taille et le poids des étudiants ne dépend pas des
unités dans lesquelles elles sont mesurées! Il est donc difficile d’interpréter la covariance
entre deux variables.
6
La corrélation est une mesure de l’association linéaire entre deux variables.
Une autre formulation des propriétés 1. et 2. est la suivante: Si une valeur de X supérieure
à la moyenne de X est généralement associée à une valeur de Y supérieure à la moyenne
de Y , et de même pour les valeurs inférieures à la moyenne, r(X, Y ) aura tendance à
être positif. Une association renversée conduira r(X, Y ) à être négatif.
m(X) m(X)
23
● ●
● ●
●
5
●
● ●
● ● ● ● ● ● ●
● ●
●
22
● ●
● ● ● ● ●●
●● ●● ● ● ●
● ● ● ● ● ●
●
4
● ●●● ● ●
●
● ● ● ● ●● ● ● ●●● ● ● ●
● ●
● ● ●●● ●●● ●
● ●●●●● ●
●
●● ● ● ●●●
●
● ●● ● ●
●
● ●●●●●●●● ●● ● ●● ● ● ● ●● ●●● ●●
● ●●
21
● ● ● ● ● ● ● ●●●
● ● ●●● ● ●
● ●●● ● ●●● ● ● ● ●
● ● ●● ●
● ● ● ● ●●●● ● ● ● ● ● ●●
●● ● ●●● ● ●●● ●● ●
●
●
● ●●●●● ● ● ● ●● ● ● ● ● ● ●
● ●
3
● ● ● ●●●● ● ●● ● ●●●●● ● ● ● ● ●
● ● ● ●
● ● ● ● ●●● ●● ● ● ●● ● ● ●●● ●● ●
● ●● ● ●● ● ●●● ●●●●● ● ● ● ● ● ● ●● ●● ● ●●●●●●● ● ●● ●
m(Y) ●●● ●
●
● ● ●
●●●
●
●●●● ● ● ●
●
●
●●●● ● ● ● ● ● ●● ● ●●●● ●●●● ● ● ● ●
● ●
● ● ●●● ● ●●● ●●●●●●●
●●●
● ●●
●● ● ●●
●● ●● ● ●● ● ● ●●●● ●
● ●● ●●● ● ● ●
●●● ● ● ●● ● ● ●● ● ● ●
20
● ● ● ● ●● ●● ●
● ● ●●● ●
Y
Y
●
●●●● ● ● ● ● ● ●●
● ●● ●●●
● ● ● ● ● ●●
●● ●●
● ●●●●●●●
●
● ●●●● m(Y) ● ● ● ●
● ● ● ●●
● ● ●●● ●
●● ●●● ● ●
●●●●●●●
●●●●●●●●
●
●●●●
●● ●●
●● ● ●
● ●
● ●● ●● ● ●
●●● ● ●
●●● ●●● ● ● ●● ●
●● ●● ●
●●● ● ●
●● ●
●● ●● ●●● ● ●●
2
●● ●
● ●● ●
●
●●
●
●●●●
●●
● ●●
● ● ●● ●
● ● ●●
●●●● ●● ● ●
●
●● ●
● ●
●
● ● ● ●● ●● ● ●
● ● ●● ●
●● ● ●● ●● ●●
●● ●●●
●
● ● ● ● ● ● ● ● ● ● ● ●● ●● ●●●●●●●
● ●
●● ● ● ●● ● ● ●
●●● ●● ●● ●●●●● ●● ● ● ● ●● ● ●●●● ●● ● ●● ●●
● ● ● ● ●●
●● ● ● ● ●●● ●●
● ●● ● ● ● ● ●●
●● ● ●
● ● ● ●● ●● ●
●●●●● ● ● ●●●
●● ●●●●●
19
● ●●● ● ● ● ●● ●● ●●
●
●● ●
● ●● ●● ●● ● ●● ●● ● ● ●●●● ●● ●●
●●●● ● ● ●
● ● ● ●● ● ●● ●●
● ● ● ●● ● ●● ●
●●● ● ● ● ● ● ● ●
1
● ● ●● ●●
● ●●●●● ● ● ●● ●● ● ●●● ●
● ● ● ●
●● ● ● ● ●
● ● ●● ● ●
●● ●●●●● ● ● ●● ●
● ●● ● ●● ● ● ●
● ● ●●● ● ● ●●
● ●● ● ●
●● ● ●
18
● ●
● ● ● ● ●● ● ● ●
● ● ● ● ●● ● ●● ●
●
0
● ● ●● ●
● ● ●
● ●
17
● ● ● ●
−1
7 8 9 10 11 12 13 47 48 49 50 51 52
X X
7
Cas des tailles et des poids, où comme on l’a vu la corrélation est positive:
r(Taille,Poids) = 0.64
m(Taille) ●
75
● ● ●
●
● ● ● ●
●
70
● ●
● ● ● ●
●
● ●
65
Poids
● ● ● ● ● ●
m(Poids)
● ●
●
60
● ●
● ●
● ●
● ● ●
55
●
●
50
8
Voici quelques exemples de diagrammes de dispersion correspondant à différentes valeurs
positives de la corrélation:
r = 0.01 r = 0.22 r = 0.44
● ● ● ●
● ●
● ●
● ● ● ● ● ●
● ● ●
● ● ● ●
● ● ●
●● ● ● ● ●
● ● ● ● ●
● ● ●
● ● ● ● ● ●● ● ●
● ● ● ● ● ● ●
● ● ●● ● ●
● ●
● ● ● ● ●● ●
● ● ● ● ● ●
●
●
● ● ●● ●
● ●
● ● ● ● ●
● ●● ●●● ● ● ● ● ●
● ●
● ● ● ● ● ● ●
● ● ●●
● ● ● ● ●● ●●
● ●● ●●● ●● ● ● ●● ● ● ●● ● ● ● ● ●● ●● ● ● ●
● ● ● ●● ●● ● ● ● ●
● ● ● ● ●●
● ●
● ●
● ●● ● ●● ●● ● ●●
● ● ●
●
●
● ●
● ●●
●
● ● ●●
● ●● ●
● ● ●● ●
● ●●● ● ● ● ● ● ● ●●● ●●● ●
● ● ● ●● ●●● ●● ●●● ● ● ●●
● ● ● ●● ● ●
● ● ● ● ● ● ●● ●
● ● ● ●● ●● ● ● ● ● ● ● ● ● ●●
● ● ● ●● ●●
● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ●●● ●● ●●● ●● ● ● ● ● ● ● ● ● ● ● ● ●
● ●● ●●
● ● ●●● ● ● ●● ●●● ● ●●●
● ●
●● ● ●● ● ●●●● ● ● ● ● ●● ●
● ● ● ●●● ● ● ● ● ● ● ● ●● ●●
●● ● ●
● ● ● ●●● ● ● ● ● ● ●● ● ● ● ● ●●● ● ●● ● ●● ● ● ●● ●● ●● ●●
●
● ● ● ● ●● ●● ● ● ● ● ●● ● ● ● ●
●● ● ●●● ●●
●
● ●● ● ● ● ● ●
● ● ●●●
● ● ●● ● ● ● ●●● ● ● ● ●
● ●
● ● ●●● ● ●●
● ● ●● ● ●●●
● ● ● ● ● ● ●● ● ● ●
● ●● ● ●
● ● ● ●●
● ●●●
● ●●● ● ● ● ● ●
● ●● ●●● ●●●● ●●● ●●● ●
●
●
●● ● ●●● ● ● ●●● ●
●
●●● ●●●● ● ● ●● ●●●●●●●● ● ●●● ● ● ●
●
● ●● ●● ● ● ● ●● ●●● ● ● ● ● ● ●
● ●● ● ● ●● ● ● ●● ● ●●●
●
●●● ● ●●
● ● ●●● ● ● ●●●●●● ●●●● ●
● ●●
● ●● ● ●● ● ●● ●●● ●●
● ●● ● ●● ●● ●● ● ●
●
●●● ● ● ● ●
● ●
●● ●●● ●●●●● ● ● ● ●● ●● ● ●●● ●●● ● ●● ● ●● ● ● ● ●●●● ●
●
●●●
● ● ● ●●●●
● ●
● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ●● ●● ●●●●● ●● ● ●●●
●
● ● ● ● ●● ●
●●
●
●●● ●●● ●
● ● ● ● ● ● ● ● ●
● ● ●● ● ● ● ● ● ●●●
● ● ●● ●●● ● ● ● ● ●● ● ● ● ●● ● ●●● ● ●
● ● ● ● ●● ●● ●● ●●● ●● ● ● ●●● ●●● ●
● ●
●● ●●● ● ●
●
● ● ●●
●● ● ● ●●
● ●● ●● ● ●
●● ● ● ● ● ●●● ● ● ●
● ● ●● ●●●●● ●
●
●●●● ●● ● ● ●●●●● ● ● ● ●● ● ●● ● ● ●● ● ● ●● ●●● ● ●●
● ● ● ●
● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ●●● ● ● ●
● ●● ● ● ●
●
●●●● ●● ● ● ● ●●
● ●● ● ● ●● ●● ● ● ●●
● ● ●● ●●● ●● ● ● ●●
● ● ● ● ●●
●● ● ●● ● ● ● ●● ● ● ●● ● ● ●
● ●●●
● ● ●
● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ●
● ● ●●
● ● ● ●
● ●
●●
● ● ●● ● ● ●
●●
●
● ●● ● ●
● ● ● ●●●● ● ●● ● ● ● ● ● ● ● ● ● ●● ●
●
●●
● ● ●● ●
●
● ● ● ●● ● ●
●● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ●●● ● ●● ● ● ●
●● ● ●● ●●● ●
● ●
●
●●● ● ●●●● ●● ● ● ● ●● ● ●●● ● ●
● ● ● ●● ● ● ● ● ●● ●●● ● ● ●● ● ●● ●
●● ● ●●
● ●
●● ● ● ● ● ● ● ● ● ●●● ● ● ●● ● ● ●
● ● ● ● ● ●● ● ● ● ●
●
●
●
●
● ●● ●●● ●●
●
● ●● ● ● ● ● ●● ● ●
● ●●
● ● ●
● ●● ● ● ●● ● ●
● ● ●
● ● ● ● ● ●● ● ●
● ● ●
●
●● ● ●● ● ● ● ●
● ● ● ●●
●● ● ● ● ● ●● ● ●
●● ● ● ●●● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ●● ● ●● ● ● ●
● ● ● ● ● ● ●● ● ●
● ● ● ● ● ● ● ● ●
●● ●● ● ●
●● ● ●● ● ● ● ● ● ●
● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ●
● ● ● ●●
● ● ● ● ● ●
● ● ● ● ● ● ●
● ● ● ●
● ●
● ● ●
9
Et voici quelques exemples de diagrammes de dispersion correspondant à différentes
valeurs négatives de la corrélation:
r = −0.01 r = −0.22 r = −0.44
● ● ● ●
● ● ●
● ●
● ● ●
● ● ● ● ●
● ● ● ●
● ● ●
● ● ● ● ●
●
● ●
● ● ●
● ● ● ● ●
●●● ●● ● ● ● ●●
● ● ●● ● ●● ● ●
● ●
● ● ● ●● ●● ● ●● ● ●● ● ●
●● ● ● ● ● ● ● ● ●● ● ●●
● ● ● ● ● ● ●●● ●● ● ● ● ●
● ●● ●● ● ● ●
● ● ●● ●
● ● ● ●
●● ● ●●●● ● ● ●●● ●● ●● ● ●
● ● ● ● ● ● ● ● ●
● ● ●
● ● ●● ● ● ● ● ● ●●
●
●
● ● ●●● ●●● ● ●● ● ●● ● ● ● ● ●
● ● ● ● ●
● ●●
●
● ● ● ● ● ● ● ● ●● ●● ● ● ● ●
● ● ● ● ● ●●
● ● ● ● ● ●●● ● ● ●● ● ● ● ● ●●●●
● ● ●● ●●
● ● ● ● ● ● ●
● ● ● ● ● ● ● ●
●●
● ●●
● ● ●● ●● ●●● ● ● ● ●●●●● ● ● ●●●●
●
● ● ● ●● ● ●●●● ● ● ● ●
● ● ● ●●
● ● ● ● ● ●● ● ●● ● ● ● ● ● ●● ● ● ●● ●● ●● ● ● ● ●
● ●
●● ●
●● ● ● ●● ● ● ●● ● ● ● ● ●● ● ● ●● ●●● ●
● ● ●● ●●●● ● ●
●● ● ●● ● ● ●● ●●● ● ● ● ● ●● ● ● ● ● ●● ● ● ●● ●●● ● ● ● ●● ● ●● ● ●
● ●● ●
● ● ●● ● ●●● ● ● ●
● ● ● ● ● ● ● ● ●
●● ●● ● ● ●
● ● ● ● ● ● ● ●● ● ●● ● ●
● ● ● ●● ●● ●● ● ●●● ● ● ● ●●
● ● ● ● ● ●
● ● ● ●● ● ● ●● ● ● ●● ● ● ● ● ● ● ●● ●● ●● ●●● ● ● ●● ●
●● ●
●●
● ●● ● ● ●● ● ●● ● ●
●●●●●
● ●● ●● ●● ● ● ●
● ●● ● ● ●
● ●● ● ●
● ●●●●●●
● ●● ●●● ● ●● ● ● ●● ● ●● ● ● ● ●● ● ● ● ● ●●
●● ● ●
● ●
● ● ●● ●● ●●
● ● ● ● ●● ●●
● ●● ● ●
●● ● ● ●●● ●●
● ●● ● ●●
●
●
● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ●● ●● ●● ●● ●● ●● ●
● ● ● ●●● ● ●● ● ● ● ● ● ● ●● ● ● ● ●●●● ● ●
● ●● ●●
● ●
● ●
● ●● ● ● ●● ●
● ●●●●
●● ●● ● ● ● ●
● ● ● ● ●●
●●● ● ●●● ● ● ●●●●● ● ●
●● ● ● ●
● ● ●●● ●●●● ● ●
● ●●● ●●
● ●
●● ●●● ●
● ●● ●●● ● ●●
● ●
● ● ● ● ● ● ● ●●●●● ● ●● ● ● ●
●● ● ●● ●● ● ● ● ●
●● ●●● ●● ● ● ●
●● ●● ●
● ● ● ●●
● ●●● ●●● ●●●●●●●● ● ●● ● ● ●●
●●
● ● ●
● ● ●
● ●● ● ●●● ● ● ● ● ● ● ●● ● ● ●● ● ● ●
● ●
●● ● ●● ●● ●●●● ●● ● ● ● ●
● ● ● ● ● ●
● ● ● ●
●● ● ●● ● ●● ●● ● ● ● ● ●
●
●
● ●● ●● ●● ●●
● ● ● ●● ●●●
● ●● ●●●●
●● ● ●● ● ●
● ● ● ● ● ● ● ● ● ● ● ●
● ●●
●● ● ● ● ● ● ● ● ● ● ●●
●●
●●
●● ● ● ●●●● ●●●●● ●●● ●
● ●
● ●● ● ●● ● ●
● ● ● ●● ● ● ● ●●● ● ● ● ●● ● ● ● ●● ●●
● ● ● ● ●● ● ● ● ● ●●
●● ●● ●
● ●●
● ●●● ● ● ●● ● ● ●●● ● ●● ● ●
● ● ●
●
●● ● ●● ● ●● ● ● ● ●
● ● ● ● ●
●●●● ● ● ●●
●● ●● ● ●●
●●●● ●
● ●●● ● ● ●● ●● ●● ● ● ● ● ●
● ● ●● ●● ● ●
● ● ● ●
● ●● ●● ● ● ● ● ●● ●● ●● ● ● ●● ●● ●
●● ●●
●● ● ●●
● ●●● ●
●
●● ● ● ● ● ● ● ● ● ●● ●●●● ● ●●● ●
●
●●
● ● ● ●●●
● ● ● ● ●● ●● ● ●
● ● ● ● ● ●● ●●● ● ● ●●
● ● ● ●
● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ●●● ● ● ●
● ● ● ●● ● ●● ●● ●● ● ●● ●● ●●●●● ●
● ● ● ●
● ● ● ●
● ● ●
● ●●● ●● ● ● ●● ●● ● ● ● ● ●● ●
●
● ● ● ●●
● ●● ●● ● ●●
● ● ●● ●
● ●
●● ● ● ●●● ●
●
● ● ● ●
● ●● ●
● ●● ● ●
● ●● ● ● ●
● ● ● ● ●
● ● ●
● ●● ● ● ● ● ● ● ● ●
●● ● ● ●● ● ● ● ●
● ●
● ● ● ●
● ● ●●● ● ● ●
●
● ●
●● ●
● ● ●●
● ● ● ● ● ● ● ● ● ● ●
● ● ● ●
● ● ● ● ● ●
● ● ●
● ●
●
●
● ● ● ●● ●
● ● ●●
● ●●
●●●
●
● ● ●
● ● ● ● ● ●●● ● ●
● ● ●● ●
●●
●●
● ● ●● ●
● ● ● ● ●●
● ●● ● ●● ● ●●
● ● ● ● ●● ● ●● ● ●
●
● ●●● ● ●●●●●
●
● ● ● ●● ●●
●
● ●
● ● ● ●●
●● ●● ●
● ● ●
● ● ● ●● ●●
●● ●●●
●●●●
● ● ● ● ●●● ● ●
● ●●
●
● ●● ● ●●● ● ● ●
● ● ● ●●● ●●
●●●●●
● ● ● ● ●● ●●● ●
●
● ●
●● ●
● ●●● ● ● ●● ● ●● ●
● ● ●
●
●●●●●
●
●
●● ●
●●
●
● ●●● ● ● ● ●● ●●●
● ●● ●
● ● ●● ●●●● ●● ●
●
●●
●● ●●●
● ●● ●● ● ●
● ● ● ●● ● ●●●●
● ●●
●
●
● ● ● ●●
● ●●● ●● ● ● ●●● ● ●● ● ●
●●●●●●●
● ●
●●
●●
●
●● ●●●● ●●●
● ● ● ●●● ● ●●●● ● ● ●
●●
●●
●
●
●●
● ●
●●●● ●●● ● ●●●● ●
●●● ●
● ●
● ●
●●● ● ●
● ● ● ●● ● ● ●●
●●● ● ●●
● ●
● ●
● ●●●●●●
●●
●● ●● ● ●●● ●●● ● ● ● ● ● ● ●●●● ●
●● ●●
●●
●● ●●●●●●
● ● ●● ●
● ● ●● ● ● ● ● ●●
●●●●● ●● ●● ●
●●●●●●●
●● ●
● ●●●●●●●● ●
●
●●
●
● ●
●
●
● ● ●
●
●●● ● ●
●●● ● ●
●
● ●● ● ●
●
●
●
● ●
●●
●
●
●
●●●
●●●● ●
●● ●● ●●● ●● ●●● ●● ●● ● ●●●●●
●
● ●●● ●
●●●
● ●● ● ●●●
●●●●
●●
● ● ●
● ● ● ● ● ● ● ●●●●● ●● ●
●●
●●● ●● ● ● ●
●
● ●●●
●
●●●●●●
● ●● ● ●●● ●● ● ● ● ● ● ●●●● ●● ●
●●
●● ●●●●●
●
● ●●● ●● ● ●
●●●
●●
●●
●
●● ●
●●
● ● ●● ●●●● ● ●●● ●●●● ● ● ● ● ●● ● ●●●
●●
● ● ● ●●
● ● ●● ●
●●
●
●●
●●
●●
●●
●●●●●
● ●●●● ● ● ●
●●
● ●● ●
● ●
● ●
● ● ●●
●
●● ● ●
●●●●
●● ●●● ●
● ● ●●
● ●●●●●●
●●●● ●●
●● ●● ●●●● ● ● ● ● ● ●
● ●● ● ●● ● ●● ● ●● ●●
●●●● ●● ●●●
● ●
●● ● ●
● ● ●● ● ●●
●●
● ●●
●
●●●
● ●● ● ● ● ●● ●
●●●
●●●
●
●
●
●
●
●●
●
●
●
●
● ●● ● ●●
●●●●● ●● ●● ● ●● ● ●● ●● ●●●
● ● ● ●
●● ●●● ●●
● ●
● ●●●
● ●
●●
●●
●● ●●
● ●
●●
●●
●●
●
●●
●●
● ● ● ● ●
●
● ●●●●● ● ●●● ●
●
● ● ●●●●
●●● ● ● ● ●●● ●●
●●
●
●● ●
●●●
● ● ● ● ●● ● ● ● ● ● ● ● ●
● ● ●● ●● ● ●● ● ● ● ● ● ●● ●● ● ● ●● ●●●●
● ●● ●● ●
●●●●
●
● ● ●● ● ●●● ● ●● ● ●● ●
●● ●●● ●●
● ●●● ●
●
●●
●
● ●● ●
●
●
● ●●●● ● ●
● ● ●● ● ● ● ● ● ●● ● ●●● ●● ● ● ●●●●●
●●
●
●
●
●
●●
●●
●●●
● ● ●● ●
● ●●●● ●
●
●
●
●●
●●
● ●● ● ●
●
●
●
● ●●
●
●
●●● ●●●●●●● ●● ●● ●
●
●●●
● ●
●
●●
●
●●●●
● ● ● ●● ●● ●● ●
● ● ● ●● ● ●
● ●● ●● ● ●●● ● ● ● ● ●● ●
●●
●
●●
●
● ● ●
● ●●●●●●
●●
●● ●
●● ● ● ●●● ● ●● ●● ● ●● ●
●
● ● ● ●●● ●●●●● ● ● ● ●● ●●
● ●●● ●● ● ●●● ●
●●
●●
●● ● ● ● ●
●●
●● ●● ●●
● ● ●● ●
● ● ●●●
●●●●
●● ● ● ●● ● ● ●
● ● ●●●●
● ●●
●● ● ●●● ● ●●● ●
● ●● ● ●
●● ●●● ●
● ● ●● ● ●
●●
●● ●
●● ●●● ●
● ● ● ●
● ● ● ●
●
● ●
●
● ● ●●
●
● ●
● ●
● ● ●
●
●● ● ●
● ● ● ●
10
Lorsqu’on interprète une corrélation, il convient d’être attentif aux points
suivants:
• Une corrélation nulle ne signifie pas qu’il n’y a pas de relation entre
deux variables, elle signifie seulement qu’il n’y a pas d’association
linéaire. Par exemple dans le cas ci-dessous il y a une association
quadratique exacte entre les deux variables, mais la corrélation est
nulle.
25
● ●
● ●
20
● ●
● ●
●
r(X,Y) = 0 ●
15
● ●
Y
● ●
10
● ●
● ●
● ●
● ●
5
● ●
● ●
● ●
● ●
● ●
● ● ●
● ● ● ● ●
0
−4 −2 0 2 4
X
11
• De façon générale, il est toujours bon de faire un scatter plot des
données avant d’interpréter une corrélation. Une illustration de ce
fait est le quartet d’Anscombe: quatre jeux de données très différents
où la corrélation est la même:
Le quartet d'Anscombe
r(x1,y1) = 0.82 r(x2,y2) = 0.82
12
12
●
10
10
●
● ● ●
● ● ●
●
y1
y2
● ● ●
8
8
●
● ●
●
●
6
6
●
● ●
●
4
4
●
5 10 15 20 5 10 15 20
x1 x2
12
10
10
● ●
●
y3
y4
●
8
● ●
●
●
● ●
● ●
● ●
●
6
● ●
● ●
●
4
5 10 15 20 5 10 15 20
x3 x4
12
Commentaires sur les exemples du quartet d’Anscombe:
• 1er cas: La relation semble linéaire, la corrélation fait sens
• 2e cas: la relation entre les variables n’est pas linéaire. Si on s’arrête
à la corrélation, on manque une part importante de la nature de
l’association entre X2 et Y 2.
• 3e cas: la présence d’un outlier exerce une forte influence sur la
corrélation (qui serait égale à 1 sans cette observation)
• 4e cas: il n’y a pas suffisamment de valeurs différentes de x4 pour
pouvoir vérifier la linéarité de la relation
13
Effet d’un outlier sur la corrélation
Le 3e cas du quartet d’Anscombe nous met en garde contre la forte
influence que peut exercer un outlier sur la corrélation. Dans l’exemple
ci-dessous, la présence d’un seul outlier change complètement la valeur de
la corrélation et invalide l’interprétation usuelle:
r(X,Y) = 0.81
●
22
● ●
●
●
●
●
●
● ●
● ●
● ●●●
●
●
● ●
● ●
●
20
● ● ● ●
●
● ● ●●
● ● ● ●
●
● ●
●
● ● ●
● ●
● ●
● ●
●
18
Y
16
14
8 10 12 14 16
X
22
● ●
●
●
●
●
●
● ●
● ●
● ●●●
●
●
● ●
● ●
●
20
● ● ● ●
●
● ● ●●
● ● ● ●
●
● ●
●
● ● ●
● ●
● ●
● ●
●
18
Y
16
14
outlier ●
8 10 12 14 16
X
Autrement dit:
16
Ce qui donne:
Tailles et poids
●
75
● ● ●
●
● ● ● ●
●
70
● ●
● 22
● ● ●
●
● ●
65
Poids
● ● ● ● ● ●
● ●
●
60
● ●
● 23
●
● ●
34
● m(●p11, p22, p●23, p34, p31)
55
●
11●31
50
Tailles et poids
●
75
● ● ●
●
● ● ● ●
●
70
● ●
● 22
● ● ●
●
● ●
65
Poids
● ● ● ● ● ●
●
●
mp(p11, p22, p23, p34, p31) ●
60
● ●
● 23
●
● ●
34
● ● ●
55
●
11●31
50
● ● ●
●
● ● ● ●
●
70
● ●
Poids
● ● ● ●
●
● ●
● ● ● ● ● ●
● ●
●
60
● ●
● ●
● ●
● ● ●
●
●
50
20
Exemple:
Tailles et poids
● ● ●
●
● ● ● ●
●
70
● ●
Poids
● ● ● ●
●
● ●
● ● ● ● ● ●
● ●
●
60
● ●
● ●
● ●
● ● ●
●
●
50
21
Exemple:
Tailles et poids
● ● ●
●
● ● ● ●
●
70
● ●
Poids
● ● ● ●
●
● ●
● ● ● ● ● ●
● ●
●
60
● ●
● ●
● ●
● ● ●
●
●
50
22
Pour la régression d’une variable Y par rapport à une variable X,
l’ordonnée à l’origine (ou intercept) β̂0 et la pente β̂1 de la droite des
moindres carrés peuvent être calculés analytiquement et sont donnés par
les formules suivantes:
s(Y )
β̂1 = r(X, Y ) ,
s(X)
23
Cas des tailles et des poids:
Tailles et poids
●
^
β1= 0.54 kg/cm
75
● ● ●
●
● ● ● ●
●
70 ● ●
● ● ● ●
●
● ●
65
Poids
● ● ● ● ● ●
● ●
●
60
● ●
● ●
● ●
● ● ●
55
●
●
50
Y = β0 + β1X + ε,
où β0 et β1 sont les vraies valeurs de l’intercept et de la pente au niveau de la
population et ε est une variable appelée l’erreur. En statistique, on utilise souvent
le “ˆ” (chapeau) pour indiquer qu’une variable est une estimation d’un paramètre.
• Ŷ = β̂0 + β̂1X est la variable des réponses calculées. (ŷi est la valeur sur la
droite correspondant à xi.)
• ε̂ = Y − Ŷ est la variable des résidus.
Propriétés
Y = Ŷ + ε̂
•
réponse observée = réponse calculée + résidu
• La droite des moindres carrés passe par le point (m(X), m(Y )).
• La somme des résidus est nulle: ε̂i = 0.
P
25
Différence entre corrélation et coefficient de régression
26
Corrélation
Pour comprendre l’information délivrée par le coefficient de corrélation, nous allons tout
d’abord nous intéresser à la précision avec laquelle on peut prédire la valeur de Y pour
un individu quelconque, sans rien connaı̂tre de X. Cette information nous est donnée
par l’intervalle de prédiction défini comme
m(Y ) ± 2s(Y ).
On peut montrer en effet que cet intervalle contient environ 95% des observations si
les données suivent une distribution normale, ou modèle de Gauss, hypothèse que nous
ferons. (Le modèle de Gauss sera présenté en détail au chapitre 7.)
Si des observations de X sont disponibles, on peut améliorer cette prédiction en utilisant
la relation entre X et Y . Un nouvel intervalle de prédiction pour la valeur de Y pour
un individu dont on connaı̂t la valeur x de X est donné par
80
m(Y) + 2s(Y)
●
75
●
●
●
●
70 ●
●
●
●
65
Y = Poids
●
m(Y) 4s(Y)
●
●
60
●
●
●
●
55
●
●
50
●
m(Y) − 2s(Y)
28
Intervalles de prédiction
80
●
^ ^
75
β0 + β1X
● ● ●
● 2s(ε^)
● ● ● ●
●
70 ● ●
● ● ● ●
●
● ●
65
Y = Poids
● ● ● ● ● ●
4s(Y)
● 4s(ε^) 2s(ε^)
●
●
60
● ●
● ●
● ●
● ● ●
55
●
Gain de précision
●
50
X = Taille
29
Les précisions des prédictions avec et sans connaissance de X sont donc respectivement
de 4s(ε̂) et 4s(Y ). Le gain de précision, rapporté à la précision initiale, est donc égal à
s(Y )−s(ε̂)
s(Y )
. Il s’agit du pourcentage de réduction de l’intervalle de prédiction, lorsqu’on
utilise l’information fournie par X. Or, on peut démontrer qu’il existe la relation suivante
entre le pourcentage de réduction et la corrélation:
s(Y ) − s(ε̂)
q
=1− 1 − r2(X, Y ).
s(Y )
100%
80%
s(Y) − s(^ε)
60%
s(Y)
40%
20%
0%
Plus la corrélation est proche de 1 ou -1, plus la réduction de l’intervalle de prédiction est
importante, et donc meilleure est la prédiction de Y à l’aide de X. Pour une corrélation
nulle, il n’y a aucun gain de précision lorsqu’on utilise X pour prédire Y .
30
Coefficient de régression
Le coefficient de régression mesure l’importance de l’“effet” moyen d’une variable sur
l’autre, représenté par la pente de la droite de régression. Plus la pente est forte (en
valeur absolue), plus le changement moyen de Y associé à un changement donné de X
est important.
31
^ s(Y) − s(^ε) ^ s(Y) − s(^ε)
r = 0.95, β1 = 2.86, = 0.7 r = 0.4, β1 = 2.85, = 0.09
s(Y) s(Y)
30
30
●
● ●
●
● ●
●
●
● ●● ●●
● ●
●
● ●● ●
20
20
● ● ●
● ● ● ●
● ●
● ● ●● ● ●● ●
● ● ●● ● ● ● ●
●● ●
● ● ●
●
●
● ● ●●
●●
●● ● ● ●● ●●
●●●● ● ● ● ● ● ●
● ● ● ● ● ●
● ● ●● ● ●●● ●
● ● ● ●
● ●●● ● ●●
● ● ● ● ● ● ●●● ● ●●
● ● ●
●● ●● ●● ● ●
● ●● ● ● ● ● ● ●● ●●● ●●● ●
●●
● ●● ● ● ● ●●● ●●●
●● ●
●●●●●●●● ●● ● ● ●● ● ● ● ● ●
●●●●
●●
● ●
●●
●
●
●●
●●
●●●●
●●
●●
● ● ● ● ● ● ● ● ●● ● ●
●●● ● ● ● ●
● ●●
●● ● ●●
●● ●● ● ●● ●● ●● ● ●●
●
●● ●
● ●
●●●●
● ● ● ● ● ● ●● ● ● ●●
● ●
10
10
● ● ●●
●●●●
●●●●●●●
●●●● ● ● ● ● ●● ●
●●● ●●●●
●
●
●●
●● ●
●●
●●
●●
●●
●
●●
●●●● ●
●●● ●
●●● ● ● ●●
● ● ●●
● ● ● ● ●● ●
●
●
● ● ●
●●● ●●●
●●
●●
●●
●
●●
●
●
●
●● ●●●
●● ●●●
●●●●●● ●● ● ●● ●● ●● ●●● ● ● ●●
●● ● ●
●● ●●
● ●●●● ●
●
●
●●●●●
●
●
●●●
●
●
●●●●
●●
●
●
●●
●●● ● ●●
●
●● ● ●● ● ●● ● ● ●●●
●
● ● ●●●●
●●
●
●
●●
● ●● ●● ● ● ●● ●●● ● ●
● ●● ●
●
●●
●●
●
●●
●
● ●●
●
●●●
●●
●
● ●●
●● ●
●●
●
●●●●● ● ●
●
● ● ● ● ● ●●● ● ● ●● ●●●●● ●
●
●
●●●●●●
●● ●
●●
● ● ● ●●
● ●●
●● ● ●● ● ● ● ●● ●● ● ● ● ● ●
●●
●●●●
●●●●●●●
●●
●
●
●●● ●●●
●●●● ●
● ●
●● ● ●● ●
● ● ●●
● ●●● ●
●● ● ● ● ● ●
● ● ●● ●●●●● ●●● ● ● ●●● ●● ● ●● ●●●●● ●
●
●● ●●●●●
●
● ●●
●● ●●
●●●●●●
● ● ● ● ●● ● ●●●● ●● ● ●● ● ● ●
●● ●●● ●●●
●
●● ● ● ● ● ●●●● ● ● ● ●●●● ●
●● ● ●
●●
● ●
●●●●●●●●
●
● ● ●
● ● ● ●●●● ●●
● ●●
● ●
●● ● ● ● ●● ● ● ●●●
● ●●● ● ● ● ● ●● ● ●● ● ● ● ●●
● ● ● ●
● ● ● ● ● ● ●● ● ● ● ●
● ● ● ● ● ●●
● ●
Précision: ● ●●
● ● ● ● ●
0
0
● ● ● ● ●● ●
● ●
● ● ●● ●● ●● ●●
●
● ●
●
● ● ● ● ● ●
● ● ● ●● ● ● ●● ● ● ●
● ●●● ● ● ●
● ●
● ● ● ●●● ● ●
Sans connaître x: m(Y) +/− 2s(Y) ●
● ●
●
● ●● ●
●
●
●
● ●
^ ^
En connaissant x: β0 + β1x +/− 2s(^ε)
−10
−10
●
●
●
0 1 2 3 4 5 6 0 1 2 3 4 5 6
30
20
20
10
10
● ● ●
● ●
●●
● ● ●●● ● ● ●● ● ●●
●
● ● ● ● ●● ● ●● ●
●●
●● ● ●● ●●● ●●● ●●● ● ● ● ● ●● ● ●
● ●
● ●●● ● ● ●
● ● ●●●
●
●●●●
● ● ●
●● ● ● ●
●
● ● ● ●●●● ● ● ● ●
● ●
●
● ●● ●● ●●●●●
●●● ●● ● ● ● ●●
● ●● ●●●
● ● ● ●●●● ●●
●● ●●●●●●●
●● ● ● ●●●
● ●●● ●●
●●
●●●●
●●
●●●
●
●●●●●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●●
●
●●●
●●
●●
●
●●●
●
●
● ●● ●●●
● ●
● ● ●● ● ● ● ● ●●●● ● ● ●
●●●
●
●●
● ●
●●
●●●
●●
●
●
●
● ● ●
● ● ●●● ●●
● ●● ● ●
● ●
●●●
●
●
●●
●
●
●●
●●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
● ●
●
●●●●
●
● ●
● ●● ●
● ● ● ●● ●
●
●●●●
● ●
●
●
●
●
●● ●●●●●
●
●
● ●●
●● ●
●● ●
●
● ● ●
●● ●
●●
●●
●●
●●● ●
●●●
●●
●●●●
●●
●●
●
●● ●
●● ●
● ●● ● ●● ● ●● ●●●● ●●● ●●● ●●● ● ● ●
●●● ● ● ● ● ● ●
●●● ●●●
●
● ●
●●
●
●●●
● ●
●
●●
● ●
●●
●●
●
●●
● ●
●●
●● ●
● ● ● ● ● ●
●● ● ●●
● ●●●●●
●●
● ●●● ●●●●● ●● ●
● ● ● ●●●
● ●●●●●
●●●●
●●●●●●
●●●●
●●
●
●●●
● ●
●●
● ●
●● ● ● ● ● ●●● ●● ●●● ● ●●●● ●● ●
●● ● ●
●●●
●●●●
●●● ●●●●● ●●●●●●●●● ● ●
● ●● ●
●●
●● ● ●●●
●●
● ●
●
●
● ● ●● ●
● ●●●● ●● ●●● ● ●
● ● ●
●● ●● ● ●● ●
●
●●●●●● ●●●
● ●●● ● ●●
●● ● ● ● ●
● ● ● ●
0
● ● ● ● ● ●● ● ● ● ●
● ●
●● ●● ●
● ● ● ●● ●● ●●●●
● ●● ●●● ●●●● ●● ● ● ● ●
●●● ● ●● ●
● ●● ●
●
● ●● ● ● ●● ● ●●● ● ● ●
● ●
● ●
● ●
●
−10
−10
0 1 2 3 4 5 6 0 1 2 3 4 5 6
32
Commentaire sur la page précédente:
• Dans les graphiques du haut, la taille de l’“effet” moyen de X sur Y est plus
grande que dans les graphiques du bas (pente plus élevée: changement moyen
plus grand de Y avec X).
? Si on cherche à influencer la réponse en agissant sur la variable X, les
situations du haut sont plus favorables. Ex.: Y = dextérité au piano (nb
notes par minute), X = nb heures de pratique hebdomadaire.
? Attention: le coefficient de régression dépend des unités dans lesquelles X et
Y sont mesurés.
• Dans les graphiques de gauche, la réduction de la variabilité de la réponse
offerte par la régression est plus importante que dans les graphiques de droite.
? Si on cherche à prédire Y grâce à X, les situations de gauche sont plus
favorables. Ex.: Y est une mesure de la pression intracrânienne précise mais qui
nécessite une perforation crânienne, et X est une nouvelle méthode de mesure
ne nécessitant pas de perforation mais potentiellement moins précise. Peut-on
remplacer Y par X, autrement dit: la connaissance de X nous informe-t-elle
précisément sur Y ?
? La corrélation ne dépend pas des unités de mesure de X et de Y .
33
5. Ajustement
(Ce chapitre est présent pour information, il ne fait pas partie de la matière d’examen.)
^
75 β1= 0.54 kg/cm ● ● ●
●
● ● ● ●
●
70
● ●
● ● ● ●
●
● ●
65
Poids
● ● ● ● ● ●
● ●
●
60
● ●
● ●
● ●
● ● ●
55
●
●
50
36
Pour calculer un effet ajusté, on utilise la régression linéaire multiple.
Admettons que, souhaitant mesurer l’effet de X sur Y , on ait identifié la
variable Z comme facteur confondant potentiel. On considérera le modèle
de régression multiple suivant:
Y = β0 + β1X + β2Z + ε.
75
● ● ●
●
● ● ● ●
●
70
● ●
● ● ● ●
●
● ●
65
● ● ● ● ● ●
Poids
● ●
●
60
● ●
● ●
● ●
● ● ●
55
●
●
^
β1M = 0.37 kg/cm
50
●
^
● β1 = 0.54 kg/cm
160 165 170 175 180 185 190
Taille
β̂1M est le coefficient associé à la taille, ajusté pour le sexe (modèle multiple)
β̂1 est le coefficient associé à la taille, non ajusté (modèle simple)
39
En ajustant pour le sexe, le coefficient de régression est donc passé de
0.54 kg/cm à 0.37 kg/cm. En n’ajustant pas pour le sexe, on surestimait
l’effet de la taille sur le poids.
40
Sexe et poids: ajustement pour la taille
●
Hommes
Femmes
75
● ● ●
●
● ● ● ●
●
70
● ●
● ● ● ●
●
● ●
65
● ● ● ● ● ●
Poids
3.96 kg
9.52 kg
● ●
●
60
● ●
● ●
● ●
● ● ●
55
●
●
50
41
Autre exemple d’ajustement:
Comparaison du taux de créatine entre un groupe de n1 = 31 femmes
atteintes d’une maladie génétique et un groupe contrôle de n0 = 39
femmes non atteintes de cette maladie. On considère le log du taux pour
s’approcher d’un modèle de régression linéaire.
Question: un taux de créatine élevé est-il un symptôme (i.e. une
conséquence) de la maladie?
→ Différence entre les log-taux moyens des groupes: 1.05
Mais le groupe malade est nettement plus âgé que le groupe non malade
et cette différence pourrait être due à l’âge et non à la maladie.
→ En ajustant pour l’âge, la différence diminue (0.87). On peut exclure
que la différence restante soit due à l’âge.
42
Créatine: ajustement pour l'âge
●
Groupe malades
Groupe contrôle ●
●
●
6 ●
● ●
●
● ●
LogCreatine
●
5
● ●
● ●
●
● ●
●
0.87 ●
●
● ● ●
●
●
●
● 1.05
● ●
●
4
● ●
●
● ● ●
●
● ● ●
● ● ● ●
● ●
● ● ●
● ●
● ● ●
● ●
●
● ● ●
● ● ●
●
●
3
20 25 30 35 40
Age
43
Chapitre 5: Eléments de probabilités
T nT M nT M̄
T̄ nT̄ M nT̄ M̄
Exemple
M M̄
T 950 10
T̄ 50 990
Remarque
La “précision” des valeurs obtenues (“estimations”) dépend du nombre d’individus
testés. Cet aspect n’est pas traité ici.
Problème
Supposons que la sensibilité et la spécificité d’un certain test soient:
Sensibilité = 95%
Spécificité = 99%.
Population
N individus au total
NA individus avec A
NAB
P (A ∩ B) = . A
N
La probabilité conditionnelle de B sachant que A est:
NAB
P (B|A) = . A et B
NA
C’est la proportion d’individus avec B (et A)
dans la sous-population d’individus avec A. B
P (B|A) = P (B).
Propriétés mathématiques élémentaires des probabilités
• 0 ≤ P (A) ≤ 1 pour tout événement A.
• Si Ā signifie “ne pas avoir A”, alors, pour tout événement A,
P (Ā) = 1 − P (A).
• En général
P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
• Pour tout A et tout B:
P (A ∩ B)
P (B|A) = ,
P (A)
P (A ∩ B)
P (A|B) = .
P (B)
• Si A et B sont indépendants:
P (B|A) = P (B),
P (A|B) = P (A),
P (A ∩ B) = P (A) · P (B).
• Formule de Bayes:
P (A|B)P (B)
P (B|A) = .
P (A)
• Formule de la probabilité totale:
P (A) = P (A ∩ B) + P (A ∩ B̄)
= P (A|B)P (B) + P (A|B̄)P (B̄).
Plus généralement, si B∩C = ∅, C∩D = ∅, B∩D = ∅ et P (B∪C∪D) = 1
(on dit alors que B, C et D forment une partition de la population),
P (A) = P (A ∩ B) + P (A ∩ C) + P (A ∩ D)
= P (A|B)P (B) + P (A|C)P (C) + P (A|D)P (D).
Cette formule se généralise évidemment à une partition en plus de trois
événements.
Solution du problème à l’aide de la formule de Bayes
On veut déterminer
P (T |M )P (M ) P (T |M )P (M )
P (M |T ) = = .
P (T ) P (T |M )P (M ) + P (T |M̄ )P (M̄ )
On obtient:
0.95 × 0.0001
P (M |T ) = = 0.0094.
0.95 × 0.0001 + 0.01 × 0.9999
Population
1 000 000
prev. = 1/10000
P (T |M ) = sensibilité du test,
P (T̄ |M̄ ) = spécificité du test,
Le rôle de la prévalence
Il est souvent difficile de connaı̂tre P (M ) avec précision. Il convient alors
d’examiner le test pour différentes valeurs de P (M ).
Par exemple, si P (T |M ) = 0.95 et P (T̄ |M̄ ) = 0.99, on obtient:
P (M ) P (M̄ |T ) P (M |T̄ )
1/1 000 000 0.9999 0.00000
1/100 000 0.9991 0.00000
1/10 000 0.9906 0.00001
1/1000 0.9132 0.00005
1/500 0.8401 0.00010
1/200 0.6769 0.00025
1/100 0.5103 0.00051
Le taux P (M |T̄ ) est faible: dans le pire des cas (P (M ) = 1%), sur 10 000
tests négatifs, environ 5 correspondent à des patients atteints. Par contre le
taux P (M̄ |T ) est élevé (> 50%): sur 100 individus positifs plus de 50 sont
sains. La décision de maintenir un tel test dépendra de l’importance de la
maladie, des conséquences du test, des coûts des examens complémentaires et
de l’éventuel traitement, des chances de succès du traitement, etc.
Il est parfois possible de réduire les taux d’erreur en combinant deux (ou
plusieurs) tests.
Evaluation basée sur un seul échantillon
Dans certaines études d’évaluation, on ne considère pas deux groupes séparés
(malades et non malades) de tailles fixées (nM et nM̄ ): un seul échantillon de
taille n est étudié; ses éléments sont classés dans les quatres cases du tableau:
M M̄ Total
T nT M nT M̄ nT
T̄ nT̄ M nT̄ M̄ nT̄
Total nM nM̄ n
On obtient
P (M ∩ T ) nT M
Sensibilité = P (T |M ) = ≈ ,
P (M ) nM
P (M̄ ∩ T̄ ) n
Spécificité = P (T̄ |M̄ ) = ≈ T̄ M̄ ,
P (M̄ ) nM̄
P (M ∩ T ) nT M
Valeur préd. pos. = P (M |T ) = ≈ ,
P (T ) nT
P (M̄ ∩ T̄ ) n
Valeur préd. neg. = P (M̄ |T̄ ) = ≈ T̄ M̄ .
P (T̄ ) nT̄
Chapitre 6: Variables aléatoires
1. Définition
2. Distribution d’une variable aléatoire discrète
3. Distribution d’une variable aléatoire continue
4. Fonction de distribution cumulative
5. Espérance
6. Variance et écart-type
7. Quantiles
8. Distribution conjointe et indépendance
9. Covariance et corrélation
1
1. Définition
Pour étudier des variables et faire de l’inférence (extrapolation des résultats observés sur
un échantillon à la population), nous allons nous servir d’outils mathématiques appelés
des variables aléatoires.
Définition
Une variable aléatoire est une fonction mathématique qui associe un résultat,
généralement un nombre réel, à chaque issue possible d’une expérience.
Exemples:
1. Expérience: jet d’une pièce de monnaie.
Ensemble des issues possibles: {Pile, Face}.
Variable aléatoire: X: {Pile, Face} → R définie par
X(Pile) = 0; X(Face) = 1.
2. Expérience: tirage d’un invididu dans une population
Ensemble des issues possibles: U = Ensemble des individus dans la population
Variable aléatoire: P : U → R définie par
P (individu i) = poids de l’individu i.
2
De même que pour les variables considérées jusqu’ici, les valeurs possibles d’une variable
aléatoire sont appelées ses modalités.
Les variables aléatoires seront désignées par des lettres majuscules et leurs modalités par
des lettres minuscules.
Et à nouveau, on utilisera les mêmes notations (lettres minuscules) pour désigner les
modalités d’une variable aléatoire et sa valeur sur l’issue d’une expérience.
3
2. Distribution d’une variable aléatoire discrète
A chaque modalité d’une variable aléatoire, on peut associer une probabilité. Dans l’ex. 1
ci-dessus, si on considère que la pièce est équilibrée, on définira
P (X = 0) = 0.5, P (X = 1) = 0.5.
Autre exemple: jet d’un dé
• Expérience: jet du dé
Ensemble des issues possibles: V ={face 1, face 2, face 3, face 4, face 5, face 6}
Variable aléatoire: D: V → R définie par
D(face i) = i.
Si on considère que le dé est équilibré, on définira
P (D = i) = 1/6, i = 1, ..., 6.
La distribution d’une variable aléatoire discrète Y dont les modalités sont y1, y2, ... est
définie comme l’ensemble des couples
13
n = 50
Fréquence absolue
10
9
8
7
4
5
3 3
2
1
0
60 65 70 75 80 85 90
Poids [kg]
Sur cet histogramme, la hauteur d’une barre est égale à la fréquence absolue (comptage)
des observations dans l’intervalle correspondant.
5
Alternative: construire l’histogramme de façon à ce que la surface d’une barre soit égale
à la fréquence relative (proportion) des observations dans l’intervalle correspondant.
Pour atteindre ce but, il faut que la hauteur hi d’une barre soit égale à la fréquence
relative fi divisée par la largeur l de l’intervalle: hi = fi/l. Ainsi sa surface si vaudra
f
si = hi · l = i · l = fi.
l
0.15
(13/50)/2
n = 50
l = 2 kg
0.10
(9/50)/2
Densité
(8/50)/2
(7/50)/2
0.05
(4/50)/2
(3/50)/2 (3/50)/2
(2/50)/2
(1/50)/2
0.00
60 65 70 75 80 85 90
Poids [kg]
On voit que la forme de l’histogramme reste la même, seule l’échelle de l’axe vertical
change. Cet axe est à présent labellisé “Densité”, car ce graphique va nous conduire à la
définition d’une notion très importante: la densité d’une variable aléatoire continue.
6
Que vaut la surface totale de l’histogramme (en mode “densité”) de la slide précédente?
→ La surface d’une barre étant égale à la proportion d’observations dans l’intervalle
correspondant, la surface totale vaut 1.
→ Cette surface peut s’interpréter comme la probabilité de trouver un individu dont le
poids se situe dans l’intervalle correspondant.
Considérons à présent une version lissée de l’histogramme, obtenue en reliant les milieux
des sommets des barres, et plaçons-nous dans le cadre hypothétique d’une population de
taille infinie.
0.15
(13/50)/2
n = 50
0.10
l = 2 kg (9/50)/2
Densité
(8/50)/2
(7/50)/2
0.05
(4/50)/2
(3/50)/2 (3/50)/2
(2/50)/2
(1/50)/2
0.00
60 65 70 75 80 85 90
Poids [kg]
En tirant des échantillons de plus en plus grands et en prenant des intervalles de plus
en plus petits, la courbe verte va tendre vers la courbe de la densité de probabilité (ou
simplement densité) de la variable P .
7
Que vaut la surface totale de l’histogramme (en mode “densité”) de la slide précédente?
→ La surface d’une barre étant égale à la proportion d’observations dans l’intervalle
correspondant, la surface totale vaut 1.
→ Cette surface peut s’interpréter comme la probabilité de trouver un individu dont le
poids se situe dans l’intervalle correspondant.
Considérons à présent une version lissée de l’histogramme, obtenue en reliant les milieux
des sommets des barres, et plaçons-nous dans le cadre hypothétique d’une population de
taille infinie.
0.15
n = 200
0.10
Densité
0.05
0.00
60 65 70 75 80 85 90
Poids [kg]
En tirant des échantillons de plus en plus grands et en prenant des intervalles de plus
en plus petits, la courbe verte va tendre vers la courbe de la densité de probabilité (ou
simplement densité) de la variable P .
8
Que vaut la surface totale de l’histogramme (en mode “densité”) de la slide précédente?
→ La surface d’une barre étant égale à la proportion d’observations dans l’intervalle
correspondant, la surface totale vaut 1.
→ Cette surface peut s’interpréter comme la probabilité de trouver un individu dont le
poids se situe dans l’intervalle correspondant.
Considérons à présent une version lissée de l’histogramme, obtenue en reliant les milieux
des sommets des barres, et plaçons-nous dans le cadre hypothétique d’une population de
taille infinie.
0.15
n = 1600
0.10
Densité
0.05
0.00
60 65 70 75 80 85 90
Poids [kg]
En tirant des échantillons de plus en plus grands et en prenant des intervalles de plus
en plus petits, la courbe verte va tendre vers la courbe de la densité de probabilité (ou
simplement densité) de la variable P .
9
Que vaut la surface totale de l’histogramme (en mode “densité”) de la slide précédente?
→ La surface d’une barre étant égale à la proportion d’observations dans l’intervalle
correspondant, la surface totale vaut 1.
→ Cette surface peut s’interpréter comme la probabilité de trouver un individu dont le
poids se situe dans l’intervalle correspondant.
Considérons à présent une version lissée de l’histogramme, obtenue en reliant les milieux
des sommets des barres, et plaçons-nous dans le cadre hypothétique d’une population de
taille infinie.
0.15
n = 12800
0.10
Densité
0.05
0.00
60 65 70 75 80 85 90
Poids [kg]
En tirant des échantillons de plus en plus grands et en prenant des intervalles de plus
en plus petits, la courbe verte va tendre vers la courbe de la densité de probabilité (ou
simplement densité) de la variable P .
10
Que vaut la surface totale de l’histogramme (en mode “densité”) de la slide précédente?
→ La surface d’une barre étant égale à la proportion d’observations dans l’intervalle
correspondant, la surface totale vaut 1.
→ Cette surface peut s’interpréter comme la probabilité de trouver un individu dont le
poids se situe dans l’intervalle correspondant.
Considérons à présent une version lissée de l’histogramme, obtenue en reliant les milieux
des sommets des barres, et plaçons-nous dans le cadre hypothétique d’une population de
taille infinie.
0.15
n = 409600
0.10
Densité
0.05
0.00
60 65 70 75 80 85 90
Poids [kg]
En tirant des échantillons de plus en plus grands et en prenant des intervalles de plus
en plus petits, la courbe verte va tendre vers la courbe de la densité de probabilité (ou
simplement densité) de la variable P .
11
Que vaut la surface totale sous la courbe de la densité?
→ Comme on l’a vu sur les slides précédentes, la surface totale de l’histogramme en
mode “densité” vaut 1, et on en déduit que la surface totale sous la courbe densité
vaut 1 elle aussi.
60 65 70 75 80 85 90
Poids [kg]
0.08
Densité
0.04
0.00
60 65 70 75 80 85 90
Poids [kg]
13
A l’aide de la courbe de la densité d’une variable aléatoire, on peut calculer la probabilité
de n’importe quel événement défini avec cette variable:
Probabilité de tirer une personne pesant entre 65 et 70 kg ou entre 80 et 85 kg:
0.08
Densité
0.04
0.00
60 65 70 75 80 85 90
Poids [kg]
P (65 < P < 70 ∪ 80 < P < 85) = P (65 < P < 70) + P (80 < P < 85)
Z 70 Z 85
= fP (x)dx + fP (x)dx.
65 80
14
A l’aide de la courbe de la densité d’une variable aléatoire, on peut calculer la probabilité
de n’importe quel événement défini avec cette variable:
Probabilité de tirer une personne pesant plus de 80 kg:
0.08
Densité
0.04
0.00
60 65 70 75 80 85 90
Poids [kg]
15
Définition:
La densité de probabilité (ou simplement densité) d’une variable aléatoire continue est
une fonction telle que la surface sous la courbe est égale à la probabilité que la variable
prenne une valeur dans l’intervalle correspondant.
Ainsi:
• La distribution d’une variable aléatoire continue est complètement déterminée par sa
densité.
• N’importe quelle fonction positive avec surface sous la courbe égale à 1 définit une
distribution.
NB: Pour une variable aléatoire continue X, la probabilité de prendre une valeur précise,
n’importe laquelle, est nulle:
P (X = x) = 0 ∀x.
On se rend bien compte en effet que pour un point isolé la surface sous la courbe est
nulle.
Intuitivement: la probabilité de tirer un individu pesant exactement 70 kg (avec une
précision infinie) est nulle.
16
La densité de probabilité est un outil très utilisé pour modéliser la distribution des
variables continues. Dans la pratique, évidemment, les populations n’ont pas une taille
infinie. Néanmoins, les modèles continus présentent de nombreux avantages pratiques et
théoriques et sont très proches de la réalité dans de nombreuses situations.
Dans ce qui suit, on dira souvent simplement variable au lieu de variable aléatoire.
D’ailleurs, une variable au sens des chapitres 2 à 4, lorsqu’on l’observe par le tirage
aléatoire d’une unité d’observation, n’est autre qu’une variable aléatoire dont la
distribution (inconnue) est déterminée par la population.
17
4. Fonction de distribution cumulative
Soit une variable X dont on a observé un échantillon {x1, ..., xn}. Rappel: la fonction
de distribution cumulative empirique de X, Fn(x), est définie comme
nombre de xi ≤ x
Fn(x) = (Fonction en escalier).
n
De façon analogue, la fonction de distribution cumulative FY d’une variable aléatoire Y
est définie comme
FY (y) = P (Y ≤ y).
Une fonction de distribution cumulative a les propriétés suivantes:
• elle est croissante
• elle prend des valeurs entre 0 et 1
• elle tend vers 0 si x tend vers −∞ et vers 1 si x tend vers +∞
18
Pour une variable discrète:
• La fonction de distribution cumulative est une fonction en escalier
• Pour une variable de distribution (x1, p1), (x2, p2), ..., la cdf est égale à
X
FX (x) = pi
xi ≤x
Exemple: jet d’un dé
0.8
P(D=d)
0.4
p1 p2 p3 p4
0.0
1 2 3 4 5 6
d
0.8
FD(4) = p1 + p2 + p3 + p4
FD(d)
0.4
0.0
1 2 3 4 5 6
d
19
Pour une variable continue:
• La fonction de distribution cumulative est continue
• Pour une variable de densité fX , la cdf est égale à
Z x
FX (x) = fX (t)dt
−∞
Exemple: poids d’un individu
0.08
fP(p)
P(P ≤ 80)
0.04
0.00
60 65 70 75 80 85 90
p
60 65 70 75 80 85 90
p
20
Pour une variable continue, on a encore que
• fX (x) = dx d F (x)
X
• P (X ≤ x) = P (X < x)
Notation
Souvent, si aucune confusion n’est possible, on note simplement f (x) pour la densité
et F (x) pour la cdf.
21
5. Espérance
Derrière ce terme poétique se cache une notion assez terre à terre mais très importante
en statistique.
Exemple introductif: Jet d’un dé.
On jette n fois un dé équilibré et on s’intéresse à la moyenne m(D) des points obtenus.
Soit ni la fréquence absolue de la modalité i. m(D) est égale à
1
m(D) = (n1 · 1 + n2 · 2 + ... + n6 · 6)
n
= f1 · 1 + f2 · 2 + ... + f6 · 6,
où fi = ni/n est la fréquence relative de la modalité i.
En augmentant le nombre de jets, les fi vont s’apporcher des pi, les probabilités des
modalités. Pour un dé équilibré, pi = 1/6 ∀i. m(D) va donc s’approcher de
E(D) = p1 · 1 + p2 · 2 + ... + p6 · 6 = 1/6 · (1 + 2 + ... + 6) = 3.5.
E(D) s’appelle la moyenne de population ou espérance de D. Ici, il s’agit de la moyenne
de D dans la population infinie de tous les jets possibles du dé.
De façon générale, pour une variable discrète X de distribution (xi, pi), l’espérance est
définie comme
X
E(X) = xi p i .
i
22
Considérons à présent une variable continue et plaçons-nous à nouveau dans le cadre
hypothétique d’une population infinie, comme lors de l’introduction de la densité.
Exemple introductif: Poids d’un individu.
0.15
n = 50 ~ (P) = 75.2
m
0.10
Densité
0.05
0.00
60 65 70 75 80 85 90
Poids [kg]
A partir de cet histogramme, on peut calculer une approximation du poids moyen dans
l’échantillon avec la formule
X
m̃(P ) = ci di l,
i
où les ci sont les centres des intervalles, les di sont les hauteurs des barres
correspondantes et l est la largeur des intervalles.
Lorsque la taille de l’échantillon augmente et que la largeur des intervalles diminue, m̃
tend vers Z ∞
E(P ) = p fP (p) dp.
−∞
23
Considérons à présent une variable continue et plaçons-nous à nouveau dans le cadre
hypothétique d’une population infinie, comme lors de l’introduction de la densité.
Exemple introductif: Poids d’un individu.
0.15
n = 200 ~ (P) = 74.98454
m
0.10
Densité
0.05
0.00
60 65 70 75 80 85 90
Poids [kg]
A partir de cet histogramme, on peut calculer une approximation du poids moyen dans
l’échantillon avec la formule
X
m̃(P ) = ci di l,
i
où les ci sont les centres des intervalles, les di sont les hauteurs des barres
correspondantes et l est la largeur des intervalles.
Lorsque la taille de l’échantillon augmente et que la largeur des intervalles diminue, m̃
tend vers Z ∞
E(P ) = p fP (p) dp.
−∞
24
Considérons à présent une variable continue et plaçons-nous à nouveau dans le cadre
hypothétique d’une population infinie, comme lors de l’introduction de la densité.
Exemple introductif: Poids d’un individu.
0.15
n = 1600 ~ (P) = 75.08871
m
0.10
Densité
0.05
0.00
60 65 70 75 80 85 90
Poids [kg]
A partir de cet histogramme, on peut calculer une approximation du poids moyen dans
l’échantillon avec la formule
X
m̃(P ) = ci di l,
i
où les ci sont les centres des intervalles, les di sont les hauteurs des barres
correspondantes et l est la largeur des intervalles.
Lorsque la taille de l’échantillon augmente et que la largeur des intervalles diminue, m̃
tend vers Z ∞
E(P ) = p fP (p) dp.
−∞
25
Considérons à présent une variable continue et plaçons-nous à nouveau dans le cadre
hypothétique d’une population infinie, comme lors de l’introduction de la densité.
Exemple introductif: Poids d’un individu.
0.15
n = 12800 ~ (P) = 74.99999
m
0.10
Densité
0.05
0.00
60 65 70 75 80 85 90
Poids [kg]
A partir de cet histogramme, on peut calculer une approximation du poids moyen dans
l’échantillon avec la formule
X
m̃(P ) = ci di l,
i
où les ci sont les centres des intervalles, les di sont les hauteurs des barres
correspondantes et l est la largeur des intervalles.
Lorsque la taille de l’échantillon augmente et que la largeur des intervalles diminue, m̃
tend vers Z ∞
E(P ) = p fP (p) dp.
−∞
26
Considérons à présent une variable continue et plaçons-nous à nouveau dans le cadre
hypothétique d’une population infinie, comme lors de l’introduction de la densité.
Exemple introductif: Poids d’un individu.
0.15
n = 409600 ~ (P) = 75.00601
m
0.10
Densité
0.05
0.00
60 65 70 75 80 85 90
Poids [kg]
A partir de cet histogramme, on peut calculer une approximation du poids moyen dans
l’échantillon avec la formule
X
m̃(P ) = ci di l,
i
où les ci sont les centres des intervalles, les di sont les hauteurs des barres
correspondantes et l est la largeur des intervalles.
Lorsque la taille de l’échantillon augmente et que la largeur des intervalles diminue, m̃
tend vers Z ∞
E(P ) = p fP (p) dp.
−∞
27
Considérons à présent une variable continue et plaçons-nous à nouveau dans le cadre
hypothétique d’une population infinie, comme lors de l’introduction de la densité.
Exemple introductif: Poids d’un individu.
0.15
"n = ∞" E(P) = 75
0.10
Densité
fP(p)
0.05
0.00
60 65 70 75 80 85 90
Poids [kg]
A partir de cet histogramme, on peut calculer une approximation du poids moyen dans
l’échantillon avec la formule
X
m̃(P ) = ci di l,
i
où les ci sont les centres des intervalles, les di sont les hauteurs des barres
correspondantes et l est la largeur des intervalles.
Lorsque la taille de l’échantillon augmente et que la largeur des intervalles diminue, m̃
tend vers Z ∞
E(P ) = p fP (p) dp.
−∞
28
De façon générale, pour une variable continue Y de densité fY l’espérance est définie
comme
Z ∞
E(Y ) = y fY (y) dy.
−∞
Elle s’interprète comme la moyenne de Y dans la population infinie qui a servi à définir
la densité. Dans ce sens, l’espérance est une moyenne de population.
L’appellation “espérance” se justifie par le fait que c’est la valeur qu’on peut espérer
obtenir, en moyenne, lorsqu’on observe la variable.
Propriétés
• Soient X et Y deux variables aléatoires et a, b et c des constantes.
31
Exemples
• Jet d’un dé
On a vu que E(D) = 3.5. A l’aide de la propriété 4:
1 31
Z ∞ Z 1
1
E(X 2) = x2 f (x) dx = 2
x · 1 dx = x =
−∞ 0 3 0 3
et donc
var(X) = E(X 2) − E(X)2 = 1/3 − (1/2)2 = 1/12.
32
7. Quantiles
Le quantile qα(X) d’une variable aléatoire X est défini à l’aide de sa fonction de
distribution cumulative FX (x).
• Pour une variable continue, on pose simplement
−1
qα(X) = FX (α),
−1
où FX est la fonction inverse de FX .
α 1
FX(x)
0
qα
x
33
8. Distribution conjointe et indépendance
Soient X et Y deux variables discrètes observées simultanément dans la même
population. Soient (xi, pXi) et (yj , pY j ) leurs distributions respectives et définissons
pij = P (X = xi ∩ Y = yj ).
La distribution conjointe de X et Y est définie comme l’ensemble des triplets
(xi, yj , pij ).
Exemple
Soit T la taille d’un individu codée en trois classes (1 = petit, 2 = moyen, 3 = grand) et
S son niveau salarial également codé en trois classes (1 = bas, 2 = moyen, 3 = élevé).
La table ci-dessous donne leur distribution conjointe (estimée dans une population):
Sur les tables de la slide précédente on constate que les trois distributions conditionnelles
de T sachant S sont égales, et qu’elles sont égales à la distribution marginale de T . On
en déduit que la distribution de T ne dépend pas de S. On peut montrer que dans
ce cas toutes les distributions conditionnelles de S sachant T sont égales à la distribution
marginale de S (la distribution de S ne dépend pas de T ).
P (X = xi ∩ Y = yj ) = P (X = xi) · P (Y = yj ).
36
Jusqu’ici nous avons considéré le cas de deux variables discrètes. Le cas de deux variables
continues est un peu plus compliqué, et passe par la définition de la densité conjointe
de deux variables. Nous n’allons pas approfondir ce sujet. Néanmoins, on peut toujours
définir l’indépendance entre deux variables de la façon suivante:
Deux variables sont indépendantes si et seulement si n’importe quel
événement défini à partir de l’une est indépendant de n’importe quel
événement défini à partir de l’autre.
37
9. Covariance et corrélation
La covariance cov(X, Y ) entre deux variables aléatoires X et Y est définie comme
cov(X, Y ) = E (X − E(X))(Y − E(Y )) .
Le calcul de la covariance entre deux variables passe par leur distribution conjointe et
peut être compliqué.
38
Les propriétés de la covariance et de la corrélation sont similaires à celles du coefficient
de covariance et du coefficient de corrélation introduits au chapitre 4. En particulier:
1. −1 ≤ cor(X, Y ) ≤ 1, ∀X et Y
2. cor(X, Y ) = ±1 ⇐⇒ X = a + bY , a et b des constantes (relation linéaire
entre X et Y )
3. var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y )
4. Si X et Y sont indépendantes, alors cov(X, Y ) = 0 (réciproque pas vraie)
5. cov(X, Y ) = E(XY ) − E(X)E(Y )
Les propriétés 3 et 4 impliquent que la variance de la somme de deux variables
indépendantes est égale à la somme de leurs variances.
La propriété 5 permet de trouver l’espérance du produit de deux variables aléatoires en
connaissant leurs espérances et leur covariance.
39
Chapitre 7: Modèles de distributions
fréquents
1. Modèles discrets
(a) Distribution binomiale
(c) Distribution χ2
(d) Distribution t
1
On présente dans ce chapitre les modèles de distributions les plus fréquemment utilisés
comme descriptions approximatives de distributions réelles. La distribution binomiale et
la distribution normale sont particulièrement importantes.
1. Modèles discrets
(a) Distribution binomiale
Considérons une expérience qui n’a que deux issues possibles (ex: jet d’une pièce), et
convenons d’appeler S la première issue (“succès”) et E la seconde (“échec”). Considérons
à présent n répétitions indépendantes de cette expérience et définissons la variable
aléatoire X = “nombre de succès parmi les n répétitions”. La variable X a (ou suit)
une distribution binomiale.
→ De quoi va dépendre la distribution de X?
→ → Du nombre de répétitions n
→ → De la probabilité p de succès à chaque répétition
→ Cas n = 1:
• E(X) = 0 · (1 − p) + 1 · p = p
• E(X 2) = 02 · (1 − p) + 12 · p = p
→ var(X) = E(X 2) − E(X)2 = p − p2 = p(1 − p)
→ Cas général:
Plutôt que de faire le calcul en appliquant la définition comme ci-dessus, ce
qui devient très long lorsque n devient grand, constatons que X ∼ B(n, p)
est la somme de n variables indépendantes Xi telles que Xi ∼ B(1, p). En
effet, compter le nombre de succès dans n répétitions d’une expérience revient à
attribuer “1” à chaque succès et “0” à chaque échec et à additionner les résultats
des expériences.
4
Donc,
X = X1 + ... + Xn, Xi ∼ B(1, p)
En appliquant les propriétés de l’espérance et de la variance (chapitre 6), nous obtenons
n
X
E(X) = E(Xi) = np
i=0
car l’espérance d’une somme est égale à la somme des espérances, et
n
X
var(X) = var(Xi) = np(1 − p)
i=0
car la variance d’une somme de variables indépendantes est égale à la somme de leurs
variances.
Terminologie et notation
— Une variable qui suit une distribution binomiale avec n = 1 est appelée une
variable de Bernoulli.
— Souvent, on utilise la notation q = 1 − p, par exemple var(X) = npq pour
X ∼ B(n, p).
5
(b) Distribution de Poisson
Soit λ > 0. Une variable X suit une distribution de Poisson de paramètre λ, ce qu’on
note X ∼ P(λ), si
λk −λ
P (X = k) = e , k = 0, 1, 2, ....
k!
Les modalités d’une variable Poisson sont donc tous les entiers positifs plus 0.
On remplit n = 1000 cruches au même endroit d’une rivière. On fait l’hypothèse que
la probabilité qu’une cruche se brise pendant l’opération est p = 1/1000. Quelle est
la probabilité qu’au moins une cruche se brise?
→ Le nombre X de cruches brisées suit une distribution B(n, p). On trouve donc
P (X ≥ 1) = 1 − P (X = 0)
1000
= 1− (0.999)1000
0
= 0.632.
→ L’évaluation de l’expression ci-dessus avec une calculatrice peut poser problème
au niveau de la précision. En utilisant l’approximation X ∼ P(np) = P(1),
on trouve
P (X ≥ 1) = 1 − P (X = 0)
10 −1
≈ 1− e
0!
= 0.632.
7
Les distributions B(1000, 0.001) et P(1) sont représentées ci-dessous, et on voit
qu’elles sont extrêmement similaires.
X ~ B(1000,0.001)
0.3
P(X=x)
0.2
0.1
0.0
0 1 2 3 4 5 6
x
X ~ P(1)
0.3
P(X=x)
0.2
0.1
0.0
0 1 2 3 4 5 6
x
8
Dans la pratique la distribution de Poisson est souvent utilisée pour modéliser des données
de comptage, par exemple le nombre de nouveaux cas de cancer dans une certaine
région pendant une certaine période de temps (en épidémiologie on appelle ce nombre
l’incidence).
Le fait que la distribution de Poisson soit souvent appropriée pour modéliser ce type de
données peut se comprendre de la façon suivante: pour un individu donné, la probabilité
de développer un cancer est faible, mais en considérant une grande population, et en
considérant chaque individu comme une “tentative”, on se retrouve en présence d’un
phénomène où le nombre de “tentatives” est très élevé et la probabilité de “succès” est
très faible, ce qui donne lieu à une distribution de Poisson.
9
1. Modèles continus
fY
≈ 0.95
fX
µ1 − 2σ1 µ1 µ1 + 2σ1
µ2 − 2σ2 µ2 µ2 + 2σ2
Standardisation
Soit X ∼ N (µ, σ 2). Alors la variable Z définie comme
X −µ
Z=
σ
a une distribution normale standard.
L’opération ci-dessus s’appelle la standardisation.
12
Exemple de problème
Soit X ∼ N (17, 9). Quelle est la probabilité que X prenne une valeur inférieure à
11?
13
On se sert donc de la symétrie de la densité normale pour trouver:
Φ(−2) = P (Z < −2) = P (Z > 2) = 1 − P (Z < 2) = 1 − Φ(2).
−2 0
14
On se sert donc de la symétrie de la densité normale pour trouver:
Φ(−2) = P (Z < −2) = P (Z > 2) = 1 − P (Z < 2) = 1 − Φ(2).
−2 0 2
15
On se sert donc de la symétrie de la densité normale pour trouver:
Φ(−2) = P (Z < −2) = P (Z > 2) = 1 − P (Z < 2) = 1 − Φ(2).
−2 0 2
16
Résumé des propriétés importantes de la loi normale:
17
(b) Distribution uniforme
Soient a et b des constantes. Une variable dont la densité f est donnée par
1 si x ∈ [a, b]
b−a
f (x) =
0 sinon
est dite uniforme entre a et b.
f(x)
b−a
1
x
0
a b
n=2
n=3
n=4
0.8
n=5
0.6
0.4
0.2
y
0
0 1 2 3 4 5 6 7 8
La distribution χ2 s’utilise dans certains procédés d’inférence que nous verrons dans les
chapitres à venir.
19
(d) Distribution t
Soient X0, X1, ..., Xn des variables normales standard indépendantes. Soit alors
X0
T = r .
1 X 2 + ... + X 2
n 1 n
t1
t2
t5
0.3
t10
t20
densité
t30
0.2
N(0,1)
0.1
0.0
−4 −2 0 2 4
t
20
Propriétés
21
Chapitre 8: Inférence, échantillon-
nage et estimation
2. Inférence statistique
3. Estimation
1
L’inférence regroupe l’ensemble des techniques visant à généraliser à la population des
résultats observés sur un échantillon. Ce chapitre place le contexte théorique sur lequel se
base généralement un processus d’inférence, et présente un outil graphique pour évaluer
l’adéquation d’un modèle pour résumer des données (qq-plot).
3
2. Inférence statistique
L’inférence consiste en la détermination de la distribution de population F et de ses
caractéristiques (moyenne, variance, quantiles,...) à partir des observations c1, ..., cn sur
l’échantillon, ainsi qu’en l’étude de la précision avec laquelle ces caractéristiques sont
déterminées.
Echantilonnage
Population Echantillon
Inférence
Souvent, on aura recours à un modèle mathématique pour F , qui prendra la forme d’une
famille de distributions dépendant d’un ou plusieurs paramètres (ex.: normale, binomiale,
Poisson). Il faudra alors déterminer le ou les paramètres qui conviennent le mieux à
l’échantillon. On parle dans ce cas d’une approche paramétrique de l’inférence.
4
3. Estimation
Le processus de détermination de la distribution de population à l’aide des observations
est appelé l’estimation. Dans le cadre d’une approche paramétrique, il s’agit d’estimer
les paramètres inconnus du modèle choisi.
NB: avec cette modélisation, on a fait l’hypothèse que p est le même à chaque jet.
5
De façon générale, on peut se poser la question de savoir comment déterminer les
paramètres inconnus à partir des données.
Remarques
• La valeur obtenue n’est pas suprenante, elle correspond à la proportion de “Pile” dans
l’échantillon.
• Le fait de prendre le logarithme de la vraisemblance transforme le produit en une
somme, ce qui facilite le calcul de la dérivée
7
Illustration du calcul des pages précédentes:
0.020
P(O)
0.010
0.000
8
Cas général
On se propose de résoudre le même problème de façon générale, avec n lancers de la
pièce et k resultats “Pile”. Cela revient à trouver la valeur de p qui maximise
p̂ est une fonction des variables aléatoires qui représentent les observations. p̂ est donc
lui-même une variable aléatoire, appelée un estimateur, en l’occurrence l’estimateur
du maximum de vraisemblance de p. Les propriétés des estimations fournies par un
estimateur vont dépendre de ses propriétés en tant que variable aléatoire (espérance,
variance, etc). La question de la distribution d’un estimateur sera abordée dans le prochain
chapitre.
9
Le principe du maximum du vraisemblance peut être appliqué à une grande variété de
cas:
• Modèle normal:
Soient X1, ..., Xn i.i.d ∼ N (µ, σ 2). Les estimateurs du maximum de vraisemblance
pour les paramètres µ et σ 2 sont
n n
1 X 1
σˆ2 = (Xi − µ̂)2.
X
µ̂ = Xi et
n i=1 n i=1
Les estimateurs du maximum de vraisemblance de la moyenne et de la variance d’une
distribution normale sont donc égaux à la moyenne et à la variance de l’échantillon
telles que définies au chapitre 3.
• Modèle de Poisson:
Soient Y1, ..., Yn i.i.d ∼ P(λ). L’estimateur du maximum de vraisemblance pour le
paramètre λ est
n
1 X
λ̂ = Yi .
n i=1
Ici aussi, l’estimateur du maximum de vraisemblance de la moyenne d’une distribution
de Poisson est égal à la moyenne de l’échantillon.
10
Exemple pour le cas normal
Reprenons les poids des étudiant(e)s en première année et considérons uniquement les
garçons (sans l’outlier déjà constaté). On obtient µ̂ = 67.59 kg et σˆ2 = 35.55 kg2
et la figure représente la densité correspondante superposée à l’histogramme.
0.08
0.06
Densité
0.04
0.02
0.00
50 55 60 65 70 75 80
Poids
Comme on le voit, l’approximation offerte par le modèle normal n’est pas parfaite. Cela
dit, le modèle normal n’est pas trop violemment mis en défaut, par exemple par une forte
asymétrie ou la présence d’outliers.
11
En passant:
Retour sur la régression: modélisation de la relation entre deux variables X et Y à l’aide
d’une droite.
Nous avons vu au chapitre 4 que lorsqu’on calcule une valeur pour l’intercept (β̂0) et
pour la pente (β̂1) d’une droite de régression, on postule implicitement que les variables
X et Y suivent le modèle suivant:
12
L’approche du maximum de vraisemblance est une approche paramétrique. Elle implique
de faire une hypothèse assez forte sur la forme de la distribution des données. Si on
ne souhaite pas faire une hypothèse aussi forte, on peut prendre une approche non
paramétrique. Par exemple, on peut estimer F par Fn, la fonction de distribution
cumulative empirique.
13
4. Evaluation graphique de l’adéquation d’un mo-
dèle de distribution
Nous avons vu plus haut un exemple d’évaluation graphique du modèle normal (poids
des étudiants), qui consiste à superposer la densité du modèle à l’histogramme des
données. Voici encore deux exemples, avec les données de la série d’exercices 1 (nombres
d’étamines). Comme pour les poids des étudiants, on a estimé les paramètres µ et σ 2
du modèle normal par maximum de vraisemblance et on obtient les graphiques ci-dessous:
0.0012
0.0008
Densité
0.0004
0.0000
14
0.4
0.3
Densité
0.2
0.1
0.0
3 4 5 6 7 8 9
log(Nombre d'étamines)
On voit que le modèle normal n’est pas approprié pour décrire la distribution du nombre
d’étamines, qui est très asymétrique. Il l’est par contre beaucoup plus pour décrire la
distribution du logarithme du nombre d’étamines, comme on le voit sur le graphique
ci-dessus.
Nous allons à présent introduire un procédé graphique plus efficace pour évaluer
l’adéquation d’un modèle, appelé qq-plot (quantile-quantile plot).
16
Fn(Poids)
0 α1 α2 α3 α4 α5 α6 α7 α8 α9 α10 α11 α12 α13 α14 α15 α16 α17 α18 α19 α20 α21 α22 α23 α24 α25 α26 α27 α28 α291
55
60
65
Poids [cm]
70
75
80
17
Dans le cas des poids des étudiants, nous avions obtenu µ̂ = 67.59 kg et σˆ2 = 35.55
kg2 et le modèle correspondant est donc F̂ = N (67.59, 35.55). Nous calculons donc
les valeurs correspondantes des qαi et nous obtenons le tableau suivant, qui contient les
coordonnnées des points du qq-plot:
qαi 54.98 57.88 59.45 60.60 61.54 62.34 63.06 63.72 64.34 64.92
p[i] 52.00 57.00 59.00 60.00 60.00 62.00 65.00 65.00 65.00 65.00
qαi 65.48 66.02 66.55 67.07 67.59 68.10 68.62 69.15 69.69 70.25
p[i] 66.00 66.00 67.00 68.00 68.00 68.00 70.00 70.00 71.00 72.00
qαi 70.83 71.45 72.11 72.83 73.64 74.57 75.72 77.30 80.19
p[i] 72.00 72.00 72.00 72.00 73.00 75.00 75.00 75.00 78.00
18
Avec les données de la page précédente, on obtient le graphique suivant, où l’on voit que
les points ne s’éloignent pas trop de la diagonale “y=x”.
●
75
●● ●
●
●●●●●
●
70
●●
●●●
●
●●
65
pi
●●●●
●
60
●●
●
●
55
55 60 65 70 75 80
qαi
19
Propriété de la distribution normale:
A la place de définir qαi comme les quantiles de N (µ̂, σ̂ 2), on peut les définir
comme les quantiles d’une normale standard N (0, 1). On obtient alors le graphique
suivant, exactement pareil au graphique précédent à l’exception de la graduation de l’axe
horizontal (et de la droite).
Cette propriété de la famille normale permet de
●
construire le qq-plot sans avoir à calculer µ̂ et
ˆ2. C’est cette représentation que proposent les
75
●● ●
●
σ
●●●●●
● logiciels de statistique. Bien sûr, les points ne
70
●●
●
●●● sont plus alignés sur la diagonale “y=x”, puisque
●●
65
●●●●
●
de pouvoir apprécier visuellement l’alignement des
60
●●
●
●
points, on représente en général sur ce genre de
graphiques une droite passant par les premier et
55
2. Bootstrap
1
Au chapitre précédent, nous avons considéré le problème de l’estimation de caractéris-
tiques de la distribution d’une variable, comme sa moyenne ou sa variance.
Nous avons défini un estimateur comme une fonction des observations dont on se sert
pour estimer ces caractéristiques.
Nous avons remarqué qu’un estimateur est lui-même une variable aléatoire.
2
Comme nous l’avons vu, nous modélisons désormais les mesures d’une caractéristique
X sur un échantillon de taille n comme des variables aléatoires X1, ..., Xn i.i.d. ∼
FX (indépendantes et identiquement distribuées selon FX ). On notera alors les valeurs
observées de X sur l’échantillon par les lettres minuscules correspondantes x1, ..., xn.
On dira que x1, ..., xn sont des observations issues des variables aléatoires X1, ..., Xn.
Un estimateur est une fonction B(X1, ..., Xn), et suivant la même convention on
notera sa valeur observée sur l’échantillon par la lettre minuscule correspondante b. Plus
précisément, b est défini comme b = B(x1, ..., xn) et on l’appelle une estimation.
On voit bien que l’estimation serait différente si l’échantillon était différent. On peut donc
définir la distribution de B sur la population de tous les échantillons de taille n, appelée
distribution d’échantillonnage et notée FB . Evidemment, FB va dépendre de FX qui
n’est pas connue dans la pratique. Pour l’approcher, on pourra utiliser soit un modèle
mathématique dépendant de paramètres (approche paramétrique), soit la fonction de
distribution cumulative empirique des observations (approche non paramétrique).
3
1. Distribution de la moyenne arithmétique
Nous avons vu au chapitre précédent que la moyenne arithmétique est l’estimateur du
maximum de vraisemblance de l’espérance mathématique pour de nombreux modèles
de distributions. Dans la suite de ce cours nous utiliserons la notation usuelle X pour
désigner la moyenne arithmétique en tant qu’estimateur:
n
1 X
X= Xi .
n i=1
On a par exemple (en utilisant le suffixe M V pour désigner l’estimateur du maximum de
vraisemblance):
• Distribution normale: µ̂M V = X pour X1, ..., Xn i.i.d. ∼ N (µ, σ 2)
• Distribution de Poisson: λ̂M V = X pour X1, ..., Xn i.i.d. ∼ P(λ)
• Distribution binomiale: p̂M V = X pour X1, ..., Xn i.i.d. ∼ B(1, p)
4
Soient X1, ..., Xn i.i.d. ∼ FX avec E(Xi) = µ et var(Xi) = σ 2, i = 1, ..., n.
• Espérance de X: en applicant les propriétés de l’espérance, on trouve
n n n
1 X1 1 X X 1
E(X) = E Xi = E
Xi =
E(Xi) = nµ = µ.
n i=1 n i=1 n i=1 n
→ Loi normale:
Propriété de stabilité par addition de la loi normale: Soient X1 ∼ N (µ1, σ12) et
X2 ∼ N (µ2, σ22) indépendantes. Alors
6
Pour les autres distributions, le résultat ci-dessus reste vrai approximativement et pour
les grands échantillons grâce au résultat fondamental suivant:
7
Ce qui est remarquable, c’est que le résultat de la page précédente est valable quelle que
soit FX , la distribution des Xi (pourvu que leur espérance et leur variance soient bien
définies).
Par contre, la taille d’échantillon n à partir de laquelle l’approximation est bonne dépend
de FX , et il n’y a pas en général de règle simple pour la déterminer.
Dans les pages qui suivent figurent trois exemples où on a représenté les histogrammes
et les qq-plots de x pour différents modèles FX et différentes tailles d’échantillon n.
Pour les obtenir, on a généré à l’aide d’un ordinateur 1000 échantillons de taille n
d’observations suivant le modèle FX , et calculé à chaque fois la valeur de x.
8
X est uniforme entre 0 et 100.
Histogram of xbar Histogram of xbar Histogram of xbar Histogram of xbar Histogram of xbar Histogram of xbar
n=1 n=5 n = 10 n = 15 n = 20 n = 25
0.030
0.06
0.00 0.01 0.02 0.03 0.04 0.05
0.00 0.01 0.02 0.03 0.04 0.05
0.03
0.008
0.020
0.04
Density
Density
Density
Density
Density
Density
0.02
0.004
0.010
0.02
0.01
0.000
0.000
0.00
0.00
0 20 60 100 20 40 60 80 20 40 60 80 30 50 70 30 50 70 30 40 50 60 70
xbar xbar xbar xbar xbar xbar
Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot
80
100
70
●●● ● ● ●● ● ●
70
●
●●
●
●●
●
●●
●
●
●● ●●
70
●
●
●●
●
● ● ● ●
●
●
● ●
● ●●
●
80
●●
● ●●
●●
● ●
●● ● ●
●●
●
● ● ●● ●●
● ●●
●
● ●
● ●
● ● ●
● ●
65
●
70
●● ●
● ●
●
● ●
●
●● ●
●● ●
●
● ●
●
● ● ●
●● ● ●
●
● ● ● ●
●
80
●●
● ●
●● ●● ●● ●
●
● ●
●
●
● ●
●●
● ●
●●
● ●●
● ●
●
● ●●
● ● ● ●
● ●● ●
60
●
●● ●
●● ●
●● ●
● ●
● ●
●
●●
Sample Quantiles
Sample Quantiles
Sample Quantiles
Sample Quantiles
Sample Quantiles
Sample Quantiles
●
60
● ● ● ● ● ●
●
60
●
● ●
●
●
● ●
●
● ●
●
● ●
●
● ●●
● ●
●
● ●● ●
● ●
● ●
●
60
● ● ● ● ● ●
60
●
● ●
●
●
● ●
● ●
●● ●
●● ●
●
●
●
●
● ●
●
● ●
●
● ●●
● ●●
● ●
●
●● ●
●● ●
●● ●
● ●
●
● ●
●●
60
●
● ●● ●● ●● ●● ●●
●
● ● ● ● ●
55
●
● ●●
● ●●
● ●
●●
● ●● ●
●
●
●●
● ●
●
● ●
●
● ●●
● ●●
●
● ●
●
●
●
● ●
● ●
● ●
● ●
● ●●
50
● ●
● ●
● ●● ●
● ●
●
50
● ●
50
●
● ●
● ●
●
● ●
●
● ●●
● ●
●
●
●● ●
●● ●
●● ●
●
● ●
●
● ●
●
●●
● ● ● ● ● ●
50
● ●● ● ● ● ●
40
●
● ●
●
● ●
●
● ●
●
● ●●
● ●●
●
40
●● ●
●
● ●
●● ●
●
● ●●
● ●
●
●
●
● ●● ●
● ●● ●
● ●
●
●
●
● ●
● ●
●
●
● ●
●
● ●
●
●● ●●
●● ●
●
●
● ●
● ●
● ●● ●●
●
●
● ● ●
40
●
● ●
● ●● ●● ●
● ●
●
45
●
● ●●
● ●●
● ●
●
● ●
●
● ●
●
●
● ● ● ● ●
40
● ● ●
● ●
● ●
40
●
●
● ●
●
● ●
●● ●
●
● ●
●● ●●
●
●
● ●
●
● ●●
● ●
●
● ●● ●
● ● ● ● ● ●●
20
● ●
●
● ●
●●
● ●
●
●
● ●●
● ●
●
20
●
● ●● ●
● ●
● ●
●
● ●●
●
40
●
●● ● ●
●● ●●
● ●●
●
●
● ●
●
●●
●
●
30
●● ● ●● ●●
● ●
●●
●
● ●
● ●
● ●
● ●●
● ●
●●
●●
● ●● ●
●● ●● ● ●
●●
●
●●
● ● ●
●● ●
● ● ●
●●
●●
●
● ●● ●
●
●● ●● ●●
30
●
●
● ●●
35
●
●●●●
●
●●
●
●●
●
●
●●
●
●
●
●
●● 30 ●
●●● ●● ●
0
−3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3
Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles
On voit que l’approximation normale est bonne déjà pour de très petites tailles
d’échantillon.
9
X est lognormale d’espérance et d’écat-type égaux à 2.
Histogram of xbar Histogram of xbar Histogram of xbar Histogram of xbar Histogram of xbar Histogram of xbar
n=1 n = 10 n = 30 n = 50 n = 70 n = 90
1.0
2.5
2.0
0.4
1.5
2.0
0.8
2.0
1.5
0.3
1.5
1.0
0.6
1.5
Density
Density
Density
Density
Density
Density
1.0
0.2
1.0
0.4
1.0
0.5
0.5
0.1
0.5
0.2
0.5
0.0
0.0
0.0
0.0
0.0
0.0
0 2 4 6 8 12 1.0 2.0 3.0 1.5 2.0 2.5 3.0 1.4 1.8 2.2 2.6 1.6 2.0 2.4 1.6 2.0 2.4
xbar xbar xbar xbar xbar xbar
Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot
2.6
2.6
3.0
● ● ● ● ● ●
●● ● ●●
12
● ● ● ●
●
● ●
●
●
● ● ●
● ●
● ●●
2.4
●
● ●
● ●●
●
● ●
●
●● ●
● ●
● ●
●
2.4
● ●
● ●
● ●
●
● ●
●● ●
● ●
●
10
● ●
●
●●
● ●● ●
●
● ●●
●
●
● ●
●
● ●
● ●● ●
●
●
● ● ● ●
Sample Quantiles
Sample Quantiles
Sample Quantiles
Sample Quantiles
Sample Quantiles
Sample Quantiles
3.0
●
● ●
● ●
● ●
●
● ●
●
2.5
● ● ●● ● ●●
●● ●
●
●
● ●
● ●
●
●
● ●
●
● ●
●
●
2.2
●●
● ●●
● ●
● ●
● ●
●●
●
●
●●
● ● ●
● ●● ● ●
2.2
●
●
● ●
●
● ●●
● ●
●
● ●●
● ●
8
●
● ●
● ●●
● ●●
● ●●
● ●
●
● ●
● ●
●
● ●
● ●
● ●
●
● ● ●
● ● ●● ●
2.5
● ●
● ●
● ●
●
● ●
● ●
●●
● ●
● ●
●
● ●
●● ●
●● ●●
●
● ●
●
● ●
●
●
● ●
● ●
● ●●
●
● ● ● ●
● ●
● ●
2.0
●
● ●● ●●
● ●●
● ●● ●●
●
● ● ● ● ●
6
●
● ● ●
● ●● ●
● ●
●
2.0
●● ●
● ●
● ●
● ●
● ●
●
●
2.0
●
● ●●
● ●
●● ●● ●
●● ●
●
●●
● ●
● ●
● ●●
● ●
● ●
●●
● ● ● ● ● ●
2.0
●
● ●
●
● ●●
●
● ●
●●
● ●●
● ●
●
●●
●
● ●
●● ●
●
● ●● ●
●
● ●●
●● ●●
● ●
●
●
● ●●
●
● ●
●
● ●
●
●
●
● ●
●
● ●
● ●
● ● ●
●
4
1.8
●● ●
●
● ●
●●
● ●
●
● ●
●
● ●●
●
●
●
● ●
●● ●
●●
● ●
●● ●
●
● ●
●
●
● ● ● ●
1.8
●
●
●● ●
●
●
● ●
●●
● ●
● ●
●
● ●●
●
●
●● ●
●
● ●●
● ●●
● ●
● ●
●
● ● ● ● ● ●
1.5
●
●
● ●
●
● ●
● ●●
● ●
●
● ●
●
●
●
●● ●
●●
●
●
● ●●
●
● ●
●●
●
● ●●
●
● ●
●
●
●
●
●● ● ●
● ●
●● ● ●●
●
●
2
● ● ● ● ● ●
●
1.5
●●
●
●
●● ●
●●
●
● ●
●
● ●
●
●● ●● ●
●
● ●● ●
●
● ● ●
1.6
●●
●
●
●●
● ●
●●
● ●
●●
●
●● ●
●● ●
●
●●
●
●
●
●●
●
● ●●
● ●● ●
● ●●
●
●●
●●
●
●
● ●
● ●● ●●
1.6
●
●●
●
●
●●
●
●
●●
●
● ●●
●
●
●●
●
●●
●
●
●●
● ●
●●
●
● ●●●
1.0
●
●●●●
●
●●
● ● ● ● ●
0
−3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3
Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles
0.25
0.20
0.15
0.20
0.3
0.3
0.15
0.20
0.15
0.10
Density
Density
Density
Density
Density
Density
0.2
0.2
0.10
0.10
0.10
0.05
0.1
0.05
0.1
0.05
0.00
0.00
0.00
0.00
0.0
0.0
0 10 30 50 5 10 15 2 4 6 8 10 2 4 6 8 10 2 4 6 8 10 3 4 5 6 7 8
xbar xbar xbar xbar xbar xbar
Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot
50
10
● ●● ● ● ● ●
●●
10
●●● ● ●
8
●
●● ●
●● ● ●
●
●
● ●
● ● ●
15
●
● ●●
●
●
10
● ● ●● ●● ● ●
● ●
● ●
●
● ●
● ● ● ●
40
● ● ●●
● ●
●
●
● ● ●
7
● ●●
● ●
● ●●
● ● ●
● ●
● ●
● ● ● ●
8
● ● ● ● ●
Sample Quantiles
Sample Quantiles
Sample Quantiles
Sample Quantiles
Sample Quantiles
Sample Quantiles
● ●
8
● ●
● ●● ● ●
● ●●
●
● ●● ●
● ●● ●
●
● ●
●
●
● ● ●● ● ● ●
●
● ● ● ● ●
8
● ●
● ●
● ●
●● ●
● ●●
● ●
●● ●
● ●
● ● ●
●
●
30
● ● ● ● ●
● ●●
6
● ●
●● ●● ●●
●
● ●
● ●
●
●
●
●
10
●
● ●
● ●
●
● ●
●
● ●●
● ●
●
●
● ●
● ●
● ●
●
● ●
●
● ●
●●
● ●
● ●
● ●● ●
●
● ●
●
● ● ● ● ●
6
● ●
● ●
● ●
● ●
●
6
● ●
● ●
● ●
●
● ●
●
● ●●
● ● ●
● ● ●● ●
●
6
● ●
● ●
● ●
●
● ●●
●
● ●
●●
●
● ● ●
● ● ●
5
●
20
● ●
●
● ●●
● ●●
● ●● ●
●●
● ●
● ●
●
● ●
●
● ●
●
● ●●
●
●
● ●● ●● ●
● ●
●
● ●
●
●
● ●
●
● ●●
● ●
●● ●●
●
● ●
●● ●
●
●
● ●●
● ●● ●
●
●
● ●●
● ●
● ●
● ●●
●
● ●
●
● ●
● ●
● ●
●● ●
●
● ●
●
● ●
● 4 ●●
● ●
● ●
●
4
● ●
● ● ●
● ●
● ●
●
4
● ● ●
5
● ● ●● ● ●
4
● ● ●
● ●
● ●● ●
●
10
●
● ●
●
● ●
●
●● ●
●
● ●●
●
● ●
●
●
●
● ●
●● ●
●● ●
●● ●
●●
●
● ●
●
●
● ● ●●
● ●
●●
● ●
●●
● ●
●●
●
● ●●
● ●●
● ●
●
●● ●
●●
● ●
●●
●
● ●
● ●●
●
● ●●
●
●● ●
●● ●
●
●●
●
●
●● ●● ●●
●
● ●
●●
●
● ●
●●
● ●●
●
●
●●
● ●●
●
● ●
●
● ●
●● ●●
●
●●
● ●
●●
●
3
●
●
●● ●●
● ●
● ● ●●
●
● ●
●
2
●
●
●●
●
●
●● ●
●
●
●●
●
● ●
●
●
●● ●
●
●● ●
●●
● ●
●
2
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●● ●
●
●●
●
●
●●
●
●●
●
●
● ●●
●
●●
●
● ●● ● ●
●
●●●●
●
●●
●●
●
●
●
●●
● ●
●
●●
●
●
●●
●
●
●●●
●
●●
●
●
●●
●
●●
●● ●
●●●
●
●
●
●●
●
●
● ●
●
●
●●
●
● ●
●●●●
●
●●
●
●●
●
●
●●
●
●● ●●● ●● ● ●
●●●●
●
●
0
2
−3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3
Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles
La présence d’outliers fait qu’une plus grande taille d’échantillon est nécessaire pour
obtenir une bonne approximation normale.
11
Distribution binomiale et distribution de Poisson
Nous avons vu que pour X1, ..., Xn i.i.d. ∼ FX avec E(Xi) = µ et var(Xi) = σ 2,
i = 1, ..., n, la moyenne centrée et réduite
Pn
i=1 Xi
V = n √ −µ
σ/ n
avait approximativement une distribution normale standard lorsque n est suffisamment
grand, ce que nous noterons V ∼ ˙ N (0, 1). Cela implique que la somme des Xi a
approximativement une distribution normale N (nµ, nσ 2). En effet,
n
X √
Xi = nσV + nµ.
i=1
Or, nous avons vu qu’une variable binomiale Y ∼ B(n, p) n’est autre que la somme de
n variables indépendantes Yi ∼ B(1, p) (Y ∼ B(n, p) est le nombre de succès parmi
n répétition indépendantes d’une expérience avec probabilité de succès p, ce qui revient
à additionner n variables B(1, p)). On a E(Yi) = p et var(Yi) = p(1 − p) et on
obtient donc que
Y ∼
˙ N (np, np(1 − p)).
12
Autrement dit, si n est suffisamment grand, une binomiale ressemble à une
normale de même moyenne et de même variance. Pour le cas binomial, il existe
une règle approximative disant que l’approximation normale est bonne si
np > 5 et nq > 5,
où q = 1 − p.
λ ≥ 20.
Les pages suivantes montrent des illustrations de ces proporiétés pour la binomiale et la
distribution de Poisson.
13
Histogram of X ~ B(n,p) Histogram of X ~ B(n,p) Histogram of X ~ B(n,p) Histogram of X ~ B(n,p) Histogram of X ~ B(n,p)
n = 1, p = 0.4, n = 5, p = 0.4, n = 10, p = 0.4, n = 20, p = 0.4, n = 30, p = 0.4,
np = 0.4, nq = 0.6 np = 2, nq = 3 np = 4, nq = 6 np = 8, nq = 12 np = 12, nq = 18
0.15
6
0.20
0.15
0.6
5
0.10
0.15
4
0.10
Density
Density
Density
Density
Density
0.4
3
0.10
0.05
2
0.05
0.2
0.05
1
0.00
0.00
0.00
0.0
0
Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot
1.0
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●●
●
●
●●
●
●●
●
●
●●
●●
●
●●
●
●●
●●
●●● ● ●
●
●●
●
●●
●
●●●●● ● ●● ● ●
5
10 12 14
●
●●●
20
8 ●
●
●●
●
●●
●
●●●● ●●
●
●
●●
●●
●
●●
●
●
●●●
0.8
●
●
●
●●
●
●●
●
●
●●
●
●●
●
●
●●
●
●
4
●
●
●
●●
●
●●
●
●
●●
●
● ●
●
●
●●
●
●●
●
●
●●
●
● ●●
●●
●
●●
●
Sample Quantiles
Sample Quantiles
Sample Quantiles
Sample Quantiles
Sample Quantiles
●
●
●
●●
●
●
●●
●
●
●●
● ●
●●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●●
● ●
●
●
●●
●
●●
●
●
●●
6
●
●
●
●●
●
●
●●
●
●
●●
●
●
15
0.6
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
● ●
●
●
●●
●
●
●●
●
●
●
3
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
● ●
●
●
●●
●
●
●●
●
●
●●
● ●●
●
●
●●
●
●
●●
●
●
●
●
●
●
●●
●
●
●●
●
●
●●
●
● ●
●●
●
●
●●
●
●
●●
●
●
8
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
● ●●
●
●
●●
●
●
●●
●
●
4
●
●
●
●●
●
●
●●
●
●
●●
●
0.4
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
2
●
●●
●
●
●●
●
●
●●
●
●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●
10
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
● ●●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●●
● ●●
●
●
●●
●
●
●●
●
●
●
0.2
●
●
●
●●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
● ●
●
●●
●
●
●●
●
●
2
●
●
●
●●
●
●●
●
●
●●
●
●
4
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
1
●
●
●●
●
●
●●
●
●●
●●
●●
●●
●
●●
●
●●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●●
●
●●
● ●●
●
●●
●
●●
●
●●
●
2
●●●
●●
5
0.0
● ●●●
●●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●●
●
●●
●
●
●●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●● ● ●●●
●●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●●
●
●●
●
●
●●
●
●●
● ● ●●● ● ●
0
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles
14
Histogram of X ~ B(n,p) Histogram of X ~ B(n,p) Histogram of X ~ B(n,p) Histogram of X ~ B(n,p) Histogram of X ~ B(n,p)
n = 10, p = 0.1, n = 30, p = 0.1, n = 50, p = 0.1, n = 70, p = 0.1, n = 90, p = 0.1,
np = 1, nq = 9 np = 3, nq = 27 np = 5, nq = 45 np = 7, nq = 63 np = 9, nq = 81
0.15
0.8
0.12
0.15
0.20
0.6
0.10
0.08
0.10
Density
Density
Density
Density
Density
0.4
0.10
0.05
0.04
0.05
0.2
0.00
0.00
0.00
0.00
0.0
0 1 2 3 4 5 0 2 4 6 8 0 2 4 6 8 10 12 0 5 10 15 0 5 10 15 20
X X X X X
Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot
● ●● ●● ● ●
5
15
12
●
20
●●
●
●
●●
●●
●●
8
●
●●
●
●●●● ●●
●
●
●●
●
●
●
●
●●
●●
●●●● ●
●●
●
●● ●
4
10
●
●
●
●●
●
●●
●● ●
●
●●
●
●●
●
● ●
Sample Quantiles
Sample Quantiles
Sample Quantiles
Sample Quantiles
Sample Quantiles
●
●●
●
●●
●
●
●●
●
●
●●
●
●●
●
●
●
●●
●
●●
●
●
● ●
●
●●
●
●
●●
●
●
●●
●
15
●
●
●
●●
●
●●
●
●
●●
● ●●
●●
●
●
6
10
●
●
●
●●
●
●
●●
●
●●
● ●●
●
●
●●
●
●
●● ●
●
●●
●
●●
●
●
●
8
●
●
●
●●
●
●●
●
●
●●
●
●●
●
●●
●
●
3
●
●
●
●●
●
●
●●
●
●
●●
●
● ●
●
●
●●
●
●
●●
●
● ●
●●
●
●
●●
●
●●
●
●
●
●●
●
●
●●
●
●
●● ●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
● ●
●
●
●●
●
●
●●
●
●
●●
6
10
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
4
●
●
●
●●
●
●
●●
●
●
● ●
●
●●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
2
●
●
●
●●
●
●
●●
●
●
●●
● ●●
●
●
●●
●
●
●●
●
●
● ●
●●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
● ●
●●
●
●
●●
●
●
●●
●
●
● ●
●●
●
●
●●
●
●
●●
●
5
●
●
●
●●
●
●
●●
●
●
●●
●
4
●
●●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
● ●
●
●
●●
●
●
●●
●
●
●●
●
● ●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
2
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
1
●
●●
●
●●
●
●
●●
5
●
●
●
●●
●
●●
●
●
●●
●
●
●
●
●
●●
●
●●
●
●
●●
●
●
●●
●
●
2
●
●
●●
●
●●
●
●●
●
● ●
●
●●
●
●
●●
●
●●
●
●
●
●
●●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
● ●
●●
●
●●
●
●●
●
●●
●
●●
●●
●
●●
●
●●
●
●●
●
●●
●
●
● ●●●
●●
● ●●●
●
● ●●●
●●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●●
●
●●
●
●
●●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
● ● ●●●
●●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●●
●
●● ● ●● ● ●
0
0
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles
15
Histogram of X ~ P(λ) Histogram of X ~ P(λ) Histogram of X ~ P(λ) Histogram of X ~ P(λ) Histogram of X ~ P(λ) Histogram of X ~ P(λ)
λ=1 λ=5 λ = 10 λ = 15 λ = 20 λ = 25
0.10
0.20
0.12
0.06
0.08
0.6
0.15
0.08
0.08
0.06
0.04
Density
Density
Density
Density
Density
Density
0.4
0.10
0.04
0.04
0.04
0.02
0.2
0.05
0.02
0.00
0.00
0.00
0.00
0.00
0.0
0 1 2 3 4 5 0 2 4 6 8 12 0 5 10 15 20 5 10 15 20 25 10 20 30 10 20 30 40 50
X X X X X X
Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot
14
35
●● ● ● ●● ● ●
5
45
20
●
●● ● ●
25
● ●
●●
●● ●●
●
●
●
●●
● ●
●
●●
●●
12
●
●●
● ●
●
● ●●
●
●
40
●
●
●
●●
● ●
●●
30
●
●
●●
●
●●
●
●●
●● ●
●●
●
●
●●
●
● ●
●
● ●
●
4
●
●
●
●●
●●
●
● ●
●
●●
●
● ●
●
●
●
●● ●
●
●●
●
●● ●
●
●
●
Sample Quantiles
Sample Quantiles
Sample Quantiles
Sample Quantiles
Sample Quantiles
Sample Quantiles
10
15
●
●
●●
20
●
●
●
●● ●
●
●●
●
● ●●
●
●●
● ●
●●
●
●
●●
●
35
●●
●
●
●● ●
●●
●
●
●
●●
●
●
●● ●
●
●●
●
●
● ●
●●
●
● ●
●●
●
●
●
●
●
●●
●
●●
25
●
●
●●
●
●
● ●●
●
●
●●
● ●
●
●
●●
● ●
●
●●
●
●
●
●
●●
●
●
●●
●
●●
●
● ●
●
●●
3
●
●
●
●●
●
● ●
●●
●
●
●● ●
●
●
●●
●
● ●
●●
●
●
● ●
●
●
●●
8
30
●
●●
●
●
●●
● ●
●●
●
●
●● ●
●●
●
● ●●
●
●
●
15
●
●
●
●●
●
●
●●
●
●
● ●
●
●
●●
●
● ●
●
●
●●
● ●
●●
●
●
●
10
●●
●
●
●●
●
● ●
●
●●
●
●
●
●
●●
●
●
● ●●
●
●
●● ●
●
●●
●
20
●
●
●
●●
●
●
●●
● ●●
●
●
●●
●
●
● ●
●
●
●●
6
●
●
●●
●
●
●
25
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●● ●
●
●●
●
●
●● ●
●
●
●●
2
●●
●
●
●●
●
● ●
●
●●
●
●
●●
● ●●
●
●
●● ●
●●
●
●
●
●
●
●
●●
●
●
●●
●
●
●● ●
●●
●
●
● ●
●
●●
●
●
●
●●
●
●
●●
●
●
● ●
●
●
●●
● ●
●
●
●●
10
●
●
●●
●
●
● ●●
●
●●
●
●
●
●
●●
●
●
●●
●
●
● ●
●
●●
●
●
●●
● ●●
●
●
●
4
20
●●
●
●
●● ●
●●
●
●
● ●
●
●●
●
●
15
●●
●
●
●●
●
5
●
●
●
●●
●
●
●●
●
●
●● ●
●●
●
●
●●
● ●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●● ●●
●
●
●●
● ●
●●
●
●
●
1
●●
●
●
●●
●
●●
●
● ●
●
●●
●
●●
●●
●
● ●●
●
●
●● ●●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●●
● ●●
●●
●
●
●●
● ●
●●
●
●
2
15
●
●●
●
● ●●
●
●
●●
● ●
●
●●
●
●● ● ●
●
●
5
●
●
●●
●
●●
●
●
●●
●
●●
● ●
●●
●
● ●
●●
●●
10
●● ●
●
●
● ●
● ●●
●●
●●
●
●
●●
●●
●
●
●●
●
●●
●
●
●●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
● ● ●●
●●
●●
● ● ● ● ●●
●●
● ●
0
10
−3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3 −3 −1 1 2 3
Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles
16
2. Bootstrap
Nous avons vu que le théorème central limite (TCL) nous permet connaı̂tre la distribution
de la moyenne arithmétique de façon approximative. Nous avons vu cependant que la
taille d’échantillon à partir de laquelle l’approximation est bonne n’est pas toujours facile
à déterminer. Si on ne souhaite pas avoir recours à l’approximation normale, on peut
utiliser la technique du bootstrap.
17
Le bootstrap est une technique consistant à simuler des échantillons par ordinateur. On
distingue deux formes de bootstrap:
• bootstrap paramétrique
• bootstrap non paramétrique
L’idée est la suivante: pour connaı̂tre la distribution d’un estimateur étant donnée une
taille d’échantillon n, on génère à l’aide d’un ordinateur un grand nombre d’échantillons
de taille n et on calcule la valeur observée de l’estimateur sur chacun de ces échantillons.
On utilise alors la distribution empirique de ces valeurs observées comme estimation de
la distribution de l’estimateur.
→ C’est ce qu’on a fait dans la pages précédentes pour voir si l’approximation normale
était appropriée dans différentes situations.
→ C’est un exemple de boostrap paramétrique: on simule les échantillons en postulant
qu’ils proviennent d’un certain modèle paramétrique (lognormal, uniforme, binomial, etc).
→ La différence avec la pratique est que dans un cas réel on a un échantillon
d’observations à partir duquel on détermine les paramètres du modèle considéré, puis
on génère les échantillons avec ces paramètres.
18
Parfois, on ne souhaite pas faire l’hypothèse que les observations suivent une certain
modèle paramétrique. On fait alors du bootstrap non paramétrique.
→ L’idée est d’utiliser comme modèle la distribution empirique des observations dans
l’échantillon que l’on a à disposition.
→ Pour simuler un échantillon de taille n provenant de ce modèle, on tire avec remise n
valeurs dans l’échantillon. On peut prouver qu’on obtient alors un échantillon distribué
selon Fn, la fonction de distribution cumulative empirique de la variable sur l’échantillon.
Exemple:
Les données ci-dessous sont des durées de séjour pour des patients hospitalisés au CHUV
pour des troubles du système nerveux.
1 1 2 2 2 2 2 2 3 3 3 3
3 4 4 4 4 4 5 5 5 5 6 6
7 7 8 9 16 115 198 374
19
On s’intéresse à la médiane de ces durées de séjours. Sur l’échantillon à disposition elle
est de 4 jours et on se demande à quel point cette médiane pourrait varier si on prenait
un autre échantillon de même taille parmi des patients souffrant de troubles similaires.
On tire avec remise 5000 échantillons de taille 34 et on calcule à chaque fois la médiane.
La distribution des médianes obtenues est illustrée dans la figure ci-dessous.
51%
2000
98%
1000
0
On voit que la probabilité que la médiane d’un nouvel échantillon soit égale à 4 est
estimée à 51% et la probabilité qu’elle se situe entre 3 et 5 est estimée à 98%.
20
Chapitre 10: Introduction aux tests
statistiques
1. Approche
• Hypothèse nulle
• p-value et niveau
• Statistique de test
• Hypothèse alternative
• Puissance
3. Intervalle de confiance
1
1. Approche
Exemple introductif (démonstration au cours)
On imagine un casino proposant un jeu basé sur le jet d’une pièce prétendument
équilibrée. On jette un certain nombre de fois la pièce et on obtient (ou prétend obtenir...)
“Pile” à chaque fois. Après chaque jet, on demande aux étudiants s’ils estiment que le
degré d’évidence quant au déséquilibre de la pièce est suffisant pour décider de fermer le
casino. Exemple de résultat obtenu:
Positions des étudiants après n lancers de pièce, tous "Pile"
80 %
60 %
40 %
20 %
0%
1 2 3 4 5 6
2
Cet exemple montre qu’une même expérience n’amène pas spontanément tout le monde
aux mêmes conclusions.
La logique des tests statistiques permet de formaliser la façon de tirer des conlusions à
partir d’une expérience.
3
Hypothèse nulle
Un test statistique se base sur les points suivants:
1. Formulation d’une hypothèse. Traditionnellement, on appelle cette hypothèse
l’hypothèse nulle et on la note H0. (La raison de cette appellation apparaı̂tra plus
clairement dans la suite.)
2. Utilisation de la théorie statistique pour déterminer si les données soutiennent cette
hypothèse H0 ou non.
3. Rejet de H0 si les données ne la soutiennent pas.
4
Dans l’exemple de la pièce, on fait l’hypothèse qu’on a une pièce équilibrée:
H0: P (P ile) = P (F ace) = 1 2.
→ A quel point l’observation d’un jet P ile sur un, de deux jets P ile sur deux, ..., de
six jets P ile sur six soutient-elle cette hypothèse?
Dans ce qui suit, on va en fait calculer à quel point ces observations condamnent cette
hypothèse.
Pour ce faire on va calculer, sous l’hypothèse H0, la probabilité que les observations
s’éloignent au moins autant de H0 que ce qui a été observé.
→ Si cette probabilité est faible, on en conclura que soit H0 n’est pas vraie, soit un
événement rare a eu lieu. Ne croyant pas en la survenue d’un événement rare, on rejettera
alors H0.
N.B.: Notation: Dans ce qui suit, on utilisera la notation PH0 pour indiquer qu’une
probabilité est calculée sous H0, i.e. en considérant que H0 est vraie.
5
• Un jet P ile sur un:
Notre hypothèse H0 plaiderait pour autant de P ile que de F ace, or il y a 1 P ile
et 0 F ace. Avec un seul jet, on ne peut pas satisfaire H0 : si on avait eu F ace, on
s’en éloignerait autant mais de l’autre coté.
→ PH0 (s’éloigner au moins autant de H0) = PH0 (P ile ou F ace) = 1
→ A tous les coups, on s’éloigne au moins autant de H0
• Deux jets P ile sur deux:
On s’éloignerait autant de H0 avec deux F ace.
→ PH0 (s’éloigner au moins autant de H0) = PH0 (2P ile ou 2F ace)
= PH0 (2P ile) + PH0 (2F ace) = 0.52 + 0.52 = 0.5
→ Sous H0, on a une chance sur deux de s’éloigner au moins autant de H0
• Trois jets P ile sur trois:
On s’éloignerait autant de H0 avec trois F ace.
→ PH0 (s’éloigner au moins autant de H0) = PH0 (3P ile ou 3F ace)
= PH0 (3P ile) + PH0 (3F ace) = 0.53 + 0.53 = 0.25
→ Sous H0, on a une chance sur quatre de s’éloigner au moins autant de H0
6
• Quatre jets P ile sur quatre:
On s’éloignerait autant de H0 avec quatre F ace.
→ PH0 (s’éloigner au moins autant de H0) = PH0 (4P ile ou 4F ace)
= PH0 (4P ile) + PH0 (4F ace) = 0.54 + 0.54 = 0.125
→ Sous H0, on a une chance sur huit de s’éloigner au moins autant de H0
• Cinq jets P ile sur cinq:
On s’éloignerait autant de H0 avec cinq F ace.
→ PH0 (s’éloigner au moins autant de H0) = PH0 (5P ile ou 5F ace)
= PH0 (5P ile) + PH0 (5F ace) = 0.55 + 0.55 = 0.0625
→ Sous H0, on a une chance sur seize de s’éloigner au moins autant de H0
• Six jets P ile sur six:
On s’éloignerait autant de H0 avec six F ace.
→ PH0 (s’éloigner au moins autant de H0) = PH0 (6P ile ou 6F ace)
= PH0 (6P ile) + PH0 (6F ace) = 0.56 + 0.56 = 0.03125
→ Sous H0, on a une chance sur trente-deux de s’éloigner au moins autant de H0
7
On constate donc qu’au fur et à mesure que les P ile s’accumulent, une pièce équilibrée
a de moins en moins de chances de produire un résultat aussi extrême. Autrement dit,
H0 est de plus en plus condamnée par l’expérience. Le fait que l’expérience condamne
H0 va nous conduire à la rejeter. Mais à partir de quand devrait-on rejeter H0?
Ou, en d’autres termes: Soit H0 est fausse, soit un événement rare s’est produit. Je ne
crois pas à la survenue d’un événement rare et donc je rejette H0.
On voit donc qu’il y a une part de subjectivité dans la décision de rejeter H0. Rien dans
la théorie statistique ne dit qu’il faut fixer la valeur limite à 5% plutôt qu’à 1%, 2% ou
10% par exemple.
8
p-value et niveau
Quelques définitions
• Le processus décrit dans les transparents qui précèdent s’appelle un test statistique.
• PH0 (s’éloigner au moins autant de H0) (la probabilité sous H0 que les observations
s’éloignent de H0 au moins autant que ce qui a été observé) s’appelle la p-value du
test.
• La valeur limite pour la p-value, au-dessous de laquelle on rejette H0, s’appelle le
niveau (ou le seuil) du test.
Avec ces nouveaux termes:
• Lorsque la p-value est inférieure ou égale au niveau, on dit que le résultat est
statistiquement significatif.
9
Dans l’exemple de la pièce, on aurait donc:
En fixant le niveau à 5%, on ne rejetterait donc H0 qu’au bout de 6 jets P ile sur 6.
1 et
On dirait alors que la probabilité d’obtenir P ile est significativement supérieure à 2
on aurait montré statistiquement que la pièce est déséquilibrée.
10
Attention:
• Nulle part dans cette procédure on ne parle de la probabilité que H0 soit vraie.
D’ailleurs, il n’est pas évident de définir “la probabilité que H0 soit vraie”. Par exemple,
le sens de la phrase “la probabilité que H0 soit vraie est de 90%” n’est pas clair.
Dans notre exemple, soit la pièce est équilibrée, soit elle ne l’est pas. Il n’y a pas de
phénomène aléatoire sur lequel définir une probabilité.
Dans ce cours, à chaque fois qu’on parlera de la probabilité d’un événement, on aura en
tête la répétition hypothétique d’une expérience, et la probabilité est définie comme
la proportion moyenne des fois où l’événement aura eu lieu. Ainsi P(P ile) est la
proportion moyenne de P ile si on lance plusieurs fois la pièce. Dire que la pièce est
équilibrée, i.e. P (P ile) = 1 2 , revient à dire que si on lance plusieurs fois la pièce on
aura en moyenne autant de P ile que de F ace.
• Une des erreurs les plus fréquentes d’interprétation de la p-value est justement de dire
que la p-value est la probabilité que H0 soit vraie, étant donné les observations. En
fait, ce serait plutôt le contraire : La p-value est la probabilité d’obtenir les observations
(ou des observations plus extrêmes), étant donné H0.
11
Autre exemple: poissons du lac
Dans le cadre d’une étude environnementale, on cherche à savoir si la faune d’un certain
lac évolue au cours du temps ou si elle reste stable. On souhaite notamment savoir si
la taille moyenne des poissons peuplant ce lac a changé depuis la dernière mesure, égale
à 5 cm. En termes statistiques, on souhaite tester l’hypothèse nulle selon laquelle les
poissons du lac ont une taille moyenne µ de µ0 = 5 cm. On pose donc H0: µ = µ0.
On prélève un échantillon aléatoire de 30 poissons de tailles x1, ..., x30, et on trouve
que leur taille moyenne x̄ vaut 7 cm.
Peut-on en déduire que la taille moyenne des poissons du lac est supérieure à 5 cm?
Est-il crédible que la taille moyenne des poissons du lac soit malgré tout de 5 cm, alors
que la moyenne dans notre échantillon est de 7 cm? Si la taille moyenne des poissons du
lac était de 5 cm, serait-il fréquent ou rare que le hasard de l’échantillonnage produise
un tel échantillon?
Plus précisément: si la taille moyenne des poissons du lac était de 5 cm, quelle serait la
probabilité de tirer un échantillon de taille 30 où la taille moyenne s’éloigne au moins
autant de 5 cm?
→ Cette probabilité est la p-value du test de H0.
→ Comment la calculer?
12
Grâce au théorème central limite, on connaı̂t approximativement la distribution de X̄:
σ2
!
X̄ ∼
˙ N µ, ,
n
où σ 2 est la variance des tailles des poissons du lac.
Si H0: µ = µ0 était vraie, on aurait donc que
σ2
!
X̄ ∼
˙ N µ0 , .
n
σ 2 est inconnu, mais non peut l’estimer par la variance de l’échantillon:
30
2 1 X
σ̂ = (xi − x̄)2 = 20.3 cm2.
n i=1
Connaissant la distribution de X̄ sous H0, nous pouvons à présent calculer la probabilité
qu’elle s’éloigne au moins autant de 5 cm que ce que nous avons observé (7 cm).
13
Si H0: µ = µ0 était vraie, on aurait donc:
PH0 (s’éloigner au moins autant de H0) = PH0 (X̄ ≤ 3 ou X̄ ≥ 7)
= 2PH0 (X̄ ≥ 7)
!
X̄ − µ0 7 − µ0
= 2PH0 √ ≥ √
σ̂/ n σ̂/ n
!
X̄ − µ0 7−5
= 2PH0 √ ≥√ √
σ̂/ n 20.3/ 30
!
X̄ − µ0
= 2PH0 √ ≥ 2.43
σ̂/ n
≈ 2(1 − Φ(2.43))
= 0.015
La p-value de notre test est donc égale à 1.5%. Au seuil de 5%, on rejette donc H0 et
on en conclut que la taille moyenne des poissons du lac est significativement supérieure
à 5 cm.
On a montré que si H0 était vraie il serait rare (1.5 chances sur 100) d’observer, par le
hasard de l’échantillonnage, un résultat au moins aussi extrême que celui qu’on a observé.
Ne croyant pas en la survenue d’un événement rare, on rejette H0.
14
Statistique de test
L’outil qui nous a permis de calculer la p-value est la variable standardisée Z = X̄−µ
√ 0.
σ̂/ n
On a utilisé le fait que sous H0, grâce au théorème central limite, on a
Z∼
˙ N (0, 1).
On appelle cette variable la statistique de test.
15
On a la situation suivante pour la distribution de Z sous H0:
0 z=2.43
16
On a la situation suivante pour la distribution de Z sous H0:
P−value = 1.5 %
−z=−2.43 0 z=2.43
5% Domaine de rejet de H0
] [
− z0.975=−1.96 0 z0.975=1.96 z=2.43
On peut donc mener le test en se basant soit sur la p-value, soit sur la valeur de la
statistique de test.
Pour un niveau α quelconque, le domaine de rejet pour ce test est défini par
z ∈ Domaine de rejet de H0 ⇐⇒ |z| ≥ z1−α/2
→ Quelle est la probabilité de rejeter l’hypothèse nulle dans le cas où elle est vraie?
PH0 (rejeter H0) = PH0 (Z ∈ domaine de rejet)
= PH0 (|Z| ≥ z1−α/2)
= α
Le fait de rejeter une hypothèse nulle vraie s’appelle une erreur de première espèce. En
fixant un niveau pour notre test, on contrôle donc la probabilité de commettre une erreur
de première espèce: à chaque fois qu’on fait un test à 5%, on sait que si H0 est vraie
on n’aura que 5% de chance de la rejeter.
19
Hypothèse alternative
20
Puissance
On a vu que lorsqu’on fait un test statistique, on commet une erreur de première espèce
si H0 est vraie et qu’on la rejette, et que ce risque est contrôlé en fixant le niveau du
test.
Un autre type d’erreur qu’on est susceptible de commettre est de ne pas rejeter H0 dans
le cas où elle est fausse. Dans ce cas, on aura manqué de détecter un effet présent dans
la population. On appelle cette erreur une erreur de deuxième espèce.
De même qu’on s’est intéressé à PH0 (rejeter H0), on peut s’intéresser à
PH1 (ne pas rejeter H0), pour connaı̂tre le rique d’erreur de deuxième espèce. En
général, on considère plutôt 1 − PH1 (ne pas rejeter H0), que l’on appelle la puissance
du test. La puissance d’un test est la probabilité de détecter un effet lorsqu’il est présent.
On souhaite donc qu’elle soit aussi élevée que possible.
21
Mais PH1 (ne pas rejeter H0) n’est pas aussi simple à calculer que PH0 (rejeter H0)
car, contrairement à H0, H1 ne spécifie pas de valeur précise pour le paramètre d’intérêt,
elle dit juste qu’il est différent de µ0. La valeur de PH1 (ne pas rejeter H0), et donc de
la puissance, va dépendre de la vraie valeur du paramètre dans la population: plus µ sera
différent de µ0, plus la puissance sera élevée. Autrement dit, plus un effet est important,
plus il sera facile de le détecter.
D’autre part, la puissance dépendra de la taille de l’échantillon: étant donné un effet,
la probabilité de le détecter va dépendre de la précision de la mesure, et on sait que la
précision augmente avec la taille de l’échantillon.
En général, on considère le problème dans l’autre sens: on postule un certaine taille d’effet
scientifiquement intéressante, et on calcule la taille d’échantillon nécessaire pour avoir
une certaine puissance (i.e. une certaine probabilité de le détecter).
On ne considérera pas davantage ce problème dans ce cours.
22
2. Formalisme général d’un test statistique
On a vu qu’on peut mener une procédure de test statistique soit en calculant la p-value
et en la comparant au seuil, soit en calculant la valeur de la statistique de test sur
l’échantillon et en regardant si elle se trouve dans le domaine de rejet. Ces deux façons
de procéder sont tout à fait équivalentes.
Dans les deux derniers chapitres de ce cours, on introduira deux procédures de test
classiques, le test du chi carré et le t-test, en suivant l’approche suivante, en quatre
étapes:
• Hypothèses
• Echantillon
• Statistique de test
• Règle de décision
23
Dans l’exemple des poissons du lac, cela donne:
• Hypothèses
H0: µ = µ0 = 5 cm H1: µ 6= µ0
• Echantillon
• Statistique de test
Z = X̄−µ
√0
σ̂/ n
• Règle de décision
24
Comment se présente le test de la pièce en suivant ce formalisme?
→ La statistique de test est ici le nombre K de résultats P ile sur six lancers. K satisfait
en effet les deux propriétés essentielles d’une statistique de test:
• Elle permet de mesurer à quel point les observations s’éloignent deH0
• Sa distribution sous H0 est connue: sous H0, on a K ∼ B 6, 2 1 .
(C’est ce qu’on a utilisé, sans le dire, lors du calcul de la p-value pour ce test.)
On obtient donc:
• Hypothèses
H0: P (P ile) = 1
2 H1: P (P ile) 6= 1
2
• Echantillon
6 lancers de la pièce
• Statistique de test
K = Nombre de P ile
• Règle de décision
Rejeter H0 si K = 6 ou K = 0
Ce test s’appelle un test binomial. Dans le chapitre 11, nous verrons une autre procédure
de test que l’on peut utiliser pour ce type de données.
25
3. Intervalle de confiance
Comme mentionné plus haut, lorsqu’on mène une procédure de test statistique, on espère
souvent pouvoir rejeter l’hypothèse nulle, qui postule généralement la nullité d’un effet.
Imaginons par exemple qu’on teste un nouveau médicament contre l’hypertension en
comparant la diminution moyenne de tension artérielle dans deux groupes de patients,
les uns traités avec le nouveau médicament et les autres avec un médicament existant.
Dans cette situation on souhaite montrer que le nouveau médicament est plus efficace
que l’ancien. En notant µ1 et µ2 les diminutions moyennes dans le groupe nouveau et
le groupe ancien médicament, on aura:
Si sur l’échantillon on observe µ̂1 > µ̂2 et que le test rejette H0, on conclura que le
nouveau médicament est significativement meilleur que l’ancien.
Cependant, il nous manquera encore une information importante pour pouvoir décider
d’abandonner l’ancien médicament en faveur du nouveau: à quel point le nouveau
médicament est-il meilleur? Il nous serait utile de pouvoir donner une fourchette de
valeurs plausibles de la différence de diminution entre les deux groupes, d = µ1 − µ2.
Cette information nous est fournie par l’intervalle de confiance sur le paramètre d.
26
Nous avons vu qu’un test statistique va rejeter l’hypothèse nulle si les observations ne
plaident pas en sa faveur. Dans l’exemple des poissons, l’hypothèse que la taille moyenne
est de 5cm a été rejetée par le test. Quel aurait été le résultat si on avait considéré une
autre hypothèse nulle, par exemple H0 : µ = µ0 = 6cm?
Pour construire une fourchette de valeurs plausibles de µ, nous allons chercher toutes
les valeurs qui ne sont pas rejetées par le test.
27
Ces valeurs sont celles qui satisfont la relation
x̄ − µ
|z| = √ ≤ z0.975,
σ̂/ n
c’est à dire
x̄ − µ
−z0.975 ≤ √ ≤ z0.975.
σ̂/ n
En manipulant cette expression, on arrive à
σ̂ σ̂
x̄ − z0.975 √ ≤ µ ≤ x̄ + z0.975 √
n n
(v. développement à la page suivante). En conséquence, on définit l’intervalle de confiance
pour le paramètre µ comme
" #
σ̂ σ̂
IC = x̄ − z0.975 √ , x̄ + z0.975 √ .
n n
En remplaçant les symboles par les valeurs numériques, on obtient:
" √ √ #
20.3 20.3
IC = 7 − 1.96 √ , 7 + 1.96 √
30 30
= [5.39, 8.61]
28
Développement de la relation de la page précédente:
x̄ − µ
−z0.975 ≤ √ ≤ z0.975
σ̂/ n
⇐⇒
σ̂ σ̂
−z0.975 √ ≤ x̄ − µ ≤ z0.975 √
n n
⇐⇒
σ̂ σ̂
−x̄ − z0.975 √ ≤ −µ ≤ −x̄ + z0.975 √
n n
⇐⇒
σ̂ σ̂
x̄ + z0.975 √ ≥ µ ≥ x̄ − z0.975 √
n n
⇐⇒
σ̂ σ̂
x̄ − z0.975 √ ≤ µ ≤ x̄ + z0.975 √
n n
29
Dans l’exemple des poissons, on a donc obtenu
" #
σ̂ σ̂
IC = x̄ − z0.975 √ , x̄ + z0.975 √
n n
= [5.39cm, 8.61cm]
comme fourchette de valeurs plausibles de la taille moyenne des poissons du lac. On voit
que la valeur de 5cm ne fait pas partie de cette fourchette, ce qui est normal puisqu’on
a vu que l’hypothèse nulle H0 : µ = 5cm est rejetée par le test, et que la fourchette
contient toutes les valeurs NON rejetées (par exemple, elle contient la valeur 6cm).
Plus généralement, le lien entre intervalle de confiance et test statistique implique qu’un
intervalle de confiance donne le résultat du test statistique correspondant pour n’importe
quelle valeur µ0 du paramètre sous H0. En effet, si µ0 est à l’intérieur de l’IC, H0 :
µ = µ0 n’est pas rejetée; si µ0 est à l’extérieur de l’IC, H0 : µ = µ0 est rejetée.
Un IC fournit donc une idée de la précision avec laquelle un échantillon permet d’estimer
un paramètre: plus l’intervalle est étroit, plus la précision est grande. On voit que cette
précision dépend
• de la variabilité des données, estimée par σ̂: plus la variabilité est grande, plus la
précision est faible
• de la taille de l’échantillon n: plus n est grand, plus la précision est élevée 30
La largeur d’un intervalle de confiance dépend encore du degré de confiance que l’on
souhaite avoir. Dans ce qui précède, nous avons défini un intervalle de confiance en nous
basant sur un test avec un niveau de 5%. Si on avait utilisé un niveau de 1% on aurait
obtenu
" #
σ̂ σ̂
IC = x̄ − z0.995 √ , x̄ + z0.995 √ .
n n
En insérant z0.995 = 2.58 dans l’équation ci-dessus, on obtient l’intervalle
IC = [4.88cm, 9.12cm],
qui est plus large que le précédent.
Ce résultat est logique: un test au niveau 1% exige plus d’évidence qu’un test à 5% pour
donner un résultat significatif. Il est donc normal que les valeurs non rejetées (i.e. non
significatives) à 5% ne le soient pas non plus à 1%.
31
Propriété essentielle d’un intervalle de confiance
Reprenons la relation qui définit l’IC basé sur un test de niveau 5%:
σ̂ σ̂
x̄ − z0.975 √ ≤ µ ≤ x̄ + z0.975 √ .
n n
Dans cette expression, x̄ est la valeur observée de la variable aléatoire X̄. L’intervalle de
confiance que nous avons vu est donc en fait la valeur observée de l’intervalle aléatoire
" #
σ̂ σ̂
IC = X̄ − z0.975 √ , X̄ + z0.975 √ .
n n
On peut se demander quelle est la probabilité que cet intervalle contienne la vraie taille
moyenne µ. Autrement dit, que vaut
!
σ̂ σ̂
P X̄ − z0.975 √ ≤ µ ≤ X̄ + z0.975 √ ?
n n
32
En utilisant le développement de la p. 20 dans l’autre sens, on obtient
P X̄ − z0.975 √σ̂n ≤ µ ≤ X̄ + z0.975 √σ̂n
X̄−µ
= P −z0.975 ≤ σ̂/√ ≤ z0.975
n
≈ 0.95,
puisque le théorème central limite nous assure que
X̄ − µ
√ ∼ ˙ N (0, 1).
σ̂/ n
On obtient donc que la probabilité que la vraie taille moyenne µ se trouve dans cet
intervalle est de 95%.
Ce résultat rend d’autant plus évident le fait que cet IC doit être plus large que le
précédent, puisque la probabilité qu’il contienne la vraie valeur µ est plus élevée.
34
NB: Cette propriété de l’intervalle de confiance repose sur une approximation valable
pour des tailles d’échantillon suffisamment grandes (théorème central limite).
Le même problème se pose quant au niveau α du test qui a servi à définir l’IC: la
probabilité de rejeter l’hypothèse nulle lorsqu’elle est vraie vaudra α seulement si la taille
de l’échantillon est suffisamment élevée.
35
Méthode de Wald
Considérons encore l’intervalle de confiance à 95%
" #
σ̂ σ̂
IC = X̄ − z0.975 √ , X̄ + z0.975 √
n n
et remarquons (ou souvenons-nous) que sd(X̄), l’écart-type de l’estimateur X̄ est égal
à √σn , ce que l’on peut estimer par sd(
ˆ X̄) = √σ̂ .
n
Cette dernière formule est assez générale et s’applique à n’importe quel estimateur
asymptotiquement normal, i.e. dont la distribution s’approche de plus en plus d’une
distribution normale lorsque la taille de l’échantillon devient grande, comme c’est le
cas pour la moyenne arithmétique X̄. Comme la plupart des estimateurs utilisés en
statistique ont cette propriété, cette méthode peut presque toujours être utilisée (si la
taille de l’échantillon est suffisamment grande). Elle s’appelle la méthode de Wald, et
l’intervalle de confiance obtenu est appelé un intervalle de confiance de Wald.
36
De plus, en se souvenant que z0.975 = 1.96 ≈ 2, on obtient la formule approximative
suivante:
h i
ˆ X̄) , X̄ + 2 sd(
IC ≈ X̄ − 2 sd( ˆ X̄) .
37
Commentaire à propos de l’intervalle de confiance et de la
p-value
En règle générale un intervalle de confiance est plus informatif qu’une p-value. En effet,
un intervalle de confiance donne une idée de la valeur du paramètre d’intérêt, ce que ne
fournit pas la p-value. De plus, la p-value dépend beaucoup de la taille de l’échantillon.
On peut rejeter à peu près n’importe quelle hypothèse nulle en prenant un échantillon
suffisammenent grand, mais l’importance du résultat peut-être très faible au niveau
pratique.
Pour reprendre l’exemple des poissons, imaginons qu’on ait tiré un échantillon de
1’000’000 de poissons et trouvé l’estimation x̄ = 5.01 cm, avec la même variabilité
que précédemment, i.e. σ̂ 2 = 20.3 cm2. La p-value correspondante pour tester
H0 : µ = 5 cm est
!
x̄ − 5
P |Z| ≥ √ = P (|Z| ≥ 2.22) = 0.03
σ̂/ n
et on en déduit que la taille moyenne des poissons du lac est significativement supérieure
à 5 cm. A-t-on fait une importante découverte scientifique?
38
L’intervalle de confiance à 95% est ici de
" #
σ̂ σ̂
IC = x̄ − 1.96 √ , x̄ + 1.96 √ = [5.001 , 5.02].
n n
On voit donc que la différence avec 5 cm, quoique significative, est infime, et n’est
probablement d’aucun intérêt scientique.
39
Chapitre 11: Tests et intervalles de
confiance pour proportions
1
1. Test statistique pour une proportion
2
– Hypothèses
H0 : p = p 0 H1: p 6= p0
– Echantillon
– Statistique de test
3
Sous H0, on peut calculer la distribution de K.
Ex: H0: p = 0.4; n = 120
Distribution: K ∼ B(120, 0.4)
0.06
0.04
P(K=k)
0.02
0.00
0 20 40 60 80 100 120
k
p1 = 0.024 p2 = 0.017
0.00
0 20 40 60 80 100 120
k
5
Sous certaines conditions (grâce au théorème central limite), la distribution
de K est bien approximée par la distribution normale:
0.06
0.04
P(K=k)
0.02
0.00
0 20 40 60 80 100 120
k
6
Sous certaines conditions (grâce au théorème central limite), la distribution
de K est bien approximée par la distribution normale:
0.06
0.04
P(K=k)
0 20 40 60 80 100 120
k
6
A la place de K, on prend comme statistique de test:
K/n − p0
Z=q .
p0(1 − p0)/n
Sous H0, et sous les conditions d’application (v. p. suivante), Z a approximativement
une distribution N (0, 1).
7
Conditions d’application: il faut que n soit suffisamment grand pour que
l’approximation normale soit bonne. Or, plus p est extrême (proche de 0
ou de 1), plus n doit être grand. Concrètement, si n et p sont tels que
alors
K/n − p
q
p(1 − p)/n
a approximativement une distribution N (0, 1).
8
2. Intervalle de confiance pour une proportion
9
La relation (1) est satisfaite pour des valeurs de p situées entre
1
r !
pi = p̂ + c/2 − c2/4 + cp̂(1 − p̂)
1+c
et
1
r !
ps = p̂ + c/2 + c2/4 + cp̂(1 − p̂) ,
1+c
où
2
c = z1−α/2 /n et p̂ = k/n.
10
Au chapitre précédent, nous avons vu une méthode générale pour construire des
intervalles de confiance pour un paramètre θ, appelée la méthode de Wald. Elle se base
sur la valeur observée θ̂ de l’estimateur du paramètre et définit l’intervalle avec niveau
de couverture 1 − α comme
ˆ θ̂) , θ̂ + z1− α sd(
[θ̂ − z1− α sd( ˆ θ̂)],
2 2
ˆ θ̂) est une estimation de l’écart-type de θ̂.
où sd(
11
L’intervalle de Wald est plus simple mais moins précis que l’intervalle de
Wilson, qui fait moins d’approximations. Concrètemement, on ne l’utilisera
que lorsque
• 0.3 ≤ p̂ ≤ 0.7 et
• n ≥ 50.
Pour l’intervalle de Wald, il peut arriver que la formule de la page
précédente donne une valeur inférieure à 0 pour la borne inférieure ou
une valeur supérieure à 1 pour la borne supérieure. Il faut alors corriger
l’intervalle en mettant respectivement 0 ou 1 à la place de la borne qui
sort de l’intervalle [0,1]. L’intervalle de Wilson n’a pas ce problème, ses
bornes étant automatiquement comprises entre 0 et 1.
12
3. Test statistique pour deux proportions
13
– Hypothèses
H0 : p 1 = p 2 H1: p1 6= p2
– Echantillon
Règle de décision:
Rejeter H0 si |z| > z1−α/2 .
15
Les données peuvent être présentées de la façon suivante:
Caractère A
Echantillon Présent Absent Total
1 n11 n12 n1.
2 n21 n22 n2.
Total n.1 n.2 n
On peut démontrer que
2 n(n11n22 − n12n21)2
z =
n1.n2.n.1n.2
16
Au niveau des statistiques de test, on a la situation suivante:
Densité de Z sous H0:
P0(|Z|>z1−α2) = α
ϕ
− z1−α2 0 z1−α2
P0(Z2>χ21,1−α) = α
0 (z1− )2 = χ21,1−α
α
2
17
Exemple: On veut tester si la proportion de nouveaux nés dont le poids à
la naissance est inférieur à 2500g est différente dans les deux populations
suivantes:
– Age de la mère ≤ 20 ans
– Age de la mère > 20 ans
On prélève deux échantillons de taille 100 et on obtient la situation
suivante:
Poids à la naissance
Age Proportion de faibles
maternel ≤ 2500g > 2500g Total poids à la naissance
≤ 20 20 80 100 0.20 (= p̂1)
> 20 10 90 100 0.10 (= p̂2)
Total 30 170 200 0.15 (= p̂)
18
Calculs:
pˆ1 − pˆ2
z = q
p̂q̂(1/n1 + 1/n2)
0.2 − 0.1
= q
0.15 × 0.85 × (1/100 + 1/100)
= 1.98
n(n n − n n ) 2
11 22 12 21
z2 =
n1.n2.n.1n.2
200 × (20 × 90 − 10 × 80)2
=
(100 × 100 × 30 × 170)
= 3.92
19
Décision:
z > 1.96 = z0.975 et donc on rejette H0.
De façon équivalente:
z 2 > 3.84 = χ2
1,0.95 et donc on rejette H0.
2 n(n11n22 − n12n21)2
z = .
n1.n2.n.1n.2
1
Dans ce chapitre, nous allons considérer des variables quantitatives
continues et nous intéresser à leur moyenne.
2
• Hypothèses
H 0 : µ = µ0 H1: µ 6= µ0
• Echantillon
• Statistique de test
3
Sous H0 et sous les conditions d’application que les Xi sont indépendants et que
Xi ∼ N (µ, σ 2), i = 1, . . . n,
on peut montrer que T a une distribution t à n − 1 degrés de liberté, notée tn−1 .
Rappel: la distribution t est une famille de distributions dépendant d’un paramètre appelé
le nombre de degrés de liberté. comme le motre la figure ci-dessous, plus le nombre de
degrés de liberté est élevé, plus la distribution t s’approche de la distribution normale
standard.
Distribution t
0.4
t1
t2
t5
0.3
t10
t20
t30
densité
N(0,1)
0.2
0.1
0.0
−4 −2 0 2 4
t
4
Remarques:
→ Ce test est dit exact, car sous H0 et les conditions d’application la distribution de
la statistique de test est connue exactement et non approximativement comme dans les
chapitres précédents.
→ La différence avec la statistique de test que nous avons utilisée dans le chapitre 10 pour
les poissons du lac est que la variance est estimée en utilisant n − 1 au dénominateur
et non n.
→ Comme le nombre de degrés de liberté est égal à n − 1, on voit que pour des grandes
tailles d’échantillon la procédure de test décrite ici devient équivalente à celle du chapitre
10, où on utilisait la normale standard.
IC = [binf , bsup].
6
Et comme précédemment, on obtient le résultat suivant pour la probabilité que l’intervalle
de confiance contienne la vraie moyenne µ:
Comme
X̄ − µ
T = √ ∼ tn−1 ,
S/ n
on a que
!
X̄ − µ
P −tn−1 , 1−α/2 < √ < tn−1 , 1−α/2 = 1 − α,
S/ n
ce qui est équivalent à
√ √
P X̄ − tn−1 , 1−α/2 S/ n < µ < X̄ + tn−1 , 1−α/2 S/ n = 1 − α
| {z } | {z }
Binf Bsup
Et donc
P Binf < µ < Bsup = 1 − α :
la probabilité que l’intervalle de confiance contienne le vrai paramètre est de 1 − α.
7
Au chapitre 10, nous avons vu que l’intervalle de confiance basé sur la statistique de test
X̄ − µ0
Z = rP
n
i=1 (Xi −X̄)
2 √
n / n
avec la règle de rejeter H0 si
|z| > z1−α/2
avait un coefficient de couverture inférieur à 1 − α, même dans le cas où les données
ont une distribution normale.
8
La différence de largeur entre les IC normal et Student a pour base le fait que σ, l’écart
type des données, n’est pas connu et doit être estimé, ce qui représente une source de
variabilité supplémentaire. L’IC normal n’en tient pas compte (il serait exact si σ était
connu), alors que l’IC Student en tient compte.
Rappelons encore que le test de Student est exact si les données ont une distribution
normale. En pratique il convient donc de s’assurer que le modèle normal est approprié
pour décrire les données, par exemple au moyen d’un qq-plot.
9
Exemple: On se demande si la masse cérébrale moyenne µ dans une population donnée
est égale à la valeur moyenne pour l’humanité qui est de 1.5kg. On a mesuré la masse
cérébrale de 10 individus et obtenu les valeurs suivantes xi (en kg):
0.77 1.00 1.07 1.20 1.33 1.37 1.45 1.49 1.61 1.82
Le qq-plot indique que le modèle normal n’est pas trop mis en défaut:
Normal Q−Q Plot
●
1.8
1.6
●
Sample Quantiles
●
1.4
●
●
1.2
●
1.0
●
0.8
10
On Procède donc au test:
• Hypothèses:
H0: µ = µ0 = 1.5kg H1: µ 6= µ0
• Calcul de la statistique de test:
x̄ − µ0
t= √ .
s/ n
Avec
v
u n (x − x̄)2
uP
i
x̄ = 1.311, et s = t i=1 = 0.310,
n−1
on trouve
t = −1.930.
• Décision (pour un test au niveau 5%):
Comme |t| < tn−1,0.975 = 2.262, on ne rejette pas H0.
11
Pour avoir une idée de la précision avec laquelle on a estimé le poids moyen du cerveau
dans notre population, on construit un intervalle de confiance à 95%:
√ √
IC = [x̄ − tn−1 , 0.975 s/ n , x̄ + tn−1 , 0.975 s/ n]
= [1.09kg , 1.53kg],
et on constate que, conformément au résultat du test, la valeur de 1.5kg fait partie de
l’intervalle de confiance.
12
3. Tests statistiques pour deux moyennes
Di = Yi − Xi
et on teste
Di ∼ N (µ, σ 2), i = 1, . . . , n.
• Hypothèses
H 0 : µ1 = µ2 H1: µ1 6= µ2
• Echantillons
Tirage aléatoire de m individus dans la première et n individus dans la deuxième
population.
15
• Statistique de test
Différence standardisée entre les moyennes des échantillons:
D
T = , où
SD
v
2 2
s
t (m − 1)Sx + (n − 1)Sy
u
1 1u
D = X̄ − Ȳ et SD = + ,
m n (m − 1) + (n − 1)
avec comme d’habitude
v
m u m (X − X̄)2
uP
1 X i
X̄ = Xi et Sx = t i=1
m i=1 m−1
et de même pour Y .
T ∼ tm+n−2 ,
c’est-à-dire que T a une distribution t à m + n − 2 degrés de liberté.
16
• Règle de décision (pour un test de niveau α):
Rejeter H0 si |t| > tm+n−2 , 1−α/2 ,
où tm+n−2 , 1−α/2 est le quantile 1 − α/2 de la distribution t à m + n − 2 degrés
de liberté et t est la valeur observée de la statistique de test.
Lorsqu’on rejette H0, on dit que la différence de moyennes est significativement différente
de zéro, ou simplement que la différence de moyennes est significative.
17
4.Intervalle de confiance pour une différence de
moyennes
Soit Dpop = µ1 − µ2 la vraie différence entre les moyennes des
populations. Ci-dessus, On a testé H0: Dpop = 0. Pour construire un
intervalle de confiance, on teste d’autres valeurs de Dpop et on garde
toutes celles qui ne sont pas rejetées. On peut montrer que:
D − Dpop
T = ∼ tm+n−2 .
SD
On a donc que
−t
D − Dpop
P m+n−2 , 1−α/2
< < tm+n−2 , 1−α/2 = 1 − α,
SD
ce qui est équivalent à
P D − tm+n−2 , 1−α/2 SD < Dpop < D + tm+n−2 , 1−α/2 SD = 1 − α
18
Exemple: Déficit alimentaire et myopie.
Reprenons encore une fois les données de réfraction occulaire de singes rencontrées dans
le chapitre 1 et différentes séries d’exercice. Rappel: on se demande si le déficit alimentaire
protéique est associé à la myopie. Dans une étude publiée par Young, Leary, Zimmerman
et Strobel (1973), les chercheurs ont nourri un groupe de singes avec une diète à faible
contenu protéique et un autre groupe avec une diète à haut contenu protéique. Au bout
de plusieurs mois, ils ont mesuré la réfraction oculaire des singes. Voici un sous-ensemble
des données obtenues:
19
Les écarts types observés sont:
v
u Pn 2
x
t i=1(xi − x̄)
u
sx = = 2.165,
nx − 1
v
u Pny
u
i=1 (yi − ȳ)2
sy = t = 2.069,
ny − 1
ils ne sont donc pas trop différents. Voyons les qq-plots:
Niveau protéique faible Niveau protéique élevé
● ●
●
●
2
2
● ●
●● ●● ●
●● ●
Sample Quantiles
Sample Quantiles
● ●
●●● ●●●
●
●● ●●
●
0
0
●
●
−2
● ●
●
−2
−4
−4
−6
● ● ●
−2 −1 0 1 2 −2 −1 0 1 2
Theoretical Quantiles Theoretical Quantiles
Le modèle normal n’est pas tout à fait adéquat pour décrire ces données, même si
la plupart des observations sont alignées sur une droite. En utilisant une méthode de
génération numérique de données, on a cependant pu s’assurer que le niveau réel d’un
t-test à 5% avec des données distribuées de la sorte était proche de 0.05, de sorte que
l’on décide d’appliquer cette procédure à nos données.
20
On Procède donc au test:
• Hypothèses:
H0: µx = µy H1: µx 6= µy ,
où µx et µy sont les vraies réfractions occulaires moyennes dans les deux populations
de singes.
• Calcul de la statistique de test:
d
t= .
sD
Avec
d = x̄ − ȳ = −0.119,
v
(nx − 1)s2 2
s
x + (ny − 1)sy
u
1 1u
sD = + t = 0.700,
nx ny (nx − 1) + (ny − 1)
on trouve
t = −0.171.
• Décision (pour un test au niveau 5%):
Comme |t| < tnx+ny −2 , 0.975 = 2.030, on ne rejette pas H0.
21
Pour avoir une idée de la précision avec laquelle on a estimé la différence entre les
réfractions occulaires moyennes des deux populations, on construit un intervalle de
confiance à 95%:
22