Vous êtes sur la page 1sur 108

Statistiques 1

M1 BI-EEET-AETPF-NSA
M1/2015-2016 Module Statistique 1

2
Table des matières
1 Statistiques descriptives 7
1.1 Statistiques descriptives : introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.1 Les données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.2 Objectif des statistiques descriptives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.3 Typologie des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.4 Exercice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2 Statistiques descriptives univariées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.1 Synthèse de la distribution d'une série statistique . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.2 Représentations graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3 Statistiques descriptives bivariées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.3.1 Cas de deux variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2 Notions d'échantillonnage 21
2.1 Pourquoi l'échantillon ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2 Comment constituer un échantillon ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3 Erreur d'échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4 Utilisation d'un modèle probabiliste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.5 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.6 Exercice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3 Rappels de probabilité 25
3.1 Ce qu'il faudra retenir de ce chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2 Quelques dénitions préliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2.1 Expérience aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2.2 Variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.3 Réalisation d'une variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.4 Domaine de dénition d'une variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.3 Caractéristiques d'une variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3.1 Loi de probabilité ou distribution de probabilité . . . . . . . . . . . . . . . . . . . . . . . 27
3.3.2 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3.3 Espérance et variance (écart-type) d'une variable aléatoire . . . . . . . . . . . . . . . . . . 30
3.4 Indépendance et covariance de deux variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . 32
3.4.1 Variables aléatoires indépendantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.4.2 Covariance de deux variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.4.3 Coecient de corrélation linéaire de deux variables aléatoires . . . . . . . . . . . . . . . . 32
3.5 Modélisation mathématique : les lois classiques et le cas général . . . . . . . . . . . . . . . . . . . 33
3.5.1 Qu'est-ce qu'un modèle ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.5.2 Les distributions usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4 Estimation 39
4.1 Présentation de l'exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2 Démarche de l'estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2.1 Formalisation de l'estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2.2 Estimateur et estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2.3 Construction de l'intervalle de conance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3 Estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.3.1 Qualité de l'estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.3.2 Méthodes d'estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.4 Quelques estimateurs usuels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3
M1/2015-2016 Module Statistique 1

4.4.1 Estimation de la moyenne, variance connue . . . . . . . . . . . . . . . . . . . . . . . . . . 46


4.4.2 Estimation de la moyenne, variance inconnue . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.4.3 Estimation de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.4.4 Estimation d'une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

5 Tests 51
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.2 Démarche d'un test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.2.1 Formalisation d'un test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.2.2 Tester sans modèle ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.2.3 Principe d'un test paramétrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2.4 Que change l'hypothèse alternative ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.2.5 Risques d'erreur et puissance d'un test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.2.6 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.3 Principaux tests de comparaison à une valeur de référence à connaître . . . . . . . . . . . . . . . 59
5.3.1 Synthèse : comparaison d'une moyenne à une valeur de référence, variance connue . . . . 59
5.3.2 Exercice : comparaison d'une moyenne à une valeur de référence, variance inconnue . . . . 59
5.3.3 Comparaison d'une variance à une valeur de référence . . . . . . . . . . . . . . . . . . . . 61
5.4 Comparaison de deux populations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.4.1 Comparaison de deux moyennes, variances homogènes (méthode des lots) . . . . . . . . . 62
5.4.2 Comparaison de deux variances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5.4.3 Que se passe-t-il lorsque les échantillons sont appariés ? (méthode des couples) . . . . . . 66
5.5 Autres tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.5.1 Test de comparaison d'une proportion à une valeur de référence . . . . . . . . . . . . . . . 67
5.5.2 Test d'ajustement du Chi-deux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.5.3 Test du chi-deux d'indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.6 Lien entre intervalles de conance et tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

6 Analyse de la variance à un facteur 71


6.1 Présentation du problème et des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
6.1.1 La problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
6.1.2 Les données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
6.1.3 La structure du jeu de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
6.1.4 Quelques statistiques descriptives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
6.2 Exercice : Comparaison de la taille des oeufs chez les espèces esp1 et esp6 . . . . . . . . . . . . . 75
6.3 Modèle, estimation et vérication des hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.3.1 Modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.3.2 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
6.3.3 Prédiction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
6.3.4 Vérication des hypothèses du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
6.4 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6.4.1 Test global du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6.4.2 Test des paramètres du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
6.4.3 Coecient de détermination, estimation de la variance . . . . . . . . . . . . . . . . . . . . 87
6.5 Exercice : Choix des contraintes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
6.6 Comparaison deux à deux, test multiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
6.6.1 Intérêt de l'ANOVA par rapport au test de Student pour la comparaison de deux moyennes 91
6.6.2 Correction pour les tests multiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
6.7 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

7 Régression linéaire simple 95


7.1 Présentation du problème et des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
7.1.1 La problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
7.1.2 Les données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
7.1.3 Quelques statistiques descriptives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
7.2 Modèle, estimation et vérication des hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
7.2.1 Modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
7.2.2 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
7.2.3 Prédiction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
7.2.4 Vérication des hypothèses du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
7.3 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

4
M1/2015-2016 Module Statistique 1

7.3.1 Test global du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102


7.3.2 Coecient de détermination, estimation de la variance . . . . . . . . . . . . . . . . . . . . 103
7.4 Exercice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
7.5 Synthèse : régression linéaire simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
7.6 Synthèse : étude du lien entre deux variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

5
M1/2015-2016 Module Statistique 1

6
Chapitre 1

Statistiques descriptives

1.1 Statistiques descriptives : introduction


1.1.1 Les données
Un jardinier souhaite connaître les caractéristiques des gousses de quatre espèces diérentes de plantes
présentes sur son terrain. Il ramasse 252 gousses et relève sur chacune d'elles sa masse, sa masse sèche, sa taille,
son espèce et le nombre de graines de la gousse. Voici les données recueillies par le jardinier :
> head(mesures)
masse taille graines masse_sec espece
1 28.6 19.1 4 9.3 glycine blanche
2 20.6 14.8 3 7.7 glycine blanche
3 29.2 19.7 5 10.4 glycine blanche
4 32.0 21.1 7 11.5 glycine blanche
5 24.5 19.4 4 8.4 glycine blanche
6 29.0 19.5 4 10.3 glycine blanche
> str(mesures)
'data.frame': 252 obs. of 5 variables:
$ masse : num 28.6 20.6 29.2 32 24.5 29 28.9 18.2 7.9 15.5 ...
$ taille : num 19.1 14.8 19.7 21.1 19.4 19.5 18.9 14.6 10.2 14.6 ...
$ graines : num 4 3 5 7 4 4 4 2 1 2 ...
$ masse_sec: num 9.3 7.7 10.4 11.5 8.4 10.3 10.1 6.3 2.7 5.5 ...
$ espece : Factor w/ 4 levels "bignone","glycine blanche",..: 2 2 2 2 2 2 2 2 2 2 ...
Le jardinier cherche à caractériser dans leur ensemble les données qu'il a recueillies.

1.1.2 Objectif des statistiques descriptives


Les statistiques descriptives visent à étudier les caractéristiques d'un ensemble d'observations que l'on ap-
pelle échantillon, par exemple les mesures obtenues lors d'une expérience scientique. C'est l'étape préliminaire
à toute étude statistique. Il s'agit de prendre "contact" avec les observations, résumer l'information disponible,
mettre en évidence d'éventuelles tendances dans les données, situer une observation (un individu) parmi l'en-
semble des observations (les individus de l'échantillon) et ainsi identier d'éventuelles valeurs extrêmes et indi-
vidus atypiques.

Chaque caractéristique observée dans l'échantillon est appelée variable.

L'analyse statistique descriptive comprend communément deux types de représentation :

1. des valeurs numériques résumant l'échantillon,


2. des graphiques permettant de visualiser rapidement les principales caractéristiques des données.

On décrit d'abord les données en étudiant chacune des variables séparément, on parle de statistiques des-
criptives univariées (Section 1.2). On peut ensuite étudier deux variables simultanément, on met alors en ÷uvre
les statistiques descriptives bivariées (Section 1.3). Il est possible d'analyser conjointement plus de deux va-
riables, on fait alors appel aux outils de statistiques descriptives multivariées tels que l'Analyse en Composantes
principales (ACP), l'Analyse des Correspondances Multiples (ACM), . . . (hors programme).

7
M1/2015-2016 Module Statistique 1

1.1.3 Typologie des variables


Les outils graphiques et/ou numériques utilisés en statistique descriptive dépendent du type de données. On
distingue deux types de variables :
• les variables quantitatives : une variable est dite quantitative quand toutes ses valeurs possibles sont
numériques. Une variable quantitative sera dite discrète si elle prend un nombre ni (ou dénombrable)
de valeurs (par exemple, les valeurs entières). Elle sera dite continue si elle prend toutes les valeurs d'un
intervalle ni ou inni.
• les variables qualitatives : une variable est dite qualitative lorsque ses valeurs possibles sont des ca-
tégories et non des nombres. Les valeurs possibles d'une variable qualitative sont appelées modalités.
On distingue deux types de variables qualitatives : les variables qualitatives nominales et les variables
qualitatives ordinales. Les variables qualitatives nominales sont des variables pour lesquelles il n'y a
pas d'ordre entre les modalités. Par exemple, le sexe est une variable à deux modalités possibles : fémi-
nin ou masculin. Il n'y a pas d'ordre entre ces deux catégories : le sexe est bien une variable qualitative
nominale. Les variables qualitatives ordinales sont des variables qui contiennent un ordre. Ce serait le
cas par exemple du degré de satisfaction par rapport à un fournisseur, avec des modalités "très satisfait",
"satisfait", "insatisfait", "très insatisfait".
Remarque : Il arrive que les modalités d'une variable qualitative soient représentées par des chires. Par
exemple, il peut arriver de renseigner le sexe de cette façon : 0 (féminin), 1 (masculin). Attention, dans ce
cas, ces chires ne sont pas interprétables en tant que valeurs numériques. Aussi, calculer une moyenne ou une
variance n'aurait aucun sens.

1.1.4 Exercice
1. Quelle est la taille de l'échantillon recueilli par le jardinier ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2. Combien y a-t-il de variables ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3. Quelle est leur nature : qualitative, quantitative discrète ou quantitative continue ?

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

1.2 Statistiques descriptives univariées


1.2.1 Synthèse de la distribution d'une série statistique
Lorsqu'il s'agit de résumer l'information contenue dans les données recueillies, on utilise des graphiques et
des indicateurs numériques. Les principaux indicateurs utilisés sont :
• les indicateurs de tendance centrale ou indicateurs de position, qui informent sur l'ordre de gran-
deur des valeurs constituant la série ainsi que les positions où semblent se concentrer les valeurs de cette
série,

• les indicateurs de dispersion ou indicateurs de variabilité qui permettent de caractériser la répar-


tition des observations les unes par rapport aux autres ou encore autour d'une valeur centrale.

Série statistique
On appelle série statistique la suite des valeurs prises par une variable sur les individus observés (i.e. les
individus qui constituent l'échantillon). Si on note n le nombre d'individus observés, les valeurs de la variable
X seront notées x1 , x2 , . . . , xn (xi , étant la valeur de la variable X observée sur le ieme individu).

Une série statistique correspondant à une variable qualitative est souvent livrée sous la forme d'un tableau,
qui regroupe les eectifs des diérentes modalités (tableau de contingence), éventuellement rapporté à l'ef-
fectif total de l'échantillon observé (tableau de fréquences).

8
M1/2015-2016 Module Statistique 1

Voici les données du jardinier pour les espèces des gousses :

• sous forme de tableau de contingence

> table(mesures$espece)

bignone glycine blanche glycine violette laurier rose


70 54 56 72

• sous forme de tableau de fréquences

> prop.table(table(mesures$espece))

bignone glycine blanche glycine violette laurier rose


0.2777778 0.2142857 0.2222222 0.2857143

Une série statistique correspondant à une variable quantitative se présente dicilement sous la forme d'un
tableau réunissant les données brutes ou d'un tableau des eectifs, sauf si un grand nombre d'observations
partagent la même valeur de la variable d'intérêt.

Sur les données recueillies par le jardinier, on voit par exemple que pour les masses des gousses observées il
y a beaucoup de valeurs possibles alors que pour le nombre de graines par gousse, il y a 8 valeurs observées. La
série statistique correspondant au nombre de graines est facilement présentable sous forme de tableau, ce qui
n'est pas le cas pour la masse.

> mesures$masse
[1] 28.6 20.6 29.2 32.0 24.5 29.0 28.9 18.2 7.9 15.5 22.6 35.5 32.5 28.7 26.0 13.5 16.4
[18] 12.5 26.2 22.6 9.7 21.8 17.2 25.2 12.0 6.3 7.0 20.4 18.0 21.1 18.2 15.2 19.8 21.4
[35] 15.0 16.4 17.3 16.4 13.5 13.6 14.6 16.9 11.7 14.0 14.6 10.3 11.3 10.7 10.9 20.0 21.5
[52] 12.0 6.1 5.4 40.0 49.2 46.0 26.4 42.2 48.4 23.9 31.7 16.8 21.6 24.1 13.5 22.4 26.1
[69] 12.9 26.6 29.6 22.4 17.3 16.6 12.8 19.1 12.4 8.8 13.2 15.9 13.3 6.3 12.9 6.2 8.6
[86] 14.4 11.5 11.5 12.8 11.7 15.7 12.0 13.4 11.3 6.6 17.8 9.6 14.3 14.0 11.3 10.2 12.2
[103] 15.9 11.7 12.4 11.5 10.6 9.4 9.2 6.1 10.9 6.6 22.5 33.7 20.6 16.6 14.2 13.8 14.0
[120] 8.7 14.2 10.6 10.9 3.3 9.7 9.3 17.2 10.1 9.0 7.1 7.1 1.5 4.1 8.0 7.4 7.2
[137] 6.9 2.9 2.4 10.7 13.8 10.9 10.3 8.8 9.0 8.2 9.6 9.0 5.3 1.5 6.7 2.9 2.9
[154] 3.5 3.4 4.9 4.7 4.7 5.2 2.1 2.2 1.4 2.7 1.0 2.5 5.5 2.7 6.7 7.3 2.9
[171] 3.8 7.6 3.6 3.0 5.8 5.3 3.2 4.4 3.4 2.9 4.9 6.2 4.0 3.3 4.8 5.6 4.5
[188] 6.3 4.2 3.9 5.8 4.7 6.0 6.5 5.0 5.5 4.7 5.7 3.6 5.4 5.3 5.0 4.5 4.4
[205] 4.8 4.5 3.2 4.7 4.0 5.8 5.5 4.4 3.5 4.4 4.3 4.1 5.3 4.7 5.3 4.7 4.9
[222] 4.1 4.6 4.8 3.4 3.4 5.8 4.8 3.9 3.4 4.5 3.3 3.3 3.6 3.5 3.8 3.2 3.8
[239] 5.3 5.8 4.6 3.2 4.3 2.7 2.6 2.4 2.6 3.2 6.4 3.4 3.4 2.7

> mesures$graines
[1] 4 3 5 7 4 4 4 2 1 2 2 6 5 5 3 2 2 3 5 2 1 3 3 4 2 1 1 4 3 4 2 3 4 3 1 2 5 2 2 3 4 3 2
[44] 2 2 2 2 2 3 4 2 2 1 1 7 7 5 3 5 4 4 5 4 5 3 3 3 6 3 5 3 3 3 4 2 3 2 2 3 3 2 1 2 1 2 2
[87] 2 2 2 2 3 2 2 2 1 4 2 3 2 3 3 3 4 2 2 2 2 2 2 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
[130] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
[173] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
[216] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

> table(mesures$graines)

0 1 2 3 4 5 6 7
142 11 41 27 16 10 2 3

Variable qualitative
A) Tendance centrale

Mode

Le mode d'une série statistique est la valeur la plus fréquemment observée.

9
M1/2015-2016 Module Statistique 1

Remarques :

• Le mode est déni pour tous les types de variables, quantitatives et .


qualitatives

• Une distribution observée peut avoir plusieurs modes. Lorsqu'une distribution observée possède un seul
mode, on parle de distribution unimodale. Lorsqu'une distribution observée possède deux modes, on
parle de distribution bimodale.

B) Dispersion

Pour une variable qualitative, le tableau de contingence de la série statistique permet d'apprécier la
dispersion des observations.

Variable quantitative
A) Tendance centrale

Mode

Le mode (valeur la plus observée de la série statistique) est également déni pour les variables quantitatives.
Si la variable est une variable discrète, le mode s'obtient facilement. Si la variable est une variable continue, on
dénit une classe modale, c'est-à-dire un intervalle de valeurs où l'on retrouve le plus fréquemment des obser-
vations.

Moyenne

La moyenne arithmétique d'une série statistique {xi , i = 1, . . . , n} est dénie par :


n
1X
x̄ = xi
n i=1

Quelques remarques :

• Une moyenne ne se calcule que si les valeurs observées sont numériques .

• Une série ne possède qu'une seule et unique moyenne.


• Une moyenne est rarement une valeur observée de la série.
• La moyenne est très sensible aux valeurs extrêmes.

Eet sur la moyenne d'un changement d'échelle


On dénit la série statistique y obtenue à partir de la série x comme suit : y = ax + b. Exprimer la
moyenne de y (ȳ ) à partir de la moyenne de x (x̄).
...................................................................................................
Justication
...................................................................................................
...................................................................................................
...................................................................................................

 10 
M1/2015-2016 Module Statistique 1

Médiane

La médiane d'une série statistique numérique est une valeur, notée x1/2 , telle que dans la série
ordonnée correspondante, le nombre d'observations qui la précèdent est égal au nombre d'observa-
tions qui la suivent.

Une façon usuelle de calculer la médiane d'une série statistique serait :

• on ordonne la série x(1) , x(2) , ..., x(n) tel que x(1) ≤ x(2) ≤ ... ≤ x(n)
• si n est impair,
x1/2 = x( n+1 )
2

• si n est pair,
x( n2 ) + x( n2 +1)
x1/2 =
2

Quantiles

La médiane est un cas particulier de ce que l'on appelle quantile ou encore fractile. Le quantile
d'ordre p d'une série statistique numérique est la valeur xp telle qu'il y ait une proportion p des
observations qui soient inférieures ou égales à xp .

Pour calculer le quantile d'ordre p d'une série statistique, on peut utiliser une méthode similaire à celle
présentée précédemment pour la médiane. Les quantiles ne sont pas non plus forcément des données observées
de la série.

Exemples : les quartiles et les déciles.

B) Dispersion

Étendue

L'étendue d'une série statistique numérique est la diérence entre la plus grande et la plus petite
valeur de cette série :
E = x(n) − x(1)

Remarque : ce paramètre est sensible à la présence de valeurs extrêmes.

Étendue inter-quartiles

L'étendue inter-quartiles d'une série statistique numérique est la diérence entre le troisième
quantile et le premier quantile de cette série :

E = x3/4 − x1/4

Remarque : il correspond à la longueur de l'intervalle contenant les 50% des valeurs centrales de la série
d'observations.

 11 
M1/2015-2016 Module Statistique 1

Variance

La variance d'une série statistique numérique permet de mesurer la dispersion des valeurs de la
série autour de leur moyenne.

• La variance empirique est dénie par :


n n
1X 1X 2
s2emp x = (xi − x̄)2 = x − (x̄)2
n i=1 n i=1 i

• et la variance corrigée par :


n n
1 X 1 X 2 n
s2x = (xi − x̄)2 = x − (x̄)2
n − 1 i=1 n − 1 i=1 i n−1

Remarque : Les raisons pour lesquelles on utilise la variance corrigée plutôt que la variance empirique seront
données dans le chapitre consacré à l'estimation.

Eet sur la variance d'un changement d'échelle


On dénit la série statistique y obtenue à partir de la série x comme suit : y = ax + b. Exprimer la
variance de y (s2y ) à partir de la moyenne de x (s2x ).
...................................................................................................
Justication
...................................................................................................
...................................................................................................
...................................................................................................

Écart-type

L'écart-type est la racine carrée de la variance. De la même façon que précédemment, on dénit un
écart-type empirique et un écart-type corrigé.

• L'écart-type empirique est dénie par :


v v
u n u n
q u1 X u1 X
semp x = s2emp x = t (xi − x̄)2 = t x2 − (x̄)2
n i=1 n i=1 i

• et l'écart-type corrigé par :


v v
u n u n
p u 1 X u 1 X n
sx = 2
sx = t 2
(xi − x̄) = t x2i − (x̄)2
n − 1 i=1 n − 1 i=1 n−1

Remarque : L'écart-type a l'avantage de s'exprimer dans les mêmes unités que les observations. Il est donc
plus facile à interpréter que la variance.

Coecient de variation

Le coecient de variation d'une série statistique numérique est déni par :


sx
CV =

Remarques :

• Le coecient de variation permet d'apprécier la représentativité de la moyenne par rapport à l'ensemble


des données ainsi que l'homogénéité de la distribution.

• Le coecient de variation est une quantité sans unité. C'est pourquoi il est utilisé pour comparer les
dispersions relatives de deux séries statistiques, lorsqu'elles sont exprimées dans des unités diérentes.

 12 
M1/2015-2016 Module Statistique 1

Exercice

Les sorties R pour l'analyse descriptive numérique des données du jardinier sont fournies ci-dessous :
• pour les tailles des gousses
> library(pastecs)
> stat.desc(mesures$taille)
nbr.val nbr.null nbr.na min max range sum
252.0000000 0.0000000 0.0000000 4.8000000 27.0000000 22.2000000 3370.2000000
median mean SE.mean CI.mean.0.95 var std.dev coef.var
13.2000000 13.3738095 0.2308233 0.4545972 13.4264030 3.6642056 0.2739837
> summary(mesures$taille)
Min. 1st Qu. Median Mean 3rd Qu. Max.
4.80 11.00 13.20 13.37 15.30 27.00
> var(mesures$taille)
[1] 13.4264
> sd(mesures$taille)
[1] 3.664206
• pour les masses des gousses
> stat.desc(mesures$masse)
nbr.val nbr.null nbr.na min max range sum
252.0000000 0.0000000 0.0000000 1.0000000 49.2000000 48.2000000 2804.9000000
median mean SE.mean CI.mean.0.95 var std.dev coef.var
8.4000000 11.1305556 0.5670451 1.1167727 81.0281065 9.0015613 0.8087253
> summary(mesures$masse)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.00 4.50 8.40 11.13 14.60 49.20
> var(mesures$masse)
[1] 81.02811
> sd(mesures$masse)
[1] 9.001561

• pour le nombre de graines par gousse


> stat.desc(mesures$graines)
nbr.val nbr.null nbr.na min max range sum
252.0000000 142.0000000 0.0000000 0.0000000 7.0000000 7.0000000 321.0000000
median mean SE.mean CI.mean.0.95 var std.dev coef.var
0.0000000 1.2738095 0.1077315 0.2121728 2.9247297 1.7101841 1.3425744
> summary(mesures$graines)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.000 0.000 0.000 1.274 2.000 7.000
> var(mesures$graines)
[1] 2.92473
> sd(mesures$graines)
[1] 1.710184

4  Pour la taille des gousses :

(a) Retrouver les diérents indicateurs de position et de dispersion dans les sorties R ci-dessus.

. ..................................................................................................

. ..................................................................................................

. ..................................................................................................

. ..................................................................................................

. ..................................................................................................

. ..................................................................................................

(b) Commenter les résultats obtenus.

. ..................................................................................................

. ..................................................................................................

. ..................................................................................................

 13 
M1/2015-2016 Module Statistique 1

5  Commenter les résultats obtenus sur les autres variables.

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

Le jardinier trouve une autre gousse dont les caractéristiques sont ajoutées à l'échantillon. Cette gousse est
de taille 50mm. Voici les nouvelles statistiques descriptives sur la taille des gousses de l'échantillon.

> taille=c(mesures$taille,50)
> summary(taille)
Min. 1st Qu. Median Mean 3rd Qu. Max.
4.80 11.00 13.20 13.52 15.30 50.00
> var(taille)
[1] 18.67541
> sd(taille)
[1] 4.321505

6  Certaines statistiques descriptives sont modiées, d'autres pas. Commenter les changements impliqués par

l'ajout de cette nouvelle observation. On pourra rééchir plus spéciquement sur les cas de la médiane et

de la moyenne.

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

1.2.2 Représentations graphiques


Cas d'une variable qualitative

1. Diagramme en barres (ou diagramme en bâtons)


Un diagramme en barres représente chaque modalité de la variable d'intérêt par une barre
verticale dont la hauteur est proportionnelle à son eectif (ou à sa fréquence).

2. Diagramme circulaire (diagramme en secteurs ou diagramme "en camembert")


Sur un tel diagramme, chaque modalité de la variable d'intérêt est représentée par une portion
du disque telle que l'angle au centre soit proportionnel à sa fréquence observée dans l'échan-
tillon.

Exercice
Pour les données des espèces dont sont issues les gousses, nous obtenons le diagramme en barres et le
diagramme circulaire ci-dessous :

# Diagramme en barre des effectifs


barplot(table(mesures$espece))
# Diagramme en barre des fréquences
barplot(prop.table(table(mesures$espece)))
# Diagramme circulaire
pie(table(mesures$espece))

 14 
M1/2015-2016 Module Statistique 1

Diagramme en bâtons des eectifs Diagramme en bâtons des fréquences

70

0.25
60

0.20
50
40

0.15
30

0.10
20

0.05
10

0.00
0

bignone glycine blanche glycine violette laurier rose bignone glycine blanche glycine violette laurier rose

Diagramme circulaire

bignone
glycine blanche

glycine violette
laurier rose

7  Commenter les graphiques ainsi obtenus.

. .......................................................................................................

. .......................................................................................................

Cas d'une variable quantitative


On peut utiliser les outils graphiques propres aux variables qualitatives pour représenter une série
statistique numérique lorsque l'on a au préalable regroupé les valeurs possibles de la variable étudiée
en intervalles (classes). Si la variable d'intérêt est continue, le diagramme en bâtons est remplacé par
un histogramme.

• Histogramme
Un histogramme est constitué de rectangles juxtaposés dont la base correspond à l'amplitude
de chaque classe et dont la surface est proportionnelle à l'eectif de cette classe. L'histogramme
donne une idée de l'allure globale de la distribution de la variable d'intérêt. Il montre l'étalement
des données et apporte ainsi des renseignements sur la dispersion et sur les valeurs extrêmes.

• Diagramme en boîte (ou boîte à moustache)


Le diagramme en boîte est un graphique où sont représentées à la fois des caractéristiques de
position et des caractéristiques de dispersion de la série statistique. On y voit apparaître la
médiane, le premier et le troisième quartile, l'étendue inter-quartiles, ainsi que, s'il y en a, des
valeurs atypiques par rapport au reste de la distribution.

Exercice
On représente ci-dessous les distributions des variables masse, taille et graines du jeu de données récolté par
le jardinier.
par(mfrow=c(1,2))
hist(mesures$taille)
hist(mesures$taille,freq=F)

 15 
M1/2015-2016 Module Statistique 1

Histogram of mesures$taille Histogram of mesures$taille

0.00 0.02 0.04 0.06 0.08 0.10 0.12


60
50
40
Frequency

Density
30
20
10
0

5 10 15 20 25 5 10 15 20 25
mesures$taille mesures$taille

hist(mesures$masse,freq=F)
prop.table(table(mesures$graines))
barplot(prop.table(table(mesures$graines)))
title(main="Distribution of mesures$graines")

Histogram of mesures$masse Distribution of mesures$graines


0.06

0.5
0.4
0.04
Density

0.3
0.2
0.02

0.1
0.00

0.0

0 10 20 30 40 50 0 1 2 3 4 5 6 7
mesures$masse

par(mfrow=c(1,3))
boxplot(mesures$taille)
title(main="Taille")
boxplot(mesures$masse)
title(main="Masse")
boxplot(mesures$graines)
title(main="Graines")

8  Quelle est la diérence entre les deux histogrammes proposés pour la distribution observée de la taille des

gousses ?

 16 
M1/2015-2016 Module Statistique 1

Taille Masse Graines

50

7
25

6
40

5
20

30

4
15

3
20

2
10

10

1
5

0
0

. .......................................................................................................

9  Commenter les distributions observées des variables masse, taille et graines à partir de l'ensemble des

graphiques ci-dessus. Sont-elles unimodales/bimodales, symétriques/non symétriques ?

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

1.3 Statistiques descriptives bivariées


Lorsqu'on étudie le comportement de deux variables sur un même ensemble d'individus, on est d'abord
amené à s'interroger sur les liens qui existent entre elles d'un point de vue uniquement descriptif. Pour cela, la
démarche dépend du type des deux variables, mais nous ne verrons ici que le cas de deux variables quantitatives.

1.3.1 Cas de deux variables quantitatives


Représentation graphique

Quand les deux variables d'intérêt sont quantitatives, la représentation graphique utilisée est le nuage de
points. Ce type de graphique permet de donner une idée de la nature (tendance) de la relation entre les deux
variables, s'il en existe une.

 17 
M1/2015-2016 Module Statistique 1

Représentation numérique
Le coecient de corrélation est utilisé pour décrire numériquement la liaison entre
deux variables quantitatives. Il est déni par :
sxy
r=
sx sy

où sx et sy sont les écart-types des séries marginales pour les deux variables respective-
ment et sxy est la covariance de la série bivariée, à savoir :
n
1X
sxy = (xi − x̄)(yi − ȳ)
n i=1

Interprétation :

• un coecient de corrélation prend ses valeurs entre -1 et 1,

• un coecient de corrélation négatif indique un lien linéaire négatif entre les deux variables, c'est-à-dire
une tendance, lorsque les valeurs de l'une augmentent à ce que les valeurs de l'autre diminuent,

• un coecient de corrélation positif indique un lien linéaire positif entre les deux variables, c'est-à-dire une
tendance, lorsque les valeurs de l'une augmentent à ce que les valeurs de l'autre augmentent elles aussi,

• un coecient de corrélation proche de 1 en valeur absolue indique un lien très fort entre les deux variables
alors qu'un coecient de corrélation nul indique l'absence de lien linéaire entre les deux variables,

• un coecient de correlation proche de la valeur 0 n'indique pas nécessairement l'absence de lien entre les
deux variables.

Exercice
Nous nous intéressons au lien éventuel entre la taille et la masse des gousses ramassées par le jardinier. On
représente le nuage de points des tailles des gousses en fonction de leur masse pour l'ensemble de l'échantillon
puis par espèce. On calcule également les coecients de corrélation correspondants.

par(mfrow=c(1,1))
plot(mesures$masse,mesures$taille,col=mesures$espece)
> cor(mesures$taille,mesures$masse)
[1] 0.7520708
25
Mesures$taille
20
15
10
5

0 10 20 30 40 50
Mesures$masse

 18 
M1/2015-2016 Module Statistique 1

10  Commenter le graphique obtenu.

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

bign=which(mesures$espece=="bignone")
gb=which(mesures$espece=="glycine blanche")
gv=which(mesures$espece=="glycine violette")
laurier=which(mesures$espece=="laurier rose")
par(mfrow=c(2,2))
plot(mesures$masse[bign],mesures$taille[bign])
title(main="Bignone")
plot(mesures$masse[gb],mesures$taille[gb])
title(main="glycine blanche")
plot(mesures$masse[gv],mesures$taille[gv])
title(main="glycine violette")
plot(mesures$masse[laurier],mesures$taille[laurier])
title(main="Laurier rose")

Bignone glycine blanche


mesures$taille[bign]

mesures$taille[gb]
20
20
15

16
10

12
5

0 5 10 15 20 25 30 35 5 10 15 20 25 30 35
mesures$masse[bign] mesures$masse[gb]

glycine violette Laurier rose


mesures$taille[laurier]
mesures$taille[gv]

18
20

14
10

10

10 20 30 40 50 3 4 5 6
mesures$masse[gv] mesures$masse[laurier]

> cor(mesures$taille[bign],mesures$masse[bign])
[1] 0.9003257
> cor(mesures$taille[gb],mesures$masse[gb])
[1] 0.9734633
> cor(mesures$taille[gv],mesures$masse[gv])
[1] 0.9766664
> cor(mesures$taille[laurier],mesures$masse[laurier])
[1] 0.8407223

 19 
M1/2015-2016 Module Statistique 1

11  Commenter et interpréter l'allure des diérents graphiques.

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

12  Interpréter les valeurs des coecients de corrélation. Faire le lien avec les nuages de points représentés

ci-dessus.

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

 20 
Chapitre 2

Notions d'échantillonnage

2.1 Pourquoi l'échantillon ?


Une étude statistique est réalisée à partir d'un échantillon, mais on souhaite généralement en tirer des
conclusions au sujet d'un ensemble plus large d'individus que l'on appelle population. Cette population d'inté-
rêt est généralement beaucoup trop grande pour pouvoir obtenir des informations sur l'intégralité des individus
de la population, ou les mesures sont trop coûteuses, . . . d'où la nécessité de restreindre la collecte d'information
à un sous-ensemble de la population.

La pertinence des conclusions tirées au sujet de la population dépendent en premier lieu de la qualité de
l'échantillon choisi. L'échantillon doit avant tout être représentatif de la population d'intérêt, c'est-à-dire qu'il
doit avoir des caractéristiques presque identiques à celles de la population.

2.2 Comment constituer un échantillon ?


Il existe de nombreux moyens de réaliser un échantillon. Le plus souvent, les individus de l'échantillon sont
tirés au hasard dans la population d'intérêt - on parle d'échantillonnage aléatoire - an d'éviter de biaiser
systématiquement l'information collectée. Supposons que la population d'intérêt soit de taille N et que les
contraintes techniques et nancières ne permettent de travailler que sur un échantillon de taille n, avec n < N .
Tirer au hasard n individus parmi N ne mène pas à un échantillon unique. Il y a CN n
échantillons diérents
possibles selon cette méthode de tirage. Selon le tirage, les individus de l'échantillon, donc les observations de
la caractéristique d'intérêt, sont diérents. Cela implique que si l'on tire plusieurs échantillons selon la même
méthode d'échantillonnage dans une même population, on observera des diérences entre les estimations du
paramètre d'intérêt. On parle de uctuation d'échantillonnage.

2.3 Erreur d'échantillonnage


D'autre part, s'agissant d'un sous-ensemble de la population, l'échantillon ne donne accès qu'à une connais-
sance imparfaite de la population. Pour cette raison, l'estimation donnée par l'échantillon dière de la valeur
de la population. Cette erreur est appelée erreur d'échantillonnage.

2.4 Utilisation d'un modèle probabiliste


Pour extrapoler à la population des caractéristiques observées sur un échantillon, évaluer l'incertitude asso-
ciée aux estimations, on utilise un modèle probabiliste. Plus précisément, on associe à la population une loi de
probabilité, et l'échantillon est interprété comme la réalisation d'un tirage de variables aléatoires suivant la loi
de probabilité de la population. La notion de variable aléatoire et les lois de probabilité les plus courantes font
l'objet du chapitre suivant.

21
M1/2015-2016 Module Statistique 1

2.5 Synthèse
SYNTHÈSE/VOCABULAIRE :
Population : l'ensemble sur lequel porte l'étude.
Individus ou unités statistiques : les éléments qui constituent la population.
Échantillon : sous-ensemble d'individus obtenus à partir de la population. L'objectif est d'obtenir
une meilleure connaissance de la population à partir de l'étude du seul échantillon.

Caractère ou variable : caractéristique étudiée sur les individus d'une population.

2.6 Exercice
Pour chacun des énoncés, répondre aux questions suivantes :

• Dénir la population étudiée, l'individu statistique et l'échantillon.

• Quelle est (sont) la (les) variable(s) étudiée(s) et quel est leur type (qualitative, quantitative discrète ou
quantitative continue) ?

• Quel est (sont) le(s) paramètre(s) d'intérêt ?

1. On s'intéresse à des hommes de 50 à 69 ans suivant un régime alimentaire particulier. Ce régime alimen-
taire étant riche en matières grasses, les médecins souhaitent contrôler la cholestérolémie de ces patients.
Ils se basent sur un échantillon de 375 personnes parmi ces hommes de 50 à 69 ans et ont mesuré leur
taux de cholestérol. Le taux de cholestérol moyen estimé sur ces 375 individus est de 199.33 mg/dl. On
considère qu'un taux de cholestérol est normal lorsqu'il est inférieur à 200 mg/dl.

Population : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Individu statistique : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Echantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Variable(s) étudiée(s) : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. ......................................................................................................

Paramètre d'intérêt : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2. Lors d'un sondage électoral, on interroge 1000 électeurs : 52% de ces électeurs interrogés arment qu'ils
voteront pour le candidat A. On note πA la proportion des électeurs qui vote pour le candidat A dans la
population. On cherche à estimer πA .

Population : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Individu statistique : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Echantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Variable(s) étudiée(s) : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. ......................................................................................................

Paramètre d'intérêt : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3. Deux sociologues s'interrogent sur le temps passé quotidiennement devant la télévision par un adolescent
français. Après enquête sur un échantillon de 50 personnes, ils estiment à 3,2 heures le temps moyen passé
devant la télévision.

 22 
M1/2015-2016 Module Statistique 1

Population : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Individu statistique : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Echantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Variable(s) étudiée(s) : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. ......................................................................................................

Paramètre d'intérêt : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4. Un psychologue s'intéresse au temps de réaction à un stimulus chez des enfants atteints d'une certaine
aection. Il étudie un échantillon prélevé au hasard de 16 enfants atteints par l'aection et mesure pour
chacun d'entre eux son temps de réaction et observe sur cet échantillon un temps moyen de 1,1 secondes.
Il s'interroge maintenant sur la variabilité des temps de réaction.

Population : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Individu statistique : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Echantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Variable(s) étudiée(s) : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. ......................................................................................................

Paramètre d'intérêt : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5. Dans un ruisseau, vit une population d'écrevisses dont l'eectif total T est inconnu. On se propose d'es-
timer T . Pour cela, on pêche 512 écrevisses, on les marque d'un signe distinctif et on les rejette à l'eau.
Dans le lac, la proportion d'écrevisses ainsi marquées est alors π = 512
T . On attend quelques jours, délai
à partir duquel on suppose que les écrevisses (marquées et non marquées) se sont mélangées. On pêche
alors 328 écrevisses parmi lequelles on retrouve 34 écrevisses marquées.

Population : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Individu statistique : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Echantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Variable(s) étudiée(s) : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. ......................................................................................................

Paramètre d'intérêt : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6. Deux sociologues se demandent si les adolescents de 15 ans d'aujourd'hui consacrent moins de temps à
leurs devoirs qu'il y a 40 ans. Il y a 40 ans, une enquête indiquait que les adolescents de 15 ans consacraient
en moyenne 8,5 heures par semaine à leurs devoirs à la maison. Les deux sociologues réalisent aujourd'hui
la même étude sur un échantillon de 200 adolescents de 15 ans. Ils observent que ceux-ci consacrent en
moyenne 7,1 heures par semaine à leurs devoirs avec un écart-type de 1,1 heure.

Population : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Individu statistique : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Echantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Variable(s) étudiée(s) : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. ......................................................................................................

Paramètre d'intérêt : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

 23 
M1/2015-2016 Module Statistique 1

7. Une société souhaite mettre sur le marché un nouveau savon. Pour estimer le marché potentiel du nou-
veau produit, un sondage est eectué pour mesurer la consommation moyenne de savon dans la population
considérée comme la cible privilégiée de ce produit (femmes actives de plus de trente cinq ans et de moins
de 60 ans). La consommation mensuelle moyenne ressort à 3,73 onces (l'unité de mesure internationale
utilisée par la société) sur un échantillon de quarante personnes, avec un écart-type calculé de 1,6 once.

Population : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Individu statistique : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Echantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Variable(s) étudiée(s) : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. ......................................................................................................

Paramètre d'intérêt : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8. On cherche à estimer la probabilité d'occurence de certaines réactions allergiques à un médicament. Pour


cela, on se base sur un échantillon de 1000 personnes, et on compte le nombre de personnes allergiques
dans l'échantillon.

Population : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Individu statistique : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Echantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Variable(s) étudiée(s) : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. ......................................................................................................

Paramètre d'intérêt : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

 24 
Chapitre 3

Rappels de probabilité

3.1 Ce qu'il faudra retenir de ce chapitre


Ce chapitre est théorique et ne donnera pas lieu à des exercices sur table en séance de TD.

Pourtant, toutes les notions qui y seront introduites auront leur importance pour la suite du module, en
particulier :

• les notions de variables aléatoires et de réalisation d'une variable aléatoire, qui seront fondamentales pour
comprendre le concept de modélisation et pour distinguer ce qui concerne la population et l'échantillon
en théorie de l'estimation et en théorie des tests ;

• les principales lois de probabilité et surtout les lois normale, de Student, de Fisher et du Chi-deux car :

 la loi normale est très utilisée pour modéliser les phénomènes biologiques et la plupart des phénomènes
décrits dans les énoncés que nous regarderons en exercice,
 ces quatre lois sont très importantes pour comprendre la construction des intervalles de conance et
des tests statistiques au programme.

Il faut comprendre ce chapitre comme une boîte à outils pour la suite.

3.2 Quelques dénitions préliminaires


3.2.1 Expérience aléatoire
DEFINITION :
Une expérience est dite aléatoire si on ne peut pas prévoir à l'avance son résultat, et si répétée
plusieurs fois dans des conditions identiques, elle peut donner lieu à des résultats diérents.

Exemples :

• l'expérience qui consiste à jeter un dé et à regarder le numéro qui apparaît est l'exemple le plus classique
d'une expérience aléatoire. Quand on lance un dé, on ne sait pas à l'avance quel chire parmi 1, 2, 3, 4, 5, 6
on va obtenir et si on lance le même dé plusieurs fois, on n'obtient pas le même résultat.

• d'autres exemples plus concrets en biologie :

 l'expérience qui consiste à mesurer le taux de cholestérol d'un patient


 l'expérience qui consiste à regarder si un patient traîté avec un nouveau médicament guérit ou pas
 l'expérience qui consiste à regarder, parmi 5 patients traîtés avec un nouveau médicament, combien
de patients guérissent

25
M1/2015-2016 Module Statistique 1

3.2.2 Variable aléatoire


DEFINITION :
Une variable aléatoire X est le procédé qui relie l'expérience aléatoire à un nombre. X est la
caractéristique que l'on cherche à mesurer lors de l'expérience aléatoire. C'est quelque chose dont il
est impossible de connaître la valeur à l'avance.

Exemples :

• le résultat d'un lancer de dé est une variable aléatoire que l'on peut noter X
• le résultat de la mesure du taux de cholestérol sur le patient est une variable aléatoire que l'on peut noter
Y
• le résultat de la prise du nouveau médicament par le patient est une variable aléatoire que l'on peut noter
Z
• le résultat du comptage des individus guéris est une variable aléatoire que l'on peut noter T

3.2.3 Réalisation d'une variable aléatoire


DEFINITION :
Lorsqu'on eectue une expérience (aléatoire), la valeur obtenue pour la caractéristique (variable
aléatoire) d'intérêt X s'appelle une réalisation ou une observation et est notée x.

Exemples :
• on lance le dé, on tombe sur 3 ; x = 3 est une réalisation de la variable aléatoire X
• on mesure le taux de cholestérol du patient : 2g/L ; y = 2 est une réalisation de la variable aléatoire Y
• on administre un nouveau médicament à un malade, il guérit ; z ="guéri" est une réalisation de la variable
aléatoire Z
• on compte parmi les 5 patients le nombre de patients guéris, il y en a 3 ; t = 3 est une réalisation de la
variable aléatoire T
REMARQUE IMPORTANTE :
Les variables aléatoires et réalisations correspondantes seront toujours notées avec la même lettre,
avec pour convention que la variable aléatoire sera notée en majuscule et sa réalisation en minuscule.
Par exemple, pour la variable aléatoire X , la réalisation sera notée x, pour une variable aléatoire Y ,
la réalisation sera notée y , . . .

3.2.4 Domaine de dénition d'une variable aléatoire


Le domaine de dénition d'une variable aléatoire X est l'ensemble des valeurs que X peut prendre
après réalisation de l'expérience (ensemble des valeurs possibles pour X ). Le domaine de dénition
de X est noté DX .

Exemples :
• Le domaine de dénition de la variable aléatoire X résultat de l'expérience qui consiste à lancer une fois
un dé est l'ensemble des valeurs 1, 2, 3, 4, 5, 6.
• Le domaine de dénition de la variable aléatoire Y résultat de la mesure du taux de cholestérol du patient
est l'ensemble des réels positifs R+
• Le domaine de dénition de la variable aléatoire Z indiquant si oui ou non le patient est guéri est 'gué-
ri','non guéri'
• Le domaine de dénition de la variable aléatoire T comptant le nombre de patients guéris est 0, 1, 2, 3, 4, 5

Remarque :

On voit à travers les diérents exemples que le domaine de dénition est diérent selon la nature de la
variable aléatoire étudiée (cf cours de statistique descriptive : variable aléatoire qualitative, quantitative discrète,

 26 
M1/2015-2016 Module Statistique 1

quantitative continue). Pour une variable aléatoire qualitative, DX sera un ensemble discret correspondant à
l'ensemble des modalités possibles de cette variable. Dans le cas d'une variable quantitative discrète, DX sera
un ensemble ni (1, 2, 3, 4, 5, 6 dans l'exemple du dé) ou inni dénombrable de valeurs (l'ensemble des entiers
naturels lorsque l'expérience est un comptage). Dans le cas d'une variable quantitative continue, DX sera un
intervalle ouvert ou fermé (l'ensemble des réels, l'ensemble des réels positifs, l'ensemble des réels compris entre
0 et 1).

3.3 Caractéristiques d'une variable aléatoire


3.3.1 Loi de probabilité ou distribution de probabilité
Une variable aléatoire peut être synthétisée par sa moyenne et sa variance, mais ces indicateurs ne susent
pas à caractériser entièrement la variable aléatoire en question. En eet deux variables aléatoires X et Y peuvent
avoir même espérance et même variance sans pour autant avoir le même comportement.

Pour caractériser une variable aléatoire, on a besoin de connaître la manière dont se répartissent les valeurs
des diérents individus de la population étudiée (y a-t-il des réalisations qui se produisent plus ou moins souvent
que d'autres ?). Cette répartition est appelée distribution de la variable aléatoire.

Cette distribution de probabilité s'écrit diéremment selon que la variable aléatoire est discrète ou continue.

Distribution de probabilité d'une variable aléatoire discrète :

Soit J la taille du domaine de dénition de X , soient a1 , a2 , . . . , aJ les valeurs possibles de la variable


aléatoire X discrète et soient pj = P (X = aj ), j = 1, . . . , J l'ensemble des probabilités avec les-
quelles X prend les valeurs de DX . Alors, sa distribution de probabilité est l'ensemble des couples :
(aj , pj ), j = 1, . . . , J .

Exemples :
• lancer d'un dé : la distribution de probabilité de la variable aléatoire X correspondant au résultat du
lancer de dé est : (1; 1/6), (2; 1/6), (3; 1/6), (4; 1/6), (5; 1/6), (6; 1/6).
• guérison ou non du patient : la distribution de probabilité de la variable aléatoire Z indiquant si oui ou
non le patient guérit est : ('guéri',p),('non guéri',1-p)
• la distribution de probabilité de la variable aléatoire T comptant le nombre de patients guéris pourrait
être : (0; 0.1), (1; 0.2), (2; 0.1), (3; 0.3), (4; 0.1), (5; 0.2)

Propriété : on a la propriété suivante :


J
X
pj = 1
j=1

On peut facilement représenter la distribution d'une variable aléatoire discrète avec un diagramme en bâtons,
où en abscisse se trouvent les valeurs du domaine de dénition de X et où la hauteur des bâtons est donnée par
les probabilités pj .

Distribution de probabilité d'une variable aléatoire continue :

La distribution de probabilité d'une variable aléatoire X , continue, est donnée par sa fonction de
densité. C'est l'équivalent en continu des (aj , pj ) ci-dessus, adapté au domaine de dénition continu
d'une variable aléatoire continue. Une variable aléatoire continue prend une innité de valeurs et
chaque valeur prise isolément a une probabilité presque nulle, donc il n'est pas possible de fournir
des couples (aj , pj ) pour une telle variable. Il est plus simple de fournir une fonction qui reproduit
l'allure du "diagramme en bâtons" indiquant la répartition des valeurs possibles de X ; une telle
fonction est appelée fonction densité de la variable aléatoire X . La fonction densité de la variable
aléatoire X est notée fX .

 27 
M1/2015-2016 Module Statistique 1

0.30
0.25
0.20
0.15
0.10
0.05
0.00

0 1 2 3 4 5

Figure 3.1  Distribution de la variable aléatoire T comptant le nombre de patients guéris.


1.0
0.8
0.6
fY(y)
0.4
0.2
0.0

0.5 1.0 1.5 2.0 2.5 3.0


y (g/L)

Figure 3.2  Distribution de la variable aléatoire Y mesurant le taux de cholestérol des patients.

PROPRIETE :
On considère une variable aléatoire X continue, de densité fX . On a la propriété suivante :
Z
fX (x)dx = 1
DX

(Ici, l'intégrale est l'équivalent en continu de la somme qu'on a écrite pour la variable aléatoire
discrète.) Graphiquement, cette intégrale calcule l'aire sous la courbe représentative de fX .

Remarque : toute fonction ne peut donc pas dénir une densité de probabilité :
• il faut qu'elle respecte la propriété ci-dessus
• il faut que ce soit une fonction à valeurs positives ou nulles

 28 
M1/2015-2016 Module Statistique 1

3.3.2 Fonction de répartition


Comme la distribution de probabilité, la fonction de répartition d'une variable aléatoire quantitative la
caractérise entièrement.

DEFINITION :
La fonction de répartition d'une variable aléatoire X est notée FX et elle est dénie comme suit :

FX (x) = P (X ≤ x) , x ∈ R

Exercice : sur le graphique ci-dessous, représenter FY (y0 ), où y0 est le point représenté par une croix.
1.0
0.8
0.6
fY(y)
0.4
0.2

y0
0.0

0.5 1.0 1.5 2.0 2.5 3.0


y (g/L)

PROPRIETES D'UNE FONCTION DE REPARTITION :

• une fonction de répartition est dénie sur R et est à valeurs dans [0, 1] : c'est une proba-
bilité !
• une fonction de répartition est une fonction croissante au sens large

• limx→−∞ FX (x) = 0 et limx→+∞ FX (x) = 1


• la probabilité pour qu'une variable aléatoire X prenne une valeur comprise entre a et b (avec
a < b) peut se calculer à partir de la fonction de répartition de X :

P (a < X ≤ b) = FX (b) − FX (a)

• si la loi de X est symétrique par rapport à 0, alors, on aura pour x ∈ R FX (−x) = 1 −


FX (x). Cette propriété sera importante pour comprendre certaines étapes de la construction
d'intervalles de conance et de tests.

• (pour la culture personnelle) dans le cas où X est une variable aléatoire continue, sa fonction
densité fX et sa fonction de répartition FX sont étroitement liées puisque :
0
fX (x) = FX (x) , x ∈ R

et de façon équivalente, pour tout x ∈ R, on a :


Z x
FX (x) = fX (x)dx
−∞

Exercice : reprenons l'exemple du lancer de dé :

 29 
M1/2015-2016 Module Statistique 1

1. Quelles sont les valeurs de la fonction de répartition FX de la variable aléatoire X indiquant le résultat

du lancer de dé ?

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

2. Représenter graphiquement la fonction FX .

3.3.3 Espérance et variance (écart-type) d'une variable aléatoire

On peut synthétiser le comportement d'une variable aléatoire par sa moyenne (son espérance) et sa variance.
Encore une fois, moyenne et variance ne susent pas à caractériser entièrement le comportement d'une variable
aléatoire.

Espérance

DEFINITION :

L'espérance (ou moyenne "théorique") d'une variable aléatoire est la valeur prise en moyenne par
cette variable aléatoire, elle est donnée par :

• pour une variable aléatoire discrète :


J
X J
X
E(X) = µ = aj pj = aj P (X = aj )
j=1 j=1

• pour une variable aléatoire continue :


Z
E(X) = µ = xfX (x)dx
DX

(cette expression n'est pas nécessairement à retenir, un tel calcul intégral ne sera jamais de-
mandé)

 30 
M1/2015-2016 Module Statistique 1

PROPRIETES DE L'ESPERANCE : (à retenir)


• espérance d'une constante : E(a) = a, a ∈ R

• changement d'échelle : E(aX) = aE(X) où X est une variable aléatoire quelconque et a ∈ R

• espérance d'une somme : si X1 et X2 sont deux variables aléatoires, alors E(X1 + X2 ) =


E(X1 ) + E(X2 )
• changement d'origine : E(a + X) = a + E(X). En particulier, cette propriété nous dit que :
E(X − E(X)) = 0. L'opération qui consiste à retrancher à une variable aléatoire sa moyenne
théorique est appelée centrage, et cette opération sera importante dans la construction des
intervalles de conance et des tests où il est crucial de se ramener à des variables aléatoires de
moyenne nulle.

Variance
La variance (ou sa racine carrée l'écart-type) exprime à quel point les valeurs prises par une variable
aléatoire X sont dispersées autour de la moyenne théorique. Une grande variance indique une dispersion impor-
tante. A l'inverse, une variance nulle révèle que X est en fait non aléatoire.

DEFINITION :

La variance (théorique) d'une variable aléatoire X est dénie par :

V (X) = σ 2 = E (X − E(X))2 = E(X 2 ) − E(X)2


 

Elle se calcule donc comme suit :

• pour une variable aléatoire discrète :


J
X
V (X) = σ 2 = (aj − µ)2 pj
j=1

• pour une variable aléatoire continue :


Z
2
V (X) = σ = (x − µ)2 fX (x)dx
DX

PROPRIETES DE LA VARIANCE :
• variance d'une constante : V (a) = 0

• changement d'échelle : V (aX) = a2 V (X)

• changement d'origine : V (a + X) = V (X)

• variance d'une somme : . . . demande de connaître les notions de variables aléatoires indépen-
dantes et de covariance qui seront dénies dans la section suivante.

Centrage et réduction d'une variable aléatoire


DEFINITION :
On considère une variable aléatoire X d'espérance µ et d'écart-type σ . Centrer-réduire X consiste à
travailler sur la variable aléatoire Y dénie par :
X −µ
Y = .
σ
Exercice :

1. Quelle est l'espérance de Y ?

E(Y ) = . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

 31 
M1/2015-2016 Module Statistique 1

2. Quelle est la variance de Y ?

V (Y ) = . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.4 Indépendance et covariance de deux variables aléatoires


Ce sont des concepts importants pour :

1. la construction théorique d'intervalles de conance et de tests

2. comprendre la démarche de modélisation par un modèle de régression linéaire simple (dernier chapitre au
programme de ce premier module)

3.4.1 Variables aléatoires indépendantes


DEFINITION :
Deux variables aléatoires X1 et X2 sont indépendantes lorsque le fait de connaître la valeur prise
par X1 n'apporte aucune information sur la valeur qui sera prise par X2 et réciproquement.

Par exemple, le poids d'une souris et la couleur de son pelage sont indépendants alors que le poids d'une
souris et sa taille ne le sont probablement pas.

Il y a des "moyens mathématiques" de caractériser, montrer, rigoureusement l'indépendance de deux va-


riables aléatoires, mais l'objet du cours est plutôt de comprendre le concept d'indépendance.

La covariance et le coecient de corrélation linéaire permettent d'estimer la dépendance entre deux variables
aléatoires.

3.4.2 Covariance de deux variables aléatoires


DEFINITION :
On considère deux variables aléatoires X1 etX2 . La covariance entre X1 et X2 est dénie par :

cov(X1 , X2 ) = E [(X1 − E(X1 ))(X2 − E(X2 ))] = E(X1 X2 ) − E(X1 )E(X2 )

Remarque : Le calcul mathématique de la covariance demande de connaître la notion de distribution jointe.


On n'ira donc pas plus loin que l'expression ci-dessus. Le plus important est de comprendre qu'il s'agit d'une
mesure du degré de liaison entre deux variables.

PROPRIETES :
• Si deux variable aléatoire sont indépendantes, alors leur covariance est nulle. Mais la réciproque
est fausse !

• cov(X, X) = V (X)
• cov(aX + bY, cZ + dT ) = accov(X, Z) + adcov(X, T ) + bccov(Y, Z) + bdcov(Y, T )

• variance d'une somme

V (X1 + X2 ) = V (X1 ) + V (X2 ) + 2cov(X1 , X2 )

donc si X1 et X2 sont indépendantes, la variance de la somme se calcule comme la somme des


variances. Ce n'est valable que si X1 et X2 sont indépendantes !

3.4.3 Coecient de corrélation linéaire de deux variables aléatoires


DEFINITION :
On considère deux variables aléatoires X1 etX2 . Le coecient de corrélation linéaire entre X1 et X2
est dénie par :
cov(X1 , X2 )
ρ(X1 , X2 ) =
σ1 σ2

 32 
M1/2015-2016 Module Statistique 1

Remarque : Le coecient de corrélation linéaire est un indice compris entre -1 et 1 qui caractérise le lien
linéaire entre deux variables aléatoires . . .

3.5 Modélisation mathématique : les lois classiques et le cas général


3.5.1 Qu'est-ce qu'un modèle ?
Le point de départ de toutes les études statistiques qui nous intéressent est une modélisation. On se donne
un ensemble de lois et on considère que la loi régissant les observations se trouve dans cet ensemble. C'est
l'ensemble des lois choisies que l'on appelle modèle.

Plus précisément en statistique, on a des données x1 , x2 , . . . , xn (celles de l'échantillon) pour répondre à des
questions concrètes sur une population dont l'échantillon est extrait. Pour répondre à ces questions, on va alors
toujours supposer que ces données sont la réalisation d'un échantillon de variables aléatoires X1 , X2 , . . . , Xn
indépendantes et identiquement distribuées selon une certaine loi. Un modèle, c'est donc dire la chose suivante :

Les données x1 , x2 , . . . , xn de l'échantillon sont les réalisations de variable aléatoire X1 , X2 , . . . , Xn


indépendantes et identiquement distribuées selon une certaine loi d'espérance µ0 et de variance σ02 .

3.5.2 Les distributions usuelles


Les distributions de probabilité utilisées en biologie et dans bien d'autres domaines ne prennent pas n'importe
quelle forme. Certaines distributions sont assez fréquentes.
On présente maintenant les principales familles de lois utilisées en biologie et dans ce module. Par famille de
lois, on entend des formes de distributions particulières pour des contextes d'expérience donnés. Chaque famille
de loi est caractérisée par un ou deux paramètres. Selon la valeur de ces paramètres, la forme de la distribution
pourra changer : certaines valeurs possibles de la variable aléatoire seront alors plus fréquentes que d'autres.

Lois discrètes usuelles


1. loi de Bernoulli

• dénition : c'est la loi utilisée lorsqu'on considère une expérience dont le résultat ne peut prendre que
deux valeurs, appelées par convention, succès ou échec : un candidat est reçu ou non à un examen,
une pièce usinée est bonne ou défectueuse, guérison ou non d'un patient malade, . . . A une expérience
de ce type est associée une variable aléatoire X prenant la valeur 1 pour le succès et la valeur 0 pour
l'échec avec les probabilités respectives p et 1 − p, où p ∈ [0, 1] :

X ∼ B(1, p)

• domaine de dénition : DX = {0, 1}


• distribution : (1; p)(0; 1 − p)
• espérance p ; variance 1 − p
• quelques exemples :

p=0.2 p=0.5 p=0.7

● ● ●
0.8

0.8

0.8
P(X=x)

P(X=x)

P(X=x)
0.4

0.4

0.4
0.0

0.0

0.0

● ● ●

0 1 0 1 0 1
x x x

 33 
M1/2015-2016 Module Statistique 1

2. loi binomiale

• dénition : c'est la loi suivie par le résultat de plusieurs tirages aléatoires consécutifs et indépendants
lorsqu'il n'y a que 2 possibilités mutuellement exclusives de résultat à chaque tirage et que la pro-
babilité d'obtenir chacune est constante au cours de l'expérience. En d'autres termes, on réalise n
épreuves indépendantes de Bernoulli avec la même probabilité.
Soit X la variable aléatoire qui compte le nombre de succès au cours des n épreuves. X suit une loi
binomiale de paramètres n et p :
X ∼ B(n, p)

• domaine de dénition : DX = {0, 1, . . . , n} (le nombre nal de succès est nécessairement un nombre
entier compris entre 0 et n)
• distribution : (k; k!(n−k)!
n!
pk (1 − p)n−k )
• espérance np ; variance np(1 − p)
• quelques exemples :

n = 10 p = 0.5 n = 10 p = 0.2 n = 50 p = 0.2

0.15
0.00 0.10 0.20 0.30

0.00 0.10 0.20 0.30

● ● ●

0.10
P(X=x)

P(X=x)

P(X=x)
0.05
0.00
● ● ●

0 2 4 6 8 10 0 2 4 6 8 10 0 4 8 12 17 22
x x x

3. loi de Poisson

• dénition : c'est une loi de probabilité discrète permettant de décrire le comportement d'un nombre
d'événements, d'un comptage. La loi de Poisson est dénie au moyen d'un paramètre λ. Soit X une
variable aléatoire suivant une loi de Poisson :

X ∼ P(λ),

• domaine de dénition : DX = N
k
• distribution : (k; e−λ λk! )
• espérance λ ; variance λ
• quelques exemples :

λ = 1.5 λ = 10 λ = 50
0.15

0.06
0.00 0.10 0.20 0.30

● ● ●
0.10

0.04
P(X=x)

P(X=x)

P(X=x)
0.05

0.02
0.00

0.00

● ● ●

0 2 4 6 8 10 0 4 8 13 19 25 20 31 42 53 64 75
x x x

 34 
M1/2015-2016 Module Statistique 1

Lois continues usuelles


1. loi normale Soit X ∼ N (µ, σ 2 )

• domaine de dénition : R
• E(X) = µ
• V (X) = σ 2
• quelques exemples :

µ = −100 σ = 1 µ=0σ=1 µ = 0 σ = 10

0.04
0.0 0.1 0.2 0.3 0.4

0.0 0.1 0.2 0.3 0.4

0.02
f(x)

f(x)

f(x)
0.00
−104 −100 −98 −96 −4 −2 0 2 4 −30 −10 10 30
x x x

pointillés : densité de N (0, 1)

2. loi du chi-carré

• dénition : X1 , X2 , . . . , Xn n variable aléatoire indépendantes de même loi N (0, 1). Alors la variable
aléatoire U = X12 + X22 + . . . + Xn2 suit une loi du χ2 à n degrés de liberté notée χ2 (n)
• domaine de dénition : R+
• remarque : c'est la loi de l'estimateur de la variance dans le modèle normal
• quelques exemples :

ν=2 ν = 10 ν = 30
0.4

0.08

0.04
f(x)

f(x)

f(x)
0.2

0.04

0.02
0.00

0.00
0.0

0 5 10 20 30 0 5 10 20 30 0 10 30 50
x x x

3. loi de Student

• dénition : soit X ∼ N (0, 1) et soit U ∼ χ2 (ν), indépendantes, alors la variable aléatoire T =


X/ (U/ν) suit une loi de Student à ν degrés de liberté notée T (ν)
p

• domaine de dénition : R
• remarque : c'est la loi de l'estimateur de l'espérance dans le modèle normal lorsque la variance est
inconnue
• quelques exemples :

 35 
M1/2015-2016 Module Statistique 1

k=1 k = 10 k = 30

0.0 0.1 0.2 0.3 0.4


0.25

0.3
0.2
f(x)

f(x)

f(x)
0.15

0.1
0.05

0.0
−4 −2 0 2 4 −4 −2 0 2 4 −4 −2 0 2 4
x x x

pointillés : densité de N (0, 1)

4. loi de Fisher
• dénition : soit U1 ∼ χ2 (ν1 ) et soit U2 ∼ χ2 (ν2 ), indépendantes, alors la variable aléatoire F =
(U1 /ν1 )/(U2 /ν2 ) suit une loi de Fisher à ν1 et ν2 degrés de liberté notée F(ν1 , ν2 )
• domaine de dénition : R+
• quelques exemples :
ν1 = 1 ν2 = 30 ν1 = 5 ν2 = 30 ν1 = 30 ν2 = 5
1.5

0.6
0.6
1.0

0.4
0.4
f(x)

f(x)

f(x)
0.5

0.2
0.2
0.0

0.0

0.0

0 1 2 3 4 5 0 1 2 3 4 5 0 1 2 3 4 5
x x x

pointillés : densité de N (0, 1)

Exercice
Pour chacun des énoncés, écrire le modèle associé à l'expérience et indiquer le(s) paramètre(s) d'intérêt.
1. On s'intéresse à des hommes de 50 à 69 ans suivant un régime alimentaire particulier. Ce régime alimen-
taire étant riche en matières grasses, les médecins souhaitent contrôler la cholestérolémie de ces patients.
Ils se basent sur un échantillon de 375 personnes parmi ces hommes de 50 à 69 ans et ont mesuré leur
taux de cholestérol. Le taux de cholestérol moyen estimé sur ces 375 individus est de 199.33 mg/dl. On
considère qu'un taux de cholestérol est normal lorsqu'il est inférieur à 200 mg/dl.

Modèle : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

Paramètre(s) d'intérêt : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2. Lors d'un sondage électoral, on interroge 1000 électeurs : 52% de ces électeurs interrogés arment qu'ils
voteront pour le candidat A. On note πA la proportion des électeurs qui vote pour le candidat A dans la

 36 
M1/2015-2016 Module Statistique 1

population. On cherche à estimer πA .

Modèle : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

Paramètre(s) d'intérêt : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3. Deux sociologues s'interrogent sur le temps passé quotidiennement devant la télévision par un adolescent
français. Après enquête sur un échantillon de 50 personnes, ils estiment à 3,2 heures le temps moyen passé
devant la télévision.

Modèle : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

Paramètre(s) d'intérêt : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4. Un psychologue s'intéresse au temps de réaction à un stimulus chez des enfants atteints d'une certaine
aection. Il étudie un échantillon prélevé au hasard de 16 enfants atteints par l'aection et mesure pour
chacun d'entre eux son temps de réaction et observe sur cet échantillon un temps moyen de 1,1 secondes.
Il s'interroge maintenant sur la variabilité des temps de réaction.

Modèle : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

Paramètre(s) d'intérêt : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5. Dans un ruisseau, vit une population d'écrevisses dont l'eectif total T est inconnu. On se propose d'es-
timer T . Pour cela, on pêche 512 écrevisses, on les marque d'un signe distinctif et on les rejette à l'eau.
Dans le lac, la proportion d'écrevisses ainsi marquées est alors π = 512
T . On attend quelques jours, délai
à partir duquel on suppose que les écrevisses (marquées et non marquées) se sont mélangées. On pêche
alors 328 écrevisses parmi lequelles on retrouve 34 écrevisses marquées.

Modèle : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

 37 
M1/2015-2016 Module Statistique 1

Paramètre(s) d'intérêt : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6. Deux sociologues se demandent si les adolescents de 15 ans d'aujourd'hui consacrent moins de temps à
leurs devoirs qu'il y a 40 ans. Il y a 40 ans, une enquête indiquait que les adolescents de 15 ans consacraient
en moyenne 8,5 heures par semaine à leurs devoirs à la maison. Les deux sociologues réalisent aujourd'hui
la même étude sur un échantillon de 200 adolescents de 15 ans. Ils observent que ceux-ci consacrent en
moyenne 7,1 heures par semaine à leurs devoirs avec un écart-type de 1,1 heure.

Modèle : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

Paramètre(s) d'intérêt : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7. Une société souhaite mettre sur le marché un nouveau savon. Pour estimer le marché potentiel du nou-
veau produit, un sondage est eectué pour mesurer la consommation moyenne de savon dans la population
considérée comme la cible privilégiée de ce produit (femmes actives de plus de trente cinq ans et de moins
de 60 ans). La consommation mensuelle moyenne ressort à 3,73 onces (l'unité de mesure internationale
utilisée par la société) sur un échantillon de quarante personnes, avec un écart-type calculé de 1,6 once.

Modèle : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

Paramètre(s) d'intérêt : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8. On cherche à estimer la probabilité d'occurence de certaines réactions allergiques à un médicament. Pour


cela, on se base sur un échantillon de 1000 personnes, et on compte le nombre de personnes allergiques
dans l'échantillon.

Modèle : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

Paramètre(s) d'intérêt : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

 38 
Chapitre 4

Estimation

4.1 Présentation de l'exemple


Dans le cadre du suivi d'un banc de sardines, on souhaite connaître la longueur moyenne des adultes du
banc de sardine. Pour ce faire, on échantillonne au hasard 30 poissons dont on mesure la longueur. On obtient
les mesures suivantes, en cm :

> x
[1] 44.39 11.97 74.87 44.60 62.08 53.26 18.87 44.62 26.88 17.47

On peut décrire cet échantillon en utilisant des statistiques descriptives univariées :

> summary(x)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.76 17.70 27.26 28.45 39.42 56.69

9  Pouvez-vous donner la longueur moyenne des sardines du banc ? Si oui quelle est sa valeur ?

. .......................................................................................................

10  Pendant la semaine, on eectue chaque jour un nouvel échantillonnage de 10 sardines. On obtient les
valeurs suivantes :

> summary(x2)
Min. 1st Qu. Median Mean 3rd Qu. Max.
3.95 15.18 31.06 31.07 37.58 73.83
> summary(x3)
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.07 18.67 29.74 28.53 34.61 69.46
> summary(x4)
Min. 1st Qu. Median Mean 3rd Qu. Max.
19.49 29.67 37.83 39.44 50.96 60.46
> summary(x5)
Min. 1st Qu. Median Mean 3rd Qu. Max.
5.92 23.83 39.09 37.72 50.24 71.74
> summary(x6)
Min. 1st Qu. Median Mean 3rd Qu. Max.
9.27 30.43 36.45 44.56 58.59 89.85
> summary(x7)
Min. 1st Qu. Median Mean 3rd Qu. Max.
7.19 20.36 32.11 34.00 45.11 75.98

Comment interprétez-vous ces résultats ? Y a-t-il selon vous un problème dans l'échantillonnage ? . . . . . .

. .......................................................................................................

. .......................................................................................................

39
M1/2015-2016 Module Statistique 1

. .......................................................................................................

11  Selon vous peut-on calculer la longueur moyenne des sardines du banc ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. .......................................................................................................

12  Quelle(s) est (sont) selon vous la (les) statistique(s) descriptive(s) liée(s) à la longeur moyenne de la

population ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.2 Démarche de l'estimation

4.2.1 Formalisation de l'estimation

13  Notons Xi la variable aléatoire représentant la longueur du i-ème poisson. Ecrire le modèle associé à l'ex-

périence. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

14  D'après la problématique, quel est le paramètre d'intérêt ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Dans la suite de l'étude de l'exemple, nous considérons le premier jeu de données et supposons
que le paramètre de variance du modèle σ 2 est connu et que sa valeur est σ 2 = 18.

 40 
M1/2015-2016 Module Statistique 1

Le principe de l'estimation.

L'estimation permet de répondre à la question : Quelle est la valeur d'une caractéristique d'une
variable d'une population ? Dans l'exemple : Quelle est la valeur de la moyenne de la longueur des
poissons du banc ?

• Déterminer le paramètre à estimer


De manière générique, on nomme souvent ce paramètre θ. Ce paramètre est inconnu et ne
pourrait être accessible que si l'on échantillonnait la population entière.
Ex : la moyenne théorique du banc de poisson

• Échantillonner n individus et mesurer sur ces individus la variable d'intérêt. On nomme ces
mesures les observations que l'on note x1 , x2 , ..., xn .
Ex : xi , la longueur du ième poisson.

• Proposer un modèle décrivant le processus de tirage des observations. Le modèle représente


l'ensemble des hypothèses invoquées pour lier les données au paramètre à estimer θ.
Ex : x1 , ..., xn sont les réalisations de X1 , ..., Xn , n variables aléatoires (v.a.). Ces v.a. sont
supposées indépendantes et suivant une loi normale d'espérance µ et d'écart-type σ .

• Choisir un estimateur du paramètre θ. Un estimateur est une variable aléatoire. A partir du


modèle proposé, on peut calculer la loi de l'estimateur.

• Calculer une estimation de θ à partir des données et de la formule de l'estimateur.


• Calculer un intervalle de conance pour cette estimation en utilisant la loi de l'estimateur.

4.2.2 Estimateur et estimation


DEFINITION :
L'estimateur Tn d'un paramètre θ est une variable aléatoire qui est fonction des variables aléatoires
dont sont issues les données (ces v.a. sont décrites dans le modèle), i.e. Tn = f (X1 , .., Xn ). Un
estimateur, en tant que v.a. possède donc une loi (Tn ∼ L(θ)).
Pn
Xi
i=1
On considère Xn =
¯ .
n

15  X¯n est-elle une variable aléatoire ou une constante ? .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

16  Quelle est l'espérance de X¯n ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

17  Quelle est sa variance ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

18  Quelle est sa distribution ? Dépend-elle d'un paramètre inconnu ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

19  Pourrait-elle être un estimateur de µ ? Si oui, pourquoi ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

DEFINITION :
L'estimation est une réalisation de la variable aléatoire estimateur :

tn = f (x1 , . . . , xn )

 41 
M1/2015-2016 Module Statistique 1

20  Quelle est l'estimation de µ que l'on obtient à partir du jeu de données ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

21  Est-ce une variable aléatoire ou une constante ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

22  Quelle est sa formule ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

23  L'estimation obtenue à partir du deuxième jeu de données est-elle diérente ? Pourquoi ? . . . . . . . . . . . . . . .

. .......................................................................................................

4.2.3 Construction de l'intervalle de conance


L'estimation ponctuelle ne propose une seule valeur du paramètre d'intérêt (qui ne sera jamais exactement
égale à la vraie valeur), mais aucune information sur la précision de ce résultat. Il est important d'associer à
une estimation ponctuelle, une gamme de valeurs possibles : un intervalle de conance.

Choix d'un seuil de risque α


Il est nécessaire de xer a priori un seuil α, avec 0 ≤ α ≤ 1. α représente la probabilité avec laquelle la vraie
valeur ne se trouve pas dans l'intervalle de conance. On choisit le plus souvent un α faible pour diminuer ce
risque. La valeur la plus courante est α = 0.05.

24  Quel est l'intervalle qui inclut de manière certaine (avec une probabilité de 1), toutes les valeurs possibles

de l'estimation ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

25  Pourquoi ne choisit-on jamais α = 0 ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Statistique pivotale
DEFINITION :
Une statistique pivotale est une variable aléatoire, fonction des v.a. de l'expérience X1 , ..., Xn et
du paramètre du modèle θ, dont la loi est connue et ne dépend pas de θ.

X¯n − µ
On considère √ .
σ/ n

26  Est-ce une variable aléatoire ou une constante ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

27  Quelle est son espérance ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

28  Quelle est sa variance ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

 42 
M1/2015-2016 Module Statistique 1

29  Quelle est sa distribution ? Dépend-elle d'un paramètre inconnu ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Intervalle de probabilité et intervalle de conance


DEFINITION :
Soit B1 = f1 (X1 , . . . , Xn ) et B2 = f2 (X1 , . . . , Xn ) tels que B1 ≤ B2 , [B1 , B2 ] est l'intervalle de
probabilité 1 − α pour le paramètre θ, si Pr(B1 ≤ θ ≤ B2 ) = 1 − α.
On nomme 1 − α, le niveau de conance ou la probabilité de recouvrement.

X¯n − µ
30  Représenter la distribution de √ ci-dessus.
σ/ n
Placer sur cette représentation uα/2 et u1−α/2 les quantiles d'ordre α/2 et 1 − α/2 de la loi N (0, 1).

X¯n − µ
31  Pr(uα/2 ≤ √ ≤ u1−α/2 ) =. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
σ/ n

On remarque que :

X¯n − µ σ
uα/2 ≤ √ ≤ u1−α/2 ⇔ uα/2 √ ≤ X¯n − µ ≤ .....................................
σ/ n n
σ
⇔ uα/2 √ − X¯n ≤ −µ ≤ ..................................
n
σ
⇔ X¯n − u1−α/2 √ ≤ µ ≤ ..................................
n

[B1 , B2 ] étant l'intervalle de probabilité 1 − α pour le paramètre µ,

32  B1 =. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

33  B2 =. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

34  B1 et B2 sont-elles des constantes ou des v.a. ?.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

 43 
M1/2015-2016 Module Statistique 1

DEFINITION :
[b1 , b2 ], un intervalle de conance 1 − α pour θ est la réalisation de [B1 , B2 ], un intervalle de
probabilité de recouvrement 1 − α pour θ.

Ici,
σ σ
IC1−α (µ) = [x¯n − u1−α/2 √ ; x¯n + u1−α/2 √ ]
n n

> mean(x)
[1] 28.44533
> mean(x)+(18/sqrt(30))*qnorm(1-0.05)
[1] 33.85087
> mean(x)+(18/sqrt(30))*qnorm(0.05)
[1] 23.03979

35  Quelle est l'intervalle de conance de l'estimation [b1 , b2 ] ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

36  b1 et b2 sont-elles des constantes ou des v.a. ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

37  Sur quelle valeur est centré l'intervalle de conance ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

38  Toutes choses égales par ailleurs,

• si la taille d'échantillon augmente, la largeur de l'IC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

• si la variance de la population augmente, la largeur de l'IC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

• si le niveau de conance de l'IC augmente, la largeur de l'IC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

• si le risque α augmente, la largeur de l'IC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.3 Estimateurs
4.3.1 Qualité de l'estimateur
Exemple : une entreprise pharmaceutique entreprend un essai clinique pour estimer l'ecacité d'un nouveau
médicament contre le rhume. Ce produit est administré à un échantillon de n patients. A l'issue de la période
de traitement, le nombre de patients guéris est relevé.
Ici, la population étudiée est l'ensemble des personnes ayant un rhume ; l'échantillon est l'ensemble des n
patients de l'essai clinique ; la variable d'intérêt est la variable indiquant si oui ou non le patient est guéri et le
paramètre d'intérêt est p0 , la probabilité de guérison associée au médicament qui est inconnue.
On note X1 , . . . , Xn , les variables aléatoires mesurant si oui (1) ou non (0) les patients 1, . . . , n sont guéris.
On suppose que ces v.a. sont indépendantes et identiquement distribuées :

X1 , . . . , Xn ∼ B(1, p0 )
i.i.d.

On propose d'étudier les propriétés des trois estimateurs de p0 suivants :

 44 
M1/2015-2016 Module Statistique 1

n
1X
Tn(1) = X¯n = Xi , Tn(2) = X1 , Tn(3) = mode(X1 , . . . , Xn )
n i=1
Quel est le meilleur estimateur ? Pour obtenir une réponse objective à cette question on distingue deux types
d'erreurs, le biais et la variance d'un estimateur.

DEFINITION :
Le Biais de Tn , B(Tn ) :
B(Tn ) = E(Tn − θ)

représente l'erreur que l'on obtiendrait en moyenne si on eectuait un grand nombre de fois l'échan-
tillonnage et l'estimation.
Tn est un estimateur sans biais de θ si et seulement si E(Tn ) = θ

(1) (2) (3)


39  Parmi Tn , Tn et Tn quels sont les estimateurs sans biais ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. .......................................................................................................

DEFINITION :
La Variance de l'estimation : V(Tn )
Plus la variance est faible, plus l'estimation est précise.

(2)
40  Quelle est la variance de Tn ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

(1)
41  Quelle est la variance de Tn ?.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

42  Quel est le meilleur estimateur ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

DEFINITION :
L' écart quadratique moyen de Tn pour l'estimation de θ :

EQM (Tn ) = E (Tn − θ0 )2 = V (Tn ) + Biais(Tn )2 .


 

Tn − θ est l'erreur d'estimation. On cherchera donc à minimiser l'EQM.

4.3.2 Méthodes d'estimation


Comment obtient-on les formules des diérents estimateurs ?

Les deux méthodes les plus utilisées pour calculer des estimateurs sont celle du maximum de vraisemblance
et celle des moindres carrés.

• La vraisemblance L(x, θ0 ) des données x se calcule pour n'importe quelle valeur possible du paramètre
d'intérêt θ0 . Pour les données discrètes, elle correspond à la probabilité d'observer les données pour cette
valeur de θ0 .
L(x, θ0 ) = Pr(X1 = x1 , X2 = x2 , ..., Xn = xn |θ = θ0 )
Dans le cas de données continues, la vraisemblance est la densité de probabilité des données.
L'estimateur du maximum de vraisemblance, Tnmv , est la variable aléatoire qui maximise la valeur de la
vraisemblance des données observées.
Les propriétés du maximum de vraisemblance sont, quand n → ∞ :

 45 
M1/2015-2016 Module Statistique 1

 Tnmv → θ
 E(Tn ) → θ
 Tnmv suit une loi gaussienne.
• Dans la méthode des moindres carrés, la formule des estimateurs est obtenue en minimisant la somme
des carrés des écarts entre les données observées et les valeurs prédites par le modèle.(cf. cours sur la
régression linéaire).

4.4 Quelques estimateurs usuels


4.4.1 Estimation de la moyenne, variance connue
Cette situation a été complètement décrite dans la première section.
Le modèle est X1 , . . . , Xn ∼ N (µ, σ 2 ). σ est connue.
i.i.d.
Pn
Xi
i=1
L'estimateur de µ est Xn = ¯ et X¯n ∼ N (µ, σ 2 /n).
n
X¯n − µ
La statistique pivotale utilisée est √ qui suit une loi N (0, 1).
σ/ n
L'estimation ainsi obtenue est x¯n associée à l'intervalle de conance de niveau de conance 1 − α :
σ σ
IC1−α (µ) = [x¯n − u1−α/2 √ ; x¯n + u1−α/2 √ ]
n n

où u1−α/2 est le quantile d'ordre 1 − α/2 d'une loi N (0, 1).

Remarque : aucune commande directe R n'a été fournie pour illustrer cette estimation. En eet, R ne permet
pas l'estimation directe d'une moyenne lorsque la variance est connue. La plupart du temps en pratique, supposer
que la variance est connue n'est pas réaliste.

4.4.2 Estimation de la moyenne, variance inconnue


Exercice : On s'intéresse au même problème que précédemment, mais cette fois, la variance n'est pas connue.

> summary(x)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.76 17.70 27.26 28.45 39.42 56.69
> t.test(x)

One Sample t-test

data: x
t = 9.9998, df = 29, p-value = 6.602e-11
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
22.62751 34.26315
sample estimates:
mean of x
28.44533

Solution : Rédaction type


Le modèle associé à l'expérience est le même que précédemment. On noteX1 ,. . . ,Xn les variables aléatoires
correspondant à la longueur des n poissons. Ces variables aléatoires sont supposées indépendantes et identique-
ment distribuées selon une loi N (µ, σ 2 ). La variance σ 2 n'est pas connue. L'estimateur de l'espérance est la v.a.
Pn
Xi
i=1
suivante : Xn =
¯ et X¯n ∼ N (µ, σ 2 /n).
n
X¯n − µ Pn
La statistique pivotale utilisée est , où Sn−1
2
= n−11
i=1 (Xi − Xn ) est l'estimateur sans biais de
¯ 2
Sn−1
la variance (voir section 4.4.3). La statistique pivotale suit une loi Student à n − 1 degré de liberté, T (n − 1).

 46 
M1/2015-2016 Module Statistique 1

L'estimation ainsi obtenue est x¯n associée à l'intervalle de conance de niveau de conance 1 − α :
sn−1 sn−1
IC1−α (µ) = [x¯n − t(n − 1)1−α/2 √ ; x¯n + t(n − 1)1−α/2 √ ]
n n

avec t(n − 1)1−α/2 , le quantile d'ordre 1 − α/2 d'un loi de Student de paramètre n − 1. Si on considère un
risque α = 0.05, comme n = , t(n − 1)1−α/2 est la quantile d'ordre d'une Student à
degré de liberté.
L'estimation de la longueur moyenne des poissons est et a pour intervalle de conance à
[ , ].

A RETENIR :
Dans le modèle Gaussien, l'estimateur sans biais de l'espérance lorsque la variance est inconnue est
n
P
Xi
i=1
X¯n =
n
X¯n − µ Pn
Il est associé à la statistique pivotale , où Sn−1
2
= n−11
i=1 (Xi − Xn ) . Cette statistique
¯ 2
Sn−1
pivotale suit une loi de Student de degré de liberté n − 1. L'estimation x¯n est associée à l'intervalle
de conance :
sn−1 sn−1
IC1−α (µ) = [x¯n − t(n − 1)1−α/2 √ ; x¯n + t(n − 1)1−α/2 √ ]
n n

4.4.3 Estimation de la variance


Exercice : Dans le cadre d'une étude 1 réalisée entre 1961 et 1973 dans la maternité d'un hôpital d'Oakland
(Californie), le poids de 115 nourissons ont été mesurés. Après avoir estimé le poids moyen des enfants à la
naissance, on souhaite quantier la variabilité de poids qui peut exister entre les enfants à la naissance.

> summary(poids_naissance)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.770 2.925 3.360 3.389 3.760 6.350

> t.test(poids_naissance)

One Sample t-test

data: poids_naissance
t = 53.7013, df = 114, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
3.263773 3.513792
sample estimates:
mean of x
3.388783

Le modèle associé à l'expérience est le suivant : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


..............................................................................................................
..............................................................................................................
..............................................................................................................

Le paramètre d'intérêt est . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


L'estimateur sans biais de est la v.a. suivante :
n
2 1 X
Sn−1 = (Xi − X̄n )2
n − 1 i=1

1. J.L. Hodges, D. Krech et R. Crutcheld, Statlab : an Empirical Introduction to Statistics,

 47 
M1/2015-2016 Module Statistique 1

On sait que (cf cours lois de probabilités),


n−1 2
S ∼ χ2 (n − 1)
σ 2 n−1

43. n−1 2
σ 2 Sn−1 est-elle une statistique pivotale ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. .......................................................................................................

. .......................................................................................................

44. Notons χ2α/2 (n − 1) et χ21−α/2 (n − 1) les quantiles d'ordres α/2 et 1 − α/2 d'une distribution χ2 (n − 1).

> n=length(poids_naissance)
> n
[1] 115
> qchisq(0.975,n-1)
[1] 145.4413
> qchisq(0.025,n-1)
[1] 86.34249

Représenter la distribution de la statistique pivotale et placer sur ce graphique ces quantiles.

45. P (χ2α/2 (n − 1) ≤ n−1 2


σ 2 Sn−1 ≤ χ21−α/2 (n − 1)) =. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

(n−1) (n−1)
46. P ( χ2 S2
(n−1) n−1
≤ σ2 ≤ S2 )
χ2α/2 (n−1) n−1
=. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1−α/2

47. Si on note B1 et B2 , les bornes de l'intervalle de probabilité 1 − α,[B1 , B2 ] :

B1 =. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

B2 =. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

La formule de l'intervalle de conance 1 − α,[b1 , b2 ]

(n − 1) (n − 1)
IC1−α (σ 2 ) = [ s2n−1 ; 2 s2 ]
χ21−α/2 (n − 1) χα/2 (n − 1) n−1

 48 
M1/2015-2016 Module Statistique 1

> var(poids_naissance)
[1] 0.4579476
> sig2=var(poids_naissance)
> (n-1)/qchisq(0.975,n-1)*sig2
[1] 0.3589491
> (n-1)/qchisq(0.025,n-1)*sig2
[1] 0.6046389

Si on considère un risque α = 0.05, comme n = , χ21−α/2 (n − 1) est la quantile d'ordre


d'une χ2 à degré de liberté.
L'estimation de la variance des poids des enfants à la naissance est et appartient à intervalle
de conance à [ , ].

Remarque : l'intervalle de conance n'est pas centré sur la valeur estimée.

A RETENIR :
L'estimateur sans biais de la variance est
n
2 1 X
Sn−1 = (Xi − X̄n )2
n − 1 i=1

σ 2 Sn−1 qui suit une loi du χ de degré de liberté n − 1.


Il est associé à la statistique pivotale n−1 2 2
¯
L'estimation sn−1 est associée à l'intervalle de conance :
2

(n − 1) (n − 1)
IC1−α (σ 2 ) = [ s2 ; s2 ]
χ21−α/2 (n − 1) n−1 χ2α/2 (n − 1) n−1

4.4.4 Estimation d'une proportion


Dans le cadre d'une étude sociologique sur les jeunes et leurs valeurs, 1847 jeunes âgés de 11 à 15 ans ont
répondu à un questionnaire. On les a notamment interrogé sur la valeur la plus importante pour eux : "avoir un
travail intéressant", "avoir de l'argent", "faire ce qui me plaît". La valeur la plus plébiscitée fût "être heureux
en amour", choisie par 608 jeunes. Quelle est la proportion de jeunes pour lesquels cette valeur est la plus
importante ?
Le modèle associé à l'expérience est le suivant :. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
..............................................................................................................
..............................................................................................................
..............................................................................................................
..............................................................................................................
Le paramètre d'intérêt est . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L'estimateur sans biais de est la v.a. X/n.
Il existe plusieurs statistiques pivotales conduisant à diérents intervalles de conance pour cet estimateur.
Nous utiliserons la statistique pivotale suivante :
X − nπ
p
X(1 − X/n

Nous admettrons que si nπ et n(1 − π) sont susamment grands, on peut approximer la distribution de cette
v.a. par une loi normale centrée et réduite. On obtient ainsi une approximation de l'intervalle de conance de
l'estimation à un niveau conance α :
r r
x x x
x (1 − x (1 − nx )
IC1−α (π) = [ − u1−α/2 n n
); + u1−α/2 n ]
n n n n
> prop.test(608,1847)

1-sample proportions test


with continuity correction

data: 608 out of 1847, null probability 0.5

 49 
M1/2015-2016 Module Statistique 1

X-squared = 214.889, df =
1, p-value < 2.2e-16
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
0.3078600 0.3512229
sample estimates:
p
0.3291825

L'estimation de la proportion de jeunes considérant que "être heureux en amour" est la valeur la plus im-
portante est de et est associée à intervalle de conance à [ , ].

A RETENIR :
Dans le modèle Binomial, l'estimateur sans biais de la proportion est
X
n
X − nπ
Il est associé à la statistique pivotale p , qui suit approximativement une loi N (0, 1).
X(1 − X/n
L'estimation π̄ est associée à l'intervalle de conance :
r r
x x x
x n (1 − n x (1 − nx )
IC1−α (π) = [ − u1−α/2 ); + u1−α/2 n ]
n n n n

 50 
Chapitre 5

Tests

5.1 Introduction
On s'intéresse au taux dans le sang d'une certaine hormone. Cette hormone est aectée si l'on ingère une
substance dopante. Chez les sujets normaux, une certaine quantité de l'hormone est toujours présente avec une
concentration de 0.4 en moyenne. Chez les sujets dopés, la quantité d'hormone augmente et dépasse 0.4 en
moyenne. Un contrôle anti-dopage, mesurant le taux dans le sang de cette hormone a été eectué sur une équipe
de n = 16 sportifs. Les sportifs subissant exactement le même entraînement, il n'y a que deux possibilités : soit
ils ont tous été dopés, soit aucun ne l'a été. Les données recueillies sont les suivantes.

> data
sujet hormone
1 1 0.35
2 2 0.40
3 3 0.65
4 4 0.27
5 5 0.14
6 6 0.59
7 7 0.73
8 8 0.13
9 9 0.24
10 10 0.48
11 11 0.12
12 12 0.70
13 13 0.21
14 14 0.13
15 15 0.74
16 16 0.18

Peut-on dire que les sportifs testés sont dopés ?

5.2 Démarche d'un test


5.2.1 Formalisation d'un test
1. Notons Xi la variable aléatoire désignant le taux de l'hormone mesuré chez le i-ème sportif. Ecrire le

modèle associé à l'expérience.

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

51
M1/2015-2016 Module Statistique 1

2. D'après la problématique de l'étude, quel est le paramètre d'intérêt ?

. .......................................................................................................

Dans la suite de la Section 2., nous considérerons que le paramètre de variance du modèle σ 2
est connu et que sa valeur est σ 2 = 0.04.
FORMALISATION D'UN TEST
Dans un test statistique, on s'interroge toujours sur deux hypothèses. Formellement, on appelle :

• Hypothèse statistique : toute armation concernant une caractéristique de la population,


autrement dit, toute armation concernant un paramètre inconnu du modèle probabiliste posé.

• Hypothèse nulle : l'hypothèse parmi les deux d'un test selon laquelle on xe a priori la valeur
du paramètre d'intérêt à une valeur de référence. L'hypothèse nulle est toujours notée H0 .

• Hypothèse alternative : la deuxième hypothèse d'un test, elle doit traduire une in-
compatibilité avec l'hypothèse H0 , par exemple, son contraire. L'hypothèse alternative est
toujours notée H1 .

La démarche du test statistique consiste à choisir parmi H0 et H1 l'hypothèse la plus probable au


vu des observations contenues dans l'échantillon. Dans un test statistique, on dit qu'on teste H0
contre H1 .

Les hypothèses H0 et H1 les plus courantes :

• test bilatéral : H0 : {µ = µref } vs H1 : {µ 6= µref }


• test unilatéral : H0 : {µ = µref } vs H1 : {µ > µref }
• test unilatéral : H0 : {µ = µref } vs H1 : {µ < µref }
où µ est le paramètre du modèle sur lequel on s'interroge et µref est la valeur de référence à laquelle
le paramètre µ est comparé.

Remarque : Attention, il ne faut pas que H0 soit contenue dans H1 puisque H1 traduit une incom-
patibilité avec l'hypothèse H0 .
3  Ecrire l'hypothèse nulle H0 et l'hypothèse alternative H1 traduisant la question posée au sujet des sportifs.

H0 : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

H1 : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4  S'agit-il d'un test unilatéral ou bilatéral ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Comment choisir H0 et H1 ?
Il faut retenir que H0 :

• est une hypothèse qui formule une égalité (on va voir que c'est primordial pour la construction
du test, puisque toute la démarche du test s'eectue en considérant que l'hypothèse H0 est
vraie),

• est une hypothèse de prudence, qu'on ne rejettera que si on a susamment de preuves contre
elle. Dans un essai clinique, cette hypothèse de prudence pourrait être la non-ecacité du médi-
cament. On ne mettra le médicament sur le marché que si les données apportent susamment
de preuves pour montrer qu'il peut être ecace.

5.2.2 Tester sans modèle ?


Nous présentons dans ce paragraphe une approche de test naïve et nous expliquons en quoi cette approche
n'est pas appropriée pour tester H0 contre H1 .

 52 
M1/2015-2016 Module Statistique 1

Pour commencer, nous présentons quelques statistiques descriptives univariées sur des données des sportifs.

> summary(data$hormone)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.1200 0.1700 0.3100 0.3787 0.6050 0.7400

5  Quelle est l'estimation x̄ du taux d'hormone moyen ?

. .......................................................................................................

6  Selon vous, peut-on considérer que les sportifs sont dopés ou non dopés ? Justier.

. .......................................................................................................

. .......................................................................................................

La démarche ci-dessus, qui consiste à examiner la valeur de la diérence entre le paramètre estimé et
la valeur de référence, ne tient pas compte des uctuations d'échantillonnage. La prise en compte de
cette source de variabilité est pourtant nécessaire pour orienter la prise de décision en faveur de H0
ou de H1 . Le modèle statistique posé sur l'expérience permet de prendre en compte les diérentes
sources de variation dans les données. Une façon de rendre la démarche du test statistique plus
rigoureuse est donc de s'appuyer sur le modèle pour décider le rejet ou l'acceptation de l'hypothèse
H0 .

5.2.3 Principe d'un test paramétrique


Nous avons vu la nécessité de tenir compte des uctuations d'échantillonnage pour construire un test sta-
tistique. Lorsque l'on choisit d'utiliser un modèle statistique pour tenir compte de ces uctuations dans le test,
on parle de test paramétrique. Le test porte alors sur un ou plusieurs paramètres du modèle.

La règle de décision du test décrit la façon dont le résultat de l'expérience nous amène à choisir entre H0
et H1 . Elle se fonde sur une statistique de test et une région de rejet.

Statistique de test
STATISTIQUE DE TEST
Pour répondre à une question concernant le paramètre µ, il semble naturel de partir de l'estimateur
de la moyenne et d'évaluer si son comportement est compatible avec l'une des deux hypothèses du
tests (H0 ou H1 ).
La prise de décision s'eectue à partir d'une statistique de test construite à partir de l'estimateur
du paramètre d'intérêt et dont la distribution, donnée par le modèle, est parfaitement connue (ne
dépend pas de paramètres inconnus) sous H0 .

7  Rappeler l'expression de l'estimateur de la moyenne X̄n où n désigne la taille de l'échantillon.

. .......................................................................................................

8  Supposons que l'hypothèse H0 est vraie. Quelle est sa distribution ?

. .......................................................................................................

9  On considère la statistique
√ X̄n − µref
Tn = n .
σ

Supposons que l'hypothèse H0 est vraie. Quelle est la distribution de la statistique Tn ?

. .......................................................................................................

 53 
M1/2015-2016 Module Statistique 1

10  Cette distribution dépend-elle de paramètres inconnus ?

. .......................................................................................................

La distribution de Tn sous H0 est représentée Figure 5.1.

Figure 5.1  Distribution de Tn sous H0 .

A RETENIR : Statistique de test lorsque H0 est de la forme µ = µref à σ connu :

La variable aléatoire
√ X̄n − µref
Tn = n
σ
est la statistique de test pour tout test dont l'hypothèse nulle H0 est de la forme µ = µref dans
un modèle Gaussien à variance connue. Sa distribution sous H0 est une loi Gaussienne centrée et
réduite N (0, 1).

Remarque : On reconnaît la statistique pivotale de l'intervalle de conance qu'on construirait pour examiner
les valeurs possibles de µ (sauf que la vraie valeur du paramètre µ0 y est remplacée par la valeur que l'on
souhaite tester).

A RETENIR :
Une statistique de test doit avoir les qualités suivantes :

1. on doit pouvoir la calculer entièrement à partir des observations si on suppose l'hypothèse H0


vraie,

2. on doit en connaître la loi sous H0 .

C'est bien le cas ici. D'autre part, l'hypothèse H0 est une hypothèse de travail. Tout le test est
construit en supposant que cette hypothèse est vériée. En supposant qu'elle est vériée, on sait
caractériser le comportement de la statistique de test Tn . Sous H1 au contraire, on ne sait rien. On
sait simplement que le paramètre est diérent de la valeur supposée sous H0 .

 54 
M1/2015-2016 Module Statistique 1

Zone de rejet
Une décision basée sur une zone de rejet
La démarche fondamentale d'un test statistique consiste à supposer que l'hypothèse nulle H0 est
vériée. Ensuite, l'idée est d'accepter H0 si les données de l'échantillon ne sont pas en contradiction
avec H0 et de rejeter H0 sinon. Pour évaluer la compatibilité des observations avec l'hypothèse nulle,
on se sert de la statistique de test. Les valeurs les moins plausibles de Tn sous H0 se trouvent au delà
d'un seuil. La procédure consiste donc à rejeter l'hypothèse nulle quand la valeur de Tn dépasse ce
seuil. Les valeurs de Tn les moins compatibles avec l'hypothèse H0 constituent la zone de rejet du
test.

11  La distribution de Tn sous H0 est représentée Figure 5.1. Selon vous, la zone de rejet se situe-t-elle plutôt

au centre, plutôt à droite ou plutôt à gauche de cette distribution ?

. .......................................................................................................

Position du seuil (valeur critique)


La règle de décision, la largeur de la zone de rejet, dépendent d'une quantité α, appelée seuil/niveau
de signication du test. α représente la proportion de valeurs de la statistique de test qui mène-
raient, avec la procédure que l'on vient de décrire, au rejet de l'hypothèse nulle. Cette proportion de
valeurs sont jugées moins compatibles que les autres avec H0 . Cela ne signie pas qu'elles ne peuvent
pas se produire sous H0 , on les rejette simplement parce que ce sont les valeurs qui se produisent le
moins souvent sous H0 . Le choix de la valeur de α revient à l'utilisateur. Le plus souvent, on choisit
α = 5%, mais il arrive que des tests soient construits avec des niveaux de signication α à 1% ou 10%.

Cette procédure implique qu'il est possible de se tromper à l'issue du test en rejetant H0 à tort, et
que la probabilité de se tromper en rejetant H0 alors que H0 est vraie est α.

12  Sur le schéma ci-dessous qui représente la distribution de Tn sous H0 , représenter α et la zone de rejet du

test.

Figure 5.2  Distribution de Tn sous H0 .

13  Quelle est la valeur du seuil au delà duquel on rejetterait H0 ?

. .......................................................................................................

 55 
M1/2015-2016 Module Statistique 1

14  Enoncer la règle de décision du test.

. .......................................................................................................

. .......................................................................................................

P-value
Probabilité critique ou p-value :

Les logiciels utilisent une formulation diérente, mais équivalente, de la règle de décision du test.
Les logiciels utilisent une quantité appelée p-valeur ou encore probabilité critique. Notons tn la
valeur de la statistique de test Tn obtenue à partir des observations. La p-valeur est la probabilité
sous H0 que Tn prenne des valeurs au delà de tn : p − value = PH0 (Tn ≥ tn ) dans le cas du test
unilatéral étudié ici. Cette quantité quantie le risque que l'on prend en rejetant l'hypothèse H0 avec
les données observées. C'est un risque réel que l'on compare au risque admissible α. Pour contrôler
le risque α, la règle de décision consistera à rejeter H0 si la valeur de la p-value est inférieure à α.

Dans le problème du dopage, la statistique de test vaut 1.35.

15  La valeur de la statistique de test se trouve-t-elle dans la zone de rejet ?

. .......................................................................................................

16  Quelle est la conclusion du test ?

. .......................................................................................................

. .......................................................................................................

17  Quelle conclusion tire-t-on à partir de la p-value du test, ici 0.66 ?

. .......................................................................................................

. .......................................................................................................

18  Est-ce la même conclusion ?

. .......................................................................................................

Remarque : les deux règles de décision présentées (zone de rejet ou p-value) sont équivalentes.

5.2.4 Que change l'hypothèse alternative ?

19  Dans chacun des cas ci-dessous, représenter la zone de rejet du test, indiquer les aires sous la courbe des

diérentes zones (acceptation et rejet) ainsi que les valeurs critiques délimitant la zone de rejet du test.

On suppose que les tests sont réalisés avec un seuil de signication α.

Remarque : quelle que soit l'hypothèse alternative, on rejette toujours H0 si la p-value est inférieure à α.

 56 
M1/2015-2016 Module Statistique 1

H0 : µ = µref vs H1 : µ < µref H0 : µ = µref vs H1 : µ 6= µref

Zone de rejet Zone de rejet


........................................................ ........................................................
........................................................ ........................................................
........................................................ ........................................................
........................................................ ........................................................
Règle de décision Règle de décision

Rejet de H0 si tn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Rejet de H0 si tn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
........................................................ ........................................................
Rejet de H0 si p − value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Rejet de H0 si p − value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
........................................................ ........................................................

5.2.5 Risques d'erreur et puissance d'un test


Les deux types d'erreurs d'un test
LES DEUX TYPES D'ERREUR D'UN TEST :
Les tests statistiques sont des outils d'aide à la décision mais ne donnent pas accès à la vérité absolue
...

1. On a vu qu'on pouvait prendre une mauvaise décision à l'issue d'un test en faisant une erreur
qui consiste à rejeter H0 alors que H0 est vraie. Ce type d'erreur, qui est contrôlée dans la
construction du test, est appelée erreur de première espèce.
2. Il y a une autre erreur possible, appelée erreur de seconde espèce, qui consiste à conserver
H0 alors que H1 est vraie. Cette erreur n'est pas complètement contrôlée, et la probabilité
qu'une telle erreur se produise est notée β .

3. La puissance d'un test 1−β est la probabilité de rejeter H0 alors que H1 est vraie. Le calcul de
la puissance pour un test donné est intéressant car il permet de quantier l'aptitude d'un test
à rejeter une hypothèse H0 fausse (et c'est très important car la test est construit en supposant
H0 vraie !). Le calcul de la puissance n'est pas toujours facile en pratique.

On se place dans un cas de gure où l'hypothèse nulle est fausse. On souhaite tester l'hypothèse nulle
H0 : µ = µref contre son alternative H1 : µ > µref . Sur le schéma ci-dessous, on représente la distribution de la
statistique de test sous H0 et la vraie distribution de Tn (qui n'est autre qu'un cas particulier de distribution
sous H1 ).

20  Représenter sur le schéma les erreurs α, β ainsi que la puissance (1 − β ).

21  Quelle est la distribution de Tn sous H0 ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

22  Quelle est la vraie distribution de Tn ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

 57 
M1/2015-2016 Module Statistique 1

Figure 5.3 
Puissance d'un test : propriétés
A RETENIR :

23  Quel est le lien entre l'erreur de première espèce et l'erreur de seconde espèce ? Compléter les

phrases ci-dessous, en vous aidant au besoin du schéma de la Figure 5.3.

Si α diminue, β . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Représenter graphiquement cette situation.

Si α diminue, la puissance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Représenter graphiquement cette situation.

Implicitement, cela signie que le test est 


fondé sur un compromis entre les deux types d'erreurs
58 
possibles.
M1/2015-2016 Module Statistique 1

5.2.6 Synthèse
La démarche du test que nous venons de détailler et qui est résumée ci-dessous est identique quel que soit
le test considéré. Les seuls éléments qui changent sont :

• la statistique de test,

• sa distribution sous H0 ,

• la forme de la zone de rejet selon que le test formulé est bilatéral, unilatéral à gauche ou unilatéral à
droite.
PROCEDURE GENERALE D'UN TEST :
1. étape préliminaire : modélisation du problème

2. choix du seuil de signication du test α (généralement donné dans l'énoncé)

3. détermination des hypothèses à tester H0 et H1

4. choix d'une statistique de test Tn dont on connaît la loi sous H0

5. étude du comportement de Tn sous H0 et détermination de la zone de rejet


pour le niveau qu'on s'est xé

6. confrontation aux données et/ou calcul de la p-valeur du test sur les données

7. conclusion statistique : conservation ou rejet de l'hypothèse de départ H0 et commentaire


éventuel sur la p-valeur

8. conclusion pratique (indispensable : on ne fait pas un test statistique pour la beauté des ma-
thématiques, mais pour prendre une décision) : décision que l'on va prendre une fois éclairé
par le résultat statistique

5.3 Principaux tests de comparaison à une valeur de référence à


connaître
5.3.1 Synthèse : comparaison d'une moyenne à une valeur de référence, variance
connue
Cette situation a été complètement décrite dans la Section précédente. La variable aléatoire

√ X̄n − µref
Tn = n
σ
est la statistique de test pour tout test dont l'hypothèse nulle H0 est de la forme µ = µref dans un modèle
Gaussien à variance connue. Sa distribution sous H0 est une loi Gaussienne centrée et réduite N (0, 1).

Remarque : aucune sortie R n'a été fournie pour illustrer le résultat du test sur les données dans la section
précédente. En eet, R ne permet pas de faire un test de comparaison d'une moyenne à une valeur de référence
lorsque la variance est connue. La plupart du temps en pratique, supposer que la variance est connue n'est pas
réaliste.

5.3.2 Exercice : comparaison d'une moyenne à une valeur de référence, variance


inconnue
Exercice : On s'intéresse au même problème que précédemment, mais cette fois, la variance n'est pas connue.
Les statistiques descriptives univariées sont rappelées et les sorties R pour le test sont fournies ci-dessous. On
fournit également quelques quantiles.

> summary(data$hormone)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.1200 0.1700 0.3100 0.3787 0.6050 0.7400
> sd(data$hormone)

 59 
M1/2015-2016 Module Statistique 1

[1] 0.2357364
> t.test(data$hormone,mu=0.4,alternative="greater")

One Sample t-test

data: data$hormone
t = -0.3606, df = 15, p-value = 0.6383
alternative hypothesis: true mean is greater than 0.4
95 percent confidence interval:
0.2754355 Inf
sample estimates:
mean of x
0.37875
> qt(0.95,15)
[1] 1.75305
> qt(0.975,15)
[1] 2.13145
Solution : Rédaction type
Le modèle associé à l'expérience est le même que précédemment. On noteX1 ,. . . ,Xn les variables aléatoires cor-
respondant au taux d'hormone mesuré chez les n sportifs. Ces variables aléatoires sont supposées indépendantes
et identiquement distribuées selon une loi N (µ, σ 2 ). La variance σ 2 n'est pas connue. Les hypothèses testées
sont H0 : et H1 : . La statistique de test pour ce test est :

√ X̄n − µref
Tn = n
Sn−1
Pn Pn
où X̄n = n1 i=1 Xi est l'estimateur de la moyenne, Sn−1 2 1
= n−1 i=1 (Xi − X̄n ) est l'estimateur sans biais de
2

la variance. Sa distribution sous H0 est une loi de Student à n − 1 degrés de liberté T (n − 1). Il s'agit d'un test
unilatéral/ bilatéral. La zone de rejet pour ce test est
..............................................................................................................
..............................................................................................................

• La statistique de test vaut et se trouve/ ne se trouve pas dans la zone de rejet.


On accepte/rejette donc H0 au risque α = 5%, ce qui signie .
• OU La p-value vaut , elle est inférieure/supérieure à α. On accepte/rejette donc
H0 au risque α = 5%, ce qui signie .
23  Représenter la distribution de la statistique de test sous H0 et faire gurer sur ce graphique la zone de
rejet ainsi que la p-valeur du test.

A RETENIR :

La variable aléatoire
√ X̄n − µref
Tn = n
Sn−1
est la statistique de test pour tout test dont l'hypothèse nulle H0 est de la forme µ = µref dans
un modèle Gaussien à variance inconnue. Sa distribution sous H0 est une loi de Student à n − 1
degrés de liberté Tn−1 .

 60 
M1/2015-2016 Module Statistique 1

5.3.3 Comparaison d'une variance à une valeur de référence


Exercice :On veut contrôler la précision d'une balance au bout d'un an de fonctionnement. Si on pèse un
poids de 1g avec une balance neuve et bien réglée, on peut considérer que l'observation est la réalisation d'une
variable aléatoire suivant une loi normale d'espérance mathématique µ0 = 1g et d'écart-type σ0 = 1.2mg. Si au
bout d'un an de fonctionnement, on constate que l'écart-type est supérieur à 1.2mg, la précision de la balance
a diminué.
On eectue 10 pesées d'une masse étalon de 1g. Les résultats des pesées donnent : sn−1 = 5.85mg. Tester
au niveau α = 0.10 si la précision de la balance a diminué.

On fournit quelques quantiles d'une distribution du Chi-deux à 9 degrés de liberté.

> qchisq(0.95,9)
[1] 16.91898
> qchisq(0.975,9)
[1] 19.02277
> qchisq(0.025,9)
[1] 2.700389
> qchisq(0.05,9)
[1] 3.325113

Solution : Rédaction type


Le modèle associé à l'expérience est le suivant :
..............................................................................................................
..............................................................................................................
..............................................................................................................

Les hypothèses testées sont H0 : et H1 : . La statistique


de test pour ce test est :
Sn−1
Tn = (n − 1)
(σ ref )2
Pn Pn
où X̄n = n1 i=1 Xi est l'estimateur de la moyenne, Sn−1 2
= n−1 1
i=1 (Xi − X̄n ) est l'estimateur sans biais de
2

la variance. Sa distribution sous H0 est une loi du Chi-deux à n − 1 degrés de liberté χ2 (n − 1). Il s'agit d'un
test unilatéral/ bilatéral. La zone de rejet pour ce test est
..............................................................................................................
..............................................................................................................
..............................................................................................................

La statistique de test vaut et se trouve/ ne se trouve pas dans la zone de rejet.


On accepte/rejette donc H0 au risque α = 5%, ce qui signie .

24  Représenter la distribution de la statistique de test sous H0 et faire gurer sur ce graphique la zone de
rejet ainsi que la p-valeur du test.

 61 
M1/2015-2016 Module Statistique 1

A RETENIR :

La variable aléatoire
Sn−1
Tn = (n − 1)
(σ ref )2
est la statistique de test pour tout test dont l'hypothèse nulle H0 est de la forme σ = σ ref dans
un modèle Gaussien. Sa distribution sous H0 est une loi du Chi-deux à n − 1 degrés de liberté χ2n−1 .

Remarque : R ne fait pas non plus les tests de comparaison d'une variance à une valeur de référence.

5.4 Comparaison de deux populations


5.4.1 Comparaison de deux moyennes, variances homogènes (méthode des lots)
Exercice : Le coucou est un oiseau qui pratique le parasitisme de couvée. Les parents coucous ne s'occupent
pas de leur progéniture : couvaison des ÷ufs ou soins et alimentation des oisillons. La femelle coucou pond ses
÷ufs dans le nid d'oiseaux d'autres espèces qui s'occupent la plupart du temps de ses ÷ufs comme des leurs.
De nombreux comportements et caractères chez les coucous semblent favoriser ce parasitisme : la femelle gobe
un ÷uf du nid qu'elle parasite, une vitesse élevée de ponte, une date d'éclosion précoce... Il a été montré que les
coucous pondent des ÷ufs très petits comparativement à la taille des adultes. La question qui a motivé l'étude
suivante était de déterminer si la taille des ÷ufs pondus par les coucous pouvait varier en fonction de l'espèce
hôte du nid dans lequel ils avaient été pondus. On a échantillonné 31 ÷ufs de coucou dans diérents nids de
deux espèces hôte, notées ROBIN et Wren. On a mesuré la taille de chaque ÷uf (le diamètre de l'÷uf en mm).
On se demande si la taille des ÷ufs dière selon l'espèce de l'hôte. Le jeu de données est fourni ci-dessous.
> coucou1
esp taille
1 ROBIN 21.05
2 ROBIN 21.85
3 ROBIN 22.05
4 ROBIN 22.05
5 ROBIN 22.05
6 ROBIN 22.25
7 ROBIN 22.45
8 ROBIN 22.45
9 ROBIN 22.65
10 ROBIN 23.05
11 ROBIN 23.05
12 ROBIN 23.05
13 ROBIN 23.05
14 ROBIN 23.05
15 ROBIN 23.25
16 ROBIN 23.85
17 WREN 19.85
18 WREN 20.05
19 WREN 20.25
20 WREN 20.85
21 WREN 20.85
22 WREN 20.85
23 WREN 21.05
24 WREN 21.05
25 WREN 21.05
26 WREN 21.25
27 WREN 21.45
28 WREN 22.05
29 WREN 22.05
30 WREN 22.05
31 WREN 22.25

25  Ecrire le modèle associé à l'expérience.

 62 
M1/2015-2016 Module Statistique 1

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

26  Ecrire l'hypothèse nulle H0 et l'hypothèse alternative H1 du test traduisant le problème posé.

H0 : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

H1 : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Lorsque l'on compare deux moyennes à partir de deux échantillons indépendants, la statistique de test est
diérente selon que les variances dans les deux populations sont égales ou non. Dans ce module, nous n'étudierons
que le cas de variances homogènes, c'est-à-dire que l'on supposera les deux variances égales.
A RETENIR :
La statistique de test pour la comparaison de deux moyennes dans le cas Gaussien à partir d'échan-
tillons indépendants (H0 : µ1 = µ2 ) est donnée par :

D
q ∼ T (n1 + n2 − 2)
1 1 H0
Sn1 +n2 −2 n1 + n2

(n1 −1)S 2 +(n2 −1)S 2


où D = X̄n1 − Ȳn2 , Sn2 1 +n2 −2 = X,n1 −1
n1 +n2 −2
Y,n2 −1
est l'estimateur de la variance commune
aux deux populations avec SX,n1 −1 et SY,n2 −1 les estimateurs sans biais de la variance dans chacune
2 2

des populations.
Sous H0 , cette statistique de test suit une loi de Student à n1 +n2 −2 degrés de liberté (T (n1 +n2 −2)).

27  Quelle est la zone de rejet pour le test formulé ci-dessus ?

. .......................................................................................................

. .......................................................................................................

Les sorties R correspondant à ce test sont fournies ci-dessous ainsi que quelques quantiles de la distribution de
Student à 29 degrés de liberté.

> t.test(coucou1$taille~coucou1$esp,var.equal=T)

Two Sample t-test

data: coucou1$taille by coucou1$esp


t = 5.633, df = 29, p-value = 4.378e-06
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.9203528 1.9696472
sample estimates:
mean in group ROBIN mean in group WREN
22.575 21.130

> qt(0.95,29)
[1] 1.699127
> qt(0.975,29)
[1] 2.04523

 63 
M1/2015-2016 Module Statistique 1

28  Quelle est la valeur de la statistique de test ?

. .......................................................................................................

29  Cette valeur se trouve-t-elle dans la zone de rejet ?

. .......................................................................................................

30  Quelle est la valeur de la p-value ?

. .......................................................................................................

31  Que peut-on en conclure ?

. .......................................................................................................

. .......................................................................................................

32  Représenter la distribution de la statistique de test sous H0 et faire gurer sur ce graphique la zone de

rejet ainsi que la p-valeur du test.

5.4.2 Comparaison de deux variances


Le test précédent repose sur une hypothèse forte qui est l'hypothèse d'homogénéité des variances entre les
deux populations. On ne se lance donc pas à l'aveugle dans un test de comparaison de deux moyennes. L'hypo-
thèse d'égalité des variances doit être vériée au préalable, sauf si on spécie clairement dans l'énoncé que l'on
peut supposer les variances égales. Comprenons bien que réaliser le test ci-dessus lorsque l'hypothèse n'est pas
vériée peut mener à des prises de décision malheureuses . . .

33  Formuler l'hypothèse nulle H0 et l'hypothèse alternative H1 du test qui permettrait de vérier l'homogé-

néité des variances.

H0 : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

H1 : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

A RETENIR :
La statistique de test pour le test d'homogénéité des variances est la variable aléatoire :
2
SX,n 1 −1
Tn = 2
SY,n2 −1

où SX,n
2
1 −1
et SY,n
2
2 −1
sont les estimateurs sans biais de la variance dans chacune des populations.
Sous H0 (hypothèse d'homogénéité des variances), cette statistique suit une loi de Fisher à n1 − 1 et
n2 − 1 degrés de liberté (F(n1 − 1, n2 − 1)).

 64 
M1/2015-2016 Module Statistique 1

34  Quelle est la zone de rejet pour le test formulé ci-dessus ?

. .......................................................................................................

. .......................................................................................................

Les sorties R correspondant à ce test sont fournies ci-dessous.

> var.test(coucou1$taille~coucou1$esp)

F test to compare two variances

data: coucou1$taille by coucou1$esp


F = 0.8473, num df = 15, denom df = 14, p-value = 0.7519
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.2872795 2.4498909
sample estimates:
ratio of variances
0.8472796

35  Quelle est la valeur de la statistique de test ?

. .......................................................................................................

36  Quelle est la valeur de la p-value ?

. .......................................................................................................

37  Que peut-on en conclure ? Pouvait-on faire l'hypothèse d'homogénéité des variances pour comparer les

moyennes des ÷ufs ? ?

. .......................................................................................................

. .......................................................................................................

38  Représenter la distribution de la statistique de test sous H0 et faire gurer sur ce graphique la zone de

rejet ainsi que la p-valeur du test.

Remarque : si l'hypothèse d'homogénéité des variances n'est pas vériée, le test de comparaison des moyennes
est possible mais la statistique de test et sa distribution sous H0 sont diérentes. Le test de comparaison des
moyennes à variances égales est toujours plus puissant en situation d'homogénéité des variances. C'est pourquoi
il est toujours préférable de considérer les variances égales lorsque les variances ne sont pas signicativement
diérentes.

 65 
M1/2015-2016 Module Statistique 1

5.4.3 Que se passe-t-il lorsque les échantillons sont appariés ? (méthode des couples)
Exercice : Neuf malades présentant des symptômes d'anxiété reçoivent un tranquillisant. On évalue l'état
des malades avant et après traitement par un indice que le médecin traitant calcule d'après les réponses à une
série de questions. Si le traitement est ecace, l'indice doit diminuer. Les valeurs observées de cet indice sur les
neuf patients sont les suivantes :

Patient 1 2 3 4 5 6 7 8 9
Avant 1.83 0.5 1.62 2.48 1.68 1.88 1.55 3.06 1.3
Apres 0.88 0.65 0.59 2.05 1.06 1.29 1.06 3.14 1.29

Le traitement est-il ecace ?

39  Peut-on supposer comme précédemment que les échantillons sont indépendants ? Pourquoi ?

. .......................................................................................................

. .......................................................................................................

40  On note Xi la variable aléatoire mesurant l'indice d'anxiété du patient i avant traitement et Yi la variable

aléatoire mesurant l'indice d'anxiété du patient i après traitement. Ecrire le modèle correspondant à

l'expérience.

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

41  Formuler l'hypothèse nulle H0 et l'hypothèse alternative H1 correspondant au problème posé.

H0 : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

H1 : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

DEFINITION :
Des échantillons appariés sont des échantillons construits de façon à ce qu'ils soient composés
d'individus possédant les mêmes caractéristiques. C'est le cas par exemple lorsque l'on mesure le
même caractère sur les mêmes individus à deux moments diérents ou sous des conditions diérentes,
ou bien lorsque l'on mesure le même caractère sur des frères jumeaux, l'un sous une condition et
l'autre sous une autre condition. Lorsqu'une étude est basée sur des échantillons appariés, l'inuence
des facteurs exogènes est réduite et les résultats sont bien plus précis, donc plus opérationnels (on
maîtrise mieux l'origine des diérences observées).

A RETENIR :
On suppose que les deux échantillons appariés sont de même taille n. On dénit Di = Xi − Yi . La
statistique de test pour la comparaison de deux moyennes dans le cas Gaussien à partir d'échantillons
appariés (H0 : µ1 = µ2 ) est donnée par :

√ D̄n
T = n ∼ Tn−1
SD,n−1 H0
Pn
où D̄n = X̄n − Ȳn et SD,n−1 = n−1
1
i=1 (Di − D̄n ) . Sous H0 , cette statistique de test suit une loi
2

de Student à n − 1 degrés de liberté (T (n − 1)).

La sortie R pour ce test est fournie ci-dessous.

> t.test(avant,apres,alternative="two.sided",paired=T)

 66 
M1/2015-2016 Module Statistique 1

Paired t-test

data: avant and apres


t = 3.0264, df = 8, p-value = 0.0164
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.1028864 0.7615581
sample estimates:
mean of the differences
0.4322222

42  Quelle est la valeur de la statistique de test ?

. .......................................................................................................

43  Quelle est la valeur de la p-value ?

. .......................................................................................................

44  Que peut-on en conclure ?

. .......................................................................................................

. .......................................................................................................

45  Représenter la distribution de la statistique de test sous H0 et faire gurer sur ce graphique la zone de

rejet ainsi que la p-valeur du test.

5.5 Autres tests


Dans cette dernière partie de cours, d'autres tests reposant sur d'autres modèles que le modèle Gaussien.
Les tests présentés sont d'un usage courant dans la pratique, en particulier en biologie.

5.5.1 Test de comparaison d'une proportion à une valeur de référence


Exercice : On réalise un essai préclinique sur l'action d'une nouvelle molécule contre une pathologie donnée.
On observe 4 souris guéries sur n = 10 souris traitées. Peut-on considérer que la molécule est ecace sur la
moitié des individus traités ?

46  Ecrire le modèle associé à l'expérience.

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

 67 
M1/2015-2016 Module Statistique 1

47  Formuler avec des mots l'hypothèse nulle et l'hypothèse alternative du test traduisant le problème posé.

H0 : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

H1 : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Plusieurs tests existent pour comparer une proportion à une valeur de référence. Nous n'en donnerons pas
les statistiques de test. Une façon courante de faire consiste à recourir à une approximation par une loi normale.
Ce type d'approximation n'est valable que sous certaines conditions sur la taille de l'échantillon (échantillon de
taille susante) et sur la vraie valeur de la proportion (ni trop grande, ni trop petite). Lorsque ces conditions
ne s'appliquent pas et que l'approximation Gaussienne n'est pas valable, il est possible d'utiliser un test exact.

On réalise le test exact sous R.

binom.test(4, 10, p = 0.5,alternative = "two.sided")


Exact binomial test

data: 4 and 10
number of successes = 4, number of trials = 10, p-value = 0.7539
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
0.1215523 0.7376219
sample estimates:
probability of success
0.4

48  Peut-on considérer que la molécule est ecace sur la moitié des individus traités au risque α = 5% ?

Justier la réponse.

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

5.5.2 Test d'ajustement du Chi-deux


Exercice : On veut tester si un dé n'est pas truqué au risque α = 5%. Pour cela on lance le dé n = 60 fois
et on obtient les résultats suivants :
i 1 2 3 4 5 6
ni 15 7 4 11 6 17

49  Formuler avec des mots l'hypothèse nulle et l'hypothèse alternative du test traduisant le problème posé.

H0 : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

H1 : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

50  Compléter le tableau ci-dessous pour répondre aux deux questions suivantes :

(a) Avec quelles probabilités pi observerait-on chacune des faces du dé pour un dé non truqué ?

(b) Quels eectifs ei espère-t-on observer si le dé n'est pas truqué ?

i 1 2 3 4 5 6

pi

ei

 68 
M1/2015-2016 Module Statistique 1

Le test d'ajustement du χ2 compare la distribution observée à la distribution théorique (la distribution


attendue sous l'hypothèse nulle) au moyen de la statistique suivante :
I
X (ni − ei )2
T =
i=1
ei

où I est le nombre de valeurs possibles de la variable d'intérêt, les ni sont les eectifs observés et les ei sont les ef-
fectifs attendus sont H0 . Sous H0 , T est approximativement distribué selon une loi du χ2 à I −1 degrés de liberté.

Le test des données du dé est réalisé ci-dessous :

> chisq.test(x=c(15,7,4,11,6,17),p=rep(1/6,6),correct=F)

Chi-squared test for given probabilities

data: c(15, 7, 4, 11, 6, 17)


X-squared = 13.6, df = 5, p-value = 0.01836

51  Le dé est-il truqué au risque α = 5% ? Justier la réponse.

. .......................................................................................................

. .......................................................................................................

Remarque : la distribution de la statistique de test sous H0 est obtenue par une approximation asymptotique.
Dans certains cas, notamment lorsque le nombre d'observations est faible, cette approximation n'est plus valable
et une correction est apportée à la statistique de test.

5.5.3 Test du chi-deux d'indépendance


Exercice : On veut comprendre ce qui incite les individus à fumer et plus particulièrement si l'environnement
familial inue sur le choix de fumer. Pour cela, on a recueilli des données auprès de 123 étudiants. Dans le tableau
ci-dessous f. signie fumeur et n.f. signie non fumeur.

Père f. et Mère f. Père f. et Mère n.f. Père n.f. et Mère f. Père n.f. et Mère n.f.
Fumeur 13 16 7 29
Non Fumeur 5 24 6 23

52  Formuler avec des mots l'hypothèse nulle et l'hypothèse alternative du test traduisant le problème posé.

H0 : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

H1 : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

La procédure du test du chi-deux d'indépendance est analogue à celle du test du chi-deux d'ajustement :
la statistique de test se calcule à partir des écarts entre les eectifs observés et les eectifs théoriques sous
l'hypothèse d'indépendance.
Pour calculer les eectifs théoriques sous l'hypothèse d'indépendance, on utilise la dénition classique de l'in-
dépendance entre deux événements A et B, selon laquelle A et B sont indépendants si et seulement si :

P (A ∩ B) = P (A)P (B).

Notons :

• n : le nombre total d'observations,

• ni. : le nombre total d'observations pour la modalité i du premier facteur, i = 1, . . . , I ,

• n.j : le nombre total d'observations pour la modalité j du deuxième facteur, j = 1, . . . , J ,

• nij : le nombre d'observations pour la modalité i du premier facteur et la modalité j du deuxième facteur,

 69 
M1/2015-2016 Module Statistique 1

• πij : l'eectif théorique sous l'hypothèse d'indépendance pour la modalité i du premier facteur et la
modalité j du deuxième facteur.

Selon la dénition de l'indépendance rappelée ci-dessus, si les deux facteurs étaient indépendants, les eectifs
que nous observerions dans chaque case du tableau de contingence seraient égaux à :
ni. n.j
πij = .
n
On obtient le tableau des eectifs théoriques suivant :
Père f. et Mère f. Père f. et Mère n.f. Père n.f. et Mère f. Père n.f. et Mère n.f.
Fumeur 9.51 21.14 6.87 27.48
Non Fumeur 8.49 18.86 6.13 24.52

53  Retrouver par le calcul les eectifs théoriques π11 et π21 de la première colonne du tableau ci-dessus.

π11 = . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

π21 = . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

La statistique de test pour le test du chi-deux d'indépendance est donnée par


I X J
X (nij − πij )2
T = .
i=1 j=1
πij

Sous H0 , T est approximativement distribué selon une loi du χ2 à (I − 1)(J − 1) degrés de liberté.

On fait le test sous R :

> tabconting=table(fumeur,parents)
> chisq.test(tabconting)

Pearson's Chi-squared test

data: tabconting
X-squared = 5.5444, df = 3, p-value = 0.136

54  Qu'en concluez-vous ?

. .......................................................................................................

. .......................................................................................................

5.6 Lien entre intervalles de conance et tests

 70 
Chapitre 6

Analyse de la variance à un facteur

6.1 Présentation du problème et des données


6.1.1 La problématique
Le coucou est un oiseau qui pratique le parasitisme de couvée. Les parents coucous ne s'occupent pas de
leur progéniture : couvaison des ÷ufs ou soins et alimentation des oisillons. La femelle coucou pond ses ÷ufs
dans le nid d'oiseaux d'autres espèces qui s'occupent la plupart du temps de ses ÷ufs comme des leurs. De
nombreux comportements et caractères chez les coucous semblent favoriser ce parasitisme : la femelle gobe un
÷uf du nid qu'elle parasite, une vitesse élevée de ponte, une date d'éclosion précoce... Il a été montré que les
coucous pondent des ÷ufs très petits comparativement à la taille des adultes. La question qui a motivé l'étude
suivante était de déterminer si la taille des ÷ufs pondus par les coucous pouvait varier en fonction de l'espèce
hôte du nid dans lequel ils avaient été pondus.

6.1.2 Les données


On a échantillonné 120 ÷ufs de coucou dans diérents nids. On a mesuré la taille de chaque ÷uf (le diamètre
de l'÷uf en mm) et noté l'espèce de l'hôte. On a relevé diérentes espèces hôte :

• Accenteur mouchet, Hedge Sparrow en anglais (notée esp1 dans le jeu de données)

• Pipit farlouse, Meadow Pipit (esp2)

• Bergeronnette grise, Pied Wagtail (esp3)

• Rouge-gorge, Robin (esp4)

• Pipit des arbres, Tree Pipit (esp5)

• Troglodyte Mignon, Wren (esp6)

Un extrait et un résumé du jeu de données sont fournis ci-dessous.

> head(coucou)
esp taille
1 esp2 19.65
2 esp2 20.05
3 esp2 20.65
4 esp2 20.85
5 esp2 21.65
6 esp2 21.65

> str(coucou)
'data.frame': 120 obs. of 2 variables:
$ esp : Factor w/ 6 levels "esp1","esp2",..: 2 2 2 2 2 2 2 2 2 2 ...
$ taille: num 19.6 20.1 20.6 20.9 21.6 ...

71
M1/2015-2016 Module Statistique 1

DEFINITIONS
Variable réponse, ou variable à expliquer, notée Y . C'est la variable qui mesure le phénomène
auquel on s'intéresse. On cherche à connaître l'eet des autres variables sur Y .

Variable explicative ou facteur, notée Xj , pour j = 1, . . . , p. Ce sont des variables dont on


cherche à étudier l'eet sur Y . Xj peut être qualitative ou continue.

Variable qualitative. C'est une variable pour laquelle la valeur mesurée sur chaque individu ne
représente pas une quantité. Les diérentes valeurs que peut prendre cette variable sont appelées
catégories, modalités ou niveaux.

Commentaires des sorties R :

L'instruction R str(coucou) fournit des informations sur la structure du jeu de données coucou : nombre
d'observations, nombre et nature des variables. On y lit que le jeu de données contient n = 120 observations et
renseigne sur deux variables. La variable esp est une variable qualitative (Factor). La variable taille est une
variable quantitative (num). Rappelons que d'après la problématique décrite ci-dessus, on cherche à expliquer
la valeur de la variable taille à partir des valeurs de la variable esp.

Quelle est la variable réponse et quelle est la variable explicative ?

Variable réponse : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Variable explicative : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

NATURE DES VARIABLES EN ANOVA


Dans les modèles d'analyse de la variance, la variable réponse est quantitative et les variables
explicatives sont qualitatives.

6.1.3 La structure du jeu de données


> table(coucou$esp)

esp1 esp2 esp3 esp4 esp5 esp6


14 45 15 16 15 15
> pie(table(coucou$esp))

MDW_PIPIT

HDGE_SPRW

PIED_TAIL WREN

ROBIN TREE_PIPIT

 72 
M1/2015-2016 Module Statistique 1

DEFINITION
Lorsqu'une étude porte sur une variable qualitative, on parle d'échantillonnage ou dispositif
équilibré, lorsque l'on a le même nombre d'observations pour chacune des modalités de cette va-
riable.

Commentaires des sorties R :

L'instruction R table(coucou$esp) fournit un tableau des eectifs par espèce hôte à partir des données de
coucou. Dans la sortie associée, on lit que pour l'espèce esp1, on dispose de n1 = 14 observations, n2 = 45
observations pour esp2, n3 = 15 observations pour esp3, n4 = 16 pour l'espèce esp4, n5 = 15 pour l'espèce
esp5, et n6 = 15 observations pour l'espèce esp6. On ne dispose pas du même nombre d'observations par espèce ;
l'échantillonnage n'est pas équilibré. La taille des ÷ufs pour l'espèce hôte esp2 sera estimée avec davantage de
précision que pour les autres espèces hôte puisque c'est pour cette espèce que l'on dispose du plus grand nombre
d'observations. On peut également s'attendre à proposer une comparaison des six espèces hôtes moins puissante
que si le dispositif expérimental avait été équilibré.

6.1.4 Quelques statistiques descriptives


Statistiques descriptives globales
> mean(coucou$taille)
[1] 22.46
> sd(coucou$taille)
[1] 1.073704
> summary(coucou$taille)
Min. 1st Qu. Median Mean 3rd Qu. Max.
19.65 21.85 22.35 22.46 23.25 25.05
> hist(coucou$taille)
Histogram of coucou$taille
35
30
25
Frequency
20
15
10
5
0

20 21 22 23 24 25
coucou$taille

Statistiques descriptives par espèce hôte


> by(coucou$taille,coucou$esp,mean)
coucou$esp: esp1
[1] 23.12143
---------------------------------------------------------
coucou$esp: esp2
[1] 22.29889
---------------------------------------------------------
coucou$esp: esp3
[1] 22.90333
---------------------------------------------------------
coucou$esp: esp4
[1] 22.575
---------------------------------------------------------
coucou$esp: esp5
[1] 23.09
---------------------------------------------------------
coucou$esp: esp6

 73 
M1/2015-2016 Module Statistique 1

[1] 21.13
> by(coucou$taille,coucou$esp,sd)
coucou$esp: esp1
[1] 1.068737
---------------------------------------------------------
coucou$esp: esp2
[1] 0.9206278
---------------------------------------------------------
coucou$esp: esp3
[1] 1.067619
---------------------------------------------------------
coucou$esp: esp4
[1] 0.6845923
---------------------------------------------------------
coucou$esp: esp5
[1] 0.9014274
---------------------------------------------------------
coucou$esp: esp6
[1] 0.7437357
> by(coucou$taille,coucou$esp,summary)
coucou$esp: esp1
Min. 1st Qu. Median Mean 3rd Qu. Max.
20.85 22.90 23.05 23.12 23.85 25.05
---------------------------------------------------------
coucou$esp: esp2
Min. 1st Qu. Median Mean 3rd Qu. Max.
19.65 22.05 22.25 22.30 22.85 24.45
---------------------------------------------------------
coucou$esp: esp3
Min. 1st Qu. Median Mean 3rd Qu. Max.
21.05 21.95 23.05 22.90 23.75 24.85
---------------------------------------------------------
coucou$esp: esp4
Min. 1st Qu. Median Mean 3rd Qu. Max.
21.05 22.05 22.55 22.58 23.05 23.85
---------------------------------------------------------
coucou$esp: esp5
Min. 1st Qu. Median Mean 3rd Qu. Max.
21.05 22.55 23.25 23.09 23.75 24.05
---------------------------------------------------------
coucou$esp: esp6
Min. 1st Qu. Median Mean 3rd Qu. Max.
19.85 20.85 21.05 21.13 21.75 22.25
> boxplot(coucou$taille~coucou$esp)

 74 
M1/2015-2016 Module Statistique 1

Taille Masse Graines

50

7
25

6
40

5
20

30

4
15

3
20

2
10

10

1
5

0
0

Les tailles d'÷ufs mesurées varient de 19.65 mm à 25.05 mm, avec une taille moyenne globale de 22.46 mm
et un écart-type de 1.07 mm. D'après l'histogramme, le mode sur l'échantillon se situe autour de 22 mm. Si
on sépare l'analyse descriptive selon l'espèce hôte, on remarque de grandes similitudes entre les distributions
observées : une taille moyenne des ÷ufs entre 22.5 mm et 23 mm avec un écart-type de l'ordre de 1 mm.
L'espèce esp6 semble se démarquer des autres espèces avec une taille moyenne des ÷ufs qui paraît nettement
inférieure (21.13 mm). Nous observons donc des diérences entre les tailles moyennes des ÷ufs couvés par les
diérentes espèces hôte, notamment entre l'espèce esp6 et les autres espèces. Pour savoir si ces diérences sont
statistiquement signicatives ou simplement dues à l'échantillonnage, il est nécessaire de mettre en place une
procédure de tests statistiques.

6.2 Exercice : Comparaison de la taille des oeufs chez les espèces esp1
et esp6
La question initiale concerne l'ensemble des espèces hôtes. Dans un premier temps, nous proposons de
répondre à une question plus simple :
"Les tailles des ÷ufs issus des nids des espèces esp1 et esp6 sont-elles identiques ?".
Pour répondre à cette question, on ne travaille que sur les données de ces deux espèces.
coucou1=coucou[coucou$esp=="esp1"|coucou$esp=="esp6",]
Questions

55  Quel test permet de répondre à la question : comparaison d'une moyenne à une moyenne de référence,
comparaison de deux moyennes à partir d'échantillons indépendants, comparaison de deux moyennes à
partir d'échantillons appariés ?
56  Précisez le modèle utilisé.
57  Explicitez l'hypothèse nulle (H0 ) et l'hypothèse alternative (H1 ) de ce test.
58  Quelle précaution doit-on prendre avant de faire ce test ?

On eectue un premier test :


> var.test(coucou1$taille~coucou1$esp)

F test to compare two variances

 75 
M1/2015-2016 Module Statistique 1

data: coucou1$taille by coucou1$esp


F = 2.0649, num df = 13, denom df = 14, p-value = 0.1917
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.6855898 6.3637942
sample estimates:
ratio of variances
2.064924

59  De quel test s'agit-il ?


60  Précisez le modèle utilisé.
61  Explicitez l'hypothèse nulle (H0 ) et l'hypothèse alternative (H1 ) de ce test.
62  Quelle est la probabilité critique obtenue avec ce test ?
63  Que concluez-vous ?

On propose ensuite deux tests :

• Test 1

> t.test(coucou1$taille~coucou1$esp,var.equal=T)

Two Sample t-test

data: coucou1$taille by coucou1$esp


t = 5.8583, df = 27, p-value = 3.076e-06
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
1.293949 2.688909
sample estimates:
mean in group esp1 mean in group esp6
23.12143 21.13000

• Test 2

> t.test(coucou1$taille~coucou1$esp,var.equal=F)

Welch Two Sample t-test

data: coucou1$taille by coucou1$esp


t = 5.786, df = 23.037, p-value = 6.75e-06
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
1.279496 2.703361
sample estimates:
mean in group esp1 mean in group esp6
23.12143 21.13000

64  Quel test doit-on choisir pour comparer les tailles des ÷ufs entre les espèces esp1 et esp6 ?
65  Quelle est la probabilité critique obtenue avec ce test ?
66  Que concluez-vous ?
67  Quelle est la probabilité critique obtenue avec l'autre test ?
68  Cette p-value est-elle diérente du test précédent ? Pourquoi ?
69  Pour étudier l'ensemble des espèces, on eectue les mêmes tests avec toutes les espèces deux à deux (cf.
tableau ci-dessous). Quelles sont les diérences signicatives ? Reportez votre réponse dans le tableau.

 76 
M1/2015-2016 Module Statistique 1

Espèce 1 Espèce 2 Tests de comparaison Diérence


des variances des moyennes signicative
variances égales non égales Oui/Non
esp2 esp5 0.984 0.005 0.007
esp2 esp1 0.447 0.007 0.018
esp2 esp4 0.212 0.278 0.216
esp2 esp3 0.443 0.039 0.063
esp2 esp6 0.389 <0.001 <0.001
esp5 esp1 0.535 0.932 0.933
esp5 esp4 0.302 0.082 0.086
esp5 esp3 0.535 0.609 0.609
esp5 esp6 0.481 <0.001 <0.001
esp1 esp4 0.102 0.102 0.115
esp1 esp3 0.992 0.587 0.587
esp1 esp6 0.192 <0.001 <0.001
esp4 esp3 0.099 0.313 0.322
esp4 esp6 0.752 <0.001 <0.001
esp3 esp6 0.189 <0.001 <0.001

70  Les tailles des ÷ufs vous paraissent-elles équivalentes entre les diérentes espèces hôtes ?

71  Rappelez la dénition du risque de première espèce d'un test, noté α.

72  Que pensez-vous du risque de conclure à tort à l'existence d'une diérence entre au moins deux espèces
hôte ? Est-elle égale à 5% ?

6.3 Modèle, estimation et vérication des hypothèses


Le principe de l'Analyse de la Variance (ANOVA) est d'analyser dans leur ensemble l'eet des espèces des
hôtes. Elle repose sur un modèle unique qui représente l'ensemble des données de tous les groupes. Ainsi dans
l'exemple des oeufs de coucous, on modélise l'ensemble des tailles d'÷ufs issus des nids de toutes les espèces.

6.3.1 Modèle
Notons K le nombre de niveaux du facteur explicatif, µk la taille moyenne des ÷ufs couvés par l'espèce hôte
k , k = 1, . . . , K , nk le nombre d'observations faites sur cette espèce et Yik la variable aléatoire correspondant à
la taille du i-ème ÷uf échantillonné dans les nids de cette espèce, i = 1, . . . , nk .

Le modèle général pour les Yik peut s'écrire de la façon suivante :

MODELE (ECRITURE REGULIERE)

• On suppose l'ensemble des Yik indépendantes et telles que

Yik ∼ N (µk , σ 2 ) , k = 1, . . . , K i = 1, . . . , nk

• ce qui peut encore s'écrire :

Yik = µk + Eik , Eik ∼ N (0, σ 2 ) , k = 1, . . . , K i = 1, . . . , nk


i.i.d.

Remarquons qu'un tel modèle autorise bien des changements de moyennes d'un groupe à un autre,
mais que la variance est supposée constante, commune à l'ensemble des groupes. Cette hypothèse,
dite hypothèse d'homoscédasticité, est une hypothèse importante dont il faudra s'assurer de la validité
avant d'interpréter les résultats du modèle en termes de comparaison de groupes.

73  Compréhension du modèle. Représentez les moyennes estimées µ̂k pour les espèces esp1, esp2 et esp6
sur les graphiques ci-après. Pour rappel : µ̂1 = 23.12, µ̂2 = 22.30, µ̂3 = 22.90, µ̂4 = 22.58, µ̂5 = 23.09,
µ̂6 = 21.13.

 77 
M1/2015-2016 Module Statistique 1

PARAMETRISATION ET ECRITURE SINGULIERE DU MODELE


Usuellement en ANOVA on décompose les µk en :

• un eet xe, µ, commun à tous les groupes,


• un eet spécique du groupe k , βk .

µk = µ + βk (6.1)
Cette autre paramétrisation du modèle en implique une autre écriture, dite écriture singulière, beau-
coup plus utilisée dans la pratique :

Yik = µ + βk + Eik , Eik ∼ N (0, σ 2 ) , k = 1, . . . , K i = 1, . . . , nk


i.i.d.

La plupart des logiciels statistiques s'appuient sur cette dernière écriture du modèle ANOVA à un facteur
pour en présenter les résultats.

74  Compréhension du modèle. Sur les graphiques ci-après, représenter les βk pour les espèces esp1, esp2 et

esp6.

75  Les valeurs des βk sont-elles identiques dans les deux cas ? De quoi dépendent-elles ?

. .......................................................................................................

76  Les valeurs des µk sont-elles identiques dans les deux cas ?

. .......................................................................................................

77  Combien il y a-t-il de paramètres à estimer pour chacune des représentations ?

. .......................................................................................................

 78 
M1/2015-2016 Module Statistique 1

β1 = 0

25
24
23
taille
22
21
20

1 2 3 4 5 6
Espèce hôte

β2 = 0
25
24
23
taille
22
21
20

1 2 3 4 5 6
Espèce hôte

 79 
M1/2015-2016 Module Statistique 1

6.3.2 Estimation
78  Quels sont les paramètres du modèle ?

Pour la partie déterministe : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Pour la partie résiduelle : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

79  Concernant la partie déterministe du modèle d'analyse de la variance à un facteur :

• Combien de paramètres doit-on estimer ?

. ..................................................................................................

• Combien de moyennes ces paramètres représentent-ils ?

. ..................................................................................................

REMARQUE
La décomposition (6.1) n'est pas unique. Pour estimer les paramètres du modèle d'analyse de la
variance à un facteur écrit sous forme singulière, il est nécessaire de rendre cette décomposition
unique en xant une contrainte sur les coecients βk , par exemple β1 = 0. Le choix d'une contrainte
revient à dénir un groupe de référence (le premier niveau du facteur pour la contrainte β1 = 0)
auquel seront implicitement comparés les groupes dénis dans l'expérience. Cette particularité appelle
ensuite à une certaine prudence lors de l'interprétation des résultats du modèle. En eet, le choix de
la contrainte, donc du groupe de référence, n'est pas unique et donne une signication diérente aux
paramètres βk du modèle.

METHODE D'ESTIMATION
Une fois la contrainte choisie, on estime les paramètres du modèle d'analyse de la variance à un
facteur par la méthode des moindres carrés (cf cours sur la régression linéaire simple). Cette
méthode permet d'obtenir l'expression littérale des estimateurs sans biais des paramètres du modèle
en minimisant la somme des carrés des écarts entre les valeurs observées et les valeurs prédites par
le modèle. Une estimation des paramètres est obtenue en utilisant les données observées. On notera
µ̂, β̂k , k = 1, . . . , K , σ
c2 les paramètres estimés du modèle.

6.3.3 Prédiction
PREDICTION
Connaissant k , l'espèce de l'hôte d'un ÷uf du coucou, on souhaite prédire la taille d'un ÷uf ŷik . La
valeur de la prédiction ŷik s'obtient à partir des paramètres estimés du modèle :

yˆik = µ̂ + β̂k .

Pour prédire la taille d'un ÷uf couvé par l'espèce hôte k , on utilise donc la taille moyenne estimée des
÷ufs couvés par cette espèce.

80  Sur le graphique précédent, représentez les prédictions.

Remarque : les valeurs prédites ne dépendent pas des contraintes choisies.

6.3.4 Vérication des hypothèses du modèle


RESIDU OBSERVE
De la même façon, on dénit le résidu observé (l'erreur) associé à l'observation yik :

eik = yik − ŷik

Il s'agit de l'écart entre l'observation yik et la prédiction du modèle pour cette observation.

 80 
M1/2015-2016 Module Statistique 1

81  Représentez les résidus sur le graphique ci-dessous pour les deux observations représentées par une croix.

Les résidus observés sont utiles dans l'analyse des résultats de l'ANOVA, puisqu'ils permettent de vérier
que les hypothèses sur lesquelles repose le modèle sont valides.

82  Rappelez les hypothèses à vérier du modèle :


HYPOTHESES
• ..............................................................................................
• ..............................................................................................

• ..............................................................................................
• ..............................................................................................

On eectue l'analyse des résidus du modèle :

mod1=lm(coucou$taille~coucou$esp)
plot(mod1)

 81 
M1/2015-2016 Module Statistique 1

1 2
Residuals vs Fitted Normal Q−Q

3
2

2
1

1
Standardized residuals
Residuals
0

0
−1

−1
−2

−2
2 61
2
1 61
−3

−3
21.5 22.0 22.5 23.0 −2 −1 0 1 2
Fitted values Theoretical Quantiles
lm(coucou$taille ~ coucou$esp) lm(coucou$taille ~ coucou$esp)

3 4
Scale−Location Residuals vs Leverage

3
1

61
2
74
1.5

2
1
Standardized residuals

Standardized residuals
1.0

0
−1
0.5

−2

46
61
−3

Cook's distance
0.0

21.5 22.0 22.5 23.0 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07
Fitted values Leverage
lm(coucou$taille ~ coucou$esp) lm(coucou$taille ~ coucou$esp)

Commentaires des sorties R :

• Le premier graphique, en haut à gauche, représente les résidus observés eik en fonction des valeurs prédites
ŷik . Sur ce graphique, les points doivent être régulièrement répartis autour de l'axe y = 0. Si tel n'est
pas le cas, cela peut indiquer une tendance dans les données, qu'il est souhaitable de corriger avant de
poursuivre l'analyse, ou encore que l'hypothèse d'indépendance entre les observations n'est pas correcte.
• Le deuxième graphique, en haut à droite, s'appelle QQ-plot. Il représente les quantiles de la distribution
observée des résidus standardisés (ie réduits) en fonction des quantiles d'une distribution Gaussienne centée
et réduite N (0, 1). Des points alignés le long de la diagonale, indiquent que l'hypothèse de normalité des
résidus est plausible. Au contraire, des points éloignés de la diagonale contredisent l'hypothèse de normalité
des résidus.
• Le troisième graphique, en bas à gauche, représente les résidus standardisés en fonction des observations. Ce
graphique permet de vérier l'hypothèse d'homoscédasticité. Les points doivent former un nuage homogène
et la ligne d'extrapolation rouge doit être à peu près horizontale. Si tel n'était pas le cas (nuage en forme
d'entonnoir notamment), l'hypothèse d'homoscédasticité est contredite, et il peut être utile de transformer
les données de façon à se ramener à un modèle pour lequel cette hypothèse est valide.
• Le quatrième graphique, en bas à droite, permet d'identier d'éventuels points aberrants et trop inuants
susceptibles de rendre les estimations du modèle peu robustes. Il est recommandé de supprimer ces points,
s'il y en a, pour aboutir à un modèle robuste.

83  Quelles sont vos conclusions concernant les hypothèses du modèle proposé pour modéliser les tailles des

÷ufs de coucou ?

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

 82 
M1/2015-2016 Module Statistique 1

. .......................................................................................................

84  Dans les exemples suivants, issus de données diérentes de celles étudiées, les hypothèses du modèle
d'ANOVA sont-elles vériées ? Précisez s'il y a lieu le(s) problème(s) mis en évidence par ces graphiques.

(a) Exemple 1

Residuals vs Fitted Scale−Location


6e+10

74

Standardized residuals
74 105

0.0 0.5 1.0 1.5 2.0


105
45
Residuals

45
2e+10
−2e+10

5.0e+09 1.5e+10 5.0e+09 1.5e+10


Fitted values Fitted values
lm(Taille2 ~ coucou$esp) lm(Taille2 ~ coucou$esp)

. ..................................................................................................

. ..................................................................................................

(b) Exemple 2

Residuals vs Fitted
4
2
Residuals
0
−2
−4

3
1
4
−6

21 22 23 24
Fitted values
lm(Taille3 ~ esp3)

. ..................................................................................................

. ..................................................................................................

 83 
M1/2015-2016 Module Statistique 1

6.4 Tests

6.4.1 Test global du modèle

TEST GLOBAL DU MODELE ET DECOMPOSITION


DE LA VARIABILITE TOTALE

De manière générale, le test global du modèle permet de tester si la variabilité prédite par le modèle
est signicative par rapport aux variations observées dans l'échantillon. Ici, le test global du modèle
permet de tester l'inuence de l'espèce hôte sur la taille des ÷ufs. Les hypothèses nulle et alternative
associées à ce test sont donc les suivantes :

• H0 : Yik = µ + Eik (l'espèce de l'hôte n'a pas d'inuence sur la taille des ÷ufs)
• H1 : Yik = µ + βk + Eik (l'espèce de l'hôte a une inuence sur la taille des ÷ufs)
La statistique de test F pour le test global du modèle est construite à partir de la décomposition de
la variabilité totale :
SCT = SCM + SCR
où, en notant Ȳ la moyenne de l'ensemble des observations,
PK Pnk
i=1 (Yik − Ȳ ) est le terme de variabilité totale qui représente la variabilité
2
• SCT = k=1
intrinsèque aux données (SCT : Somme des Carrés Totale),
PK Pnk
• SCM = k=1 i=1 (Ŷik − Ȳ )2 représente la variabilité des données expliquée par le modèle
(SCM : Somme des Carrés du Modèle),
PK Pnk
• SCR = k=1 i=1 (Yik − Ŷik )2 est la variabilité résiduelle, i.e. la variabilité des données non
expliquée par le modèle (SCR : Somme des Carrés Résiduelle).

L'expression de la statistique de test est donnée par :

SCM/(K − 1)
F =
SCR/(n − K)

où n est le nombre d'observations et K le nombre de modalités du facteur explicatif du modèle. Sa


distribution sous H0 est une loi de Fisher FK−1,n−K . L'idée derrière cette statistique de test va être
de comparer la SCM et la SCR et de conclure en l'inuence du facteur sur la variable réponse si la
SCM est susamment grande devant la SCR.

La décomposition de la variabilité totale ainsi que les résultats associés au test global du modèle gurent
dans la sortie R ci-dessous.

> anova(mod1)
Analysis of Variance Table
Response: coucou$taille
Df Sum Sq Mean Sq F value Pr(>F)
coucou$esp 5 42.940 8.5879 10.388 3.152e-08 ***
Residuals 114 94.248 0.8267
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

85  Explicitez les termes du tableau de l'analyse de la variance ci-dessous.

 84 
M1/2015-2016 Module Statistique 1

Degré de liberté Sommes des carrés Carrés moyen Stat. de test F P.value
Espèce
SCM/(K−1)
K-1 SCM SCM/(K-1) F = SCR/(n−K) P r(F > f )
(cf encadré)
= = = = =

Résidus
n-K SCR SCR/(n-K)
(cf encadré)
= = =

86  Quelle est la p-value de ce test ? Qu'en concluez-vous ?

. .......................................................................................................

. .......................................................................................................

6.4.2 Test des paramètres du modèle


Les logiciels statistiques fournissent aussi les résultats associés à d'autres tests, en particulier, les tests sur
les paramètres du modèle. Voici les résultats R de ces tests pour notre exemple.

> summary(mod1)
Call:
lm(formula = coucou$taille ~ coucou$esp)
Residuals:
Min 1Q Median 3Q Max
-2.64889 -0.44889 -0.04889 0.55111 2.15111
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 23.12143 0.24301 95.147 < 2e-16 ***
coucou$espesp2 -0.82254 0.27825 -2.956 0.00379 **
coucou$espesp3 -0.21810 0.33789 -0.645 0.51992
coucou$espesp4 -0.54643 0.33275 -1.642 0.10332
coucou$espesp5 -0.03143 0.33789 -0.093 0.92606
coucou$espesp6 -1.99143 0.33789 -5.894 3.91e-08 ***
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
Residual standard error: 0.9093 on 114 degrees of freedom
Multiple R-squared: 0.313,Adjusted R-squared: 0.2829
F-statistic: 10.39 on 5 and 114 DF, p-value: 3.152e-08

87  Quelle est la contrainte choisie ici pour estimer le modèle d'analyse de la variance à un facteur ?

. .......................................................................................................

. .......................................................................................................

88  Explicitez les hypothèses testées dans le tableau suivant.

 85 
M1/2015-2016 Module Statistique 1

En fonction de βk En fonction de µk

H0 H1 H0 H1

Intercept µ=0 µ 6= 0

esp2 β2 = 0 β2 6= 0 µ2 = 0 µ2 6= 0

esp3

esp4

esp5

esp6

REMARQUE IMPORTANTE
Les paramètres de l'ANOVA ne sont jamais des valeurs interprétables dans l'absolu. Par conséquent
les tests sur les paramètres dans l'ANOVA sont toujours des comparaisons implicites entre groupes.

89  De quoi dépendent les comparaisons eectuées ?

. .......................................................................................................

. .......................................................................................................

 86 
M1/2015-2016 Module Statistique 1

6.4.3 Coecient de détermination, estimation de la variance


Dans les sorties de la commande summary de R, on peut également lire
• la valeur du coecient de détermination,
• la valeur estimée de la variance résiduelle.

Coecient de détermination
COEFFICIENT DE DETERMINATION
Le coecient de détermination, noté R2 est un indicateur numérique qui permet d'apprécier à quel
point le modèle est adapté pour décrire la variabilité des données. Plus précisément, le R2 exprime la
part de la variabilité des données expliquée par le modèle ; il se calcule comme suit :
SCM
R2 = ,
SCT
où les termes SCM et SCT ont été dénis plus haut. Il prend sa valeur dans l'intervalle [0, 1]. Plus
elle est proche de 1, meilleure est la qualité d'ajustement du modèle.

90  Quelle est la valeur du coecient de détermination dans l'exemple ? Qu'en concluez-vous ?

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

Rermarque : le R2 donne une indication sur les propriétés prédictives du modèle mais il ne permet pas de
conclure sur l'existence d'un lien entre la variable explicative et la variable à expliquer. En eet, si le test global
est signicatif mais que le R2 a une valeur très faible, on concluera quand même à l'existence d'un lien entre la
variable explicative et la variable à expliquer.

Estimation de la variance
ESTIMATION DE LA VARIANCE RESIDUELLE
Pour estimer la variance résiduelle, on utilise l'estimateur suivant : S 2 = SCM
n−K

91  Quelle est la valeur σ


c2 de l'estimation de la variance dans l'exemple ?
σ =...................................................................................................
c2

92  Retrouvez la valeur de σc2 dans la table d'analyse de la variance.


. .......................................................................................................
. .......................................................................................................

6.5 Exercice : Choix des contraintes


Pour illustrer l'importance de la contrainte choisie, nous refaisons l'analyse avec deux contraintes diérentes.

• Deuxième contrainte : β6 = 0

> levels(coucou$esp)
[1] "esp1" "esp2" "esp3" "esp4" "esp5"
[6] "esp6"
> mod2=lm(taille~esp,data=coucou,
contrasts=list(esp=contr.treatment(levels(coucou$esp), base = 6)))
> anova(mod2)

 87 
M1/2015-2016 Module Statistique 1

Analysis of Variance Table

Response: taille
Df Sum Sq Mean Sq F value Pr(>F)
esp 5 42.940 8.5879 10.388 3.152e-08 ***
Residuals 114 94.248 0.8267
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
> summary(mod2)

Call:
lm(formula = taille ~ esp, data = coucou,
contrasts = list(esp = contr.treatment(levels(coucou$esp),base = 6)))

Residuals:
Min 1Q Median 3Q Max
-2.64889 -0.44889 -0.04889 0.55111 2.15111

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 21.1300 0.2348 90.004 < 2e-16 ***
espesp1 1.9914 0.3379 5.894 3.91e-08 ***
espesp2 1.1689 0.2711 4.312 3.46e-05 ***
espesp3 1.7733 0.3320 5.341 4.78e-07 ***
espesp4 1.4450 0.3268 4.422 2.25e-05 ***
espesp5 1.9600 0.3320 5.903 3.74e-08 ***
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 0.9093 on 114 degrees of freedom


Multiple R-squared: 0.313,Adjusted R-squared: 0.2829
F-statistic: 10.39 on 5 and 114 DF, p-value: 3.152e-08

 88 
M1/2015-2016 Module Statistique 1

6
P
• Troisième contrainte : βk = 0
k=1

> mc=contr.sum(levels(coucou$esp))
> dimnames(mc)[[2]]=levels(coucou$esp)[-6]
> mod3=lm(taille~esp,data=coucou,contrasts=list(esp=mc))
> anova(mod3)
Analysis of Variance Table

Response: taille
Df Sum Sq Mean Sq F value Pr(>F)
esp 5 42.940 8.5879 10.388 3.152e-08 ***
Residuals 114 94.248 0.8267
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
> summary(mod3)

Call:
lm(formula = taille ~ esp, data = coucou, contrasts = list(esp = mc))

Residuals:
Min 1Q Median 3Q Max
-2.64889 -0.44889 -0.04889 0.55111 2.15111

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 22.51978 0.09044 249.008 < 2e-16 ***
espesp1 0.60165 0.21805 2.759 0.00675 **
espesp2 -0.22089 0.14292 -1.545 0.12500
espesp3 0.38356 0.21195 1.810 0.07298 .
espesp4 0.05522 0.20646 0.267 0.78958
espesp5 0.57022 0.21195 2.690 0.00821 **
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 0.9093 on 114 degrees of freedom


Multiple R-squared: 0.313,Adjusted R-squared: 0.2829
F-statistic: 10.39 on 5 and 114 DF, p-value: 3.152e-08

 89 
M1/2015-2016 Module Statistique 1

93  Complétez le tableau suivant.

6
Contraintes
P
β6 = 0 βk = 0
k=1

Modèle

Estimation µ̂

et p.value

du test de βˆ1

comparaison

à0 βˆ2

βˆ3

βˆ4

βˆ5

βˆ6

c2
σ

Prédictions yHSP
ˆ RW

yesp4
ˆ

yesp6
ˆ

R2

 90 
M1/2015-2016 Module Statistique 1

94  Quel est l'impact du choix de la contrainte ?

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

6.6 Comparaison deux à deux, test multiples


Les résultats du test global du modèle montrent que l'espèce hôte a une inuence sur la taille des ÷ufs de
coucou. Il est donc légitime de se demander si des diérences existent entre toutes les espèces ou bien simplement
entre certaines d'entre elles.

6.6.1 Intérêt de l'ANOVA par rapport au test de Student pour la comparaison


de deux moyennes
TEST DE STUDENT ET ESTIMATION DE LA VARIANCE

Pour comparer deux moyennes associées à deux populations diérentes, par exemple les espèces
esp1 et esp2, la statistique de test pour le test de Student s'écrit :

Ȳ − Ȳ2
r 1 
S 2 n11 + n12

où :

• Ȳ1 et Ȳ2 sont les estimateurs des moyennes pour les espèces esp1 et esp2 respectivement,
• n1 et n2 sont les nombres d'observations pour les espèces esp1 et esp2 respectivement,

• S 2 est un estimateur de la variance du modèle.


Cette statistique de test requiert donc l'estimation de la variance. On a vu plusieurs façons d'estimer
la variance :

• 1) Dans un test de Student classique, on suppose que la variance est commune aux deux
populations comparées, et uniquement à ces deux populations. L'estimateur de la variance
qui résulte de cette hypothèse est donné par :

(n1 − 1)S12 + (n2 − 1)S22


S2 = ,
(n1 + n2 − 2)
Pn1 Pn2
(Y −Ȳ )2 (Y −Ȳ )2
où S12 = i=1n1 −1i1 1
et S22 = i=1n2 −1
i2 2
. Pour comparer les espèces esp1 et esp2,
l'estimation du terme de variance s'appuierait sur 14 + 45 = 59 observations.

• 2) En plus de proposer un modèle unique permettant de répondre à la question globale


de l'inuence des espèces (cf test global du modèle), l'analyse de la variance à un facteur
suppose que la variance de la variable réponse est identique dans toutes les espèces. On en
tire un estimateur "poolé" de la variance (rappel : Spool
2
= SCR/(n − K)) calculé à partir
de l'ensemble des données de l'échantillon, y compris les observations des autres groupes que
ceux qui sont directement comparés dans le test. Pour comparer les espèces esp1 et esp2,
l'estimation par cette méthode du terme de variance se baserait sur 14+45+15+16+15+15 =
120 observations au total au lieu de 59 avec la première méthode. L'utilisation d'une quantité
d'information plus importante permet d'estimer la variance de façon plus précise et aboutit
à des tests de comparaison de moyennes plus puissants. Pour comparer les moyennes deux à
deux après une ANOVA, on recommande donc d'utiliser un estimateur "poolé" de la variance
(fonction pairwise.t.test de R).
L'objectif du petit exercice qui suit est d'illustrer les diérences entre les deux méthodes.

 91 
M1/2015-2016 Module Statistique 1

95  Rappelez la p-value du test de comparaison des moyennes des tailles entre des ÷ufs issus des nids par un

test de Student classique :

• esp2 et esp5

p-value : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

• esp5 et esp3

p-value : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

• esp5 et esp4

p-value : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

96  On donne ci-dessous les résultats des tests de comparaison de moyennes deux à deux utilisant un estima-

teur "poolé" de la variance. Commentez l'impact de cette nouvelle estimation des variances sur les tests

de comparaison des espèces deux à deux.

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

> compmulti=pairwise.t.test(coucou$taille, coucou$esp,p.adjust.method ="none")


> compmulti

Pairwise comparisons using t tests with pooled SD

data: coucou$taille and coucou$esp

esp1 esp2 esp3 esp4 esp5


esp2 0.0038 - - - -
esp3 0.5199 0.0277 - - -
esp4 0.1033 0.2990 0.3171 - -
esp5 0.9261 0.0042 0.5751 0.1178 -
esp6 3.9e-08 3.5e-05 4.8e-07 2.2e-05 3.7e-08

P value adjustment method: none

 92 
M1/2015-2016 Module Statistique 1

6.6.2 Correction pour les tests multiples

MULTIPLICITE DES TESTS


Le principe des tests statistiques est de rejeter l'hypothèse nulle H0 si la probabilité d'observer les
données sous l'hypothèse H0 est faible. Plus précisément on xe un seuil de rejet tel que l'on rejette
avec une probabilité α des données extrêmes issues de l'hypothèse H0 (α, erreur de première espèce).
Lorsque pour répondre à une question on eectue plusieurs tests, si on interprète directement ces
tests, on sous-estime l'erreur de première espèce réelle. En eet la probabilité de "rejeter l'hypothèse
H0 alors qu'elle est vraie dans au moins un de ces tests" est plus grande que la probabilité de rejeter
l'hypothèse H0 alors qu'elle est vraie pour un test donné.
Il est donc nécessaire de corriger les tests et donc les p.values obtenues. La correction la plus simple
est celle proposée par Bonferroni. C'est aussi la plus conservative (celle qui favorise la conservation
de l'hypothèse H0 ). Cette correction consiste à diviser les α de chaque test par le nombre total de
tests eectués. Par exemple, si l'on eectue 8 tests et que l'on souhaite répondre à la question globale
avec un risque α = 0.05, on rejetera l'hypothèse H0 d'un des 8 tests si sa p.value est inférieure à
α = 0.05/8 = 0.00625.
Dans le tableau suivant, R corrige les p.values obtenues, on peut donc les interpréter directement
(au seuil α du test global que l'on a choisi).

> compmulticorr=pairwise.t.test(coucou$taille, coucou$esp,


p.adjust.method ="bonferroni")
> compmulticorr

Pairwise comparisons using t tests with pooled SD

data: coucou$taille and coucou$esp

esp1 esp2 esp3 esp4 esp5


esp2 0.05681 - - - -
esp3 1.00000 0.41589 - - -
esp4 1.00000 1.00000 1.00000 - -
esp5 1.00000 0.06362 1.00000 1.00000 -
esp6 5.9e-07 0.00052 7.2e-06 0.00034 5.6e-07

P value adjustment method: bonferroni

97. Comparez la valeur corrigée de la p.value du test entre esp2 et esp5 avec celle obtenue précédemment

avec un test non ajusté ?

. .......................................................................................................

. .......................................................................................................

6.7 Synthèse
Résumons les diérentes étapes du travail sur une ANOVA à un facteur. Dans l'ordre, elles sont :

1. Ecrire le modèle.
2. En estimer les paramètres.
3. Vérier les hypothèses :
(a) Si les hypothèses sont vériées alors on peut interpréter les résultats de l'ANOVA.

 93 
M1/2015-2016 Module Statistique 1

(b) Si non, il faut transformer les données ou supprimer les points aberrants de façon à se ramener à un
modèle dont les hypothèses sont valides.

4. Interpréter les résultats :

(a) Test global du modèle.


i. Si le test est signicatif, on peut aner l'interprétation des résultats en comparant les groupes
deux à deux.
ii. S'il n'est pas signicatif, la seule conclusion de l'étude est qu'il n'existe pas de diérence signi-
cative entre les moyennes des diérents groupes.

 94 
Chapitre 7

Régression linéaire simple

7.1 Présentation du problème et des données


7.1.1 La problématique
Un ostréiculteur souhaite étudier la croissance de ses huîtres. Pour cela, il mesure le poids initial à l'entrée
dans le parc de plusieurs huîtres et leur poids nal à la récolte. Il répète cette étude sur des huîtres recevant
diérents traitements. On s'intéresse d'abord aux huîtres recevant le premier traitement.

7.1.2 Les données


Un extrait et un résumé du jeu de données sont fournis ci-dessous.

> tab1=tab[tab$traitement==1,]
> tab1
pdsinit pdsfinal traitement
1 20.4 26.2 1
2 19.6 26.9 1
3 25.1 32.0 1
4 18.1 26.9 1
5 21.5 28.1 1
6 20.0 28.4 1
7 22.5 30.1 1
8 21.8 29.4 1
9 24.3 30.1 1
10 19.0 27.7 1
> str(tab1)
'data.frame': 10 obs. of 3 variables:
$ pdsinit : num 20.4 19.6 25.1 18.1 21.5 20 22.5 21.8 24.3 19
$ pdsfinal : num 26.2 26.9 32 26.9 28.1 28.4 30.1 29.4 30.1 27.7
$ traitement: int 1 1 1 1 1 1 1 1 1 1

DEFINITIONS/RAPPEL
Variable réponse, ou variable à expliquer, notée Y . C'est la variable qui mesure le phénomène
auquel on s'intéresse. On cherche à connaître l'eet des autres variables sur Y .

Variable explicative ou facteur, notée Xj , pour j = 1, . . . , p. Ce sont des variables dont on


cherche à étudier l'eet sur Y . Xj peut être qualitative ou continue.

Quelle est la variable réponse et quelle est la variable explicative ? Quelle est la nature de ces deux variables

(entourez votre réponse) ?

Variable réponse : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

c'est une variable quantitative/qualitative

95
M1/2015-2016 Module Statistique 1

Variable explicative : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

c'est une variable quantitative/qualitative

NATURE DES VARIABLES EN REGRESSION LINEAIRE


Dans les modèles de régression linéaire, la variable réponse et les variables explicatives sont quan-
titatives.

7.1.3 Quelques statistiques descriptives


On représente graphiquement le poids nal des huîtres recevant le traitement 1 en fonction de leur poids
initial.

> plot(tab1$pdsinit,tab1$pdsfinal)
32
31
30
tab1$pdsfinal
29
28
27
26

18 19 20 21 22 23 24 25
tab1$pdsinit

1. D'après cette représentation graphique, peut-on supposer que le poids nal des huîtres puisse être lié à

leur poids initial ? Justier.

. .......................................................................................................

. .......................................................................................................

2. Quelle serait la nature de ce lien ?

. .......................................................................................................

On calcule également le coecient de corrélation entre le poids initial et le poids nal des huîtres recevant
le traitement 1.

 96 
M1/2015-2016 Module Statistique 1

> cor.test(tab1$pdsinit,tab1$pdsfinal)

Pearson's product-moment correlation

data: tab1$pdsinit and tab1$pdsfinal


t = 5.2295, df = 8, p-value = 0.0007934
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.5602148 0.9712980
sample estimates:
cor
0.8795877

3  Rappeler la dénition du coecient de corrélation.

. .......................................................................................................

. .......................................................................................................

4  Quelles sont les valeurs possibles pour un coecient de corrélation ?

. .......................................................................................................

5  Quelle est sa valeur ici ?

. .......................................................................................................

6  Comment peut-on interpréter ce résultat ?

. .......................................................................................................

. .......................................................................................................

7.2 Modèle, estimation et vérication des hypothèses


Notons Yi la variable aléatoire correspondant au poids nal de la i-ième huître, xi son poids nal et n le
nombre d'observations échantillonnées.

7.2.1 Modèle
MODELE DE REGRESSION LINEAIRE SIMPLE
Le modèle de régression linéaire simple suppose l'existence d'une relation ane entre Y et x. Il s'écrit :

Yi = α + βxi + Ei , Ei ∼ N (0, σ 2 ) , i = 1, . . . , n.
i.i.d.

Remarques :

• On a naturellement tendance à interpréter le lien entre Y et x comme une relation de causalité. En eet,
le modèle n'est pas symétrique. Cependant, l'analyse du modèle statistique ne mettra en évidence qu'un
lien entre Y et x. La relation de causalité ne pourra être établie qu'à partir de connaissances extérieures.
• On notera bien que la variable à expliquer et la variable explicative n'ont pas le même statut dans le
modèle. La variable réponse est représentée par une lettre majuscule (Yi ), signiant qu'il s'agit bien d'une
variable aléatoire dont on cherche à expliquer les variations. La variable explicative est quant-à elle notée
en minuscule (xi ), ce qui signie que la donnée des poids initiaux est déterministe.
• Les paramètres α et β sont inconnus et doivent être estimés à partir des données de l'échantillon. En
particulier la valeur du coecient β permettra de conclure en l'existence ou non d'un lien entre Y et x.
La relation ane supposée par le modèle de régression linéaire simple est représentée par la droite ci-dessous
superposée aux observations.

 97 
M1/2015-2016 Module Statistique 1

32
31
30
tab1$pdsfinal
29
28
27
26

18 19 20 21 22 23 24 25
tab1$pdsinit

7  Quel est le lien entre les paramètres α et β du modèle et cette représentation graphique ?

. .......................................................................................................

. .......................................................................................................

8  Représenter les Ei sur le graphique.

7.2.2 Estimation
9  Quels sont les paramètres du modèle ?

Pour la partie déterministe : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Pour la partie résiduelle : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10  Combien de paramètres doit-on estimer ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

METHODE D'ESTIMATION
Les paramètres α et β du modèle de régression linéaire simple sont estimés par la méthode des
moindres carrés. Il s'agit de trouver les valeurs de α et β dénissant la droite passant au plus
proche des observations, c'est-à-dire les valeurs de α et β pour lesquelles l'erreur du modèle est la
plus petite possible. Ces valeurs sont donc obtenus comme suit :
n
X
min (Yi − α − βxi )2 .
α,β
i=1

 98 
M1/2015-2016 Module Statistique 1

Les estimateurs α̂ et β̂ des paramètres α et β ont une expression explicite en fonction des variables aléatoires
Yi et des données xi :
Sxy
β̂ = 2 , α̂ = Ȳ − β̂ x̄,
Sx

n n n n
1 X 1 X 1X 1X
Sxy = (xi − x̄)(Yi − Ȳ ) , Sx = (xi − x̄)2 , x̄ = xi , Ȳ = Yi .
n − 1 i=1 n − 1 i=1 n i=1 n i=1

Les estimations de ces paramètres a et b (réalisations des estimateurs α̂ et β̂ ) sont obtenues selon les mêmes
expressions à partir des données de l'échantillon.

On appelle droite de régression la droite d'équation y = a + bx obtenue par l'estimation par la


méthode des moindres carrés des paramètres α et β du modèle. La droite de régression est la droite
du plan passant au plus proche des observations.
On réalise l'estimation du modèle par la méthode des moindres carrés.

> mod1=lm(tab1$pdsfinal~tab1$pdsinit)
> summary(mod1)

Call:
lm(formula = tab1$pdsfinal ~ tab1$pdsinit)

Residuals:
Min 1Q Median 3Q Max
-1.7973 -0.6105 0.4687 0.6698 0.7028

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 13.6741 2.8649 4.773 0.001403 **
tab1$pdsinit 0.7021 0.1343 5.229 0.000793 ***
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 0.911 on 8 degrees of freedom


Multiple R-squared: 0.7737,Adjusted R-squared: 0.7454
F-statistic: 27.35 on 1 and 8 DF, p-value: 0.0007934

11  Quelles sont les estimations a et b des paramètres α et β ?

a = ....................................................................................................

b = ....................................................................................................

12  Comment interprétez-vous le signe de b ?

. .......................................................................................................

. .......................................................................................................

13  Quelle est l'équation de la droite des moindres carrés ?

. .......................................................................................................

7.2.3 Prédiction
PREDICTION
Connaissant xi , le poids initial d'une huître, on souhaite prédire son poids nal ŷi . La valeur de la
prédiction s'obtient à partir des paramètres estimés du modèle :

ŷi = a + bxi .

 99 
M1/2015-2016 Module Statistique 1

14  Sur le graphique précédent, représentez les prédictions du modèle pour les poids initiaux des huîtres ob-

servées.

15  Où se trouvent l'ensemble de ces prédictions ?

. .......................................................................................................

16  Quelle est la valeur du poids nal prédit par le modèle pour une huître dont le poids initial est de 33g ?

. .......................................................................................................

17  Cette prédiction vous paraît-elle able ? Justier.

. .......................................................................................................

. .......................................................................................................

7.2.4 Vérication des hypothèses du modèle


RESIDU OBSERVE
De la même façon, on dénit le résidu observé associé à l'observation yi :

ei = yi − ŷi

Il s'agit de l'écart entre l'observation yi et la prédiction du modèle pour cette observation.

18  Représentez les résidus sur le graphique ci-dessous pour les deux observations représentées par une croix.

Les résidus observés sont utiles dans l'analyse des résultats d'une régression linéaire simple, puisqu'ils per-
mettent de vérier que les hypothèses sur lesquelles repose le modèle sont valides.

Remarque : par construction avec la méthode des moindres carrés, la moyenne des résidus est toujours égale
à 0. Il n'est donc pas pertinent de vérier l'hypothèse selon laquelle les résidus sont centrés.

 100 
M1/2015-2016 Module Statistique 1

19  Rappelez les hypothèses à vérier du modèle :


HYPOTHESES
• ..............................................................................................
• ..............................................................................................
• ..............................................................................................
• ..............................................................................................

On eectue l'analyse des résidus du modèle :

par(mfrow=c(2,2))
plot(mod1)

Residuals vs Fitted Normal Q−Q


Standardized residuals
1.0

1.0
10 3 10 3
Residuals
−0.5

−0.5
−2.0
−2.0

1 1

27 28 29 30 31 −1.5 −0.5 0.5 1.5


Fitted values Theoretical Quantiles
Standardized residuals

Scale−Location Residuals vs Leverage


Standardized residuals
1.5

1 0.5
3
1
1.0

3
0

10
−2 −1
0.5

9
0.5
1
Cook's distance
0.0

27 28 29 30 31 0.0 0.1 0.2 0.3 0.4


Fitted values Leverage

Commentaires des sorties R :

• Le premier graphique, en haut à gauche, représente les résidus observés eik en fonction des valeurs prédites
ŷik . Sur ce graphique, les points doivent être régulièrement répartis autour de l'axe y = 0. Si tel n'est
pas le cas, cela peut indiquer une tendance dans les données, qu'il est souhaitable de corriger avant de
poursuivre l'analyse, ou encore que l'hypothèse d'indépendance entre les observations n'est pas correcte.

• Le deuxième graphique, en haut à droite, s'appelle QQ-plot. Il représente les quantiles de la distribution
observée des résidus standardisés (ie réduits) en fonction des quantiles d'une distribution Gaussienne centée
et réduite N (0, 1). Des points alignés le long de la diagonale, indiquent que l'hypothèse de normalité des
résidus est plausible. Au contraire, des points éloignés de la diagonale contredisent l'hypothèse de normalité
des résidus.

• Le troisième graphique, en bas à gauche, représente les résidus standardisés en fonction des observations. Ce
graphique permet de vérier l'hypothèse d'homoscédasticité. Les points doivent former un nuage homogène

 101 
M1/2015-2016 Module Statistique 1

et la ligne d'extrapolation rouge doit être à peu près horizontale. Si tel n'était pas le cas (nuage en forme
d'entonnoir notamment), l'hypothèse d'homoscédasticité est contredite, et il peut être utile de transformer
les données de façon à se ramener à un modèle pour lequel cette hypothèse est valide.

• Le quatrième graphique, en bas à droite, permet d'identier d'éventuels points aberrants et trop inuants
susceptibles de rendre les estimations du modèle peu robustes. Il est recommandé de supprimer ces points,
s'il y en a, pour aboutir à un modèle robuste.

20  Quelles sont vos conclusions concernant les hypothèses du modèle proposé pour modéliser le poids nal

des huîtres en fonction de leur poids initial ?

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

7.3 Tests
Une fois que les hypothèses du modèle sont vériées, on peut interpréter les tests.

7.3.1 Test global du modèle


TEST GLOBAL DU MODELE ET DECOMPOSITION
DE LA VARIABILITE TOTALE

De manière générale, le test global du modèle permet de tester si la variabilité prédite par le modèle
est signicative par rapport aux variations observées dans l'échantillon. Ici, le test global du modèle
permet de tester l'inuence du poids initial sur le poids nal des huîtres. Les hypothèses nulle et
alternative associées à ce test sont donc les suivantes :

• H0 : Yi = α + Ei (le poids initial des huîtres n'a pas d'inuence sur leur poids nal)
• H1 : Yi = α + βxi + Ei (le poids initial des huîtres a une inuence sur leur poids nal)
La statistique de test F pour le test global du modèle est construite à partir de la décomposition de
la variabilité totale :
SCT = SCM + SCR
où, en notant Ȳ la moyenne de l'ensemble des observations,
Pn
• SCT = i=1 (Yi − Ȳ )2 est le terme de variabilité totale qui représente la variabilité intrinsèque
aux données (SCT : Somme des Carrés Totale),
Pn
• SCM = i=1 (Ŷi − Ȳ )2 représente la variabilité des données expliquée par le modèle (SCM :
Somme des Carrés du Modèle),

Pn
• SCR = i=1 (Yi − Ŷi )2 est la variabilité résiduelle, i.e. la variabilité des données non expliquée
par le modèle (SCR : Somme des Carrés Résiduelle).

L'expression de la statistique de test est donnée par :


SCM
F =
SCR/(n − 2)

où n est le nombre d'observations. Sa distribution sous H0 est une loi de Fisher F1,n−2 . L'idée derrière
cette statistique de test va être de comparer la SCM et la SCR et de conclure en l'inuence du facteur
sur la variable réponse si la SCM est susamment grande devant la SCR.

 102 
M1/2015-2016 Module Statistique 1

La décomposition de la variabilité totale ainsi que les résultats associés au test global du modèle gurent
dans la sortie R ci-dessous.

> anova(mod1)
Analysis of Variance Table

Response: tab1$pdsfinal
Df Sum Sq Mean Sq F value Pr(>F)
tab1$pdsinit 1 22.6965 22.6965 27.347 0.0007934 ***
Residuals 8 6.6395 0.8299
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

21  Explicitez les termes du tableau de l'analyse de la variance ci-dessous.

Degré de liberté Sommes des carrés Carrés moyen Stat. de test F P.value
Poids initial
1 SCM SCM/1 F = SCM
SCR/(n−2) P r(F > f )
(cf encadré)
= = = = =

Résidus
n-2 SCR SCR/(n-2)
(cf encadré)
= = =

22  Quelle est la p-value de ce test ? Qu'en concluez-vous ?

. .......................................................................................................

. .......................................................................................................

7.3.2 Coecient de détermination, estimation de la variance


Dans les sorties de la commande summary de R, on peut également lire
• la valeur du coecient de détermination,
• la valeur estimée de la variance résiduelle.

Coecient de détermination
COEFFICIENT DE DETERMINATION
Le coecient de détermination, noté R2 est un indicateur numérique qui permet d'apprécier à quel
point le modèle est adapté pour décrire la variabilité des données. Plus précisément, le R2 exprime la
part de la variabilité des données expliquée par le modèle ; il se calcule comme suit :
SCM
R2 = ,
SCT
où les termes SCM et SCT ont été dénis plus haut. Il prend sa valeur dans l'intervalle [0, 1]. Plus
elle est proche de 1, meilleure est la qualité d'ajustement du modèle.

23  Quelle est la valeur du coecient de détermination dans l'exemple ? Qu'en concluez-vous ?

. .......................................................................................................

. .......................................................................................................

. .......................................................................................................

 103 
M1/2015-2016 Module Statistique 1

Rermarque : le R2 donne une indication sur les propriétés prédictives du modèle mais il ne permet pas de
conclure sur l'existence d'un lien entre x et Y . En eet, si le test global est signicatif mais que le R2 a une
valeur très faible, on concluera quand même à l'existence d'un lien entre x et Y .

Estimation de la variance
ESTIMATION DE LA VARIANCE RESIDUELLE
Pour estimer la variance résiduelle, on utilise l'estimateur suivant : S 2 = SCM
n−2

24  Quelle est la valeur σ


c2 de l'estimation de la variance dans l'exemple ?
σ =...................................................................................................
c2

25  Retrouvez la valeur de σc2 dans la table d'analyse de la variance.


. .......................................................................................................
. .......................................................................................................

7.4 Exercice
Nous nous intéressons maintenant aux huîtres recevant le traitement 2. Nous cherchons à étudier le lien entre
le poids initial et le poids nal des huîtres recevant cet autre traitement. Les données sont les suivantes.

> tab2=tab[tab$traitement==2,]
> tab2
pdsinit pdsfinal traitement
11 27.2 36.9 2
12 32.0 50.2 2
13 33.0 53.1 2
14 26.2 35.3 2
15 31.6 46.2 2
16 28.1 43.4 2
17 29.4 42.9 2
18 27.3 33.3 2
19 29.6 47.5 2
20 28.2 42.1 2

1. Une brève étude descriptive des données est fournie ci-dessous. Commenter les résultats au regard de la
question qui motive l'étude.

> plot(tab2$pdsinit,tab2$pdsfinal)
> cor.test(tab2$pdsinit,tab2$pdsfinal)

Pearson's product-moment correlation

data: tab2$pdsinit and tab2$pdsfinal


t = 6.5806, df = 8, p-value = 0.0001728
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.6858281 0.9809310
sample estimates:
cor
0.9187318

2. Quel modèle suggérez-vous pour expliquer le poids nal des huîtres recevant le traitement 2 en fonction
de leur poids initial ? Justier.
3. Ecrire le modèle mathématique en prenant soin de préciser l'ensemble des notations, les gammes de
variation des indices et en indiquant les éventuelles hypothèses sur lesquelles il repose. On fournit ci-
dessous l'ensemble des sorties R pour l'estimation de ce modèle.

 104 
M1/2015-2016 Module Statistique 1

50
tab2$pdsfinal
45
40
35

26 27 28 29 30 31 32 33
tab2$pdsinit

> mod2=lm(tab2$pdsfinal~tab2$pdsinit)
> par(mfrow=c(2,2))
> plot(mod2)
> anova(mod2)
Analysis of Variance Table

Response: tab2$pdsfinal
Df Sum Sq Mean Sq F value Pr(>F)
tab2$pdsinit 1 317.23 317.23 43.304 0.0001728 ***
Residuals 8 58.60 7.33
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
> summary(mod2)

Call:
lm(formula = tab2$pdsfinal ~ tab2$pdsinit)

Residuals:
Min 1Q Median 3Q Max
-4.6993 -0.7681 0.0756 1.3964 3.5269

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -32.9073 11.5803 -2.842 0.021756 *
tab2$pdsinit 2.5973 0.3947 6.581 0.000173 ***
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 2.707 on 8 degrees of freedom


Multiple R-squared: 0.8441,Adjusted R-squared: 0.8246

 105 
M1/2015-2016 Module Statistique 1

F-statistic: 43.3 on 1 and 8 DF, p-value: 0.0001728

Residuals vs Fitted Normal Q−Q

Standardized residuals
0 2 4
6 9 6 9

1.0
Residuals

−0.5
−4

−2.0
8 8

35 40 45 50 −1.5 −0.5 0.5 1.5


Fitted values Theoretical Quantiles
Standardized residuals

Scale−Location Residuals vs Leverage


Standardized residuals
8 1
6
1.2

6 9 0.5
1
0
0.6

5 0.5
Cook's distance 1
−2
0.0

35 40 45 50 0.0 0.1 0.2 0.3 0.4


Fitted values Leverage

4. Interpréter les résultats.

5. On réunit maintenant l'ensemble des données des huîtres recevant les traitements 1 et 2. Les données sont
représentées ci-dessous. Des couleurs diérentes sont utilisées pour les deux traitements. On représente
également les droites de régression des deux modèles construits pour les huîtres recevant le traitement 1
et pour les huîtres recevant le traitement 2. Que pensez-vous du lien entre le poids initial et le poids nal ?
Semble-t-il être le même pour les deux traitements ?

> plot(tab$pdsinit,tab$pdsfinal,col=tab$traitement)
> abline(coef(mod1),lty=3)
> abline(coef(mod2),lty=3,col=2)

6. On souhaite étudier le lien entre le poids nal des huîtres et leur poids initial sans considérer la donnée du
traitement. On propose un modèle de régression linéaire simple, dont les résultats sont fournis ci-dessous.

> mod=lm(tab$pdsfinal~tab$pdsinit)
> par(mfrow=c(2,2))
> plot(mod)
> anova(mod)
Analysis of Variance Table

Response: tab$pdsfinal
Df Sum Sq Mean Sq F value Pr(>F)
tab$pdsinit 1 1307.50 1307.50 156.52 2.573e-10 ***
Residuals 18 150.37 8.35
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
> summary(mod)

 106 
M1/2015-2016 Module Statistique 1

50
45
tab$pdsfinal
40
35
30

20 25 30
tab$pdsinit

Call:
lm(formula = tab$pdsfinal ~ tab$pdsinit)

Residuals:
Min 1Q Median 3Q Max
-6.1805 -1.3758 -0.3148 2.4113 3.9393

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -8.9494 3.6376 -2.46 0.0242 *
tab$pdsinit 1.7740 0.1418 12.51 2.57e-10 ***
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 2.89 on 18 degrees of freedom


Multiple R-squared: 0.8969,Adjusted R-squared: 0.8911
F-statistic: 156.5 on 1 and 18 DF, p-value: 2.573e-10

7. Commenter les résultats obtenus.

8. Que suggérez-vous pour améliorer l'étude du lien entre le poids initial et le poids nal des huîtres ?

7.5 Synthèse : régression linéaire simple


Résumons les diérentes étapes du travail sur une régression linéaire simple. Dans l'ordre, elles sont :

1. Ecrire le modèle.

2. En estimer les paramètres.

 107 
M1/2015-2016 Module Statistique 1

Residuals vs Fitted Normal Q−Q

Standardized residuals
19 19

1
Residuals
2

0
−2 9 9
−6

−2
18 18

25 35 45 −2 −1 0 1 2
Fitted values Theoretical Quantiles
Standardized residuals

Scale−Location Residuals vs Leverage

Standardized residuals
1.5

18
4 13

1
9 19
1.0

0
0.5

−2
Cook's distance 0.5
0.0

18

25 35 45 0.00 0.10 0.20


Fitted values Leverage

3. Vérier les hypothèses :

(a) Si les hypothèses sont vériées alors on peut interpréter les résultats de la régression linéaire simple.
(b) Si non, il faut transformer les données ou supprimer les points aberrants de façon à se ramener à un
modèle dont les hypothèses sont valides.

4. Interpréter les résultats :

(a) Test global du modèle.


(b) Interprétation des coecients, en particulier le signe de b.

7.6 Synthèse : étude du lien entre deux variables


Les outils statistiques permettant l'étude du lien entre deux variables sont diérents selon la nature des
variables étudiées :

• entre deux variables qualitatives : test du chi-deux d'indépendance,


• entre deux variables quantitatives : régression linéaire simple,
• entre une variable quantitative et une variable qualitative : analyse de la variance à un facteur, ou si la
variable qualitative ne possède que deux modalités : test de Student de comparaison de deux moyennes.

 108