Vous êtes sur la page 1sur 51

'-,

Université Claude Bernard, Lyonl

Année universitaire 2010/2011

Master Pro 1 -

STATISTIQUE PARAMETRIQUE

Gabriela CIUPERCA
http://math.univ-lyonl.fr/~gciuperca/

1
/
.r''''

Table des matières

1 STATISTIQUE DESCRIPTIVE 5
1.1 Introduction . 5
1.1.1 Généralités sur la Statistique. 5
1.1.2 Terminologie de base ..... 5
1.2 Statistique descriptive unidimensionnelle . 6
1.2.1 Variable quantitative discrète 6
1.2.2 Variable quantitative continue 8
1.2.3 Variable qualitative ..... 9

2 NOTIONS D'ECHANTILLONAGE 10
2.1 Moments empiriques . 10
2.2 Fonction de répartition empirique. 10
2.3 Rappels . . . . . . . . . . . . . . 11

3 THEORIE DE L'ESTIMATION 12
3.1 Théorie de l'estimation ponctuelle 12
3.1.1 Propriétés des estimateurs . 12
3.1.2 Méthodes d'estimation 15
3.1.3 Familles exponentielles. 18
3.2 Estimateur par intervalle. 19

4 THEORIE DES TESTS 20


4.1 Tests paramétriques . 20
4.1.1 Lemme de Neyman-Pearson . 21
4.1.2 Test du rapport de vraisemblance et de Wald 25
4.2 Tests non-paramétriques . 27
4.2.1 Théorème de Pearson . 27
4.2.2 Test de X2 d'ajustement .. 28
4.2.3 Test de X2 d'indépendance 28
4.2.4 Test de Kolmogorov-Smirnov 29
4.2.5 Test de Smirnov, de comparaison de deux échantillons indépendantes. 29
4.2.6 Test de la médiane sur des groupes indépendants 29
4.2.7 Test de Spearman 30
4.2.8 Test de Wilcoxon .. 31

5 REGRESSION LINEAIRE 32
5.1 Généralités sur le Modèle Linéaire . 32
5.2 Régression linéaire simple . 33
5.2.1 Description des données du modèle 33
5.2.2 Estimation des paramètres du modèle 34
5.2.3 Mesure de l'ajustement . 36
5.2.4 Décomposition de la variabilité de Y 36
5.2.5 Evaluation de l'ajustement 37
5.2.6 Tests sur les paramètres 37
5.2.7 Prévision d'une valeur ... 39
5.3 Régression linéaire multiple . . . . 39
5.3.1 Estimation des paramètres 39
5.3.2 Décomposition de la variabilité de Y 41
5.3.3 Mesure de l'ajustement (empirique) 41
5.3.4 Théorème de Gauss-Markov ... 42

2
5.3.5 Tests d'hypothèse .... 42
5.3.6 Sélection des régresseurs 43

6 ANALYSE DE VARIANCE 45
6.1 Analyse de variance à un facteur 45
6.1.1 Introduction 45
6.1.2 Terminologie . 45
6.1.3 Données . 45
6.1.4 Modèles statistiques 46
6.1.5 Estimation des paramètres 47
6.1.6 Tests d'hypothèses ..... 47
6.2 Analyse de variance à deux facteurs 48
6.2.1 Introduction . 48
6.2.2 Données . 48
6.2.3 Modèle sans intéraction (additif) : r=1 49
6.2.4 Modèle avec interaction (additif) : r > 1 51

3
r

Les Statistiques sont une continuation des Probabilités: ces deux disciplines étudient les phénomènes aléatoires:
- en Probabilités les lois des variables aléatoires sont totalement connues et on étudie leurs propriétés;
- en Statistique la loi est totalement ou partiellement inconnue. Sur la base d'une expérience pratique on essaie de
la déduire. Les connaissances de Probabilités jouent un role essentiel.

Exemple. Une machine fabrique des objets dont une proportion P (inconnue) est défectueuse. On veut vérifier
si la machine est encore en bon état: P :s; Po, pour un Po fixé. On prélève au hasard n de ces objets, que l'on vérifie,
et à partir de ces observations, on essaie de répondre à la question.

Donc, un problème de statistique typique peut être décrit comme suit: une séries d'expériences aléatoires sont
réalisées et on mesure les données. Ces données sont des réalisations d'une variable aléatoire. (Pour l'exemple va-
riable aléatoire de Bernoulli).
Problèmes statistiques courants :
- estimer des paramètres (ou la loi). Répondre à la question: est-ce que ces estimateurs ont des bonnes propriéteés
(si jamais on répète l'expérience on obtient des estimations proches) ;
- il y a deux éventualités dont une seule est vraie: tests d'hypothèse (exemple: efficacité d'un médicament).
Les applications de la Statistique sont très nombreuses: prévisions météo (modélisation physique et aléatoire),
industrie pharmaceutique: l'efficacité des médicaments, médecine (modélisation de la progression d'une maladie),
économétrie, ....

Liste des notations

At : la matrice A transposée;
nA : la fonction indicatrice de A;
~ : la convergence presque sûre pour n convergeant vers l'infini;
n~oo

~ : la convergence en probabilité pour n convergeant vers l'infini;


n-+oo

~ : la convergence en loi pour n convergeant vers l'infini;


n~oo
lE[X] : l'espérance de X;
Var[X] : la variance (matrice de variance-covariance) de X;
N(m, (J2) : la loi Normale unidimensionnelle d'espérance m et de variance (J2 ;
Afdm, I;) : la loi Normale de dimension k, d'espérance m et de matrice de variance-covariance I;;

(1.
2(k) : la loi de X2 à k degrés de liberté;
t(k): la loi de Student à k degrés de liberté;
F(m, n) : la loi de Fisher à m et n degrés de liberté;

~w\.e •..'$-; ~ dA/" \1 e c. h:ù-( G'o;..vq;iÎ>~E •\

4
Chapitre 1

STATISTIQUE DESCRIPTIVE \JVLL_cP-,,,~~~;C,;è{!e

sfof 1
De.5c.,..;f'\:"ive.
/
-V1wlri-oL"
1 1'"
ec·SQ~'.f'
üe:•
1.1 Introduction P!J t hflJe? fen ~C!Yle.!i"'5

1.1.1 Généralités sur la Statistique


Définition. On appelle Statistique l'ensemble des méthodes (techniques) permettant d'analyser (traiter) des
ensembles d'observations (données).
Les méthodes en question relèvent le plus souvent des mathématiques (raison pour laquelle, la Statistique fait partie
des Mathématiques appliquées) et font largement appel à l'outil informatique pour leur mise en ouevre.

Statistique descriptive et statistique inférentielle


De manière approximative, il est possible de classer les méthodes statistiques en deux groupes: celui des méthodes
descriptives et celui des méthodes inférentielles.

- La statistique descriptive. On regroupe sous ce terme les méthodes dont l'objet principal est la description
des données étudiées; cette description des données se fait à travers leur présentation (la plus synthétique
possible), leur repésentation graphique, et le calcul de résumés numériques. Dans cette optique, on ne fait pas
appel à des modèles probabilistes.
- La statistique inférentielle. Ce terme regroupe les méthodes dont l'objectif principal est de préciser un
phénomène sur une population globale, à partir de son observation sur une partie restreinte de cette popu-
lation, il s'agit donc d'induire (ou encore d'inférer) du particulier au général. Le plus souvent, ce passage ne
pourra se faire que moyennant des hypothèses probabilistes.
D'un point de vue méthodologique, on notera que la statistique descriptive précède en général la statistique
inférentielle dans une demarche de traitement de données.

1.1.2 Terminologie de base


Po ulation (ou population statistique) :_ensemble (au sens mathématique du terme) concerné par une étude sta-
tistique.
Individu toute unité de la population.
Echantillon : sous-ensemble de la population sur lequel sont effectivement réalisées les observations.
Taille de l'échantillon n : cardinal du sous-ensemble correspondant.
Enquête (statistique) : opération consistant à observer (ou mesurer, ou questioner, ...) l'ensemble des ~ldividus .
" . ./" X: :JZ. - t: \/(0 yi Vl.vVVle.F~'tU
d un échantillqn, .... . ~ ..- 1va.L'rC{r'~,J",· "u$""!-e. 'lftO"\A-\k--rt ftv\.,~t (;k \.Tt'. \c-t)>(",~
T ...••.•.
---'u.:;~u!.\!a~:<::':':_
ve V.o.. j. <-Q{)(!.<A.~r'~"ùe",,/' .
si qualitative l -Cov ~"'t.tle
caractéristique âge, salaire, sexe, ....) définie sur la population et observée sur l'échantillon. Si la variable est à
valeurs dans IR (ou un sous-ensemble de IR), elle est dite quantitative (âge, salaire, taille, ...); sinon elle est dite
qualitative (sexe, catégorie socio-professionnelle, ...).
Données (statistiques) : ensemble des individus observés (échantillon), des variables considérées, et des n observa-
tions de ces variables sur ces individus. Elles sont en général présentées sous forme de tableaux (individus en lignes
et variables en colonnes).
Lorsque n est grand on cherche à synthétiser cette masse d'informations sous une forme exploitable et compréhensible.
Une première étape consiste à décrire séparément les résultats obtenus pour chaque variable: c'est la description
unidimensionnelle.
5-r~et:, let-f...C3'::> ~. CA.. X
reIt ~e ':> fc>H-re X 1C;'- i e.o
.s: (,-50J·~. ci f> /0. V. x.
G-E 5
LJJ 6 52. , X';:: ;X( w) ,,/ e ?.
ti
;K(Wt) :::;(1'
~~----------------------------~------------------------------------------------------------------------------~/
1.2 Statistique descriptive unidimensionnelle
Si X est une variable statistique et si Wi désigne l'individu générique de l'échantillon observé, nous noterons
Xi = X(Wi) la valeur prise par cette variable sur cet individu. L'échantillon observé sera de dimension n. L'ensemble
{X (Wi); i = 1, ..., n} constitue ce que l'on appelle-la série statistique brute. Le but de ce chapitre est d'exposer les ou-
tils élémentaires, adaptés au type de variable observée permettant de présenter une série brute de façon synthétique
et d'en résumer les principales caractéristiques. La synthèse se fait sous la forme de tableaux, de graphiques, et
de résumés numériques. Sont ainsi introduites les notions de médiane, quantile, moyenne, variance, écart-type
parallèlement aux représentations graphiques usuelles: diagramme en bâton, histogramme, boîte-à-moustaches,
graphiques cumulatives, diagrammes en colonnes, en barre ou en secteurs.

Dans la suite, on distinguera trois cas suivants que la variable étudiée est une:
- variable quantitative discrète (elle ne prend qu'un nombre fini ou dénombrable de valeurs; en général il s'agit
d'entiers)
- variable guantitative continue (variable quantitative qui n'est pas discrète)
- variable qualitative (oui/non, femme/homme ....).

1.2.1 Variable quantitative discrète


Introduction
Exemples
1) Le nombre d'enfants dans une population de 10 familles: 1,2,0,1,1,2,3,4,0,3.
2) L'âge (arrondi à l'année près) des 48 salariés d'une entreprise; la série statistique brute est donnée ci-dessous

43 29 57 45 50 29 37 59 46 31 46 24 33 38 49 31
62605238382641526049524138263759
57412933334346574633464957574643

Présentation des données: Le tableau statistique

Notons Xl, ... , Xn la suite des observations rangées par ordre croissant, n étant la taille de l'échantillon. Soient
Zl, ces observations rangées par ordre croissant et non répétées (distinctes). Elles s'appellent modalités.
... , Zr

Dans le tableau statistique la première colonne est l'ensemble de ces r valeurs. Puis on leur fait correspondre dans
r

une seconde colonne leurs effectifs, c'est-à-dire le nombre de réplications, notés nI, ... , nr· Alors L ni = n. Dans
i=l
la troisième colonne on écrit les fréquences: Ii = n;/n. Il peut être utile de compléter le tableau statistique en X
rajoutent les fréquences cumulés:

On note que Fr = 1.

Illustration
Dans le tableau suivant, on a calculé, sur les données présentées dans l'exemple 2, les effectifs, les fréquences et les
fréquences cumulés.

6
Zi ni fi Fi
24 1 0.02 0.02
26 2 0.04 0.06
29 3 0.06 0.12
31 2 0.04· 0.16
33 4 0.08 0.24
37 2 0.04 0.28
38 4 0.08 0.36
41 3 0.06 0.42
43 3 0.06 0.48
45 1 0.02 0.50
46 6 0.13 0.63
49 3 0.06 0.69
50 1 0.02, 0.71
52 3 0.06 0.77
57 5 0.11 0.88
59 2 0.04 0.92
60 2 0.04 0.96
62 1 0.02 1.00

Graphiques usuels
Pour une variable discrèt~, on rencontre essentiellement deux sortes de représentations graphiques, qui sont en
fait complémentaires: le diagramme en bâtons et le diagramme cumulatif (en escaliers).

Le diagramme en bâton
Se construit avec les modalités (observations distinctes) en abscisse et les effectifs en ordonnée. Il permet de donner
une vision d'ensemble des observations réalisées.
Le diagramme cumulatif
Il s'obtient à partir des fréquences cumulés et c'est le graphe d'une fonction appelée fonction de répartition empirique
et définie ainsi :
si x < Zl
si Zi:S;X<Zi+1 (i=l, ...,r-l)
si x 2' Zr

Résumés numériques
La description des données a pour objet le calcul des paramètres ou des valeurs typiques, qui permettent de
caractériser de façon simple par un nombre petit de valeurs numériques les données observées. Les valeurs les plus
couramment utilisées sont :
- des paramètres de position ou de tendance centrale. Leur objectif est de fournir un ordre de grandeur de la série
étudiée, c'est-à-dire d'en situer le centre, le milieu. Les deux caractéristiques les plus usuelles sont:

-la moyenne
- la médiane

- des caractéristiques de dispersion,. qui permettent de chiffrer la variabilité des valeurs observées autour d'un
paramètre de position :

-la variance, l'écart-type


-l'écart moyen absolu
- l'écart moyen à la médiane
-l'intervalle interquartilles

Paramètres de position ces grandeurs donnent un "milieu", une position moyenne autour desquelles les données
sont réparties. .
Définition La moyenne empirique (ou simplement la moyenne) est la moyenne arithmétique des observations:

1 n 1 r

z; = - L Xi = - L njZj
n i=l n j=l

La moyenne est fonction de toutes les observations mais elle est sensible aux valeurs extrêmes.
Définition La médiane est un paramètre de position tel que la moitié des observations lui sont inférieures (ou

7
égales) et la moitié supérieures.
Pour calculer la médiane d'un échantillon il faut d'abord ordonner les données en ordre. croissant: Xl :S: X2 :S: ... :S:
Xn, avec Xi les valeurs de x ordonnées.
- si ti est impair: n = 2k + 1, la médiane est l'observation de rang l = k + 1 nt
med(x) = Xk+l = X.!!.±..!.
2

Observation: la médiane est une valeur mesurée.


- lorsque n est pair: n = 2k, tout nombre compris entre x~ et X~+l répond à la définition et on convient
généralement de prendre comme valeur de la médiane la moyenne arithmétique de ces deux observations:

me d()x = Xk + Xk+l
---,,.---'-
2
La principale propriété de la médiane concerne la place qu'elle occupe par rapport à la moyenne. Dans le cas
des distributions symétriques la médiane est égale à la moyenne. Par contre pour les distributions dissymétriques,
la moyenne est différente de la moyenne. Par exemple si la dissymétrie est à gauche(maximum des fréquences
décentrées vers la gauche) alors la médiane est inférieure à la moyenne. La différence entre les deux paramètres est
d'autant plus importante, en valeur absolu~, que la dissymétrie est plus prononcée.
Paramètres de dispersioI\ Ils servent à préciser la variabilité de la série de données, c'est-à-dire à résumer
l'éloignement de l'ensemble des observatjons par rapport à leur tendance centrale.
a) La variance, l'écart-type
Définition La variance d'une série est la moyenne arithmétique des carrés des écarts par rapport à la moyenne:
1 n
Var(x) =-
n
2.)Xi - xn)2
i=l

L'écart-type est la racine carrée de la variance 17 = JVar(x).


b) Les guartiles, l'écart interguartil.~~ Les quartiles divisent l'échantillon ordonné en ordre croissant en 4
sous-ensembles de même effectif: Ql,Q2,Q3. Donc Q2 est la médiane. Un quart des observations sont inférieures
ou égales au premier quartile QI et trois quarts des observations lui sont supérieures. Le troisième quartile est
supérieur à trois quarts des observations et inférieur à un quart.
La différence Q3-QI est écart interquartiles.
Les quartiles permettent de construire les diagrammes de type boxplot ou diagramme en boîte à moustaches. La par-
tie centrale du boxplot est représentée par une boîte de longueur l'écart interquartiles Q3-Ql. On trace à l'intérieur
la position de la médiane. La boîte est complétée par des moustaches correspondant aux valeurs:
- partie supérieure: la plus grande valeur inférieure à Q3 + 1.5(Q3 - QI) ;
- partie inférieure: la plus petite valeur supérieure à QI - 1.5(Q3 - QI).
On définie les valeurs extrêmes, celles qui sortent des " moustaches" . On tel graphique permet de repérer les
éventuelles valeurs aberrantes et facilite la comparaison de plusieurs distributions. Comparer des diagrammes en
boîte est plus aisé que comparer des histogrammes.

1.2.2 Variable quantitative continue


Une variable quantitative est dite continue lorsque les observations qui lui sont associées ne sont pas des valeurs
précises mais des intervalles réels. Cela signifie que, dans ce cas, le sous ensemble de IR des valeurs possibles de la
variable étudiée a été divisée en r intervalles contigus appelés classes.
En général, les deux raisons principales qui peuvent amener à considérer comme continue une variable quantitative
sont le grand nombre d'observations distinctes (un traitement en discret sera un peu incommode) et le caractère
"sensible" d'une variable.
Exemples. l'âge ou le revenu pour un groupe d'individus.
Notons les r classes: [aa, al [, ..., [ar-l, ar].

Présentation des données


On présente les données dans un tableau, comme dans le cas discret, en indiquant les classes rangées en ordre
croissant.
Les notions d'effectif, de fréquence sont définies de la même façon que dans le cas discret. On indique dans le
tableau aussi :
+a; - 1 des
- 1es centa;res Ci= --2- es classes.Y
casses, Z= 1, 2 , ...,r
- les amplitudes des classes Li = ai - ai-l ;
- les densités des observations dans chaque classe: hi = ni; .
Exemple Pour l'année 1987, la répartition des exploitations agricoles francaises selon SAU (Surface Agricole
Utilisée) exprimée en hectares:

8
SAU fréq % Fi Ci Li hi
moins de 5 24.0 24 2.5 5 4.8
[5,1O[ 10.9 34.9 7.5 5 2.18
[10,20[ 17.8 52.7 15 10 1.78
[20,35[ 20.3 73 27.5 15 1.35
[35,50[ 10.2 83.2 42.5 15 0.68
[50,200] 16.8 100 125 150 0.11

Représentations graphiques
A la place du diagramme en bâtons, on trace un histogramme composé de rectangles dont les bases sont les
classes et les hauteurs sont les densités des observations. L'aire du rectangle i vaut fi (la fréquence de la classe
correspondante) .

Caractéristiques numériques
- La moyenne, la variance et l'écart-type s'obtiennent comme dans le cas discret en prenant à la place des valeurs
les centres des classes Ci.
- Les quartiles d'une variable continue peuvent être déterminées de façon directe à partir de la courbe cumulative.

1.2.3 Variable qualitative


Les modalités d'une telle variable ne sont pas numériques, donc on ne peut pas calculer les grandeurs statistiques
telles que la moyenne , la variance, ... On peut faire un tableau pour représenter les données en indiquant pour
chaque modalité l'effectif et le fréquence.

Exemple. le nombre de sièges occupés par 3 partis politiques: P1,P2,P3.

effectif fi
Pl 200 1/3
P2 100 1/6
P3 300 1/2

Les représentations graphiques: diagramme en colonnes et diagramme en secteurs.

.,~--------------------------
f ~
! <, ;t / ... ,X.~ , J ;:(.
; • 'C \.
l"'''.> t V 'vi ~ C' 0 '" " e.
~.
'" IV.
cA,,--'"'-

t é. J.,tWA b ~11<J~'i
--il lE ("rt) ~ fE CI- fc:.) - 1< ~JI 2/"
Chapitre 2

NOTIONS D'ECHANTILLONAGE

Le schéma théorique de la plupart des problèmes de statistique inférentielle est le suivant : on a un ensemble
mesurable (0, E) et cet espace est muni d'une probabilité lPe avec e E e ç IRP. Pendant ce cours on va considérer
des variables aléatoires X définies sur le champ Borelien de probabilité {O,E,lPe}. Sur l'espace (O,E) on se donne
ti variables aléatoires toutes de même loi lPe, (Xl, ,Xn), à valeurs dans un espace mesurable (A,X)' Les valeurs
qu'on mesure pour ces variables aléatoires sont (Xl, , Xn) = (Xl (W), , Xn(W)) pour un certain élément W E o.
<Défi.nit-iell-; On appelle n-échantillon d'une loi lPo toute famille Xl, Xv de v.a. indépendantes et de mêm..eJQi
que X.
Puisque les v.a. Xi ont la même loi que X, elles ont les mêmes moments:
llE [Xil = lE[x],f r Var(Xi) = Var(X), 1 l: lE-[X-i=-lE-[X-k---'l
k-l (

Vi = 1, ... , n, k E lN.

2.1 Moments empiriques


On considère le cas des v.a. unidimensionnelles (0 ç IR). Soit un n-échantillon Xl, ... , Xn (Xi est une v.a. réelle
pour la e=
expérience).
Définition. On appelle moment empirique d'ordre 12 (p E lN) la v.a.

et on appelle moment empirique centré d'ordre p, la v.a.

Wn =
P
!.
n~
~(X; - Xn)P
i=l

p= 1: = x; Ur la moyenne empirique
p = 2 : W2' = S; la variance empirique.
Soient mp_O;=lE(XP) et "!op= lf(X - ml)P les moments centrés et non-centrés d'ordre p de X (s'ils existent).
En utilisant la loi des grands nombr~s, on obtient le résultat suivant:

Théorème 2.1.1 Si m2p = lE(X2P) < 00, alors


unP n~mp,.
p,», Wn p.e.
P n~f.lp

Théorème 2.1.2 a) Si lE(XP) < 00, alors lE(U;n = lE(XP) = mp' Cas particulier p = 1 lE (X.nl:.=~. m.
fhl 7
. Cas particulier p = 1\ Var(Xn) = ~n~
2 1E(X2p)-1E2(XP) - Var(X)
0J)Si lE(X P) < 00, alors Var(U;n = n = a 2 ln.
c) Si Var(X) < 00 alors lE(W2') = n-1 Var(X) \r--------.-=__._
n . . 1 ~
( Ai'tl rio' ,te •
2.2 Fonction de répartition empirique
Définition. On appelle fonction de répartition empirique, l'application aléatoire:
AIn 1
Fn(x) = -n~'"' nx<x
,- = -Card{X;;
n X;:S x}, Vx E IR
;=1

10
Proposition 2.2.1 Fn(x) zz;
n-oo
F(x), \:Ix E IR.

On a un résultat plus fort.

Théorème 2.2.1 (Glivenko-Cantelli) La convergence des fonctions de répartition empirique est p.s. uniforme:

2.3 Rappels
Rappelons deux résultats de Probabilités utiles à la suite.

Théorème 2.3.1 (Slutsky) Soit la suite de variables aléatoires (Xn) convergeante en loi vers X et la suite (Yn)
convergeante en loi vers C, aoecC une constante p.s., alors

Une application du Théorème 2.3.1 est le résultat suivant qu'on va utiliser dans la théorie de l'estimation, pour
ennoncer la delta-méthode ..

Théorème 2.3.2 Soient Xl,'" Xn et Y des vecteurs aléatoires de dimension k satisfaisant la condition

avec c E ]Rk et (an) une suite de nombres positifs et limn~oo an = 00. Soit également la fonction 9 : ]Rk --> lR.
(i) Si 9 est dérivable en c, alors
(2.1)

avec \J g( c) le vecteur, de dimension k, des dérivées partielles de 9 par rapport à x.


(ii) Supposons que 9 a des dérivées partielles continues d'ordre m > 1 dans un voisinage de c, toutes les dérivées
partielles d'ordre i, 1 ::; j :S m - 1 s'annulent en c, et les dérivées partielles d'ordre m pas toutes nulles en c. Alors

(2.2)

avec Yj la composante j de Y.

J)~Hl!..~_~~~
__ 'r: .~e.- __~(;Jt' Je{3e.''\C!''~-,:. du
1

vt(..

'?v>.-l e ç.!e. tJ 0\ . 1
LOv'id (-' \t'";.,f;)
---:J---
(: (:.
-
n'>, :,,/d/: (;<,?) VI..-t: K tf::--;- ':)._;Jif' t [ !x',,-I)( 1> eJ .- 0
p s
--->' y 'VI' r? [1l.!JE. J~ j j!1 (U,,!) ~';» /[w} J::::
n-~
.~
Ir 1- ~'.VH ;ll,~==)( J:::: r.
Lv.,.."tn
01)[_ ,to ~: 19t~ ,,1.: t CI,j il' (,/ . 1 1. r-
/ -1 ~."', X. ")1 tf 4 : 112 -'3:> t(2

E [ h (x "1) J :: E t lu: X ) l

11
Chapitre 3

THEORIE DE L'ESTIMATION

Soit une v.a. X définie sur l'espace de probabilité (D, B, PfI.) et supposons que la fonction de répartition Fe.
dépend d'un certain nombre de paramètres ~, BEe ç IRP. On suppose que la fonction Fe est connue, mais pas B_.
Soit Bo la vraie valeur (inconnue). Le but est de trouver des statistiques (une fonction du n-échantillon (Xl, ..., Xn»
qui vont approximer le mieux possible, dans un certain sens, Bo.

3.1 Théorie de l'estimation ponctuelle


Définition. On appelle estimateur ponctuel du paramètre BQ (en général on dit B) toute fonction de l'échantillon,
prenant ses valeurs dans e : Tn = T(Xl, ... , Xn) . .
La valeur prise par T pour un n-uplet de données (Xl, ... ,Xn) est l'estimation de B : T(Xl, ... ,xn).

Exemple 1. On lance une pièce de monnaie et soit la v.a.

si "face"
si "pile"

alors X ~ B (B), B = p. On souhaite estimer B. On lance la piè~e 10 fois : n = 10. Xl, ..., X 10 B (B). Une réalisation
r--;»

de l'échantillon est: 0, 1, 1,0, 1, 1, 1,0,0, 1. Si on prend Xn E [0,1] comme estimateur, alors xn = 6/10. Si on
répète 10 fois encore l'expérience: 1,0,1,0,0, 1, 1,0,0,1, xn = 5/10.
D'autres estimateurs pour B : 1/2, T = Xl, T = (Xl + X2)/2.

Exemple 2. Xl, ... ,XlO ~ P(À), À inconnu. On peut prendre comme estimateur pour À Xn, mais aussi
2
n(n +1) L~=l »x ;
De ces exemples, c'est claire qu'on doit choisir des estimateurs avec des "bonnes qualités':. Par exemple, pour n
grand, lim T(Xl, ... Xn) = Bo dans un certain sens. Les valeurs de deux estimations ne doivent pas être non plus
"trop différentes" .

3.1.1 Propriétés des estimateurs


Définitio~. On dit que l'estimateur Tn = T(Xl, ... , Xn) est faiblement (resp. fortement) consistant (convergent)

si : t; n~ Bo: 1 \lE > 0, nl2..~ 1P[lTn - Bol 2: E] =0 l


respectivement :
t; n~ Bo : r IF\I2..~Tn = Bo] = 1

Exemple 1. Les moments empiriques sont des estimateurs fortement consistants des moments théoriques. En
r
particulier, Xn est estimateur consistant pour m = IE(X).
Exemple 2. Xi r-;» B(B), x;
est estimateur fortement consistant pour B, ou encore +12 [Ln=1 Xi + 2] ~ B. n 1, n--l-CXJ

Donc, les estimateurs consistants ne sont pas uniques.

Définition. Pour B scalaire, on appelle erreur quadratique de Tn par rapport à Bo, la quantité:

f= d2 (Tn, Bo) = IE[Tn - Bof 1 '.'

12
Proposition 3.1.1 i d2(Tn, aD) ---+ 0; alors 'E; est un estimateur faiblement consistant de e.
n--->oo

Définition. On appelle biais de l'estimateur Tn, la quantité: B(Tn, a) = lE(Tn) - a.


1'estimateur est dit sans biais si B (Tn, a) = 0 et il est dit asymptotiquement sans biais si B (Tn, a) ----+ O.
n--->oo

Exemples classiques. 1) U'k estimateur sans biais pour lE(Xk) = mk, Xn pour m = lE(X).
2) W:r estimateur asymptotiquement sans biais pour Var(X).
3) S~2 = n~l L~=l (Xi - Xn)2 = n~l w:r est un estimateur sans biais pour !-L2·
4) Pour x fixé, Fn(x) est un estimateur sans biais pour F(x).

Proposition 3.1.2 (Fisher, Cochran)

Dans le cas particulier Xi ev N(m, cr2) on a

1 ~ - 2 2
2" L..,,(Xi - Xn) ev X (n - 1)
cr i=l
X -m
Fn n ev t(n - 1)
S*n
et les v.a. Xn et W:r sont indépendantes.

Preuve. Nous donnons la démonstration que pour les trois dernières affirmations.
Soit le vecteur aléatoire colonne X = (Xl,"" Xn). Nous avons:

(3.1)

Supposons d'abord que m = 0 et cr = 1. Alors, X ev Nn(O, ln). Soit A une matrice n x n dont la dernière
ligne est (l/Fn, ... ,l/Fn) et telle que AAt = AtA = ln (A est une matrice unitaire). Posons Y = AX. D'où
lE [Y] = AlE[X] = On, Var[Y] = AVar[X]At = ln. Alors, Y = (YI, ... , Yn) ev Nn(O,In) et L~l y? = L~l xl.
Puisque la dernière dernière ligne de A est (1/ Fn, ... , 1/ Fn) on a Yn = I:~fox, = FnXn. Alors Y; = n(Xn?
Alors la relation (3.1) devient (n - 1)S~2 = L~=l y? - Y; = L;:ll Yl ev x2(n - 1). On a également que Xn est
indépendant de S~ 2. .
Si m f 0 ou cr f 1 soit les variables aléatoires Wi Xi;;m ev N(O,l). Nous avons alors x; = m + crHln et
L~=l(Xi - Xn? = L~l (Wi - Hln)2 ev x2(n - 1).
On a la décomposition :

D'autre part (n - 1)s~2 /cr2 ev x2(n -1) et FnXn;;m ev N(O, 1) et ces deux variables sont indépendantes. D'où
Vnxs~m ev t(n - 1). •

Remarquons qu'entre S~ et S~2, la loi de X2 perd un degré de liberté qui correspond à l'estimation d'un pa-
ramètre, l'espérance m.

Si l'estimateur est sans biais, l'erreur quadratique est égale à la variance.

Définition. Un estimateurTn(Xl, ... ,Xn) est dit libre pour le paramètre ak si sa loi ne dépend pas de ak.

13
Inégalité de Rao-Cramer. Estimateur efficace.

Soit X ~ Pe et fe sa fonction de densité si X est continue, sa fonction de fréquence, si X est discrète.


Cas 1. e ç IR (scalaire).
Supposons que les conditions suivantes sont satisfaites: l'ensemble A = {x; fe(x) > O} est indépendant de e, et

a { a a (
VXEA,veEe'~aelogfe(x)dx<oo et Jnaefe(x)dx= aeJnfe(x)dx=O

Définition. L'information de Fisher pour la v.a. X : I(e) = lE [te log fe(X)(

Théorème 3.1.1 (Inégalité de Rao-Cramer pour une v.a.)


Soit la v.a. X de loi Pe et soit la v.a. S(X) telle que Var[S(X)] < 00, ve E e. Soit 7jJ(e) lE[S(X)]. Si
0< I(e) < 00, alors
Var[S(X)] > [7jJ'(e)]2 (3.2)
- I(e)
Preuve du Théorème 3.1.1
Soit: le(x) = logfe(x). On applique l'inégalité de Cauchy aux variables aléatoires: S(X) -7jJ(e) et l~(X) = 8lâ~X).
Donc: L./) 1/
lE[(S(X) -7jJe))lé(X)] ~({ lE[S(X) _7jJ(e)]2} 1';2 {lE[lé(X)f} 1/2",
Mais lE[lé(X)F = I(e). Alo~s: E~;.·"''' ' ,
C(..sci)l ./'
lE[S(X) - 7jJ(e)f = Var[S(X)] ~ Itey!!l<!_(;! :-_!~).~l~(X~]2 .
--_.,...--

Parce que: lE[te log fe(X)] = 0 on a:. __.


Î/';,»--

k
. ;f/

lE[(S(X) -7jJ(e))lé(X)] = lE [S(X) :e 10gfe(X)] = S(X)~:~:~fe(X)dX

= k S(x)f~(x)dx = :e k S(x)fe(x)dx = :elE[S(X)] = 7jJ'(e)

Corollaire. Si S(X) est sans biais alors Var[S(X)] ~ de)'



Soit (Xl, ... ,Xn) un ri-échantillon de loi Pe et h(e) l'information de Fisher pour une v.a. Xi. La densité (la
fonction de fréquence) de (Xl, ... ,Xn) est:
n
Ln(e;Xl,''''Xn) = I1fe(xi)
i=l

Alors, l'information de Fisher pour le n-échantillon est:

Proposition 3.1.4 In(e) = nh(e).

Théorème 3.1.2 (Inégalité de Rao-Cramer pour un estimateur)


Si Tn est un estimateur pour () et on note 7jJ(e) = lE[Tn] alors l'inégalité de Rao-Cramer devient

Var[T] > [7jJ'(e)J2


n - nh(e)
Définition. Un estimateur sans biais, pour lequel l'inégalité de Rao-Cramer dévient égalité, est dit efficace.
L'inégalité de Rao-Cramer donne une borne inférieure pour la variance des estimateurs sans biais. Donc, si on
dispose d'un estimateur dont la variance est égale à cette borne, on sait qu'il est meilleur que tous les autre
estimateurs sans biais. Remarquons aussi le rôle joué par l'information de Fisher: plus elle est grande plus la
variance du "meilleur" estimateur sans biais est petite.
Cas II. e E e ç IRP, > 1, e = (el, ... , ep).
Définition. On appelle matrice d'information de Fisher:

14
si elle existe et elle est inversible.

Soit So(X) un vecteur aléatoire de dimension q et de carré intégrable et : 'Ij;(B) = lE[So(X)] E IRq, q > 1.
L'inégalité de Rao-Cramer est :

Définition. Si B = (BI, ... , ()p) E IRP, un estimateur Tn est exhaustif pour le paramètre Bk, k E {l, ... ,p} si la loi de
X sachant Tn = t ne dépend pas de ()k.

Une statistique exhaustive contient toute l'information sur le paramètre incluse dans l'échantillon. Si Tn est
exhaustive pour () et ip une fonction borélienne strictement monotone, alors cp(Tn) est également une statistique
exhaustive pour B.

Théorème 3.1.3 (de factorisation, critère. de N eyman)


Un estimateur Tn est exhaustif pour B s.s.i. existe une fonction borélienne 9 : IRn --> IR+ telle que:

(3.3)

où ho est la densité(fonction de fréquence) de Tn et 9 ne dépend pas de B.

Démonstration. Pour des variables discrètes.


Soit En = {x = (XI, ... ,Xn) E IRn;Tn(x) = t}. Nous avons (Tn = t) = UXEEn(X = x), donc IP[Tn t]
LXEEn ho(t)g(x). Par conséquent, si (3.3) est vérifiée,

si x t/. En
= { he(x)g(x) _0 g(x)
1P[Tn-tl - LYEEn g(y)
si x E En

Réciproquement, les fonctions ho(t) (XI, ... ,xn)ITn = t]


conviennent.

Une méthode utile en Statistique est la delta-méthode, qui est basée sur le Théorème 2.3.2.

Proposition 3.1.5 Supposons que les conditions du Théorème 2.3.2 sont satisfaites. Soit Y un vecteur aléatoire
Gaussien Nk(O, ~). Alors
an [g(Xn) - g(c)] ~
n~oo
N (0, [\7g(cW~ \7 g(c»)

1:.
Exemple. Soit (Xn) une suite de variables aléatoires satisfaisant -.[ii(Xn - c) ---> N(O,l). Considérons la
n~oo

fonction g(x) = X2. Si c =1= 0, alors, en appliquant la delta-méthode on a -.[ii(X~ - c2) ~ N(0,4c2). Si c = °
la dérivée d'ordre 1 de 9 en ° °
est mais la dérivée seconde est 2. Donc, en appliquant la relation (2.2) on a que
n~oo

nX~ ~
n~oo
[N(O, 1W = X2(1).

3.1.2 Méthodes d'estimation


Méthode des moments

Soit Xl, ...,Xn un n-échantillon de la loi Po. Supposons que les moments théoriques d'ordre k existent: mk =
lE(Xk). On cherche un estimateur par résolution du système d'équations en B obtenu en égalant moment théorique
et moment empirique correspondant:
k=1,2, ... ,p (3.4)
(ou p autres équations). La solution du système (3.4), si elle existe et elle est unique, sera appelée estimateur par
la méthode des moments.

15

~ J
Méthode du maximum de vraisemblance
On définie la fonction de vraisemblance du n-échantillon par Ln(B) = rr~l fe(Xi). Son interprétation est claire.
Par exemple, si la distribution de X est discrète alors fe(x) = lPe[X = xl est la probabilité d'observer le point x
et la fonction de vraisemblance: Ln(B) = lPe(Xl) ... lP(Xn) représente la probabilité d'observer (Xl, ... ,Xn). Dans
le cas continu la fonction de vraisemblance est la densité du vecteur (Xl, ... , Xn).
Supposons que pour toute valeur (Xl, ... ,Xn), Ln(B) admet un maximum unique. La valeur ên pour laquelle ce
maximum est atteint :
(3.5)

est appelée estimation par maximum de vraisemblance. Si on remplace les valeurs par les v.a. correspondantes on
obtient l'estimateur du maximum de vraisemblance (EMV).
La fonction log étant croissante, il est équivalent de maximiser log Ln et Ln·

Théorème 3.1.4 Supposons que:


(i) fe(x) > 0, \/x E IR, ve E 8, logfe(x) E C4(8 x IR)
(ii) -00 < -h(B) = J1R 8211e~e(x) fe(x)dx < 0, B E 8
(iii) il existe une fonction H : IR -> 1R+ telle que \/B E 8

Alors, avec la probabilité 1, pour n -> 00, l'équation de vraisemblance (3.5) a une solution ên consistante et

BO c
vn_ê
n__
-

a
->
n-i-CX)
N(O,I)

avec (T2 = [lE (810 /;(X) le=e


g
o ••

Preuve du Théorème 3.1.4


(i) Preuve de l'existence et de la consistance
Fixons BO et considérons la vraisemblance quand le paramètres vaut B. Maximiser la vraisemblance Ln(B) par
rapport à B revient à maximiser Ln(B)/Ln(BO). Le maximum de cette fonction, s'il est atteint sur 8, l'est en un
point qui annule la dérivée de : log (Ln(B)/ Ln (BO)) = =~llog (Je (Xi)/ feO(Xi)). D'après l'inégalité de Jensen:

fe(Xi) ] [fe(Xi) ]
lE [log feo (Xi) < log lE feo (Xi) = °
L'inégalité est stricte: la fonction log est strictement concave:

fe(Xi) ] [ fe(Xi) ] fe(Xi)


lE [log feO(Xi) = log lE feO(Xi) ~ feO(Xi) =c p.s.

Puisque feC} est une densité, la constante c est égale à 1. Mais, f.eo\~;) = 1, p.s. contredit le fait que Pe est injective
en B. Lorsque :
fe(Xi) 1
(3.6)
lE log feo (Xi) < 00
1

la loi des grandes nombre permet de conclure que, p.s.

~ ~
n~
log fe(Xi)
feO(Xi)
-> lE [lOg fe(X)]
feo(X)
< ° (3.7)
J=l

Lorsque (3.6) n'est pas vérifiée, alors, on montre que:

fe(Xi) )-]
lE [( log feo (Xi) = 00

Pour montrer la deuxième partie (pour +), remarquons que:

lE [(lOg fe(X;)
feo(X;)
)+] = j fe(x»feo(x)
log fe(x)
feo(x)
feo(x)dx

16
= r
Jfoex»fooex)
1log fe(x)lfeo(x)dx + r
Jfoex»fooex)
1J0gfeo (x)lfeo(x)dx

:S r
Jfoex»fooex)
Ilogfe(x)lfe(x)dx+ r
Jfoex»feoex)
1log feo(x)lfeo(x)dx
.
:S lEe [je(X)] + lEeo [feo (X)] < 00
Donc si (3.6) n'est pas vérifiée, alors: lE [ (lOg /.eo e(5(:)) -] = 00.

Donc:
1 ..;:-.. fe(Xj)
:;;:Llog feo(X) --+ -oo,p.s. (3.8)
J=l J

Soit l'ensemble dénombrable: 80 = {B = Ba ± i,


k E lN} et pour tout B E 80, considérons Ne l'ensemble des W En
tels que (3.7) ou (3.8) ont lieu, 1P[Ne] = 1. Puisque 80 est dénombrable, l'intersection des Ne est de probabilité
égale à 1. Soit un W appartenant à cette intersection. D'après la définition des Ne, pour tout B E 80, il existe une
constante -00 :S 1(B) < 0 telle que :
.!.
n j=l
t log fe(Xj(w))
feo(Xj(w))
--+ I(B) (3.9)

Pour un E fixé, on choisit k > E-1 et posons Bk = Ba - i et B~ = Ba + -k. D'après (3.9), il existe un entier no(k,w)
tel que, pour n 2: no(k,w) on a:

Considérons la fonction de B :-!; L;7=110g /.°oetl}'(J;). Cette fonction est nulle pour B = Ba et strictement négative
pour B = Bk et B = B~. Puisqu'elle est partout dérivable, il existe un point de ]Bk, BU qui annule sa dérivée. Donc
on a prouvé que pour tout n 2: no(k, w), il existe dans l'intervalle ]BO - E, Ba + E[ un point ên(w) qui est solution
des équations de vraisemblance et en plus elle est presque sûrement convergente.
(ii) Preuve de la Normalité asymptotique Parce que ên maximise n-110gLn(B) = Ln(B), on a: L~(ên) == O. Alors,
par le Théorème des accroissements finies, on a :

a
avec Bn [Bn,B ]. Donc:
- A

vn(ê - Ba) = _vn~~(~O) (3.10)


n L~(Bn)
Mais (voir exercice TD) : lE[te 10gfe(X)] = O. Par le TCL :

-
vnLn(B a
) = vn [1";:-"
:;;:~ aBa 10gfeo(X) - 0] L a
n-=: N(O, Var[aBfeo(X)])
En plus:
2
a
Var[aBfeo(X)] = lE [ aB
a feo (X) ,] 2 = -lE [ a
aB2feo(X) ] = 1(Bo)

Pour le dénominateur de (3.10), par la loi des grands nombres, pour tout B E 8 :

Parce que ên --+ Ba p.s., alors:


2
L~(Bn)
- A
--+ lE [ a log feo(X)
aB2 ]
= -1(B a )

En conclusion:


17

~-----------------------------------------~------------------------------------~
Théorème 3.1.5 Si Tn est un estimateur exhaustif pour a et l'EMV existe, alors l'EMV est fonction de Tn.

Remarque. Le théorème ne dit pas que l'EMY est exhaustif.

Théorème 3.1.6 Soit la fonction h : e ç IR? -> A, avec A un intervalle dans IRm, 1 :s m :s p. Si ên est l'EMV
de a alors h(ên) est l'EMV de' h(a).

Méthode des moindres carrés


Si y est une variable (quantitative ou qualitative) et (Xl, ... , Xk) sont des variables explicatives quantitatives
pour lesquelles on a n mesures, on peut modéliser Y fonction de Xl, ... ,Xk par:
i = 1, ... ,n (3.11)

appelé modèle de régression.


La fonction ge dépend d'un' ou de plusieurs paramètres inconnus que l'on doit estimer : a E e ç IRP. On
considère le cas "simple" : Xl, ... , Xk variables déterministes. La variable C est aléatoire (erreur de mesure, er-
reur de modélisation), donc Y est une v.a. On suppose que Ci et Cj sont indépendantes pour i i= i
Pour estimer le paramètre a, on minimise l'erreur quadratique:
1 n 2 1 n 2
EQ(a) = n~
- '" ci = - '"
n~
[Y.; - ge(X1 i, ... , Xk i)]
"
i=l i=l

L'estimateur des moindres carrés est: ên = arg min, EQ(a).


Dans certains cas classiques on sait résoudre explicitement ce problème de minimisation. Si la résolution est im-
possible on fait appel à des algorithmes numériques de minimisation.

Hypothèse sur e. lE(Ci) = 0, Var(Ci) = (72 > 0, COV(Ci, Cj) = 0 pour i i= i

Dans le cas particulier Ci ~ N(O, (72), (7 connu, la loi de Yi est N(g(X1,i, ... , Xk,i), (72) et l'estimateur de a par
les moindres carrés coïncide avec l'EMV :

L(a; Y1, ... , Yn) = (27f(72)n/2


1 exp -
[1 2(72
n
~(Yi - g(X1,i, ... , Xk,i))2 ]

L maximal s.s.i 2::~=1(Yi - g(X1,i, ... , Xk,i))2 minimal.

3.1.3 Familles exponentielles


Soit X une v.a. de densité (fréquence) fe(x), a E ç IR. e
Définition. La densité fe est de type exponentiel si elle est de la forme:
fe(x) = exp{C(B)T(x) + D(a) + S(x)} (3.12)
où C, D : e -> IR et T, S mesurables Borel.

Supposons maintenant que a = (al, ... ,ap) E ç IRP, p > l. e


Définition. {!e(x),a E e} est une famille exponentielle s'il existe p fonctions réelles C1"",CP' D : e -> IR et
Tl, ... , Tp, S: IR -> IR fonctions mesurables Borel, telles que:

fe(x) = exp {~Ck(a)Tk(X) + D(a) + S(x) }

Théorème 3.1.7 (p=l) Si fe(x) est une famille exponentielle, alors la v.a. T(X) est aussi une famille exponen-
tielle de densité :
ge(t) = exp{tC(a) + D(a) + S*(t)}
pour une S*(t) souhaitable.

Il existe un théorème analogue pour p > 1.

Théorème 3.1.8 Pour les familles exponentielles


1) la statistique 2::~=1
T(Xi) est de type exponentiel et elle est exhaustive pour le paramètre B.
2) l'EMV est une fonction de T(Xi).2::7=1
Théorème 3.1.9 Si C(B) est de classe C2 et C'(a) i= 0, alors n-1 2::~=1T(Xi) est un estimateur sans biais de
'Ij;(a) = lE[T(X)] et en plus il est efficace.

18
3.2 Estimateur par intervalle
Donner un résultat sans indication sur sa précision n'a que peu d'intérêt car il n'est pas reproductible. Plutôt
que de donner une estimation ponctuelle on propose un intervalle, choisi de manière à contrôler par un niveau de
confiance, les chances que le résultat aurait d'être confirmé si on renouvelait l'expérience.
Soit (Xl, ... , Xn) un échantillon de la loi Pe, e E e ç 1R et a E (0,1).

Définition. On appelle estimateur par intervalle intervalle de niveau (l-a) pour e, un intervalle aléatoire [An, En]
avec An et En des variables aléatoires fonction de l'échantillon tels que:

lP[A < e<E ] = 1 - a s~ Pe est c?nti~ue


n - - n 1-
;:::: a SI Pe est discrète

Si an, bn sont des réalisations pour An et En alors on obtient un intervalle réel: intervalle de confiance.
Définition Soit la constante a E (0,1). On appelle fractile d'ordre a la valeur Ua telle que: a = lP[W ::; a] =
F(ua), avec F la fonction de répartition de la v.a. X. En fait, la fractile est l'inverse de la fonction de répartition:
Ua = F-I(a).

Démarche à faire pour trouver l'estimateur par intervalle:


- Le point de départ est un estimateur ponctuel Tn, sans biais, du paramètre et pour lequel on conna tsa loi;
- On considère éventuellement une v.a. transformée Yn de Tn, la loi de Yn ne dépendant plus de e.
- On considère l'égalité lP[a ::;Yn ::;b] = l+-œ et on déduit a et b fonction de a.lP[a ::;Yn ::; b] = F(b)-F(a) = 1-a.
Alors, on prend a et b tels que: lP[Yn < b] = 1-a/2 et F(a) = a/2. D'où: b = UI-a/2 et a = Ua/2. Si la loi de Yn est
symétrique, alors : % = lP[Yn ::;a] = lP[-Yn ::; a] = lP[Yn > -a] = 1 -lP[Yn ::; -a]. D'où lP[Yn ::; -a] = 1 - a/2
et lP[Yn ::; b] = 1 - a/2. Donc b = -a = -Ua/2.
- On écrit Yn fonction de Tn et on obtient les bornes An et En.

19
,~
-

Chapitre 4

THEORIE DES TESTS

Supposons qu'une machine produit des objets dont certains sont défectueux. Soit 8 la probabilité que l'objet
soit défectueux. Le fabricant désire avoir 8 S; 80 avec 80 donné, faute de quoi il doit réviser ou changer la machine.

Considérons une variable aléatoire X définie sur l'espace Sl et de loi de probabilité lP. Supposons qu'on ne
connaît pas lP mais on sait qu'elle peut être seulement une des deux distributions lPo ou lPl.
Une hypothèse statistique est un ennoncé concernant les caractéristiques (valeurs des paramètres, forme de distri-
bution, ...) d'une ou de plusieurs populations (variables aléatoires).
Le test statistique (d'hypothèse) est une démarche qui a pour but de fournir une règle de décision permettant sur
la base des résultats de l'échantillon de faire le choix entre deux hypothèses statistiques.
Les hypothèses qui sont envisagées à priori s'appellent, l'hypothèse nulle (Ho) et l'hypothèse alternative (Hl).
Pour réaliser des test on considère un ri-échantillon (Xl, ... ,Xn) et une réalisation (Xl, ... ,Xn). Sur la base de
(Xl, ... , Xn) on veut décider quelle hypothèse est vraie: Ho : lP = lPo ou Hl : lP = lPl
Pour fournir une règle de décision on utilise une statistique de test. Toute fonction mesurable Borel cp : Sln ......,[O,IJ
s'appelle fonction fonction de test.
La fonction ip est un test de l'hypothèse Ho contre Hl avec l'erreur de probabilité 0' si : lE[cp(Xl, ... , Xn)J S; 0' sous
Ho·
Pour décider quelle quelle hypothèse est vraie, on considère une fonction de décision: 5 : Sln """"{Ho, Hd. Si
l'hypothèse Ho est vraie alors lP = lPo. Alors la probabilité que la décision 5 fasse une erreur est:

et cette probabilité s'appelle risque de première espèce.

4.1 Tests paramétriques


On considère que la loi de la v.a. X dépend d'un paramètre 8 et on veut faire un test sur ce paramètre: on a
à faire à des tests paramétriques.
On teste:
Ho : 8 E Go, appelée hypothèse nulle (parce qu'elle s'écrit sous la forme g(8) = 0)
contre:
Hl: 8 E Gl l 'hypothèse alternative
avec Go n Gl = 0, Go U Gl ç G.

Si Go est formée d'un" seul élément on dit que Ho est une hypothèse simple, sinon elle est composite.
Pour faire le test on a besoin d'une règle de décision: soit Tn = T(Xl, ... ,Xn) une statistique de test et R
un sous-ensemble de valeurs possibles de T, appelée région de rejet R = {(Xl,··· ,Xn) E Sln;H1acceptée}. Si
T(Xl, ... ,xn) E R on rejette Ho et on accepte Hl. La construction de R est basée sur la connaissance de la loi de
t; sous Ho·
Définitions: 1) On appelle risque de première es.pèce et on note O'(e~, ]a probabilité de rej.eter Ho alors qu'elle
est vraie: --
\ 0'(8) = lP[~:0n) = Hd 8 E GoJ = lP[(Xl, ... ,Xn) E RI 8 E GoJ
On appelle niveau, not'é 0', l~leur la plus élevée du risque de première espèce quand 8 parc urt Go :

0' =sup
BEGo
O'(e) J

20
Si Ho : (J = (Jo alors a = a((Jo).
2) On appelle risque de deuxième espèce, noté j3((J), la probabilité d'accepter Ho alors qu'elle est fausse: j3((J) =
lP[c5(Xl, ... ,Xn) = Ho/ (J E 81] = lP[(Xl, ... ,Xn) E Re/ (J E 81].
3) On appelle puissance, noté 7f((J), la probabilité de rejeter Ho alors qu'elle est fausse. On a 7f((J) = 1 - j3((J).
4) Région de rejet: R = {(Xl, ... ,Xn); Horejetée} telle que a((J) = lP[(Xl, ... ,Xn) E RIHovraie]. Donc R dépend
de a.

Alors, la démarche à suivre pour effectuer un test d'hypothèse:


1. Choisir Ho et Hl de sorte que la possibilité d'égalité soit dans Ho;
2. Fixer a;
3. Déterminer la région de rejet R;
4. Regarder si les observations se trouvent ou pas dans R;
5. Conclure au rejet ou au non rejet de Ho.

4.1.1 Lemme de Neyman-Pearson


L'idée de base pour la construction de tests est: on fixe un niveau a à une valeur (petite) et on trouve le test
de niveau a qui ait une puissance assez grande. Evidemment une idée est d'utiliser, pour construire ce test, un bon
estimateur ê; de (J si on en connaît un. Dans ce cas la région critique portera sur «.
Pour le même problème de
décision, plut'ê'u;;'tests de même seuil sont souvent possibles. Dans ce cas, le meilleur est celui qui minimise j3(f!)
donc qui maximise 7f((J). On obtient ainsi le test le uniformément plus puissant (U!?).

Le lemme suivant nous donne une manière de trouver le test UPP.


Ho': (J = (Jo
rh : (J = (JI avec (JI < (Joou (JI > (Jo ou (JI 1= (Jo·

Lemma 4.1.1 (Lemme de Neyman-Pearson)


Pour un seuil a fixé, soit Lo = L((Jo) et LI = L((Jl) la densité de (Xl, ..., Xn) sous Ho, respectivement Hl' Alors,
il existe une constante k > a telle que :

si Ll(Xl, .. .xn) > kLo(Xl, Xn)


si Ll(Xl""Xn)=kLo(XI, Xn)
si Ll(Xl, ...Xn) <kLo(XI, Xn)

est un test de seuil a et il est le plus puissant (c'est-à-dire lPO[c5(Xl, ... Xn) 1= Ho]:S; a).
Remarque. Ce lemme nous donne aussi la forme de la zone de rejet R :

Pour les tests Ho : (J :s; (Jocontre Hl : (J > (JI, en général, il n'est pas possible de trouver le test le plus puissant.
-
On peut dire que la procédure de test consiste à rejeter l'hypothèse Ho dans une certaine région R et accepter
dans la région complémentaire, on va convenir alors qu'effectuer un test consiste, en chaque point (Xl, ..., Xn) E x;
à rejeter Ho avec une certaine probabilité <I>(Xl,...,Xn) et à l'accepter avec la probabilité 1 - <I>(Xl,... ,Xn).
Un test est alors une application <I>: Xn -> [0,1] appelée fonction de test. Alors, le niveau du test est: a =
sup{lE[<I>(Xl, ...,Xn)]I(J E 8o}, la puissance est: lE[<I>(Xl, ,Xn)l(J E 81].
Définition On dit que le test <I>est sans biais si lE[<I>(Xl, , Xn)] ;:::a, V() E 81,
Avec ces notations le test de eyman- Pearson a la fonction de test de la forme : •

<I>= nL(l:Itl>kL(l:Io) + ,nL(l:Ij)=kL(Oo) (4.1)

et le Lemme de Neyman-Pearson peut-être aussi ennoncé sous la forme:

Lemma 4.1.2 (Lemme de Neyman-Pearson) (bis)


Soit a E (0,1) fixé; Pour tester Ho contre Hl, spécifiées plus haut, il existe, E [0,1] et k;::: a tels que le test (4.1)
a les propriétés suivantes:
1. lEl:lo<I>(Xl, Xn) = a, avec lEl:lo l'espérance calculée sous l'hypothèse Ho;
2. lEej<I>(Xl, Xn);::: a, avec lEe1 l'espérance calculée sous l'hypothèse HI;
3. Pour toute autre fonction test <I>Itelle que lEoO<I>/(Xl, ...Xn) :s; a on a :

21
Preuve. 1. Remarquons que: lPeo[L(80) = 0] = ° et considérons l'événement aléatoire: C = {L(80) # O}. On a :

Ilt(z) = lPeo[L(81) > zL(8 0)] = lPeo [L(8l)]


L(8 ) ne> z = 1 -lPeo
[L(81)]
L(8 ) ne :s z
0 0

Puisque lP [z~~~ine•• est une fonction de répartition, alors pour tout z elle est continue à droite et admet'une
limite à gauche. Donc la fonction Ilt a les mêmes propriétés et en plus elle est décroissante, avec les propriétés:
-Ilt(z) = 1 pour z < 0;
- 1lt(0) = lPeo[L(8l) >0];
°
- Ilt(z) -> quand z -> 00.
Soit la constante: k = inf {z ~ 0/ : Ilt(z) < Œ}. Alors on a:

Ilt(k) :s :s Ilt( -k)


Π(4.2)

On a deux cas :
situation 1 : Ilt est continue au point k. Alors dans la relation (4.2) il Y a égalité parce que Ilt décroissante, et le
test définit par <I> = ni(e,»kL(Oo) qui a la région critique L(81) > L(80) est de niveau exactement Œ.
situation 2: la fonction Ilt a un saut au point k. Ce saut est d'amplitude: Ilt(-k) -Ilt(k) = lPoo[L(Bl) = kL(80)]
.. 1 Q-w(k)
et on ch oisit a constante, : , = w(-k)-w(k)'
0 d êd .
n en e mt :
Œ = Ilt(k) +, [Ilt( -k) -Ilt(k)] = lPoo[L(81) > kL(80)] +,lPeo[L(81) = kL(80)]. On obtient un test de niveau Œ.
3. Soit <I>' un test de niveau au plus Œ. On a alors:

IEel W - <I>] = r_ W
t.. - <I>]L(81)dj.i0n = r
.JAl
W - <I>]L(8l)dj.i0n + r
JA2
W - <I>]L(81)dj.i0n + r
JA3
W - <I>]L(8l)dj.i0n

Al = {L(8l) > kL(Bo)}, A2 = {L(81) = kL(80)}, A3 = {L(8l) < kL(80)}, Sur Al on a <I> = 1 et donc
:s ° et
OÙ: .
<I>' - <I>
r
.JAl
[<I>' - <I>]L(Bl)dj.i0n :s k r
JAl
[<I>' - <I>]L(80)dj.i0n

Sur A3 on a <I> = 0, donc <I>' - <I> ~ ° et

De plus:
r
JA,
W - <I>]L(81)dj.i0n :s k r
JA3
W - <I>]L(80)dj.i0n

En conclusion: IEel [<I>' - <I>] :s


kIEooW - <I>]k(IEeoW]- Œ) :s O.
2. Elle se déduit facilement de la propriété 3 en considérant la fonction test <I>'(XI, ... ,Xn)) == Œ. Ce test est de
niveau Œ et il a une puissance inférieure ou égale à celle de <I>. Mais la puissance de <I>' est égale à Œ. •

Soit Le la vraisemblance pour un n-échantillon, pour le paramètre 8.


Définition. On dit que la v.a. X a un rapport de vraisemblance monotone (MVR) par rapport à la statistique
T(XI, ... , Xn) si pour 81 < 82, le rapport L(82)/ L(81) ~ une fopc.t.iopuou-déc;;.FQ.jssa.at.e....de
T(XI, ... , Xn).

Exemple. Soit XI, ... , Xn ~ U[O, 8], 8> O. La distribution jointe des Xl, ... , Xn est: L(8, XI, ... xn) = 8-nno::;maxx;::;e.
Si 81 < 82 alors considérons le rapport :

Soit R(Xl,""Xn) = nO::;maxx.::;e,/no::;maxx.::;OI = 1 si max n, E [0,81] et = 00 si max z, E [81,82], On définit


R(XI, ... ,xn) = 00 si max z, > 82. Donc L(82)/L(81)) est croissante en max z, d'où: la loi uniforme est MLR par
rapport à max Xi'

Théorème 4.1.1 Si LO(XI, ... ,Xn) est MVR par rapport à T(XI, ... ,Xn), pour tester Ho: 8:S 80 contre HI: B>
80; il existe ta E IR tel que :
si T(XI, Xn) > ta
si T(XI, Xn) = ta
si T(XI, Xn) < ta
est le test le plus puissant.

22
,--

Remarque. Ha: 8 ::::8a contre Hç : 8 < 8a alors :


si T(X1, Xn) < ta
si T(X1, Xn) = ta
si T(X1, Xn) > ta

A. Tests sur une population

A.1. Tests sur la moyenne d'une loi Normale


On considère un n-échantillonXj , ... ,Xn avec Xi ~N(m,(}2)

Cas (}2 connue

Notons par Ua la fractile (quartile] d'ordre ex pour la loi Normale: si Y ~ N(O, 1) alors

1P [Y < ua] = ex

1) Ha : m = ma contre m i= ma. Statistique de test:

X-ma
Z = Vn n () ~ N(O, 1) (4.3)
I
Zone de rejet

Evidemment Ua = -'l.ll-a'
2) Ha : m ::; ma contre m > ma ou Ha : m = ma contre m > ma. Statistique de test: (4.8). Zone de rejet:

3) Ha ': m ::::ma contre m < ma ou Ha : m = ma contre m < ma. Statistique de test: (4.8). Zone de rejet:

Cas (}2 inconnue

Notons par tP,Q la fmctile (quartile) d'ordre ex pour la loi Student à p degrés de liberté: si Y ~ t(p) alors
1P [Y < tp,a] = ex. On remplace (}2 par son estimateur sans biais

1) Ha : m = ma contre m of ma. Statistique de test:

Xn -ma
---0
.~
= V"!fi S* ~ t(n - 1) sous Ha (4.4)

Zone de rejet :
R= clxn -mal >
vn tn-1,1-a/2
}
{ (Xl, ..., Xn) /
s*

2) Ha : m < ma contre m > ma ou Ha : m = ma contre m > ma. Statistique de test: (4.4). Zone de rejet:

3) Ha : m > ma contre m < ma ou Ha : m = ma contre m < ma. Statistique de test: (4.4). Zone de rejet:

A.2. Tests sur la variance d'une loi Normale

23

~--------------------------------------------~----------------------~
On considère un n-échantillon Xl, ..., Xn avec Xi ~ N(m, cr2).

Notons par zp,n la fractile (quartile) d'ordre 0: pour la loi X2 à P degrés de liberté si Y ~ X2(p) alors
lP [Y < zp,n] = 0:.
1) Ho : cr = cro contre cr # cro. Statistique de test:
- m connue
sous Ho (4.5)

- m inconnue
1 ~ - 2 2
Z = "2 L)Xi - Xn) ~ X (n - 1) sous Ho (4.6)
cro j-J

Zone de rejet
- m connue

R=
ln
{ cr 2a L(xi
i=l
- m)
2
> Zn,l-n }

- m inconnue

R= {:2 a tex; - Xn? > zn-l'l-n}


;=1

2) Ho : cr < cro contre cr > cro. Zone de rejet:


- m connue

- m inconnue

3) Ho : cr > cro contre cr < cro. Zone de rejet:


- m connue

- m inconnue

A.3. Tests sur une proportion

On considère un n-échantillon Xl, "',Xn avec Xi ~ B(p)

1) Ho : P = Po contre p # Po· Statistique de test:

pour n --> (X) (4.7)

Zone de rejet: R = {(Xl, ... , Xn) / IZI > UI-nj2}'


2) Ho: p < Po contre p > Po. Zone de rejet: R = {(Xl, ,xn) / Z > Ul-a}.
3) Ho : p > Po contre p < Po· Zone de rejet: R = {(Xl, , Xn) / Z < Un}.

B. Tests sur deux populations Normales

Soient deux variables aléatoires. X ~ N (ml, cri) et Y ~ N (m2, crD pour lesquelles nous considérons deux
échantillons Xl, ..., Xn1, respectivement YI, ... , Yn2.

1) Ho: ml = m2 contre Hl : ml # m2, si cri, cr~ connues. Statistique de test:

sous Ho (4.8)

24
Zone de rejet

R = {(Xl, ..., Xn" YI, ... , Yn2) 1 Ixn, - Un21> UI-a/2 (Ji + (J~ }
nI n2

2) Ho : ml = m2 contre Hl : ml # m2, si (Ji = (J~ inconnues. Statistique de' test:

Z = Xn, - Yn2
sous Ho (4.9)
5 /.1... +.1...
V nI n2

52 = [~(Xi - XnY + ~(Yi - Yn,)2] I(nl + n2 - 2)

3) Ho : ml = m2 contre Hl : ml # m2, si (Ji # (J~ inconnues. on a dans ce 'cas le problème de Fisher-Behrens. La


statistique de test (Welch) est:
Xn, - Yn2
S.2 S.2
~+~
nI n2

mais elle ne suit plus, sous Ho, une loi t(nl + n2 - 2). On peut approximer cette loi par une loi de Student de
degrés de liberté:
,2 + Sn2 .2] 2

[ Sn,
nI n2

VWelch = -~----~2--
(S:,2/n,)2 (S:; In,)2
n\ -1 + ;2-1

qui est une variable aléatoire! On arrondit ce nombre de degrés de liberté à l'entier le plus proche.
4) Ho: (Ji = (J~ contre Hl : (Ji # (J~. Si les moyennes ml et m2 sont inconnues, alors ont les estiment par Xn, et
Yn2· Dans ce cas, la statistique de test :

(4.10)

Si les moyennes ml et m2 sont connues, la statistique de test:

z-_ max(5;" 5;2)


. (52 52) ~F(nl,n2),si
min n,' n2
2
max(5n,,5nJ=5n,
2 2
(4.11)

5;, = [~(Xi - ml?] ln!, 5;2 = [~(Yi - m2)2] In2


4.1.2 Test du rapport de vraisemblance et de Wald
On a vu dans la Section précdente que le test le plus pluissant (UPP) n'existe pa,!>toujours. Dans cette section
nous proposons une solution alternative.
Soit 8 E 8 E ]Rk un vecteur paramètre et X un vecteur aléatoire de densité (fonction de fréquence) Je. Considérons
le problème du test d'hypothèse Ho: X ~ Je,8 E 80 contre l'hypothèse alternative Hl : X r--;» Je,8 E 81.
Définition. Pour tester Ho contre Hl, un test de la forme: on rejette Ho si et seulement si jÀ(x) < cJ avec c une
constante et
À(x) = sUPeEGoLn(Xl,'" ,xn;8)
sUPeEG Ln (XI, ... ,Xn; 8)

Evidemment 0 :s: À(X) :s: 1. La constante c est déterminée à partir de la condition:


l'sUP
eEGo
lP[X = (Xl,'" ,Xn); À(X) < el = Q l
Remarque. Si Ho est vraie alors À(x) converge vers 1, pendant que si c'est Hl qui est vraie, alors À(x) s'éloigne
de 1.
Remarque. (Lien avec l'EMV) À(x) = Ln(êo)ILn(ên), a~V..§.ll.L..-8 et êo l'EMY su..r:JZ.o.

25
Théorème 4.1.2 Pour un 0: fixé, 0 :::::0: ::::: l, les tests du Neyman-Pearson et du rapport de vraisemblance d'une
hypothèse simple Ho contre une hypothèse Hl simple, sont équivantents.

Exemple 1. Soit X ~ B(m,p). On teste l'hypothèse Ho : P:::::Po contre Hl : p > Po. Dans ce cas:
À(x) = sUPp<poC,:;px(1- p)m-x
sUPO:S;p9C':;'px(1 - p)m-x

Mais sUPOSp:SIPx(1- p)m-x = (:;iît (1 - :;iî)m-x. donc, puisque la fonction pX(l - p)m-x est croissante et son
maximum est atteint dans p = «[m, on a

si Po <:;iî
si :;iî < Po
Ce qui implique

si :;iî :::::Po
Notons que À(x) :::::1 pour mp« < x et À(x) = 1 si x :::::mpo, donc À(x) est une fonction décroissante en x. Alors,
À(x) < c si et seulement si x > e', et le test du rapport de vraisemblance rejette Ho si x > el D'autre part,

[e'l
0: = sup 1P[X > e'] = sup L C!.pk(l - p)m-k = 1Ppo[X > e']
pSpo pSpo k=O
.•.
Parce que X est une v.a. discrète, il est possible que e' n'existe pas. S'il n'existe pas, on choisit l'entier e' tel que:

et

Exemple 2. Soit X rv N(m, (J2) avec m et (J2 inconnus. On teste l'hypothèse Ho : m = ma contre Hl : m f= ma.
Dans ce cas: 80 = {(ma, (J2); (J2 > O} et 8 = {(m, (J2); -00 < m < 00, (J2 > O}. Notons = (m, (J2). Alors e
x; e
sup Ln () = sup [. V2ir
1 exp
{ - L~l (Xi 2- mo)2 }] = (' 2)
Ln x; (Jo
eE80 (T2 >0 ((J 21f)n 2(J

avec <76 l'estimateur du MY de (J2, <76 = (l/n) L~=l (Xi - mo)2. Alors
1
sup Ln (x·, e) = n
n2
n/2 e- /
OE8o (21f /n)n/2 {Li=l (Xi - mo)2}

En tenant compte du fait que l'EMY de e est (Xn, S;), on a

Alors
>'(x) = <...E~.;ç---':-::-

\JI

~(.y .;-'(\\_~
-1- \t~
....o
L•

i,.,:./
ou encore
yIn(xn - ma) 1
. >c
1 s*n
En conclusion, la statistique
. 'n(x ~~,
Z(X) = V" ;*\,
n
J,rvt(n-l)

et Cil = Un-l;1-a/2 sa fractile d'ordre 1 - 0:/2.


D'autre part:

lE[njnk] =lE [(tllX1=Vj) (tllX1=Vk)] =lE [t (llx1=vJ (llX;=Vk)]


l=l l=l. l,l'=l

= lE [t
1=1'
(nX1=vJ (llx;=vk) + t
1#1'
(nX =vJ
1 (nX;=Vk)] =0 + lE [t
1#1'
(llx1=vJ (llX;=Vk)]

= n(n - l)lE [nX1=Vjllx;=vk] = n(n - I)PjPk

Alors la covariance calculée plus haut est:

On a montré jusqu'ici que:


K ( )2 K
'" nj - npj .E; '" Z2
Z:: np' n~oo Z:: J
j=l J j=l
avec les variables aléatoires Zj ~ N(O, 1 - Pj) et lE[ZJ] = 1 - Pj, Cov[Zj, Zk] = -JpjPk. On applique ensuite la
même technique que pour le Théorème de Cochran (Proposition 3.1.2., voir preuve en TD). •

4.2.2 Test de X2 d'ajustement


Supposons que la variable aléatoire X discrète possède K modalités: VI, ... , VK. Notons par Pj = P[X = Vj] et
P = (Pl, ···,PK).
Considérons connu le vecteur de probabilités pa = (p?, ... , p'k).
On veux tester l'hypothèse : Ho : P = pa contre Hl: P =f pa.
Pour cela on considère un n échantillon pour la v.a. X: (Xl, ... ,Xn) et (Xl, ... ,xn) une réalisation. Soient nI, ... .n«
les effectifs de chaque valeur possible de X. Les fréquences empiriques sont: fk = nk/n, pour k = 1, ... , K et
ir= (h,···,fK). .
Définition. La "distance" de X2 entre les vecteurs de probabilités P = (Pl, ···,PK) et q = (ql, ... , qK) est

(elle n'est pas une vraie distance, elle n'est pas symétrique).
Considérons la distance E(P,pO) = L~=l (h;r n: J .
Théorème 4.2.2 Si p~ =f 0 Vk = 1,..., K alors pour n ......•00 :
- sous Ho, nD(p,pO) -; X2(K -1) en loi;
- sous Hl, nD(p,pO) ......•00 en probabilité.

Preuve du Théorème 4.2.2


nk - np~ nk - npk r:;: Pk - p~
--=="" = +vn---
vnp'k vnp'k v9I
Si Ho est vraie, alors on applique le Théorème de Pearson 4.2.1. Si Hl est vraie le deuxième terme en valeur absolue
converge vers 00. •

Ce théorème permet de construire un test asymptotique de l'hypothèse Ho contre Hl.

4.2.3 Test de X2 d'indépendance


Supposons qu'on a deux variables aléatoires X et Y discrètes; X possède P modalités: VI, ... , Vp et Y possède
q modalités: Wl, ... , wq.
On veux tester l'hypothèse selon laquelle X et Y sont indépendantes.
Ho : X et Y indépendantes, contre Hl : X et Y ne sont pas indépendantes
ou encore:
Ho: P[X = V;, Y = Wj] = P[X = Vi]P[Y = Wj] , Vi = 1, ... ,p j = 1, ... , q

28

t------------------------------------------------------------
contre
Hl : :Ji E {1, ... ,p},:Jj E {1, ... , q} t. q. P[X = Vi, Y = Wj] -=1- P[X = Vi]P[Y = Wj]

Considérons un échantillon pour X et pour Y. Soient les effectifs :


nij = Card{x = Vi,Y = Wj}, \Ii = 1, ...,p j = 1, ....q
et
p q p q

n = LLnij, nj = Lnij, ni. = Lnij


i=l j=l i=l j=l

Un estimateur pour P[X = Vi, Y = Wj] est lij = nij/n, pour P[X = Vi] est Ii. = ni./n, pour PlY = Wj] est
f.j = n.j/n. On considère la distance de X2 entre Iij et li.f.j

Théorème 4.2.3 Sous Ho : Dn = nD ---+1:. X2 ((p - 1)(q - 1)), pour n ---+ 00. Sous Hl : Di; ---+P 00.

Conséquence. La région de rejet de Ho est


1 - et de la loi X2 ((p -1)(q - 1)).
lR = {dn > Ul-a;(p-l)(q-l) }} avec Ul-a;(p-l)(q-l)
.
la fractile d'ordre

4.2.4 Test de Kolmogorov-Smirnov.


Soit X une v.a. de fonction de répartition F. On veux tester:
(Ho: F(x) = Fo(x)~ \Ix E R, avec Fo(x) ulle fonction de répartition connue.
Soit la fonction de répartition emPiriqUeIFn(x) = ~ I:~=l nxi :'Ô3
On considère la variable aléatoire:

1 Kn = ~~~ IFn(x) - F(x)1 1


On sait par le théorème de Glivenko-Cantelli que Kn ---+p.s. 0, pour n --> 00. On peux montrer:

Théorème 4.2.4 Sous Ho, foKn ---+1:. K, avec K une variable aléatoire de loi fixe indépendante de F, définie
par:
co
P(K > k) = 2 L( _1)j-1 exp( -2/k2)
j=l

Les fractiles de cette loi sont tablées. La région critique de ce test est: R = {fokn > kI-a} avec kI-a la fractile
d'ordre (1- et) de la loi de foKn.

4.2.5 Test de Smirnov, de comparaison de deux échantillons indépendantes


Soient X et Y deux variables aléatoires de fonctions de répartition, respectivement, F et G. On veut tester
l:hypothèse[Ho : F(x) = G(x) contre F(x) -=1- G(x)l On dispose de deux échantillons Xl, ""Xn1 etYI, ..., Yn2. Soit
Fn, (x) = I:~~lnxi:'Ôx et Gn2 (x) = I:~~lnyi:'ÔX les deux fonctions de répartition em iriques des deux échantillons.
Alors:

avec K la même variable aléatoire que pour le test de Kolmogorov-Smirnov.

4.2.6 Test de la médiane sur des groupes indépendant~


(voir cours FG Carpentier)
Soit Xl, ",Xn1 et YI, ... , Yn2 deux échantillons et N = nI + n2·
Hypothèses :
Ho : Les deux populations parentes ont la même médiane.
Hl: Les deux populations arentes ont des médianes différentes,
Construction de la statistique de test : on détermine la médiane 1\1 de la série obtenue en réunissant les deux
échantillons. On constitue un tableau de contingence en croisant la variable indépendante et la variable dérivée
"position par rapport aM".

29
Gr 1 Gr 2 Ensemble
'5.M NI N2 NI +N2
>M N3 N4 N3 +N4
Total NI +N3 N2 +N4 N

On fait un test du X2 sur le tableau obtenu.


Exemple 31 basketteurs de 14 ans, répartis en deux groupes d'effectifs nl = 12 et n2 = 19, selon le jugement
porté par l'entraîneur (groupe CI : jugement négatif; groupe C2 : jugement positif). On a relevé la taille de chaque
sujet.
CI : 152 163 164 173 174 176 177177178178181184
C2: 167171172174175176176177179179180 182183186188189189193195
Les deux groupes sont-ils significativement différents du point de vue de la taille?
Détermination de la médiane:
152163164167171172 173 174 174 175 176 176 176 177 177177 178 178179 179 180 181182.183 184 186 188
189 189 193 195 On obtient: Médiane = 177. Tableau de contingence :

Gr 1 Gr 2 Ensemble
'5.M 8 8 16
>M 4 11 15
Total 12 19 31

Ici: Dn = 1.76. Pour un seuil de 0.05, la fractile = 3.84. On retient Ho·

4.2.7 Test de Spearman


a) Pour une seule variable
Pour une variable aléatoire X considérons n copies: Xl, X2, ... , Xn. Chaque copie Xi a la même loi que X. Avant
d'appliquer des techniques statistiques de modélisation, on s'interroge sur l'hypothèse selon laquelle l'ordre dans
lequel on effectue les observations n'a pas d'importance, c'est à dire que ces variables sont indépendantes. C'est
pourquoi les statistiques d'ordre et de rang des observations jouent un très grand rôle. On testera comme hypothèse
nulle:
Ho: XI,X2, ... ,Xn sont indépendantes
On ordonne l'échantillon XI,X2, ... ,Xn en ordre croissant, et on note le nouveau échantillon par X(I) '5. X(2) '5.
... '5. X(n)' Pour une réalisation Xl, X2, ... , Xn la réalisation correspondante du échantillon ordonné est x(1) '5. X(2) '5.
... '5. x(n)' A chaque observation Xi on associe son rang Ri dans l'échantillon ordonné.
Exemple Xl = 3, X2 = 1, X3 = 0, X4 = 5 alors x(1) = 0, X(2) = 1, x(3) = 3, x(4) = 5. RI = 3, R2 = 2, R3 = 1,
R4 =4.

Remarque: Si les observations sont distinctes les rangs sont des nombres entiers compris entre 1 et n. Dans le
cas des valeurs identiques, on leurs assigne un rang égal à la moyenne arithmétique des rangs.
Si l'hypothèse d'indépendance Ho est vraie alors il n'y a aucune corrélation entre 1,2, ..., n et RI, R2, ... , Rn.
On construit alors on test basé sur le coefficient de corrélation (de Pearson) entre ces deux ensembles. On obtient
ce qui s'appelle coefficient de Spearman :
.-----------------------------~

où Il = * L~l Ri, Z = ~ L~l i. Par des calculs élémentaires on peut montrer que rs s'écrit sous la forme:

6
rs=l- (2 )t(Ri-i)2
n n -1
i=l

Dans le cas d'une tendance monotone croissante, Ri = i et ï:s = 1. Dans le cas d'une tendance monotone
décroissante, les classements sont inversés Ri = n - i + 1 et s = -1. La zone de rejet de l'hypothèse Ho
ï

est: 1 = {Irsl
R > c} I/~~----"

- C= vi=rUI-ex/2, avec Uj-a/2 la fractile d'ordre 1 - 0./2 de la loi N(O, 1), pour n > 30.
- c= ~ avec t la fractile d'ordre 1 - 0./2 de la loi Student t(n - 2), pour 11 '5. n '5. 30.

a) Pour deux variables aléatoires


Considérons pour deux variables aléatoires X et Y les échantillons Xl, ... Xn, respectivement Yj, ... Yn' A partir de

30
ces deux échantillons on veut tester que les deux variables sont indépendantes:
Ho: X et Y sont indépendantes
On associe aux couples (Xl> Yd, (X2, Y2), ... , (Xn, Yn) les rangs (RI, QI), (R2, Q2), ... , (Rn, Qn), Ri et Qi étant les
rangs respectifs de Xi et Y; dans chacun des deux échantillons. Pour tester l'hypothèse Ho on utilise la statistique
de test:

La zone de rejet est la même que dans (4.14).

Remarque. Le test de X2 est utilisé surtout pour des variables aléatoires discrètes pendant que le test de
Spearman est utilisé pour des lois continues.

4.2.8 Test de Wilcoxon..


Considérons pour deux variables aléatoires X et Y les échantillons Xl,· ..X n, respectivement Yl,· ..Ym. on
m. A partir de ces deux échantillons on veut tester que X et Y sont de même loi :
considère le cas n :::::
Ho : X et Y ont la même loi de probabilité
Ce test repose sur l'idée que si l'on mélange les deux séries et qu'on ordonne le tout par valeurs croissantes on doit
obtenir un mélange homogène. Pour cela on réordonne les deux suites et on compte le nombre total de couples
(Xi, Y;) où Xi a un rang plus grand que Y;. Pour tester l'hypothèse Ho on utilise la statistique de test:

où Ri est le rang de Xi dans l'échantillon global (Xl, ... , Xn, YI, ... , Ym) ordonnée de taille N = m + n. La zone de
rejet est
R= {Iw- n(1.1+m+1)1
2 > Ul-a/2
Jnm(n+m+1)}
12

avec Ul-a/2 la fractile d'ordre 1 - 0./2 de la loi N(O, 1), pour n > 30

Exemple livre SAPORTA, Page 345


On veut comparer les performances de deux groupes d'élèves à un test d'habilitée manuelle. On choisit aléatoirement
8 élèves du premier groupe et 10 du deuxième. Les performances en minutes sont les suivantes:
Groupe 1 : 22 31 14 19 24 28 27 28
Groupe2 : 25 13 20 11 23 16 21 18 17 26
On réordonne les 18 observations par ordre croissant. Les résultats du premier groupe sont en gras :
Observations: 11 13 14 16 17 18 19 20 21 22 23 24 25 26 27 28 28 31
La somme des rangs des élèves du premier groupe est:
W=3+ 7+ 10+12+15+16+17+18=98
Comme g181~7561 = 1.96 on rejette Ho avec 0. = 0.10.

Adresse internet cité


http :j j geai. uniu-brest.fr/r- carpentijtdm-index. html

31
Chapitre 5

REGRESSION LINEAIRE

5.1 Généralités sur le Modèle Linéaire


Donnons d'abord la forme générale d'un modèle statistique. Soient Y,Xl, ...,Xp des variables. Dans des nom-
breux problèmes pratiques on étudie la relation qui peut exister entre Y et Xl, ..., Xp : Y = f(Xl, ... , Xp). Mais,
assez souvent on met en doute le caractère purement déterministe de cette relation
- soit parce qu'il a des erreurs de mesure
- soit à cause de l'omission volontaire ou non d'éventuelles variables (ce qui est le plus fréquent)
On ajoute un terme d'erreur et on obtient le modèle statistique

i y = f(Xl, ... ,Xp) + 10-' ~{)&e{o I3b {ct-Jùb·h'c"O . (5.1)

y est variable expliquée, dépendante, Xl, ..., Xp variables explicatives, indépendantes.


Définition. Le modèle (5.1) est dit de régression linéaire si la fonction f est fonction linéaire de Xl, ..., Xp

Jf(Xl, ... ,Xp) = aD + alXl + ...apxp) f(iU'(J.f9J- b11~,,",(.J,o x,r. (5.2)

En ce qui concerne les variables et les paramètres

Aléatoire N on aléatoire
Observable Y Xl, ... ,Xp
Non observable 10 aD,al, ... , ap

aD, ... , ap paramètres inconnus à estimer. Pour estimer ces paramètres on dispose de n observations des variables
Y,Xl, ... ,Xp, notées

Variable
Observation i

Alors, le modèle de régression linéaire peut être écrit

1~-------------------------r
Yi = aD + alXli = 1 /'fvjo!J.g,es:"
+ ...apXpi + ci i 1, ... ,n r
Le:
~Vv'-
U \t\.[c,J.. vè.
(5.3)

où: <

Yi est une v.a. avec la réalisation Yi


Xli une var (non aléatoire) avec l'observation Xli.

L'étude statistique du modèle linéaire permet


- estimer les paramètres aD, ... , ap par moindres carrés et par intervalle;
- tester l'influence de certaines variables Xj (par test d'hypothèse)
- en déduire le meilleur modèle (par l'étude des résidus)
Notons que les erreurs CI, ... .e-, sont v.a. indépendantes, donc YI, ... , Yn aussi.
On suppose que les v.a. Ci suivent une loi Normale: Ci ~ N(O, (]"2), i = 1, ..., n.
Le cas le plus simple de régression linéaire est pour p = 1 : Yi = aD+ alXi +ci, i = 1, ..., n, modèle appelé régression
linéaire simple.

32

.:----------------------------------------------------------------------------
Exemple de régression simple
Pour une ville on mesure la pollution en ozone et la vitesse maximale du vent (mis) pendant 10 jours. Ecrire un
modèle statistique de la pollution fonction de vent :
y - la concentration de l'ozone (en mglm3)
X - vitesse (en mis)

Obs 1 2 3 4 5 6 7 8 9 10
Y 174 188 176 128 116 88 58 120 92 132
X 1 0.5 1 2 2 2.5 3 2 3 2
fJi 171 195 171 122 122 98 74 122 74 122
ei 3 -7 5 6 -6 -10 -16 -2 18 10
er, 0.28 -0.65 0.46 0.55 -0.55 -0.92 -1.47 -0.18 1.66 0.92

ÎJ = 10.84

- on peut estimer aa et al
- on peut tester si vraiment il y a un lien linéaire entre la pollution d'ozone et le vent (c'est-à-dire que le modèle
linéaire est bon)
- pour un nouveau jour pour lit la vitesse maximale du vent, on peut prévoir la concentration d'ozone (Si par
exemple, on prévoît la vitesse du vent par une autre méthode la veille, on peut prévoir pour le lendemain la
pollution).

5.2 Régression linéaire simple


5.2.1 Description des données du modèle
La variable à expliquer est Y et la variable indépendante est X. Le modèle statistique est

(' y = aX + b+c l (5.4)

Pour estimer les paramètres a et b nous disposons de n couples d'observations

Var Obs 1 2 ... i ... n


y YI Y2 ... Yi ... Yn
X Xl X2 ... Xi ... Xn

Alors, le modèle (5.4) peut être écrit

l Y; = aXi + b + Ci i = 1, ... ,n
~
(5.5)

On suppose en ce qui concerne les v.a. Ci : Ci ev N(O, 0"2), avec 0"2 inconnu, pour i i= i. Ci et Cj indépendantes, donc
COV(ci,Cj) = 0

Proposition 5.2.1 1) lE(Y;) = aXi +b


0"2 si i = j
2) Cov(Y;, Yj) = { 0 si i i= j
3) Yi ev N(aXi + b, 0"2)
Preuve
1) lE(Y;) = lE (aXi + b + Ci) = lE (aXi + b) + lE(ci) = a.X, +b
0"2 si i = j
2) Cov(Y;, Yj) = lE [(Y; -lE(Y;)) (Yj -lE(Yj))] = lE [(Y; - aXi - b) (Yj - aXj - b)] = lE(ciCj) = {
0
si if j

33
,--

- 1 ",n
Preuve Yn = 11: 0i=1 Y;.
l n Inn
lE(Yn) = - L lE(aXi + b + ci) = - L(aXi + b) = :?: LXi + b = aXn + b
ti n n
i=1 i=1 i=l

Var(Yn)
~ = Var
(1 n
- LY;
n
)
=
l
2"Var
n
(n)
LY; = 2"
n
1 n
LVar(Y;)
l
= 2"
ti
n
Lcr
2
=-
cr
n
2


i=l i=l i=l i=l

5.2.2 Estimation des paramètres du modèl~


La construction des estimateurs A et B des paramètres réels a et b est basée sur la méthode des moindres carrés.
Définition. Les estimateurs des moindres carrés des a et b sont les v.a. An et Bn qui minimisent la somme des
carrés des termes erreur
n n

S(A, B) = L c; = L [Y; - (AXi + B)J2


i=l i=l

Donc, An et Bn sont les solutions du système

~~ (A,B) o
{ oB(A,B) o
Résultat.
2:;'..1(Y;-Yn)(X;-Xn)
2:~,(X;-Xn)2
(5.6)

Propriétés
-
Proposition 5.2.3 Les v.a. An et Yn ne sont pas corrélées :

.~

P reuve Corr (A n, ~7)


ln -
_ Cov(An' Yn)
----r,:=:==:=~~~~;;;;==;=
JVar(An) . Var(Yn)
Donc il suffit de montrer que Cov(An, Yn) = O.

1/'

C :: 1

Alors

n n n 2 n

= ~
""' -.
Ci ~Cov
""' ( Yi,Yj ) = ""'
~ -cr
Ci 2 = -
cr ~Ci
""' = 0
n n n
i=l j=l i=1 i=l


Proposition 5.2.4 Les v.a. An et Bn sont des estimateurs sans biais pour les paramètres a et b.

34

\.
Preuve


En ce qui concerne les variances et les covariances de ces estimateurs on a la proposition suivante:

P~oposition 5.2 ..5


Proposition 5.2.6

Sn
2 1
= -n-2 Ln (Y' - A n,X - B n )
2

i=l

est un estùnateur sans biais pour (J2.

Une estimation pour (J :

Exemple. les estimations de a et b sur les données mesurées sont


ân = -48.5 bn = 219.5 s; = 117.5 ûn = 10.84
Var(An) = 18.4 Var(Ên) = 78.05 Cov(Ân, Ên) =
Donc, on peut dire que la pollution d'ozone est liée à la vitesse du vent par la relation linéaire: Y = -48.5X + 219.5.

Les lois des estimateurs


,~:S' .' s -
On a montré que: An = L~l Ci Y;, Yi ~ N(aXi + b, (J2), Y;, Yj indépendantes pour i i= j et lE(An) = a.,
Var(An) = L~l (~:-Xn)2' d'où

35
Proposition 5.2.7 (sans dém)
1) 2:~=1(Yi - AnXi - En)2 = (n - 2)S2 ~ x2(n _ 2)
a2 a2
2) Les estimateurs An et En sont indépendantes de S;.

5.2.3 Mesure de l'ajustement


Oh dispose de la forme générale des estimateurs. Pour un ensemble de n-couples (Xi, Yi) mesurées, on peut
donner une estimation ân, t.: êJn (on peut donner une valeur effective) pour a, b, a.
Ainsi la droite de régression la plus proche du nuage de points (Xi, Yi) est définie par l'équation: Y = ânx + i; ;
l'estimation de l'observation Yi par le modèle étant:
/:--Y-i=-ân-x,-+-b- j-r
n
(5.7)

qui est une réalisation de la v.a. (estimateur) : Yi = AnXi + En.
La différenceiei = Yi - Yils'appelle'~; et en divisant ei par êJn mon a le résidu réduit.

Remarque. Il faut faire la différence entre l'erI~ur0 = Yi - aXi - ~avec a, b les vraies valeurs mais inconnues
( donc Ei inconnue) et le résidu :@i:
= Yi - ânXi - ~(avec Yi, Xi mesurées) une réalisation de la v.a. Ei.

Il est souhaitable de donner un indicateur sur la qualité de l'ajustement du modèle Yi = aXi + b + Ei fournie
par l'équation (5.7). Seulement les valeurs des résidus sont insuffisantes:
- d'abord ces différences dépendent de l'unité de mesure;
- elles ne donnent pas une indication sur l'ajustement global.
L'indice le plus couramment ~mployé est le coefficient suivant

R2 = 2:~=1(Yi -
2:i=1 (Yi -
~n):
Yn)
E [0,1) J
connu sous le nom de coefficient de détermination.
Interprétation. Si la valeur de R2 est proche de 1 on dit que la variable X explique bien la variable Y. Inverse,
2
si R est proche de 0, X n'explique pas bien Y et le modèle de régression linéaire simple considéré n'est pas bon.
On va voir plus loin d'où ca vient cette interprétation.
Exemple. R2 = 0.93.

5.2.4 Décomposition de la variabilité de Y


Soit la décomposition (classique) : Yi - Yn = Yi - Yi + Yi - Yn' Alors
n n n n
:L)Yi - Yn)2 = 2")Yi - Yi)2 + 2:)Yi - Yn)2 + 22:)Yi - Yi)(Yi - Yn)
i=1 i=l' i=l i=l
n
On montre que: 'L)Yi - Yi) (Yi - y) = O.
i=1
D'où l'équation de la décomposition de la dispersion de Y
n n n
2:)Yi - Yn)2 = I)Yi - Yi)2 + L(Yi - Yn)2
i=1 i=1 i=1

Dispersion totale de Y = dispersion due au modèle + dispersion résiduelle

ST= SM +SR
Remarque. ST ne dépend pas du modèle mais des données mesurées et elles s'appelle totale parce qu'elle donne
la mesure de variation des données mesurées par rapport à leur moyenne.
La régression est résumée dans le tableau ci dessous (tableau d'analyse de variance)

Source de Somme des Degrés de Carré moyen


variation carrés des liberté
écarts
Régression SM = Li-1 (Yi - YnY' 1(=2-1) SM/l
}--R-;oé;;-si..,-d-;ue;-I_I
e-+_S;:;;R=-=~LO;;':ir="
-,"",1+,( Y,-,-i Y,,-,A
i:";-Y.,,--1__ n-:-
2,.---t- SR / (n - 2)
Totale ST = 2:~~1(Yi - Yn)L n-l

36
En fait, SM donne une mesure de le variabilité (de l'écart) des estimations Yi faites par le modèle par rapport à la
moyenne Yn des données. SR donne une mesure de la variabilité (de l'écart) entre les estimations et les vraies Yi
valeurs Yi. .

SM ST-SR SR
Remarque. Le coefficient R2 est en fait le rapport R2 = ST = -~ = 1 - ST'

Maintenant on voit mieux d'où ca vient l'interprétation de R2 : si R2 est proche de 1 alors SR ~ 0 en fait la
différence entre les valeurs mesurées Yi et celles prédites Yi est relativement petite. On divise par ST en fait pour
avoir un indicateur qui ne tient pas compte de l'unité de mesure.

Remarque.

Exemple. R2 = 0.93. Tableau d'analyse de variance:

Source S.C. ddl C.M.


Modèle 15093 1 15093
Résidu 940 8 117.5
Total 16033 9
~
5.2.5 Evaluation de l'ajustement
- Jusqu'à présent on a vu que R2 nous donne une information sur la qualité de l'ajustement. Mais seulement
cette quantité est insuffisante pour l'évaluation du modèle.
On a vu aussi qu'une autre manière simple de détecter les défaillances du modèle consiste à calculer les résidus
E = Yi - y~et les résidus réduits :~ Puisque les e; sont des réalisations de la v.a . .9 ~ N(O, (}2), les
er, sont des réalisations d'une v.a.N(O, 1). ---
- ûll graphique de ces résidus révèle'~s écarts du modèle; une étude systématique des résidus est un
élément essentiel de toute analyse de régression.
Si le modèle est correct, les résidus réduits doivent se trouver approximativement entre -2 et 2. Ils ne doivent
présenter aucune structure particulière. Si jamais il en présente une, c'est qu'une structure cachée existe dans
les données.

5.2.6 Tests sur les paramètres


On va faire des tests sur les paramètres du modèle. On pourrait tester:
1) L'hypothèse de lien linéaire effectif entre Xl, ..., X n et les variables aléatoires: Yl, ... , Yn. En terme de paramètres,
ca signifie qu'on testera l'hypothèse

Ho: a = 0 contre

équivalent avec: Ho : Y; = b + Ci, contre Hl : Yi = o.X; + b + Ci.


2) L'hypothèse d'un modèle linéaire spécifié: on testera:
Ho : a = ao et b = bo Y; = aOXi + bo + Ci
contre: Hl : a i= ao, ou b i= bo Y; = aXi + b + Ci·
Test du caractère significatif du modèle
L'hypothèse Ho à tester est l'hypothèse qu'il n'y a pas de lien linéaire entre X et Y : Ho : a = 0 contre Hl : a i= O.
En ce qui concerne la statistique utilisée pour tester Ho, on peut en utiliser deux, qui vont suivre une lois de
Student ou une loi de Fisher.

Première méthode: on utilise une v.a. de Student. On sait que

Sous l'hypothèse Ho cette variable aléatoire devient

37
---------------------------------------------------------

On calcule la valeur z de la v.a. Z sur les données (Xi, Yi)1<i<n.


J ~/,\,n ( -)2
Z
an V L-i=l Xi - Xn
= -~=~-'------'----
Ô-n

On sait que

Alors, sous l'hypothèse Ho


r
~
'7
= An
2 ,\,n
L-i-l
(
S~i - Xn
- )2
~ F(l, n - 2)

.On va écrire cette v.a. sous une autre forme (fonction que de Y)
\
Proposition 5.2.8 Sous l'hypothèse Ho , chCl/'-"'fJ e. e.-v-
--.-----....
r /""'

Z = (n - 2)L~I(1}
n ~ -

- Yn)2
2
JJ-o ~G!r~ J-r- '/.
~-~)
• La statistique utilisée pour tester Ho est . -

Z = ( - 2) L~=l ("fi - Yn? SM/1 F(l 2)


n n ~ = SR/(n _ 2) ~ ,n-
Li=l (Yi - YiF
• Zone d'acceptation. On fixe le risque a. Par définition de la loi de Fisher: P (Z ::; fr,n-2;I-a) = 1 - a où
fr,n-2;1-a est la fractile d'ordre 1 - a de la loi de la loi de Fisher. Puisque Z prend que des valeurs positives, la
zone d'acceptation est: ZAHo,a = [0,fr,n-2;I-a)'
• On calcule la valeur z de la v.a. Z sur les données (Xi, Yi)
.; ,\,n (~ -)2
.= ( _ 2) L-i=l Yi - Yn
z n ,\,n (~ )2
L-i=l Yi - Yi
Exemple. On teste l'hypothèse: Ho : a = 0 contre Hl : a # O.
Student :Z = An)L;;;~~Xi-XnJ2
~ t(8). L'intervalle de confiance pour a = 0.05 est ZAHo,a = [-tS;0.975; tS;0.975) =
. [-2.306; 2.306). La valeur de la statistique de test z = ân)L;;;,,(Xi-XnJ2 = ân, = -~ ~ 10. Donc: z ~ ZA
)Var(An) v'18.4 Un

==? Ho rejetée, Hl acceptée. Ily a bien une relation linéaire entre la concentration d'ozone et la vitesse du vent.
Fisher Z = 8~~~i~i=~7?: r-;» F(1,8). ZAHo,a = [0; !r,S;O 95) = [0;5.32). Valeur de la statistique de test z
LlO(Yi-Yn)2 _ SM _ SM _ 15093 r-;» d ZA H .,
8 L'O(Yi-Yi)2 - 8 SR - &2 - 117.5 12. z s: ==? 0 rejetee.

Remarque: Par les deux méthodes on devrait obtenir des résultats concordants.

,Test c!:.wL modèle linéaire ~pécifié


On veut tester simultanément les deux paramètres a et b. Puisque les estimateurs An et Bn des paramètres a
et b ne sont pas indépendants, il serrait incorrect de tester successivement a et puis b.

On pose l'hypothèse nulle: Ho : a = ao et b = bo contre l'hypothèse alternative: Hl a # ao ou b # bo. La


construction du test repose sur le théorème suivant, que nous ne démontrerons pas:

Théorème 5.2.1 Sous l'hypothe'-"'s_e~_'_"__nousav:;.on;.=-s _

Z = n - 2 L~l [(An - ao)Xi + (Bn - bo)f ~ F(2.n _ 2)


2 L~=l (~ - AnXi - Bn)2 .

Construction de la zone d'acceptation: On fixe un ris


h,n-2;I-o: t.q. P [Z ::; h,n-2;I-a)
~~~~~~~~~--~~~~
a et on ca cule (en utilisant les tables de la loi de Fisher)
= 1 - a. La zone d'acceptation est alors ZAHo,n = [0;h,n-2;1-a).
Exemple. Ho : a = -48, b = 220, Hl : a # -48 ou b # 220. Z = 4 L:~,[(An+48)Xi+(Bn-220)J2 rv Ho F(2,8).
L;~,(Yi-AnXi-Bn)2
ZAHo,005 = [0; /2,8;0.95) = [0; 4, 46].

38
- -----------------------------------------

5.2.7 Prévision d'une valeur


On est dans la situation suivante: on a n mesures pour les r Y et X : (Yi, Xi)l <i<n' Entre les var Y et X
existe un lien linéaire ~Xi + b+-t:0i = l, ...,n t:i rv N(O, (J2). On sait construire des estimateurs An et Bn
pour les paramètres a et b. Puisqu'on dispose de n données on peut préciser effectivement quelles .sont les valeurs
de An et Bn : ân et bn.
On désire maintenant de prévoir la valeur de Y pour une nouvelle valeur de X : Xn+l. On peut fournir deux
estimateurs : ponctuel ou par intervalle.
La prévision la plus naturelle est: Yn+l = ânxn+l + bn qui est une réalisation de la v.a. Yn+l= AnXn+l + Bn,
les estimateurs An et Bn étant construits à partir des n premières observations. Il faut donner un sens à cette
pr:évision Yn+l : la qualité. Alors, de point de vue statistique, il est plus correct de donner comme prévision un
intervalle, avec un niveau de confiance fixé, Yn+l étant le milieu de cet intervalle.

5.3 Régression linéaire multiple


""'E
Exemple. Supposons que l'on dispose des données suivantes, pour 3 variables:

Obs Yi Xli X2i


1 10 6 28
2 20 12 40
3 17 10 32
4 12 8 36
5 11 9 34
Corr(Y, Xl) = 0.91 Corr(Y, X2) = 0.65
On déduit qu'il peut y avoir un lien linéaire entre Y et XI,X2

~~ = b~IXli + b2X2i + t:iJ i = 1, ... , 5 (5.8)


avec bo, bi, b2 paramètres inconnus, à estimer.

5.3.1 Estimation des paramètres


Le cadre du problème

Supposons qu'on a un échantillon de n mesures pour (p + 1) variables : Y, Xl, ... , X pavee p < ti, Y variable
aléatoire, Xi variables non-aléatoires. Comme d'habitude on va noter les valeurs mesurées avec des petites lettres
Yi, Xl i, ... , Xpi i = 1, ... , n. Ces données mesurées peuvent être représentées sous la forme d'un tableau
Obs Y Xl Xj xp
1 YI Xll Xjl Xpl
2 Y2 Xl2 Xj2 Xp2

Yi Xli Xji Xpi

n Yn Xln Xjn Xpn


Donc, pour Xji le j c'est pour la variable, le i pour l'observation.
On cherche à construire Y comme fonction linéaire des variables Xl, ... , Xp.
L'équation modèle pour l'observa~ti:.::oc.:.:n'-'z'-·
.;::;es""t'-- _

z:y:::bo + blXli + b2X2i~' + bpq i = l, ...,n (5.9)


On a n équations, une pour chaque observation, et elles peuvent être résumées sous la forme matricielle

lY=X{3+;J (5.10)
avec

YI 1 Xu Xpl t:l
Y2 Xl2 Xp2 t:2
Y= x= {3= t:=
Yi 1 Xli x; t:i

1 Xln Xpn
[ :: 1 t:n
Yn nxl

39
Pour que le modèle soit complètement spécifié, il faut donner les répartition des erreurs e.. On suppose ei ~ N(O, CT2),
i = 1, ..., ri. En plus e, et ej indépendantes, donc Cooie«, ej) = 0 pour i =1 j.

Les paramètres du modèle sont: ba, bl, ... , bp et la variance CT2.Il faut les estimer en connaissant les n observations.

Conséquences
- 1) lE(e) = 0 (un vecteur de dimension n de 0)
- 2) Var(e) = CT2ln, e ~N(0,CT2ln)
- 3) Y ~N(X(3,CT2ln)
Preuve 1) lE(e) = E [t(el, ...,en)] =t 0
2)

l
Var(e1) Cov(e1,e2) cov(el,en).]
Var(e) = Cov(e2' el) Var(e2) Cov(e2' en) = CT2ln

Cov(~~,er) Cov(en,e2) ::: Va~·(en)


3)lE(Y) = lE(X(3 + e) = X(3 + lE(e) = X (3, Var(Y) = Var(X(3 + e) = Var(e) = CT2ln, X(3 déterministe et e ~
N donc Y = X(3 + e ~ N. Alors Y ~ N (X(3, CT2ln).
Commentaires: 1) La régression linéaire multiple peut être vue comme une extension de la régression simple
(p = 1).
2) C'est un problème plus difficile: les calculs sont plus difficiles et pratiquement impossible de s'en passer de
l'ordinateur.

Estimateurs ponctuels d:!J! et de CT2


<:: .
L'estimateur de moindres carrés du vecteur (3.
Cet estimateur s'obtient d'après la même procédure que pour la régression simple. C'est le vecteur aléatoire qui
minimise la fonction
n n
T((3) = LeT = L (Yi - ba - b1X1i - ... - bpXpi)2 = ete = (Y - X(3)t (Y - X(3)
i=l i=l
= (yt _ (3txt) (Y _ X(3) = yty - (3txty - v=xo + (3txtX(3
or (3t xty est un scalaire, donc, égal à son transposé. Donc
T((3) = yty - 2yt X (3 + (3t (Xt X) (3 = yty - 2(3txty + (3t (Xt X) (3
Une condition nécessaire d'existence d'extremum est que la première dérivée de la fonction T par rapport à (3 soit
nulle: ~f.
=0 Vi=O,I, ...,p =}-2XtY+2XtX(3=;oO,
(XtX)(3 = xty =} (3 = (XtX)-1 xty avec la condition que la matrice (tXX) soit inversible. Donc, l'estima-
<eue des moindres carrés do vecteur paramètre ~ est J

l::l
(!On = (XtX)-1 Xty

n; ~ B, est l'estimateur' des moindres carré pour b, i ~ 0, .. "p,

Si on a n mesures on obtient une valeur (réalisation) pour la v.a. Bn : /ln = (XtX)-1 xty, où y est le vecteur avec
. les me res pour Y et x est la matrice avec les mesures pour Xl, ... , xp. La valeur prédite de Y par le modèle est
\ y = X Ên et\?, - yls'appelle résidu.
Propriétés de l'estimateu"'r::.....::B:.u.....,--_-,
1) Estimateur de (3 sans biais: lE(Bn = (3.
Preuve. lE(Bn) = lE [(XtX)-l Xty = (XtX)-l XtlE(Y) = (XtX)-l x: (X(3) = (3
2) Variance de Bn. On note par C = (XtX)-l X! (une matrice non aléatoire). Donc Bn = CY.
Var(Bn) = Var(CY) = CVar(Y)Ct = (XtX)-l XtCT2ln [(xtxr1 xtf
1
= CT2(XtX)-l Xt(Xt)t [(XtX)-l] = CT2 (xtxr 1
(XtX) [(XtX)tr = CT2(XtX)-l = CT2(XtX)-l
Donc,

l
Var(Ba) Cov(Ba, BI) Cov(Bo·, Bp)
Var(B) = COV(~.l' Ba) Var(Bl) COV(BI,Bp)

Cov(Bp, Ba) Var(Bp)

40
c'est une matrice (p + 1) x (p + 1).
3) Chaque élément B, composant du vecteur B, j = 0, ... ,p est une fonction linéaire des variables yI, ...., Yn' Cette
propriété de linéarité détermine les propriétés statistiques de ces estimateurs. En particulier, puisque les Yi ~ N,
les estimateurs des bj suivent eux aussi une loi Normale, de variance facilement calculable.
4) Si on note (XtX)-l = (Cij)l<i< °+ , alors
_ ,J_P 1
- la variance de l'estimateur Bi-l de bi-l est le i-eme élément diagonal de la matrice (72 (xt X) -\ c'est-à-dire
2Cii
(7

- COV(Bi-l' Bj-l) = (72Cij pour i =1= j.


Estimateur pour
-
(72. On montre que

S2 = (y - XBn)t(y
n n-p-l
- XBn) (y _ y)t(y
n-p-l
_ Y)

est un estimateur sans biais de (72. Une estimation de (72

/?~

n-p-l
'0
~
«Propriétis t
1) (n -'p - 1) Sn
(72
~ x2(n - p - 1)
2) Bi et S~ sont indépendantes pour Vi = 0,1, ...,p.

5.3.2 Décomposition de la variabilité de Y


Pareil que pour la régression linéaire simple, nous avons
n n n
:L (Yi - Yn)2 = :L (Yi - Yi)2 + :L (Yi - Yn)2
i=l i=l i=l

ST = 2::7=1
(Yi - Yn)2 est la somme des carrés totale: représente la variabilité des observations de Y avant de
prendre en compte les effets des variables Xl, ... , Xp.
SR = 2::7=1
(Yi - Yi)2 est la somme des carrés résiduelle (la somme des carrés due aux erreurs) et elle représente
la variabilité de Y inexpliquée après que les variables Xl, ..., Xp ont étaient utilisées dans l'équation de régression
pour prédire Y.
SM = ST - SR = 2::7=1
(Yi - Yn)2 la somme des carrés due au modèle de régression et mesure la valabilité due
aux var. indép. Xl, ..., Xp dans l'équation de régression.
On a le tableau de décomposition (ANOVA) :

Source de variation ddl S.C. Carré moyen


Régression p SM SM/p
Résiduelle n-p-l SR SR/(n-p-l)
Totale n-l ST

5.3.3 -
Mesure de l'ajustement
-- ......:.------>---=-~
(empirique)
Est donnée par le coefficient de détermination :~E [0,1] qui donne une mesure sommaire, quantitative
sur la qualité de la prédiction de Y par les variables Xl, ..., Xp dans le modèle de régression linéaire. Il représente
aussi le carré de la corrélation entre Y et Y.
- Si on a une modélisation parfaite: Yi = Yi alors SR = 0, donc ST + SM donc R2 = 1.
- La valeur de R2 croît si des nouvelles var. indép. sont ajoutées au modèle de régression.
- Similaire à la régression linéaire simple, seulement la valeur de R2 est inssufisante pour bien caractériser la
qualité de l'ajustement.
Exemple. Le tableau d'analyse de variance:

Source de variation ddl S.C. Carré moyen


Modèle (Xl,X2) p=2 62.5 3l.25
Résidu 2 11.5 5.75 R2 = ~i:~= 0.85
Totale 4 74

41
5.3.4 _..Théorème de
..••.. Gauss-Markov
Considérons un modèle '~néaire général : Y = X f3 j- E avec Y un vecteur aléatoire de dimension n xI, X une
matrice d'ordre n x p et le vecteur des erreurs E de dimension ti x 1. Soit Bn = (Xt X)-l Xty l'estimateur des
moindres carrés de {3. .

t
héorème Soit 1jJune application linéaire de jRP dans jRq et Y = X {3+ E un modèle linéaire où, pour tout
5.3.1
i et tout i, ~[ci] =0, Va1;J~i.l= (J2 < 00 et COV(Ci,Ej) = 0, pour i i= j. Alors l'esiimaieur des moindres carrés
1jJ(Bn) est une estimateur sans l5iadififti'r1jJ({3), uniformément de variance minimale parme les estimateurs sans
. iais linéaires en Y.

Preuve. Soient A une matrice de dimension q x p, U E jRq et 1jJ(U) = AU. Soit T(Y)un autre estimateur sans
biais de 1jJ({3)linéaire en Y, T(Y) = TY. On veut montrer que Var[TY] 2: Var[ABn], c'est-à-dire que la matrice
Var[TY] - Var[ABn] est positivement définie. .
Or Var[TY] = TVar[Y]Tt = (J2TTt. Soit P = X(XXt)-lXt. On a que P + (ln - P)(ln - P) = ln et donc

Var[TY] = (J2TTt = (J2TlnTt = (J2T[P + (ln - P)(ln - P)]Tt = (J2TPTt + (J2T(ln - P)(ln - P)Tt
= (J2(TX)(XtX)-1(TX)t + (J2(T - TP)(Tt _ PTt)

Mais TY et ABn sont des estimateurs sans biais pour A{3, donc, lE[TU] = TlE[Y] = TX{3 = A{3 pour tout {3,ce
qui implique T X = A. On remplace dans l'équation précédente:

Var[TY] = (J2A(Xt X)-l At + (J2[T - TX(Xt X)-l Xt][Tt - X (Xt X)-l XtTt]
= Var[ABn] + (J2[T - A(XtX)-l Xt][Tt - X(XtX)-l At] = Var[ABn] + Var[TY - ABn]
En effet Var[TY - ABn] = lE[(TY - ABn)(TY - ABn)t] = lE[(TY - A(Xt X)-l XtY)(TY - A(Xt X)-l Xty)t] =
lE[(T - A(XtX)-lXt)yyt(T - A(XtX)-lXt)t] (T - A(XtX)-lXt)lE[yyt](T - A(XtX)-lXt)t = (J2(T-
A(Xt X)-l Xt)(T - A(Xt X)-l Xt)t •

5.3.5 ~ 9-'hypothèse
Une fois le modèle de régression multiple fixé et les estimations des paramètres obtenues, on se pose la question
sur la contribution des variables Xl, ..., Xp sur la prédiction de Y.
Un des critères importants dans la sélection d'un modèle est de choisir celui qui, avec moins de variables, fournissait
la meilleur description des données étudiées. Dans la cadre de la régression linéaire multiple, p variables peuvent
s'avérer superflus et un nombre inférieur q (q < p) peut permettre une description aussi bonne.
Il y a 2 types de questions que l'on peut se poser
1. On teste si le groupe entier de variables indépendantes contribue significativement à la prédiction de Y.
2. Test pour ajouter une seule variable, quand les autres variables indépendantes sont déjà dans le modèle

!e~ de la significativité du modèle de régression entier


On a le modèle complet
Qi = bo + blXli + ...+ bpXpi +:D:l
Pour ce test l'hypothèse nulle peut se traduire comme:
Ho : "Toutes les p variables indép. considérées dans le même temps ne produisent pas une variation en Y"
Ho : " il n'y a pas de régression significative en utilisant les p var indép. dans le modèle
Ho: bl = b2 = ... = bp = a contre Hl : 3j E {1, ... ,p} t.q. bj i= a
Sous l'hypothèse Ho, le modèle réduit est: Yi = bo + e, i = 1, ..., n. Pour faire ce test on utilise la statistique

Z= SM(X1, ... ,Xp)jp = (ST-SR)jp ~F(p,n-p-l)


SR(Xl, ... ,Xp)j(n-p-l) SRj(n-p-l)

Pour un niveau Œ fixé, la zone d'acceptation est: ZA = [0;!p.n-p-l;l-<>].

Exemple. 12,2,;095 = 19 ZA = [0;19] z = 35\,2; = 5.4

42
Apport d'un seule variable

Si l'ensemble des variables Xl, ... , Xp est significatif dans la prévision de Y, on se pose la question d'effacer les
yariables qui ne servent pas à la prédiction de Y. Sans réduire la généralité, on suppose que l'on teste l'influence
de Xp.: . .
Ho : Xp ne contribue pas de manière significative à la prédiction de Y si Xl, ... , Xp-l sont déjà dans le 'modèle.
Hl : Xp contribue de manière significative à la prédiction de Y si Xl, ... ,Xp-l sont déjà dans le modèle.

Ho: bp = Olbj =1- O,j E {I, ...,p -1} contre Hl : bp =1- Olbj =1- O,j E {1, ... .» - 1}

Modèle complet: Yi == bo + blXli + ...+ bp-IXp-l,i


Modèle réduit: Yi = bo + blXli + ...+ bp-IXp-l,i
+ bpXpi + Ci·
+ Ci·
j-}o·. ~p ;:
Ho ; Îo{' tOI bj
of b; 'f-
tV
0,
j:A .f!
Accepter Ho signifie que le peme facteur n'apporte rien de plus après les p - 1 variables. Mais ca, ne signifie pas 1 '
que ce facteur seul n'a pas d'effet sur Y (Xp peur être corrélé avec Xl, ... ,Xp-l).
Pour tester l'hypothèse Ho on utilise la statistique

où : SM (X l, ..., Xp) est la somme des carrés due au modèle dans le modèle complet; M (X l, ..., Xp-l) est la
somme des carrés due au modèle dans le modèle réduit. Pour un risque ex fixé, la zone d'acceptation est: ZAHo,a =
[0; h,n-p-1 ;1-0-]'
Pour tester Ho, on peut utiliser aussi une statistique qui suit une loi de Student

1 Z=- Bp ~t(n-p-l)
L-!Var(Bp)
où Bp est l'estimateur de bp dans le modèle complet et Var(Bp) est la variance de cet estimateur. La zone
d'acceptation: ZA = [-tn-p-1;1-0-/2; tn-p-1;1-0-/2]

5.3.6 Sélection des régresseurs


Plutôt que de chercher à expliquer Y par les p variables explicatives, on peut chercher un ensemble de k (k :S p)
variables parmi les p, qui donnent une reconstitution presque aussi satisfaisante de Y.
Les objectifs d'une telle démarche:
- économiser le nombre de prédicteurs (régresseurs) ;
- éliminer les variables redondantes qui augmentent de manière non justifiée la variance du modèle.

Les critères du choix


Ils dépendent des usages que l'on fait de la régression:
- reconstitution des Yi;
- prévision des valeurs futures;
- estimation précise des paramètres d'un modèle.

-
Le critère du R2 est bien adapté au premier objectif. Il n'est pas à l'abri des critiques: il varie de façon monotone
avec le nombre de variables: il ne peut qu'augmenter si on rajoute une variable, même peu corrélée avec Y. On ne
peut pas donc l'utiliser pour choisir la taille d'un sous-ensemble de régresseurs.
Si l'objectif est de minimiser l'erreur de prévision, le R2 n'est pas adapté et on préférera des critères tels que le
ô-2 : plus ô-2 est petit, plus le modèle est meilleur. '

Les techniques de sélection


A. Recherche exhaustive
La premiére idée consiste à faire toutes les régressions possibles:
- à une variable : il y a p régressions;
- à 2 variables : il y a p(p - 1)/2 régressions;

- à k variables: il y a C~ possibilités;

- pour en finir avec le modèle complet à p variables.


Or, en total il y a 2P régressions, y compris le modèle sans régresseurs. Cette procédure est forte longue:
- quand p = 10 il Y a 1024 modèles possibles;
- quand p = 30 il y a plus d'un milliard.

43
L'examen de tous les modèles serait d'ailleur sans intérêt, car nombre d'entre eux sont très voisins.
A k régresseurs fixés, on choisira le modèle qui fournit le R2 maximum. Si k n'est pas fixé, le modèle avec toutes
les variables significatives.

B. Les méthodes pas à pas


Elles procèdent par élimination successive ou ajout successif des variables.

La méthode descendante consiste à éliminer la variable la moins significative parmi les p : en général celle qui
provoque la diminution la plus faible de R2 (c'est celle qui a la probabilité d'accepter Ho la plus proche de 1).
On recalcule alors la régression et on recommence jusqu'à l'élimination de p - 1 variables ou en fonction du test
d'arrêt:
- on part avec le modèle complet [à p variables) :

°
- on teste: HOj : bj = Ib1, ... bj-1,bj+l, ... ,bp i O,j E {1, ... ,p}
S'il existe au moins une hypothèse HOj acceptée, alors on élimine la variable pour laquelle le modèle réduit
correspond au R2 le plus grand: la probabilité d'accepter HOj la plus proche de 1.
Dans le modèle à p - 1 variables on teste l'hypothèse si parmi les variables gardées il y a au moins une non
significative.
On s'arrête quand on ne peut plus éliminer des variables.

La méthode ascendante procède en sens inverse :


on part de la meilleure régression à une variable (par rapport à R2) ;
- on cherche parmi les p - 1 régressions à 2 variables, incluant la première déjà sélectionnée;

- On s'arrête soit au modèle complet soit quand on ne peut plus introduire de variables significatives.

44
Chapitre 6

ANALYSE D..E- VARIANCE_

6.1 Analyse de varIance à l!!!.. facteur


6.1.1 Introduction
Exemple. Les 21 candidats à un oral ont été répartis au hasard entre 3 examinateurs. Le premier examina-
teur a fait passer l'oral à 6 étudiants, le second à 8 étudiants et le troisième à 7 étudiants. Les notes qu'ils ont eu sont:

Exam.inateur A B C
10,11,11,12,13,15 8,11,11,13,14,15,16,16 10,13,14,14,15,16,16
Effectif 6 8 7
Moyenne 12 13 14

On se demande si la variation des moyennes peut être due au hasard ou si elle tient d'un réel "effet examinateur".

En général, l'analyse de variance (ANOVA) est une technique statistique utilisée pour étudier l'effet des Y.&-
riables qualitatives
<0-. _ sur une variable quantitative Y, -

6.1.2 '1 Terminologii]


- ~ {variable qualitativv : une variable qui prend un nombre finit de valeurs, pas nécessairement numériques
(1ine valeur constitue une classe). Pour l'example on a le facteur "examinateur" qui prend 3 valeurs: A, B,
c.
-Siiiiiiplpopulationj les différentes valeurs prises par un facteur.
.; test de l'effet d'un facteur tester si les moyennes des populations sont égales.
La vaf"iable à modéliser (à pré~oir) Y, comme pour la régression linéaire, est une variable qui prend que des valeurs
numériques.
Pour l'example : Y : notes; facteur: examinateur; niveaux: A,B, C.
On utilise un vocabulaire particulier, introduit par les agronomes, qui ont été les premiers à s'intéresser à ce type
de problème: la variable qualitative susceptible d'influencer sur la distribution de la variable quantitative étudiée
est appelée "facteur" et ses valeurs "populations".

6.1.3 \ Donnéeû
On suppose qu'on a un seul facteur F et on dispose de k échantillons de tailles respectives nI, ... ,nk, correspon-
dant chacun à un niveau différent du facteur F. On pose

n= Lni
i=I

A chaque experiment on mesure la valeur de la variable Y. On peut alors présenter les données à l'aide du tableau
suivant:

45

~~---------------------------------------------------------------------------------
~-.

Niveau (population) Nb.obs. Valeurs de Y


1 Yu, Y12, , YIn,
2 Y21, Y22, , Y2n2

On observe que le nombre d'observations pour chaque population peut ne pas être le même.
Notations: Pour un niveau i :

(la moyenne empirique des Y pour la population i)


.-- k k ni r~----------------I
1 1 k . 1 k ni
Y. = LYi = LLYij, y = -y
n" = t;«:
- "" Yi = n L ""
- ~ Yij
i=l i=l j=l i=l i=lj=l

Hypothèse: les k échantillons sont indépendantes et de loi Normale. Plus précisément, on suppose que pour tout
couple (i, j) les données Yij sont des réalisations de la v.a. Yij ~ N (mi, (J2) et Yij, Yi, j'indépendantes pour i el i'
oujelj'·
Autrement dit, pour chaque i, les données Yi1, ... , Yini sont des réalisations des ni v.a. Yi1, ... , Yini indépendantes et
de même loi N(mi, (J2).
L'objet de cet étude sera de savoir si les moyennes mi sont toutes égales ou non.

6.1.4 Modèles statistiques


Puisque Yij ~ N(mi, (J2) on peut poser:

l.Yij=mi+E:ijJ i=I, ...,k j = 1, ..., ni (6.1)

avec Cij ~ N(O, (J2).


Paramètres à estimer: mi la moyenne de la population i, (J2 la variance.
Le modèle (6.1) peut être écrit sous une forme équivalente:

'/1 Yi~--::~-;' ai + E:iJ i = 1, ... , k j = 1, ... , ni (6.2)


.--
où:
- Il représente une valeur appelée" effet moyen" ;
- ai représente l'effet du niveau i du facteur F.

Alors, on doit estimer k + 1 paramètres: Il et ai (i = 1, ... , k) pius la variance (J2.


Le modèle écrit sous la forme (6.2) a une indétermination, car (11 + ai) peut s'obtenir d'une infinité de manières.
On remédie cela, en introduisant une contrainte, qui est en généralement la suivante: I:7=1 niai =0 .
En utilisant une notation vectorielle, le modèle (6.1) prend la forme:

1 0 0 0
Yll cn
1 0 0 0
Y12 E:12
........................
1 00 ... 0
YIn, E:ln,
0 1 0 0 ml
Y21 E:21
0 1 0 ... 0 m2

Y2n2
.........................
+ E:2n2
(6.3)
0 1 0 ... 0
............................ mk
..........................
Yk1 E:kl
0 0 0 ... 1
.......................
Yknk E:knk
0 0 0 ... 1
ou encore
[y = X,8+E:} (6.4)
Donc, l'analyse de variance est un modèle linéaire.

46

.j
r

6.1.5 Estimation des paramètres


i'
Pour les modèles (6.1) ou (6.3), il faut trouver les valeurs de mi qui minimise la fonction:
k ni k ni

T(mi) = LLC;j = LL(Yij -mi)2


i=lj=l i=lj=l
En faisant des calculs, on obtient que: mi = Yi.. Sous l'hypothèse de normalité et d'indépendance des échantillons,
Yi. est un estimateur sans biais de mi et

Pour le modèle (6.2) les paramètres à estimer sont: f-Let les Œi, i = 1, ..., k. On utilise la décomposition: Cij
E.. +(Ei. - E..) + (cij - Ed et par des calculs élémentaires on obtient:
k ni k ni k ni k ni

LLC;j = LLE2 + LL(Ei. -E.Y + LL(Cij -td2 (6.5)


i=l j=l i=l j=l i=l j=l i=l j=l
On écrit les C fonction des paramètres à estimer:

k k
C .. = Y. - Lnif-L - LniŒi, C .. = Y. - -nf-L, E.. =Y.-f-L
i=l i=l

alors la relation (6.5) devient:


k ni k ni k ni k ni

L LC;j = L L(Y· - f-L)2+ L L(Yi· - Y. - Œi)2 + L L(Yij - YiY (6.6)


i=l j=l i=l j=l i=l j=l i=l j=l
Le membre droit de (6.6) est minimisé pour :

il = Y.,

k k k k

LniŒi
i=l
= LniYi.
i=l
- LniY
i=l
= LYi
i=l
-ny' = °
L'estimateur du maximum de vraisemblance modifié pour (J"2 est:
.. 1 k ni
S2 = - '"' ,",(y; - Y; )2
ti -k LL"J
1. .n
i=lj=l
L

6.1.6 Tests d'hypothèses '-


Tableau d'analyse de variance
On veut d'abord tester l'hypothèse qu'il n'y a pas k niveaux (populations) différents, mais qu'ils sont tous
confondus: les n observations proviennent d'une population unique d'espérance m. Pour le modèle (6.1) ou (6.3),
l'hypothèse nulle a la forme:
Ho: ml = m2 = ... = mk = m, contre Hl : ::Ji,j E {l, , k} tels que mi -1 mj.
Ou, équivalent pour le modèle (6.2) : Ho : Œ1 = Œ2 = = Œk = 0, contre Hl : ::Ji E {I, ..., k} tel que Œi -1 o.
Sous l'hypothèse Ho, le modèle a la forme: Mreduit : Yij = f-L+ Cij.
L'estimation pour f-L: il = Y. et la prévision de Yij : Y;j = il· Alors, le résidu, sous l'hypothèse Ho est: Yij - Y ..
La variabilité totale est: 2:7=12:;~1
(Yij - yy. On peut écrire: Yi] - Y = (Yij - Yi) + (Yi - y) et par des
calculs élémentaires, on obtient :
k ni k ni k n'Î

L L(Yij - YY = L L(Yij - Yi)2 + L L(Yi - YY


i=l j=l i=l j=l i=l j=l
(variabilité totale=variabilité résiduelle + variabilité due au modèle) : ST=SR+SM.
On peut résumer cette décomposition par le tableau d'analyse de variance :

47
Source de variation ddl S.C. Carré moyen
Modèle k-1 SM SM/(k -1)
Résiduelle n-k SR SR/(n - k)
Totale n-1 ST

Test d'égalité des k effets


Pour tester l'hypothèse Ho on utilise la statistique:

SM/(k -1)
Z = SR/(n _ k) '""F(k - 1, n - k) (sous Ho)

Pour un risque Œfixé, la zone d'acceptation est: ZAHo,a = [0 ik-l,n-k;l-aJ

Exemple. Les modèles attachés:

Yij = mi + éij, . i = 1,2,3, (6.7)

ou encore
Yij = J.L + Œi+ éij, i=1,2,3, (6.8)
Les estimations des paramètres: jJ, = y = 13.04, &1 = YI. - Y. = 12 -13.04 = -1.04, &2= Y2. - y .. = 13 - 13.04 =
-0.04, &3 = Y3. - Y.. = 14 - 13.04 = 0.96. On veut tester s'il y a un effet examinateur: les examinateurs n'ont pas
le même système de notation :
Ho: ml = m2 = m3 = m contre Hl : :Ji # j tel que mi # mj
Ho : Œl = Œ2= Œ3= 0 contre Hl : :Ji # j tel que Œi # 0
SM=12.95, SR=98, z = ff~~~~=~))
= 1.19, ZAHo;l-a = [0 h,18;0.096J (0 3.55J. Donc, Ho acceptée les
examinateurs ont le même système de notation.

Comparaison de moyennes
Le rejet de l'hypothèse d'égalité des moyennes ne signifie pas que tous les mi sont différentes entre eux. On
cherche souvent à tester l'égalité entre deux moyennes:
Ho: mh = mj contre Hl : mh # mj pour h # j.
On utilise la statistique de test :

La zone d'acceptation ZAHo,l-n = [-tn-k;l-a/2; tn-k;1-a/2J.

6.2 Analyse de variance à deux facteurs


6.2.1 Introduction
On a vu comment comparer les populations d'un même facteur. Supposons maintenant qu'un expérimentateur
souhaite comparer l'influence de trois régimes alimentaires et de deux exploitations sur la production laitière. Les
résultats expérimentaux sont dans le tableau suivant.

Expl l R.alim --> A B C Total Moyenne


1 7 36 2 45 15
2 13 44 18 75 215
Total 20 80 20 120
Moyenne 10 40 10 20

6.2.2 Données
On suppose qu'on a deux facteurs (variables) FI et F2. Le nombres de niveaux (valeurs possibles) pour FI est
de p et pour F2 est de q. Pour chaque couple (i,j) de niveaux on a r(:::: 1) observations de la variable dépendante
Y. Alors, on peut présenter les données à l'aide du tableau suivant:

48
FI / F2 1 ................ .................... P
1 Y11l, ... , Y11r ................. Yi 11, ... , Yilr . .................. Yp11, ... , Yplr

j Yljl, ... , Yljr ................. Yijl, ... , Yijr ................... Ypjl, ... , Ypjr

q Ylql, ... , Yljq ................. Yiql, ... , Yiqr ................... Ypql, ... , Ypqr

Dans la cellule (i,j) nous avons les valeurs (observations) Yijk : i donne le niveau (population) du facteur FI, j
le niveau de F2· et k la répétition pour un couple (i, j). On a pq cellules et dans chaque cellule il y a r observations.
Notations:
",r - 1
Yij = Lk=1 Yijk Yij = r:Yij.
Yi ..' = LJ=;1 L%=1 Yijk Yi .. = q1rYi..
1
{ Yi- '= Lf=1 L%=1 Yijk Y.j. = p rY.j.
Y.. = Lf=1 LJ=1 L%=1 Yijk Y... = p~rY ...
Les observations Yijk sont des réalisations de la v.a. Yijk sur laquelle on fait les hypothèses:

Vk = 1, ... ,r
indépendantes

En ce qui concerne le nombre r de répétitions on a 2 situations:


- r> 1
- r = 1. Il n'y a pas de répétition et on va noter Yij. par Yij.
Alors, les modèles statistiques considérés seront fonction de ces 2 situations. Les problèmes à traiter seront les
mêmes que pour un seul facteur:
- écrire un modèle statistique de Y fonction des facteurs;
- estimer les effets des niveaux des deux facteurs;
- test d'hypothèse.

6.2.3 Modèle sans intéraction· (additiO : r~


<:
Le modèle le plus simple est d'additionner les effets du facteur FI avec les effets du facteur F2 :

(6.9)

où:
- IL est l'effet moyen
- Œi est l'effet dû au niveau i du facteur FI·
- ;3j est l'effet dû au niveau j du facteur F2

Puisque Yijk '"'-'N(mij, (52) on peut considérer un modèle:

(6.10)

Ce dernier modèle est indeterminé, car on peut obtenir la relation (6.9) par une infinité de manières. On remédie
ca, en introduisant des contraintes, par exemple:
p

2: Œi = 0
i=1

Estimation des paramètres

Il faut trouver les valeurs de mij (ou de IL, Œi, ;3j) qui minimisent la fonction:
p q p q p q
T(mij) = 2: 2: é7j = 2: 2:(Yij - m;j)2 = 2: 2:(Yij - IL - Œi - ;3j)2 (6.11)
i=1 j=1 ;=1 j=1 ;=1 j=1
On utilise la même technique que pour l'analyse de variance à un facteur, et on obtient:

;3'=Y-Y
] .] .. ÎL = Y.
La valeur prédite pour Yij est :

49
Exemple. FI est le régime alimentaire, qui prend 3 valeurs (A, B; C), donc p = 3. F2 est l'exploitation, qui prend
2 valeurs (1 et 2), donc q = 2. Le modèle statistique est:

( Yij = IL + ai + {3j i = 1,2,3 j = 1,2


où: al est l'effet de l'exploitation no. 1 sur Y, {31est l'effet du régime A sur la production laitière ..... Les estimations
des paramètres sont: fi, = Y.. = 20, &1 = YI -Y .. = 10-20 = -la, &2 = 20, &3 = -la, /31 = Y.l -y. = 15-20 = -5,
/32 = 5. La prévision de Yll (pour le régime alimentaire A et l'exploitation 1) : Yll = fi, + &1 + /31 = 20 l O- 5 = 5. =

Tableau d'analyse de variance


En partant de l'identité: Yij - Y. = (Yij - Yi. - Yj + y.) + (Yi. - y.) + (Yj - y). On obtient:
p q
~(y;.
L'J _ y)2
.. = L'J
~(Y; _ Y;z , _ Y .J+ y)2.. + q~(Y
L" _ y)2
.. +p~(y.
L·J _ y)2
..
ij ij i=1 j=1

ou encore ST = SR + SFl + SF2. On peut résumer cette décomposition par le tableau d'analyse de variance:

Source de variation ddl S.C. Carré moyen


FI p-l SFl SFd(p -1)
F2 q-1 SF2 SF2/(q - 1)
Résidu (p - l)(q - 1) SR SR/(p - l)(q - 1)
Totale pq -1 ST

Test d'hypothèse
On peut tester deux types d'hypothèse: modèle significatif, l'effet de chaque facteur.

Test du modèle. Le modèle n'est pas significatif si aucun des deux facteurs n'influencent Y :
Ho : al = ... = ap = {31= ... = {3q = a
contre:
Hl :::Ji E {l, ...,p} ou::Jj E {l, ...,q} t.q. ai -=J a ou {3i -=J o.
Le modèle complet est (6.10) et le modèle réduit: Yij = IL + Cij.
Statistique de test:

z = (SFl + SF2)/(p +q- 2) "-' F( + _2 ( -1)( - 1)) sous Ho


SR/(p-1)(q-1) P q , P q

Test d'un facteur. Supposons que l'on veut tester l'effet de FI.
Ho FI n'influe pas Y sachant que F2 est dans le modèle.
Ho: al = ... = ap = a contre HI : ::JiE {l, ... ,p} t.q. ai -=J O.
Le modèle complet est (6.10) et le modèle réduit: Yij = IL + {3j + Cij· (modèle à un facteur)
L'hypothèse Ho peut être traduite sous la forme: la moyenne mij ne dépend pas de i. Statistique de test:

(SFI)/(P - 1)
Z = SR/(P _ l)(q _ 1) "-' F(p - l, (p - l)(q - 1)) sous Ho

Exemple. Le tableau d'analyse de variance est:

Source de variation ddl S.C. Carré moyen


FI 2 1200 600
F2 1 150 150
Résidu 2 28 14
Totale 5 1378

On teste si le modèle est significatif: Ho : al = a2 = a3 = {31 = {32 = a :

z = (SFI + SF2)/(3 + 2 - 2) "-' F(3 2) sous Ho


SR/2 '

50

•..._-------------------
"'--- --- 1
ZA = [0; h,2:0.95J = [0; 19.2], z = l3~~/3 = 32.1 tf. ZA. Donc Ho est rejetée et le modèle est significatif.
On teste si le facteur régime alimentaire actionne sur la production laitière: Ho : QI = 0'2 = 0'3 = a sachant
que l'exploitation est dans le modèle. L'hypothèse alternative est Hl : ::Ji E {1, 2, 3} t.q. Qi =1 O. Le modèle sous
Ho est Yij = M + (Jj + Cij, i = 1,2,3, j = 1,2. La statistique de test Z = S;~;;~
F(2,2) sous Ho.
ZA = [0; h,2:0.95J = [0; 19.0], z = 61040= 42.86 tf. ZA. Donc Ho es rejetée, le régime alimentaire est un facteur'
influent sur la production laitière.

6.2.4 Modèle avec interaction (additif) : r > 1


("

Dans ce cas, pour chaque couple (i,j) de niveaux on a r(r > 1) observations de la variable Y. C'est-à-dire que
le tableau de données contient pq cellules et chaque cellule contient r observations. En ce qui concerne l'hypothèse
statistique, l'hypothèse que les actions des deux facteurs FI et F2 s'ajoutent est une hypothèse simplificatrice, qui
n'est pas toujours réalisée. "Il peut y avoir une interaction des facteurs FI et F2, c'est-à-dire que pour certains
couples (i,j) l'actiorçsi ultanée de FI au niveau i et de F2 au niveau j peut être bénéfique sur Y.
C'est ainsi que pour reprendre l'exemple, un certain régime alimentaire peut être particulièrement adapté à une
certaine exploitation.
Les mesures sont Yijk qui sont des réalisations de la v.a.

i=I, ...,p j=I, ...,q k=I, ...,r

Le modèle statistique considéré est :

]~ (6.12)
avec rij l'effet de l'interaction entre le niveau i du facteur FI et le niveau j du facteur F2.
Paramètres à estimer: M,Qi, {Jj, rij et (j2 Le modèle (6.12) est indéterminé. On introduit les contraintes:
P p q

I>i =0, L rij = a vi. L rij = a Vi


i=1 i=1 j=1
Exemple. On suppose que l'on a les mêmes facteurs et que r = 2 :

Expl l R.alim ~ A B C
1 7, 8 36, 30 2,5
2 13, 15 44, 45 18,20

Estimation des paramètres


Il faut trouver les valeurs de M,Qi, {Jj, rij qui minimisent la fonction:
p q p q

T(M, Qi, (Jj, rij) = L L C;jk = L L(1'ijk - M- Qi - {Jj - rij)2 (6.13)


i=1j=1 i=lj=1

On utilise la même technique que pour l'analyse de variance à un (deux) facteur, et on obtient:

Ô:i = Yi. - Y .., {J'_y.


1. - -J.
-y . .. , '- -
M y...
La valeur prédite pour Yij est :

Tableau d'analyse de variance


En utilise l'identité:

On obtient:
p q

L(Yijk - YY = L(Yijk - YijY + r L(Yij - Yi .. - Yj +Y Y + rq L(Yi - YY + rp L(yj - Y.Y


i,j,k i,j,k i,j i=l j=1

ou encore ST = SR + SFhF2 + SFl + SF2 == SR + SM. On présente usuellement les résultats sous la forme du
tableau d'analyse de variance:

51
F~---
....
\

1· Source de variation ddl S.C. Carré moyen


FI p-l SFl SFl/(P - 1)
F2 q-l SF2 SP2/(q -1)
Fl*F2 (P-l)(q-1) SFl~P2 SPhP2/(P - 1)(q - 1)
Résidu pq(r - 1) SR SR/pq(r -1)
Totale pqr -1 ST

L'estimateur sans biais de (J2 :


S2 = SR = I:i,j,k(Yijk - Y.Y
pq(r - 1) pq(r - 1)

Test d'hypothèse Gtt.9


On peut tester les hypothèses :
- si le modèle est significatif;
G.30f:},~ 2-
- l'effet d'un facteur sur Y; 0tq30~11·6
- l'effet de l'interaction entre les deux facteurs sur Y.
.,

Test du modèle. Ho: 0'1 = 0'2 = ... = O'p = 0 et /31 = ... = /3q = 0 et 'Yij = 0 Vi,j
contre
Hl: :Ji E {1, ... ,p} ou:Jj E {1, ... ,q} t.q. O'i 1- 0 ou /3j 1- 0 ou 'Yij 1- o.
Modèle réduit: Yijk = Ji. + éijk·
Pour tester l'hypothèse Ho on utilise la statistique:

z = (SFl + SF2 + SPhP2)/(pq - 1) ~ F( _ 1 (_ 1))


SR/pq(r _ 1) pq ,pq r

Test d'un facteur. Sans réduire la généralité on suppose que l'on teste FI.
Ho : 0'1 = 0'2 = ... = O'p = 0 sachant que FI et FI *F2 sont dans le modèle.
Hl: :Ji E {1, ... ,p} t.q. O'i f 0
Le modèle réduit est: Yijk = Ji. + /3j + 'Yij + éijk·
Statistique de test:
. SpI/(p - 1)
z = SR/pq(r _ 1) ~ F(p - l,pq(r - 1))

Test de l'interaction. Ho: 'Yij = 0, Vi, j sachant que FI et F2 sont dans le modèle, contre Hl: :J'Yij 1- o. Le
modèle réduit est: Yijk = ~l + O'i + /3j + éijk·
Statistique de test :
z= SPhF2/(P - 1)(q - 1) ~ F(( _ 1)( _ 1)
SR/pq(r _ 1) P q
(-
,pq r
1))

BIBLIOGRAPHIE - TD

1) J .P.LECOUTRE- "Statistique et Probabilités"


2) A. COMBROUZE - "Probabilités et Statistiques te, Vol. 2
3) A. ROUGG- "Probabilités et Statistiques"
4) P. JAFFARD- "Initiation aux méthodes de la Statistique et du calcul des probabilités"
5) G. BAILLARGEON- "Probabilités, Statistique et techniques de régression"
6) A. MATTEI- "Inférence et décision statistique"
7) C. MOUCHOT- "Exercices pédagogiques et statistique et Econométrie"
8) KA. JOHNSON, G.I<. BHATTACHARYYA- "Statistics- Principles and Methods"
9) P. DAGNELIE- "Statistique théorique et appliquée ", Vol.2.
10) A. PHILIPPE, ]\Il-C VIANO - Cours de Statistique de base,
www.math.sciences.univ-nantes.fr/philippe/download/Aphilippe-]\iI.Cviano-cours-stat- MIM .pdf

52