Vous êtes sur la page 1sur 38

Notes de Cours : STATISTIQUES

Frédérique Leblanc

16 avril 2007
1
Chapitre 1

Introduction

On souhaite étudier un caractère X sur une population P. Par exemple, le sexe, le nombre
de cafés consommés en une semaine, le poids ou encore la taille d’un étudiant de l’amphi. En
général, on ne peut pas observer ce caractère sur tous les individus d’une grande population,
mais seulement sur une sous-population de P de taille n. On notera alors :

sous-population : {i1 , ..., ij , ..., in } un ensemble de n individus choisis au hasard dans P.


échantillon de données : x1 , ..., xj , ..., xn les n valeurs observées du caractère X sur les
individus de la sous-population.

Deux problèmes se posent alors naturellement :


1. Quelles informations sur le caratère X, peut-on tirer de l’échantillon ?
2. Quelle prévision pourrait on faire sur un individu non observé de P, à partir des données
observées x1 , ..., xj , ..., xn ?
Pour répondre à ces questions on utilisera les outils suivants :
1. Statistiques descriptives : résumés graphiques ou numériques de l’échantillon de données.
2. Modélisation : le caractère X d’un individu choisi au hasard dans P est aléatoire (puisqu’il
dépend de l’individu choisi). Il sera décrit par l’ensemble de ses valeurs possibles que l’on
notera X et par la probabilité d’obtenir l’une ou l’autre des valeurs de X . Modéliser le
caractère d’intérêt revient à se donner l’ensemble X et la loi de probabilité associée IP. Ce
qui en d’autres termes revient à supposer que X est une variable aléatoire de distribution
(ou loi de probabilité) IP sur X . Si cette distribution est connue, on peut prévoir (avec un
certain risque d’erreur) la valeur de X pour n’importe quel individu tiré au hasard dans
P, à l’aide du calcul des probabilités.
3. Inférence statistique : Si on ne connaı̂t pas IP, on supposera que IP dépend d’un paramètre
inconnu θ. On estimera alors θ à l’aide de x1 , ..., xj , ..., xn , afin de pouvoir ensuite prévoir
X pour tout individu de P. On pourra aussi décider, au vu de l’échantillon observé, que le
paramètre inconnu θ dépasse (ou non) un certain seuil, en contrôlant le risque de donner
une conclusion erronée. Dans tous les cas, les décisions seront prises au vu de l’échantillon
observé, c’est-à-dire à partir d’une information partielle sur P. On risque donc de prendre
une mauvaise décision, si par exemple l’échantillon représente mal la population totale. Les
méthodes de décision seront donc développées de sorte que l’on puisse contrôler le risque
de donner une mauvaise conclusion concernant P, en utilisant l’échantillon observé.

2
Selon la forme de l’ensemble X , la variable X aura trois “types” différents. On dira que X
est une
– variable qualitative lorsque X est un ensemble fini de mots ou codes (par ex. X =
{Femme, Homme} ou X = {1, 0}). Dans ce cas les éléments de X ne peuvent pas être
ordonnés.
– variable quantitative discrète lorsque X est une suite finie ou infinie d’éléments de IN
(par ex X = {0, 1, ..., 5} ou X = IN).
– variable quantitative continue lorsque X est un intervalle de IR (par ex X = IR ou
X = [120, 210]).
La description de données qualitatives ou quantitatives discrètes et leurs modélisations diffèrent
de celles de données quantitatives continues. Les premières seront abordées dans le chapitre 2
et les suivantes dans le chapitre 3. L’inférence statistique fera l’objet des chapitres 4 à 8.

Plan de cours :
– Chap. 2 : Variables discrètes
– Chap. 3 : Variables continues
– Chap. 4 : Estimation et intervalles de confiance
– Chap. 5 : Tests paramétriques
– Chap. 6 : Tests de comparaisons d’échantillons
– Chap. 7 : Tests du Chi2
– Chap. 8 : Régression linéaire

Exemples de données :

individus 1 2 3 4 5 6 7 8 9 10 11 12 13 14
i 15 16 17 18 19 20
sexe 1 1 1 1 1 1 1 1 1 1 1 1 1 1
si 0 0 0 0 0 0
nb. heb. caf. 4 3 1 4 2 4 5 4 3 1 4 1 4 1
ci 2 3 3 4 1 3
poids (kg) à 20 ans 70 54 62 65 55 62 57 56 68 59 59 60 64 59
pi 78 70 68 71 71 76
poids (kg) à 15 ans 57 58 59 65 68 53 66 53 68 56 57 64 55 50
p0i 68 75 57 61 76 77
taille (cm) 187 149 166 170 148 162 148 150 189 157 159 165 174 164
ti 208 191 173 184 190 199

Résumés numériques :
X X X X X
si = 14, ci = 57, pi = 1284, p0i = 1243, ti = 3433,
X X X 0 X X
c2i = 195, p2i = 83368, pi2 = 78471 t2i = 595457, pi ti = 222742.

c̄ = 2.85, p̄ = 64.2, p̄0 = 62.1, t̄ = 171.65, s2c = 1.6275, s2p = 46.76, s2p0 = 60.93, s2t = 309.1275,

cov(p, t) = 117.17.

3
Chapitre 2

Variables discrètes

Nous nous intéressons au cas où X est un ensemble fini de q éléments : m1 , ..., mq appelés
modalités de X. S’il s’agit d’éléments quantitatifs, on conviendra d’ordonner les modalités dans
l’ordre croissant (m1 < m2 < ... < mq ).

2.1 Analyse descriptive de données discrètes


2.1.1 Définitions et notations
Tableau de données : Tableau croisant une population (ensemble d’individus de cardinal n)
et un ensemble de p caractères (observés sur les individus de la population). Un tableau de
données peut se présenter sous deux formes : tableau de données brutes ou tableau d’effectifs.
On utilisera les notations suivantes :
– p caractères notés : X 1 , ..., X p .
– n individus notés : i1 , ..., in ou 1, ..., n.
– n réalisations d’un caractère X notées : x1 , ..., xn , avec xj ∈ X . (xj étant la réalisation de
X pour l’individu ij (ou j) et X l’ensemble des modalités de X).
– q modalités d’un caractère X notées : m1 , ..., mq où q ≤ n (c.-à-d. X = {m1 , ..., mq }).
Les modalités désignent les valeurs distinctes possibles des réalisations de X. Si toutes les
réalisations x1 , ..., xn sont distinctes alors X aura q = n modalités.
– la taille de la sous-population pour laquelle X prend la modalité mk sera notée nk . On a
P
évidemment la relation qk=1 nk = n.
Les données sont en général présentées sous la forme suivante lorsque plusieurs caractères
sont observés sur une même population. Il s’agit d’un tableau dit tableau de données brutes :

indiv X X1 ... Xp
1 x1 x11 ... xp1
...
i xi x1i ... xpi
...
n xn x1n ... xpn

Lorsqu’un seul caractère X est observé sur une population, on présente plutôt les données
sous la forme d’un tableau en effectifs :

4
X effectifs
m1 n1
...
mk nk
...
mq nq

2.1.2 Tableau de distribution


C’est le tableau en effectifs auquel on ajoute une colonne donnant les proportions notées
fk = nk /n associées à chaque modalité mk . Cette colonne est souvent intitulée pourcentages ou
fréquences. Lorsque de plus X est un ensemble numérique ordonné, on ajoute à ce tableau une
colonne contenant les fréquences cumulées : Fk = f1 +...+fk . Il s’agit de la proportion d’individus
de l’échantillon pour lesquels on observe une valeur ≤ mk qui sera notée f req] − ∞, mk ].

X effectifs fréquences fréq. cumul.


m1 n1 f1 = n1 /n F1 = f1
...
mk nk fk = nk /n Fk = f1 + ... + fk
...
mq nq fq = nq /n Fq = f1 + ... + fq = 1

On peut plus généralement définir la proportion de la population pour laquelle la variable X


prend une valeur ≤ x :
Fonction de répartition d’une variable X :

F : IR → [0, 1]
x → f req] − ∞, x]

Propriétés :
∀x < m1 ; F (x) = 0 et ∀x ≥ mq ; F (x) = 1.
∀x ∈ [mk , mk+1 [; F (x) = Fk , 1 ≤ k ≤ q − 1.
∀a ≤ b; F (b) − F (a) = f req]a, b].

2.1.3 Représentations graphiques


Histogramme des fréquences : diagramme en batons, où la hauteur de chaque barre est
la fréquence de la modalité qu’elle représente. On peut également représenter les fréquences
observées à l’aide d’un diagramme en secteurs (c.-à-d. “camembert”).
Fonction de répartition : De plus, dans le cas d’une variable quantitative discrète, on peut
représenter le graphe de F . C’est une fonction en escaliers croissante valant 0 en tout point
strictement inférieur à m1 et valant 1 en tout point supérieur ou égal à mq .

2.1.4 Résumés numériques


– Caractéristiques centrales –
Les plus utilisées sont le mode, la médiane et la moyenne arithmétique.

Mode : Valeur (modalité) en laquelle l’histogramme des fréquences présente un maximum


relatif.
Interprétation : modalité la plus représentée dans l’échantillon.
Médiane : Valeur qui partage la population en deux effectifs égaux, notée q0.5 . On définit donc

la médiane q0.5 comme la modalité qui vérifie F (q0.5 ) < 0.5 et F (q0.5 ) ≥ 0.5.

5
Interprétation : modalité en dessous de laquelle (au sens large) et au dessus de laquelle (au
sens large) on trouve au moins la moitié des individus.
Graphiquement, c’est la plus petite valeur en laquelle le graphe de F franchit le palier 0.5.
Plus généralement, le quantile empirique d’ordre α est défini par qα = inf{x ∈ X , F (x) ≥ α}.
C’est en fait la plus petite modalité en laquelle la fonction de répartition dépasse α. La médiane
est le quantile d’ordre 0.5 et les quartiles sont les trois quantiles d’ordre 0.25; 0.5; 0.75.
Moyenne : notée x̄, moyenne arithmétique de l’ensemble des n réalisations de X c.-à-d. :
n q q
1X 1X X
x̄ = xi = n k mk = f k mk .
n i=1 n k=1 k=1

Interprétation : valeur qu’auraient tous les individus s’ils prennaient tous la même valeur.
– Caractéristiques de dispersion –
Afin de compléter les caractéristiques centrales on peut définir des mesures de dispersion
telles que :

Ecart quadratique moyen :


 
n q n
1X 2 1X 2 1X
Q(x) = (xj − x) = nk (mk − x) =  x2  − 2xx̄ + x2 ,
n j=1 n k=1 n j=1 j

Ecart absolu moyen :


n
1X
em (x) = |xj − x|.
n j=1
L’écart quadratique moyen est une parabole qui atteint son minimum au point x̄ et la valeur
de ce minimum s’appelle la variance de l’échantillon. Par contre le minimum de l’écart absolu
moyen est atteint au point q0.5 .
Variance de l’échantillon :
n q
1X 1X
s2x = Q(x̄) = (xj − x̄)2 = nk (mk − x̄)2 .
n j=1 n k=1

Ecart type de l’échantillon : sx .


P
Propriété : s2x = x¯2 − x̄2 où x¯2 = x2j /n.

2.2 Variable aléatoire discrète


2.2.1 Loi de probabilité d’une variable aléatoire
La quantité x observée de X pour un individu choisi au hasard dans P est la réalisation d’une
variable aléatoire X (v.a. X). Elle est décrite par X = {m1 , ..., mq } et par une loi de probabilité
IP définie par {pk = IP(X = mk ), 1 ≤ k ≤ q}. Les pk sont les probabilités théoriques qu’a la
P
variable aléatoire X de prendre les modalités mk . On a évidemment pk ∈ [0, 1] et k pk = 1.
Si l’échantillon de données étudié est constitué de n tirages indépendants de la même variable
aléatoire X alors les fréquences fk , observées sur (x1 , ...., xn ) approchent de mieux en mieux les
pk lorsque n augmente.
L’analogue de la fonction de répartition empirique (qui représente les données observées
(x1 , ..., xn )) est la fonction de répartition théorique de la variable aléatoire X définie par :
X
FX (x) = IP(X ≤ x) = IP(X = mk ).
mk ≤x

C’est aussi une fonction en escaliers (avec q + 1 paliers) croissante où le saut entre le k-ième et
le (k + 1)-ième palier vaut pk .

6
On peut représenter la loi de probabilité de la v.a. X et sa fonction de répartition par
l’histogramme des probabilités (diagramme en batons de hauteurs pk ) et par le graphe de FX .
P
Pour tout sous-ensemble A de X on a : IP(X ∈ A) = mk ∈A IP(X = mk ) et en particulier,
X
IP(a < X ≤ b) = IP(X ≤ b) − IP(X ≤ a) = FX (b) − FX (a) = IP(X = mk ).
a<mk ≤b

2.2.2 Quelques caractéristiques théoriques d’une variable aléatoire discrète


De même que l’on caractérise les tendances centrales et de dispersion d’un jeu de données
(x1 , ..., xn ), on définit la moyenne, l’écart type et la variance d’une variable aléatoire discrète X
par :
Espérance mathématique de X le nombre :
X
E(X) = mk IP(X = mk ).
mk ∈X

Remarques :
– Lorsque toutes les probabilités sont égales (ie. p1 = pk = pq = 1/q) l’espérance mathématique
est égale à la moyenne arithmétique des éléments de X .
– L’espérance de la variable aléatoire X est aussi appelée la moyenne théorique de X, et est
notée µX ou µ. En général µX ∈ / X.
Variance de X le nombre :
X
σ 2 = V (X) = (mk − µ)2 IP(X = mk ).
mk ∈X

Ecart type de X le nombre : q


σ= V (X).
Quantile d’ordre α de X le nombre :
qα = inf{x ∈ X , FX (x) ≥ α}.

2.2.3 Modèles discrets usuels


Loi hypergéométrique : on choisit n individus au hasard dans une population de taille N
et dont M remplissent une condition A, soit une proportion p = M/N qui satisfont la condition
A. Soit X le nombre de personnes choisies parmi les n qui remplissent la condition A. X sera
dite variable de loi hypergéométrique notée H(N, n, p) et pour tout k ∈ {max(0, n − (N −
N p)), ..., min(N p, n)} :
k n−k n
IP(X = k) = CN p CN −N p /CN avec Cnk = n!/((n − k)!k!).

Loi de Bernoulli et Loi binomiale : on considère n expériences telles que le lancer répétitif
de pièces ou de dés, ou le tirage d’un individu dans un ensemble ; chaque lancer est dit essai.
Au cours de chacun des essais, à un événement particulier (c.-à-d. remplir une condition A)
est associé une probabilité de réussite. Si les tirages ou les essais sont indépendants, on aura la
même probabilité de réussite à chaque tirage.
P
Soit Xi la variable décrivant la réussite au i-ème tirage et Y = Xi le nombre de réussites
après n tirages.
– Loi de Bernoulli : elle décrit la réalisation d’une expérience n’ayant que deux issues
possibles, 1=“succès” et 0=“échec”. La distribution d’une v.a. X de Bernoulli, notée B(p),
est donnée par :
IP(X = 1) = p et IP(X = 0) = 1 − p.
On note que q = 1 − p est la probabilité d’échec. Chaque variable Xi suit une loi de
Bernoulli de paramètre p : “probabilité d’obtenir A”.

7
– Loi binomiale : la probabilité pour que l’événement A (le succès) se réalise k fois exac-
tement au cours de n essais est donnée par la probabilité :
n
!
X
IP(Y = k) = IP Xi = k = Cnk pk (1 − p)n−k , pour tout k ∈ {0, ..., n}.
i=1

On dira que Y suit une loi binomiale B(n, p).


Remarques :
– La répartition de Y est appelée distribution binomiale, dans la mesure où, pour k =
0, 1, 2, ..., n, elle correspond aux termes successifs du développement du binôme :
n
X n
X
(q + p)n = q n + Cn1 p1 (1 − p)n−1 + Cn2 p2 (1 − p)n−2 + ... + pn = Cnk pk (1 − p)n−k = pk .
k=0 k=0

– La loi hypergéométrique H(N, n, M ) est approchée par la loi binomiale B(n, M/N ), lorsque
n est petit devant M .
Exemple : On admet qu’un étudiant de l’amphi prend au plus un café par jour, que chaque
jour sa probabilité de prendre un café est la même et vaut p et qu’il y a indépendance entre ses
choix quotidiens de boire ou non un café. La variable C décrivant le nombre de cafés consommés
par l’étudiant en une semaine (soit cinq jours) est modélisée par une variable aléatoire de loi
B(5, p).

Loi géométrique : c’est la loi du temps Z d’attente du premier succès dans les réalisations
de tirages indépendants de variables de Bernoulli, B(p). Elle est notée G(p) et

IP(Z = k) = (1 − p)k−1 p, pour tout k ≥ 1.

Loi de Poisson : cette distribution approche la loi binomiale B(n, λ/n) lorsque n est grand.
C’est-à-dire que dans ce cas IP(Y = k) = Cnk (λ/n)k (1 − λ/n)n−k ≈ IP(W = k) où W est une
variable qui suit la loi de Poisson, notée P(λ), définie par

IP(W = k) = λk e−λ /k!, pour tout k ∈ IN.

Loi et Notation X IP(X = k) E(X) V (X)


k≥
hypergéométrique k C n−k /C n
max(0, n−(N −N p)) CN p N −N p N np np (1 − p) N −n
N −1
H(N, n, p), N p ∈ IN
k ≤ min(N p, n)
P (X = 1) = p
Bernoulli B(1, p) {0, 1} p p(1 − p)
P (X = 0) = 1−p
binomiale B(n, p) [0, n] Cnk pk (1 − p)n−k np np(1 − p)
Poisson P(λ) IN e−λ λk /k! λ λ
1 1−p
géométrique G(p) IN∗ (1 − p)k−1 p
p p2

2.3 Adéquation entre distribution observée et loi


Considérons les données “nombre de cafés consommés en cinq jours par un étudiant de l’am-
phi”, (c1 , ..., cn ) proposées dans l’introduction. On se demande si la répartition observée sur
X = {m1 , ..., mq } ressemble à une distribution théorique sur X spécifiée par (p∗1 , ..., p∗q ). Autre-
ment dit, les valeurs ci auraient-elles pu être obtenues comme n réalisations indépendantes d’une
variable aléatoire X à valeurs dans X et ayant pour loi de probabilité (p∗1 , ..., p∗q ) ? Ou encore,
les fréquences observées (f1 , ..., fq ) sont-elles “proches” des probabilités théoriques (p∗1 , ..., p∗q ) ?

8
Afin de mesurer la proximité entre fréquences observées et probabilités théoriques, nous
allons calculer la quantité suivante, appelée statistique d’adéquation du Chi2 :
q q
X (nk − np∗k )2 X (fk − p∗k )2
d2 = =n .
k=1
np∗k k=1
p∗k

Plus d2 est proche de zéro meilleure est l’adéquation entre la loi théorique et la distribution
observée. Les nk sont les effectifs observés de la modalité mk tandis que np∗k sont les effectifs
théoriques que l’on s’attend à obtenir sur n tirages indépendants sous la loi (p∗1 , ..., p∗q ).
Par exemple, on souhaite comparer la distribution observée, de cafés consommés sur cinq
jours, d’une part à une loi uniforme

(p∗1 , ..., p∗6 ) = (1/6, 1/6, ..., 1/6)

et d’autre part à une loi binomiale B(5, 0.6) donnée par les probabilités théoriques

(p∗1 , ..., p∗6 ) = (0.01, 0.077, 0.2305, 0.3455, 0.259, 0.078).

On dresse le tableau suivant :

X 0 1 2 3 4 5
Eff. obsv. 0 5 2 5 7 1 d2
Eff. theo. avec unif. 3.33 3.33 3.34 3.34 3.33 3.33 11.2
Eff. theo. avec binom. 0.2 1.54 4.61 6.91 5.18 1.56 10.81

Pour les données proposées, avec le modèle uniforme on obtient un d2 plus grand qu’avec
le modèle binomial. La B(5, 0.6) modélise donc mieux les données observées que l’uniforme sur
{0, 1, 2, .., 5}.

9
Chapitre 3

Variables continues

Nous considérons dans cette partie des données observées dans un intervalle de IR, noté
]m, M ].

3.1 Analyse descriptive de données continues


Toutes les notions vues pour les données discrètes se “déclinent” dans le cas continu, moyen-
nant quelques modifications naturelles. Pour cela on fait une partition de ]m, M ] en q morceaux,
appelés classes et notés C1 , ..., Cq . Et, ∀k = 0, ..., q, on note :
ek ∈ IR : extrémité droite de la classe Ck ,
ak = (ek − ek−1 ) : amplitude de la classe Ck et
mk = (ek + ek−1 )/2 : milieu de Ck .

3.1.1 Tableau de distribution et représentations graphiques


Ce tableau est défini comme pour les données discrètes, à ceci près qu’ici mk désigne le centre
de la k-ième classe au lieu de la k-ième modalité du cas discret.
Toutes les classes ne sont pas nécessairement de même amplitude, ce qui nous conduit à
ajouter une colonne dans le tableau de distribution contenant les fréquences relatives à l’unité
d’amplitude.

X milieux effectifs fréquences fréq. cumul. fréq. rel.


]e0 , e1 ] m1 n1 f1 = n1 /n F1 = f1 f1 /a1
...
]ek−1 , ek ] mk nk fk = nk /n Fk = f1 + ... + fk fk /ak
...
]eq−1 , eq ] mq nq fq = nq /n Fq = f1 + ... + fq = 1 fq /aq

De même que dans le cas discret, on représente les fréquences observées et les fréquences
cumulées avec :
– Histogramme des fréquences : graphe où sont portées en abscisses les extremités de
classes et où l’on trace un rectangle de surface fk (de largeur ak et hauteur fk /ak ) au
dessus de la classe k.
– Fonction de répartition empirique : elle est définie comme dans le cas discret par
F (x) = f req] − ∞, x] et F (ek ) = Fk pour tout k = 1, ..., q.
Son graphe est celui d’une fonction linéaire par morceaux qui passe par les points (e0 , 0)
et (ek , Fk ) pour k = 1, ..., q.

10
3.1.2 Caractéristiques centrales et de dispersion
Classe Modale : classe pour laquelle l’histogramme des fréquences présente un maximum
relatif.
Médiane : q0.5 ∈ X telle que F (q0.5 ) = 0.5
Fractile d’ordre α : qα tel que F (qα ) = α.
En particulier, on définit les quartiles qui partagent la population en quatre et les percentiles
qui la partagent en cent.
Moyenne :
n q q q
1X 1X 1X X
x̄ = xi = nk x̄k ' n k mk = f k mk
n i=1 n k=1 n k=1 k=1

où x̄k est la moyenne de la classe Ck .


Pour les caractéristiques de dispersion, nous considèrerons seulement l’écart type et l’ampli-
tude de l’intervalle interquartile. La variance et l’écart type se définissent comme en discret :
Variance :
n q
1X 1X
s2x = Q(x̄) = (xi − x̄)2 ' nk (mk − x̄)2 .
n i=1 n k=1

Ecart type : sx .
Intervalle inter-quartile : [q0.25 , q0.75 ].

3.2 Variable aléatoire continue


3.2.1 Loi de probabilité
Dans le cas où la variable X étudiée est à valeur dans un intervalle de [m, M ], la probabilité
d’obtenir x, c’est-à-dire IP(X = x) sera nulle car autrement on aurait IP(m ≤ X ≤ M ) =
P
x∈[m,M ] IP(X = x) = ∞! Par contre si la probabilité d’avoir X = x est nulle, celle d’être
autour de x ne l’est pas et on définit la loi de probabilité de la variable X à l’aide d’une fonction
appelée densité et définie par :

fX (x) ≈ IP(X ∈ [x, x + δ])/δ si δ petit.

On peut aussi définir une variable aléatoire à l’aide de sa fonction de répartition (qui est continue)
donnée par :
Z x
FX (x) = IP(X ≤ x) = fX (t)dt pour tout x ∈ IR et fX (x) = FX0 (x).
−∞

Notons que comme IP(X = x) = 0, on a toujours IP(X ≤ x) = IP(X < x).


Définir une variable aléatoire continue sur IR c’est donc se donner une fonction positive fX
R +∞
telle que −∞ fX (t)dt = 1 ou se donner FX une fonction continue croissante à valeurs dans [0, 1]
telle que FX (−∞) = 0 et FX (∞) = 1. On a alors pour tout couple de nombres (a, b) :

IP(a ≤ X ≤ b) = IP(a < X ≤ b) = IP(a ≤ X < b) = IP(a < X < b)


Z b
= IP(X ≤ b) − IP(X ≤ a) = FX (b) − FX (a) = fX (t)dt.
a

3.2.2 Espérance Variance et α-quantiles


Ces quantités sont définies par analogie avec le
R
cas discret, en remplaçant mk par x, IP(X =
P
mk ) par fX (x)dx et la somme par l’intégrale .

11
Espérance de la variable X, le nombre :
Z +∞
E(X) = xfX (x)dx = µ.
−∞

Variance de la variable X, le nombre :


Z +∞
V (X) = (x − E(x))2 fX (x)dx = σ 2 .
−∞

Ecart type de la variable X le nombre :


q
σ= V (X).

Quantile d’ordre α de la variable X le nombre :

qα tel que FX (qα ) = α.

On utilisera beaucoup les propriétés suivantes de l’espérance et de la variance qui sont satisfaites
pour toutes les variables aléatoires (continues ou discrètes) :
Propriétés : Soient deux variables aléatoires X et Y et deux nombres réels a et b :
1. E(aX + b) = aE(X) + b et en particulier E(b) = b
2. E(X + Y ) = E(X) + E(Y )
3. V (aX + b) = a2 V (X) et en particulier V (b) = 0
4. si de plus X et Y sont indépendantes, V (X + Y ) = V (X) + V (Y ).
L’indépendance entre X et Y est définie mathématiquement par

IP(X ≤ x, Y ≤ y) = IP(X ≤ x)IP(Y ≤ y) pour tous (x, y).

Elle signifie que le résultat obtenu sur X n’a aucune incidence sur celui obtenu sur Y et vice
versa.

3.2.3 Modèles continus usuels


Le modèle le plus couramment utilisé est le modèle gaussien défini par la loi normale.

Loi normale (ou loi gaussienne) : la densité d’une variable aléatoire normale d’espérance
µ et de variance σ 2 a une forme de cloche symétrique autour de l’axe x = µ et de largeur
proportionnelle à σ. Elle est notée N (µ, σ 2 ). On notera sa fonction de répartition Φµ,σ et lorsque
µ = 0 et σ = 1 on parlera de la variable normale centrée et réduite et on conviendra d’écrire
Φ = Φ0,1 .
Propriété 1 : si X suit une loi normale N (µ, σ 2 ) alors (X − µ)/σ suit une loi normale N (0, 1).
Cela se traduit par :
     
a−µ X −µ b−µ b−µ a−µ
IP(a ≤ X ≤ b) = Φµ,σ (b) − Φµ,σ (a) = IP ≤ ≤ =Φ −Φ .
σ σ σ σ σ

Propriété 2 : si X1 suit une loi normale N (µ1 , σ12 ) et si X2 suit une loi normale N (µ2 , σ22 ) et
sont indépendantes alors aX1 + bX2 suit une loi normale N (aµ1 + bµ2 , a2 σ12 + b2 σ22 ).

Grace au résultat fondamental énoncé dans le Théorème central limite, on montre que de
nombreuses distributions peuvent être approchées par celle de la loi normale. C’est le cas, par
exemple des distributions binomiales ou de Poisson. On retiendra

12
Propriété 3 : Soient X de loi B(n, p) et Y de loi P(λ) avec λ ∈ IN∗ , alors on a les approximations
suivantes :
!
x − np
si np > 10 et n(1 − p) > 10, IP(X ≤ x) ≈ Φ p ∀x ∈ IR;
np(1 − p)

 
y−λ
si λ > 10, IP(Y ≤ y) ≈ Φ √ ∀y ∈ IR.
λ
Lecture de tables : la première table donne les couples (x, Φ(x)) pour un certain nombre de
valeurs de x ≥ 0. La densité de la loi normale centrée réduite étant symétrique, lorsque x ≤ 0
on utilisera que Φ(x) = 1 − Φ(−x). D’autre part, on a également Φ−1 (1 − p) = −Φ−1 (p), pour
tout p ∈ [0, 1]. La seconde table donne les couples (up , p) tels que IP(|X| > up ) = p, lorsque
X est une variable normale centrée et réduite, c’est à dire de loi N (0, 1). Les quantités u2p et
Φ−1 (1 − p) vérifient :
1 1
Φ−1 (1 − p) = u2p si 0 ≤ p ≤ ; Φ−1 (1 − p) = −u2(1−p) si ≤ p ≤ 1.
2 2
A l’aide de la loi normale sont définies d’autres lois telles que celles du Chi2, de Student ou
de Fisher-Snedecor.

Loi du Chi2 : Une variable qui suit une loi du Chi2 à ν degrés de liberté s’obtient comme la
somme de ν carrés de variables normales centrées réduites indépendantes. On la note Xν2 . Sa
densité est nulle si x ≤ 0 et sa fonction de répartition est tabulée.
Lecture de la table : on lit le couple (zν,p , p) qui satisfait IP(Zν > zν,p ) = p lorsque Zν suit
une loi du Chi2 à ν degrés de liberté, Xν2 .
p
Loi de Student : Tν = U/ V /ν avec U normale centrée réduite N (0, 1) et V indépendante de
U et de loi du Chi2 à ν degrés de libertés Xν2 . Cette densité ressemble beaucoup à celle de la
N (0, 1) surtout lorsque ν est grand. Elle est notée Tν .
Lecture de la table : pour Tν de loi de Student Tν , on lit les couples (tν,p , p) tels que
IP(|Tν | > tν,p ) = p.

Loi de Fisher-Snedecor : F = (U/ν1 )/(V /ν2 ) avec U et V deux variables indépendantes de


lois respectives Xν21 et Xν22 , suit une loi de Fisher-Snedecor à (ν1 , ν2 ) degrés de libertés. Elle est
notée Fν1 ,ν2 .

13
Chapitre 4

Estimation et Intervalles de
confiance

Considérons la variable C : ”nombre de cafés hebdomadaire d’un étudiant choisi au hasard


dans l’amphi”. Nous avons vu, dans le premier chapitre, que la distribution de l’échantillon
de données : (c1 , ..., c20 ) = (4, 3, 1, ...., 4, 1, 3) ressemblait plus à la répartition d’une B(5, 0.6)
qu’à celle d’une répartition uniforme sur {0, 1, ..., 5}. On pourrait plus généralement comparer
cette distribution observée à une B(5, p), où p serait ajusté à l’aide de c1 , ..., c20 . Supposons
donc que C suit une B(5, p) avec p inconnu et essayons d’estimer p. L’espérance de C valant
5p, on peut penser que cette moyenne théorique est assez proche de la moyenne arithmétique
des observations c̄ = 2.85. Il semble, alors raisonnable de proposer comme estimation de p, la
quantité p̂ = 2.85/5 = 0.57. On peut ensuite, à l’aide de la distance d2 voir si la B(5, 0.57)
est meilleure que la B(5, 0.6). Le calcul du d2 associé à la répartition de la B(5, 0.57) donnée
par (0.01, 0.1, 0.26, 0.34, 0.23, 0.06), donne d2 = 8.88. Nous avions trouvé d2 = 10.81, pour
l’adéquation à une B(5, 0.6). La loi B(5, 0.57) modélise donc mieux les données que la B(5, 0.6).
C’est donc B(5, 0.57) que l’on utilisera pour effectuer des prévisions sur n’importe quel individu
de P. Par exemple, on prévoira que la probabilité qu’un étudiant de l’amphi ne consomme aucun
café sera environ de IP(C = 0) = C50 0.570 (1 − 0.57)5 = 1.5%.

4.1 Modèle et Echantillon aléatoire


Données : x1 , ..., xn . On regardera xi comme le i-ème tirage d’une variable aléatoire X ; ou
de façon équivalente comme une réalisation (ou un tirage) d’une variable Xi de même loi que
X. On supposera de plus que les variables Xi sont indépendantes.
Définition : On appelle échantillon aléatoire de taille n d’une variable X de loi IP, l’ensemble
X1 , ..., Xn de variables indépendantes et de même loi que X. Un échantillon de données noté
x1 , ..., xn est une réalisation (ou un tirage) de l’échantillon aléatoire X1 , ..., Xn .
Nous supposerons désormais que les données collectées (x1 , ..., xn ) sont n tirages indépendants
(ou un tirage de (X1 , ..., Xn )) d’une variable aléatoire X de loi IPθ , où le paramètre θ est un
nombre réel inconnu. θ = p et IPθ = B(5, p) dans l’exemple ci-dessus.

4.2 Estimation ponctuelle


Nous nous intéresserons dans la suite à l’estimation du paramètre θ décrivant la loi de X,
dans les cas où θ = µX , θ = σX 2 ou θ = p dans un modèle B(n , p) avec n connu.
0 0
Dans la suite, on considère X1 , ..., Xn , un échantillon aléatoire de la variable X de moyenne
inconnue µX = µ et de variance inconnue σX 2 = σ2 .

Estimateur : un estimateur de θ, est une variable aléatoire construite à l’aide des Xi . Une
estimation de θ, notée θ̂, est l’application d’un estimateur aux données x1 , ..., xn .

14
Un même estimateur appliqué à différents jeux de données produira des estimations différentes.
P P
ex : X1 , Xi ou Xi /n sont des estimateurs de θ.
On peut construire autant d’estimateurs que l’on veut (toute fonction connue de X1 , ..., Xn )
mais ils ne sont pas tous équivalents. Une des premières propriétés que l’on souhaite vérifier est
que l’estimateur ajuste bien le paramètre d’intérêt θ.
Estimateur sans biais : Un estimateur Tn = T (X1 , ..., Xn ) sera dit sans biais pour estimer θ
si E(Tn ) = θ.
Dire que Tn est sans biais revient à vérifier qu’en moyenne il permet de retrouver assez
correctement θ. On peut également souhaiter qu’il soit de plus en plus précis lorsque n augmente,
c’est-à-dire que sa variance diminue avec n.
Estimateur convergent : Tn un estimateur sans biais de θ sera dit convergent (en moyenne
quadratique) si V (Tn ) tend vers 0 lorsque n → ∞.

4.2.1 Estimation d’une moyenne


On note
1X
X̄ = Xi .
n
Estimateur : X̄ est un estimateur sans biais et convergent de µ = E(X).

L’estimation µ̂ de µ obtenue par l’application de l’estimateur X̄ aux données est x̄. Par
abus de langage, on appelera le résultat d’un estimateur sans biais estimation non biaisée du
paramètre.

Loi de l’estimateur : Si la variable X suit une loi normale N (µ, σ 2 ) alors X̄ suit une loi
normale N (µ, σ 2 /n).

4.2.2 Estimation d’une variance


On définit :
 
1X 1X 1X 2 1 X
V2 = (Xi − µ)2 , S2 = (Xi − X̄)2 = Xi − X̄ 2 et S 02 = (Xi − X̄)2 .
n n n n−1
Estimateurs :
– Si µ est connue V 2 est un estimateur sans biais de σ 2 .
– Si µ est inconnue S 2 est un estimateur biaisé de σ 2 et S 02 est un estimateur sans biais. En
effet :
n−1 2
E(S 2 ) = σ et E(S 02 ) = σ 2
n
Dans le cas de l’échantillon gaussien, on dispose également de la loi de ces estimateurs.

Loi des estimateurs : Pour X de loi N (µ, σ 2 ) :


– nV 2 /σ 2 suit une loi du Chi2 à n degrés de liberté : Xn2
– nS 2 /σ 2 = (n − 1)S 02 /σ 2 suit une loi du Chi2 à n − 1 degrés de liberté : Xn−1
2

4.2.3 Estimation d’une proportion


L’estimation d’une proportion peut être vu comme un problème d’estimation de moyenne.
En effet, soit p la proportion dans une population P d’individus remplissant une condition A.
Dans un échantillon de taille n, on observe une proportion, fn , d’individus qui vérifient A. On
souhaite estimer p à l’aide de fn .
On pose le modèle suivant : soit Xi la variable indicatrice du succès de A pour l’individu i
de l’échantillon. L’échantillon aléatoire X1 , ..., Xn est celui d’une variable X de loi de Bernoulli

15
P P
B(p). On a alors fn = xi /n, puisque xi est le nombre d’individus dans l’échantillon observé
P
qui remplissent A. Notons Fn = Xi /n la variable aléatoire associée.
Le problème d’estimation de p dans ce cas, est celui de l’estimation de la moyenne inconnue
µ = p d’une variable X de Bernoulli B(p).
Estimateur : Fn = X̄ est un estimateur sans biais et convergent de p. En effet E(Fn ) = p
et V (Fn ) = p(1 − p)/n.

Lois de l’estimateur :
– nFn suit une loi binomiale B(n,

p)
√ n(Fn −p)
– si np > 10 et n(1 − p) > 10, suit approximativement une loi normale N (0, 1). Ce
p(1−p)
qui se traduit par !

n(Fn − p)
IP p ≤t ≈ Φ(t).
p(1 − p)

– si np > 10 et n(1 − p) > 10, √ n(Fn −p) suit approximativement une loi normale N (0, 1).
Fn (1−Fn )
C’est-à-dire √ !
n(Fn − p)
IP p ≤t ≈ Φ(t).
Fn (1 − Fn )

4.2.4 Estimation d’une probabilité dans le modèle binomial


Dans le cas où le modèle décrivant les données est défini par une variable binomiale B(n0 , p)
(cas des cafés), l’espérance de la variable binomiale valant n0 p sera estimée par X̄ et il est naturel
de proposer Pn = X̄/n0 comme estimateur de p.
Estimateur : Pn = X̄/n0 est un estimateur sans biais et convergent de p. En effet E(Pn ) = p
et V (Pn ) = p(1 − p)/(nn0 ).

Lois de l’estimateur :
– n0 nPn suit une loi binomiale B(n0 n, √
p)
n n(P −p)
– si n0 np > 10 et n0 n(1 − p) > 10, √0 n suit approximativement une loi normale
p(1−p)
N (0, 1). Ce qui se traduit par
√ !
n0 n(Pn − p)
IP p ≤t ≈ Φ(t).
p(1 − p)

n n(P −p)
– si n0 np > 10 et n0 n(1 − p) > 10, √ 0 n suit approximativement une loi normale
Pn (1−Pn )
N (0, 1). C’est-à-dire !

n0 n(Pn − p)
IP p ≤t ≈ Φ(t).
Pn (1 − Pn )

4.3 Intervalles de confiance (IC)


Dans le paragraphe précédent ont été proposées des évaluations ponctuelles du paramètre θ.
Plutôt qu’une seule valeur du paramètre, on souhaite à présent donner une fourchette de deux
valeurs entre lesquelles “on s’attend” à trouver θ. Au lieu de donner un estimateur de θ, cela
revient à s’en donner deux qui encadrent θ avec une probabilité 1 − α fixée.

Définition : Un intervalle de confiance de niveau de confiance 1 − α pour le paramètre θ


est défini par :
I(θ, α) = [T1 , T2 ] tel que IP(T1 ≤ θ ≤ T2 ) = 1 − α

16
avec T1 = f1 (X1 , ..., Xn ) et T2 = f2 (X1 , ..., X2 ) deux fonctions connues de l’échantillon aléatoire.

Remarques :
– α étant la probabilité que l’intervalle aléatoire I(θ, α) ne contienne pas le paramètre in-
connu θ, on le choisit en général petit.
– T1 et T2 sont en fait des estimateurs de θ mais qui ne sont pas sans biais. Ils seront en
général des fonctions simples d’un estimateur sans biais de θ.
– un intervalle de confiance est aléatoire et par abus de langage on dira aussi intervalle de
confiance pour désigner l’application de l’intervalle I(θ, α) au jeu de données. La réalisation
de I(θ, α) sera notée i(θ, α). Un même intervalle I(θ, α) appliqué à différents jeux de
données produira des “fourchettes” : i(θ, α) différentes.
Construction d’un IC :
1. construire un estimateur (de préférence sans biais et convergent) de θ : T ;
2. trouver une fonction simple de T et θ, g(T, θ), dont la loi est connue (c.-à-d. elle ne dépend
pas des paramètres inconnus du modèle) ;
3. en partant de T1 ≤ θ ≤ T2 trouver une inégalité équivalente de la forme A ≤ g(T, θ) ≤ B ;
en utilisant la table de la loi de g(T, θ) ajuster A et B pour que IP(g(T, θ) ≤ A) = α/2 et
IP(g(T, θ) ≥ B) = α/2 ;
4. retrouver à partir de l’inégalité A ≤ g(T, θ) ≤ B l’inégalité équivalente T1 ≤ θ ≤ T2 .

4.3.1 Intervalles de confiance pour la moyenne d’une variable normale


Soit X1 , ..., Xn , un échantillon de la loi N (µ, σ 2 ). Soient U une variable normale centrée
réduite et Tn une variable de loi de Student à n degrés de liberté. On note uα et tn,α les nombres
qui vérifient :
IP(|U | > uα ) = α et IP(|Tn | > tn,α) = α.
2 2
hσ connue : i hσ inconnue
0
: i
√σ uα , X̄ √σ uα S S0
I(µ, α, σ 2 ) = X̄ − n
+ n
I(µ, α) = X̄ − √ t
n n−1,α
, X̄ + √ t
n n−1,α

4.3.2 Intervalles de confiance pour la variance d’une variable normale


Soit X1 , ..., Xn , un échantillon de la loi N (µ, σ 2 ). Soit Zn une variable qui suit une loi du
Chi2 à n degrés de liberté. On note zn,α le nombre :
IP(Zn > zn,α ) = α.
Selon que l’on connait ou non µ on a les intervalles suivants :
µ connue
h : i µ inconnue
h : i
nV 2 nV 2 nS 2 nS 2
J(σ 2 , α, µ) = zn,α/2 , zn,1−α/2 J(σ 2 , α) = zn−1,α/2 , zn−1,1−α/2

Si la variable aléatoire qui modélise le caractère étudié n’est pas une variable normale, les
résultats précédents restent valables à condition que n soit assez grand.

4.3.3 Intervalles de confiance pour une proportion


Soit X1 , ..., Xn , un échantillon de la loi B(p) alors l’intervalle de confiance suivant est ap-
proximativement de niveau 1 − α, si np > 10 et n(1 − p) > 10. C’est-à-dire
IP(p ∈ I(p, α)) ' 1 − α.

" p p #
Fn (1 − Fn ) Fn (1 − Fn )
I(p, α) = Fn − √ uα , Fn + √ uα
n n

17
4.3.4 Intervalle de confiance pour p dans le cas binomial
Soit X1 , ..., Xn , un échantillon de la loi B(n0 , p) avec n0 connu, alors l’intervalle de confiance
suivant est approximativement de niveau 1 − α, si n0 np > 10 et n0 n(1 − p) > 10. C’est à dire

IP(p ∈ I(p, α)) ' 1 − α.

" p p #
Pn (1 − Pn ) Pn (1 − Pn )
I(p, α) = Pn − √ uα , Pn + √ uα
n0 n n0 n

18
Chapitre 5

Tests paramétriques

A propos du nombre hebdomadaire de cafés consommés par un étudiant de l’amphi nous


avons estimé avec l’échantillon observé que le nombre moyen de cafés était de 2.85. On sait
de plus, que si le nombre moyen de cafés consommés dans la population (c.à d. l’espérance ou
moyenne théorique de la variable C) dépasse 2.5, une troisième machine à café sera installée
dans le hall. On se demande s’il faut installer ce troisième distributeur de cafés. Pour répondre
à cette question, on dispose de l’échantillon observé qui indique p̂ = 2.85/5. Cela nous permet-il
de déduire p > 2.5/5 ? Accepter (ou refuser) p > 2.5/5, au vu des données ne se fait pas sans
risque de se tromper. Le but de cette partie sera donc de se donner des règles de décision ou de
choix entre deux situations pour lesquelles on sait contrôler le risque de donner une mauvaise
conclusion.

5.1 Généralités
Dans l’exemple des cafés on a : C la variable d’intérêt caractérisée par le paramètre θ =
p est une variable B(5, p). Pour répondre à la question : “est-il utile d’installer un nouveau
distributeur ?”, il faut décider entre p ≤ 2.5/5 et p > 2.5/5. En pratique cela revient au même
que de décider entre p = 2.5/5 et p > 2.5/5. De façon générale, le test H0 : θ ≤ θ0 contre
H1 : θ > θ0 sera remplacé par le test plus simple H0 : θ = θ0 contre H1 : θ > θ0 . De même
H0 : θ ≥ θ0 contre H1 : θ < θ0 sera remplacé par le test plus simple H0 : θ = θ0 contre
H1 : θ < θ0 . On pourra également être amené à traiter le cas H0 : θ = θ0 contre H1 : θ 6= θ0 .
Les deux premiers tests sont dits unilatéraux et le dernier bilatéral. On se fixe θ0 . Dans la
suite on désignera les tests par leur type défini par :
– type 1 : H0 : θ = θ0 H1 : θ > θ 0
– type 2 : H0 : θ = θ0 H1 : θ < θ 0
– type 3 : H0 : θ = θ0 H1 : θ 6= θ0
Faire un test, c’est construire une règle de décision qui, à l’échantillon observé, associe
l’une ou l’autre des conclusions : on rejette H0 (c.-à-d. on accepte H1 ) ou on ne rejette pas H0
(c.-à-d. on refuse H1 ). La règle de décision sera définie de la façon suivante :
– si θ̂ ∈ W , on refuse H0 (c.-à-d. on accepte H1 )
– si θ̂ ∈
/ W , on refuse H1 (c.-à-d. on accepte H0 )
On notera dans la suite T l’estimateur de θ qui appliqué aux données (x1 , ..., xn ) fournit
l’estimation θ̂.

5.1.1 Les risques


Au vu des données, on rejettera ou non H0 . On ne pourra prendre de décision sans risque
de se tromper. Il y a deux risques possibles : celui de rejeter H0 à tort ou celui de rejeter H1 à
tort. On définit les deux risques d’erreurs comme :

19
Risque de première espèce Risque de seconde espèce
α = IP(refus de H0 |H0 vraie) β = IP(refus de H1 |H1 vraie)
= IPH0 (T ∈ W ) = IPH1 (T ∈
/ W)

Définition : On dira que faire un test de niveau α (ou tester au seuil α), 0 ≤ α ≤ 1, c’est
construire une région de rejet de H0 , notée Wα telle que α = IPH0 (T ∈ Wα ).
On retiendra donc que :

si dans un test de niveau α, on est conduit à rejeter H0 ,


alors on conclura H1 avec un risque de se tromper α.
si au contraire, dans un test de niveau α, on est conduit à accepter H0 ,
alors on conclura H0 avec un risque de se tromper β.

Propriété : Pour les trois tests (1, 2 et 3) qui nous intéressent, la somme des risques de
première et seconde espèce vaut 1.

5.1.2 Le choix de H0 et H1
Si on veut limiter le risque de refuser H0 quand elle est vraie, on se donne α petit. Ceci aura
pour conséquence de prendre plus de risque de refuser H1 à tort, puisque il vaut β = 1 − α. Cela
aura également pour conséquence qu’en cas d’acceptation de H1 on prend un risque faible de se
tromper puisque qu’il vaut α. A l’inverse, si c’est H0 que l’on souhaite valider, en prenant peu
de risque de l’accepter à tort (c.-à-d. on limite le risque β = 1 − α de refuser H1 à tort) alors on
choisit α grand. En pratique, on prendra comme première règle de choix des hypothèses :

règle 1 : mettre sous H1 l’hypothèse que l’on souhaite valider, sous H0 celle que l’on
ne veut pas refuser à tort trop souvent et prendre α petit.

Par exemple, imaginons qu’au vu de données radar on souhaite choisir entre “un missile
se dirige vers nous” et “aucun missile ne se dirige vers nous”. Il semble évident dans ce cas,
qu’il est beaucoup plus grave de conclure à tort “aucun missile ne se dirige vers nous” que de
conclure à tort “un missile se dirige vers nous”. L’hypothèse que l’on veut voir refusée le moins
souvent à tort est dans ce cas “un missile se dirige vers nous” et celle que l’on voudrait voir
validée est “aucun missile ne se dirige vers nous”. L’application de la règle ci-dessus conduit à po-
ser : H0 : “un missile se dirige vers nous”, H1 : “aucun missile ne se dirige vers nous” et α petit.

Autre exemple : on étudie un nouveau vaccin contre la grippe et on souhaite vérifier qu’il
est plus efficace que le vaccin habituel dont les effets secondaires sont bien connus et qui de plus
est économique. On souhaite montrer, statistiquement, que ce nouveau traitement est meilleur
que le vaccin habituel mais en limitant le risque de le juger meilleur à tort, car ce nouveau
vaccin est cher et l’on en connaı̂t pas encore les effets secondaires. L’application de la règle nous
conduit alors à poser : H0 : “le nouveau vaccin n’est pas meilleur que le vaccin habituel”, H1 :
“le nouveau vaccin est meilleur que le vaccin habituel” et α petit.

La règle 1 doit cependant être appliquée sous la contrainte que l’hypothèse à valider, placée
sous H1 , soit de la forme H1 : θ > θ0 ; H1 : θ < θ0 ou H1 : θ 6= θ0 . Si l’hypothèse que l’on
souhaite vérifier est de la forme θ = θ0 alors on ne peut utiliser aucun des trois types de tests
(1,2 et 3) avec α petit. Dans ce cas pour valider une hypothèse formulée comme θ = θ0 on
appliquera la règle suivante :

règle 2 : Pour valider θ = θ0 avec un risque faible de se tromper poser


H0 : θ = θ0 , H1 : θ 6= θ0 et prendre α grand.

20
Imaginons qu’un nouveau procédé de fabrication d’un traitement ne soit acceptable que si le
dosage moyen décrit par un paramètre θ inconnu est égal à une valeur donnée θ0 . On souhaite
dans ce cas valider statistiquement θ = θ0 avec un faible risque d’erreur. On choisit alors H0 :
θ = θ0 , H1 : θ 6= θ0 et α grand.

5.1.3 Construction d’un test


1. Se donner un estimateur T de θ.
2. Se donner la forme de la région critique :
– si H1 : θ > θ0 , Wα = {T > Cα }
– si H1 : θ < θ0 , Wα = {T < Cα }
– si H1 : θ 6= θ0 , Wα = {T > Cα ou T < Cα0 }.
3. Ajuster la quantité Cα pour que

α = IPH0 (T ∈ Wα ) = IPθ=θ0 (T ∈ Wα ).

Pour cela on aura besoin de connaı̂tre la loi de T (ou plutôt celle de la fonction g(T, θ)
utilisée dans les constructions d’IC) lorsque l’hypothèse H0 est vraie.
4. Décider :
– si θ̂, réalisation de T , est dans Wα , conclure H1 avec un risque de se tromper de α ;
– si θ̂, réalisation de T , n’est pas dans Wα , conclure H0 avec un risque de se tromper de
β = 1 − α.
Nous allons décliner cette méthodologie dans les trois cas qui nous intéressent : tests sur la
moyenne et la variance d’une population dans un modèle gaussien et test sur une proportion.

5.2 Test sur la moyenne µ


Modèle : X1 , ..., Xn , échantillon aléatoire de la variable X de loi N (µ, σ 2 ) avec θ = µ
inconnu, σ 2 éventuellement connue et θ0 = µ0 fixé.
Pour les tests 1, 2 et 3 on notera Wαj la région de rejet du test de type j de niveau α. Les
régions de rejet dépendent de la connaissance ou non de σ 2 et sont données par :

n σ 2 connueo n σ 2 inconnueo
0
Wα1 = X̄ > µ0 + √σn u2α 0≤α≤ 1
2 Wα1 = X̄ > µ0 + √Sn tn−1,2α 0≤α≤ 1
2
n o n o
S0
Wα2 = X̄ < µ0 − √σn u2α 0≤α≤ 1
2 Wα2 = X̄ < µ0 − √ t
n n−1,2α
0≤α≤ 1
2
3
Wα = Wα3 =
n o n o
S0 S0
X̄ < µ0 − √n uα ou X̄ > µ0 + √σn uα
σ
X̄ < µ0 − √ t ou X̄ > µ0 + √ t
n o n n n−1,α o n n−1,α
√σ uα S0
= |X̄ − µ0 | > n
= |X̄ − µ0 | > √ t
n n−1,α

5.3 Test sur la variance σ 2


Modèle : X1 , ..., Xn , échantillon aléatoire de la variable X de loi N (µ, σ 2 ) avec θ = σ 2
inconnu, µ éventuellement connue et θ0 = σ02 fixé.
Pour les tests 1, 2 et 3 on notera Wαj la région de rejet de niveau α du test de type j de
niveau α (avec 0 ≤ α ≤ 1). Les régions de rejet dépendent de la connaissance ou non de µ et
sont données par :

21
µ connue µninconnue o
 z z
Wα1 = V 2 > σ02 n,α
n Wα1 = S 02 > σ02 n−1,α
n−1
 n o
zn,1−α zn−1,1−α
Wα2 = V 2 < σ02 n Wα2 = S 02 < σ02 n−1
n zn,α/2 z
o n zn−1,α/2 z
o
Wα3 = V 2 > σ02 n ou V < σ02 n,1−α/2
2
n Wα3 = S 02 > σ02 n−1 ou S < σ02 n−1,1−α/2
02
n−1

5.4 Test sur une proportion p


Modèle : X1 , ..., Xn , échantillon aléatoire de la variable X de loi B(n0 , p) avec θ = p inconnu,
n0 connu et θ0 = p0 fixé. Pour ce modèle, on supposera n assez grand, c’est-à-dire : n0 np0 > 10
et n0 n(1 − p0 ) > 10. On notera Wαj la région de rejet du test de type j, de niveau approximatif
α . On a défini Pn = X̄/n0 . Dans le cas du modèle de Bernoulli on a n0 = 1 et Pn = Fn .
Les régions de rejet de niveau approximativement α sont données par :

 q 
p0 (1−p0 ) 1
Wα1 = Pn > p0 + n0 n u2α 0≤α≤ 2
 q 
p0 (1−p0 ) 1
Wα2 = Pn < p0 + n0 n u2α 0≤α≤ 2
 q q   q 
p0 (1−p0 ) p0 (1−p0 ) p0 (1−p0 )
Wα3 = Pn < p0 − n 0 n uα ou Pn > p0 + n0 n uα = |Pn − p0 | > n0 n uα

5.5 p-valeur
Revenons au problème du distributeur de café :
Modèle : C1 , ..., Cn échantillon de la variable C de loi B(5, p). Pour les données observées
c1 , ..., c20 on a p̂ = c̄/5 = 0.57. On sait de plus que, si 5p > 2.5, un distributeur supplémentaire
sera installé dans le hall. On traduit alors mathématiquement “il faut un nouveau distributeur”
par H1 : p > 2.5/5 et “pas besoin de distributeur” par H0 : p = 2.5/5. En appliquant le test de
type 1 pour une proportion avec des niveaux α = 7%,p..., 12% on obtient les régions de rejets,
plus précisement, les bords donnés par Cα = 0.5 + u2α 0.5 ∗ 0.5/100 et les décisions suivantes :

α 7% 8% 9% 10% 11% 12%


Cα 0.5734 0.5703 0.5670 0.5641 0.5613 0.5587
décision rejet de H1 rejet de H1 rejet de H0 rejet de H0 rejet de H0 rejet de H0

Il est clair d’après ce tableau que la décision de rejeter H0 (ou H1 ) dépend du risque de se
tromper que l’on est prêt à prendre. En effet si α ≤ 8% on conserve H0 et ce au risque de se
tromper de 1 − α (ici 1 − α ≥ 92%). Par contre si α ≥ 9% on rejette H0 et on accepte H1 avec
un risque de se tromper de α ≥ 9%. Il y a donc une valeur α∗ comprise entre 8% et 9% au delà
de laquelle le jeu de données conduit à rejeter H0 dans un test de niveau α.
Cette valeur α∗ est une fonction de n et du jeu de données (au travers de θ̂). C’est la valeur
renvoyée par un logiciel de statistique, lorsque l’on a donné en entrée la forme de l’alternative,
la cible θ0 et les observations x1 , ..., xn .
Définition : La p-valeur d’un test de type j (j = 1, 2, 3) est la valeur la plus grande du
risque de première espèce, pour lequel on ne rejette pas H0 . Autrement dit la p-valeur d’un test,
est la quantité α∗ qui satisfait :
– si α ≤ α∗ au niveau α on ne rejette pas H0 .
– si α > α∗ au niveau α on rejette H0 .
Remarques :
- En pratique, on calcule cette p-valeur comme le α∗ pour lequel Cα∗ = θ̂.
- Lorsqu’une p-valeur est proche de 0, cela signifie que l’on accepte H1 presque sans risque
de se tromper. La proximité à 0 de la p-valeur indique donc un grand degré de fiabilité de H1 .
- Au contraire une p-valeur proche de 1 indique un grand degré de fiabilité de H0 .

22
p
Dans l’exemple ci-dessus α∗ satisfait 0.5 + u2α∗ 0.5 ∗ 0.5/100 = 0.57 soit u2α∗ = 1.4 =
Φ (1 − α∗ ), d’où α∗ = 0.0808.
−1

23
Chapitre 6

Tests de comparaison d’échantillons

On se demande, à présent, si le poids d’un étudiant de l’amphi dépend de son sexe et si ce


poids dépend de son âge. Pour cela, on dispose des poids observés sur 20 étudiants de l’amphi
dont n1 = 14 sont des filles et n2 = n − n1 = 6 sont des garçons, à 15 ans et à 20 ans. On va
donc comparer des échantillons pour répondre à ces deux questions.
Remarquons que pour évaluer l’influence du sexe sur le poids à 20 ans, on dispose de l’ob-
servation d’une même variable (le poids à 20 ans) sur des individus différents : d’une part
n1 = 14 filles et d’autres part n2 = 6 garçons. Les échantillons de données seront dans ce cas
dits indépendants.
En revanche, pour juger d’une différence éventuelle du poids entre l’âge de 15 ans et l’âge de
20 ans, on dispose de l’observation de deux variables différentes, (c.-à-d. le poids à 15 ans et le
poids à 20 ans) sur les mêmes individus. Dans ce cas, on parlera d’échantillons appariés.
On se propose dans cette partie de construire des tests de comparaison de moyennes, de pro-
portions ou de variances. Nous allons d’abord traiter le cas le plus simple, celui des échantillons
appariés.

6.1 Echantillons appariés


Modèle : Soient Y et Y deux variables aléatoires de moyennes inconnues µX et µY . Soit
D = X − Y . Nous supposerons que D est une variable aléatoire gaussienne de moyenne µD =
µX − µY et de variance inconnue σD 2 : N (µ , σ 2 ).
D D
Données : on a observé le couple (X, Y ) pour n individus et obtenu : x1 , ..., xn et y1 , ..., yn . On
dispose donc de n observations de D : d1 = x1 − y1 , ..., dn = xn − yn .
On veut tester H0 : µD = 0 contre H1 : µD > 0 (ou µD < 0), ou H0 : µD = 0 contre
H1 : µD 6= 0.
Pour cela, il suffit d’appliquer les tests paramétriques (unilatéral et bilatéral) d’égalité d’une
moyenne à 0, pour un modèle gaussien avec variance inconnue. Les deux régions de rejet Wα1 et
Wα3 sont donc données par
( 0
) ( 0
)
S 1 S
Wα1 = D̄ > √D tn−1,2α = {T > tn−1,2α } α ≤ ; Wα3 = |D̄| > √D tn−1,α = {|T | > tn−1,α } ,
n 2 n

où T = D̄/(SD 0 /√n).

Décisions :
¯ 0 /√n) > tn−1,2α , alors on accepte H1 : µD > 0 avec un risque de se tromper
– si tcalc = d/(s D
de α.
¯ 0 /√n) > tn−1,α , alors on accepte H1 : µD 6= 0 avec un risque de se
– si |tcalc | = |d|/(s D
tromper de α.
Exemple : X le poids à 15 ans et Y le poids à 20 ans....

24
6.2 Echantillons indépendants
6.2.1 Comparaisons de moyennes
Modèle : Soient X1 et X2 deux variables aléatoires indépendantes et de loi respectives
N (µ1 , σ12 ) et N (µ2 , σ22 ).
Données : on a observé un échantillon pour X1 de taille n1 et un échantillon pour X2 de taille
n2 . On notera x̄1 , x̄2 , s21 et s22 les moyennes et variances de ces deux échantillons de données.
En général, X1 et X2 décrivent un même caractère sur deux populations différentes P1 et
P2 .
Par exemple, sur les données de poids on observe d’une part les poids d’une sous-population
prélevée dans la population des filles et d’autre part les poids d’une seconde sous-population
prélevée dans la population des garçons. Ainsi µ1 (resp. µ2 ) est le poids moyen sur la population
P1 (resp. P2 ) et σ12 (resp. σ22 ) la variance du poids de la population P1 (resp. P2 ). Dans ce cas, si
on veut montrer que le poids dépend du sexe, on choisira H1 : µ1 − µ2 6= 0 et si on veut montrer
que le poids d’une femme est en moyenne moins important que celui d’un homme on prendra :
H1 : µ1 − µ2 < 0.
On veut donc tester H0 : µ1 − µ2 = 0 contre H1 : µ1 − µ2 > 0 (ou µ1 − µ2 < 0), ou
H0 : µ1 − µ2 = 0 contre H1 : µ1 − µ2 6= 0.
Selon les tailles des échantillons et les informations dont on dispose sur les paramètres σ12 et
2
σ2 , on utilisera des tests différents.
1. Echantillons de petites tailles : n1 < 100 et n2 < 100
Dans ce cas, on ne sait proposer un test que dans les situations où σ12 et σ22 sont connues
ou dans celle où elles sont inconnues mais supposées égales.
Les variances de la population σ12 et σ22 sont connues
Comme sous l’hypothèse H0 , la variable U = qX̄σ12−X̄σ22 suit une loi N (0, 1), les régions de
1+ 2
n1 n2
rejet des tests de type 1 et 2 sont données par :
1
Wα1 = {U > u2α } α ≤ ; Wα3 = {|U | > uα }.
2
Décisions :
– si ucalc = qx̄σ12−x̄2σ2 > u2α , alors on accepte H1 : µ1 − µ2 > 0 avec un risque de se tromper
1+ 2
n1 n2
de α ;
– si |ucalc | > uα , alors on accepte H1 : µ1 − µ2 6= 0 avec un risque de se tromper de α.
S’il arrive que σ12 et σ22 soient connues, cela est cependant peu fréquent, et dans le cas où
σ12 et σ22 sont inconnues, on ne sait traiter le problème que si elles sont égales.
Les variances de la population σ12 et σ22 sont inconnues mais supposées égales
La variable U précédente n’est plus utilisable pour effectuer le test puisqu’elle dépend
d’inconnues. Elle sera remplacée par la variable T qui est l’analogue de U avec σ12 et σ22
remplacées par leur estimateur commun Σ :

(n1 − 1)S102 + (n2 − 1)S202 X̄1 − X̄2


Σ2 = et T =r  .
n1 + n2 − 2
Σ2 n11 + n12

Sous l’hypothèse H0 et supposant que σ12 = σ22 = σ 2 , la variable (n1 + n2 − 2)Σ2 /σ 2 suit
une loi du Chi2 à n1 + n2 − 2 degrés de liberté : Xn21 +n2 −2 . On en déduit que, sous les
mêmes hypothèses, T suit une loi de Student à n1 + n2 − 2 degrés de liberté. Les régions
de rejet des tests de type 1 et 2 sont données par :
1
Wα1 = {T > tn1 +n2 −2,2α } α ≤ et Wα3 = {|T | > tn1 +n2 −2,α }.
2

25
L’estimation σˆ2 de σ 2 est le résultat de l’application de Σ2 aux données.
Décisions :
– si tcalc = qx̄1ˆ2−x̄2ˆ2 > tn1 +n2 −2,2α , alors on accepte H1 : µ1 − µ2 > 0 avec un risque de se
σ σ
n1
+n
2
tromper de α.
– si |tcalc | > tn1 +n2 −2,α , alors on accepte H1 : µ1 − µ2 6= 0 avec un risque de se tromper de
α.
2. Les échantillons sont de grandes tailles : n1 ≥ 100 et n2 ≥ 100
Dans ce cas, que les variances σ12 et σ22 soient égales ou non, les régions de rejet de H0 :
µ1 = µ2 contre H1 : µ1 > µ2 ou contre H1 : µ1 6= µ2 sont données par :

X̄1 − X̄2
Wα1 = {U > u2α } et Wα3 = {|U | > uα } avec U=r ;
S102 S202
n1 + n2

car, pour de grands effectifs, la variable U suit approximativement une loi normale centrée
réduite. Les tests proposés sont de ce fait approximativement de niveau α. On peut remar-
quer que les échantillons étant de grandes tailles, dans U , S102 et S202 peuvent être remplacés
par S12 et S22 .

6.2.2 Comparaison de proportions


Les deux tests précédents peuvent être appliqués à de grands échantillons de variables
de Bernoulli (ou de variables binomiales). Autrement dit, il n’est pas nécessaire de supposer
les variables X1 et X2 normales pour comparer leurs moyennes (dans ce cas, les paramètres
inconnus testés sont µ1 = p1 = IP(X1 = 1) et µ2 = p2 = IP(X2 = 1)). Par contre, il faut encore
supposer les variables X1 et X2 indépendantes.

6.2.3 Comparaisons de variances


Certaines questions posées seront traduites par un test de comparaison de variances d’un
même caractère sur deux populations différentes. On peut également souhaiter évaluer s’il est
raisonnable, dans le cas de petits échantillons, de supposer les deux variances σ12 et σ22 égales.
Modèle : Soient X1 et X2 deux variables aléatoires indépendantes et de loi respectives N (µ1 , σ12 )
et N (µ2 , σ22 ) avec µ1 , µ2 , σ12 et σ22 inconnues.
Données : on a observé un échantillon pour X1 de taille n1 et un échantillon pour X2 de taille
n2 .
On souhaite effectuer les tests unilatéraux (types 1 et 2) :

H0 : σ12 /σ22 = 1 contre H1 : σ12 /σ22 > 1

H0 : σ12 /σ22 = 1 contre H1 : σ12 /σ22 < 1


ou le test bilatéral (de type 3) :

H0 : σ12 /σ22 = 1 contre H1 : σ12 /σ22 6= 1.

Pour construire ces tests, on utilisera la variable aléatoire F , obtenue comme le rapport des
estimateurs de σ12 et σ22 :
n1 S12 0
n1 −1 S12
F = = 0 .
n2 S22 S22
n2 −1
n S2 n S2
Rappelons que σ1 2 1 et σ2 2 1 suivent respectivement des lois Xn21 −1 et Xn22 −1 . Ainsi, sous
1 2
l’hypothèse H0 , la variable F est égale au rapport de deux Chi2 divisés par leur degrés de

26
libertés respectifs. Sous H0 , la loi de F est donc celle d’une variable de Fisher-Snedecor à
(n1 − 1, n2 − 1) degrés de liberté Fn1 −1,n2 −1 . Remarquons également que 1/F suit aussi une loi
de Fisher-Snedecor de degrés (n2 − 1, n1 − 1).
Les régions de rejet suivantes permettent d’effectuer les trois tests au niveau α :

Wα1 = {F > fn1 −1,n2 −1,α } avec IP(Fn1 −1,n2 −1 > fn1 −1,n2 −1,α ) = α,

Wα2 = {F < 1/fn2 −1,n1 −1,α } avec IP(Fn2 −1,n1 −1 > fn2 −1,n1 −1,α ) = α et

Wα3 = {F > fn1 −1,n2 −1,α/2 ou F < 1/fn2 −1,n1 −1,α/2 }.

Décisions :
0 0
– si fcalc = s12 /s22 > fn1 −1,n2 −1,α , alors on accepte H1 : σ12 > σ22 avec un risque de se tromper
de α.
0 0
– si fcalc = s12 /s22 < 1/fn2 −1,n1 −1,α , alors on accepte H1 : σ12 < σ22 avec un risque de se
tromper de α.
0 0 0 0
– si fcalc = s12 /s22 > fn1 −1,n2 −1,α/2 ou si fcalc = s12 /s22 < 1/fn2 −1,n1 −1,α/2 alors on accepte
H1 : σ12 6= σ22 avec un risque de se tromper de α.
0 0
– si 1/fn2 −1,n1 −1,α/2 ≤ s12 /s22 ≤ fn1 −1,n2 −1,α/2 , alors on accepte H0 : σ12 = σ22 avec un risque
de se tromper de 1 − α.
Remarque : Lorsque l’ on souhaite vérifier l’égalité des variances afin de le poser en hypothèse
pour effectuer une comparaison de moyenne à l’aide de petits échantillons, on se donne un niveau
α grand. En effet, rappelons que lorsque la conclusion d’un test est d’accepter H0 , elle est donnée
avec un risque d’erreur de 1 − α. Autrement dit, on jugera raisonnable d’accepter l’égalité des
variances si la p−valeur du test est proche de 1.

27
Chapitre 7

Tests du Chi2

A l’aide des tests proposés dans le chapitre précédent, nous avons pu répondre à la question :
“le poids moyen d’une fille est-il inférieur à celui d’un garçon ?”. Nous avons conclu, à l’aide des
données observées, qu’avec un risque d’erreur de α tel que α > α∗ la réponse était oui. Cela
suffit pour dire que la variable poids d’une fille modélisée par X1 n’a pas la même distribution
que la variable poids d’un garçon modélisée par X2 . Par conséquent on conclut que le poids
est un caractère qui dépend du sexe pour tout risque > α∗ . Par contre, si la réponse avait été
“le poids moyen d’une fille est le même que celui d’un garçon”, nous n’aurions pu directement
conclure à l’indépendance entre le poids et le sexe. En effet, il faudrait pour cela comparer la
distribution observée du poids d’une fille à celle du poids d’un garçon. Si ces deux distributions
observées, sont proches l’une de l’autre alors on pourra conclure à l’indépendance entre le poids
et le sexe. Un des tests permettant de répondre, statistiquement, à cette question s’appelle test
d’indépendance du Chi2.
D’autre part, dans tous les tests rencontrés jusqu’ici, une hypothèse sur la loi de probabilité de
la variable modélisant le caractère étudié est posée. En effet, en général on a supposé les variables
de lois normales. De même que l’hypothèse d’égalité des variances peut être statistiquement
vérifiée, celle posée sur la distribution théorique de la variable étudiée peut aussi être validée
à l’aide d’un test. Nous étudierons ici un test construit à l’aide d’une variable du Chi2, appelé
test d’adéquation du Chi2. Nous commencerons par l’étude du test d’adéquation, qui a déjà été
rencontré lorsque nous avons calculé le d2 sur les données du “café” : c1 , ..., c20 .

7.1 Test d’adéquation du Chi2


Nous allons d’abord développer ce test en détails dans le cas de données discrètes ou quantita-
tives. L’extension à une variable aléatoire continue en découlera simplement moyennant quelques
modifications.

7.1.1 Variable discrète ou qualitative


Modèle : X1 , ...., Xn , échantillon aléatoire d’une variable X de fonction de répartition in-
connue F . On suppose que l’on connait l’ensemble des valeurs possibles de X, X = {m1 , ..., mq }.
Notons Nk la variable aléatoire définie comme le nombre de variables Xi de l’échantillon aléatoire
qui prennent la valeur mk . On construit ainsi une suite de variables aléatoires N1 , ..., Nq .
Données : x1 , ..., xn qui représentent les réalisations de X1 , ..., Xn sont souvent remplacées par
les réalisations de N1 , ..., Nq notées n1 , ..., nq . En effet lorsque l’on observe un échantillon d’assez
grande taille n ≥ 20, le tableau de données en effectifs est plus court à décrire que la suite des
P
n observations. Rappelons que l’on a évidemment qk=1 nk = n.
Nous voulons donc répondre à la question “la variable X suit-elle une distribution donnée
F ?”. Cette distribution F ∗ est décrite par des probabilités fixées p∗1 , ..., p∗q . D’autre part nous

noterons pk = IP(X = mk ).

28
Nous allons construire un test de

H0 : X suit la loi F ∗ contre H1 : X ne suit pas la loi F ∗ ;

qui s’écrit aussi

H0 : pour tout k, pk = p∗k contre H1 : il y a une valeur de k telle que pk 6= p∗k .

L’hypothèse H0 traduit l’adéquation de la variable étudiée à la loi F ∗ .


P
En posant δ2 = nk=1 (npk −np∗k )2 /(np∗k ), l’hypothèse H0 s’écrit δ2 = 0. Ainsi notre problème
peut être ramené au test suivant :

H0 : δ 2 = 0 contre H1 : δ2 > 0.

On va donc construire un estimateur de δ2 , D 2 puis à l’aide de la loi de D 2 on ajuste la


région de rejet {D 2 > Cα } pour que la probabilité de rejet de H0 alors qu’elle est vraie soit α.
Les pk étant inconnues on les estime à l’aide de l’échantillon X1 , ..., Xn qui fournit la suite
de variables N1 , ..., Nq . En effet, on montre que Nk /n est un estimateur sans biais et convergent
de pk . Ainsi (Nk − np∗k )2 /(np∗k ) est un estimateur de (npk − np∗k )2 /(np∗k ). On utilisera donc la
variable aléatoire suivante pour construire le test :
q
2
X (Nk − np∗k )2
D = .
k=1
np∗k

Sous l’hypothèse H0 , et si de plus np∗k ≥ 5, alors D 2 suit une loi du Chi2 à q − 1 degrés de
2 . La région de rejet du test de niveau approximatif α est donc donnée par :
liberté Xq−1

Wα = {D 2 > zq−1,α }.

L’application de D 2 aux données fournit une estimation du paramètre inconnu δˆ2 et elle est
notée d2 (c.-à d. δˆ2 = d2 ).
Décision :
– si d2 > zq−1,α on refuse l’adéquation à la distribution F ∗ avec un risque d’erreur de α ;
– sinon on accepte l’adéquation avec un risque d’erreur de 1 − α.
Le test d’adéquation donne un exemple de situation où c’est l’hypothèse H0 que l’on souhaite
accepter. Par conséquent si l’on souhaite valider l’adéquation avec peu de risque de se tromper,
on choisira α proche de 1. Si aucun risque d’erreur n’est indiqué pour faire le test, on jugera
l’adéquation satisfaisante si la p-valeur, α∗ de ce test est proche de 1. La p-valeur satisfait
d2 = zq−1,α∗ .
Exemple des “cafés” :
On souhaite répondre à la question : “le nombre hebdomadaire de cafés consommés par un
étudiant de l’amphi suit-il une répartition uniforme ?”. Nous avons déjà calculé le d2 dans le
chapitre 1 et obtenu δˆ2 = d2 = 11.2, d’où α∗ = 4.85%. Par exemple, comme pour α = 5%
on refuse H1 on conclut avec un risque d’erreur de 5% : il n’y a pas adéquation des données à
la distribution uniforme. Nous avions également comparé la distribution observée avec une loi
binomiale B(5, 0.6) et obtenu dans ce cas d2 = 10.81. Si c’est un peu mieux que l’adéquation
précédente, on obtient cependant une p-valeur de α∗ = 5.8%. On se propose maintenant de
tester l’adéquation à une loi binomiale B(5, p) mais où l’on ne fixe pas, p à priori. Dans ce cas
on estime p, à partir des données et on obtient p̂ = 0.57 (voir chap. 4). On obtient le tableau
suivant :
X 0 1 2 3 4 5
eff. obs. 0 5 2 5 7 1 d2
prob. th. avec B(5, p̂) 1.47% 9.74% 25.83% 34.24% 2.27% 6.02%
eff. th. avec B(5, p̂) 0.29 1.95 5.17 6.85 4.54 1.2 8.88

29
Dans ce cas la variable D 2 qui fournit l’estimation δˆ2 = d2 suit une loi du Chi2 à 4 degrés
de libertés (au lieu de 5 pour les deux lois précédemment testées) car il a fallu estimer un
paramètre pour calculer les effectifs théoriques. Ainsi on obtient dans ce cas une p-valeur α∗
qui satisfait 8.88 = z4,α∗ soit α∗ = 8.15%. L’adéquation à la B(5, 0.57) est un peu meilleure
que celle aux deux autres distributions envisagées. Elle reste cependant peu satisfaisante car si
on accepte l’adéquation à la B(5, 0.57) on le fait pour tout risque d’erreur supérieur à 81, 85% !
Objectivement, il faudrait donc chercher une autre loi qui ajuste mieux les données. Remarquons
qu’ici, l’échantillon est de trop petite taille pour que les conditions np∗k ≥ 5 soient vérifiées ce
qui nous interdit en principe d’appliquer le test d’adéquation.
Souvent, on cherche à valider l’adéquation à une distribution partiellement connue. Par
exemple, “les observations sont-elles issues d’une loi gaussienne ou binomiale ?” sans en préciser
les paramètres.
Cas de F ∗ partiellement donnée :
Lorsque la loi F ∗ est connue à r paramètres près (dans l’exemple précédent un paramètre
est estimé) ces paramètres sont estimés et si q ≥ r + 2, la variable D 2 suit alors une loi du Chi2
à q − 1 − r degrés de libertés et la région de rejet du test d’ádéquation de niveau α est donnée
par :

Wα = {D 2 > zq−1−r,α }.

7.1.2 Variable continue


Lorsque la variable observée est à valeurs dans un intervalle de IR. On partitionne cet in-
tervalle en q classes, notées [e0 , e1 ], ..., ]eq−1 , eq ]. On procède ensuite comme précédemment en
remplaçant les modalités mk par les classes ]ek−1 , ek ]. Les probabilités p∗k qui “caractérisent” la
distribution F ∗ à laquelle on souhaite vérifier l’adéquation sont définies comme :

p∗k = F ∗ (ek ) − F ∗ (ek−1 ) = IP(ek−1 ≤ X ≤ ek |H0 vraie).

L’ effectif observé nk est le nombre d’éléments de l’échantillon observé, x1 , ..., xn , qui sont
tombés dans la classe k.
Exemple du “poids d’une fille” :
Dans le chapitre 6 pour comparer le poids moyen d’une fille (à 20 ans) à celui d’un garçon
(à 20 ans), nous supposons que la variable poids d’une fille X1 a une distribution normale (idem
pour le poids d’un garçon). Sur l’échantillon de taille n1 = 14 nous avons observé les poids
suivants : 70, 54, 62, ..., 64, 59. Ces valeurs sont toutes dans l’intervalle [45, 75] que l’on peut, par
exemple, découper en quatre classes : [45, 55.5], ]55.5, 60.5], ]60.5, 65.5] et ]65.5, 75]. Nous voulons
tester l’adéquation de la distribution observée à une loi normale de moyenne µ et de variance
σ 2 inconnues. On a déja vu que ce jeu de données fournit les estimations µ̂ = 60.7 et σˆ2 = 22.68
et on a    
ek − µ̂ ek−1 − µ̂
p∗k = Φµ̂,σ̂ (ek ) − Φµ̂,σ̂ (ek−1 ) = Φ −Φ .
σ̂ σ̂
On obtient le tableau suivant :
[45, 75] [45,55.5] ]55.5,60.5] ]60.5,65.5] ]65.5,75]
eff. obs. 2 5 5 2 d2
prob. th. avec N (60.7, 22.68) 13.7% 34.6% 36% 15.7%
eff. th. avec N (60.7, 22.68) 1.92. 4.84 5.04 2.2 2.7 · 10−2
∗ −2
La p-valeur, α qui satisfait z1,α∗ = 2.7 · 10 vaut 87%. Le résultat du test d’adéquation
est ici très satisfaisant puisque l’on accepte l’adéquation à la N (60.7, 22.68) pour tout risque
d’erreur supérieur à 13%.

30
7.2 Test d’indépendance du Chi2
Comme dans la partie précédente, nous développons ce test en détails dans le cas de données
discrètes ou quantitatives. L’extension à des variables aléatoires continues en découlera simple-
ment moyennant les mêmes modifications que dans le test d’adéquation.

7.2.1 Variables discrètes ou qualitatives


Modèle : (X1 , Y1 ), ...., (Xn , Yn ), échantillon aléatoire d’un couple de variables aléatoires X
et Y à valeurs dans X = {m1 , ..., mq } et Y = {m̃1 , ..., m̃p }.
Notons Nij la variable aléatoire définie comme le nombre de couples (Xk , Yk ) de l’échantillon
aléatoire (X1 , Y1 )...., (Xn , Yn ) qui prennent les valeur (mi , m̃j ). On construit aussi les variables
aléatoires N1. , ..., Nq. et N.1 , ..., N.p définies comme :
p
X q
X
N.k = Nkj et Nk. = Nik .
j=1 i=1

N.k indique le nombre de couples dans l’échantillon aléatoire pour lesquels X prend la valeur
mk et Nk. le nombre de couples dans l’échantillon aléatoire pour lesquels Y prend la valeur m̃k .
Données : (x1 , y1 ), ..., (xn , yn ) qui représentent les réalisations de (X1 , Y1 ), ..., (Xn , Yn ) sont en
général remplacées par le tableau à double entrées des effectifs nij réalisations des Nij . Ce tableau
est appelé tableau de contingence et a la forme suivante :

Y m̃1 ... m̃j ... m̃p Total


X
m1 n11 ... n1j ... n1p n1.
..
.
mi ni1 ... nij ... nip ni.
..
.
mq nq1 ... nqj ... nqp nq.
Total n.1 ... n.j ... n.p n.. = n

L’objectif est ici de répondre à la question : “X et Y sont-elles indépendantes ? ”.


L’indépendance entre X et Y est mathématiquement définie par :

IP(X = mi , Y = m̃j ) = IP(X = mi )IP(X = m̃j ), pour tout (i, j).

De façon équivalente l’indépendance entre X et Y s’écrit aussi δ2 = 0 avec δ2 défini comme :


X (IP(X = mi , Y = m̃j ) − IP(X = mi )IP(X = m̃j ))2
δ2 = n · .
i,j
IP(X = mi )IP(X = m̃j )

En plaçant l’hypothèse d’indépendance sous H0 on est amené à poser le test suivant :

H0 : δ 2 = 0 contre H1 : δ2 > 0.

Comme Nij /n (resp. Ni. /n, N.j /n) est un bon estimateur de IP(X = mi , Y = m̃j ) (resp.
IP(X = mi ), IP(Y = m̃j )), on utilisera l’estimateur de δ2 suivant :
 2
Ni. N.j
X Nij − n
D2 = Ni. N.j
.
i,j n

31
Sous l’hypothèse H0 et si p ≥ 2 et q ≥ 2, D 2 suit une loi du Chi2 à (p − 1)(q − 1) degrés de
2
liberté X(p−1)(q−1) . La région de rejet du test de niveau approximatif α est donc donnée par :

Wα = {D 2 > z(p−1)(q−1),α }.

L’application de D 2 aux données, qui fournit l’estimation δˆ2 est notée d2 .


Décision :
– si d2 > z(p−1)(q−1),α on refuse l’indépendance entre X et Y avec un risque d’erreur de α ;
– sinon on accepte l’indépendance avec un risque d’erreur de 1 − α.
La p-valeur de ce test est donnée par α∗ tel que z(p−1)(q−1),α∗ = d2 .

7.2.2 Variable(s) continue(s)


Lorsque l’une ou l’autre des deux variables est continue on procède comme ci-dessus en
remplaçant modalité mk par classe ]ek−1 , ek ].
Exemple poids/sexe :
Pour répondre à la question : “le poids (à 20 ans) d’un individu de l’amphi dépend-il de son
sexe ?”, on va appliquer le test précédent au couple (sexe, poids). Le sexe, X prend les modalités
1 ou 0. Le poids Y est à valeurs dans [40, 80] décomposé en trois classes : [40, 55], ]55, 65] et
]65, 80]. On a observé les effectifs (premières lignes des cases du tableau) et calculé les ni. n.j /n
(seconde ligne du tableau) :

Y [40, 55] ]55, 65] ]65, 80] Total


X
1 2 10 2 14
28/20 140/20 112/20
0 0 0 6 6
12/20 60/20 48/20
2 10 8 20

On obtient δˆ2 = d2 = 12.86 et α∗ = 0.16%. On refuse donc H0 pour tout risque d’erreur
supérieur à 0.16%. Autrement dit on conclut que le poids dépend bien sur du sexe pour tout
risque d’erreur supérieur à 0.16%.

32
Chapitre 8

Régression linéaire simple

Dans cette partie on dispose de n couples de données (xi , yi ), i = 1...n et on se propose


d’expliquer yi par une fonction linéaire de xi commune à tous les individus. On va donc chercher
un couple (a, b) tel que yi ≈ axi + b. Les démarches et résultats enoncés dans la suite seront
illustrés sur l’exemple des couples, (taille, poids à 20 ans), donnés dans l’introduction de ce
cours. On notera ici xi la taille du i-ème individu de l’échantillon et yi son poids. On se propose
donc d’expliquer le poids linéairement en fonction de la taille. Nous allons commencer par faire
une étude descriptive des données, puis après avoir posé un modèle sur ces données nous en
ferons l’étude dite inductive. Elle consistera à estimer les paramètres inconnus du modèle, à
vérifier que le modèle supposé est raisonnable puis enfin à proposer une prévision de y0 pour
un nouvel individu pour lequel on connait x0 . Dans l’exemple présenté, il s’agira de prévoir le
poids d’un individu prélevé dans l’amphi et dont on connait la taille. La variable à expliquer
(qui fournit les yi ) s’appelle variable endogène et la variable explicative (qui fournit les xi )
s’appelle variable exogène. Les données et leurs caractéristiques numériques sont rappelées dans
les tableaux suivants :
i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
xi 187 149 166 170 148 162 148 150 189 157 159 165 174 164 208 191 173 184 190 199
yi 70 54 62 65 55 62 57 56 68 59 59 60 64 59 78 70 68 71 71 76

Tab. 8.1 – Poids yi et taille xi de 20 étudiants

x̄ ȳ s2x s2y cov(x, y) = cx,y


171.65 64.2 309.1275 46.76 117.17

Tab. 8.2 – Caractéristiques numériques

8.1 Approche descriptive.


On suppose que les mesures (xi , yi )i=1,n sont telles que pour chaque individu i, la valeur yi
est approximativement égale à axi + b (où a et b sont des constantes inconnues) :

yi = axi + b + di , ∀i = 1, . . . , n.

Ici di représente l’ écart entre yi et son approximation linéaire axi + b. Les paramètres a et b
sont des quantités inconnues que l’on cherche à estimer.
La variable Y est la variable expliquée (endogène) alors que X est la variable explicative
(exogène).

33
8.1.1 Droite des moindres carrés ou droite de régression.
On cherche à trouver une droite d’équation y = ax + b qui soit la plus proche possible du
nuage de points. La droite des moindres carrées minimise le critère suivant :
n n
1X 1X
f (a, b) = (yi − axi − b)2 = d2 .
n i=1 n i=1 i

On cherche donc à minimiser la moyenne des carrés des erreurs. Il s’agit de trouver le minimum
d’un polynôme de second degré en les variables a et b. L’extremum est atteint au point qui
annule les deux dérivées partielles.
∂f
(a, b) = 2x2 a + 2xb − 2xy = 0
∂a
∂f
(a, b) = 2b + 2xa − 2y = 0.
∂b
On déduit la droite des moindres carrés, de pente â et d’ordonnée à l’origine b̂, en cherchant le
couple (â, b̂) solution du système précédent et on obtient :
xy − x · y cx,y
â = 2
= 2
2
x −x sx
b
b = y−a bx

et on vérifie aisément qu’il s’agit bien d’un minimum.


Remarques : La droite des moindres carrés passe par le point moyen (x, y). Les points (xi , yi )
sont les données observées ; les points (xi , ŷi ) avec ŷi = âxi + bb sont les points ajustés sur la
droite des moindres carrés.

8.1.2 Coefficient de corrélation linéaire empirique.


La représentation de la droite des moindres carrés avec le nuage de points peut mettre en évidence
une structure qui ne résulterait pas du hasard. Il est donc utile d’introduire un coefficient qui
mesure le degré de linéarité entre les points observés (quantité empirique notée cx,y ) et appelée
covariance empirique : cx,y = xy − x̄ · ȳ. Plutôt que la covariance, on préfère utiliser le coefficient
de corrélation linéaire qui permet une mesure normalisée du degré de linéarité. Ce coefficient est
défini par rx,y = cx,y /(sx sy ). Il est toujours compris entre −1 et 1.

En général, les logiciels fournissent aussi le coefficient de détermination défini comme le carré
2 . r 2 représente également la part de variance
du coefficient de corrélation linéaire et noté rx,y x,y
expliquée par la régression linéaire de y sur x.
Cependant la proximité du coefficient de corrélation linéaire à 1 ne suffit pas à justifier le
modèle proposé. Nous verrons dans l’approche inductive comment le valider complètement.

8.2 Approche inductive.


8.2.1 Le modèle.
On considère ici le modèle de régression linéaire simple : Yi = axi + b + εi où εi → N (0, σ 2 ) et
les variables aléatoires εi sont indépendantes.

Les estimations de a et b sont données par â et b̂ définissant la pente et l’ordonnée à l’origine


de la droite des moindres carrés. Ces estimations sont les réalisations obtenues pour les obser-
vations (xi , yi )i=1...n des estimateurs A et B. Autrement dit, les estimateurs A et B appliqués
aux données fournissent les estimations â et b̂.

34
8.2.2 Propriétés et lois des estimateurs.
On peut montrer que A et B sont des estimateurs sans biais de a et b et qu’ils vérifient :

σ2 σ 2 (s2x + x2 ) σ2 x
V(A) = V(B) = et cov(A, B) = − .
ns2x ns2x n s2x

Pour x fixé, la loi de Y est par hypothèse N (ax + b, σ 2 ). On en déduit les lois des estimateurs
A et B : ! !
σ2 σ 2 (s2x + x2 )
A → N a; 2 B → N b; .
nsx ns2x
Comme σ 2 est en général inconnu, ces lois ne sont pas utilisables directement pour proposer
des intervalles de confiance ou des tests sur les paramètres inconnus a et b. On utilisera donc
l’ estimation σ̂ 2 (à la place du paramètre inconnu σ 2 ) qui est défini comme la réalisation de
l’estimateur : n n
1 X 1 X
Σ2 = (Yi − Ŷi )2 = ε̂i .
n − 2 i=1 n − 2 i=1

On montre que σ̂ 2 se calcule aussi comme :


n 2
σ̂ 2 = 2
s (1 − rx,y ).
n−2 y
Pour construire des intervalles de confiance ou des tests sur les paramètres a, b et σ 2 on
utilisera les quantités et lois suivantes :

A−a B−b Σ2
TA (a) = p → Tn−2 TB (b) = q p → Tn−2 , (n − 2) → χ2n−2 .
Σ/( ns2x ) Σ s2x + x2 / ns2x σ2

8.2.3 Intervalle de confiance sur les paramètres :


A partir des lois précédentes on établit les intervalles de confiance suivants pour les trois
paramètres inconnus du modèle :

" #
Σ Σ
I(a; α) = A − tn−2,α p 2 ; A + tn−2,α p 2
nsx nsx
 q q 
Σ s2x + x2 Σ s2x + x2
I(b; α) = B − tn−2,α √ ; B + tn−2,α √ 
sx n sx n
" #
2 (n − 2)Σ2 (n − 2)Σ2
I(σ ; α) = ; .
zn−2,α/2 zn−2,1−α/2

Les valeurs de tn,α et zn,α sont respectivement les valeurs lues sur les tables de Student et
du χ2 à n degrés de liberté au risque α.

8.2.4 Tests
Test de pertinence de la régression
L’idée est de vérifier que le coefficient a de la régression n’est pas nul en effectuant un test.
On posera donc : H0 : a = 0 contre H1 : a 6= 0.

35
On utilisera TA (0) pour définir la région de rejet de ce test. Comme sous l’hypothèse H0 ,
TA (0) = pA suit une loi de Student à n − 2 degrés de liberté la region de rejet, au seuil
Σ/( ns2x )
α, est donnée par ( )
A

Wα = p > tn−2,α .
Σ/( ns2x )

Décision :

si |âsx n/σ̂| > tn−2,α , on rejette H0 (on décide H1 ), donc au seuil α, on conserve a 6= 0. On
conclut que la régression est pertinente, avec un risque d’erreur de α.

si |âsx n/σ̂| < tn−2,α , on accepte H0 donc a = 0. On conclut que la régression n’est pas
pertinente avec un risque de 1 − α.

Test de a = a0
Plus généralement, pour tester : H0 : a = a0 contre H1 : a 6= a0 , on utilise encore TA (a0 ),
mais dans ce cas sous l’hypothèse H0 , TA (a0 ) = A p − a0 suit une loi de Student à n − 2 degrés
Σ/( ns2x )
de liberté et la region de rejet du test, au seuil α est donnée par
( )
A−a
0
Wα = p > tn−2,α .
Σ/( ns2x )

Test de b = b0
Pour tester H0 : b = b0 contre H1 : b 6= b0 , en utilisant TB (b0 ) et sa loi sous H0 , on obtient
la région de rejet suivante, au seuil α :
 
 B − b


0
Wα = q > tn−2,α .

 
Σ (s2x + x2 )/ns2x
Remarque : le cas b0 = 0 permet de tester si la droite y = ax + b passe ou non par l’origine.

8.2.5 Etude des résidus.


Le modèle initial posé était le suivant : Yi = axi + b + εi avec εi → N (0, σ 2 ), avec σ
indépendant de xi et les variables εi indépendantes.
A l’aide du test de pertinence de la régression on a pu vérifier ou non que a était non nul. Ce test
ne suffit pourtant pas à valider ce modèle. En effet, il faut également vérifier que les hypothèses
posées sur les variables εi sont raisonnables.
Les quantités εi , étant inconnues, sont estimées par les résidus ε̂i = Yi − Ŷi , pour lesquels on
peut
 montrer que, si 2les  hypothèse faites sur les variables εi sont justes, E(ε̂i ) = 0 et V ar(ε̂i ) =
σ2 n − 1 (xi − x) . On normalise ces erreurs estimées en les divisant par leur écart-type,
n − ns2
x
et on définit ainsi les residus dits studentisés :

ε̂i
ε̂Si = s → Tn−2 .
√Σ (x − x)2
n−1− i 2
n sx
Le graphe des résidus s’obtient en traçant le nuage de points de coordonnées (xi , ε̂Si )i , dans
l’ordre des xi croissants.
Si l’hypothèse indiquant que les écarts εi sont centrés est verifiée, alors tous les points de ce
nuage doivent etre répartis de part et d’autre de l’axe des abscisses.
Si l’hypothèse indiquant que la variance de εi ne dépend pas de x est vérifiée, cette répartition
doit être homogène (on ne doit pas, par ex. constater des résidus qui augmenteraient avec x).

36
Si l’hypothèse d’indépendance est vérifiée, cette répartition ne doit mettre en évidence aucune
structure.
Si l’hypothèse de normalité des écarts εi est vérifiée, 95% des points du nuage doivent ce
trouver entre les deux droites horizontales passant respectivement par les ordonnées tn−2,5% et
−tn−2,5% .
Si l’un de ces points n’est pas vérifié, le modèle posé n’est pas valable et ne peut être utilisé
pour faire de la prévision.

8.2.6 Prévision.
Lorsque le modèle est validé, il est alors possible de l’utiliser pour faire de la prévision.
Soit x0 la valeur de la variable x sur un nouvel individu. Il est naturel de donner ŷ0 comme
valeur prévue de la variable Y0 , où ŷ0 = âx0 + b̂. La valeur inconnue (et aléatoire) Y0 vérifie :
Y0 = ax0 + b + ε0 avec ε0 → N (0, σ 2 ). On vérifie alors
 que Ŷ0 = Ax0 + B est un estimateur sans
σ 2 (x0 − x)2
biais de ax0 + b et que Var(Ŷ0 ) = n 1 + . On montre également (Yˆ0 et Y0 étant des
s2x  
σ 2 (x0 − x)2
variables indépendantes) que Var(Ŷ0 − Y0 ) = n n + 1 + .
s2x
On en déduit un intervalle de confiance pour Y0 , dit intervalle de prévision, en utilisant
le fait que
Y0 − Ŷ0
s → Tn−2 .
(x − x)2
√Σ n+1+ 0
n s2x
Et l’intervalle pour Y0 , au niveau de confiance 1 − α, est :

 s s 
Σ (x0 − x)2 Σ (x0 − x)2 
I(Y0 ; α) = Ŷ0 − tn−2,α √ n+1+ 2 ; Ŷ0 + tn−2,α √ n+1+ .
n sx n s2x

Si on cherche un intervalle de confiance pour la valeur moyenne attendue E(Y0 ) = ax0 +b,
on utilise que :
Y0 − (ax0 + b)
s → Tn−2 .
(x − x)2
√Σ 1+ 0
n s2x
On obtient ainsi, l’intervalle pour ax0 + b, au niveau de confiance 1 − α :
 s s 
Σ (x0 − x)2 Σ (x0 − x)2 
I(ax0 + b; α) = Ŷ0 − tn−2,α √ 1+ 2 ; Ŷ0 + tn−2,α √ 1+ .
n sx n s2x

37

Vous aimerez peut-être aussi