Académique Documents
Professionnel Documents
Culture Documents
Frédérique Leblanc
16 avril 2007
1
Chapitre 1
Introduction
On souhaite étudier un caractère X sur une population P. Par exemple, le sexe, le nombre
de cafés consommés en une semaine, le poids ou encore la taille d’un étudiant de l’amphi. En
général, on ne peut pas observer ce caractère sur tous les individus d’une grande population,
mais seulement sur une sous-population de P de taille n. On notera alors :
2
Selon la forme de l’ensemble X , la variable X aura trois “types” différents. On dira que X
est une
– variable qualitative lorsque X est un ensemble fini de mots ou codes (par ex. X =
{Femme, Homme} ou X = {1, 0}). Dans ce cas les éléments de X ne peuvent pas être
ordonnés.
– variable quantitative discrète lorsque X est une suite finie ou infinie d’éléments de IN
(par ex X = {0, 1, ..., 5} ou X = IN).
– variable quantitative continue lorsque X est un intervalle de IR (par ex X = IR ou
X = [120, 210]).
La description de données qualitatives ou quantitatives discrètes et leurs modélisations diffèrent
de celles de données quantitatives continues. Les premières seront abordées dans le chapitre 2
et les suivantes dans le chapitre 3. L’inférence statistique fera l’objet des chapitres 4 à 8.
Plan de cours :
– Chap. 2 : Variables discrètes
– Chap. 3 : Variables continues
– Chap. 4 : Estimation et intervalles de confiance
– Chap. 5 : Tests paramétriques
– Chap. 6 : Tests de comparaisons d’échantillons
– Chap. 7 : Tests du Chi2
– Chap. 8 : Régression linéaire
Exemples de données :
individus 1 2 3 4 5 6 7 8 9 10 11 12 13 14
i 15 16 17 18 19 20
sexe 1 1 1 1 1 1 1 1 1 1 1 1 1 1
si 0 0 0 0 0 0
nb. heb. caf. 4 3 1 4 2 4 5 4 3 1 4 1 4 1
ci 2 3 3 4 1 3
poids (kg) à 20 ans 70 54 62 65 55 62 57 56 68 59 59 60 64 59
pi 78 70 68 71 71 76
poids (kg) à 15 ans 57 58 59 65 68 53 66 53 68 56 57 64 55 50
p0i 68 75 57 61 76 77
taille (cm) 187 149 166 170 148 162 148 150 189 157 159 165 174 164
ti 208 191 173 184 190 199
Résumés numériques :
X X X X X
si = 14, ci = 57, pi = 1284, p0i = 1243, ti = 3433,
X X X 0 X X
c2i = 195, p2i = 83368, pi2 = 78471 t2i = 595457, pi ti = 222742.
c̄ = 2.85, p̄ = 64.2, p̄0 = 62.1, t̄ = 171.65, s2c = 1.6275, s2p = 46.76, s2p0 = 60.93, s2t = 309.1275,
cov(p, t) = 117.17.
3
Chapitre 2
Variables discrètes
Nous nous intéressons au cas où X est un ensemble fini de q éléments : m1 , ..., mq appelés
modalités de X. S’il s’agit d’éléments quantitatifs, on conviendra d’ordonner les modalités dans
l’ordre croissant (m1 < m2 < ... < mq ).
indiv X X1 ... Xp
1 x1 x11 ... xp1
...
i xi x1i ... xpi
...
n xn x1n ... xpn
Lorsqu’un seul caractère X est observé sur une population, on présente plutôt les données
sous la forme d’un tableau en effectifs :
4
X effectifs
m1 n1
...
mk nk
...
mq nq
F : IR → [0, 1]
x → f req] − ∞, x]
Propriétés :
∀x < m1 ; F (x) = 0 et ∀x ≥ mq ; F (x) = 1.
∀x ∈ [mk , mk+1 [; F (x) = Fk , 1 ≤ k ≤ q − 1.
∀a ≤ b; F (b) − F (a) = f req]a, b].
5
Interprétation : modalité en dessous de laquelle (au sens large) et au dessus de laquelle (au
sens large) on trouve au moins la moitié des individus.
Graphiquement, c’est la plus petite valeur en laquelle le graphe de F franchit le palier 0.5.
Plus généralement, le quantile empirique d’ordre α est défini par qα = inf{x ∈ X , F (x) ≥ α}.
C’est en fait la plus petite modalité en laquelle la fonction de répartition dépasse α. La médiane
est le quantile d’ordre 0.5 et les quartiles sont les trois quantiles d’ordre 0.25; 0.5; 0.75.
Moyenne : notée x̄, moyenne arithmétique de l’ensemble des n réalisations de X c.-à-d. :
n q q
1X 1X X
x̄ = xi = n k mk = f k mk .
n i=1 n k=1 k=1
Interprétation : valeur qu’auraient tous les individus s’ils prennaient tous la même valeur.
– Caractéristiques de dispersion –
Afin de compléter les caractéristiques centrales on peut définir des mesures de dispersion
telles que :
C’est aussi une fonction en escaliers (avec q + 1 paliers) croissante où le saut entre le k-ième et
le (k + 1)-ième palier vaut pk .
6
On peut représenter la loi de probabilité de la v.a. X et sa fonction de répartition par
l’histogramme des probabilités (diagramme en batons de hauteurs pk ) et par le graphe de FX .
P
Pour tout sous-ensemble A de X on a : IP(X ∈ A) = mk ∈A IP(X = mk ) et en particulier,
X
IP(a < X ≤ b) = IP(X ≤ b) − IP(X ≤ a) = FX (b) − FX (a) = IP(X = mk ).
a<mk ≤b
Remarques :
– Lorsque toutes les probabilités sont égales (ie. p1 = pk = pq = 1/q) l’espérance mathématique
est égale à la moyenne arithmétique des éléments de X .
– L’espérance de la variable aléatoire X est aussi appelée la moyenne théorique de X, et est
notée µX ou µ. En général µX ∈ / X.
Variance de X le nombre :
X
σ 2 = V (X) = (mk − µ)2 IP(X = mk ).
mk ∈X
Loi de Bernoulli et Loi binomiale : on considère n expériences telles que le lancer répétitif
de pièces ou de dés, ou le tirage d’un individu dans un ensemble ; chaque lancer est dit essai.
Au cours de chacun des essais, à un événement particulier (c.-à-d. remplir une condition A)
est associé une probabilité de réussite. Si les tirages ou les essais sont indépendants, on aura la
même probabilité de réussite à chaque tirage.
P
Soit Xi la variable décrivant la réussite au i-ème tirage et Y = Xi le nombre de réussites
après n tirages.
– Loi de Bernoulli : elle décrit la réalisation d’une expérience n’ayant que deux issues
possibles, 1=“succès” et 0=“échec”. La distribution d’une v.a. X de Bernoulli, notée B(p),
est donnée par :
IP(X = 1) = p et IP(X = 0) = 1 − p.
On note que q = 1 − p est la probabilité d’échec. Chaque variable Xi suit une loi de
Bernoulli de paramètre p : “probabilité d’obtenir A”.
7
– Loi binomiale : la probabilité pour que l’événement A (le succès) se réalise k fois exac-
tement au cours de n essais est donnée par la probabilité :
n
!
X
IP(Y = k) = IP Xi = k = Cnk pk (1 − p)n−k , pour tout k ∈ {0, ..., n}.
i=1
– La loi hypergéométrique H(N, n, M ) est approchée par la loi binomiale B(n, M/N ), lorsque
n est petit devant M .
Exemple : On admet qu’un étudiant de l’amphi prend au plus un café par jour, que chaque
jour sa probabilité de prendre un café est la même et vaut p et qu’il y a indépendance entre ses
choix quotidiens de boire ou non un café. La variable C décrivant le nombre de cafés consommés
par l’étudiant en une semaine (soit cinq jours) est modélisée par une variable aléatoire de loi
B(5, p).
Loi géométrique : c’est la loi du temps Z d’attente du premier succès dans les réalisations
de tirages indépendants de variables de Bernoulli, B(p). Elle est notée G(p) et
Loi de Poisson : cette distribution approche la loi binomiale B(n, λ/n) lorsque n est grand.
C’est-à-dire que dans ce cas IP(Y = k) = Cnk (λ/n)k (1 − λ/n)n−k ≈ IP(W = k) où W est une
variable qui suit la loi de Poisson, notée P(λ), définie par
8
Afin de mesurer la proximité entre fréquences observées et probabilités théoriques, nous
allons calculer la quantité suivante, appelée statistique d’adéquation du Chi2 :
q q
X (nk − np∗k )2 X (fk − p∗k )2
d2 = =n .
k=1
np∗k k=1
p∗k
Plus d2 est proche de zéro meilleure est l’adéquation entre la loi théorique et la distribution
observée. Les nk sont les effectifs observés de la modalité mk tandis que np∗k sont les effectifs
théoriques que l’on s’attend à obtenir sur n tirages indépendants sous la loi (p∗1 , ..., p∗q ).
Par exemple, on souhaite comparer la distribution observée, de cafés consommés sur cinq
jours, d’une part à une loi uniforme
et d’autre part à une loi binomiale B(5, 0.6) donnée par les probabilités théoriques
X 0 1 2 3 4 5
Eff. obsv. 0 5 2 5 7 1 d2
Eff. theo. avec unif. 3.33 3.33 3.34 3.34 3.33 3.33 11.2
Eff. theo. avec binom. 0.2 1.54 4.61 6.91 5.18 1.56 10.81
Pour les données proposées, avec le modèle uniforme on obtient un d2 plus grand qu’avec
le modèle binomial. La B(5, 0.6) modélise donc mieux les données observées que l’uniforme sur
{0, 1, 2, .., 5}.
9
Chapitre 3
Variables continues
Nous considérons dans cette partie des données observées dans un intervalle de IR, noté
]m, M ].
De même que dans le cas discret, on représente les fréquences observées et les fréquences
cumulées avec :
– Histogramme des fréquences : graphe où sont portées en abscisses les extremités de
classes et où l’on trace un rectangle de surface fk (de largeur ak et hauteur fk /ak ) au
dessus de la classe k.
– Fonction de répartition empirique : elle est définie comme dans le cas discret par
F (x) = f req] − ∞, x] et F (ek ) = Fk pour tout k = 1, ..., q.
Son graphe est celui d’une fonction linéaire par morceaux qui passe par les points (e0 , 0)
et (ek , Fk ) pour k = 1, ..., q.
10
3.1.2 Caractéristiques centrales et de dispersion
Classe Modale : classe pour laquelle l’histogramme des fréquences présente un maximum
relatif.
Médiane : q0.5 ∈ X telle que F (q0.5 ) = 0.5
Fractile d’ordre α : qα tel que F (qα ) = α.
En particulier, on définit les quartiles qui partagent la population en quatre et les percentiles
qui la partagent en cent.
Moyenne :
n q q q
1X 1X 1X X
x̄ = xi = nk x̄k ' n k mk = f k mk
n i=1 n k=1 n k=1 k=1
Ecart type : sx .
Intervalle inter-quartile : [q0.25 , q0.75 ].
On peut aussi définir une variable aléatoire à l’aide de sa fonction de répartition (qui est continue)
donnée par :
Z x
FX (x) = IP(X ≤ x) = fX (t)dt pour tout x ∈ IR et fX (x) = FX0 (x).
−∞
11
Espérance de la variable X, le nombre :
Z +∞
E(X) = xfX (x)dx = µ.
−∞
On utilisera beaucoup les propriétés suivantes de l’espérance et de la variance qui sont satisfaites
pour toutes les variables aléatoires (continues ou discrètes) :
Propriétés : Soient deux variables aléatoires X et Y et deux nombres réels a et b :
1. E(aX + b) = aE(X) + b et en particulier E(b) = b
2. E(X + Y ) = E(X) + E(Y )
3. V (aX + b) = a2 V (X) et en particulier V (b) = 0
4. si de plus X et Y sont indépendantes, V (X + Y ) = V (X) + V (Y ).
L’indépendance entre X et Y est définie mathématiquement par
Elle signifie que le résultat obtenu sur X n’a aucune incidence sur celui obtenu sur Y et vice
versa.
Loi normale (ou loi gaussienne) : la densité d’une variable aléatoire normale d’espérance
µ et de variance σ 2 a une forme de cloche symétrique autour de l’axe x = µ et de largeur
proportionnelle à σ. Elle est notée N (µ, σ 2 ). On notera sa fonction de répartition Φµ,σ et lorsque
µ = 0 et σ = 1 on parlera de la variable normale centrée et réduite et on conviendra d’écrire
Φ = Φ0,1 .
Propriété 1 : si X suit une loi normale N (µ, σ 2 ) alors (X − µ)/σ suit une loi normale N (0, 1).
Cela se traduit par :
a−µ X −µ b−µ b−µ a−µ
IP(a ≤ X ≤ b) = Φµ,σ (b) − Φµ,σ (a) = IP ≤ ≤ =Φ −Φ .
σ σ σ σ σ
Propriété 2 : si X1 suit une loi normale N (µ1 , σ12 ) et si X2 suit une loi normale N (µ2 , σ22 ) et
sont indépendantes alors aX1 + bX2 suit une loi normale N (aµ1 + bµ2 , a2 σ12 + b2 σ22 ).
Grace au résultat fondamental énoncé dans le Théorème central limite, on montre que de
nombreuses distributions peuvent être approchées par celle de la loi normale. C’est le cas, par
exemple des distributions binomiales ou de Poisson. On retiendra
12
Propriété 3 : Soient X de loi B(n, p) et Y de loi P(λ) avec λ ∈ IN∗ , alors on a les approximations
suivantes :
!
x − np
si np > 10 et n(1 − p) > 10, IP(X ≤ x) ≈ Φ p ∀x ∈ IR;
np(1 − p)
y−λ
si λ > 10, IP(Y ≤ y) ≈ Φ √ ∀y ∈ IR.
λ
Lecture de tables : la première table donne les couples (x, Φ(x)) pour un certain nombre de
valeurs de x ≥ 0. La densité de la loi normale centrée réduite étant symétrique, lorsque x ≤ 0
on utilisera que Φ(x) = 1 − Φ(−x). D’autre part, on a également Φ−1 (1 − p) = −Φ−1 (p), pour
tout p ∈ [0, 1]. La seconde table donne les couples (up , p) tels que IP(|X| > up ) = p, lorsque
X est une variable normale centrée et réduite, c’est à dire de loi N (0, 1). Les quantités u2p et
Φ−1 (1 − p) vérifient :
1 1
Φ−1 (1 − p) = u2p si 0 ≤ p ≤ ; Φ−1 (1 − p) = −u2(1−p) si ≤ p ≤ 1.
2 2
A l’aide de la loi normale sont définies d’autres lois telles que celles du Chi2, de Student ou
de Fisher-Snedecor.
Loi du Chi2 : Une variable qui suit une loi du Chi2 à ν degrés de liberté s’obtient comme la
somme de ν carrés de variables normales centrées réduites indépendantes. On la note Xν2 . Sa
densité est nulle si x ≤ 0 et sa fonction de répartition est tabulée.
Lecture de la table : on lit le couple (zν,p , p) qui satisfait IP(Zν > zν,p ) = p lorsque Zν suit
une loi du Chi2 à ν degrés de liberté, Xν2 .
p
Loi de Student : Tν = U/ V /ν avec U normale centrée réduite N (0, 1) et V indépendante de
U et de loi du Chi2 à ν degrés de libertés Xν2 . Cette densité ressemble beaucoup à celle de la
N (0, 1) surtout lorsque ν est grand. Elle est notée Tν .
Lecture de la table : pour Tν de loi de Student Tν , on lit les couples (tν,p , p) tels que
IP(|Tν | > tν,p ) = p.
13
Chapitre 4
Estimation et Intervalles de
confiance
Estimateur : un estimateur de θ, est une variable aléatoire construite à l’aide des Xi . Une
estimation de θ, notée θ̂, est l’application d’un estimateur aux données x1 , ..., xn .
14
Un même estimateur appliqué à différents jeux de données produira des estimations différentes.
P P
ex : X1 , Xi ou Xi /n sont des estimateurs de θ.
On peut construire autant d’estimateurs que l’on veut (toute fonction connue de X1 , ..., Xn )
mais ils ne sont pas tous équivalents. Une des premières propriétés que l’on souhaite vérifier est
que l’estimateur ajuste bien le paramètre d’intérêt θ.
Estimateur sans biais : Un estimateur Tn = T (X1 , ..., Xn ) sera dit sans biais pour estimer θ
si E(Tn ) = θ.
Dire que Tn est sans biais revient à vérifier qu’en moyenne il permet de retrouver assez
correctement θ. On peut également souhaiter qu’il soit de plus en plus précis lorsque n augmente,
c’est-à-dire que sa variance diminue avec n.
Estimateur convergent : Tn un estimateur sans biais de θ sera dit convergent (en moyenne
quadratique) si V (Tn ) tend vers 0 lorsque n → ∞.
L’estimation µ̂ de µ obtenue par l’application de l’estimateur X̄ aux données est x̄. Par
abus de langage, on appelera le résultat d’un estimateur sans biais estimation non biaisée du
paramètre.
Loi de l’estimateur : Si la variable X suit une loi normale N (µ, σ 2 ) alors X̄ suit une loi
normale N (µ, σ 2 /n).
15
P P
B(p). On a alors fn = xi /n, puisque xi est le nombre d’individus dans l’échantillon observé
P
qui remplissent A. Notons Fn = Xi /n la variable aléatoire associée.
Le problème d’estimation de p dans ce cas, est celui de l’estimation de la moyenne inconnue
µ = p d’une variable X de Bernoulli B(p).
Estimateur : Fn = X̄ est un estimateur sans biais et convergent de p. En effet E(Fn ) = p
et V (Fn ) = p(1 − p)/n.
Lois de l’estimateur :
– nFn suit une loi binomiale B(n,
√
p)
√ n(Fn −p)
– si np > 10 et n(1 − p) > 10, suit approximativement une loi normale N (0, 1). Ce
p(1−p)
qui se traduit par !
√
n(Fn − p)
IP p ≤t ≈ Φ(t).
p(1 − p)
√
– si np > 10 et n(1 − p) > 10, √ n(Fn −p) suit approximativement une loi normale N (0, 1).
Fn (1−Fn )
C’est-à-dire √ !
n(Fn − p)
IP p ≤t ≈ Φ(t).
Fn (1 − Fn )
Lois de l’estimateur :
– n0 nPn suit une loi binomiale B(n0 n, √
p)
n n(P −p)
– si n0 np > 10 et n0 n(1 − p) > 10, √0 n suit approximativement une loi normale
p(1−p)
N (0, 1). Ce qui se traduit par
√ !
n0 n(Pn − p)
IP p ≤t ≈ Φ(t).
p(1 − p)
√
n n(P −p)
– si n0 np > 10 et n0 n(1 − p) > 10, √ 0 n suit approximativement une loi normale
Pn (1−Pn )
N (0, 1). C’est-à-dire !
√
n0 n(Pn − p)
IP p ≤t ≈ Φ(t).
Pn (1 − Pn )
16
avec T1 = f1 (X1 , ..., Xn ) et T2 = f2 (X1 , ..., X2 ) deux fonctions connues de l’échantillon aléatoire.
Remarques :
– α étant la probabilité que l’intervalle aléatoire I(θ, α) ne contienne pas le paramètre in-
connu θ, on le choisit en général petit.
– T1 et T2 sont en fait des estimateurs de θ mais qui ne sont pas sans biais. Ils seront en
général des fonctions simples d’un estimateur sans biais de θ.
– un intervalle de confiance est aléatoire et par abus de langage on dira aussi intervalle de
confiance pour désigner l’application de l’intervalle I(θ, α) au jeu de données. La réalisation
de I(θ, α) sera notée i(θ, α). Un même intervalle I(θ, α) appliqué à différents jeux de
données produira des “fourchettes” : i(θ, α) différentes.
Construction d’un IC :
1. construire un estimateur (de préférence sans biais et convergent) de θ : T ;
2. trouver une fonction simple de T et θ, g(T, θ), dont la loi est connue (c.-à-d. elle ne dépend
pas des paramètres inconnus du modèle) ;
3. en partant de T1 ≤ θ ≤ T2 trouver une inégalité équivalente de la forme A ≤ g(T, θ) ≤ B ;
en utilisant la table de la loi de g(T, θ) ajuster A et B pour que IP(g(T, θ) ≤ A) = α/2 et
IP(g(T, θ) ≥ B) = α/2 ;
4. retrouver à partir de l’inégalité A ≤ g(T, θ) ≤ B l’inégalité équivalente T1 ≤ θ ≤ T2 .
Si la variable aléatoire qui modélise le caractère étudié n’est pas une variable normale, les
résultats précédents restent valables à condition que n soit assez grand.
" p p #
Fn (1 − Fn ) Fn (1 − Fn )
I(p, α) = Fn − √ uα , Fn + √ uα
n n
17
4.3.4 Intervalle de confiance pour p dans le cas binomial
Soit X1 , ..., Xn , un échantillon de la loi B(n0 , p) avec n0 connu, alors l’intervalle de confiance
suivant est approximativement de niveau 1 − α, si n0 np > 10 et n0 n(1 − p) > 10. C’est à dire
" p p #
Pn (1 − Pn ) Pn (1 − Pn )
I(p, α) = Pn − √ uα , Pn + √ uα
n0 n n0 n
18
Chapitre 5
Tests paramétriques
5.1 Généralités
Dans l’exemple des cafés on a : C la variable d’intérêt caractérisée par le paramètre θ =
p est une variable B(5, p). Pour répondre à la question : “est-il utile d’installer un nouveau
distributeur ?”, il faut décider entre p ≤ 2.5/5 et p > 2.5/5. En pratique cela revient au même
que de décider entre p = 2.5/5 et p > 2.5/5. De façon générale, le test H0 : θ ≤ θ0 contre
H1 : θ > θ0 sera remplacé par le test plus simple H0 : θ = θ0 contre H1 : θ > θ0 . De même
H0 : θ ≥ θ0 contre H1 : θ < θ0 sera remplacé par le test plus simple H0 : θ = θ0 contre
H1 : θ < θ0 . On pourra également être amené à traiter le cas H0 : θ = θ0 contre H1 : θ 6= θ0 .
Les deux premiers tests sont dits unilatéraux et le dernier bilatéral. On se fixe θ0 . Dans la
suite on désignera les tests par leur type défini par :
– type 1 : H0 : θ = θ0 H1 : θ > θ 0
– type 2 : H0 : θ = θ0 H1 : θ < θ 0
– type 3 : H0 : θ = θ0 H1 : θ 6= θ0
Faire un test, c’est construire une règle de décision qui, à l’échantillon observé, associe
l’une ou l’autre des conclusions : on rejette H0 (c.-à-d. on accepte H1 ) ou on ne rejette pas H0
(c.-à-d. on refuse H1 ). La règle de décision sera définie de la façon suivante :
– si θ̂ ∈ W , on refuse H0 (c.-à-d. on accepte H1 )
– si θ̂ ∈
/ W , on refuse H1 (c.-à-d. on accepte H0 )
On notera dans la suite T l’estimateur de θ qui appliqué aux données (x1 , ..., xn ) fournit
l’estimation θ̂.
19
Risque de première espèce Risque de seconde espèce
α = IP(refus de H0 |H0 vraie) β = IP(refus de H1 |H1 vraie)
= IPH0 (T ∈ W ) = IPH1 (T ∈
/ W)
Définition : On dira que faire un test de niveau α (ou tester au seuil α), 0 ≤ α ≤ 1, c’est
construire une région de rejet de H0 , notée Wα telle que α = IPH0 (T ∈ Wα ).
On retiendra donc que :
Propriété : Pour les trois tests (1, 2 et 3) qui nous intéressent, la somme des risques de
première et seconde espèce vaut 1.
5.1.2 Le choix de H0 et H1
Si on veut limiter le risque de refuser H0 quand elle est vraie, on se donne α petit. Ceci aura
pour conséquence de prendre plus de risque de refuser H1 à tort, puisque il vaut β = 1 − α. Cela
aura également pour conséquence qu’en cas d’acceptation de H1 on prend un risque faible de se
tromper puisque qu’il vaut α. A l’inverse, si c’est H0 que l’on souhaite valider, en prenant peu
de risque de l’accepter à tort (c.-à-d. on limite le risque β = 1 − α de refuser H1 à tort) alors on
choisit α grand. En pratique, on prendra comme première règle de choix des hypothèses :
règle 1 : mettre sous H1 l’hypothèse que l’on souhaite valider, sous H0 celle que l’on
ne veut pas refuser à tort trop souvent et prendre α petit.
Par exemple, imaginons qu’au vu de données radar on souhaite choisir entre “un missile
se dirige vers nous” et “aucun missile ne se dirige vers nous”. Il semble évident dans ce cas,
qu’il est beaucoup plus grave de conclure à tort “aucun missile ne se dirige vers nous” que de
conclure à tort “un missile se dirige vers nous”. L’hypothèse que l’on veut voir refusée le moins
souvent à tort est dans ce cas “un missile se dirige vers nous” et celle que l’on voudrait voir
validée est “aucun missile ne se dirige vers nous”. L’application de la règle ci-dessus conduit à po-
ser : H0 : “un missile se dirige vers nous”, H1 : “aucun missile ne se dirige vers nous” et α petit.
Autre exemple : on étudie un nouveau vaccin contre la grippe et on souhaite vérifier qu’il
est plus efficace que le vaccin habituel dont les effets secondaires sont bien connus et qui de plus
est économique. On souhaite montrer, statistiquement, que ce nouveau traitement est meilleur
que le vaccin habituel mais en limitant le risque de le juger meilleur à tort, car ce nouveau
vaccin est cher et l’on en connaı̂t pas encore les effets secondaires. L’application de la règle nous
conduit alors à poser : H0 : “le nouveau vaccin n’est pas meilleur que le vaccin habituel”, H1 :
“le nouveau vaccin est meilleur que le vaccin habituel” et α petit.
La règle 1 doit cependant être appliquée sous la contrainte que l’hypothèse à valider, placée
sous H1 , soit de la forme H1 : θ > θ0 ; H1 : θ < θ0 ou H1 : θ 6= θ0 . Si l’hypothèse que l’on
souhaite vérifier est de la forme θ = θ0 alors on ne peut utiliser aucun des trois types de tests
(1,2 et 3) avec α petit. Dans ce cas pour valider une hypothèse formulée comme θ = θ0 on
appliquera la règle suivante :
20
Imaginons qu’un nouveau procédé de fabrication d’un traitement ne soit acceptable que si le
dosage moyen décrit par un paramètre θ inconnu est égal à une valeur donnée θ0 . On souhaite
dans ce cas valider statistiquement θ = θ0 avec un faible risque d’erreur. On choisit alors H0 :
θ = θ0 , H1 : θ 6= θ0 et α grand.
α = IPH0 (T ∈ Wα ) = IPθ=θ0 (T ∈ Wα ).
Pour cela on aura besoin de connaı̂tre la loi de T (ou plutôt celle de la fonction g(T, θ)
utilisée dans les constructions d’IC) lorsque l’hypothèse H0 est vraie.
4. Décider :
– si θ̂, réalisation de T , est dans Wα , conclure H1 avec un risque de se tromper de α ;
– si θ̂, réalisation de T , n’est pas dans Wα , conclure H0 avec un risque de se tromper de
β = 1 − α.
Nous allons décliner cette méthodologie dans les trois cas qui nous intéressent : tests sur la
moyenne et la variance d’une population dans un modèle gaussien et test sur une proportion.
n σ 2 connueo n σ 2 inconnueo
0
Wα1 = X̄ > µ0 + √σn u2α 0≤α≤ 1
2 Wα1 = X̄ > µ0 + √Sn tn−1,2α 0≤α≤ 1
2
n o n o
S0
Wα2 = X̄ < µ0 − √σn u2α 0≤α≤ 1
2 Wα2 = X̄ < µ0 − √ t
n n−1,2α
0≤α≤ 1
2
3
Wα = Wα3 =
n o n o
S0 S0
X̄ < µ0 − √n uα ou X̄ > µ0 + √σn uα
σ
X̄ < µ0 − √ t ou X̄ > µ0 + √ t
n o n n n−1,α o n n−1,α
√σ uα S0
= |X̄ − µ0 | > n
= |X̄ − µ0 | > √ t
n n−1,α
21
µ connue µninconnue o
z z
Wα1 = V 2 > σ02 n,α
n Wα1 = S 02 > σ02 n−1,α
n−1
n o
zn,1−α zn−1,1−α
Wα2 = V 2 < σ02 n Wα2 = S 02 < σ02 n−1
n zn,α/2 z
o n zn−1,α/2 z
o
Wα3 = V 2 > σ02 n ou V < σ02 n,1−α/2
2
n Wα3 = S 02 > σ02 n−1 ou S < σ02 n−1,1−α/2
02
n−1
q
p0 (1−p0 ) 1
Wα1 = Pn > p0 + n0 n u2α 0≤α≤ 2
q
p0 (1−p0 ) 1
Wα2 = Pn < p0 + n0 n u2α 0≤α≤ 2
q q q
p0 (1−p0 ) p0 (1−p0 ) p0 (1−p0 )
Wα3 = Pn < p0 − n 0 n uα ou Pn > p0 + n0 n uα = |Pn − p0 | > n0 n uα
5.5 p-valeur
Revenons au problème du distributeur de café :
Modèle : C1 , ..., Cn échantillon de la variable C de loi B(5, p). Pour les données observées
c1 , ..., c20 on a p̂ = c̄/5 = 0.57. On sait de plus que, si 5p > 2.5, un distributeur supplémentaire
sera installé dans le hall. On traduit alors mathématiquement “il faut un nouveau distributeur”
par H1 : p > 2.5/5 et “pas besoin de distributeur” par H0 : p = 2.5/5. En appliquant le test de
type 1 pour une proportion avec des niveaux α = 7%,p..., 12% on obtient les régions de rejets,
plus précisement, les bords donnés par Cα = 0.5 + u2α 0.5 ∗ 0.5/100 et les décisions suivantes :
Il est clair d’après ce tableau que la décision de rejeter H0 (ou H1 ) dépend du risque de se
tromper que l’on est prêt à prendre. En effet si α ≤ 8% on conserve H0 et ce au risque de se
tromper de 1 − α (ici 1 − α ≥ 92%). Par contre si α ≥ 9% on rejette H0 et on accepte H1 avec
un risque de se tromper de α ≥ 9%. Il y a donc une valeur α∗ comprise entre 8% et 9% au delà
de laquelle le jeu de données conduit à rejeter H0 dans un test de niveau α.
Cette valeur α∗ est une fonction de n et du jeu de données (au travers de θ̂). C’est la valeur
renvoyée par un logiciel de statistique, lorsque l’on a donné en entrée la forme de l’alternative,
la cible θ0 et les observations x1 , ..., xn .
Définition : La p-valeur d’un test de type j (j = 1, 2, 3) est la valeur la plus grande du
risque de première espèce, pour lequel on ne rejette pas H0 . Autrement dit la p-valeur d’un test,
est la quantité α∗ qui satisfait :
– si α ≤ α∗ au niveau α on ne rejette pas H0 .
– si α > α∗ au niveau α on rejette H0 .
Remarques :
- En pratique, on calcule cette p-valeur comme le α∗ pour lequel Cα∗ = θ̂.
- Lorsqu’une p-valeur est proche de 0, cela signifie que l’on accepte H1 presque sans risque
de se tromper. La proximité à 0 de la p-valeur indique donc un grand degré de fiabilité de H1 .
- Au contraire une p-valeur proche de 1 indique un grand degré de fiabilité de H0 .
22
p
Dans l’exemple ci-dessus α∗ satisfait 0.5 + u2α∗ 0.5 ∗ 0.5/100 = 0.57 soit u2α∗ = 1.4 =
Φ (1 − α∗ ), d’où α∗ = 0.0808.
−1
23
Chapitre 6
Décisions :
¯ 0 /√n) > tn−1,2α , alors on accepte H1 : µD > 0 avec un risque de se tromper
– si tcalc = d/(s D
de α.
¯ 0 /√n) > tn−1,α , alors on accepte H1 : µD 6= 0 avec un risque de se
– si |tcalc | = |d|/(s D
tromper de α.
Exemple : X le poids à 15 ans et Y le poids à 20 ans....
24
6.2 Echantillons indépendants
6.2.1 Comparaisons de moyennes
Modèle : Soient X1 et X2 deux variables aléatoires indépendantes et de loi respectives
N (µ1 , σ12 ) et N (µ2 , σ22 ).
Données : on a observé un échantillon pour X1 de taille n1 et un échantillon pour X2 de taille
n2 . On notera x̄1 , x̄2 , s21 et s22 les moyennes et variances de ces deux échantillons de données.
En général, X1 et X2 décrivent un même caractère sur deux populations différentes P1 et
P2 .
Par exemple, sur les données de poids on observe d’une part les poids d’une sous-population
prélevée dans la population des filles et d’autre part les poids d’une seconde sous-population
prélevée dans la population des garçons. Ainsi µ1 (resp. µ2 ) est le poids moyen sur la population
P1 (resp. P2 ) et σ12 (resp. σ22 ) la variance du poids de la population P1 (resp. P2 ). Dans ce cas, si
on veut montrer que le poids dépend du sexe, on choisira H1 : µ1 − µ2 6= 0 et si on veut montrer
que le poids d’une femme est en moyenne moins important que celui d’un homme on prendra :
H1 : µ1 − µ2 < 0.
On veut donc tester H0 : µ1 − µ2 = 0 contre H1 : µ1 − µ2 > 0 (ou µ1 − µ2 < 0), ou
H0 : µ1 − µ2 = 0 contre H1 : µ1 − µ2 6= 0.
Selon les tailles des échantillons et les informations dont on dispose sur les paramètres σ12 et
2
σ2 , on utilisera des tests différents.
1. Echantillons de petites tailles : n1 < 100 et n2 < 100
Dans ce cas, on ne sait proposer un test que dans les situations où σ12 et σ22 sont connues
ou dans celle où elles sont inconnues mais supposées égales.
Les variances de la population σ12 et σ22 sont connues
Comme sous l’hypothèse H0 , la variable U = qX̄σ12−X̄σ22 suit une loi N (0, 1), les régions de
1+ 2
n1 n2
rejet des tests de type 1 et 2 sont données par :
1
Wα1 = {U > u2α } α ≤ ; Wα3 = {|U | > uα }.
2
Décisions :
– si ucalc = qx̄σ12−x̄2σ2 > u2α , alors on accepte H1 : µ1 − µ2 > 0 avec un risque de se tromper
1+ 2
n1 n2
de α ;
– si |ucalc | > uα , alors on accepte H1 : µ1 − µ2 6= 0 avec un risque de se tromper de α.
S’il arrive que σ12 et σ22 soient connues, cela est cependant peu fréquent, et dans le cas où
σ12 et σ22 sont inconnues, on ne sait traiter le problème que si elles sont égales.
Les variances de la population σ12 et σ22 sont inconnues mais supposées égales
La variable U précédente n’est plus utilisable pour effectuer le test puisqu’elle dépend
d’inconnues. Elle sera remplacée par la variable T qui est l’analogue de U avec σ12 et σ22
remplacées par leur estimateur commun Σ :
Sous l’hypothèse H0 et supposant que σ12 = σ22 = σ 2 , la variable (n1 + n2 − 2)Σ2 /σ 2 suit
une loi du Chi2 à n1 + n2 − 2 degrés de liberté : Xn21 +n2 −2 . On en déduit que, sous les
mêmes hypothèses, T suit une loi de Student à n1 + n2 − 2 degrés de liberté. Les régions
de rejet des tests de type 1 et 2 sont données par :
1
Wα1 = {T > tn1 +n2 −2,2α } α ≤ et Wα3 = {|T | > tn1 +n2 −2,α }.
2
25
L’estimation σˆ2 de σ 2 est le résultat de l’application de Σ2 aux données.
Décisions :
– si tcalc = qx̄1ˆ2−x̄2ˆ2 > tn1 +n2 −2,2α , alors on accepte H1 : µ1 − µ2 > 0 avec un risque de se
σ σ
n1
+n
2
tromper de α.
– si |tcalc | > tn1 +n2 −2,α , alors on accepte H1 : µ1 − µ2 6= 0 avec un risque de se tromper de
α.
2. Les échantillons sont de grandes tailles : n1 ≥ 100 et n2 ≥ 100
Dans ce cas, que les variances σ12 et σ22 soient égales ou non, les régions de rejet de H0 :
µ1 = µ2 contre H1 : µ1 > µ2 ou contre H1 : µ1 6= µ2 sont données par :
X̄1 − X̄2
Wα1 = {U > u2α } et Wα3 = {|U | > uα } avec U=r ;
S102 S202
n1 + n2
car, pour de grands effectifs, la variable U suit approximativement une loi normale centrée
réduite. Les tests proposés sont de ce fait approximativement de niveau α. On peut remar-
quer que les échantillons étant de grandes tailles, dans U , S102 et S202 peuvent être remplacés
par S12 et S22 .
Pour construire ces tests, on utilisera la variable aléatoire F , obtenue comme le rapport des
estimateurs de σ12 et σ22 :
n1 S12 0
n1 −1 S12
F = = 0 .
n2 S22 S22
n2 −1
n S2 n S2
Rappelons que σ1 2 1 et σ2 2 1 suivent respectivement des lois Xn21 −1 et Xn22 −1 . Ainsi, sous
1 2
l’hypothèse H0 , la variable F est égale au rapport de deux Chi2 divisés par leur degrés de
26
libertés respectifs. Sous H0 , la loi de F est donc celle d’une variable de Fisher-Snedecor à
(n1 − 1, n2 − 1) degrés de liberté Fn1 −1,n2 −1 . Remarquons également que 1/F suit aussi une loi
de Fisher-Snedecor de degrés (n2 − 1, n1 − 1).
Les régions de rejet suivantes permettent d’effectuer les trois tests au niveau α :
Wα1 = {F > fn1 −1,n2 −1,α } avec IP(Fn1 −1,n2 −1 > fn1 −1,n2 −1,α ) = α,
Wα2 = {F < 1/fn2 −1,n1 −1,α } avec IP(Fn2 −1,n1 −1 > fn2 −1,n1 −1,α ) = α et
Décisions :
0 0
– si fcalc = s12 /s22 > fn1 −1,n2 −1,α , alors on accepte H1 : σ12 > σ22 avec un risque de se tromper
de α.
0 0
– si fcalc = s12 /s22 < 1/fn2 −1,n1 −1,α , alors on accepte H1 : σ12 < σ22 avec un risque de se
tromper de α.
0 0 0 0
– si fcalc = s12 /s22 > fn1 −1,n2 −1,α/2 ou si fcalc = s12 /s22 < 1/fn2 −1,n1 −1,α/2 alors on accepte
H1 : σ12 6= σ22 avec un risque de se tromper de α.
0 0
– si 1/fn2 −1,n1 −1,α/2 ≤ s12 /s22 ≤ fn1 −1,n2 −1,α/2 , alors on accepte H0 : σ12 = σ22 avec un risque
de se tromper de 1 − α.
Remarque : Lorsque l’ on souhaite vérifier l’égalité des variances afin de le poser en hypothèse
pour effectuer une comparaison de moyenne à l’aide de petits échantillons, on se donne un niveau
α grand. En effet, rappelons que lorsque la conclusion d’un test est d’accepter H0 , elle est donnée
avec un risque d’erreur de 1 − α. Autrement dit, on jugera raisonnable d’accepter l’égalité des
variances si la p−valeur du test est proche de 1.
27
Chapitre 7
Tests du Chi2
A l’aide des tests proposés dans le chapitre précédent, nous avons pu répondre à la question :
“le poids moyen d’une fille est-il inférieur à celui d’un garçon ?”. Nous avons conclu, à l’aide des
données observées, qu’avec un risque d’erreur de α tel que α > α∗ la réponse était oui. Cela
suffit pour dire que la variable poids d’une fille modélisée par X1 n’a pas la même distribution
que la variable poids d’un garçon modélisée par X2 . Par conséquent on conclut que le poids
est un caractère qui dépend du sexe pour tout risque > α∗ . Par contre, si la réponse avait été
“le poids moyen d’une fille est le même que celui d’un garçon”, nous n’aurions pu directement
conclure à l’indépendance entre le poids et le sexe. En effet, il faudrait pour cela comparer la
distribution observée du poids d’une fille à celle du poids d’un garçon. Si ces deux distributions
observées, sont proches l’une de l’autre alors on pourra conclure à l’indépendance entre le poids
et le sexe. Un des tests permettant de répondre, statistiquement, à cette question s’appelle test
d’indépendance du Chi2.
D’autre part, dans tous les tests rencontrés jusqu’ici, une hypothèse sur la loi de probabilité de
la variable modélisant le caractère étudié est posée. En effet, en général on a supposé les variables
de lois normales. De même que l’hypothèse d’égalité des variances peut être statistiquement
vérifiée, celle posée sur la distribution théorique de la variable étudiée peut aussi être validée
à l’aide d’un test. Nous étudierons ici un test construit à l’aide d’une variable du Chi2, appelé
test d’adéquation du Chi2. Nous commencerons par l’étude du test d’adéquation, qui a déjà été
rencontré lorsque nous avons calculé le d2 sur les données du “café” : c1 , ..., c20 .
noterons pk = IP(X = mk ).
28
Nous allons construire un test de
H0 : δ 2 = 0 contre H1 : δ2 > 0.
Sous l’hypothèse H0 , et si de plus np∗k ≥ 5, alors D 2 suit une loi du Chi2 à q − 1 degrés de
2 . La région de rejet du test de niveau approximatif α est donc donnée par :
liberté Xq−1
Wα = {D 2 > zq−1,α }.
L’application de D 2 aux données fournit une estimation du paramètre inconnu δˆ2 et elle est
notée d2 (c.-à d. δˆ2 = d2 ).
Décision :
– si d2 > zq−1,α on refuse l’adéquation à la distribution F ∗ avec un risque d’erreur de α ;
– sinon on accepte l’adéquation avec un risque d’erreur de 1 − α.
Le test d’adéquation donne un exemple de situation où c’est l’hypothèse H0 que l’on souhaite
accepter. Par conséquent si l’on souhaite valider l’adéquation avec peu de risque de se tromper,
on choisira α proche de 1. Si aucun risque d’erreur n’est indiqué pour faire le test, on jugera
l’adéquation satisfaisante si la p-valeur, α∗ de ce test est proche de 1. La p-valeur satisfait
d2 = zq−1,α∗ .
Exemple des “cafés” :
On souhaite répondre à la question : “le nombre hebdomadaire de cafés consommés par un
étudiant de l’amphi suit-il une répartition uniforme ?”. Nous avons déjà calculé le d2 dans le
chapitre 1 et obtenu δˆ2 = d2 = 11.2, d’où α∗ = 4.85%. Par exemple, comme pour α = 5%
on refuse H1 on conclut avec un risque d’erreur de 5% : il n’y a pas adéquation des données à
la distribution uniforme. Nous avions également comparé la distribution observée avec une loi
binomiale B(5, 0.6) et obtenu dans ce cas d2 = 10.81. Si c’est un peu mieux que l’adéquation
précédente, on obtient cependant une p-valeur de α∗ = 5.8%. On se propose maintenant de
tester l’adéquation à une loi binomiale B(5, p) mais où l’on ne fixe pas, p à priori. Dans ce cas
on estime p, à partir des données et on obtient p̂ = 0.57 (voir chap. 4). On obtient le tableau
suivant :
X 0 1 2 3 4 5
eff. obs. 0 5 2 5 7 1 d2
prob. th. avec B(5, p̂) 1.47% 9.74% 25.83% 34.24% 2.27% 6.02%
eff. th. avec B(5, p̂) 0.29 1.95 5.17 6.85 4.54 1.2 8.88
29
Dans ce cas la variable D 2 qui fournit l’estimation δˆ2 = d2 suit une loi du Chi2 à 4 degrés
de libertés (au lieu de 5 pour les deux lois précédemment testées) car il a fallu estimer un
paramètre pour calculer les effectifs théoriques. Ainsi on obtient dans ce cas une p-valeur α∗
qui satisfait 8.88 = z4,α∗ soit α∗ = 8.15%. L’adéquation à la B(5, 0.57) est un peu meilleure
que celle aux deux autres distributions envisagées. Elle reste cependant peu satisfaisante car si
on accepte l’adéquation à la B(5, 0.57) on le fait pour tout risque d’erreur supérieur à 81, 85% !
Objectivement, il faudrait donc chercher une autre loi qui ajuste mieux les données. Remarquons
qu’ici, l’échantillon est de trop petite taille pour que les conditions np∗k ≥ 5 soient vérifiées ce
qui nous interdit en principe d’appliquer le test d’adéquation.
Souvent, on cherche à valider l’adéquation à une distribution partiellement connue. Par
exemple, “les observations sont-elles issues d’une loi gaussienne ou binomiale ?” sans en préciser
les paramètres.
Cas de F ∗ partiellement donnée :
Lorsque la loi F ∗ est connue à r paramètres près (dans l’exemple précédent un paramètre
est estimé) ces paramètres sont estimés et si q ≥ r + 2, la variable D 2 suit alors une loi du Chi2
à q − 1 − r degrés de libertés et la région de rejet du test d’ádéquation de niveau α est donnée
par :
Wα = {D 2 > zq−1−r,α }.
L’ effectif observé nk est le nombre d’éléments de l’échantillon observé, x1 , ..., xn , qui sont
tombés dans la classe k.
Exemple du “poids d’une fille” :
Dans le chapitre 6 pour comparer le poids moyen d’une fille (à 20 ans) à celui d’un garçon
(à 20 ans), nous supposons que la variable poids d’une fille X1 a une distribution normale (idem
pour le poids d’un garçon). Sur l’échantillon de taille n1 = 14 nous avons observé les poids
suivants : 70, 54, 62, ..., 64, 59. Ces valeurs sont toutes dans l’intervalle [45, 75] que l’on peut, par
exemple, découper en quatre classes : [45, 55.5], ]55.5, 60.5], ]60.5, 65.5] et ]65.5, 75]. Nous voulons
tester l’adéquation de la distribution observée à une loi normale de moyenne µ et de variance
σ 2 inconnues. On a déja vu que ce jeu de données fournit les estimations µ̂ = 60.7 et σˆ2 = 22.68
et on a
ek − µ̂ ek−1 − µ̂
p∗k = Φµ̂,σ̂ (ek ) − Φµ̂,σ̂ (ek−1 ) = Φ −Φ .
σ̂ σ̂
On obtient le tableau suivant :
[45, 75] [45,55.5] ]55.5,60.5] ]60.5,65.5] ]65.5,75]
eff. obs. 2 5 5 2 d2
prob. th. avec N (60.7, 22.68) 13.7% 34.6% 36% 15.7%
eff. th. avec N (60.7, 22.68) 1.92. 4.84 5.04 2.2 2.7 · 10−2
∗ −2
La p-valeur, α qui satisfait z1,α∗ = 2.7 · 10 vaut 87%. Le résultat du test d’adéquation
est ici très satisfaisant puisque l’on accepte l’adéquation à la N (60.7, 22.68) pour tout risque
d’erreur supérieur à 13%.
30
7.2 Test d’indépendance du Chi2
Comme dans la partie précédente, nous développons ce test en détails dans le cas de données
discrètes ou quantitatives. L’extension à des variables aléatoires continues en découlera simple-
ment moyennant les mêmes modifications que dans le test d’adéquation.
N.k indique le nombre de couples dans l’échantillon aléatoire pour lesquels X prend la valeur
mk et Nk. le nombre de couples dans l’échantillon aléatoire pour lesquels Y prend la valeur m̃k .
Données : (x1 , y1 ), ..., (xn , yn ) qui représentent les réalisations de (X1 , Y1 ), ..., (Xn , Yn ) sont en
général remplacées par le tableau à double entrées des effectifs nij réalisations des Nij . Ce tableau
est appelé tableau de contingence et a la forme suivante :
H0 : δ 2 = 0 contre H1 : δ2 > 0.
Comme Nij /n (resp. Ni. /n, N.j /n) est un bon estimateur de IP(X = mi , Y = m̃j ) (resp.
IP(X = mi ), IP(Y = m̃j )), on utilisera l’estimateur de δ2 suivant :
2
Ni. N.j
X Nij − n
D2 = Ni. N.j
.
i,j n
31
Sous l’hypothèse H0 et si p ≥ 2 et q ≥ 2, D 2 suit une loi du Chi2 à (p − 1)(q − 1) degrés de
2
liberté X(p−1)(q−1) . La région de rejet du test de niveau approximatif α est donc donnée par :
Wα = {D 2 > z(p−1)(q−1),α }.
On obtient δˆ2 = d2 = 12.86 et α∗ = 0.16%. On refuse donc H0 pour tout risque d’erreur
supérieur à 0.16%. Autrement dit on conclut que le poids dépend bien sur du sexe pour tout
risque d’erreur supérieur à 0.16%.
32
Chapitre 8
yi = axi + b + di , ∀i = 1, . . . , n.
Ici di représente l’ écart entre yi et son approximation linéaire axi + b. Les paramètres a et b
sont des quantités inconnues que l’on cherche à estimer.
La variable Y est la variable expliquée (endogène) alors que X est la variable explicative
(exogène).
33
8.1.1 Droite des moindres carrés ou droite de régression.
On cherche à trouver une droite d’équation y = ax + b qui soit la plus proche possible du
nuage de points. La droite des moindres carrées minimise le critère suivant :
n n
1X 1X
f (a, b) = (yi − axi − b)2 = d2 .
n i=1 n i=1 i
On cherche donc à minimiser la moyenne des carrés des erreurs. Il s’agit de trouver le minimum
d’un polynôme de second degré en les variables a et b. L’extremum est atteint au point qui
annule les deux dérivées partielles.
∂f
(a, b) = 2x2 a + 2xb − 2xy = 0
∂a
∂f
(a, b) = 2b + 2xa − 2y = 0.
∂b
On déduit la droite des moindres carrés, de pente â et d’ordonnée à l’origine b̂, en cherchant le
couple (â, b̂) solution du système précédent et on obtient :
xy − x · y cx,y
â = 2
= 2
2
x −x sx
b
b = y−a bx
En général, les logiciels fournissent aussi le coefficient de détermination défini comme le carré
2 . r 2 représente également la part de variance
du coefficient de corrélation linéaire et noté rx,y x,y
expliquée par la régression linéaire de y sur x.
Cependant la proximité du coefficient de corrélation linéaire à 1 ne suffit pas à justifier le
modèle proposé. Nous verrons dans l’approche inductive comment le valider complètement.
34
8.2.2 Propriétés et lois des estimateurs.
On peut montrer que A et B sont des estimateurs sans biais de a et b et qu’ils vérifient :
σ2 σ 2 (s2x + x2 ) σ2 x
V(A) = V(B) = et cov(A, B) = − .
ns2x ns2x n s2x
Pour x fixé, la loi de Y est par hypothèse N (ax + b, σ 2 ). On en déduit les lois des estimateurs
A et B : ! !
σ2 σ 2 (s2x + x2 )
A → N a; 2 B → N b; .
nsx ns2x
Comme σ 2 est en général inconnu, ces lois ne sont pas utilisables directement pour proposer
des intervalles de confiance ou des tests sur les paramètres inconnus a et b. On utilisera donc
l’ estimation σ̂ 2 (à la place du paramètre inconnu σ 2 ) qui est défini comme la réalisation de
l’estimateur : n n
1 X 1 X
Σ2 = (Yi − Ŷi )2 = ε̂i .
n − 2 i=1 n − 2 i=1
A−a B−b Σ2
TA (a) = p → Tn−2 TB (b) = q p → Tn−2 , (n − 2) → χ2n−2 .
Σ/( ns2x ) Σ s2x + x2 / ns2x σ2
" #
Σ Σ
I(a; α) = A − tn−2,α p 2 ; A + tn−2,α p 2
nsx nsx
q q
Σ s2x + x2 Σ s2x + x2
I(b; α) = B − tn−2,α √ ; B + tn−2,α √
sx n sx n
" #
2 (n − 2)Σ2 (n − 2)Σ2
I(σ ; α) = ; .
zn−2,α/2 zn−2,1−α/2
Les valeurs de tn,α et zn,α sont respectivement les valeurs lues sur les tables de Student et
du χ2 à n degrés de liberté au risque α.
8.2.4 Tests
Test de pertinence de la régression
L’idée est de vérifier que le coefficient a de la régression n’est pas nul en effectuant un test.
On posera donc : H0 : a = 0 contre H1 : a 6= 0.
35
On utilisera TA (0) pour définir la région de rejet de ce test. Comme sous l’hypothèse H0 ,
TA (0) = pA suit une loi de Student à n − 2 degrés de liberté la region de rejet, au seuil
Σ/( ns2x )
α, est donnée par ( )
A
Wα = p > tn−2,α .
Σ/( ns2x )
Décision :
√
si |âsx n/σ̂| > tn−2,α , on rejette H0 (on décide H1 ), donc au seuil α, on conserve a 6= 0. On
conclut que la régression est pertinente, avec un risque d’erreur de α.
√
si |âsx n/σ̂| < tn−2,α , on accepte H0 donc a = 0. On conclut que la régression n’est pas
pertinente avec un risque de 1 − α.
Test de a = a0
Plus généralement, pour tester : H0 : a = a0 contre H1 : a 6= a0 , on utilise encore TA (a0 ),
mais dans ce cas sous l’hypothèse H0 , TA (a0 ) = A p − a0 suit une loi de Student à n − 2 degrés
Σ/( ns2x )
de liberté et la region de rejet du test, au seuil α est donnée par
( )
A−a
0
Wα = p > tn−2,α .
Σ/( ns2x )
Test de b = b0
Pour tester H0 : b = b0 contre H1 : b 6= b0 , en utilisant TB (b0 ) et sa loi sous H0 , on obtient
la région de rejet suivante, au seuil α :
B − b
0
Wα = q > tn−2,α .
Σ (s2x + x2 )/ns2x
Remarque : le cas b0 = 0 permet de tester si la droite y = ax + b passe ou non par l’origine.
ε̂i
ε̂Si = s → Tn−2 .
√Σ (x − x)2
n−1− i 2
n sx
Le graphe des résidus s’obtient en traçant le nuage de points de coordonnées (xi , ε̂Si )i , dans
l’ordre des xi croissants.
Si l’hypothèse indiquant que les écarts εi sont centrés est verifiée, alors tous les points de ce
nuage doivent etre répartis de part et d’autre de l’axe des abscisses.
Si l’hypothèse indiquant que la variance de εi ne dépend pas de x est vérifiée, cette répartition
doit être homogène (on ne doit pas, par ex. constater des résidus qui augmenteraient avec x).
36
Si l’hypothèse d’indépendance est vérifiée, cette répartition ne doit mettre en évidence aucune
structure.
Si l’hypothèse de normalité des écarts εi est vérifiée, 95% des points du nuage doivent ce
trouver entre les deux droites horizontales passant respectivement par les ordonnées tn−2,5% et
−tn−2,5% .
Si l’un de ces points n’est pas vérifié, le modèle posé n’est pas valable et ne peut être utilisé
pour faire de la prévision.
8.2.6 Prévision.
Lorsque le modèle est validé, il est alors possible de l’utiliser pour faire de la prévision.
Soit x0 la valeur de la variable x sur un nouvel individu. Il est naturel de donner ŷ0 comme
valeur prévue de la variable Y0 , où ŷ0 = âx0 + b̂. La valeur inconnue (et aléatoire) Y0 vérifie :
Y0 = ax0 + b + ε0 avec ε0 → N (0, σ 2 ). On vérifie alors
que Ŷ0 = Ax0 + B est un estimateur sans
σ 2 (x0 − x)2
biais de ax0 + b et que Var(Ŷ0 ) = n 1 + . On montre également (Yˆ0 et Y0 étant des
s2x
σ 2 (x0 − x)2
variables indépendantes) que Var(Ŷ0 − Y0 ) = n n + 1 + .
s2x
On en déduit un intervalle de confiance pour Y0 , dit intervalle de prévision, en utilisant
le fait que
Y0 − Ŷ0
s → Tn−2 .
(x − x)2
√Σ n+1+ 0
n s2x
Et l’intervalle pour Y0 , au niveau de confiance 1 − α, est :
s s
Σ (x0 − x)2 Σ (x0 − x)2
I(Y0 ; α) = Ŷ0 − tn−2,α √ n+1+ 2 ; Ŷ0 + tn−2,α √ n+1+ .
n sx n s2x
Si on cherche un intervalle de confiance pour la valeur moyenne attendue E(Y0 ) = ax0 +b,
on utilise que :
Y0 − (ax0 + b)
s → Tn−2 .
(x − x)2
√Σ 1+ 0
n s2x
On obtient ainsi, l’intervalle pour ax0 + b, au niveau de confiance 1 − α :
s s
Σ (x0 − x)2 Σ (x0 − x)2
I(ax0 + b; α) = Ŷ0 − tn−2,α √ 1+ 2 ; Ŷ0 + tn−2,α √ 1+ .
n sx n s2x
37