Cours Stat230

Notes de Cours : STATISTIQUES
Frédérique Leblanc
Christine Kazantsev
http ://www-ljk.imag.fr/membres/Frederique.Leblanc/
27 octobre 2009
1
Chapitre 1
Introduction
On souhaite étudier un caractère X sur une population P. Par exemple, le sexe, le nombre
de jours par semaine où sont consommés au moins quatre fruits ou légumes, le poids ou encore
la taille d’un étudiant de l’amphi. En général, on ne peut pas observer ce caractère sur tous les
individus d’une grande population, mais seulement sur une sous-population de P de taille n. On
notera alors :
sous-population : {i1 , ..., ij , ..., in } un ensemble de n individus choisis au hasard dans P.

échantillon de données : x1 , ..., xj , ..., xn les n valeurs observées du caractère X sur les
individus de la sous-population.
Deux problèmes se posent alors naturellement :

1. Quelles informations sur le caratère X, peut-on tirer de l’échantillon ?
2. Quelle prévision pourrait on faire sur un individu non observé de P, à partir des données
observées x1 , ..., xj , ..., xn ?
Pour répondre à ces questions on utilisera les outils suivants :
1. Statistiques descriptives : résumés graphiques ou numériques de l’échantillon de données.
2. Modélisation : le caractère X d’un individu choisi au hasard dans P est aléatoire (puisqu’il
dépend de l’individu choisi). Il sera décrit par l’ensemble de ses valeurs possibles que l’on
notera X et par la probabilité d’obtenir l’une ou l’autre des valeurs de X . Modéliser le
caractère d’intérêt revient à se donner l’ensemble X et la loi de probabilité associée IP. Ce
qui en d’autres termes revient à supposer que X est une variable aléatoire de distribution
(ou loi de probabilité) IP sur X . Si cette distribution est connue, on peut prévoir (avec un
certain risque d’erreur) la valeur de X pour n’importe quel individu tiré au hasard dans
P, à l’aide du calcul des probabilités.
3. Inférence statistique : Si on ne connaı̂t pas IP, on supposera que IP dépend d’un paramètre
inconnu θ. On estimera alors θ à l’aide de x1 , ..., xj , ..., xn , afin de pouvoir ensuite prévoir
X pour tout individu de P. On pourra aussi décider, au vu de l’échantillon observé, que le
paramètre inconnu θ dépasse (ou non) un certain seuil, en contrôlant le risque de donner
une conclusion erronée. Dans tous les cas, les décisions seront prises au vu de l’échantillon
observé, c’est-à-dire à partir d’une information partielle sur P. On risque donc de prendre
une mauvaise décision, si par exemple l’échantillon représente mal la population totale. Les
méthodes de décision seront donc développées de sorte que l’on puisse contrôler le risque
de donner une mauvaise conclusion concernant P, en utilisant l’échantillon observé.
2
Selon la forme de l’ensemble X , la variable X aura trois “types” différents. On dira que X
est une
– variable qualitative lorsque X est un ensemble fini de mots ou codes (par ex. X =
{Femme, Homme} ou X = {1, 0}). Dans ce cas les éléments de X ne peuvent pas être
ordonnés.
– variable quantitative discrète lorsque X est une suite finie ou infinie d’éléments de IN
(par ex X = {0, 1, ..., 5} ou X = IN).
– variable quantitative continue lorsque X est un intervalle de IR (par ex X = IR ou
X = [120, 210]).
La description de données qualitatives ou quantitatives discrètes et leurs modélisations diffèrent
de celles de données quantitatives continues. Les premières seront abordées dans le chapitre 2
et les suivantes dans le chapitre 3. L’inférence statistique fera l’objet des chapitres 4 à 8.
Plan de cours :
– Chap. 2 : Variables discrètes
– Chap. 3 : Variables continues
– Chap. 4 : Estimation et intervalles de confiance
– Chap. 5 : Tests paramétriques
– Chap. 6 : Tests de comparaisons d’échantillons
– Chap. 7 : Tests du Chi2
– Chap. 8 : Régression linéaire
3
Exemples de données : On a observé sur un groupe d’étudiants les variables : sexe
(1 pour F, 0 pour M) noté S, poids à 20 ans noté P , poids à 15 ans noté P ′ , taille notée T ,
nombre de jours par semaine où l’étudiant a consommé au moins quatre fruits ou légumes dans
la journée noté A.
individu sexe poids 20 ans poids 15 ans taille alimentation

i si pi p′i ti ai
1 1 49 45 160 5
2 1 53 45 164 4
3 1 50 45 161 4
4 1 49 45 175 6
5 1 70 74 166 4
6 1 43 40 165 5
7 1 52 45 164 5
8 1 50 47 164 7
9 1 49 45 166 6
10 1 49 43 161 5
11 1 59 55 167 4
12 1 70 60 179 3
13 1 50 45 166 6
14 1 50 45 168 5
15 1 61 50 175 5
16 1 47 44 152 4
17 1 54 49 157 3
18 1 53 49 162 4
19 1 55 50 164 4
20 1 59 54 162 1
21 1 45 44 162 6
22 1 60 50 175 5
23 1 55 53 158 3
24 1 68 55 170 2
25 0 75 70 179 3
26 0 78 72 180 2
27 0 64 58 170 3
28 0 69 63 180 5
29 0 70 58 183 4
30 0 62 56 179 5
31 0 75 65 186 4
32 0 78 65 182 3
Résumés numériques :
X X X X X
si = , pi = , p′i = , ti = , ai =
X X X ′ X X
pi ti = , p2i = , pi2 = , t2i = , a2i =
p̄ = , p̄′ = , t̄ = , ā =
cov(p, t) = , s2p = , s2p′ = , s2t = , s2a =
4
Chapitre 2
Variables discrètes
Nous nous intéressons au cas où X est un ensemble fini de q éléments : m1 , ..., mq appelés
modalités de X. S’il s’agit d’éléments quantitatifs, on conviendra d’ordonner les modalités dans
l’ordre croissant (m1 < m2 < ... < mq ).
2.1 Analyse descriptive de données discrètes

2.1.1 Définitions et notations
Tableau de données : Tableau croisant une population (ensemble d’individus de cardinal n)
et un ensemble de p caractères (observés sur les individus de la population). Un tableau de
données peut se présenter sous deux formes : tableau de données brutes ou tableau d’effectifs.
On utilisera les notations suivantes :
– p caractères notés : X 1 , ..., X p .
– n individus notés : i1 , ..., in ou 1, ..., n.
– n réalisations d’un caractère X notées : x1 , ..., xn , avec xj ∈ X . (xj étant la réalisation de
X pour l’individu ij (ou j) et X l’ensemble des modalités de X).
– q modalités d’un caractère X notées : m1 , ..., mq où q ≤ n (c.-à-d. X = {m1 , ..., mq }).
Les modalités désignent les valeurs distinctes possibles des réalisations de X. Si toutes les
réalisations x1 , ..., xn sont distinctes alors X aura q = n modalités.
– la taille de la sous-population pour laquelle X prend la modalité mk sera notée nk . On a
P
évidemment la relation qk=1 nk = n.
Les données sont en général présentées sous la forme suivante lorsque plusieurs caractères
sont observés sur une même population. Il s’agit d’un tableau dit tableau de données brutes :
indiv X X1 ... Xp
1 x1 x11 ... xp1
...
i xi x1i ... xpi
...
n xn x1n ... xpn
Lorsqu’un seul caractère X est observé sur une population, on présente plutôt les données
sous la forme d’un tableau en effectifs :
5
X effectifs
m1 n1
...
mk nk
...
mq nq
2.1.2 Tableau de distribution

C’est le tableau en effectifs auquel on ajoute une colonne donnant les proportions notées
fk = nk /n associées à chaque modalité mk . Cette colonne est souvent intitulée pourcentages ou
fréquences. Lorsque de plus X est un ensemble numérique ordonné, on ajoute à ce tableau une
colonne contenant les fréquences cumulées : Fk = f1 +...+fk . Il s’agit de la proportion d’individus
de l’échantillon pour lesquels on observe une valeur ≤ mk qui sera notée f req] − ∞, mk ].
X effectifs fréquences fréq. cumul.

m1 n1 f1 = n1 /n F1 = f1
...
mk nk fk = nk /n Fk = f1 + ... + fk
...
mq nq fq = nq /n Fq = f1 + ... + fq = 1
On peut plus généralement définir la proportion de la population pour laquelle la variable X

prend une valeur ≤ x :
Fonction de répartition d’une variable X :
F : IR → [0, 1]
x → f req] − ∞, x]
Propriétés :
∀x < m1 ; F (x) = 0 et ∀x ≥ mq ; F (x) = 1.
∀x ∈ [mk , mk+1 [; F (x) = Fk , 1 ≤ k ≤ q − 1.
∀a ≤ b; F (b) − F (a) = f req]a, b].
2.1.3 Représentations graphiques

Histogramme des fréquences : diagramme en batons, où la hauteur de chaque barre est
la fréquence de la modalité qu’elle représente. On peut également représenter les fréquences
observées à l’aide d’un diagramme en secteurs (c.-à-d. “camembert”).
Fonction de répartition : De plus, dans le cas d’une variable quantitative discrète, on peut
représenter le graphe de F . C’est une fonction en escaliers croissante valant 0 en tout point
strictement inférieur à m1 et valant 1 en tout point supérieur ou égal à mq .
2.1.4 Résumés numériques

– Caractéristiques centrales –
Les plus utilisées sont le mode, la médiane et la moyenne arithmétique.
Mode : Valeur (modalité) en laquelle l’histogramme des fréquences présente un maximum

relatif.
Interprétation : modalité la plus représentée dans l’échantillon.
Médiane : Valeur qui partage la population en deux effectifs égaux, notée q0.5 . On définit donc
la médiane q0.5 comme la plus petite modalité à partir de laquelle la fonction de répartition est
−
supérieure ou égale à 0.5 (c.-à-d. F (q0.5 ) < 0.5 et F (q0.5 ) ≥ 0.5).
6
Interprétation : modalité en dessous de laquelle (au sens large) et au dessus de laquelle (au
sens large) on trouve au moins la moitié des individus.
Graphiquement, c’est la plus petite valeur en laquelle le graphe de F franchit le palier 0.5.
Plus généralement, le quantile empirique d’ordre α est défini par qα = inf{x ∈ X , F (x) ≥ α}.
C’est en fait la plus petite modalité en laquelle la fonction de répartition dépasse α. La médiane
est le quantile d’ordre 0.5 et les quartiles sont les trois quantiles d’ordre 0.25; 0.5; 0.75.
Moyenne : notée x̄, moyenne arithmétique de l’ensemble des n réalisations de X c.-à-d. :
n q q
1X 1X X
x̄ = xi = nk mk = fk mk .
n i=1 n k=1 k=1
Interprétation : valeur qu’auraient tous les individus s’ils prennaient tous la même valeur.
– Caractéristiques de dispersion –
Afin de compléter les caractéristiques centrales on peut définir des mesures de dispersion
telles que :
Ecart quadratique moyen :

 
n q n
1X 2 1X 2 1X
Q(x) = (xj − x) = nk (mk − x) =  x2  − 2xx̄ + x2 ,
n j=1 n k=1 n j=1 j
Ecart absolu moyen :

n
1X
em (x) = |xj − x|.
n j=1
L’écart quadratique moyen est une parabole qui atteint son minimum au point x̄ et la valeur
de ce minimum s’appelle la variance de l’échantillon. Par contre le minimum de l’écart absolu
moyen est atteint au point q0.5 .
Variance de l’échantillon :
n q
1X 1X
s2x = Q(x̄) = (xj − x̄)2 = nk (mk − x̄)2 .
n j=1 n k=1
Ecart type de l’échantillon : sx .

P
Propriété : s2x = x¯2 − x̄2 où x¯2 = x2j /n.
2.2 Variable aléatoire discrète

2.2.1 Loi de probabilité d’une variable aléatoire
La quantité x observée de X pour un individu choisi au hasard dans P est la réalisation d’une
variable aléatoire X (v.a. X). Elle est décrite par X = {m1 , ..., mq } et par une loi de probabilité
IP définie par {pk = IP(X = mk ), 1 ≤ k ≤ q}. Les pk sont les probabilités théoriques qu’a la
P
variable aléatoire X de prendre les modalités mk . On a évidemment pk ∈ [0, 1] et k pk = 1.
Si l’échantillon de données étudié est constitué de n tirages indépendants de la même variable
aléatoire X alors les fréquences fk , observées sur (x1 , ...., xn ) approchent de mieux en mieux les
pk lorsque n augmente.
L’analogue de la fonction de répartition empirique (qui représente les données observées
(x1 , ..., xn )) est la fonction de répartition théorique de la variable aléatoire X définie par :
X
FX (x) = IP(X ≤ x) = IP(X = mk ).
mk ≤x
C’est aussi une fonction en escaliers (avec q + 1 paliers) croissante où le saut entre le k-ième et
le (k + 1)-ième palier vaut pk .
7
On peut représenter la loi de probabilité de la v.a. X et sa fonction de répartition par
l’histogramme des probabilités (diagramme en batons de hauteurs pk ) et par le graphe de FX .
P
Pour tout sous-ensemble A de X on a : IP(X ∈ A) = mk ∈A IP(X = mk ) et en particulier,
X
IP(a < X ≤ b) = IP(X ≤ b) − IP(X ≤ a) = FX (b) − FX (a) = IP(X = mk ).
a<mk ≤b
2.2.2 Quelques caractéristiques théoriques d’une variable aléatoire discrète

De même que l’on caractérise les tendances centrales et de dispersion d’un jeu de données
(x1 , ..., xn ), on définit la moyenne, l’écart type et la variance d’une variable aléatoire discrète X
par :
Espérance mathématique de X le nombre :
X
E(X) = mk IP(X = mk ).
mk ∈X
Remarques :
– Lorsque toutes les probabilités sont égales (ie. p1 = pk = pq = 1/q) l’espérance mathématique
est égale à la moyenne arithmétique des éléments de X .
– L’espérance de la variable aléatoire X est aussi appelée la moyenne théorique de X, et est
notée µX ou µ. En général µX ∈ / X.
Variance de X le nombre :
X
σ 2 = V (X) = (mk − µ)2 IP(X = mk ).
mk ∈X
Ecart type de X le nombre : q

σ= V (X).
Quantile d’ordre α de X le nombre :
qα = inf{x ∈ X , FX (x) ≥ α}.
2.2.3 Modèles discrets usuels

Loi uniforme : on choisit au hasard un objet parmi n objets distincts avec la même probabilité
d’obtenir chacun d’entre eux (par exemple lancé d’un dé non pipé). Ainsi la probablité de sortie
de chaque objet numéroté de k = 1, ..., n est IP(X = k) = 1/n.
Loi hypergéométrique : on choisit n individus au hasard dans une population de taille N

et dont M remplissent une condition A, soit une proportion p = M/N qui satisfont la condition
A. Soit X le nombre de personnes choisies parmi les n qui remplissent la condition A. X sera
dite variable de loi hypergéométrique notée H(N, n, p) et pour tout k ∈ {max(0, n − (N −
N p)), ..., min(N p, n)} :
k n−k n
IP(X = k) = CN p CN −N p /CN avec Cnk = n!/((n − k)!k!).
Loi de Bernoulli et Loi binomiale : on considère n expériences telles que le lancer répétitif
de pièces ou de dés, ou le tirage d’un individu dans un ensemble ; chaque lancer est dit essai.
Au cours de chacun des essais, à un événement particulier (c.-à-d. remplir une condition A)
est associé une probabilité de réussite. Si les tirages ou les essais sont indépendants, on aura la
même probabilité de réussite à chaque tirage.
P
Soit Xi la variable décrivant la réussite au i-ème tirage et Y = Xi le nombre de réussites
après n tirages.
8
– Loi de Bernoulli : elle décrit la réalisation d’une expérience n’ayant que deux issues
possibles, 1=“succès” et 0=“échec”. La distribution d’une v.a. X de Bernoulli, notée B(p),
est donnée par :
IP(X = 1) = p et IP(X = 0) = 1 − p.
On note que q = 1 − p est la probabilité d’échec. Chaque variable Xi suit une loi de
Bernoulli de paramètre p : “probabilité d’obtenir A”.
– Loi binomiale : la probabilité pour que l’événement A (le succès) se réalise k fois exac-
tement au cours de n essais est donnée par la probabilité :
n
!
X
IP(Y = k) = IP Xi = k = Cnk pk (1 − p)n−k , pour tout k ∈ {0, ..., n}.
i=1
On dira que Y suit une loi binomiale B(n, p).

Remarques :
– La répartition de Y est appelée distribution binomiale, dans la mesure où, pour k =
0, 1, 2, ..., n, elle correspond aux termes successifs du développement du binôme :
n
X n
X
(q + p)n = q n + Cn1 p1 (1 − p)n−1 + Cn2 p2 (1 − p)n−2 + ... + pn = Cnk pk (1 − p)n−k = pk .
k=0 k=0
– La loi hypergéométrique H(N, n, M ) est approchée par la loi binomiale B(n, M/N ), lorsque
n est petit devant M .
Exemple : On admet qu’un étudiant a la même probabilité p chaque jour de consommer
au moins quatre fruits ou légumes. On suppose de plus qu’il y a indépendance entre ses choix
quotidiens. La variable A décrivant le nombre de jours de ”bonne alimentation” de l’étudiant
en une semaine est donc modélisée par une variable aléatoire de loi B(7, p).
Loi géométrique : c’est la loi du temps Z d’attente du premier succès dans les réalisations
de tirages indépendants de variables de Bernoulli, B(p). Elle est notée G(p) et
IP(Z = k) = (1 − p)k−1 p, pour tout k ≥ 1.
Loi de Poisson : cette distribution approche la loi binomiale B(n, λ/n) lorsque n est grand.
C’est-à-dire que dans ce cas IP(Y = k) = Cnk (λ/n)k (1 − λ/n)n−k ≈ IP(W = k) où W est une
variable qui suit la loi de Poisson, notée P(λ), définie par
IP(W = k) = λk e−λ /k!, pour tout k ∈ IN.
Loi et Notation X IP(X = k) E(X) V (X)

uniforme {1, ..., n} 1/n (n + 1)/2 (n + 1)(n − 1)/12
U(n)
k≥
hypergéométrique k C n−k /C n
max(0, n−(N −N p)) CN p N −N p N np np (1 − p) N −n
N −1
H(N, n, p), N p ∈ IN
k ≤ min(N p, n)
P (X = 1) = p
Bernoulli B(1, p) {0, 1} p p(1 − p)
P (X = 0) = 1−p
binomiale B(n, p) [0, n] Cnk pk (1 − p)n−k np np(1 − p)
Poisson P(λ) IN e−λ λk /k! λ λ
1 1−p
géométrique G(p) IN∗ (1 − p)k−1 p
p p2
9
2.3 Adéquation entre distribution observée et loi
Considérons les données “alimentation” (a1 , ..., an ) proposées dans l’introduction. On se de-
mande si la répartition observée sur X = {m1 , ..., mq } ressemble à une distribution théorique sur
X spécifiée par (p∗1 , ..., p∗q ). Autrement dit, les valeurs ai auraient-elles pu être obtenues comme
n réalisations indépendantes d’une variable aléatoire X à valeurs dans X et ayant pour loi de
probabilité (p∗1 , ..., p∗q ) ? Ou encore, les fréquences observées (f1 , ..., fq ) sont-elles “proches” des
probabilités théoriques (p∗1 , ..., p∗q ) ?
Afin de mesurer la proximité entre fréquences observées et probabilités théoriques, nous
allons calculer la quantité suivante, appelée statistique d’adéquation du Chi2 :
q q
X (nk − np∗k )2 X (fk − p∗k )2
d2 = =n .
k=1
np∗k k=1
p∗k
Plus d2 est proche de zéro meilleure est l’adéquation entre la loi théorique et la distribution
observée. Les nk sont les effectifs observés de la modalité mk tandis que np∗k sont les effectifs
théoriques que l’on s’attend à obtenir sur n tirages indépendants sous la loi (p∗1 , ..., p∗q ).
Par exemple, on souhaite comparer la distribution observée de la variable alimentation A
d’une part à une loi uniforme
(p∗1 , ..., p∗8 ) = (1/8, 1/8, ..., 1/8)
et d’autre part à une loi binomiale B(7, 0.5) donnée par les probabilités théoriques
(p∗1 , ..., p∗8 ) = (0.008, 0.055, 0.164, 0.273, 0.273, 0.164, 0.055, 0.008).
On dresse le tableau suivant :
X 0 1 2 3 4 5 6 7
Eff. obsv. 0 1 2 6 9 9 4 1 d2
Eff. theo. avec unif. 4 4 4 4 4 4 4 4 23
Eff. theo. avec binom. 0.25 1.75 5.25 8.75 8.75 5.25 1.75 0.25 11.276
Pour les données proposées, avec le modèle uniforme on obtient un d2 plus grand qu’avec le
modèle binomial. La B(7, 0.5) modélise donc bien mieux les données observées que l’uniforme
sur {0, 1, 2, .., 7}.
10
Chapitre 3
Variables continues
Nous considérons dans cette partie des données observées dans un intervalle de IR, noté
]m, M ].
3.1 Analyse descriptive de données continues

Toutes les notions vues pour les données discrètes se “déclinent” dans le cas continu, moyen-
nant quelques modifications naturelles. Pour cela on fait une partition de ]m, M ] en q morceaux,
appelés classes et notés C1 , ..., Cq . Et, ∀k = 0, ..., q, on note :
ek ∈ IR : extrémité droite de la classe Ck ,
ak = (ek − ek−1 ) : amplitude de la classe Ck et
mk = (ek + ek−1 )/2 : milieu de Ck .
3.1.1 Tableau de distribution et représentations graphiques

Ce tableau est défini comme pour les données discrètes, à ceci près qu’ici mk désigne le centre
de la k-ième classe au lieu de la k-ième modalité du cas discret.
Toutes les classes ne sont pas nécessairement de même amplitude, ce qui nous conduit à
ajouter une colonne dans le tableau de distribution contenant les fréquences relatives à l’unité
d’amplitude.
X milieux effectifs fréquences fréq. cumul. fréq. rel.

]e0 , e1 ] m1 n1 f1 = n1 /n F1 = f1 f1 /a1
...
]ek−1 , ek ] mk nk fk = nk /n Fk = f1 + ... + fk fk /ak
...
]eq−1 , eq ] mq nq fq = nq /n Fq = f1 + ... + fq = 1 fq /aq
De même que dans le cas discret, on représente les fréquences observées et les fréquences
cumulées avec :
– Histogramme des fréquences : graphe où sont portées en abscisses les extremités de
classes et où l’on trace un rectangle de surface fk (de largeur ak et hauteur fk /ak ) au
dessus de la classe k.
– Fonction de répartition empirique : elle est définie comme dans le cas discret par
F (x) = f req] − ∞, x] et F (ek ) = Fk pour tout k = 1, ..., q.
Son graphe est celui d’une fonction linéaire par morceaux qui passe par les points (e0 , 0)
et (ek , Fk ) pour k = 1, ..., q.
11
3.1.2 Caractéristiques centrales et de dispersion
Classe Modale : classe pour laquelle l’histogramme des fréquences présente un maximum
relatif.
Médiane : q0.5 ∈ X telle que F (q0.5 ) = 0.5
Fractile d’ordre α : qα tel que F (qα ) = α.
En particulier, on définit les quartiles qui partagent la population en quatre et les percentiles
qui la partagent en cent.
Moyenne :
n q q q
1X 1X 1X X
x̄ = xi = nk x̄k ≃ nk mk = fk mk
n i=1 n k=1 n k=1 k=1
où x̄k est la moyenne de la classe Ck .

Pour les caractéristiques de dispersion, nous considèrerons seulement l’écart type et l’ampli-
tude de l’intervalle interquartile. La variance et l’écart type se définissent comme en discret :
Variance :
n q
1X 1X
s2x = Q(x̄) = (xi − x̄)2 ≃ nk (mk − x̄)2 .
n i=1 n k=1
Ecart type : sx .
Intervalle inter-quartile : [q0.25 , q0.75 ].
3.2 Variable aléatoire continue

3.2.1 Loi de probabilité
Dans le cas où la variable X étudiée est à valeur dans un intervalle de [m, M ], la probabilité
d’obtenir x, c’est-à-dire IP(X = x) sera nulle car autrement on aurait IP(m ≤ X ≤ M ) =
P
x∈[m,M ] IP(X = x) = ∞! Par contre si la probabilité d’avoir X = x est nulle, celle d’être
autour de x ne l’est pas et on définit la loi de probabilité de la variable X à l’aide d’une fonction
appelée densité et définie par :
fX (x) ≈ IP(X ∈ [x, x + δ])/δ si δ petit.
On peut aussi définir une variable aléatoire à l’aide de sa fonction de répartition (qui est continue)
donnée par :
Z x
FX (x) = IP(X ≤ x) = fX (t)dt pour tout x ∈ IR et fX (x) = FX′ (x).
−∞
Notons que comme IP(X = x) = 0, on a toujours IP(X ≤ x) = IP(X < x).

Définir une variable aléatoire continue sur IR c’est donc se donner une fonction positive fX
R +∞
telle que −∞ fX (t)dt = 1 ou se donner FX une fonction continue croissante à valeurs dans [0, 1]
telle que FX (−∞) = 0 et FX (∞) = 1. On a alors pour tout couple de nombres (a, b) :
IP(a ≤ X ≤ b) = IP(a < X ≤ b) = IP(a ≤ X < b) = IP(a < X < b)

Z b
= IP(X ≤ b) − IP(X ≤ a) = FX (b) − FX (a) = fX (t)dt.
a
3.2.2 Espérance Variance et α-quantiles

Ces quantités sont définies par analogie avec le
R
cas discret, en remplaçant mk par x, IP(X =
P
mk ) par fX (x)dx et la somme par l’intégrale .
12
Espérance de la variable X, le nombre :
Z +∞
E(X) = xfX (x)dx = µ.
−∞
Variance de la variable X, le nombre :

Z +∞
V (X) = (x − E(X))2 fX (x)dx = σ 2 .
−∞
Ecart type de la variable X le nombre :

q
σ= V (X).
Quantile d’ordre α de la variable X le nombre :
qα tel que FX (qα ) = α.
On utilisera beaucoup les propriétés suivantes de l’espérance et de la variance qui sont satisfaites
pour toutes les variables aléatoires (continues ou discrètes) :
Propriétés : Soient deux variables aléatoires X et Y et deux nombres réels a et b :
1. E(aX + b) = aE(X) + b et en particulier E(b) = b
2. E(X + Y ) = E(X) + E(Y )
3. V (aX + b) = a2 V (X) et en particulier V (b) = 0
4. si de plus X et Y sont indépendantes, V (X + Y ) = V (X) + V (Y ).
L’indépendance entre X et Y est définie mathématiquement par
IP(X ≤ x, Y ≤ y) = IP(X ≤ x)IP(Y ≤ y) pour tous (x, y).
Elle signifie que le résultat obtenu sur X n’a aucune incidence sur celui obtenu sur Y et vice
versa.
3.2.3 Modèles continus usuels

Le modèle le plus couramment utilisé est le modèle gaussien défini par la loi normale.
Loi normale (ou loi gaussienne) : la densité d’une variable aléatoire normale d’espérance
µ et de variance σ 2 a une forme de cloche symétrique autour de l’axe x = µ et de largeur
proportionnelle à σ. Elle est notée N (µ, σ 2 ). On notera sa fonction de répartition Φµ,σ et lorsque
µ = 0 et σ = 1 on parlera de la variable normale centrée et réduite et on conviendra d’écrire
Φ = Φ0,1 .
Propriété 1 : si X suit une loi normale N (µ, σ 2 ) alors (X − µ)/σ suit une loi normale N (0, 1).
Cela se traduit par :

a−µ X −µ b−µ b−µ a−µ
IP(a ≤ X ≤ b) = Φµ,σ (b) − Φµ,σ (a) = IP ≤ ≤ =Φ −Φ .
σ σ σ σ σ
Propriété 2 : si X1 suit une loi normale N (µ1 , σ12 ) et si X2 suit une loi normale N (µ2 , σ22 ) et
sont indépendantes alors aX1 + bX2 suit une loi normale N (aµ1 + bµ2 , a2 σ12 + b2 σ22 ).
Grace au résultat fondamental énoncé dans le Théorème central limite, on montre que de
nombreuses distributions peuvent être approchées par celle de la loi normale. C’est le cas, par
exemple des distributions binomiales ou de Poisson. On retiendra
13
Propriété 3 : Soient X de loi B(n, p) et Y de loi P(λ) avec λ ∈ IN∗ , alors on a les approximations
suivantes :
!
x − np
si np > 10 et n(1 − p) > 10, IP(X ≤ x) ≈ Φ p ∀x ∈ IR;
np(1 − p)

y−λ
si λ > 10, IP(Y ≤ y) ≈ Φ √ ∀y ∈ IR.
λ
Lecture de tables : la première table donne les couples (x, Φ(x)) pour un certain nombre de
valeurs de x ≥ 0. La densité de la loi normale centrée réduite étant symétrique, lorsque x ≤ 0
on utilisera que Φ(x) = 1 − Φ(−x). D’autre part, on a également Φ−1 (1 − p) = −Φ−1 (p), pour
tout p ∈ [0, 1]. La seconde table donne les couples (up , p) tels que IP(|X| > up ) = p, lorsque
X est une variable normale centrée et réduite, c’est à dire de loi N (0, 1). Les quantités u2p et
Φ−1 (1 − p) vérifient :
1 1
Φ−1 (1 − p) = u2p si 0 ≤ p ≤ ; Φ−1 (1 − p) = −u2(1−p) si ≤ p ≤ 1.
2 2
A l’aide de la loi normale sont définies d’autres lois telles que celles du Chi2, de Student ou
de Fisher-Snedecor.
Loi du Chi2 : Une variable qui suit une loi du Chi2 à ν degrés de liberté s’obtient comme la
somme de ν carrés de variables normales centrées réduites indépendantes. On la note Xν2 . Sa
densité est nulle si x ≤ 0 et sa fonction de répartition est tabulée.
Lecture de la table : on lit le couple (zν,p , p) qui satisfait IP(Zν > zν,p ) = p lorsque Zν suit
une loi du Chi2 à ν degrés de liberté, Xν2 .
p
Loi de Student : Tν = U/ V /ν avec U normale centrée réduite N (0, 1) et V indépendante de
U et de loi du Chi2 à ν degrés de libertés Xν2 . Cette densité ressemble beaucoup à celle de la
N (0, 1) surtout lorsque ν est grand. Elle est notée Tν .
Lecture de la table : pour Tν de loi de Student Tν , on lit les couples (tν,p , p) tels que
IP(|Tν | > tν,p ) = p.
Loi de Fisher-Snedecor : F = (U/ν1 )/(V /ν2 ) avec U et V deux variables indépendantes de

lois respectives Xν21 et Xν22 , suit une loi de Fisher-Snedecor à (ν1 , ν2 ) degrés de libertés. Elle est
notée Fν1 ,ν2 .
14
Chapitre 4
Estimation et Intervalles de
confiance
Considérons la variable A : ”alimentation d’un étudiant choisi au hasard dans le grou-

pe”. Nous avons vu, dans le premier chapitre, que la distribution de l’échantillon de données :
(a1 , ..., a32 ) = (5, 4, 4, ...., 5, 4, 3) ressemblait plus à la répartition d’une B(7, 0.5) qu’à celle d’une
répartition uniforme sur {0, 1, ..., 7}. On pourrait plus généralement comparer cette distribu-
tion observée à une B(7, p), où p serait ajusté à l’aide de a1 , ..., a32 . Supposons donc que A
suit une B(7, p) avec p inconnu et essayons d’estimer p. L’espérance de A valant 7p, on peut
penser que cette moyenne théorique est assez bien approchée par la moyenne arithmétique des
observations ā = 4.22. Il semble, alors raisonnable de proposer comme estimation de p, la quan-
tité p̂ = 4.22/7 = 0.603. On peut ensuite, à l’aide de la distance d2 voir si la B(7, 0.603) est
meilleure que la B(7, 0.5). Le calcul du d2 associé à la répartition de la B(7, 0.603) donnée
par (0.002, 0.017, 0.076, 0.191, 0.290, 0.264, 0.133, 0.029), donne d2 = 0.606. Nous avions trouvé
d2 = 11.276, pour l’adéquation à une B(7, 0.5). La loi B(7, 0.603) modélise donc mieux les
données que la B(7, 0.5). C’est donc B(7, 0.603) que l’on utilisera pour effectuer des prévisions
sur n’importe quel individu de P. Par exemple, on prévoira que la probabilité qu’un étudiant
ne consomme jamais plus de quatre fruits ou légumes par jour sera environ de IP(A = 0) =
C70 0.6030 (1 − 0.603)7 = 0.16%.
4.1 Modèle et Echantillon aléatoire

Données : x1 , ..., xn . On regardera xi comme le i-ème tirage d’une variable aléatoire X ; ou
de façon équivalente comme une réalisation (ou un tirage) d’une variable Xi de même loi que
X. On supposera de plus que les variables Xi sont indépendantes.
Définition : On appelle échantillon aléatoire de taille n d’une variable X de loi IP, l’ensemble
X1 , ..., Xn de variables indépendantes et de même loi que X. Un échantillon de données noté
x1 , ..., xn est une réalisation (ou un tirage) de l’échantillon aléatoire X1 , ..., Xn .
Nous supposerons désormais que les données collectées (x1 , ..., xn ) sont n tirages indépendants
(ou un tirage de (X1 , ..., Xn )) d’une variable aléatoire X de loi IPθ , où le paramètre θ est un
nombre réel inconnu. θ = p et IPθ = B(7, p) dans l’exemple ci-dessus.
4.2 Estimation ponctuelle

Nous nous intéresserons dans la suite à l’estimation du paramètre θ décrivant la loi de X,
dans les cas où θ = µX , θ = σX2 ou θ = p dans un modèle B(n , p) avec n connu.
0 0
Dans la suite, on considère X1 , ..., Xn , un échantillon aléatoire de la variable X de moyenne
inconnue µX = µ et de variance inconnue σX 2 = σ2.
15
Estimateur : un estimateur de θ, est une variable aléatoire construite à l’aide des Xi . Une
estimation de θ, notée θ̂, est l’application d’un estimateur aux données x1 , ..., xn .
Un même estimateur appliqué à différents jeux de données produira des estimations différentes.
P P
ex : X1 , Xi ou Xi /n sont des estimateurs de θ.
On peut construire autant d’estimateurs que l’on veut (toute fonction connue de X1 , ..., Xn )
mais ils ne sont pas tous équivalents. Une des premières propriétés que l’on souhaite vérifier est
que l’estimateur ajuste bien le paramètre d’intérêt θ.
Estimateur sans biais : Un estimateur Tn = T (X1 , ..., Xn ) sera dit sans biais pour estimer θ
si E(Tn ) = θ.
Dire que Tn est sans biais revient à vérifier qu’en moyenne il permet de retrouver assez
correctement θ. On peut également souhaiter qu’il soit de plus en plus précis lorsque n augmente,
c’est-à-dire que sa variance diminue avec n.
Estimateur convergent : Tn un estimateur sans biais de θ sera dit convergent (en moyenne
quadratique) si V (Tn ) tend vers 0 lorsque n → ∞.
4.2.1 Estimation d’une moyenne

On note
1X
X̄ = Xi .
n
Estimateur : X̄ est un estimateur sans biais et convergent de µ = E(X).
L’estimation µ̂ de µ obtenue par l’application de l’estimateur X̄ aux données est x̄. Par
abus de langage, on appelera le résultat d’un estimateur sans biais estimation non biaisée du
paramètre.
Loi de l’estimateur : Si la variable X suit une loi normale N (µ, σ 2 ) alors X̄ suit une loi
normale N (µ, σ 2 /n).
4.2.2 Estimation d’une variance

On définit :

2 1X 1X 1X 2 1 X
V = (Xi − µ)2 , 2
S = (Xi − X̄)2 = Xi − X̄ 2 et S ′2 = (Xi − X̄)2 .
n n n n−1
Estimateurs :
– Si µ est connue V 2 est un estimateur sans biais de σ 2 .
– Si µ est inconnue S 2 est un estimateur biaisé de σ 2 et S ′2 est un estimateur sans biais. En
effet :
n−1 2
E(S 2 ) = σ et E(S ′2 ) = σ 2
n
Dans le cas de l’échantillon gaussien, on dispose également de la loi de ces estimateurs.
Loi des estimateurs : Pour X de loi N (µ, σ 2 ) :

– nV 2 /σ 2 suit une loi du Chi2 à n degrés de liberté : Xn2
– nS 2 /σ 2 = (n − 1)S ′2 /σ 2 suit une loi du Chi2 à n − 1 degrés de liberté : Xn−1
2
4.2.3 Estimation d’une proportion

L’estimation d’une proportion peut être vu comme un problème d’estimation de moyenne.
En effet, soit p la proportion dans une population P d’individus remplissant une condition A.
Dans un échantillon de taille n, on observe une proportion, fn , d’individus qui vérifient A. On
souhaite estimer p à l’aide de fn .
16
On pose le modèle suivant : soit Xi la variable indicatrice du succès de A pour l’individu i
de l’échantillon. L’échantillon aléatoire X1 , ..., Xn est celui d’une variable X de loi de Bernoulli
P P
B(p). On a alors fn = xi /n, puisque xi est le nombre d’individus dans l’échantillon observé
P
qui remplissent A. Notons Fn = Xi /n la variable aléatoire associée.
Le problème d’estimation de p dans ce cas, est celui de l’estimation de la moyenne inconnue
µ = p d’une variable X de Bernoulli B(p).
Estimateur : Fn = X̄ est un estimateur sans biais et convergent de p. En effet E(Fn ) = p
et V (Fn ) = p(1 − p)/n.
Lois de l’estimateur :
– nFn suit une loi binomiale B(n,
√
p)
– si np > 10 et n(1 − p) > 10, √n(Fn −p) suit approximativement une loi normale N (0, 1). Ce
p(1−p)
qui se traduit par !
√
n(Fn − p)
IP p ≤t ≈ Φ(t).
p(1 − p)
√
– si np > 10 et n(1 − p) > 10, √ n(Fn −p) suit approximativement une loi normale N (0, 1).
Fn (1−Fn )
C’est-à-dire √ !
n(Fn − p)
Fn (1 − Fn )
4.2.4 Estimation d’une probabilité dans le modèle binomial

Dans le cas où le modèle décrivant les données est défini par une variable binomiale B(n0 , p)
(cas de l’alimentation ), l’espérance de la variable binomiale valant n0 p sera estimée par X̄ et il
est naturel de proposer Pn = X̄/n0 comme estimateur de p.
Estimateur : Pn = X̄/n0 est un estimateur sans biais et convergent de p. En effet E(Pn ) = p
et V (Pn ) = p(1 − p)/(nn0 ).
Lois de l’estimateur :
– n0 nPn suit une loi binomiale B(n0 n, √
p)
n n(P −p)
– si n0 np > 10 et n0 n(1 − p) > 10, √0 n suit approximativement une loi normale
p(1−p)
N (0, 1). Ce qui se traduit par
√ !
n0 n(Pn − p)
p(1 − p)
√
n n(P −p)
– si n0 np > 10 et n0 n(1 − p) > 10, √ 0 n suit approximativement une loi normale
Pn (1−Pn )
N (0, 1). C’est-à-dire !
√
n0 n(Pn − p)
Pn (1 − Pn )
4.3 Intervalles de confiance (IC)

Dans le paragraphe précédent ont été proposées des évaluations ponctuelles du paramètre θ.
Plutôt qu’une seule valeur du paramètre, on souhaite à présent donner une fourchette de deux
valeurs entre lesquelles “on s’attend” à trouver θ. Au lieu de donner un estimateur de θ, cela
revient à s’en donner deux qui encadrent θ avec une probabilité 1 − α fixée.
17
Définition : Un intervalle de confiance de niveau de confiance 1 − α pour le paramètre θ
est défini par :
I(θ, α) = [T1 , T2 ] tel que IP(T1 ≤ θ ≤ T2 ) = 1 − α
avec T1 = f1 (X1 , ..., Xn ) et T2 = f2 (X1 , ..., X2 ) deux fonctions connues de l’échantillon aléatoire.
Remarques :
– α étant la probabilité que l’intervalle aléatoire I(θ, α) ne contienne pas le paramètre in-
connu θ, on le choisit en général petit.
– T1 et T2 sont en fait des estimateurs de θ mais qui ne sont pas sans biais. Ils seront en
général des fonctions simples d’un estimateur sans biais de θ.
– un intervalle de confiance est aléatoire et par abus de langage on dira aussi intervalle de
confiance pour désigner l’application de l’intervalle I(θ, α) au jeu de données. La réalisation
de I(θ, α) sera notée i(θ, α). Un même intervalle I(θ, α) appliqué à différents jeux de
données produira des “fourchettes” : i(θ, α) différentes.
Construction d’un IC :
1. construire un estimateur (de préférence sans biais et convergent) de θ : T ;
2. trouver une fonction simple de T et θ, g(T, θ), dont la loi est connue (c.-à-d. elle ne dépend
pas des paramètres inconnus du modèle) ;
3. en partant de T1 ≤ θ ≤ T2 trouver une inégalité équivalente de la forme A ≤ g(T, θ) ≤ B ;
en utilisant la table de la loi de g(T, θ) ajuster A et B pour que IP(g(T, θ) ≤ A) = α/2 et
IP(g(T, θ) ≥ B) = α/2 ;
4. retrouver à partir de l’inégalité A ≤ g(T, θ) ≤ B l’inégalité équivalente T1 ≤ θ ≤ T2 .
4.3.1 Intervalles de confiance pour la moyenne d’une variable normale

Soit X1 , ..., Xn , un échantillon de la loi N (µ, σ 2 ). Soient U une variable normale centrée
réduite et Tn une variable de loi de Student à n degrés de liberté. On note uα et tn,α les nombres
qui vérifient :
IP(|U | > uα ) = α et IP(|Tn | > tn,α ) = α.
2 2
hσ connue : i hσ inconnue
′
: i
√σ uα , X̄ √σ uα S S′
I(µ, α, σ 2 ) = X̄ − n
+ n
I(µ, α) = X̄ − √ t
n n−1,α
, X̄ + √ t
n n−1,α
4.3.2 Intervalles de confiance pour la variance d’une variable normale

Soit X1 , ..., Xn , un échantillon de la loi N (µ, σ 2 ). Soit Zn une variable qui suit une loi du
Chi2 à n degrés de liberté. On note zn,α le nombre :
IP(Zn > zn,α ) = α.
Selon que l’on connait ou non µ on a les intervalles suivants :
µ connue
h : i µ inconnue
h : i
nV 2 nV 2 nS 2 nS 2
J(σ 2 , α, µ) = z ,z J(σ 2 , α)= z ,z
n,α/2 n,1−α/2 n−1,α/2 n−1,1−α/2
Si la variable aléatoire qui modélise le caractère étudié n’est pas une variable normale, les
résultats précédents restent valables à condition que n soit assez grand.
18
4.3.3 Intervalles de confiance pour une proportion
Soit X1 , ..., Xn , un échantillon de la loi B(p) alors l’intervalle de confiance suivant est ap-
proximativement de niveau 1 − α, si np > 10 et n(1 − p) > 10. C’est-à-dire
IP(p ∈ I(p, α)) ≃ 1 − α.
" p p #
Fn (1 − Fn ) Fn (1 − Fn )
I(p, α) = Fn − √ uα , Fn + √ uα
n n
4.3.4 Intervalle de confiance pour p dans le cas binomial

Soit X1 , ..., Xn , un échantillon de la loi B(n0 , p) avec n0 connu, alors l’intervalle de confiance
suivant est approximativement de niveau 1 − α, si n0 np > 10 et n0 n(1 − p) > 10. C’est à dire
IP(p ∈ I(p, α)) ≃ 1 − α.
" p p #
Pn (1 − Pn ) Pn (1 − Pn )
I(p, α) = Pn − √ uα , Pn + √ uα
n0 n n0 n
19
Chapitre 5
Tests paramétriques
A propos de la variable alimentation nous avons estimé avec l’échantillon observé que le
nombre moyen de jours de ”bonne alimentation” (nombre quotidien de fruits et légumes supérieur
à 4) était de 4.22. On sait de plus, que si ce nombre moyen (c.à d. l’espérance ou moyenne
théorique de la variable A) est inférieur à cinq une campagne de prévention et d’information
sera mise en place par les organismes de santé publique auprès de la population étudiante. Pour
arrêter une décision on dispose de l’échantillon observé qui indique p̂ = 4.22/7 = 0.603. Cela
nous permet-il de déduire p < 5/7 ? Accepter (ou refuser) p < 5/7, au vu des données ne se
fait pas sans risque de se tromper. Le but de cette partie sera donc de se donner des règles de
décision ou de choix entre deux situations pour lesquelles on sait contrôler le risque de donner
une mauvaise conclusion.
5.1 Généralités
Dans l’exemple de l’alimentation : A la variable d’intérêt caractérisée par le paramètre θ = p
est une variable B(7, p). Pour répondre à la question : “est-il utile de lancer une campagne ?”,
il faut décider entre p ≥ 5/7 et p < 5/7. En pratique cela revient au même que de décider entre
p = 5/7 et p < 5/7. De façon générale, le test H0 : θ ≤ θ0 contre H1 : θ > θ0 sera remplacé par
le test plus simple H0 : θ = θ0 contre H1 : θ > θ0 . De même H0 : θ ≥ θ0 contre H1 : θ < θ0
sera remplacé par le test plus simple H0 : θ = θ0 contre H1 : θ < θ0 . On pourra également être
amené à traiter le cas H0 : θ = θ0 contre H1 : θ 6= θ0 .
Les deux premiers tests sont dits unilatéraux et le dernier bilatéral. On se fixe θ0 . Dans la
suite on désignera les tests par leur type défini par :
– type 1 : H0 : θ = θ0 H1 : θ > θ0
– type 2 : H0 : θ = θ0 H1 : θ < θ0
– type 3 : H0 : θ = θ0 H1 : θ 6= θ0
Faire un test, c’est construire une règle de décision qui, à l’échantillon observé, associe
l’une ou l’autre des conclusions : on rejette H0 (c.-à-d. on accepte H1 ) ou on ne rejette pas H0
(c.-à-d. on refuse H1 ). La règle de décision sera définie de la façon suivante :
– si θ̂ ∈ W , on refuse H0 (c.-à-d. on accepte H1 )
– si θ̂ ∈
/ W , on refuse H1 (c.-à-d. on accepte H0 )
On notera dans la suite T l’estimateur de θ qui appliqué aux données (x1 , ..., xn ) fournit
l’estimation θ̂.
5.1.1 Les risques

Au vu des données, on rejettera ou non H0 . On ne pourra prendre de décision sans risque
de se tromper. Il y a deux risques possibles : celui de rejeter H0 à tort ou celui de rejeter H1 à
tort. On définit les deux risques d’erreurs comme :
20
Risque de première espèce Risque de seconde espèce
α = IP(refus de H0 |H0 vraie) β = IP(refus de H1 |H1 vraie)
= IPH0 (T ∈ W ) = IPH1 (T ∈
/ W)
Définition : On dira que faire un test de niveau α (ou tester au seuil α), 0 ≤ α ≤ 1, c’est
construire une région de rejet de H0 , notée Wα telle que α = IPH0 (T ∈ Wα ).
On retiendra donc que :
si dans un test de niveau α, on est conduit à rejeter H0 ,

alors on conclura H1 avec un risque de se tromper α.
si au contraire, dans un test de niveau α, on est conduit à ne pas rejeter H0 ,
alors on conservera H0 avec un risque de se tromper β.
Propriété : Pour les trois tests (1, 2 et 3) qui nous intéressent, la somme des risques de
première et seconde espèce vaut 1.
5.1.2 Le choix de H0 et H1
Si on veut limiter le risque de refuser H0 quand elle est vraie, on se donne α petit. Ceci aura
pour conséquence de prendre plus de risque de refuser H1 à tort, puisqu’ il vaut β = 1 − α. Cela
aura également pour conséquence qu’en cas d’acceptation de H1 on prend un risque faible de se
tromper puisque qu’il vaut α. A l’inverse, si c’est H0 que l’on souhaite valider, en prenant peu
de risque de l’accepter à tort (c.-à-d. on limite le risque β = 1 − α de refuser H1 à tort) alors on
choisit α grand. En pratique, on prendra comme première règle de choix des hypothèses :
règle 1 : mettre sous H1 l’hypothèse que l’on souhaite valider, sous H0 celle que l’on
ne veut pas refuser à tort trop souvent et prendre α petit.
Par exemple, imaginons qu’au vu de données radar on souhaite choisir entre “un missile
se dirige vers nous” et “aucun missile ne se dirige vers nous”. Il semble évident dans ce cas,
qu’il est beaucoup plus grave de conclure à tort “aucun missile ne se dirige vers nous” que de
conclure à tort “un missile se dirige vers nous”. L’hypothèse que l’on veut voir refusée le moins
souvent à tort est dans ce cas “un missile se dirige vers nous” et celle que l’on voudrait voir
validée est “aucun missile ne se dirige vers nous”. L’application de la règle ci-dessus conduit à po-
ser : H0 : “un missile se dirige vers nous”, H1 : “aucun missile ne se dirige vers nous” et α petit.
Autre exemple : on étudie un nouveau vaccin contre la grippe et on souhaite vérifier qu’il
est plus efficace que le vaccin habituel dont les effets secondaires sont bien connus et qui de plus
est économique. On souhaite montrer, statistiquement, que ce nouveau traitement est meilleur
que le vaccin habituel mais en limitant le risque de le juger meilleur à tort, car ce nouveau
vaccin est cher et l’on en connaı̂t pas encore les effets secondaires. L’application de la règle nous
conduit alors à poser : H0 : “le nouveau vaccin n’est pas meilleur que le vaccin habituel”, H1 :
“le nouveau vaccin est meilleur que le vaccin habituel” et α petit.
La règle 1 doit cependant être appliquée sous la contrainte que l’hypothèse à valider, placée
sous H1 , soit de la forme H1 : θ > θ0 ; H1 : θ < θ0 ou H1 : θ 6= θ0 . Si l’hypothèse que l’on
souhaite vérifier est de la forme θ = θ0 alors on ne peut utiliser aucun des trois types de tests
(1,2 et 3) avec α petit. Dans ce cas pour valider une hypothèse formulée comme θ = θ0 on
appliquera la règle suivante :
règle 2 : Pour valider θ = θ0 avec un risque faible de se tromper poser

H0 : θ = θ0 , H1 : θ 6= θ0 et prendre α grand.
21
Imaginons qu’un nouveau procédé de fabrication d’un traitement ne soit acceptable que si le
dosage moyen décrit par un paramètre θ inconnu est égal à une valeur donnée θ0 . On souhaite
dans ce cas valider statistiquement θ = θ0 avec un faible risque d’erreur. On choisit alors H0 :
θ = θ0 , H1 : θ 6= θ0 et α grand.
5.1.3 Construction d’un test

1. Se donner un estimateur T de θ.
2. Se donner la forme de la région critique :
– si H1 : θ > θ0 , Wα = {T > Cα }
– si H1 : θ < θ0 , Wα = {T < Cα }
– si H1 : θ 6= θ0 , Wα = {T > Cα ou T < Cα′ }.
3. Ajuster la quantité Cα pour que
α = IPH0 (T ∈ Wα ) = IPθ=θ0 (T ∈ Wα ).
Pour cela on aura besoin de connaı̂tre la loi de T (ou plutôt celle de la fonction g(T, θ)
utilisée dans les constructions d’IC) lorsque l’hypothèse H0 est vraie.
4. Décider :
– si θ̂, réalisation de T , est dans Wα , conclure H1 avec un risque de se tromper de α ;
– si θ̂, réalisation de T , n’est pas dans Wα , conclure H0 avec un risque de se tromper de
β = 1 − α.
Nous allons décliner cette méthodologie dans les trois cas qui nous intéressent : tests sur la
moyenne et la variance d’une population dans un modèle gaussien et test sur une proportion.
5.2 Test sur la moyenne µ

Modèle : X1 , ..., Xn , échantillon aléatoire de la variable X de loi N (µ, σ 2 ) avec θ = µ
inconnu, σ 2 éventuellement connue et θ0 = µ0 fixé.
Pour les tests 1, 2 et 3 on notera Wαj la région de rejet du test de type j de niveau α. Les
régions de rejet dépendent de la connaissance ou non de σ 2 et sont données par :
n σ 2 connue o σ 2 inconnue
Wα1 = X̄ > µ0 + √σn φ−1 (1 − α) si 0 ≤ α ≤ 1
 n o  n o
 √σ u2α 1  S′ 1
X̄ > µ0 + n
si 0 ≤ α ≤ 2 X̄ > µ0 + √ t
n n−1,2α
si 0 ≤ α ≤ 2
Wα1 = n o Wα1 = n
S′
o
 X̄ > µ0 − √σ u2(1−α ) si 1 ≥ α ≥ 21  X̄ > µ0 − √ t si 1 ≥ α ≥ 1
n n o n n−1,2(1−α) 2
Wα2 = X̄ < µ0 − √σn φ−1 (1 − α) si 0 ≤ α ≤ 1
 n o  n o
S′
 X̄ < µ0 − √σn u2α si 0 ≤ α ≤ 12  X̄ < µ0 − √ t
n n−1,2α
si 0 ≤ α ≤ 1
2
Wα2 = n o Wα2 = n
S′
o
 X̄ < µ0 + √σ u2(1−α ) si 1 ≥ α ≥ 1  X̄ < µ0 + √ t si 1 ≥ α ≥ 1
n 2 n n−1,2(1−α) 2
n Wα3 = o n Wα3 = o
√σ uα √σ uα S′ S′
X̄ < µ0 − ou X̄ > µ0 + X̄ < µ0 − √ tn−1,α ou X̄ > µ0 + √ tn−1,α
n n o n nn on
√σ uα S′
= |X̄ − µ0 | > n
= |X̄ − µ0 | > √ t
n n−1,α
5.3 Test sur la variance σ 2

Modèle : X1 , ..., Xn , échantillon aléatoire de la variable X de loi N (µ, σ 2 ) avec θ = σ 2
inconnu, µ éventuellement connue et θ0 = σ02 fixé.
22
Pour les tests 1, 2 et 3 on notera Wαj la région de rejet de niveau α du test de type j de
niveau α (avec 0 ≤ α ≤ 1). Les régions de rejet dépendent de la connaissance ou non de µ et
sont données par :
µ connue µninconnue o
z z
Wα1 = V 2 > σ02 n,α n Wα1 = S ′2 > σ02 n−1,α
n−1 o
n
z zn−1,1−α
Wα2 = V 2 < σ02 n,1−α n
2 ′2
Wα = S < σ0 n−1 2
n o n o
Wα3 = V 2 > σ 2 zn,α/2 ou V 2 < σ 2 zn,1−α/2 Wα3 =
z
S ′2 > σ02 n−1,α/2 ou S ′2 < σ 2 zn−1,1−α/2
0 n 0 n n−1 0 n−1
5.4 Test sur une proportion p

Modèle : X1 , ..., Xn , échantillon aléatoire de la variable X de loi B(n0 , p) avec θ = p inconnu,
n0 connu et θ0 = p0 fixé. Pour ce modèle, on supposera n assez grand, c’est-à-dire : n0 np0 > 10
et n0 n(1 − p0 ) > 10. On notera Wαj la région de rejet du test de type j, de niveau approximatif
α . On a défini Pn = X̄/n0 . Dans le cas du modèle de Bernoulli on a n0 = 1 et Pn = Fn .
Les régions de rejet de niveau approximativement α sont données par :
q
p0 (1−p0 ) −1
Wα1 = Pn > p0 + n0 n φ (1 −α si 0 ≤ α ≤ 1
 q

 p0 (1−p0 ) 1
 Pn > p0 + n0 n u2α si 0 ≤ α ≤ 2
Wα1 = q

 p0 (1−p0 ) 1
 Pn > p0 − n0 n u2(1−α) si 1 ≥ α ≥ 2
q
p0 (1−p0 ) −1
Wα2 = Pn < p0 − n0 n φ (1 −α si 0 ≤ α ≤ 1
 q

 p0 (1−p0 ) 1
 Pn < p0 − n0 n u2α si 0 ≤ α ≤ 2
Wα2 = q

 p0 (1−p0 ) 1
 Pn < p0 + n0 n u2(1−α) si 1 ≥ α ≥ 2
q q q
p0 (1−p0 ) p0 (1−p0 ) p0 (1−p0 )
Wα3 = Pn < p0 − n0 n uα ou Pn > p0 + n0 n uα = |Pn − p0 | > n0 n uα
5.5 p-valeur
Revenons au problème de santé publique portant sur la variable A :
Modèle : A1 , ..., An échantillon de la variable A de loi B(7, p). Pour les données observées
a1 , ..., a32 on a p̂ = ā/7 = 0.603. On sait de plus que, si 7p < 5, une campagne sera lancée. On
traduit alors mathématiquement “il faut lancer une campagne ” par H1 : p < 5/7 et “pas besoin
de campagne” par H0 : p = 5/7. En appliquant le test de type 2 pour une proportion avec des
niveaux α = 0.01%,p ..., 30% on obtient les régions de rejets, plus précisement, les bords donnés
par Cα = 5/7 − u2α (5/7) ∗ (2/7)/224 et les décisions suivantes :
α 0.01% 0.1% 1% 10% 20% 30%

Cα 0.602 0.621 0.644 0.676 0.689 0.698
décision non rejet de H0 rejet de H0 rejet de H0 rejet de H0 rejet de H0 rejet de H0
Il est clair d’après ce tableau que la décision de rejeter H0 (soit d’accepter H1 ) dépend du
risque de se tromper que l’on est prêt à prendre. En effet si le risque de rejet à tort de H0 α est
inférieur à 0.01% les données conduisent à ne pas la rejeter (en effet on a alors p̂ = 0.603 ≥ Cα ).
Par contre si α ≥ 0.1% on rejette H0 et on accepte H1 avec un risque de se tromper de α ≥ 0.1%.
23
Il y a donc une valeur α∗ comprise entre 0.01% et 0.1% au delà de laquelle le jeu de données
conduit à rejeter H0 dans un test de niveau α.
Cette valeur α∗ est une fonction de n et du jeu de données (au travers de θ̂). C’est la valeur
renvoyée par un logiciel de statistique, lorsqu’on lui fournit la forme de l’alternative (ici <), la
cible θ0 (ici 5/7) et les observations x1 , ..., xn (ici a1 , ..., a32 ).
Définition : La p-valeur d’un test de type j (j = 1, 2, 3) est la valeur la plus grande du
risque de première espèce, pour lequel on ne rejette pas H0 . Autrement dit la p-valeur d’un test,
est la quantité α∗ qui satisfait :
– si α ≤ α∗ au niveau α on ne rejette pas H0 .
– si α > α∗ au niveau α on rejette H0 .
Remarques :
- En pratique, on calcule cette p-valeur comme le α∗ pour lequel Cα∗ = θ̂.
- Lorsqu’une p-valeur est proche de 0, cela signifie que l’on accepte H1 presque sans risque
de se tromper. La proximité à 0 de la p-valeur indique donc un grand degré de fiabilité de H1 .
- Au contraire une p-valeur proche de 1 indique unp grand degré de fiabilité de H0 .
∗
Dans l’exemple ci-dessus α satisfait 5/7 + u2α (5/7) ∗ (2/7)/224 = 0.603 soit α∗ =
∗
0.0108%.
Ainsi les données collectées conduisent à conclure qu’il est nécéssaire de lancer une campagne
de sensibilisation tant que le risque de la lancer à tort dépasse 0.0108%.
24
Chapitre 6
Tests de comparaison d’échantillons
On se demande, à présent, si le poids d’un étudiant de l’amphi dépend de son sexe et si ce

poids dépend de son âge. Pour cela, on dispose des poids observés sur 32 étudiants dont n1 = 24
sont des filles et n2 = n − n1 = 8 sont des garçons, à 15 ans et à 20 ans. On va donc comparer
des échantillons pour répondre à ces deux questions.
Remarquons que pour évaluer l’influence du sexe sur le poids à 20 ans, on dispose de l’ob-
servation d’une même variable (le poids à 20 ans) sur des individus différents : d’une part
n1 = 24 filles et d’autres part n2 = 8 garçons. Les échantillons de données seront dans ce cas
dits indépendants.
En revanche, pour juger d’une différence éventuelle du poids entre l’âge de 15 ans et l’âge de
20 ans, on dispose de l’observation de deux variables différentes, (c.-à-d. le poids à 15 ans et le
poids à 20 ans) sur les mêmes individus. Dans ce cas, on parlera d’échantillons appariés.
On se propose dans cette partie de construire des tests de comparaison de moyennes, de pro-
portions ou de variances. Nous allons d’abord traiter le cas le plus simple, celui des échantillons
appariés.
6.1 Echantillons appariés

Modèle : Soient Y et Y deux variables aléatoires de moyennes inconnues µX et µY . Soit
D = X − Y . Nous supposerons que D est une variable aléatoire gaussienne de moyenne µD =
µX − µY et de variance inconnue σD 2 : N (µ , σ 2 ).
D D
Données : on a observé le couple (X, Y ) pour n individus et obtenu : x1 , ..., xn et y1 , ..., yn . On
dispose donc de n observations de D : d1 = x1 − y1 , ..., dn = xn − yn .
On veut tester H0 : µD = 0 contre H1 : µD > 0 (ou µD < 0), ou H0 : µD = 0 contre
H1 : µD 6= 0.
Pour cela, il suffit d’appliquer les tests paramétriques (unilatéral et bilatéral) d’égalité d’une
moyenne à 0, pour un modèle gaussien avec variance inconnue. Les deux régions de rejet Wα1 et
Wα3 sont donc données par
( ′
) ( ′
)
S 1 S
Wα1 = D̄ > √D tn−1,2α = {T > tn−1,2α } α ≤ ; Wα3 = |D̄| > √D tn−1,α = {|T | > tn−1,α } ,
n 2 n
où T = D̄/(SD ′ /√n).
Décisions :
¯ ′ /√n) > tn−1,2α , alors on accepte H1 : µD > 0 avec un risque de se tromper
– si tcalc = d/(s D
de α.
¯ ′ /√n) > tn−1,α , alors on accepte H1 : µD 6= 0 avec un risque de se
– si |tcalc | = |d|/(sD
tromper de α.
Exemple : X le poids à 15 ans et Y le poids à 20 ans....
25
6.2 Echantillons indépendants
6.2.1 Comparaisons de moyennes
Modèle : Soient X1 et X2 deux variables aléatoires indépendantes et de loi respectives
N (µ1 , σ12 ) et N (µ2 , σ22 ).
Données : on a observé un échantillon pour X1 de taille n1 et un échantillon pour X2 de taille
n2 . On notera x̄1 , x̄2 , s21 et s22 les moyennes et variances de ces deux échantillons de données.
En général, X1 et X2 décrivent un même caractère sur deux populations différentes P1 et
P2 .
Par exemple, sur les données de poids on observe d’une part les poids d’une sous-population
prélevée dans la population des filles et d’autre part les poids d’une seconde sous-population
prélevée dans la population des garçons. Ainsi µ1 (resp. µ2 ) est le poids moyen sur la population
P1 (resp. P2 ) et σ12 (resp. σ22 ) la variance du poids de la population P1 (resp. P2 ). Dans ce cas, si
on veut montrer que le poids dépend du sexe, on choisira H1 : µ1 − µ2 6= 0 et si on veut montrer
que le poids d’une femme est en moyenne moins important que celui d’un homme on prendra :
H1 : µ1 − µ2 < 0.
On veut donc tester H0 : µ1 − µ2 = 0 contre H1 : µ1 − µ2 > 0 (ou µ1 − µ2 < 0), ou
H0 : µ1 − µ2 = 0 contre H1 : µ1 − µ2 6= 0.
Selon les tailles des échantillons et les informations dont on dispose sur les paramètres σ12 et
2
σ2 , on utilisera des tests différents.
1. Echantillons de petites tailles : n1 < 100 et n2 < 100
Dans ce cas, on ne sait proposer un test que dans les situations où σ12 et σ22 sont connues
ou dans celle où elles sont inconnues mais supposées égales.
Les variances de la population σ12 et σ22 sont connues
Comme sous l’hypothèse H0 , la variable U = qX̄σ12−X̄σ22 suit une loi N (0, 1), les régions de
1+ 2
n1 n2
rejet des tests de type 1 et 2 sont données par :
1
Wα1 = {U > u2α } α ≤ ; Wα3 = {|U | > uα }.
2
Décisions :
– si ucalc = qx̄σ12−x̄2σ2 > u2α , alors on accepte H1 : µ1 −µ2 > 0 avec un risque de se tromper
1+ 2
n1 n2
de α ;
– si |ucalc | > uα , alors on accepte H1 : µ1 − µ2 6= 0 avec un risque de se tromper de α.
S’il arrive que σ12 et σ22 soient connues, cela est cependant peu fréquent, et dans le cas où
σ12 et σ22 sont inconnues, on ne sait traiter le problème que si elles sont égales.
Les variances de la population σ12 et σ22 sont inconnues mais supposées égales
La variable U précédente n’est plus utilisable pour effectuer le test puisqu’elle dépend
d’inconnues. Elle sera remplacée par la variable T qui est l’analogue de U avec σ12 et σ22
remplacées par leur estimateur commun Σ :
(n1 − 1)S1′2 + (n2 − 1)S2′2 X̄1 − X̄2

Σ2 = et T =r .
n1 + n2 − 2 1 1
Σ2 n1 + n2
Sous l’hypothèse H0 et supposant que σ12 = σ22 = σ 2 , la variable (n1 + n2 − 2)Σ2 /σ 2 suit
une loi du Chi2 à n1 + n2 − 2 degrés de liberté : Xn21 +n2 −2 . On en déduit que, sous les
mêmes hypothèses, T suit une loi de Student à n1 + n2 − 2 degrés de liberté. Les régions
de rejet des tests de type 1 et 2 sont données par :
1
Wα1 = {T > tn1 +n2 −2,2α } α ≤ et Wα3 = {|T | > tn1 +n2 −2,α }.
2
26
L’estimation σˆ2 de σ 2 est le résultat de l’application de Σ2 aux données.
Décisions :
– si tcalc = qx̄1ˆ2−x̄2ˆ2 > tn1 +n2 −2,2α , alors on accepte H1 : µ1 − µ2 > 0 avec un risque de se
σ σ
n1
+n
2
tromper de α.
– si |tcalc | > tn1 +n2 −2,α , alors on accepte H1 : µ1 − µ2 6= 0 avec un risque de se tromper de
α.
2. Les échantillons sont de grandes tailles : n1 ≥ 100 et n2 ≥ 100
Dans ce cas, que les variances σ12 et σ22 soient égales ou non, les régions de rejet de H0 :
µ1 = µ2 contre H1 : µ1 > µ2 ou contre H1 : µ1 6= µ2 sont données par :
X̄1 − X̄2
Wα1 = {U > u2α } et Wα3 = {|U | > uα } avec U=r ;
S1′2 S2′2
n1 + n2
car, pour de grands effectifs, la variable U suit approximativement une loi normale centrée
réduite. Les tests proposés sont de ce fait approximativement de niveau α. On peut remar-
quer que les échantillons étant de grandes tailles, dans U , S1′2 et S2′2 peuvent être remplacés
par S12 et S22 .
6.2.2 Comparaison de proportions

Les deux tests précédents peuvent être appliqués à de grands échantillons de variables
de Bernoulli (ou de variables binomiales). Autrement dit, il n’est pas nécessaire de supposer
les variables X1 et X2 normales pour comparer leurs moyennes (dans ce cas, les paramètres
inconnus testés sont µ1 = p1 = IP(X1 = 1) et µ2 = p2 = IP(X2 = 1)). Par contre, il faut encore
supposer les variables X1 et X2 indépendantes.
6.2.3 Comparaisons de variances

Certaines questions posées seront traduites par un test de comparaison de variances d’un
même caractère sur deux populations différentes. On peut également souhaiter évaluer s’il est
raisonnable, dans le cas de petits échantillons, de supposer les deux variances σ12 et σ22 égales.
Modèle : Soient X1 et X2 deux variables aléatoires indépendantes et de loi respectives N (µ1 , σ12 )
et N (µ2 , σ22 ) avec µ1 , µ2 , σ12 et σ22 inconnues.
Données : on a observé un échantillon pour X1 de taille n1 et un échantillon pour X2 de taille
n2 .
On souhaite effectuer les tests unilatéraux (types 1 et 2) :
H0 : σ12 /σ22 = 1 contre H1 : σ12 /σ22 > 1
H0 : σ12 /σ22 = 1 contre H1 : σ12 /σ22 < 1

ou le test bilatéral (de type 3) :
H0 : σ12 /σ22 = 1 contre H1 : σ12 /σ22 6= 1.
Pour construire ces tests, on utilisera la variable aléatoire F , obtenue comme le rapport des
estimateurs de σ12 et σ22 :
n1 S12 ′
n1 −1 S12
F = = ′ .
n2 S22 S22
n2 −1
n S2 n S2
Rappelons que σ1 2 1 et σ2 2 1 suivent respectivement des lois Xn21 −1 et Xn22 −1 . Ainsi, sous
1 2
l’hypothèse H0 , la variable F est égale au rapport de deux Chi2 divisés par leur degrés de
27
libertés respectifs. Sous H0 , la loi de F est donc celle d’une variable de Fisher-Snedecor à
(n1 − 1, n2 − 1) degrés de liberté Fn1 −1,n2 −1 . Remarquons également que 1/F suit aussi une loi
de Fisher-Snedecor de degrés (n2 − 1, n1 − 1).
Les régions de rejet suivantes permettent d’effectuer les trois tests au niveau α :
Wα1 = {F > fn1 −1,n2 −1,α } avec IP(Fn1 −1,n2 −1 > fn1 −1,n2 −1,α ) = α,
Wα2 = {F < 1/fn2 −1,n1 −1,α } avec IP(Fn2 −1,n1 −1 > fn2 −1,n1 −1,α ) = α et
Wα3 = {F > fn1 −1,n2 −1,α/2 ou F < 1/fn2 −1,n1 −1,α/2 }.
Décisions :
′ ′
– si fcalc = s12 /s22 > fn1 −1,n2 −1,α , alors on accepte H1 : σ12 > σ22 avec un risque de se tromper
de α.
′ ′
– si fcalc = s12 /s22 < 1/fn2 −1,n1 −1,α , alors on accepte H1 : σ12 < σ22 avec un risque de se
tromper de α.
′ ′ ′ ′
– si fcalc = s12 /s22 > fn1 −1,n2 −1,α/2 ou si fcalc = s12 /s22 < 1/fn2 −1,n1 −1,α/2 alors on accepte
H1 : σ12 6= σ22 avec un risque de se tromper de α.
′ ′
– si 1/fn2 −1,n1 −1,α/2 ≤ s12 /s22 ≤ fn1 −1,n2 −1,α/2 , alors on accepte H0 : σ12 = σ22 avec un risque
de se tromper de 1 − α.
Remarque : Lorsque l’ on souhaite vérifier l’égalité des variances afin de le poser en hypothèse
pour effectuer une comparaison de moyenne à l’aide de petits échantillons, on se donne un niveau
α grand. En effet, rappelons que lorsque la conclusion d’un test est d’accepter H0 , elle est donnée
avec un risque d’erreur de 1 − α. Autrement dit, on jugera raisonnable d’accepter l’égalité des
variances si la p−valeur du test est proche de 1.
28
Chapitre 7
Tests du Chi2
A l’aide des tests proposés dans le chapitre précédent, nous avons pu répondre à la question :
“le poids moyen d’une fille est-il inférieur à celui d’un garçon ?”. Nous avons conclu, à l’aide des
données observées, qu’avec un risque d’erreur de α tel que α > α∗ la réponse était oui. Cela
suffit pour dire que la variable poids d’une fille modélisée par X1 n’a pas la même distribution
que la variable poids d’un garçon modélisée par X2 . Par conséquent on conclut que le poids
est un caractère qui dépend du sexe pour tout risque > α∗ . Par contre, si la réponse avait été
“le poids moyen d’une fille est le même que celui d’un garçon”, nous n’aurions pu directement
conclure à l’indépendance entre le poids et le sexe. En effet, il faudrait pour cela comparer la
distribution observée du poids d’une fille à celle du poids d’un garçon. Si ces deux distributions
observées, sont proches l’une de l’autre alors on pourra conclure à l’indépendance entre le poids
et le sexe. Un des tests permettant de répondre, statistiquement, à cette question s’appelle test
d’indépendance du Chi2.
D’autre part, dans tous les tests rencontrés jusqu’ici, une hypothèse sur la loi de probabilité de
la variable modélisant le caractère étudié est posée. En effet, en général on a supposé les variables
de lois normales. De même que l’hypothèse d’égalité des variances peut être statistiquement
vérifiée, celle posée sur la distribution théorique de la variable étudiée peut aussi être validée
à l’aide d’un test. Nous étudierons ici un test construit à l’aide d’une variable du Chi2, appelé
test d’adéquation du Chi2. Nous commencerons par l’étude du test d’adéquation, qui a déjà été
rencontré lorsque nous avons calculé le d2 sur les données “alimentation” : a1 , ..., a32 .
7.1 Test d’adéquation du Chi2

Nous allons d’abord développer ce test en détails dans le cas de données discrètes ou quantita-
tives. L’extension à une variable aléatoire continue en découlera simplement moyennant quelques
modifications.
7.1.1 Variable discrète ou qualitative

Modèle : X1 , ...., Xn , échantillon aléatoire d’une variable X de fonction de répartition in-
connue F . On suppose que l’on connait l’ensemble des valeurs possibles de X, X = {m1 , ..., mq }.
Notons Nk la variable aléatoire définie comme le nombre de variables Xi de l’échantillon aléatoire
qui prennent la valeur mk . On construit ainsi une suite de variables aléatoires N1 , ..., Nq .
Données : x1 , ..., xn qui représentent les réalisations de X1 , ..., Xn sont souvent remplacées par
les réalisations de N1 , ..., Nq notées n1 , ..., nq . En effet lorsque l’on observe un échantillon d’assez
grande taille n ≥ 20, le tableau de données en effectifs est plus court à décrire que la suite des
P
n observations. Rappelons que l’on a évidemment qk=1 nk = n.
Nous voulons donc répondre à la question “la variable X suit-elle une distribution donnée
F ?”. Cette distribution F ∗ est décrite par des probabilités fixées p∗1 , ..., p∗q . D’autre part nous
∗
noterons pk = IP(X = mk ).
29
Nous allons construire un test de
H0 : X suit la loi F ∗ contre H1 : X ne suit pas la loi F ∗ ;
qui s’écrit aussi
H0 : pour tout k, pk = p∗k contre H1 : il y a une valeur de k telle que pk 6= p∗k .
L’hypothèse H0 traduit l’adéquation de la variable étudiée à la loi F ∗ .

P
En posant δ 2 = nk=1 (npk −np∗k )2 /(np∗k ), l’hypothèse H0 s’écrit δ 2 = 0. Ainsi notre problème
peut être ramené au test suivant :
H0 : δ 2 = 0 contre H1 : δ 2 > 0.
On va donc construire un estimateur de δ 2 , D2 puis à l’aide de la loi de D2 on ajuste la

région de rejet {D2 > Cα } pour que la probabilité de rejet de H0 alors qu’elle est vraie soit α.
Les pk étant inconnues on les estime à l’aide de l’échantillon X1 , ..., Xn qui fournit la suite
de variables N1 , ..., Nq . En effet, on montre que Nk /n est un estimateur sans biais et convergent
de pk . Ainsi (Nk − np∗k )2 /(np∗k ) est un estimateur de (npk − np∗k )2 /(np∗k ). On utilisera donc la
variable aléatoire suivante pour construire le test :
q
X (Nk − np∗k )2
D2 = .
k=1
np∗k
Sous l’hypothèse H0 , et si de plus np∗k ≥ 5, alors D2 suit une loi du Chi2 à q − 1 degrés de
2 . La région de rejet du test de niveau approximatif α est donc donnée par :
liberté Xq−1
Wα = {D2 > zq−1,α }.
L’application de D2 aux données fournit une estimation du paramètre inconnu δˆ2 et elle est
notée d2 (c.-à d. δˆ2 = d2 ).
Décision :
– si d2 > zq−1,α on refuse l’adéquation à la distribution F ∗ avec un risque d’erreur de α ;
– sinon on accepte l’adéquation avec un risque d’erreur de 1 − α.
Le test d’adéquation donne un exemple de situation où c’est l’hypothèse H0 que l’on souhaite
accepter. Par conséquent si l’on souhaite valider l’adéquation avec peu de risque de se tromper,
on choisira α proche de 1. Si aucun risque d’erreur n’est indiqué pour faire le test, on jugera
l’adéquation satisfaisante si la p-valeur, α∗ de ce test est proche de 1. La p-valeur satisfait
d2 = zq−1,α∗ .
Exemple de l’alimentation :
On souhaite répondre à la question : “le nombre de jours par semaine où le nombre de fruits
et légumes consommés est d’au moins quatre, suit-il une répartition uniforme ?”. Nous avons
déjà calculé le d2 dans le chapitre 1 et obtenu δˆ2 = d2 = 23, d’où α∗ = 0.17%. Par exemple,
pour α = 5% on refuse H0 (c.à d. l’adéquation) et on conclut avec un risque d’erreur de 5% :
il n’y a pas adéquation des données à la distribution uniforme. Nous avions également comparé
la distribution observée avec une loi binomiale B(7, 0.5) et obtenu dans ce cas d2 = 11.276. Si
c’est un peu mieux que l’adéquation précédente, on obtient cependant une p-valeur assez loin
de 1 puisqu’elle est de α∗ = 12.7% . On se propose maintenant de tester l’adéquation à une
loi binomiale B(7, p) mais où l’on ne fixe pas, p à priori. Dans ce cas on estime p, à partir des
données et on obtient p̂ = 0.603 (voir chap. 4). On obtient le tableau suivant :
X 0 1 2 3 4 5 6 7
eff. obs. 0 1 2 6 9 9 4 1 d2
p. th.B(7, p̂) 0.16% 1.66% 7.55% 19.09% 28.96% 26.36% 13.33% 2.89%
eff. th.B(7, p̂) 0.05 0.53 2.42 6.11 9.27 8.43 4.26 0.92 0.606
30
Dans ce cas la variable D2 qui fournit l’estimation δˆ2 = d2 suit une loi du Chi2 à 6 degrés de
libertés (au lieu de 7 pour les deux lois précédemment testées) car il a fallu estimer un paramètre
pour calculer les effectifs théoriques. Ainsi on obtient dans ce cas une p-valeur α∗ qui satisfait
0.606 = z6,α∗ soit α∗ = 99.63%. L’adéquation à la B(7, 0.6027) est bien meilleure que celle aux
deux autres distributions envisagées. Elle est même très satisfaisante puisqu’à moins de prendre
un risque, de rejeter à tort l’adéquation, supérieur à 99.63% les données ne permettent pas de
rejeter l’hypothèse indiquant la distribution B(7, 0.6027).
Remarquons qu’ici, l’échantillon est de trop petite taille pour que les conditions np∗k ≥ 5
soient vérifiées ce qui nous interdit en principe d’appliquer le test d’adéquation en envisageant
de faire autant de catégories que de modalités. Le test est ainsi effectué pour conserver les mêmes
classes que celles étudiées comme exemple à la fin du premier chapitre, lors du calcul de d2 .
Afin de ne rencontrer aucune catégorie ayant un effectif théorique inférieur à cinq nous
devrions réunir les quatres premières classes en une seule et les deux dernières en une seule.
Ainsi la classe réunissant les modalités 0, 1, 2 et 3 aurait un effectif théorique de 9.11 à comparer
avec l’effectif observé 9 et la dernière classe englobant les modalités 6 et 7 aurait un effectif
théorique de 5.19 et un effectif observé de 5. Une répartition des modalités en quatre classes
conduit à d2 = 0.054 et donne une p-valeur de α∗ = 97.35%
Souvent, on cherche à valider l’adéquation à une distribution partiellement connue. Par
exemple, “les observations sont-elles issues d’une loi gaussienne ou binomiale ?” sans en préciser
les paramètres.
Cas de F ∗ partiellement donnée :
Lorsque la loi F ∗ est connue à r paramètres près (dans l’exemple précédent un paramètre
est estimé) ces paramètres sont estimés et si q ≥ r + 2, la variable D2 suit alors une loi du Chi2
à q − 1 − r degrés de libertés et la région de rejet du test d’ádéquation de niveau α est donnée
par :
Wα = {D2 > zq−1−r,α }.
7.1.2 Variable continue

Lorsque la variable observée est à valeurs dans un intervalle de IR. On partitionne cet in-
tervalle en q classes, notées [e0 , e1 ], ..., ]eq−1 , eq ]. On procède ensuite comme précédemment en
remplaçant les modalités mk par les classes ]ek−1 , ek ]. Les probabilités p∗k qui “caractérisent” la
distribution F ∗ à laquelle on souhaite vérifier l’adéquation sont définies comme :
p∗k = F ∗ (ek ) − F ∗ (ek−1 ) = IP(ek−1 ≤ X ≤ ek |H0 vraie).
L’ effectif observé nk est le nombre d’éléments de l’échantillon observé, x1 , ..., xn , qui sont
tombés dans la classe k.
Exemple du “poids d’une fille” :
Dans le chapitre 6 pour comparer le poids moyen d’une fille (à 20 ans) à celui d’un garçon
(à 20 ans), nous supposons que la variable poids d’une fille X1 a une distribution normale (idem
pour le poids d’un garçon). Sur l’échantillon de taille n1 = 24 nous avons observé les poids
suivants : 49, 53, 50, ..., 55, 68. Ces valeurs sont toutes dans l’intervalle [40, 70] que l’on peut,
par exemple, découper en quatre classes : [40, 49], ]49, 54], ]54, 60] et ]60, 70]. Nous voulons tester
l’adéquation de la distribution observée à une loi normale de moyenne µ et de variance σ 2
inconnues. On a déja vu que ce jeu de données fournit les estimations µ̂ = 54.19 et σˆ2 = 54.4229
et on a
ek − µ̂ ek−1 − µ̂
p∗k = Φµ̂,σ̂ (ek ) − Φµ̂,σ̂ (ek−1 ) = Φ −Φ .
σ̂ σ̂
On obtient le tableau suivant :
31
[40, 70] [40,49] ]49,54] ]54,59] ]59,70]
eff. obs. 7 8 4 5 d2
pr. th. N (µ̂, σˆ2 ) 21.44% 24.91% 25.28% 24.03%
eff. th. N (µ̂, σˆ2 ) 6.86 7.97 8.1 7.69 3.011
La p-valeur, α∗ qui satisfait z1,α∗ = 3.011 vaut 8.27%. Le résultat du test d’adéquation est
ici très peu satisfaisant puisque l’on accepte l’adéquation à la N (µ̂, σˆ2 ) qu’à condition de limiter
le risque de la rejeter à tort à 8.27%.
7.2 Test d’indépendance du Chi2

Comme dans la partie précédente, nous développons ce test en détails dans le cas de données
discrètes ou quantitatives. L’extension à des variables aléatoires continues en découlera simple-
ment moyennant les mêmes modifications que dans le test d’adéquation.
7.2.1 Variables discrètes ou qualitatives

Modèle : (X1 , Y1 ), ...., (Xn , Yn ), échantillon aléatoire d’un couple de variables aléatoires X
et Y à valeurs dans X = {m1 , ..., mq } et Y = {m̃1 , ..., m̃p }.
Notons Nij la variable aléatoire définie comme le nombre de couples (Xk , Yk ) de l’échantillon
aléatoire (X1 , Y1 )...., (Xn , Yn ) qui prennent les valeur (mi , m̃j ). On construit aussi les variables
aléatoires N1. , ..., Nq. et N.1 , ..., N.p définies comme :
p
X q
X
N.k = Nkj et Nk. = Nik .
j=1 i=1
N.k indique le nombre de couples dans l’échantillon aléatoire pour lesquels X prend la valeur
mk et Nk. le nombre de couples dans l’échantillon aléatoire pour lesquels Y prend la valeur m̃k .
Données : (x1 , y1 ), ..., (xn , yn ) qui représentent les réalisations de (X1 , Y1 ), ..., (Xn , Yn ) sont en
général remplacées par le tableau à double entrées des effectifs nij réalisations des Nij . Ce tableau
est appelé tableau de contingence et a la forme suivante :
Y m̃1 ... m̃j ... m̃p Total

X
m1 n11 ... n1j ... n1p n1.
..
.
mi ni1 ... nij ... nip ni.
..
.
mq nq1 ... nqj ... nqp nq.
Total n.1 ... n.j ... n.p n.. = n
L’objectif est ici de répondre à la question : “X et Y sont-elles indépendantes ? ”.

L’indépendance entre X et Y est mathématiquement définie par :
IP(X = mi , Y = m̃j ) = IP(X = mi )IP(X = m̃j ), pour tout (i, j).
De façon équivalente l’indépendance entre X et Y s’écrit aussi δ 2 = 0 avec δ 2 défini comme :

X (IP(X = mi , Y = m̃j ) − IP(X = mi )IP(X = m̃j ))2
δ2 = n · .
i,j
IP(X = mi )IP(X = m̃j )
En plaçant l’hypothèse d’indépendance sous H0 on est amené à poser le test suivant :
H0 : δ 2 = 0 contre H1 : δ 2 > 0.
32
Comme Nij /n (resp. Ni. /n, N.j /n) est un bon estimateur de IP(X = mi , Y = m̃j ) (resp.
IP(X = mi ), IP(Y = m̃j )), on utilisera l’estimateur de δ 2 suivant :
2
Ni. N.j
X Nij − n
D2 = Ni. N.j
.
i,j n
Sous l’hypothèse H0 et si p ≥ 2 et q ≥ 2, D2 suit une loi du Chi2 à (p − 1)(q − 1) degrés de

2
liberté X(p−1)(q−1) . La région de rejet du test de niveau approximatif α est donc donnée par :
Wα = {D2 > z(p−1)(q−1),α }.
L’application de D2 aux données, qui fournit l’estimation δˆ2 est notée d2 .

Décision :
– si d2 > z(p−1)(q−1),α on refuse l’indépendance entre X et Y avec un risque d’erreur de α ;
– sinon on accepte l’indépendance avec un risque d’erreur de 1 − α.
La p-valeur de ce test est donnée par α∗ tel que z(p−1)(q−1),α∗ = d2 .
7.2.2 Variable(s) continue(s)

Lorsque l’une ou l’autre des deux variables est continue on procède comme ci-dessus en
remplaçant modalité mk par classe ]ek−1 , ek ].
Exemple poids/sexe :
Pour répondre à la question : “le poids (à 20 ans) d’un individu de l’amphi dépend-il de son
sexe ?”, on va appliquer le test précédent au couple (sexe, poids). Le sexe, X prend les modalités
1 ou 0. Le poids Y est à valeurs dans [40, 80] décomposé en deux classes : [40, 60] et ]60, 80].
On a observé les effectifs (premières lignes des cases du tableau) et calculé les ni. n.j /n (seconde
ligne du tableau) :
Y [40, 60] ]60, 80] Total

X
1 20 4 24
480/32 288/32
0 0 8 8
160/32 96/32
20 8 32
On obtient δˆ2 = d2 = 17.78 et α∗ = 2.48%. On refuse donc H0 pour tout risque d’erreur
supérieur à 2.48%. Autrement dit on conclut que le poids dépend bien du sexe dès que l’on
accepte un risque d’erreur supérieur à 2.48%.
33
Chapitre 8
Régression linéaire simple
Dans cette partie on dispose de n couples de données (xi , yi ), i = 1...n et on se propose

d’expliquer yi par une fonction linéaire de xi commune à tous les individus. On va donc chercher
un couple (a, b) tel que yi ≈ axi + b. Les démarches et résultats enoncés dans la suite seront
illustrés sur l’exemple des couples, (taille, poids à 20 ans), donnés dans l’introduction de ce cours.
On notera ici xi la taille du i-ème individu de l’échantillon et yi son poids. On se propose donc
d’expliquer le poids linéairement en fonction de la taille. Nous allons commencer par faire une
étude descriptive des données, puis après avoir posé un modèle sur ces données nous en ferons
l’étude dite inductive. Elle consistera à estimer les paramètres inconnus du modèle, à vérifier
que le modèle supposé est raisonnable puis enfin à proposer une prévision de y0 pour un nouvel
individu pour lequel on connait x0 . Dans l’exemple présenté, il s’agira de prévoir le poids d’un
individu prélevé dans l’amphi qui sera noté yi et dont on connait la taille notée xi . La variable
à expliquer (qui fournit les yi ) s’appelle variable endogène et la variable explicative (qui fournit
les xi ) s’appelle variable exogène. Les caractéristiques numériques sont rappelées dans le tableau
suivant :
x̄ ȳ s2x s2y cov(x, y) = cx,y
168.8 58.5 73.83 103.31 9938.31
Table 8.1 – Caractéristiques numériques
8.1 Approche descriptive.

On suppose que les mesures (xi , yi )i=1,n sont telles que pour chaque individu i, la valeur yi
est approximativement égale à axi + b (où a et b sont des constantes inconnues) :
yi = axi + b + di , ∀i = 1, . . . , n.
Ici di représente l’ écart entre yi et son approximation linéaire axi + b. Les paramètres a et b
sont des quantités inconnues que l’on cherche à estimer.
La variable Y est la variable expliquée (endogène) alors que X est la variable explicative
(exogène).
8.1.1 Droite des moindres carrés ou droite de régression.

On cherche à trouver une droite d’équation y = ax + b qui soit la plus proche possible du
nuage de points. La droite des moindres carrées minimise le critère suivant :
n n
1X 1X
f (a, b) = (yi − axi − b)2 = d2 .
n i=1 n i=1 i
34
On cherche donc à minimiser la moyenne des carrés des erreurs. Il s’agit de trouver le minimum
d’un polynôme de second degré en les variables a et b. L’extremum est atteint au point qui
annule les deux dérivées partielles.
∂f
(a, b) = 2x2 a + 2xb − 2xy = 0
∂a
∂f
(a, b) = 2b + 2xa − 2y = 0.
∂b
On déduit la droite des moindres carrés, de pente â et d’ordonnée à l’origine b̂, en cherchant le
couple (â, b̂) solution du système précédent et on obtient :
xy − x · y cx,y
â = 2
= 2
2
x −x sx
b
b = y−a bx
et on vérifie aisément qu’il s’agit bien d’un minimum.

Remarques : La droite des moindres carrés passe par le point moyen (x, y). Les points (xi , yi )
sont les données observées ; les points (xi , ŷi ) avec ŷi = âxi + bb sont les points ajustés sur la
droite des moindres carrés.
8.1.2 Coefficient de corrélation linéaire empirique.

La représentation de la droite des moindres carrés avec le nuage de points peut mettre en évidence
une structure qui ne résulterait pas du hasard. Il est donc utile d’introduire un coefficient qui
mesure le degré de linéarité entre les points observés (quantité empirique notée cx,y ) et appelée
covariance empirique : cx,y = xy − x̄ · ȳ. Plutôt que la covariance, on préfère utiliser le coefficient
de corrélation linéaire qui permet une mesure normalisée du degré de linéarité. Ce coefficient est
défini par rx,y = cx,y /(sx sy ). Il est toujours compris entre −1 et 1.
En général, les logiciels fournissent aussi le coefficient de détermination défini comme le carré
2 . r 2 représente également la part de variance
du coefficient de corrélation linéaire et noté rx,y x,y
expliquée par la régression linéaire de y sur x.
Cependant la proximité du coefficient de corrélation linéaire à 1 ne suffit pas à justifier le
modèle proposé. Nous verrons dans l’approche inductive comment le valider complètement.
8.2 Approche inductive.

8.2.1 Le modèle.
On considère ici le modèle de régression linéaire simple : Yi = axi + b + εi où εi → N (0, σ 2 ) et
les variables aléatoires εi sont indépendantes.
Les estimations de a et b sont données par â et b̂ définissant la pente et l’ordonnée à l’origine

de la droite des moindres carrés. Ces estimations sont les réalisations obtenues pour les obser-
vations (xi , yi )i=1...n des estimateurs A et B. Autrement dit, les estimateurs A et B appliqués
aux données fournissent les estimations â et b̂.
8.2.2 Propriétés et lois des estimateurs.

On peut montrer que A et B sont des estimateurs sans biais de a et b et qu’ils vérifient :
σ2 σ 2 (s2x + x2 ) σ2 x
V(A) = V(B) = et cov(A, B) = − .
ns2x ns2x n s2x
35
Pour x fixé, la loi de Y est par hypothèse N (ax + b, σ 2 ). On en déduit les lois des estimateurs
A et B : ! !
σ2 σ 2 (s2x + x2 )
A → N a; 2 B → N b; .
nsx ns2x
Comme σ 2 est en général inconnu, ces lois ne sont pas utilisables directement pour proposer
des intervalles de confiance ou des tests sur les paramètres inconnus a et b. On utilisera donc
l’ estimation σ̂ 2 (à la place du paramètre inconnu σ 2 ) qui est défini comme la réalisation de
l’estimateur : n n
1 X 1 X
Σ2 = (Yi − Ŷi )2 = ε̂i .
n − 2 i=1 n − 2 i=1
On montre que σ̂ 2 se calcule aussi comme :
n 2
σ̂ 2 = 2
s (1 − rx,y ).
n−2 y
Pour construire des intervalles de confiance ou des tests sur les paramètres a, b et σ 2 on
utilisera les quantités et lois suivantes :
A−a B−b Σ2
TA (a) = p → Tn−2 TB (b) = q p → Tn−2 , (n − 2) → χ2n−2 .
Σ/( ns2x ) Σ s2x + x2 / ns2x σ2
8.2.3 Intervalle de confiance sur les paramètres :

A partir des lois précédentes on établit les intervalles de confiance suivants pour les trois
paramètres inconnus du modèle :
" #
Σ Σ
I(a; α) = A − tn−2,α p 2 ; A + tn−2,α p 2
nsx nsx
 q q 
Σ s2x + x2 Σ s2x + x2
I(b; α) = B − tn−2,α √ ; B + tn−2,α √ 
sx n sx n
" #
2 (n − 2)Σ2 (n − 2)Σ2
I(σ ; α) = ; .
zn−2,α/2 zn−2,1−α/2
Les valeurs de tn,α et zn,α sont respectivement les valeurs lues sur les tables de Student et
du χ2 à n degrés de liberté au risque α.
8.2.4 Tests
Test de pertinence de la régression
L’idée est de vérifier que le coefficient a de la régression n’est pas nul en effectuant un test.
On posera donc : H0 : a = 0 contre H1 : a 6= 0.
On utilisera TA (0) pour définir la région de rejet de ce test. Comme sous l’hypothèse H0 ,
TA (0) = pA suit une loi de Student à n − 2 degrés de liberté la region de rejet, au seuil
Σ/( ns2x )
α, est donnée par ( )
A

Wα = p > tn−2,α .
Σ/( ns2x )
Décision :
√
si |âsx n/σ̂| > tn−2,α , on rejette H0 (on décide H1 ), donc au seuil α, on conserve a 6= 0. On
conclut que la régression est pertinente, avec un risque d’erreur de α.
36
√
si |âsx n/σ̂| < tn−2,α , on accepte H0 donc a = 0. On conclut que la régression n’est pas
pertinente avec un risque de 1 − α.
Test de a = a0
Plus généralement, pour tester : H0 : a = a0 contre H1 : a 6= a0 , on utilise encore TA (a0 ),
mais dans ce cas sous l’hypothèse H0 , TA (a0 ) = A p − a0 suit une loi de Student à n − 2 degrés
Σ/( ns2x )
de liberté et la region de rejet du test, au seuil α est donnée par
( )
A−a
0
Wα = p > tn−2,α .
Σ/( ns2x )
Test de b = b0
Pour tester H0 : b = b0 contre H1 : b 6= b0 , en utilisant TB (b0 ) et sa loi sous H0 , on obtient
la région de rejet suivante, au seuil α :
 
 B − b0


Wα = q > tn−2,α .

 2 
2 Σ (sx + x )/ns2x
Remarque : le cas b0 = 0 permet de tester si la droite y = ax + b passe ou non par l’origine.
8.2.5 Etude des résidus.

Le modèle initial posé était le suivant : Yi = axi + b + εi avec εi → N (0, σ 2 ), avec σ
indépendant de xi et les variables εi indépendantes.
A l’aide du test de pertinence de la régression on a pu vérifier ou non que a était non nul. Ce test
ne suffit pourtant pas à valider ce modèle. En effet, il faut également vérifier que les hypothèses
posées sur les variables εi sont raisonnables.
Les quantités εi , étant inconnues, sont estimées par les résidus ε̂i = Yi − Ŷi , pour lesquels on
peut
montrer que, si 2les hypothèse faites sur les variables εi sont justes, E(ε̂i ) = 0 et V ar(ε̂i ) =
σ2 n − 1 (xi − x) . On normalise ces erreurs estimées en les divisant par leur écart-type,
n − ns2
x
et on définit ainsi les residus dits studentisés :
ε̂i
ε̂Si = s → Tn−2 .
√Σ (x − x)2
n−1− i 2
n sx
Le graphe des résidus s’obtient en traçant le nuage de points de coordonnées (xi , ε̂Si )i , dans
l’ordre des xi croissants.
Si l’hypothèse indiquant que les écarts εi sont centrés est verifiée, alors tous les points de ce
nuage doivent etre répartis de part et d’autre de l’axe des abscisses.
Si l’hypothèse indiquant que la variance de εi ne dépend pas de x est vérifiée, cette répartition
doit être homogène (on ne doit pas, par ex. constater des résidus qui augmenteraient avec x).
Si l’hypothèse d’indépendance est vérifiée, cette répartition ne doit mettre en évidence aucune
structure.
Si l’hypothèse de normalité des écarts εi est vérifiée, 95% des points du nuage doivent ce
trouver entre les deux droites horizontales passant respectivement par les ordonnées tn−2,5% et
−tn−2,5% .
Si l’un de ces points n’est pas vérifié, le modèle posé n’est pas valable et ne peut être utilisé
pour faire de la prévision.
37
8.2.6 Prévision.
Lorsque le modèle est validé, il est alors possible de l’utiliser pour faire de la prévision.
Soit x0 la valeur de la variable x sur un nouvel individu. Il est naturel de donner ŷ0 comme
valeur prévue de la variable Y0 , où ŷ0 = âx0 + b̂. La valeur inconnue (et aléatoire) Y0 vérifie :
Y0 = ax0 + b + ε0 avec ε0 → N (0, σ 2 ). On vérifie alors
que Ŷ0 = Ax0 + B est un estimateur sans
2 (x − x)2
biais de ax0 + b et que Var(Ŷ0 ) = σn 1 + 0 2 . On montre également (Yˆ0 et Y0 étant des
sx
2 (x − x)2
variables indépendantes) que Var(Ŷ0 − Y0 ) = σn n + 1 + 0 2 .
sx
On en déduit un intervalle de confiance pour Y0 , dit intervalle de prévision, en utilisant
le fait que
Y0 − Ŷ0
s → Tn−2 .
(x − x)2
√Σ n+1+ 0
n s2x
Et l’intervalle pour Y0 , au niveau de confiance 1 − α, est :
 s s 
Σ (x0 − x)2 Σ (x0 − x)2 
I(Y0 ; α) = Ŷ0 − tn−2,α √ n+1+ 2 ; Ŷ0 + tn−2,α √ n+1+ .
n sx n s2x
Si on cherche un intervalle de confiance pour la valeur moyenne attendue E(Y0 ) = ax0 +b,
on utilise que :
Y0 − (ax0 + b)
s → Tn−2 .
(x − x)2
√Σ 1+ 0
n s2x
On obtient ainsi, l’intervalle pour ax0 + b, au niveau de confiance 1 − α :
 s s 
Σ (x0 − x)2 Σ (x0 − x)2 
I(ax0 + b; α) = Ŷ0 − tn−2,α √ 1+ 2 ; Ŷ0 + tn−2,α √ 1+ .
n sx n s2x
38

Cours Stat230

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Stat230

Transféré par

Droits d'auteur :

Formats disponibles

Notes de Cours : STATISTIQUES

sous-population : {i1 , ..., ij , ..., in } un ensemble de n individus choisis au hasard dans P.

Deux problèmes se posent alors naturellement :

individu sexe poids 20 ans poids 15 ans taille alimentation

cov(p, t) = , s2p = , s2p′ = , s2t = , s2a =

2.1 Analyse descriptive de données discrètes

2.1.2 Tableau de distribution

X effectifs fréquences fréq. cumul.

On peut plus généralement définir la proportion de la population pour laquelle la variable X

2.1.3 Représentations graphiques

2.1.4 Résumés numériques

Mode : Valeur (modalité) en laquelle l’histogramme des fréquences présente un maximum

Ecart quadratique moyen :

Ecart absolu moyen :

Ecart type de l’échantillon : sx .

2.2 Variable aléatoire discrète

2.2.2 Quelques caractéristiques théoriques d’une variable aléatoire discrète

Ecart type de X le nombre : q

qα = inf{x ∈ X , FX (x) ≥ α}.

2.2.3 Modèles discrets usuels

Loi hypergéométrique : on choisit n individus au hasard dans une population de taille N

On dira que Y suit une loi binomiale B(n, p).

IP(Z = k) = (1 − p)k−1 p, pour tout k ≥ 1.

IP(W = k) = λk e−λ /k!, pour tout k ∈ IN.

Loi et Notation X IP(X = k) E(X) V (X)

(p∗1 , ..., p∗8 ) = (1/8, 1/8, ..., 1/8)

On dresse le tableau suivant :

3.1 Analyse descriptive de données continues

3.1.1 Tableau de distribution et représentations graphiques

X milieux effectifs fréquences fréq. cumul. fréq. rel.

où x̄k est la moyenne de la classe Ck .

3.2 Variable aléatoire continue

fX (x) ≈ IP(X ∈ [x, x + δ])/δ si δ petit.

Notons que comme IP(X = x) = 0, on a toujours IP(X ≤ x) = IP(X < x).

IP(a ≤ X ≤ b) = IP(a < X ≤ b) = IP(a ≤ X < b) = IP(a < X < b)

3.2.2 Espérance Variance et α-quantiles

Variance de la variable X, le nombre :

Ecart type de la variable X le nombre :

Quantile d’ordre α de la variable X le nombre :

qα tel que FX (qα ) = α.

IP(X ≤ x, Y ≤ y) = IP(X ≤ x)IP(Y ≤ y) pour tous (x, y).

3.2.3 Modèles continus usuels

Loi de Fisher-Snedecor : F = (U/ν1 )/(V /ν2 ) avec U et V deux variables indépendantes de

Considérons la variable A : ”alimentation d’un étudiant choisi au hasard dans le grou-

4.1 Modèle et Echantillon aléatoire

4.2 Estimation ponctuelle

4.2.1 Estimation d’une moyenne

4.2.2 Estimation d’une variance

Loi des estimateurs : Pour X de loi N (µ, σ 2 ) :

4.2.3 Estimation d’une proportion

4.2.4 Estimation d’une probabilité dans le modèle binomial

4.3 Intervalles de confiance (IC)

4.3.1 Intervalles de confiance pour la moyenne d’une variable normale

4.3.2 Intervalles de confiance pour la variance d’une variable normale

IP(Zn > zn,α ) = α.

Selon que l’on connait ou non µ on a les intervalles suivants :

IP(p ∈ I(p, α)) ≃ 1 − α.

4.3.4 Intervalle de confiance pour p dans le cas binomial

IP(p ∈ I(p, α)) ≃ 1 − α.

5.1.1 Les risques

si dans un test de niveau α, on est conduit à rejeter H0 ,

règle 2 : Pour valider θ = θ0 avec un risque faible de se tromper poser

5.1.3 Construction d’un test