Resume Probas

EPFL - Resume de Probabilites et Statistiques :o) 1
TABLE DES MATIERES

(telechargement: http://diwww.ep.ch/nfete)
Nicolas Fete 5 juin 2000
Table of Contents
1 Manips de sommes, de moyennes, de mesures... 3
2 Probabilites 3
3 Fonctions de distribution, de frequence et de densite 4
3.1 Fonction de distribution (une seule variable) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.1.1 Cas discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.1.2 Cas continu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.2 Fonction de frequence et de densite (une seule variable) . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.2.1 Cas discret: fonction de frequence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.2.2 Cas continu: fonction de densite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.3 Transformation dune variable aleatoire continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.3.1 Fonction de distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.3.2 Fonction de densite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.3.3 Esperance et variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.4 Distribution, frequence conjointe, loi marginale, conditionnelle (deux variables) . . . . . . . . . . . . . 5
3.4.1 La loi conjointe: Z = XY ou Z = X/Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.4.2 La loi conditionnelle: Z = X|Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.4.3 La convolution: Z = X +Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.5 Quelques theorèmes sur les lois . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4 Esperances, variances, covariances... 6
4.1 Esperance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4.1.1 Denitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4.1.2 Manipulations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4.1.3 Quelques esperances importantes ` a retenir . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4.2 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4.2.1 Denitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4.2.2 Manipulations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4.2.3 Quelques variances importantes ` a retenir . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4.3 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4.4 Esperance et variance de quelques lois . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
5 Estimation de paramètres 8
6 Regression lineaire simple 8
6.1 La regression lineaire simple (un seul echantillon) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
6.2 ANOVA (pour un echantillon) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
6.3 Plan dexperience: ANOVA pour deux echantillons (partie ` a verier...) . . . . . . . . . . . . . . . . . . 9
6.4 Methode des moindres carres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
6.5 Maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
7 Tests statistiques 10
7.1 Generalites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
7.2 Unilateral ou bilateral ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
7.3 Les dierents tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
7.3.1 Le Test z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
7.3.2 Test t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
7.3.3 Test t de Student pour deux echantillons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
7.3.4 Test apparie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
8 Intervalles de conance 13
8.1 Intervalle de conance pour un paramètre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
8.2 Intervalle de conance pour la pente dune regression lineaire . . . . . . . . . . . . . . . . . . . . . . . 14
9 Regression multiple 15
9.1 Regression lineaire multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
9.2 ANOVA pour une regression multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
9.3 Tester deux modèles, et . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
10 Plans dexperiences 17
R
ESUM
E DE PROBSTATS
(telechargement: http://diwww.ep.ch/nfete)
Nicolas Fete 5 juin 2000
1 Manips de sommes, de moyennes, de mesures...
Note importante : toutes les relations notees ci-dessous sont toutes considerees comme toujours vraies, ` a moins
dune contre-indication notee ce moment-l` a c ote de la formule. Toutes les sommes vont de 1 ` a n.
n x
2
= (x
1
+. . . +x
n
) x

x
2
=
x
i
x
y =
1
n
y
i

x
2
i

x
2
=
(x
i
x)
2

y
i
(x
i
x) =
(y
i
x)(x
i
x)

y
2
i
=
y
2
i
+
r
2
i

(x
i
x) =
x
i
(x
i
x) = 0

(y
i
y
i
)
2
=
(y
i
y)
2
( y
i
y)
2

(y
i
y
i
) =
r
i
= 0

(x
i
x) =
r
i
= 0
x
i
= n x
x = n x
x
2
i
= n x
2
[
(x
i
x)]
2
. .
= 0
=
(x
i
x)
2
. .
=0

(yi y)
n1
=
2
2 Probabilites
P(A B) = P(A) +P(B) P(A B)
P(A B C) = P(A) +P(B) +P(C) P(A B) P(B C) P(A C) +P(A B C)
P(A) = P(A B
1
) +... +P(A B
n
) = P(A | B
1
)P(B
1
) +... +P(A | B
n
)P(B
n
)
P(B | A) =
P(A B)
P(A)
P(A B) = P(B | A)P(A)
P(A
1
A
2
A
3
) = P(A
3
| A
2
A
1
)P(A
2
| A
1
)P(A
1
)
Theorème de Bayes :
P(B
k
| A) =
P(A | B
k
)P(B
k
)
P(A | B
1
)P(B
1
) +... +P(A | B
n
)P(B
n
)
Combinatoire: nb de possibilites de choisir k objets parmis n
C
k
n
=
_
n
k
_
=
n!
k!(n k)!
=
_
n
n k
_
= C
nk
n
_
n
0
_
=
_
n
n
_
= 1
3 Fonctions de distribution, de frequence et de densite
3.1 Fonction de distribution (une seule variable)
3.1.1 Cas discret
F
X
(x) =
_
_
0 si < x < x
1
f
X
(x
1
) si x
1
x < x
2
f
X
(x
1
) +f
X
(x
2
) si x
2
x < x
3
.
.
.
.
.
.
f
X
(x
1
) +f
X
(x
2
) +. . . +f
X
(x
n
) si x
n
x < +
3.1.2 Cas continu
F
X
(x) = P(X x) = P( < X x) =
_
x
f(u)du Probabilite que X soit plus petit que la valeur x

P( < X +) =
_
+
f
X
(x)dx = F
X
() F
X
(+) = 1
P(a < X b) =
_
b
a
f
X
(x)dx = F
X
(b) FX(a) Probabilite que X soit compris entre les valeurs a et b
Si on a une loi qui donne des valeurs nulles en dehors de [a; b] par ex., alors
_
b
a
F
X
(x)dx = F
X
(b)F
X
(a) = 1
0 F
X
(x) 1 TOUJOURS !! Ben oui
_
F
X
(x) 0 si x ,
F
X
(x) 1 si x +.
Importance du < ou du , dans P(a x < b) ?
3.2 Fonction de frequence et de densite (une seule variable)
3.2.1 Cas discret: fonction de frequence
cest la fonction qui decrit les sauts aux x
i
de la fonction de distribution
f
X
(x
i
) = P(X = x
i
) = p
i
Probabilite que X prenne la valeur x
i
De plus, on a :
f
X
(x
i
) > 0 n {1, 2, 3, ...} Ben oui, cest une probabilite...

f
X
(x
i
) = 1 La somme de toutes les probabilites vaut bien s ur !
3.2.2 Cas continu: fonction de densite
f
X
(x) =
d
dx
F
X
(x) = F
X
(x)
3.3 Transformation dune variable aleatoire continue
On pose Y = g(X)
3.3.1 Fonction de distribution
F
Y
(y) = P{Y y} = P{g(X) y} = P{X g
1
(y)} = F
X
(g
1
(y))
2 cas possibles:
F
g(X)
(y) = F
X
(g
1
(y)) si g(X) est croissante
F
g(X)
(y) = 1 F
X
(g
1
(y)) si g(X) est decroissante
3.3.2 Fonction de densite
f
Y
(y) = f
X
(g
1
(y))
d
dy
g
1
(y)
2 cas possibles:
f
g(X)
(y) =
fX(g
1
(y))
g
(g
1
(y))
si g(X) est croissante et derivable
f
g(X)
(y) =
fX(g
1
(y))
g
(g
1
(y))
si g(X) est decroissante et derivable
3.3.3 Esperance et variance
E(g(X)) = g(E(X))
V ar(g(X)) = [g
(E(X))]
2
V ar(X)
3.4 Distribution, frequence conjointe, loi marginale, conditionnelle (deux variables)
Quand on a deux ou plusieurs variables aleatoires X et Y , il arrive souvent que lon veuille avoir des renseignements
concernant une fonction telle que la somme Z = X + Y (convolution), le produit Z = XY ou le rapport Z = X/Y
(loi conjointe), ou encore la condition Z = X|Y (loi conditionnelle).
3.4.1 La loi conjointe: Z = XY ou Z = X/Y
Distribution:
F
X,Y
(x, y) = P(X x et Y y)
F
X,Y
(x, y) = F
X
(x)F
Y
(y) X et Y doivent etre independantes !!
Densite:
f
X,Y
(x, y) =
d
2
dxdy
F
X,Y
(x, y)
f
X,Y
(x, y) = f
X
(x)f
Y
Fonction de frequence:
f
X,Y
(x
i
, y
i
) = P(X = x
i
et Y = y
j
)
f
X,Y
(x
i
, y
i
) = P(X = x
i
)P(Y = y
j
) = f
X
(x
i
)f
Y
(y
j
) X et Y doivent etre independantes !!
Loi marginale:
Cas continu: f
X
(x) =
_
+
f
X,Y
(x, y)dy
Cas discret: f
X
(x
i
) =
f
X,Y
(x
i
, y
i
)
Esperance de XY :
Cas continu: E(XY ) =
_
(x y)f
X,Y
(x, y)dxdy
Cas discret: E(XY ) =
(x
i
y
i
)f
X,Y
(x
i
, y
i
)
Esperance de X/Y :
Cas continu: E(X/Y ) =
_
(x/y)f
X,Y
(x, y)dxdy
Cas discret: E(X/Y ) =
(x
i
/y
i
)f
X,Y
(x
i
, y
i
)
3.4.2 La loi conditionnelle: Z = X|Y
But: calculer la loi conditionnelle dune deux deux variables en connaissant la valeur de lautre.
Distribution: ... ?
Densite:
f
X|Y
(x|y) = f
X,Y
(x, y)/f
Y
(y) f
Y |X
(y|x) = f
Y,X
(y, x)/f
X
(x)
f
X|Y
(x|y) = f
X
(x) f
Y |X
(y|x) = f
Y
Fonction de frequence:
f
X|Y
(x
i
|y
j
) = f
X,Y
(x
i
, y
y
)/f
Y
(y
y
)
f
X|Y
(x
i
|y
j
) = f
X
(x
i
) f
Y |X
(y
j
|x
i
) = f
Y
(y
j
) X et Y doivent etre independantes !!
3.4.3 La convolution: Z = X +Y
Distribution:
F
X+Y
(z) = P(X +Y z) =
_
+
F
Y
(z u)f
X
(u)du X et Y doivent etre independantes !!
Densite:
f
X+Y
(z) =
_
+
f
Y
(z u)f
X
(u)du X et Y doivent etre independantes !!
Fonction de frequence: X et Y prennent des valeurs 0,1,2,...,n z {0, 1, 2, . . . , 2n}
f
X+Y
(z) = P(X +Y = z) = P(X = z et Y = 0) +P(X = z 1 et Y = 1) +. . . +P(X = 0 et Y = z)
Si X et Y doivent etre independantes:
f
X+Y
(z) = P(X = z)P(Y = 0) +P(X = z 1)P(Y = 1) +. . . +P(X = 0)P(Y = z)
3.5 Quelques theorèmes sur les lois
X et Y doivent etre independantes !!
Si X B(n, p) et Y B(m, p), alors X +Y B(n +m, p)
Si X N(
X
,
2
X
) et Y N(
Y
,
2
Y
), alors X +Y N(
X
+
Y
,
2
X
+
2
Y
)
4 Esperances, variances, covariances...
4.1 Esperance
4.1.1 Denitions
E(X) =
_
+
xf
X
(x) dx (Cas continu)
E(X) = p
1
x
1
+. . . +p
n
x
n
=
p
i
x
i
=
f
X
(x
i
)x
i
(Cas discret)
4.1.2 Manipulations
E(X +Y ) = E(X) + E(Y )
E(a +bX) = a +bE(X) a et b deux constantes
E(XY ) = E(X)E(Y ) +Cov(X, Y ) Cov(X, Y ) = 0 si X et Y sont independants !!
E(X)
2
= E(X
2
) ... ben oui... X nest pas independant de X !!
E(X)
2
= E(X
2
) V ar(X)
E(X
2
) = E(X)
2
+V ar(X)
E(

X
2
) = V ar(

X) +E(

X)
2
= E(

X)
2
=

X V ar(

X) = 0, car

X est une constante
4.1.3 Quelques esperances importantes à retenir
E(y
i
) = E( +x
i
+
i
) = +x
i
, , x
i
sont des constantes et E(
i
) = 0, car
i
N(0,
2
)
4.2 Variance
4.2.1 Denitions
V ar(X) =
f
X
(x
i
)((x
i
E(X))
2
(Cas discret)
V ar(X) =
_
+
(x E(X))
2
f
X
(x) dx (Cas continu)
4.2.2 Manipulations
V ar(X) = E([X E(X)]
2
) = E(X
2
) E(X)
2
V ar(X +Y ) = V ar(X) +V ar(Y ) + 2Cov(X, Y ) Cov(X, Y ) = 0 si X et Y sont independants !!
V ar(X +X) = 4V ar(X) = 2V ar(X) ... ben oui... X nest pas independant de X !!
V ar(
. . . ) =
V ar(. . . ) ... pour autant que les variables soient independantes !!

V ar(a + bX) = b
2
V ar(X) a et b deux constantes
V ar(XY ) = ?
V ar(X
2
) = ?
V ar(X)
2
= ?
V ar(

X) = 0
V ar(X) =
2
=
_
V ar(X) est lecart-type de X
V ar(Z) = a
T
V ar(x)a Z = a
T
X = a
1
X
1
+a
2
X
2
+. . . +a
n
X
n
V ar(X) =
_
_
_
_
_
V ar(X
1
) Cov(X
1
, X
2
) Cov(X
1
, X
3
) Cov(X
1
, X
n
)
Cov(X
2
, X
1
) V ar(X
2
) Cov(X
2
, X
3
) Cov(X
2
, X
n
)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Cov(X
n
, X
1
) Cov(X
n
, X
2
) Cov(X
n
, X
3
) V ar(X
n
)
_
_
_
_
_
(Matrice de covariance)
4.2.3 Quelques variances importantes à retenir
4.3 Covariance
Cov(X, Y ) = E(XY ) E(X)E(Y ) = E([X E(X)][Y E(Y )])
Cov(X, X) = V ar(X) = E(X
2
) E(X)
2
= E([X E(X)]
2
)
Cov(a +bX, c +dY ) = Cov(bX, dY )
Cov(aX, bY ) = abCov(X, Y )
Correlation:
(X, Y ) =
Cov(X, Y )
_
V ar(X)V ar(Y )
Cov(a
T
X, b
T
X) = a
T
V ar(X)b a et b vecteurs de constantes
4.4 Esperance et variance de quelques lois
Page 88 du bouquin de Morgi
Lois discrètes:
X B(n, p) E(X) = np et V ar(X) = np(1 p)
X P() E(X) = et V ar(X) =
Lois continues:
X N(,
2
) E(X) = et V ar(X) =
2
X U(0, ) E(X) =
1
2
et V ar(X) =
1
12
2
X E() E(X) =
1
et V ar(X) =
1
2
5 Estimation de paramètres
Habituellement, on a une variable aleatoire X qui semble suivre une certaine loi, dont on ne connais pas le(s)
paramètre(s). Par exemple, pour une loi de Bernoulli de paramètre p (X B(1, p)), ou une loi de Poisson de
paramètre (X P()), on cherche lestimateur p (respectivement

) quon veut le plus proche possible de la vraie
valeur p (respectivement ). Lestimateur est une fonction des donnees: on le construit en employant les realisations
de la variable X (les donnees, les mesures, quoi...).
Do` u la notion de biais pour determiner la qualite de lestimateur, ` a savoir si lestimateur de notre paramètre est
bon, i.e sa valeur calculee ` a partir des donnees est très proche de celle, inconnue justement, du paramètre de la loi
consideree que suit a priori X. (ou ! :) )
Notation :

est lestimateur et le paramètre estime !
Remarque très importante : La valeur dun estimateur

est AL
EATOIRE !! ( E(
), V ar(
) ` a calculer !)
Biais de lestimateur : b() = E
)
E
) est lesperance de lestimateur

. Lindice de lesperance indique seulement quel est le paramètre que
lon cherche ` a estimer.
Si le biais est nul, alors on dit que lestimateur est non biaise, et cela signie que

= tout simplement ! Il est
tel que sous linuence du hasard il donnera tant ot des valeurs estimees trop grandes tant ot des valeurs trop
petites, mais qu` a la longue ces erreurs se compensent !
Carre moyen de lerreur : CME
) = E
((
)
2
)
6 Regression lineaire simple
6.1 La regression lineaire simple (un seul echantillon)
Notions importantes ` a propos du modèle ci-dessous :
y
i
= +x
i
+
i
Les variables aleatoires sont les erreurs
i
et les y
i
.
Vu que par hypothèse les
i
N(0,
2
), alors y
i
N(0,
2
) egalement, parce quil ny pas pas dautres
variables aleatoires dans le modèle, et etant des paramètres, donc des constantes, et les x
i
des
constantes aussi, car des mesures.
Le modèle est lineaire, car les paramètres et sont lineaires.
Hypothèses posees, qui doivent etre satisfaites pour eectuer une regression lineaire:
Les
i
suivent toutes une loi normale centree-reduite, i.e
i
N(0,
2
) ( E(
i
) = 0, V ar(
i
) =
2
)
Les erreurs
i
sont toutes non correlees entre elles, i.e Corr(
i
,
j
) = 0
On emploie la methode des moindres carres ou du maximum de vraisemblance (plus generale) pour determiner
le(s) paramètre(s) du modèle pose (ici et par exemple). Les moindres carres semploient quand un modèle
choisi a une structure particulière, i.e deux termes, une valeur ideale (, x
i
par exemple) et une erreur. Dans
le cas contraire, on emploie le maximum de vraisemblance, qui ore une approche plus generale.
6.2 ANOVA (pour un echantillon)
Cest un resume de la regression lineaire, regroupant tous les calculs et test importants lies ` a la regression
eectuee.
Tableau dANOVA corrige:
source SC d.l CM Test F
regression SC
r
= ( y
1
y)
2
+ + ( y
n
y)
2
1 SC
r
/1 CM
r
/CM
e
erreur SC
e
= (y
1
y
1
)
2
+ + (y
n
y
n
)
2
(n 2) SC
e
/(n 2)
total(corrige) (y
1
y)
2
+ + (y
n
y)
2
(n 1)

2
= CM
e
est un estimateur non biaise de la variance
2
des erreurs
i
.
Le Test F permet de tester lhypothèse nulle
H
0
: = 0
La pente est signicative si le test est rejete (ben oui... dans ce cas, cela signie que = 0 !!).
Correlation multiple ou indice de determination:
R
2
=
SC
r
SC
t
=
( y
1
y)
2
+ + ( y
n
y)
2
(y
1
y)
2
+ + (y
n
y)
2
Si R
2
= 1 alors tous les residus sont nuls, et inversement. Si R
2
= 0, alors cela veut dire que lestimateur de la
pente

est nul (
= 0), et inversement.
6.3 Plan dexperience: ANOVA pour deux echantillons (partie à verier...)
On peut generaliser le cas dun echantillon ` a celui ` a deux echantillons x et y.
SC
e
= (x
1
x)
2
+ + (x
n
x)
2
+ (y
1
y)
2
+ + (y
m
y)
2
SC
t
= (x
2
1
+ +x
2
n
+y
2
1
+ +y
2
n
) (n x +m y)
2
/(n +m)
contraste nm( x y)
2
/(n +m) 1 nm( x y)
2
/(n +m) CM
c
/CM
e
erreur SC
e
(n +m2) SC
e
/(n +m2)
total(corrige) SC
t
(n +m1)

2
= CM
e
2
des erreurs
i
.
H
0
:
x
=
y
= 0
6.4 Methode des moindres carres
Ce principe est utilisable quand les quantites ` a estimer sont des esperances. Habituellement, on a un modèle,
avec des paramètres. Par exemple, pour une regression lineaire, on peut avoir un modèle du style:
y
i
= +x
i
+
i
Les paramètres sont estimes de manière ` a ce que la somme
n
i=1
(y
i
y
i
)
2
( y
i
= +

x
i
)
soit minimale. Cette fa con de proceder est la methode des moindres carres.
Demarche:
Soit le modèle y
i
= +x
i
+
i
On pose: C(, ) = (y
1
x
1
)
2
+. . . + ((y
n
x
n
)
2
Lidee est de minimiser C(, ). Donc on pose:
C( ,

) = 0

C( ,

) = 0
On nit, après quelques manips
1
, par obtenir et

en les mettant en evidence.
1
Voir 1 pour les astuces
6.5 Maximum de vraisemblance
Dans le cas o` u le modèle na pas la forme requise
2
, la methode de la vraisemblance simpose. Cest une
methode ainsi plus generale que la methode des moindres carres, permettant aussi destimer le(s) paramètre(s)
dun modèle considere.
On considère un echantillon de n mesures y
1
, . . . , y
n
provenant dune loi F
(y); on cherche ` a estimer le paramètre

de cette loi. La fonction de vraisemblance est donnee par:
V () = f
(y
1
) . . . f
(y
n
)
On cherche la maximum de lestimateur de vraisemblance, donc on cherche ` a annuler la derive par rapport ` a
lestimateur :
d
d
V () = 0
Ainsi on trouve

= . . .
Il est interessant de prendre par fois dabord le logarithme de la vraisemblance, car la derivee peut etre plus
simple ` a eectuer ensuite :
L() = log(V ())
Cest la log-vraisemblance...
7 Tests statistiques
7.1 Generalites
Tout dabord, il faut poser ce que lon appelle lhypothèse nulle H
0
, voire H
1
, qui est lhypothèse alternative,
i.e celle que lon accepte en cas de rejet de H
0
.
Habituellement, H
0
est ce quon desire refuter sur la base dune experience eectuee, et H
1
ce que lon aimerait
accepter, prouver.
Exemple: si on desire demontrer quune certaine norme de polution a ete depassee, on posera ( : mesures):
H
0
: NORME
pour pouvoir essayer rejeter H
0
en faisant un test statistique.
Après formulation de lhypothèse nulle ` a tester, il nous reste ` a trouver une methode pour juger sur lecart
entre les donnees recoltees et lhypothèse nulle est signicatif. Pour repondre ` a cette question, on choisit une
statistique de test qui va produire un score S, pour mesurer cet ecart.
En prenant la decision de rejeter ou accepter une hypothèse après avoir fait un test statistique, on peut commetre
deux types derreurs. Soit:
Erreur de première espèce : on rejette H
0
alors quelle devrait etre acceptee.
Erreur de seconde espèce : on accepte H
0
alors quelle devrait etre rejetee.
La p-valeur represente le pourcentage que le score obtenu soit d u au hasard. Si ce pourcentage est inferieur ` a
5% (i.e le niveau choisit), on rejette alors lhypothèse H
0
. Cela signie alors que lon moins de 5% de chances
que cela doit d u au hasard.
Niveau de signication: cest la probabilite maximale que nous acceptons de faire une erreur de première espèce.
Si on choisit un niveau de signication de 0,05 en faisant une procedure de test dune hypothèse, cela signie
que nous avons 5% de chances de la rejeter alors quelle devrait etre acceptee, cest-` a-dire que nous sommes
s urs ` a 95% davoir pris la bonne decision.
Donc, nous pouvons etre s urs ` a 95% que, si lhypothèse est vraie, le resultat z dune statistique eective
dechantillonnage S sera compris entre -1,96 et 1,96 (car laire sous la courbe normale comprise entre ces deux
valeurs est 95%). Au contraire, si on constate que le resultat z de la statistique choisie est ` a lexterieur du
domaine [-1,96;1,96], nous concluerons quun tel evenement ne peut se realiser quavec une probabilite de 5%
si lhypothèse donnee est exacte.
2
Voir debut du 6.4
7.2 Unilateral ou bilateral ?
Lunilateralite ou la bilateralite dun test statistique est determinee par lhypothèse alternative H
1
(dont la manière
dont elle est posee).
Moyen mnemotechnique :
Bilateral : H
1
est une expression avec un =.
Unilateral : H
1
est une expression avec un <, un , un ou encore un >.
Explications :
Dans les deux cas, laire dacceptation de H
0
sous la courbe consideree vaut toujours 95%, pour autant que
lon ait pris un niveau de rejet de 5% ! Si on prend un niveau de 3% par exemple, cette aire sera de 97%,
et il faudra adapter en consequence ce qui suit. Laire totale sous la courbe vaut bien evidemment 100%. Le
quantile est donnee par les tables, et ` a une valeur dierente suivant la loi de la courbe dont on considère laire
(test de student, de Fischer, Khi carre, etc...).
Bilateral:
Pour un test bilateral, on a habituellement une expression H
1
du type =
0
. Comme le precise cette
hypothèse, cela signie que lon sinteresse aux valeurs dierente de
0
, i.e les valeurs plus grandes et
plus petites que
0
. Laire de 95%, qui est laire dacceptation de H
0
(rappel: on doit etre en dehors de
ces 95% pour pouvoir rejeter !), est donc dans ce cas centree en 0. Ce qui signie quil nous reste encore
2,5% ` a gauche et 2,5% ` a droite de cette aire: ce sont les zones de rejets (95%+2,5%+2,5%=100%). Pour
un niveau de 5%, les valeurs sur laxe horizontal qui sont les bornes de la zone de 95% sont :
quantile(2, 5%) = quantile(97, 5%) pour la borne ` a gauche
quantile(97, 5%) pour la borne ` a droite
Donc, si on desire rejeter une hypothèse H
0
en faveur dun hypothèse H
1
bilaterale, on doit etre dans
les regions de rejets et donc la valeur du score S
obs
(donne par le test eectue), en regardant sur laxe
horizontal, doit etre :
soit plus petite que la borne inferieure, i.e S
obs
< quantile(2, 5%) = (quantile(97, 5%))
soit plus grande que la borne superieure, ` a savoir S
obs
> quantile(97, 5%)
Si on constate un de ces deux cas, alors on peut rejetter H
0
eb faveur de H
1
.
Unilateral:
Pour un test unilateral, on a habituellement une expression H
1
du type :
H
1
: <
0
H
1
:
0
H
1
: >
0
H
1
:
0
Comme le precise cette hypothèse, cela signie que lon sinteresse aux valeurs soit:
Cas 1 : soit plus grandes que
0
( >
0
,
0
)
Cas 2 : soit plus petites que
0
( <
0
,
0
)
Laire de 95%, qui est laire dacceptation de H
0
, est donc dans ce cas :
Cas 1 : decalee ` a gauche, ce qui signie que la zone de rejet, qui vaut 2,5% cette fois, se trouve ` a
lextreme droite (100% - 95% = 2,5%, cest unilateral, je le rapelle).
Cas 2 : decalee ` a droite, ce qui signie que la zone de rejet, qui vaut 2,5%, se trouve ` a lextreme
gauche.
Pour un niveau de 5%, les valeurs sur laxe horizontal qui sont pour le cas 1 et le cas 2, respectivement
les bornes superieure et inferieure de la zone dacceptation de 95%, sont :
Cas 1 : quantile(95%) pour la borne superieure
Cas 2 : quantile(5%) = quantile(95%) pour la borne inferieure
Donc, si on desire rejeter une hypothèse H
0
en faveur dun hypothèse H
1
unilaterale, on doit etre dans
les regions de rejets et donc la valeur du score S
obs
(donne par le test eectue), en regardant sur laxe
horizontal, doit etre :
Cas 1 : plus grande que la borne superieure, ` a savoir S
obs
> quantile(95%) (1)
Cas 2 : plus petite que la borne inferieure, i.e S
obs
< quantile(5%) = (quantile(95%)) (2)
Si on est dans le cas 1 et que la condition (1) est veriee, alors on peut rejetter H
0
en faveur de H
1
(H
1
: <
0
, H
1
:
0
).
Idem pour le cas 2, o` u si la condition (2) est veriee, alors on peut rejetter H
0
en faveur de H
1
(H
1
: >
0
,
H
1
:
0
).
7.3 Les dierents tests
7.3.1 Le Test z
Il est utilise lorsque la variance de lerreur de mesure est connue. De plus, la distribution des mesures suit
une loi ` a peu près normale.
H
0
: NORME
z
obs
=
n( y NORME)
7.3.2 Test t de Student

Il est utilise quand lon ne connait pas la variance des mesures. De plus, la distribution des mesures suit
toujours un loi ` a peu près normale.
H
0
: NORME
t
obs
=
n( y NORME)
On calcule de la manière suivante:
2
=
1
n 1
n
i=1
(y
i
y)
2
v = qt
n1
(95%) (cas unilateral) v = qt
n1
(97, 5%) (cas bilateral)
La statistique t est positive et grande dans les cas o` u la vraie valeur est plus grande que la NORME.
La statistique t est negative et petite lorsque la vraie valeur est plus petite que la NORME.
7.3.3 Test t de Student pour deux echantillons
Ce test est employe lorsque lon a deux echantillons et que lon ne connait pas la valeur theorique NORME ` a
tester. Un echantillon est appele contr ole et lautre traitement; en eet, il sagit souvent de tester lecacite
dun traitement particulier, et lon dispose dun echantillon de reference sans traitement, et un autre avec
traitement.
On pose: = y x o` u correspond en fait ` a leet du traitement.
t deux
obs
=
y x
_
s
2
p
(n +m)/(nm)
On calcule s
p
, s
x
et s
y
de cette manière:
s
2
x
=
(x
1
x)
2
+ + (x
n
x)
2
n 1
s
2
y
=
(y
1
y)
2
+ + (y
n
y)
2
m1
s
2
p
=
(n 1)s
2
x
+ (m1)s
2
y
n +m2
v = qt
n+m2
n+m2
7.3.4 Test apparie
Ce test est legèrement dierent du test de Student pour deux echantillons. Il est employe lorsque les deux
mesures ont ete eectuees dans des conditions identiques. Exemples:
On fait deux traitements et on eectue n mesures; ` a chaque mesure, on eectue les traitements sur deux
clones, un sur chaque.
On fait 1 mesure en n endroits dierents, ` a deux annees dierentes, mais pour chaque annees on les faits
aux memes endroits.
Non apparie: on a n plants coupes et n non coupes sur lesquels on eectue le meme traitement; on veut
voir si le fait de couper ou non modie le resulat. Ce nest pas apparie, car les plants coupes ne sont pas
des clones. En eet, les conditions ne sont pas les memes: il faudrait que chacune des n mesures soit faite
sur deux clones, un coupe lautre pas.
On pose: d
i
= y
i
x
i
t appari e
obs
=
n

d
s
d
On calcule s
d
de cette manière:
s
2
d
=
(d
1

d)
2
+ + (d
n

d)
2
n 1
v = qt
n1
n1
8 Intervalles de conance
8.1 Intervalle de conance pour un paramètre
Cest lestimation dun paramètre reel par un intervalle de conance deni par une borne de conance inferieure
et une borne superieure.
Les intervalles de conance sont aleatoires; la probabilite que ces intervalles couvrent le vrai paramètre inconnu
lorsque lon repète lexperience est de 95%.
On pose lintervalle de conance comme ceci:
95% = P
(qt
n1
(2, 5%) S
obs
() qt
n1
(97, 5%))
o` u S
obs
() est donne par le type de test statistique que lon veut employer pour construire lintervalle.
... et lon essaie dobtenir ceci, en faisant quelques manips:
95% = P
(qt
n1
(97, 5%) . . . qt
n1
(97, 5%) . . . )
Remarque : qt(2, 5%) = qt(97, 5%)
Exemple : pour le test de Student, on obtient lintervalle de Student :
95% = P
(qt
n1
(2, 5%)
n( y )
qt
n1
(97, 5%)
cest-` a-dire :
[ y

n
qt
n1
(97, 5%) ; y +

n
qt
n1
(97, 5%)]
Rejet de H
0
: si on pose (A: une constante):
H
0
: = A
et que
A / [qt
n1
(97, 5%) . . . ; qt
n1
(97, 5%) . . . ]
... alors on rejette H
0
, car A ne se trouve pas dans lintervalle.
De plus, si :
A < borne inf erieure, alors on peut dire que leet du traitement est plut ot positif.
A > borne sup erieure, alors on peut dire que leet du traitement est plut ot negatif.
8.2 Intervalle de conance pour la pente dune regression lineaire
On veut tester H
0
: =
0
Daprès le test de Student:
t pente
obs
=
_
(x
1
x)
2
+ + (x
n
x)
2
(

0
)

On peut former un intervalle de conance pour la pente :
[

_
(x
1
x)
2
+ + (x
n
x)
2
qt
n2
(97, 5%) ]
avec :

2
=
r
2
1
+ +r
2
n
n 2
9 Regression multiple
9.1 Regression lineaire multiple
Cest une technique pour quantier le lien entre une variable-reponse y et plusieurs variables explicatives
x
1
, . . . , x
p
; par exemple, expliquer la durete du beton en fonction du temps de sechage, de lhumidite dans lair,
de la qualite du sable employe, etc.
Le modèle de la regression lineaire multiple est celui-ci :
y
i
= +
1
x
1i
+. . . +
p
x
pi
+
i
On pose matriciellement :
_
_
_
y
1
.
.
.
y
n
_
_
_ =
_
_
_
1 x
11
x
p1
.
.
.
.
.
.
.
.
.
1 x
1n
x
pn
_
_
_
_
_
_
_
_
1
.
.
.
p
_
_
_
_
_
+
_
_
_
1
.
.
.
n
_
_
_
y = X +
Comme dans le paragraphe 6.1, il sagit de determiner les paramètres ,
1
, . . . ,
p
. On fait donc aussi appel
` a la methode des moindres carres, et les paramètres sont estimes de manière ` a ce que la somme
n
i=1
(y
i
y
i
)
2
( y
i
= +

1
x
1i
+. . . +

p
x
pi
)
soit minimale.
Demarche:
Soit le modèle y
i
= +x
1i
+. . . +
p
x
pi
+
i
On pose: C(,
1
, . . . ,
p
) = (y
1
x
1i
. . .
p
x
pi
)
2
+. . . + (y
n
x
1i
. . .
p
x
pi
)
2
Lidee est de minimiser C(,
1
, . . . ,
p
). Donc on pose:
C(,
1
, . . . ,
p
) = c() = (y X)
T
(y X) (calcul matriciel...)
On nit, après quelques manips par obtenir ,

1
, . . . ,

p
, via cette formule :
= (X
T
X)
1
X
T
y
Hypothèses posees, qui doivent etre satisfaites pour eectuer une regression lineaire multiple :
Les
i
suivent toutes une loi normale centree-reduite, i.e
i
N(0,
2
) ( E(
i
) = 0, V ar(
i
) =
2
)
Les erreurs
i
sont toutes non correlees entre elles, i.e:
Cov(
i
,
j
) = Corr(
i
,
j
) = 0 i = j
Lesperance de

et sa variance sont donnes par:
E
,
(
) = (X
T
X)
1
X
T
E
,
(y) = ) V ar
,
(
) =
2
(X
T
X)
1
La variance de

i
est ainsi donnee par :
V ar
,
(

i
) =
2
[(X
T
X)
1
]
i+1,i+1
On peut donc en tirer un intervalle de conance pour le paramètre
i
:
[
i

_
[(X
T
X)
1
]
i+1,i+1
qt
np1
(97, 5%)]
Lhypothèse H
0
:
i
= 0 peut etre testee et rejetee au niveau si cet intervalle ne couvre pas la valeur de 0.
3
3
Voir 8.1, concernant le rejet dune hypothèse H0
9.2 ANOVA pour une regression multiple
Cest un resume de la regression lineaire multiple, regroupant tous les calculs et test importants lies ` a la
regression eectuee.
regression SC
r
= ( y
1
y)
2
+ + ( y
n
y)
2
p SC
r
/p CM
r
/CM
e
erreur SC
e
= r
2
1
+ +r
2
n
(n p 1) SC
e
/(n p 1)
total(corrige) SC
t
= (y
1
y)
2
+ + (y
n
y)
2
(n 1)

2
= CM
e
2
des erreurs
i
.
H
0
:
1
= . . . =
p
= 0
Les pentes sont signicatives si le test est rejete (ben oui... dans ce cas, cela signie que
1
= . . . =
p
= 0 !!).
On rejette si:
F
obs
> qF
p,n1p
(95%)
Correlation multiple ou indice de determination:
R
2
=
SC
t
SC
e
SC
t
9.3 Tester deux modèles, et
A partir dun modèle general comportant les variables explicatives ,
1
, . . . ,
p
, il se peut que lon veuille
construire un modèle plus simple, comportant seulement certaines de ces variables. Il sagit donc de choisir un
modèle aussi simple que possible, mais qui sajuste bien aux donnees. On etablit donc un test statistique an
de determiner le bon modèle.
Soit deux modèles, dont lun a plus des variables explicatives que lautre :
+
1
x
1
+ +
p
x
p
() +
1
x
1
+ +
q
x
q
() avec p > q
On pose comme hypothèse: H
0
: w est le vrai modèle
En fait, on teste la signication des p-q variables explicatives supplementaires du modèle .
On en tire le tableau dANOVA suivant :
SC
m
() q SC
m
()/q CM
termes
/CM
e
termes suppl. SC
e
() SC
e
() p q (SC
e
() SC
e
())/(p q)
erreur SC
e
() (n p 1) SC
e
()/(n p 1)
total(corrige) SC
tot
(n 1)
Le Test F permet de tester lhypothèse nulle: H
0
: est le vrai modèle
On rejette H
0
si :
F
obs
> qF
pq,np1
(95%)
Dans le cas o` u la dierence entre SC
e
() et SC
e
() devient petite, on peut dire que les termes supplementaires
dans le modèle plus complexe napportent pas grand chose et lon accepte lhypothèse que le sous-modèle
est le vrai modèle.
On peut comparer au moyen du test F nimporte quelle selection de deux modèles à condition que lun des
deux soit contenu dans lautre. Exemples :

10 Plans dexperiences
... to be continued ... Its late, Im tired ! :o)

Resume Probas

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Resume Probas

Transféré par

Droits d'auteur :

Formats disponibles

EPFL - Resume de Probabilites et Statistiques :o) 1

TABLE DES MATIERES

f(u)du Probabilite que X soit plus petit que la valeur x

V ar(. . . ) ... pour autant que les variables soient independantes !!

) est lesperance de lestimateur

(y); on cherche ` a estimer le param`etre

7.3.2 Test t de Student

On calcule de la mani`ere suivante:

EPFL - Resume de Probabilites et Statistiques :o) 17

Vous aimerez peut-être aussi