Vous êtes sur la page 1sur 12

1.

Probabilits et Variables Alatoires


Si les vnements lmentaires sont quiprobables
cardina H A L " A E HnL, pH AL = n

Thorme des probabilits totales


Si les vnements sont incompatibles alors pH A B L = pH AL + pHBL pH A B L = pH AL + pHBL - pH A B L

Axiome des probabilits conditionnelles


pHX AL = pH AL
pHX A L

Thorme des probabilits composes


Si les vnements sont indpendants alors pH A B L = pH AL pHB L pH A B L = pH AL pHB AL

Loi de Bernouilli
Modle : urne avec des Boules Rouges (X = 1, en proportion v) et des Boules Blanches (X = 0, en proportion 1 - v) ; on tire une boule. Alors : pHX = 1L = v ; pHX = 0L = 1 - v

Loi binomiale (tirage non exhaustif)


Modle : urne contenant n Boules dont des Boules Rouges en proportion v et des Boules Blanches (en proportion 1 - v) ; quelle est la probabilit de tirer k Boules Rouges ?
k vk H1 - vLn- k pHK = kL = Cn

Loi hypergomtrique (tirage exhaustif)


Modle : urne contenant N Boules dont R Boules Rouges et N - R Boules Blanches ; quelle est la probabilit de tirer k Boules Rouges parmi n Boules tires ?
R N -R pHK = kL = Cn C k C n -k N

Loi de Poisson
La loi de Poisson est une limite de la loi binomiale quand n est grand, v est faible et n v = l fini (en pratique n > 50 et v < 0.1)
l pHK = kL = e-l k! k

Esprance mathmatique
Loi de Bernouilli : E HX L = v Loi binomiale : E HX L = n v Loi de Poisson : EH X L = l

Loi hypergomtrique : E HX L = n v

Thorme de Bayes
Soit un vnement B dont la ralisation dpend de l'une des causes Ai alors :
i i pH Ai B L = pH A L pHB A L k pH A L pH B A L k k

www.thierry-verdel.com

2. La Loi Normale
Distribution uniforme sur @a, bD
pHxL =
1 b-a

et P HxL =

x -a b-a

Distributions marginales de deux alas X et Y


+ + p1 HxL dx = x - p Hx, yL y et p2 HyL dy = y - pHx, yL x

Indpendance de deux alas


X et Y sont indpendants si et seulement si pHx, yL = p1 HxL. p2 H yL

Moment d'ordre k et moment centr d'ordre k


+ k + EXk = - x pHxL x HE HX - mLLk = - Hx - mLk pHxL x

Variance ou moment centr d'ordre 2


+ s2 = VarHX L = E @HX - mL2 D = - Hx - mL2 pHxL x.

Variable centre rduite


T=
X -m s

avec m = EHX L et s2 = VarHX L E HT L = 0 et VarHT L = 1

Relations fondamentales
E HX + Y L = E HX L + E HY L VarHX L = E HX 2 L - HE HX LL2 VarHa X + bL = a2 VarHX L E HX Y L = E HX L . E HY L + CovHX Y L VarHX + Y L = VarHX L + VarHY L + 2 CovHX Y L VarHX - Y L = VarHX L + VarHY L - 2 CovHX Y L Si X et Y sont indpendants alors : E HX Y L = E HX L.E HY L VarHX + Y L = VarHX L + VarHY L

Variable continue sur @0, aD


pHxL =
1 a

; E HX L =

a 2

; VarHX L =

a2 12.

Variable de Bernouilli
P H0L = 1 - v ; P H1L = v ; E HX L = v ; VarHX L = v H1 - vL.

Variable de Poisson
pHkL = !-l
lk k!

; E HX L = l ; VarHX L = l

Loi normale X
pHX = xL =
1 s 2p

1 Hx-mL2 2 s2

E HX L = m et VarHX L = s2

Loi normale rduite T


T =
X -m s

pH T = t L =

1 2p

t2 2

E HT L = 0 et VarHT L = 1.
www.thierry-verdel.com

Ingalit de Bienaym-Tchebichef

Ingalit de Bienaym-Tchebichef
Soit X une variable alatoire de moyenne m et d'cart-type s, ceci prs quelconque alors : Prob 8 X - m > a< <
s2 a2

Thorme central limite


Si X1 , X2 , ..., Xn sont n variables alatoires indpendantes quelconques, leurs variances tant de mme ordre de grandeur alors : X1 + X2 + ... + Xn tend vers une loi normale

www.thierry-verdel.com

3. Le Contrle Statistique
Thierry Verdel, Ecole des Mines de Nancy, www.thierry-verdel.com

Loi de la moyenne d'un chantillon


Soient Xi variables alatoires indpendantes telles que E HXi L = m et VarHXi L = s2 M =
X1 +X2 +...+Xn n

E H M L = m et VarH M L = s2 n Mn X s s n

Loi de la population ( gauche) et loi d'un chantillon ( droite)

Contrle statistique
Considrant l'exemple d'une machine qui fabrique des pices dont la taille suit une loi de probabilit de moyenne m0 et d'cart-type s et dont l'intervalle de tolrance est @a, bD centr sur m0 . Dans ce cas, comme le montre la figure ci-dessous : - a est le risque de procder un rglage alors que la machine n'est pas drgle. C'est aussi le risque du fournisseur (probabilit que le client lui refuse un bon lot). - b est le risque de ne pas rgler la machine alors que son drglage est inadmissible. C'est aussi le risque du client (probabilit d'accepter un mauvais lot). s !!! n s !!! n

a2 m1 a

b m0 b

a2 Mn

www.thierry-verdel.com

4. L'Estimation Statistique
Infrence statistique
C'est porter un jugement sur une population partir d'chantillons

Estimateur

Tn HX1 , X2 , ..., Xn L est un estimateur de q si : E HTn L q et VarHTn L 0 quand n . L'estimateur est dit sans biais quand VarHTn = 0L quelque soit n.

Estimation (ponctuelle) d'une moyenne


Soit une population quelconque de moyenne inconnue note m. Si on note m la moyenne d'un chantillon issu de cette population alors m* = m est une estimation sans biais de la moyenne de la population.

Estimation (ponctuelle) d'une variance


Soit une population quelconque de variance inconnue note s2 . Si on note m et s, la moyenne et l'cart-type d'un chantillon issu de cette population alors :
n i= 1 s*2 = s2 = est une estimation sans biais de la variance s2 de la population. n- 1 n- 1 n Hxi - mL2

Loi du khi deux


Soit U1 , U2 , ..., Un , n variables alatoires indpendantes qui suivent des lois normales rduites.
2 2 2 Alors la variable c2 n = U1 + U2 + ... + Un suit une loi du khi deux n degrs de livert.

Ainsi si X1 , X2 , ... Xn sont des variables normales de mme moyenne et de mme variance s2 et si M est l'ala dfini comme la moyenne des Xi , alors la variable suivante :
ns Hn-1 L s i= 1 = = suit une loi du khi deux n - 1 degrs de libert ( c2 n- 1 ). s2 s2 s2 n 2 *2 HX i - M L2

Loi de Student
Soit U , U1 , U2 , ..., Un , n + 1 variables alatoires indpendantes normales centres et rduites.
U Alors la variable T @nD = = U suit une loi de Student n degrs de libert. 1 $%%%%%%%%%%%%%%%% %%%%%%%% %%%% n U2 n i=1 i 1 %%%%%% 2 $%%%%%%%% c n n

Ainsi si X1 , X2 , ... Xn sont des variables normales de mme moyenne m et de mme variance s2 et si M est l'ala M -m dfini comme la moyenne des Xi , alors la variable !!! suit une loi de Student n - 1 degrs de libert. s* n

Intervalle de confiance d'une moyenne si on connait l'cart-type de la population (n tant la taille de l'chantillon prlev)
M -m s s = N @0, 1D m - ua2 < m < m + ua 2 , ua2 lu dans la table de la loi normale centre rduite. !!! !!! !!! s n n n

Intervalle de confiance d'une moyenne si on ne connait pas l'cart-type de la population (n tant la taille de l'chantillon prlev)
s n * * n n

M -m s s = T @n - 1D m - ta2 < m < m + ta2 , ta2 lu dans la table de Student de degr Hn - 1L. !!! !!! !!! *

Intervalle de confiance de la variance d'une population (n tant la taille de l'chantillon prlev et s son cart-type)
nS nS nS 2 2 2 2 = c2 @n - 1D 2 < s < 2 , c1 et c2 lus dans la table du c Hn - 1L degrs de libert. s2 2 2 2 c2 c1

www.thierry-verdel.com

5. Comparaisons Statistiques
Test d'hypothse (Neyman et Pearson)
Etat ralis : H0 Jugement correct H0 Jugement port : H1 a = Prob 8H1 H0 < Jugement incorrect b = Prob 8H0 H1 < Jugement incorrect Jugement correct H1

a : erreur de premire espce (considrer dfavorable ce qui est favorable). b : erreur de deuxime espce (considrer favorable ce qui ne l'est pas). L'intervalle d'acceptation de l'hypothse H0 est l'intervalle tel que pour a donn, b soit minimal. b est aussi la puissance du test.

Comparaison de la moyenne d'une population normale (de variance connue) une valeur donne
l'intervalle @- ua2 , ua 2 D lu dans la table de la loi normale centre rduite pour un risque a donn. Si u @- ua2 , ua2 D, on peut rejeter l'hypothse au risque a.
n 0 = N @0, 1D . A partir d'un chantillon, on mesure la valeur de u = 0 H0 : m = m0 !!! et on la compare !!! M -m s s n m -m

Comparaison de la variance d'une population normale une valeur donne


2 HX - M L 0 0 0

2 2 l'intervalle @ c2 1 , c2 D obtenu dans la table de la loi du c Hn - 1L degrs de libert pour un risque a donn. Si n s2 2 2 @ c1 , c2 D, on peut rejeter l'hypothse au risque a s 2 0

nS ns i i= 1 H0 : s = s0 2 = = c2 Hn - 1L. A partir d'un chantillon, on calcule la valeur , que l'on compare s 2 s 2 s 2 2

Comparaison de la moyenne d'une population normale (de variance inconnue) une valeur donne
donn. Si t @- ta2 , ta2 D, on peut rejeter l'hypothse au risque a.
s n m-m s M -m n

t = 0 et on la compare l'intervalle @- ta2 , ta2 D lu dans la table de la loi de Student de degr Hn - 1L pour un risque a !!! *

0 H0 : m = m0 = T Hn - 1L loi de Student de degr Hn - 1L. A partir d'un chantillon, on mesure la valeur de !!! *

Test des appariements (comparaison des moyennes de deux populations apparies)


Hn - 1L pour un risque a donn. Si t @- ta 2 , ta2 D, on peut rejeter l'hypothse au risque a.
n S 2 Hn - 1 L 2 2 2 s D n -1 D

D Soit D = Y - X , H0 : E H DL = 0 = T Hn - 1L, loi de Student de degr Hn - 1L. A partir d'un chantillon, on !!!! !!!!! s n -1

d mesure la valeur de t = et on la compare l'intervalle @- ta 2 , ta 2 D lu dans la table de la loi de Student de degr !!!!!!!!!

Comparaison sur chantillons des variances de 2 populations normales


n s 2 Hn - 1L 2 2 2

1 1 1 A partir de deux chantillons, on mesure la valeur de f = et on la compare l'intervalle @ f1 , f2 D obtenu n s 2 Hn - 1 L

1 1 1 H0 : s1 2 = s2 2 = s2 = F @n1 - 1, n2 - 1D, loi de Snedecor Hn1 - 1, n2 - 1L degrs de libert. n S 2 Hn - 1L

partir de la table de loi de Sndcor pour un risque a donn. Si f @- f1 Ha2 L , f2 Ha 2L D on peut rejeter l'hypothse au risque a. Si f @- f1 Ha2 L , f2 Ha 2L D, on ne peut pas rejeter l'hypothse d'galit des variances et pour la suite, on retient une variance commune gale s*
2 1 1 2 2 = . n +n -2 1 2 n S 2 +n S 2

www.thierry-verdel.com

Comparaison sur chantillons des moyennes de 2 populations normales (le test d'galit des variances tant dj ralis)
1 1 s * $%%%%%%%%%%%%%%%% + % %%%%%% n1 n 2 m1 - m2 M -M

1 2 H0 : m1 = m2 = m = T Hn1 + n2 - 2L, loi de Student de degr Hn1 + n2 - 2L. A partir d'un chantillon,

on mesure la valeur de t = et on la compare l'intervalle @- ta 2 , ta 2 D lu dans la table de la loi de Student de degr Hn1 + n2 - 2L pour un risque a donn. Si t @- ta2 , ta2 D, on peut rejeter l'hypothse au risque a.
1 1 s* $%%%%%%%%%%%%%%%% + %% %%%% n1 n 2

www.thierry-verdel.com

6. Faits et modles
Estimation d'une proportion
n 1 Soit Fn = l'ala moyenne de n variables de Bernouilli. On peut crire : n v H1-vL E HFn L = v et s2 HFn L = n 0 n X +... + X

Il s'en suit que Fn est un estimateur sans biais de v. Par ailleurs, si n est assez grand, on peut approximer la loi de Fn par une loi normale et remplacer v par son estimation fn . Cela conduit l'intervalle de confiance d'une proportion v au risque a: fn H1fn L # fn H1fn L # ######## ######## f - u "######## < v < f + u "########
n a2 n n a 2 n

Comparaison de deux proportions


A l'hypothse que v1 = v2 = v, l'expression suivante :
1 2 1 1 2 2 u = avec v* = n +n i 1%%%%%%%%%1 $%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%% v* H1 -v * L j j + %%%%% N k n1 n2 1 2 f -f n f +n f

est approximativement une ralisation dune variable normale rduite, si lhypothse est vraie. Il suffit de placer la valeur obtenue dans l'intervalle correspondant au risque choisi.

Lgitimit d'un raccordement une loi


A partir d'un regroupement par classe de la variable tudie (effectifs observs, obs). On calcule les effectifs thoriques, dans chacune des classes obtenus par application du modle (effectifs thoriques, theo). Les classes doivent contenir au minimum un effectif thorique de 5 (sinon on procde des regroupements de classes). On calcule alors l'expression suivante : c2 =
r k=1 Hobs -theo L theo 2

Dans l'hypothse o les carts entre effectifs thoriques et effectifs observs ne sont dus qu'aux alas de l'chantillonnage (que les donnes sont effectivement issues de la loi teste), l'expression suivante est une ralisation d'une loi du c2 q degrs de libert avec q = nb de classes - 1 Hsi theo = obsL - p Hnb de paramtres estims dans la loi de raccordementL. On ne peut pas rejeter la lgitimit du raccordement test si la valeur numrique de l'expression prcdente se situe dans l'intervalle donn par la loi du c2 correspondante pour un risque a fix l'avance. Dans le cas contraire on rejetera le modle avec un risque de rejet tort infrieur ou gal a. En gnral on mettra tout le risque droite (on cherche rejeter des distances trop grandes), mais dans certains cas, une distance obtenue trop petite pourra faire douter de la lgalit des observations.

www.thierry-verdel.com

7. Rgression linaire
Droite de rgression
y = a x + b (observation de la vraie droite inconnue : y = a x + b) avec :
i i i= 1 a = ; L2 n Hx -x i=1 i n L H y - Hx - x yL @n L H y - Hx -x yLD2 I1- r2 M H yi - y L2

; b = y-ax

i i=1 i r 2 = ; n 2 n 2

Hx - xL i=1 H yi - yL i= 1 i

i=1 s*2 = n -2

Equation d'analyse de la variance

1 VarHY L = a2 VarH X L + ei 2 = r 2 VarHY L + H1 - r 2 L VarHY L n

Qu'on peut crire : Variance totale = Variance explique + Variance rsiduelle

Loi de A et B

s A-a A = N Aa, E = T @n - 2D utilis pour tester toute hypothse sur a ##### ##### "################ ######## "################ ######## n n i= 1 Hxi - xL2 s* i=1 Hxi -xL2 i=1 i 2

B- b x 1 B = N A b, s $%%%%%%%%%%%%%%%% J = T @n - 2D utilis pour tester toute hypothse sur b %%%%%%%% %%%%%%%% %N% E L n Hx 2 + -x n 2 i y j z x 1 j j z s * &'''''''''''''''''''''''''''''''' '''''''' + z j z L2 n n '''' H x x k i=1 i {

Loi d'un point de la droite, loi d'une observation


1 Hx-xL Un point de la droite : N Aa x + b, s $%%%%%%%%%%%%%%%% + E %%%%%%%% %%%%%%% n L2 n Hx -x 2 1 Hx-xL Une observation : N Aa x + b, s $%%%%%%%%%%%%%%%% 1 + +%%%%%%%%%%%%%%%% %%%%%%% L 2 E n n Hx -x 2 i=1 i i=1 i

A partir desquels on pourra dterminer les intervalles de confiance par passage une loi de Student de degrs Hn - 2L.

Comparaison de deux rgressions


On compare d'abord les variances, puis les pentes et les ordonnes l'origine. A l'hypothse que s1 = s2 = s, la quantit s1 *2 f = appartient une loi de Sndcor de degrs Hn1 - 2, n2 - 2L , ce qui permet de tester l'galit des variances. On s *2
1 1 2 2 estime alors s*2 = Hn - 2L+ Hn -2 L 1 2 1 2 A l'hypothse que a1 = a2 = a, la variable T = est une loi de Student Hn1 + n2 - 4L 2 Hn - 2L s *2 + Hn -2 L s *2

degrs de libert, ce qui permet de tester lgalit des pentes.

1 1 s* $%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% + % n1 % %%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% 2 n2 Hx %%%%%%%% 2 i= 1 Hx1 i - x1 L i'= 1 2 i' -x2 L

A -A

1 2 A l'hypothse que b1 = b2 = b, la variable T = est une loi de Student

B -B

Hn1 + n2 - 4L degrs de libert, ce qui permet de tester lgalit des ordonnes lorigine.

x2 2 x1 2 1 1 s * &'''''''''''''''''''''''''''''''' + + + '''''''''''''''' ' '''''''''''''''''''''''''''''''' '''''''''''''''' n1 n2 n 1 ''''''' 2 n2 Hx 2 H x x L i= 1 1 i 1 i'=1 2 i' -x2 L

www.thierry-verdel.com

8. Exprimentation statistique
Analyse de la variance un facteur
Le modle de base de lanalyse de la variance scrit yi j = m + a j + i j . Il contient comme hypothses que : - les a j sont des quantits inconnues, mais certaines, qui mesurent linfluence du facteur A. - les i j reprsentent les fluctuations alatoires correspondant aux erreurs de mesure ou linfluence des facteurs non contls. On suppose quil ny a pas derreur systmatique, ou quelle est contenue dans m, donc que EHi j L = 0. Et qu'ils : - sont indpendants : sHi j , i' j' L = 0 pour Hi, j L Hi ', j 'L, - suivent des lois normales. On calcule alors :
j p j 2 2 2 SCT = p j =1 i=1 H yi j - yL = j =1 i=1 yi j - n y n n p 2 2 2 SCA = p j = 1 n j H y j - y L = j =1 n j y j - n y

- ont mme variance : s2 Hi j L = s2 , (hypothse la plus restrictive : erreurs non multiplicatives, voir test de Bartlett)

et par diffrence : SCR = SCT - SCA. On constitue ensuite le tableau suivant : Variation SC Degrs de libert Facteur Totale SCA SCT p-1 n- p n-1 Rsiduelle SCR
SCA H p -1 L SCR H n- pL

f calcul F Sndcor Fa

A partir duquel on conclut ou non l'influence du facteur considr.

www.thierry-verdel.com

Analyse de la variance deux facteurs avec rptitions


A1 y111 B1 Ai yi11 Ap y p11 y p1r yp j 1

y11 r yi1r y1 j 1 yi j 1

Plan factoriel :

Bj

y1 j r

yi j k yi j r yp j r yi q 1 yi q r yp q 1 yp q r

Bq

y1 q 1 y1 q r

Modle additif (additivit des facteurs et des erreurs) : yi j k = m + a i + b j + i j k . Modle avec interaction (interaction des facteurs et additivit des erreurs) : yi j k = m + ai + b j + gi j + i j k 1 Appelons yi la moyenne dune colonne du tableau des mesures : yi = j k yi j k . qr
1 Appelons y j la moyenne dune ligne du tableau : y j = i k yi j k . pr

1 y . Appelons yi j la moyenne dune case du tableau : yi j = k i jk r

1 Appelons enfin y la moyenne gnrale des mesures : y = i j k yi j k . pqr

L'quation d'analyse de la variance s'crit : 2 2 yL2 = q r i H yi - yL2 + p r j H y j - yL2 + r i j @H yi i j k H yi j k - j - yL - H yi - yL - H y j - yLD + i j k H yi j k - yi j L Qu'on peut noter symboliquement : SCT = SCA + SCB + SCAB + SCR. On calcule SCA, SCB, SCAB et SCR par les formules suivantes : SCA = q r y 2 - p q r y2 , 2 2 SCB = p r j y j - pqr y ,
i i

2 2 SCAB = r i j yi j - p q r y - SCA - SCB, SCT = i j k yi j k 2 - p q r y2 . Puis SCR sobtient par diffrence : SCR = SCT - SCA - SCB - SCAB. On dresse enfin le tableau : SC DL SCA SCB p-1 q-1
SCA H p -1 L f A = SCR p q Hr-1 L SCAB H p -1 L Hq-1L f AB = SCR p q Hr-1L SCB Hq -1 L fB = SCR p q Hr-1L

f calcul

F Sndcor FA FB F AB

SCAB H p - 1L Hq - 1L SCR SCT p q Hr - 1L pqr-1

A partir duquel on peut faire les tests d'influence des facteurs et d'interaction entre facteurs.
www.thierry-verdel.com

Analyse de la variance deux facteurs sans rptitions


A1 B1 y11 Ai Ap yi1 y p1 yp j yp q

B j y1 j yi j Bq y1 q yi q

Lquation danalyse de la variance scrit alors : yL2 = q r H y - yL2 + p r H y - yL2 H y - + r i j @H yi j - yL - H yi - yL - H y j - yLD2


i j i j i i j j

soit, avec les notations habituelles : SCT = SCA + SCB + SCAB. Il est impossible de tester linteraction, puisquon ne dispose plus de SCR permettant, par division, dliminer s2 et d obtenir une loi de Snedecor. Il est donc ncessaire, dans ce cas de faire lhypothse (impossible vrifier) quil ny a pas d interaction. On doit donc adopter le modle additif : yi j = m + a i + b j + i j . Le test d'influence du facteur A (par exemple) est conduit partir du fait que, sous l'hypothse que A n'a pas d'influence : f A = suit une loi de Snedecor H p - 1L et H p - 1L Hq - 1L degrs de libert. SCAB
H p- 1L Hq- 1L SCA 1 L H p-

www.thierry-verdel.com