Vous êtes sur la page 1sur 8

Rappels sur le calcul des probabilits 1 - Dfinition formelle ou axiomatique On appelle exprience alatoire une exprience dont le rsultat

est le choix au hasard dun lment dun ensemble S, lensemble des preuves. On note E la classe des vnements qui sont des sous-ensembles de S, enfin, on assigne chaque vnement A de E une mesure de probabilit P qui vrifie : P ( ) = 1 (1) (2) 0 P ( A) 1 (3) P ( A + B ) = P ( A) + ( B )
si A et B sont mutuellement exclusifs dans E. Ces trois axiomes constituent une dfinition implicite dune probabilit - Le triplet (S, E, P) est appel espace probabilis.
2. Proprits

P ( A ) = 1 P ( A) P ( A + B ) = P ( A) + P ( B ) P ( AB )
Indpendance : Deux vnements sont indpendants si P ( A. B ) = P ( A ). P ( B ) Les vnements A1, A2, ..., An sont indpendants dans leur ensemble si : P(A1, ..., An) = P(A1),...,P(An) Rq : des vnements indpendants 2 2 ne le sont pas ncessairement dans leur ensemble. Deux vnements indpendants ne sont pas incompatibles. En effet : P(A+B) = P(A) + P(B) incompatibles P(A+B) = P(A) + P(B) - P(A).P(B) indpendants Probabilits conditionnelles : P(AB) = P(A|B) P(B) = P(B|A) P(A) P(A|B) est la probabilit conditionnelle de A si B est ralis. Pour des vnements indpendants, P(A|B) = P(A). La formule P( AB) P( A B ) = P ( B) est la formule de BAYES.

Exemple : canal binaire symtrique

Il sagit dun canal de transmission sur lequel on cherche transmettre des 0 et des 1. En raison du bruit dobservation, on fait occasionnellement une erreur de dcision en sortie, cest-dire quon dcide un 1 alors quun 0 a t envoy, et vice-versa. On suppose le canal sans mmoire, cest--dire que la sortie ne dpend que de lentre un instant donn. On le suppose symtrique, cest--dire que les erreurs interviennent avec la mme probabilit, qun 1 ou un 0 ait t mis.

On note P0 = P(X = 0) et P1 = P(X=1). On a ncessairement P0 + P1 = 1. La probabilit derreur est note P : P = P(Y = 1 | X = 0) = P(Y = 0 | X = 1) La probabilit dobtenir un 1 en sortie vaut alors P(Y = 1) = P(Y = 1 | X = 0) P(X = 0) + P(Y = 1 | X = 1) P(X = 1) + P(Y = 1 | X = 1) . P1 = P . P0 Comme P(Y = 1 | X = 1) + P(Y = 0 | X = 1) = 1 on a P(Y = 1 | X = 1) = 1 - P Enfin, P(Y = 1) = P P0 + (1 - P)P1 et de la mme manire P(Y = 0) = P0 (1 - P) + PP1 On rsume ceci par le diagramme de transition

Quelle est maintenant que lentre soit 1 si la sortie est 1 ? La solution est donne par la formule de BAYES : P(Y = 1 X = 1). P ( X = 1) = P(Y = 1) P( X = 1) Y = 1) (1 P). P0 = PP0 (1 P) P1

puis P(X = 0 | Y = 1) = 1 - P(X = 1 | Y = 1) et similairement pour les autres probabilits. Les probabilits de lentre compte tenu des observations, sont appeles probabilits posteriori. VARIABLES ALEATOIRES On appelle Variable alatoire la fonction qui associe lespace dpreuve S (ou un sousensemble) un ensemble de nombres rels (ventuellement complexes) :

w x = X ( w) Si X peut prendre nimporte quelle valeur sur un intervalle de , ou sur tout , la variable alatoire est dite continue. Pour obtenir une description probabilit de la variable alatoire X, on sintresse lvnement X # x et on dfinit la fonction de rpartition.
Fx ( x ) = P ( X x ) Comme il sagit dune probabilit, on a (1) 0 < FX ( x ) 1 (2) FX ( ) = 0 FX ( + ) = 1 (3) FX ( x1 ) < FX ( x 2 ) si x 2 > x1 (fonction monotone non dcroissante). NB : Cette fonction est continue gauche. Elle peut ne pas tre continue droite (probabilit non nulle en un point - masse de probabilit).

P ( x1 X x 2 ) = P ( X x 2 ) P ( X x1 ) (4) = F X ( x 2 ) F X ( x1 )
x2

= dFX ( x )
x1

A partir de la proprit (4), en prenant x1 = - 4 et x2 = x, on a

Fx ( x ) = P ( X x ) =

dFx ( x )

Si FX (x) est continue et diffrentielle pour tout x, on pose dFX (x) = fX (x) dx , avec fX (x) $ 0 [puisquil sagit de la drive dune fonction non dcroissante]. FX (x) est appele densit de probabilit, mais CE NEST PAS UNE PROBABILITE.

dFX ( x ) = FX ( x ) FX ( x + dx )
On a en fait

= P ( x < X x + dx ) = f X ( x ) dx

Cest alors fX (x)dx qui est une probabilit. La fonction de rpartition peut maintenant scrire :
x

FX ( x ) =
+

f X ( x ) dx ,

et puisque FX (+4) = 1, on a

f X ( x ) dx = 1

EXEMPLE - Loi uniforme

Plusieurs variables alatoires La fonction de rpartition pour 2 variables est dfinie par FX ,Y ( x , y ) = P ( X x , Y y ) On dfinit la densit de probabilit conjoint par dFX ,Y ( x , y ) = f X ,Y ( x , y ) dx dy , en supposant que la fonction de rpartition est partout diffrentiable.
y x

On a ainsi

f X ,Y ( x , y ) dx dy = FX ,Y ( x , y )

On peut obtenir la fonction de rpartition dune seule des variables en notant que FX ,Y ( x ,+ ) = P ( X x , Y + )

= P ( X x Y + ). = P( X x ) = FX ( x )
x +

P (Y + )
vnement toujours ralis,de proba = 1

Do

FX ( x ) =

f X ,Y ( , ) d d
+

Et on identifie

f X (x ) =

f X ,Y ( x , ) d

Cette opration sappelle opration de marginalisation. Elle permet dobtenir la densit de probabilit dune des variables en intgrant la densit de probabilit conjointe pour toutes les valeurs de la variable non dsire. On peut donc noter que la densit conjointe contient toute linformation sur les 2 variables, puisque lon peut obtenir la densit de probabilit de chacune des variables par marginalisation. On dfinit la densit de probabilit conditionnelle par

f X (x ) Cest la densit de Y avec X = x donn. La fonction f Y X ( y x ) est une fonction de la variable y, avec x arbitraire, mais fix. f Y X ( y x )
est une densit de probabilit, et, en particulier
+

f Y X (y x) =

f X ,Y ( x , y )

f Y X ( y x ) dy = 1

Lorsque X et Y sont indpendants, on a f Y X ( y x ) = f Y ( y)

et f X ,Y ( x , y ) = f X ( x ) f Y ( y ) Tout ceci se gnralise un nombre quelconque de variables alatoires.


MOYENNES STATISTIQUES On peut chercher caractriser une variable alatoire par des comportements moyens des rsultats des expriences alatoires. Esprance mathmatique : Si X(w) est intgrable par rapport la mesure de probabilit P, on montre que

E[ X ] = X ( w)dP = xdFX ( x )

= x f X ( x ) dx

si la loi est densit

E[-] note loprateur de moyenne statistique. Pour une variable alatoire discrte, on a E[X] = 3xi pi On peut gnraliser ceci toute fonction g(x) intgrale : Y = g(X) est une variable alatoire, et

E[ g ( X )] =

g ( x ) f X ( x ) dx

Exemple : Soit Y = cos (X), ou X est distribue uniformment sur [0,2 B]. 2 1 1 2 E [Y ] = cos( x ). dx = sin( x )] 0 = 0 [ 2 2 0 Deux cas particuliers sont importants :

si g(x) = x , on obtient les moments de la loi

E[ X n ] =

x n f X ( x ) dx

n = 1 : moyenne

n = 2 : moment dordre 2 On sintresse aussi souvent aux moments centrs, cest--dire aux moments de la variable alatoire centre Xc = X - E[X] En notant mX = E[X], les moments centrs sont

( x mX ) n f X ( x ) dx

Pour n = 1, on a bien sr zro. Pour n = 2, on obtient la variance : Var[ X ] = 2 =

( x mX ) 2 f X ( x ) dx

En dveloppant, on notera aussi que 2 = E ( X m X ) 2 = E X 2 2m X + m 2 X

= E[ X 2 ] m X 2
La variance mesure, en un certain sens, le degr dalatoire de X. Il sagit dune mesure des fluctuations autour de la moyenne mX. Lingalit de Chebyshev rend compte de ceci : pour tout > 0,

P X mX

2 2

Comme second cas particulier important de la moyenne E[g(X)], on a la dfinition de la fonction caractristique, note NX (v),

X ( v ) = E[ e jvX ]
+

f X ( x ) e jvx dx

A un signe prs, et au facteur 2B prs, la fonction caractristique est la transforme de Fourier de la densit de probabilit fx (x) ... En drivant K fois la fonction caractristique, on obtient d K PX ( v ) j K j K +1 v K = E[ X ] + E[ X K +1 ]+ ... K K! ( K + 1)! dv
et en v = 0, d K X ( 0) j K = E[ X K ] K K ! dv On notera pour mmoire que la seconde fonction caractristique est dfinie par X ( v ) = log X ( v ),

et que les coefficients de son dveloppement sont appels cumulants. Exemple : variable gaussienne (x mX ) 2 1 f X ( x) = exp 2 2 2 1 X ( v ) = exp jmX v v 2 2 2 Comme la TF est inversible, on peut bien-entendu retrouver la densit de proba partir de la fonction caractristique : + 1 f X (x ) = X ( v ) e jvx dv 2 La fonction caractristique porte donc autant dinformation que la densit. En particulier, si on considre le dveloppement en srie de x2 xn e jvx = 1 + j x + j +...+ j +..., n! 2 ( jv ) 2 ( jv ) n E[ e jvx ] = 1 + jvE[ X ] + E[ X 2 ]+ ...+ [X n ] 2 n! les moments sont les coefficients du dveloppement en srie de X ( v ) . Moments joints Si on considre une paire de variables alatoires X et Y, on dfinit E[ X i Yj ] = x i y j f X ,Y ( x , y ) dx dy

Un moment joint particulier est la corrlation E[X,Y]. Dans le cas des variables centres, la corrlation E[( X mX )(Y mY )] = E[ XY ] mX mY est appele covariance, note cov(X,Y). On dit que deux variables alatoires sont dcorrles si leur covariance st nulle : cov( X , Y ) = E[ X c Yc ] = 0 Elles sont orthogonales si leur corrlation est nulle. Notons que si X et Y sont indpendantes, alors elles sont dcorrles (orthogonales). Par contre, linverse nest pas vrai. Transformations des variables alatoires Il peut tre utile de pouvoir dterminer la densit de probabilit dune variable alatoire obtenue comme transforme dune premire va. dont on connat la densit. Cest typiquement le problme de la dtermination de la densit de probabilit de Y = g(X) On considre le cas dune transformation bijective. On a
7

P ( y < Y y + dy ) = P ( x < X x + dx ), dg ou y = g ( x ) et dy = . dx dx On en dduit que dg si >0 dx si dg dx <0 f Y ( y ) dy = f X ( x ) dx (fonction monotone croissante), et

f Y ( y ) dy = f X ( x ) dx

En combinant ces deux relations, il vient dx f Y ( y ) = f X (x ) dy


Enfin, en utilisant x = g 1 ( y ) , on obtient 1 f Y ( y ) = f X ( g 1 ( y )) . dg x = g 1 ( y ) dx Dans le cas ou plusieurs valeurs xk fournissent la mme observation y, i.e y = g(xk) k = 1 ... K, lexpression de la densit est 1 f Y ( y) = f X ( x K ). x K = g 1 ( y ). d K g

dx K