Académique Documents
Professionnel Documents
Culture Documents
· Pour une VA X : W ® R pouvant prendre des valeurs négatives aussi bien que positives
on introduit la décomposition X = max( X ,0) - max(- X ,0) = X + - X - et on définit E ( X )
par E ( X ) = def E ( X + ) - E ( X - ) = ò xdP ( x) + ò xdP ( x) si E ( X
+
X X ) et E ( X - ) ne sont pas
R+ R-
simultanément infinis..
· De cette définition on peut déduire, cas particulier par cas particulier des formules de
calcul1 .
E ( X ) = åa i qi + ò F }( x) x dx
X
'
(1)
iÎ I {
R - a i , iÎ I
1
Il n’est pas nécessaire de connaître parfaitement la définition générale de l’espérance donnée si dessus pour
appliquer ces formules et calculer des valeurs moyennes
2/9
Résumé de cours en calcul des probabilités (JJ bellanger)
E ( X ) = ò p X ( x) x dx (3)
R
E (Y ) = ò f ( x ,.., x
1 N ) p X 1 ,.. X N ( x1 ,.., xN )dx1..dxN
RN
III.Propriétés de l’espérance mathématique utiles dans les calculs courants (autres que la
formule de transfert).
· Positivité : si P ( X ³ 0) = 1 alors E ( X ) ³ 0
· Espérance d’une constante K : si P ( X = K ) = 1, K = cte alors E ( X ) = K
N N
· Linéarité : si, pour N VA X 1 ,.., X N , Y = å lk X k alors E (Y ) = å lk E ( X k )
1 1
3/9
Résumé de cours en calcul des probabilités (JJ bellanger)
Cette propriété reste vraie si X 1 ,.., X N sont N VA à valeurs respectivement dans R d1 ,.., R d N
'
et les f k de la forme R d k ® R d k
· E ( X 2 ) = VAR( X ) + mX2
· VAR(aX + b ) = a 2VAR( X ) " a , b réels
· Si X 1 ,.., X N indépendantes et Y = X 1 + .. + X N alors VAR(Y ) = VAR( X 1 ) + .. + VAR( X N )
N
· De manière plus générale VAR(å li X i ) = åå li l j E ( X ic X jc )
1 1£ i , j £ N
N N
qui devient VAR (å li X i ) = å li2 E ( X ic2 ) si i ¹ j Þ E ( X ic X jc ) = 0 (condition qui sera
1 i =1
réalisée en particulier si les N VA sont indépendantes 2 à 2).
· Inégalité de Bienaymé Tchebychef (faire n = 1, remplacer X par X c dans Markov) :
VAR ( X )
"e > 0 : P ( X ³ e ) £
e2
4/9
Résumé de cours en calcul des probabilités (JJ bellanger)
Cherchons la solution du problème dans le cas Y où est la classe des fonctions affines. Il faut
alors trouver 2 constantes réelles a et b telles que (a, b) = arg min E ((Y - AX - B)) 2 ) . On a :
( A, B )Î R 2
2
En toute rigueur à quelques détails ‘négligeables’ près (notion mathématique de fonction presque partout
égales)
6/9
Résumé de cours en calcul des probabilités (JJ bellanger)
et si on développe les calculs, pour ces valeurs optimales des coefficients A et B on trouve
que la valeur minimale de E ((Y - AX - B) 2 ) est égale à :
E ( X cYc ) E ( X cYc )
min E ((Y - AX - B) 2 ) = E (Yc2 )(1 - r X2 ,Y ) où r X ,Y = def =
A, B VAR( X )VAR(Y ) s Xs Y
Exercice : vérifier la première égalité ci-dessus
Calcul de r X ,Y :
Il suffit de calculer mX , mY ,s X ,s Y et E ( XY )
à partir d’une densité conjointe p X ,Y on calculera :
E ( XY ) = òò p X ,Y ( x, y ) xydxdy
R2
dans le cas d’une loi discrète à 2 dimensions on calculera:
E ( XY ) = å xi y j P( X = xi , Y = y j )
xi , y j
Une propriété de tout produit scalaire (V1 ,V2 ) est l’inégalité de Schwartz : (V1 ,V2 ) £ V1 V2
(avec égalité ssi $ réel l ¹ 0 : V1 = lV2 )
Z Z
Avec V1 = 1c ,V2 = 2c , V1 = V2 = 1 et en appliquant l’inégalité on arrive à :
s X1 s X2
2
Z Z Z Z
E ( 1c 2 c ) £ E ([ 1c ]2 ) E ([ 2 c ]2 ) = 1
s X1 s X 2 s X1 sX2
ce qui correspond à r X ,Y £ 1 en tenant compte des définitions de la variance et du coefficient
de corrélation .
4.Retour sur le problème d’approximation
L’erreur d’approximation dans le problème introduit plus haut valait
e 2 = min E ((Y - AX - B) 2 ) = E (Yc2 )(1 - r X2 ,Y )
A, B
On voit donc que cette erreur est comprise entre une valeur minimale nulle quand le
coefficient de corrélation atteint une valeur maximale en valeur absolue égale à 1 (et on sait
alors que cela correspond à l’existence d’une relation linéaire exacte entre les variables
centrées, du moins avec probabilité 1) et une valeur maximale égale à VAR(Y) lorsque le
coefficient est nul. Dans ce dernier cas la valeur optimale de A est nulle et on peut dire que si
les variables sont décorrélées (cad r X ,Y = 0 ) alors la meilleure approximation affine de Y se
ramène à la valeur constante mY = E (Y ) : il ne sert à rien d’utiliser X (w ) pour évaluer
Y (w ) .
Conclusion :Il y a une correspondance entre la valeur plus ou moins élevée de
r X ,Y et la possibilité de prédire linéairement Yc à partir de X c .
8/9
Résumé de cours en calcul des probabilités (JJ bellanger)
E ( f (Y ) / X = x) = ò f ( y) p
Y / X =x ( y )dy
RM
· Si la loi conditionnelle est discrète, cad si il existe un ensemble dénombrable de points de
R M , y j , j Î I tel que å PY / X = x ({y j }) = å P (Y = y j / X = x) = 1 alors E ( f (Y ) / X = x)
jÎ J jÎ J
se calcule par :
å f ( y )P j Y / X =x ({y j }) = å f ( y j ) P (Y = y j / X = x)
jÎ J jÎ J
· Si Y est à valeurs dans R et que la loi conditionnelle est mixte avec une fonction de
répartition conditionnelle FY / X = x :
E ( f (Y ) / X = x) = å f (a i )[ FY' / X = x (a i+ ) - FY' / X = x (a i )] + ò f ( y)F '
Y / X =x ( x) dy
iÎ I { }
R - a i , iÎ I
· Formule de déconditionnement .
Cette formule est fondamentale dans les applications. Elle utilise le fait que l’application
x ® h( x) = E (Y / X = x) est mesurable (on le montre) et que h o X = h(X ) correspond donc à
une variable aléatoire dont on peut chercher à calculer l’espérance. Elle s’écrit :
où ò (.) dPX ( x) se calcule en utilisant les formules appropriées suivant que la loi de X est
xÎ R N
absolument continue, discrète ou encore mixte.