Académique Documents
Professionnel Documents
Culture Documents
D
emonstration du th
eor`
eme de Tykhonov
On va presenter deux demonstrations du theor`eme de Tykhonov. La premi`ere est essentiellement la demonstration au moyen des ultrafiltres, mais sans le dire. . . La deuxi`eme
ressemble plus `a la demonstration du theor`eme de Hahn-Banach. Dans les deux cas, on
fera appel au lemme deQZorn ; cela nest pas surprenant si on pense que la seule affirmation que le produit iI Xi dune famille quelconque densembles non vides est non
vide equivaut au lemme de Zorn. Et si on veut sinteresser en plus `a la topologie de cet
espace produit, la moindre des choses serait bien de pouvoir dire sil est vide ou non !
Pour la premi`ere demonstration qui suit, il est agreable de concevoir la topologie
dun produit infini comme une esp`ece de limite des produits finis (cette notion existe vraiment, cest la notion de limite
Qprojective). Soit (Xi )iI une famille quelconque despaces
topologiques et posons
X
=
erons le
iI Xi ; pour tout sous-ensemble fini J I, consid
Q
produit fini XJ = jJ Xj et lapplication de projection naturelle J de X sur XJ qui
est definie par
J (xi )iI = (xj )jJ .
Les ouverts de la topologie produit sur X sont agreables `a decrire avec ces projections :
disons quun ensemble V X est un ouvert semi-elementaire sil existe un ensemble fini
J I et un ouvert W du produit fini XJ tels que V = J1 (W). Un ouvert quelconque de
X est reunion douverts semi-elementaires.
La description precedente montre que les projections J sont continues de X sur XJ ,
pour tout J I.
Q
Th
eor`
eme : theor`eme de Tykhonov. Tout produit X = iI Xi dune famille (Xi )iI
de compacts est compact.
Demonstration. Il est facile de voir que X est separe. Soit F une famille de fermes de
X, avec la propriete dintersection finie, cest `a dire que toute famille finie F1 , . . . , Fn
delements de F a une intersection F1 . . . Fn non vide ; la famille A de toutes les
intersections finies A = F1 . . . FN delements de F a les deux proprietes suivantes :
si A, B sont deux elements de A, alors A B A
tout element de A est un ferme non vide de X.
Pour savoir que X est compact, nous devons montrer que lintersection de cette
famille A est non vide ; la strategie (bizarre) de la preuve est daugmenter la famille A
en une famille B qui aura elle aussi une intersection non vide ; linteret de lelargissement
de B est que dans B, on aura simplifie la description de lintersection : il ny aura plus
quun seul element !
Pour les besoins de la redaction de cette demonstration, appelons famille convenable
toute famille A de parties fermees de X avec les deux proprietes ci-dessus. On fera
quelques remarques.
1. Si A est convenable et si est une application de X dans un compact K, alors
es (A) du compact K a la propriete
AA (A) est non vide, car la famille des ferm
dintersection finie : en effet, (A1 ). . .(An ) est toujours non vide quand A1 , . . . , An
A, puisque cette intersection est plus grande que (A1 ). . .(An ), lui-meme plus grand
que lensemble non vide (A1 . . .An ), image de lensemble non vide A1 . . .An A.
T
2. Par Zorn, toute famille convenable A est contenue dans une famille convenable
maximale B. Dans cette situation maximale, le fait quun ferme C X rencontre tous les
elements B B entrane que C B : sinon, la famille C formee de C, de tous les B B
et de tous les C B pour B B serait une famille convenable plus grande (strictement)
que B.
Q
3. Appliquons ce qui prec`ede `a la projection J de X sur le compact XJ = jJ Xj ,
o`
u J est un sous-ensemble
fini quelconque de I ; dapr`es le point 1, on peut trouver un
T
point xJ BJ = BB J (B) ; pour tout voisinage ferme V de xJ dans XJ et tout B B,
lensemble V J (B) est donc non vide, donc J1 (V) B est non vide pour tout B B.
Par maximalite, le ferme J1 (V) est dans B. En particulier, si j J et si W est un
voisinage ferme dans Xj de la coordonnee xj de xJ , lensemble V = {yJ XJ : yj W}
est un voisinage ferme de xJ dans XJ et j1 (W) = J1 (V) est dans B.
Il en resulte que si j est un indice commun `a J1 et `a J2 , si xJ1 BJ1 et yJ2 BJ2 ,
alors leur coordonnee j concide, yj = xj ; sinon, on pourrait trouver des fermes W1
et W2 disjoints, qui soient voisinages de xj et yj dans Xj , et alors B contiendrait les
ensembles disjoints j1 (W1 ) et j1 (W2 ), ce qui est impossible puisque deux elements
quelconques dune famille convenable ont une intersection non vide.
En particulier, quand J = J1 = J2 , on conclut que tous les elements de BJ ont les
memes coordonnees, cest `a dire que BJ est reduit `a un seul point xJ , et de plus on a
isole pour tout j I un point xj Xj associe de facon unique `a la famille maximale B.
On va naturellement considerer le point x = (xi )iI X et montrer quil est dans tous
les B B, donc a fortiori dans lintersection de la famille initiale F.
Si on avait x
/ B et puisque chaque B est ferme pour la topologie produit, il
c
existerait un ouvert elementaire V tel que x V
Q B ; cet ouvert elementaire est de la
1
forme J (W0 ), o`
u W0 est un ouvert de XJ = jJ Xj , pour un certain sous-ensemble
fini J I. Cela signifie que xJ = J (x) W0 et que W0 est disjoint de J (B), donc aussi
de J (B), contrairement `a la construction precedente. En effet, W0 contient un voisinage
ferme W de xJ , et on a dit que W doit rencontrer J (B) pour tout B B (en fait, on a
meme conclu que J1 (W) B).
Ceci ach`eve la premi`ere demonstration, qui est finalement assez courte mais peu
intuitive.
Passons `a une autre demonstration, qui colle de plus pr`es `a la demonstration habituelle par extractions successives sur les coordonnees ; quand on veut demontrer BolzanoWeierstrass pour une suite bornee (xn , yn , zn ) de R3 par exemple, on commence par trouver un candidat pour la premi`ere coordonnee x dune limite de sous-suite en selectionnant
une premi`ere sous-suite telle que xnk tende vers une limite x ; ensuite, on cherche `a
etendre la definition de la limite en trouvant la deuxi`eme coordonnee y, puis la derni`ere ;
dans le cas dun produit infini non denombrable, cette strategie dextension ne pourra
pas etre menee aussi explicitement, elle utilisera le lemme de Zorn.
La description est plus agreable si on rend la situation un tout petit peu plus concr`ete
en traitant seulement un cas particulier, celui du produit X = [0, 1]I , que lon considerera
comme lespace des toutes les fonctions f sur lensemble I, `a valeurs dans [0, 1] ; cet espace
X est muni de la topologie de la convergence simple. Un ouvert elementaire V de cette
topologie est de la forme suivante : on donne un sous-ensemble fini J I et pour chaque
j J un intervalle Uj [0, 1] ouvert dans [0, 1], et on pose
V = V(J, (Uj )jJ ) = {f : I [0, 1] : j J, f (j) Uj }.
2
Il est clair que lintersection de deux, ou dun nombre fini douverts elementaires est un
ouvert elementaire.
On suppose donc donnee une famille F de fermes de X. On suppose que la famille F
poss`ede la propriete dintersection finie, et on veut prouver que lintersection de la famille
F est non vide. Il est commode dintroduire `a nouveau la famille A formee de tous les
ensembles fermes non vides de la forme A = F1 . . . Fn , o`
u n N est quelconque et
F1 , . . . , Fn F. Il faut montrer que lintersection des fermes A A est non vide.
Disons que (L, g) est une donnee partielle si L I et si g est une fonction de L dans
[0, 1] ; `a une telle donnee partielle on associe le ferme de X forme de toutes les fonctions
f sur I dont la restriction `a L est g,
C(L, g) = {f X : i L, f (i) = g(i)}.
Lorsque L = I, lensemble C(I, g) est reduit au seul point g X, qui est bien une
fonction de I dans [0, 1]. On dira que (L, g) est adherent `
a la famille A si pour tout
ouvert V elementaire de X qui contient le ferme C(L, g) et tout A A, lensemble V
rencontre A.
Lorsque L = I et que (I, g) est adherent `a la famille A, cette information dit que
pour tout A A fixe, tout ouvert elementaire contenant lelement g X rencontre A, et
comme A est ferme on en deduit que g A, pour tout A A, autrement dit lintersection
de la famille A est non vide, puisquelle contient g.
Notre objectif est donc de montrer quil existe une donnee partielle (L, g), adherente `a
la famille A, pour laquelle L = I, en procedant par elargissement progressif de lensemble
de definition L ; on peut considerer quon commence avec le cas trivial o`
u L = , ou bien
anticiper sur le pas general de recurrence pour demarrer avec un cas moins trivial o`
u
L = {i0 } (ce passage de L = `a {L = i0 } est identique `a ce qui sera fait plus bas pour
montrer que la situation maximale est necessairement celle o`
u L = I).
Avant de se lancer, il est utile de voir `a quelle condition un ouvert elementaire V =
V(J, (Uj )jJ ) contient un ferme de la forme C(L, g). On note que si V = V(J, (Uj )jJ )
contient C(L, g), alors Uj = [0, 1] pour tout j J \ L : si j
/ L, un element f C(L, g)
peut prendre au point j nimporte quelle valeur s [0, 1], mais si C(L, g) V, cela
impose f (j) Uj ; cela nest possible que si Uj = [0, 1]. On voit que C(L, g) est contenu
dans V(J, (Uj )jJ ) si et seulement si g(j) Uj pour tout j J L et Uj = [0, 1] pour
tout j J \ L. Les ouverts Uj = [0, 1] ne servent `a rien dans la definition de V : si V
contient C(L, g), on peut supposer que J L.
On dira que la donnee partielle (L1 , g1 ) est plus petite que la donnee partielle (L2 , g2 )
si L1 L2 et g2 = g1 en tout point de L1 . On verifie que les donnees partielles adherentes
a A forment un ensemble inductif pour cet ordre : si (L , g ) est une famille totalement
`
ordonnee de donnees partielles adherentes `a A, la famille
(L ) de sous-ensembles de I est
S
totalement ordonnee par inclusion. On pose L = L , et il est clair par la definition
de lordre que pour tout i L on aura une valeur g(i) [0, 1] bien definie qui est la
valeur de g (i) `a partir du moment o`
u i L . Considerons la donnee partielle (L, g)
et montrons quelle est adherente `a A : soit V = V(J, (Uj )jJ ) un ouvert elementaire
contenant C(L, g) ; on a vu quon peut supposer J L, et linclusion signifie alors que
g(j) Uj pour tout j J ; comme J est fini et la famille (L ) totalement ordonnee, le
sous-ensemble fini J sera contenu dans L pour assez grand ; on en deduit alors que V
contient dej`a C(L , g ) (micro-exercice), donc V rencontre tout A A puisque (L , g )
etait supposee adherente `a A.
3
Lensemble des donnees partielles adherentes `a A etant inductif, il admet des elements maximaux dapr`es le lemme de Zorn. Pour terminer, il suffit de montrer que si
(L, g) est maximal, alors L = I. Montrons que toute donnee partielle (L, g) adherente
a A peut etre etendue, tant que L 6= I (ce qui justifie laffirmation sur les elements
`
maximaux). Soit k I \ L. La famille B de tous les ensembles
B=AV
o`
u V varie dans la famille des ouverts elementaires contenant C(L, g) et A dans A,
verifie la propriete dintersection finie.
T En effet, etant donne un nombre fini densembles
A V B, lintersection
finie V = V est encore un ouvert
T
T elementaire qui contient
C(L, g), et A = A est un element de A. Il en resulte que (A V ) = A V est
non vide, puisque (L, g) est adherent `a A. Designons par k lapplication f f (k) de
X sur [0, 1]. Il resulte de la propriete de B que la famille des ensembles
k (A V)
est une famille de fermes du compact [0, 1], avec la propriete dintersection finie. Il existe
e = L {k} on definit une extension ge de g en
donc un point xk dans lintersection. Sur L
posant ge(k) = xk (et ge(i) = g(i) pour tout i L).
e ge) est adherent `a la famille A. Supposons que louvert
Montrons pour finir que (L,
e contienne le nouvel ensemble C(L,
e ge),
elementaire V
On peut ecrire
o`
u lensemble J ne contient pas k, et xk Uk . Il est clair que V contient C(L, g), donc
A V est lun des ensembles de la famille B, par consequent le voisinage Uk de xk
e rencontre A.
rencontre k (A V), ce qui signifie exactement que V
On a bien montre que toute donnee partielle (L, g) avec L 6= I peut etre etendue.
o`
u K est la constante de Lipschitz de F. Considerons la transformation S de E dans E
definie par
Z t
f E, t [0, T], (Sf )(t) = y0 +
F(f (s)) ds
0
d
(lintegrale est une integrale vectorielle `a valeurs dans R ). Montrons le caract`ere contractant de S ; si f, g sont deux elements de E, on aura pour tout t [0, T],
Z t
Kt
Kt
e
k(Sf )(t) (Sg)(t)k = e
F(f (s)) F(g(s)) ds
Kt
e
Z
Kt
Kt
K kf (s) g(s)k ds
K eKs |||f g||| ds = eKt (eKt 1) |||f g||| (1 eKT ) |||f g|||
donc S est bien contractante, avec la constante C = 1eKT < 1. Puisque E est complet,
il existe une fonction unique f0 telle que Sf0 = f0 . On en deduit dabord que f0 (0) = y0 ,
et on montre classiquement que Sf0 est de classe C1 (parce que f0 est continue) avec
(Sf0 )0 = F(f0 ). Reciproquement, si f1 de classe C1 verifie lequation differentielle et la
condition f1 (0) = y0 , on constate facilement que Sf1 = f1 , donc f1 = f0 par lunicite
(evidente) dans le theor`eme de point fixe.
Remarques
1. Il faut rappeler que le cadre Rd est important du point de vue theorique, car
il permet de ramener une equation differentielle dordre > 1 `a une equation vectorielle
dordre 1, et egalement une equation non autonome `a une equation autonome avec une
dimension despace de plus. Notons encore que tout marcherait aussi bien si lespace des
valeurs Rd etait remplace par un espace de Banach.
2. Au lieu de tordre la norme uniforme on aurait pu garder la norme usuelle et
tordre loperateur S en posant
Z t
Kt
(S1 f )(t) = e
y0 +
F eKs f (s) ds .
0
et le maximum de C(t) = eMt (eKt 1) sur [0, +[ est atteint en un certain t0 > 0 pour
lequel 1 eKt0 = K/M et C = C(t0 ) K/M < 1. On en deduit
f, g E (M),
4. Bien entendu il sagit ici dun developpement cense illustrer linteret des espaces
de fonctions. La methode plus directe par iteration, sans mention explicite despace
norme de fonctions continues, est aussi (sinon plus) rapide dans ce cas uniformement
lipschitzien. On definit une suite (yn ) de fonctions de [0, T] dans Rd en posant y0 (t) = y0
pour tout t, puis
Z
t
yn+1 (t) = y0 +
F(yn (s)) ds
pour tout n 0. Si on pose M = kF(y0 )k, on montre facilement par recurrence que
kyn+1 (t) yn (t)kP
K1 M (Kt)n+1 /(n + 1)! pour tout n 0, do`
u resulte la convergence
de la serie y0 + n0 (yn+1 yn ) vers une fonction y qui est solution de lequation
y 0 = F(y) et verifie de plus lestimation ky (t) y0 k K1 M(eKt 1).
Il ne faut pas croire que la fonction f ait une derivee nulle en tout point qui nest
pas un point de saut, cest `a dire en tout x
/ D. En effet, on peut verifier quen tout
point de lensemble
\ [
A=
[xn n , xn + n ]
m nm
la derivee ne peut pas etre nulle, et cet ensemble A peut etre tr`es riche (un ensemble avec
la puissance du continu, genre Cantor : voir un exemple dans le paragraphe suivant).
Cependant, un theor`eme (assez delicat) de Lebesgue dit que toute fonction croissante
est derivable presque partout ; ce resultat est plus facile `a obtenir dans le cas present,
mais il nest quand meme pas trivial, `a ma connaissance. On va donc montrer que :
la fonction de sauts f `a une derivee `a droite nulle Lebesgue-presque partout.
On a le meme resultat `a gauche, par une demonstration analogue, donc en fait f est
Lebesgue-presque partout derivable de deriv
e nulle. Il est clair que pour tout entier
PeN1
N 0, la fonction fN definie par fN (x) = n=0 n 1xn x na que N sauts, situes aux
points x0 , . . . , xN1 , donc elle a certainement une derivee nulle partout ailleurs ; on voit
ainsi que le probl`eme de la derivabilite de f se ram`ene `a celui de gN = f fN , pour un
N quelconque ; la seule difference entre f et gN est que gN = f fN est une fonction
de sauts
P pour laquelle la somme des sauts devient petite, puisque cette somme vaut
rN = nN n , qui tend vers 0 avec N. Notons que gN (1) gN (0) rN .
Introduisons lun des quatre nombres derives de Dini de la fonction g, le nombre
D+ g(x), quon peut appeler la derivee superieure droite de g au point x,
g(y) g(x)
,
yx
yx,y>x
valeur + admise. On definit de meme une derivee inferieure droite D+ g(x) en remplacant lim sup par lim inf, et la derivee `a droite ordinaire gd0 (x) existe precisement quand
D+ g(x) = D+ g(x). La fonction D+ g est clairement mesurable quand g est croissante et
continue `a droite (parce quon peut limiter le choix de y au cas o`
u y x est un rationnel
1
> 0, par exemple). Soit > 0 ; on va montrer que la derivee superieure `a droite D+ g
dune fonction de sauts g telle que g(1) g(0) < 2 est plus petite que sauf sur un
ensemble de mesure de Lebesgue .
Rx
Soit K un compact
contenu dans {D+ g > } ; posons k(x) = 0 1K , cest `a dire
k(x) = K [0, x], o`
u |A| designe la mesure de Lebesgue de A [0, 1] ; posons ensuite
h(x) = g(x) k(x) ; on va montrer que
() pour tout x [0, 1[, il existe y > x tel que h(y) h(x) ;
comme g est croissante et k continue, un petit coup de borne superieure impliquera que
h(1) h(0), do`
u |K| = k(1)k(0) g(1)g(0) 2 , linegalite que nous cherchions :
considerons en effet lensemble B des x [0, 1] tels que h(x) h(0) ; cet ensemble contient
0 et si (xn ) B tend en croissant vers x, on aura g(x) limn g(xn ) limn k(xn ) = k(x),
donc x B. Ceci montre que B contient sa borne superieure, et la propriete () pour h
implique que la borne superieure de B est egale `a 1. Montrons donc cette propriete () :
si x
/ K, la fonction k reste constante au voisinage de x, donc h varie comme g dans
ce voisinage V, cest `a dire en croissant et on prend pour y nimporte quel y > x qui
est dans V ; si x K, alors D+ g(x) > , ce qui donne lexistence dun y > x tel que
g(y) g(x) > (y x) ; comme la fonction k ne peut pas varier de plus de (y x) entre
x et y, il en resulte que h(y) h(x) > 0.
Puisque tout compact K contenu dans {D+ g > } a une mesure de Lebesgue ,
il en resulte que lensemble {D+ g > } est de mesure de Lebesgue . Dapr`es nos
considerations sur le passage de f `
a gN , on deduit que {D+ f > } est de
Pmeme mesure
+
que {D gN > } pour tout N, donc de mesure (prendre N tel que nN n < 2 )
pour tout > 0, donc D+ f est nulle Lebesgue-presque partout. Comme f est croissante,
on a fd0 (x) = 0 en tout point o`
u D+ f (x) = 0.
Un exemple plus specifique
On prend pour D lensemble de tous les nombres dyadiques de ]0, 1[, cest `a dire les
nombres de la forme j 2k , j, k entiers et k > 0 et 0 < j < 2k .
Si xn D secrit xn = j 2k avec j impair, posons n = 3k ; on verifie que
P+
k1
dyadiques de la forme j 2k , j impair et donc
n=0 n = 1 ; en effet, il y a 2
+
X
n=0
n =
+ k1
X
2
k=1
3k
= 31
1
= 1.
1 2/3
La fonction f est strictement croissante sur [0, 1] (parce que D est dense dans [0, 1]), ce
qui permet de definir une fonction inverse g par la formule
y ]0, 1[,
Montrons comme promis que la fonction de sauts f admet une infinite non denombrable de points o`
u sa derivee `a droite est non nulle (la meme chose est vraie pour la
derivee `a gauche). Choisissons une suite strictement croissante dentiers (mk )k0 telle
que 2mk+1 > 3mk pour tout k 0. Pour chaque suite a = (ak ) formee de 0 et de 1 posons
+
X
ak
y(a) = 1
[0, 1].
2mk
k=0
Fixons a qui change une infinite de fois de valeur, posons y = y(a) et pour tout k 0
yk = 1
k
X
aj
> y.
mj
2
j=0
donc f (yk ) f (y) /(yk y) 1/2. Il en resulte que la derivee `a droite de f au point
y ne peut pas etre nulle. Et il y a une infinite non denombrable de tels points y = y(a),
quand a varie dans {0, 1}N .
Fonctions convexes
ky xk
t
rs
ce qui montre que F est lipschitzienne de constante 2M(r s)1 dans la boule B(x0 , s).
Une forme du theor`eme de Hahn-Banach
Th
eor`
eme. Si f est convexe, `a valeurs R {+}, definie sur un espace affine reel E de
dimension finie, et si x0 est un point au voisinage duquel f est finie, il existe une fonction
affine a sur E telle que a(x0 ) = f (x0 ) et a f sur E.
Le resultat decoule dun resultat de prolongement, que lon appliquera avec le sousespace affine F = {x0 } et la fonction affine sur F egale `a f (x0 ).
Si f est convexe, `a valeurs R{+}, definie sur un espace affine reel E de dimension
finie, si x0 est un point au voisinage duquel f est finie, si F est un sous-espace affine de
E contenant x0 , et si a est une fonction affine sur F, telle que a(y) f (y) pour tout
y F, il existe un prolongement e
a de a `
a E tout entier, qui est affine sur E et qui verifie
linegalite e
a f sur E.
y F, t R, e
a(y + t
v ) = a(y) + t e
a(x0 +
v ) a(x0 ) ;
Posons M = e
a(x0 +
v ) a(x0 ) ; la seule question est de montrer quon peut trouver M
a(y2 ) f (y2 t2
v) ,
f (y1 + t1
v ) a(y1 ) et M t1
M t1
2
1
t1
1 a(y1 ) + t2 a(y2 ) t1 f (y1 + t1 v ) + t2 f (y2 t2 v ) ??
f
y1 +
y2 = f
(y1 + t1 v ) +
(y2 t2 v )
t1 + t2
t1 + t2
t1 + t2
t1 + t2
t2
t1
f (y1 + t1
f (y2 t2
v)+
v)
t1 + t2
t1 + t2
ce quil fallait demontrer.
Remarque. Une hypoth`ese est necessaire pour quon puisse trouver une fonction affine
a egale `a f au point x0 et a f sur E ; la moindre des choses est evidemment que f (x0 )
soit fini, mais ca nest pas suffisant : pour la fonction f convexe sur R egale `a 0 pour
x > 0, f (0) = 1 et f (x) = + pour x < 0, il nexiste pas de fonction a affine sur R telle
que a(0) = f (0) et a f sur R.
Si nous supposons que a existe, la fonction a sera lipschitzienne sur E, dune certaine
constante C et on devra avoir f (y) f (x0 ) a(y) a(x0 ) C ky x0 k pour tout
y E. On peut verifier que la condition quil existe une constante C telle que
y E,
f (y) f (x0 ) C ky x0 k
(la valeur trouvee peut etre +, mais elle nest pas ). La fonction F est la fonction
conjuguee de F ; cest evidemment une fonction convexe (sup de fonctions affines en y).
Si F est une fonction de classe C1 sur E, strictement convexe, et telle que F(x)/kxk
tende vers + lorsque kxk +, alors la fonction conjuguee F poss`ede les memes
proprietes. La fonction x F(x) est un homeomorphisme de E sur E, et la bijection
reciproque est lapplication gradient de F .
Montrons que F est surjectif. Soit y0 E ; la fonction x y0 . x F(x) est continue sur
E, et elle tend vers lorsque kxk + (mettre kxk en facteur et utiliser lhypoth`ese
sur F). Cette fonction atteint donc un maximum sur E, en un point x0 , unique parce que
F est strictement convexe ; il en resulte que son gradient sannule en x0 (et seulement en
x0 ), ce qui donne y0 F(x0 ) = 0. On a montre que F est une bijection continue de
E sur E.
On montre ensuite que lapplication inverse est continue ; si (yn ) converge vers y,
il faut montrer que les points xn tels que F(xn ) = yn convergent vers le point x tel
que F(x) = y. Pour cela il suffit de savoir que (xn ) reste borne ; si nous admettons
5
ce point, nous noterons que pour toute sous-suite (xnj ) convergente vers une limite x0 ,
nous aurons F(x0 ) = y, donc x0 = x, et on en deduit que (xn ) tend vers x (on vient de
refaire la demonstration du fait quune bijection continue entre compacts est bicontinue ;
on aurait pu se ramener `a appliquer ce resultat classique).
La croissance de la derivee de la fonction convexe g (de classe C1 ) definie sur R par
g(t) = F(tx) implique que
Z 1
F(x) F(0) = g(1) g(0) =
g 0 (s) ds g 0 (1) = F(x) . x kF(x)k kxk
0
et kF(x)k (F(x) F(0))/kxk, qui tend vers + par hypoth`ese. Il en resulte bien que
(xn ) sera bornee si (F(xn )) est bornee, ce quil nous fallait au paragraphe precedent.
Si x1 est fixe, on a que F (y) y . x1 F(x1 ) pour tout y par definition, avec au
point y1 = F(x1 ) legalite F (y1 ) = y1 . x1 F(x1 ), ce qui donne
y E,
(y y1 ) . x1 F (y) F (y1 )
Z n
Z +
+
X
1
dx
x dx +
x dx
k
n1
n
k=n
k
( 1) n1
k=n
avec
0 E(n) (n 1) .
Remarque. Ce resultat elementaire, applique avec n = 2 (par exemple) et = s > 1
suffit pour voir que lims1+ (s 1)(s) = 1.
Pour poursuivre letude on peut appliquer la formule de Taylor ; posons pour tout
entier n 1 et tout reel > 1
+
X
1
.
Rn () =
k
k=n
1
1
1
+ f 000 (k )
+1
k
2 k
6
o`
u k < k < k + 1 ; apr`es sommation en k variant de n `
a + on obtient
+
X f 000 (k )
.
f (n) = Rn () Rn ( + 1) +
2
6
k=n
k=n
1
k
( 1) n
2 n
k=n
On concoit quon pourrait continuer aussi longtemps que notre courage le permettrait,
mais on va voir ci-dessous un raccourci, proche cousin de la methode sommatoire dEulerMacLaurin ; `a ce sujet, on consultera avec profit Chatterji volume 2, 6.6, ou bien Godement, tome 2, chapitre VI, paragraphe 2. Il ny a rien detonnant `a voir apparatre
ces deux variantes : la formule de Taylor avec reste integral et la formule sommatoire se
demontrent de la meme facon, par une succession dintegrations par parties ; la difference
vient du choix des constantes dintegration dans les primitives successives de dt ; pour
la formule de Taylor entre 0 et x, on fait apparatre des multiples des fonctions polynomiales t (x t)n , alors que la formule sommatoire fait apparatre les polynomes de
Bernoulli (voir plus loin).
Proposition. Il existe des coefficients a0 , a1 , . . . tels que : pour tout entier p > 0 et pour
toute fonction f de classe C sur un intervalle I, la fonction g definie sur I par
g = a0 f + a1 f 0 + + ap1 f (p1)
verifie
p1
g0 +
X (p)
1 00
1
1
g + g (3) + + g (p) = f 0 +
b` f (p+`) .
2!
3!
p!
`=1
Il est facile de montrer par recurrence lexistence de ces coefficients. On trouve dabord
que a0 = 1, et on a ensuite la relation de recurrence
()
aj1
j
X
aji
=
i!
i=2
pour tout j 2, qui permet de calculer les coefficients de proche en proche, en commencant par a1 = 1/2 puis a2 = 1/12.
Pp1 (p)
Lorsque f est une fonction de la forme x , la fonction R(x) = `=1 b` f (p+`) est
une combinaison lineaire de fonctions xp` qui sont toutes O(xp1 ), cest `a dire
dordre nettement plus petit que f (x) lorsque x +. Quand on appliquera la formule
de Taylor-Lagrange `a lordre p `a la fonction g entre k et k + 1 il se passera des choses
interessantes, comme on le verra plus bas sur un exemple.
Une autre facon dintroduire ces nombres (an ) est dappliquer la proposition `a la
fonction f (x) = esx , o`
u s est un param`etre reel qui tendra ensuite vers 0. On obtient
alors
g(x) = (a0 + a1 s + + ap1 sp1 ) f (x) = P(s)f (x)
et
s2
1
1
1
s3
sp
g 0 + g 00 + g (3) + + g (p) (s) = P(s) s +
+
+ +
f (x) =
2!
3!
p!
2!
3!
p!
sf (x) +
p1
X
(p)
b` sp+`
`=1
f (x).
s2
s3
sp
+
+ +
= s + O(sp+1 )
2!
3!
p!
2
(s tendant vers 0) donc P(s) es 1 + O(sp+1 ) = s + O(sp+1 ) et
es 1
P(s)
= 1 + O(sp ),
s
o`
u les coefficients (an ) sont bien les nombres que nous cherchons. On introduit classiquement les nombres de Bernoulli par la relation
+
X
s
Bn n
=
s
s
e 1
n!
n=0
ce qui nous dit que les coefficients (an ) verifient la relation n! an = Bn pour tout entier
n 0. On voit dans les livres que
1
1
B0 = 1, B1 = , B2 = ,
2
6
g 0 (x) +
1
1
1 00
g (x) + g 000 (x) + g (4) (x) = f 0 (x) + E(x)
2!
3!
4!
o`
u E(x) est une combinaison lineaire des fonctions derivees f (p+`) avec p + ` 5, ce qui
correspond `a des termes xm avec m 6. En appliquant Taylor entre k et k + 1 `a la
fonction g il vient
1
1
1
1 00
g (k) + g 000 (k) + g (4) (k) + g (5) (k ) =
2!
3!
4!
5!
1
f 0 (k) + E(k) + g (5) (k ) = f 0 (k) + R(k).
5!
cest `a dire
+
X
1
1
1
1
= + 2 + 3 + O(n5 ).
2
k
n 2n
6n
k=n
En posant
n1
X 1 1
1
1
S3 (n) =
+ + 2+ 3
2
k
n 2n
6n
k=1
on obtiendra une approximation de la somme totale (2) = 2 /6. Jai teste pour vous
S3 (100) = 1, 6449340668515 . . .
2
= 1, 6449340668482 . . .
6
Methodes dacceleration de la convergence
Prenons un exemple tr`es simple. Il resulte des discussions precedentes quil existe
des coefficients (cn ) tels que pour tout entier p 1, on ait quand n +
2
/6 =
n
X
k=1
Pn
k 2 + c1 n1 + + cp1 np+1 + O(np ).
2
Posons un =
. On constate facilement que la combinaison vn = 2u2n un
k=1 k
approche encore la somme 2 /6, mais le terme du premier ordre c1 /n a disparu,
1
1
+
+ = L + x
q + 1 (q + 1)(q + 2)
Nombres de Liouville
Exercice. Montrer que le nombre
x=
+
X
10n!
n=0
est transcendant.
Indication. Pour m entier 1 designons par Dm lensemble des nombres decimaux
Pn de la
forme j 10m , j Z. Lorsque m = n! le nombre ym Dm defini par ym = k=0 10k!
P
0
u m0 = (n + 1)! = (n + 1)m.
verifie les inegalites 0 < x ym = k>n 10k! < 2 . 10m o`
Prenons par exemple un polynome P `a coefficients entiers de degre 3,
P = A X3 + B X2 + C X + D.
si n est assez grand. Par ailleurs, P(ym ) D3m Dm , parce que A, B, C et D sont entiers
2
3
et ym
D2m , ym
D3m ; si P(x) = 0 on aura |P(ym )| < 103m , donc necessairement
P(ym ) = 0. Mais quand n varie les ym sont deux `a deux distincts, et ne peuvent etre
tous racines du polynome P : le nombre x ne peut donc pas etre racine dun polynome
a coefficients entiers (de degre 3 pour linstant ; la generalisation `a tout autre degre est
`
evidente).
Polyn
omes de Bernoulli
On definit une suite de fonctions polynomiales (An (t))n0 verifiant les conditions
suivantes :
R1
A0 (t) = 1, A0n+1 = An et 0 An+1 (t) dt = 0 pour tout n 0.
On verifie facilement que ces conditions definissent compl`etement notre suite. On note
que An est de degre n pour tout n 0. On trouve ainsi
A1 (t) = t 1/2, A2 (t) = t2 /2 t/2 + 1/12, A3 (t) = t3 /6 t2 /4 + t/12,
R1
et les polynomes de Bernoulli sont les Bn (t) = n! An (t). Comme 0 An (t) dt = 0 `a partir
de n = 1, il en resulte que An (1) = An (0) `a partir de n 2. On constate que ces valeurs
en 0 sont justement les coefficients (an ) introduits precedemment ; en effet, en posant
provisoirement cn = An (0) pour tout n 0 on obtient de proche en proche
An (t) = c0
t2
tn
+ + cn2 + cn1 t + cn ,
n!
2!
+
X
an z n =
n=2
z
z
z
=
+
ez 1 2
2 th(z/2)
1
1
+ +
< e 2 < 1.
2!
(n + 1)!
Il en resulte que |An (t)| e 1 < 2 pour tout t [0, 1], ce qui montre que la serie
f (z, t) =
+
X
An (t) z n
n=0
converge pour tout t [0, 1] et tout z C tel que |z| < 1 (en fait le rayon de convergence
en z est egal `a 2 pour tout t [0, 1], dapr`es le resultat quon trouvera ci-dessous). On
en deduit
+
+
X
X
d
0
n
f (z, t) =
An (t) z =
An (t) z n+1 = z f (z, t)
dt
n=0
n=0
ce qui implique que pour tout z fixe il existe un nombre complexe (z) tel que
f (z, t) = (z) etz .
Ensuite
1=
A0 (t) dt =
(G)
An (t) z n =
n=0
1
0
+
X
z etz
Bn (t) n
.
z = z
e 1
n!
n=0
Formule sommatoire
Par integration par parties successives
Z 1
h
i1 Z
0
0
f (1) f (0) =
A0 (t)f (t) dt = A1 (t)f (t)
0
i1 h
i1
A1 (t)f 0 (t) A2 (t)f 00 (t) +
0
A1 (t)f 00 (t) dt =
j=1
Aj (t)
(comme ici f (j) (x) = (1)j+1 j! xj1 , le coefficient qui apparat dans la formule precedente en facteur de n2j1 pour j 1 est exactement le nombre de Bernoulli B2j ). Le
lecteur acharne pourra calculer
720 . A5 (t) = 6t5 15t4 + 10t3 t,
puis justifier que le maximum du module pour t [0, 1] est atteint sur [0, 1/2] et majorer
ce maximum (`a la grosse louche) par 2 (une etude numerique donne plutot 0, 14675 . . .
pour ce maximum). Le terme integral se trouve alors majore par
Z +
1
2
t7 dt = 6 .
3n
n
Si n = 100 par exemple, cette erreur est donc de lordre de 1012 , ce qui est bien
sympathique. En fait le calcul numerique montre que lerreur est encore plus petite que
cet ordre prevu. En posant
n1
X 1 1
1
1
1
+ + 2+ 3
S5 (n) =
2
k
n 2n
6n
30 n5
k=1
on obtient
S5 (100) = 1, 6449340668482262 . . .
2
= 1, 6449340668482264 . . .
6
7
la fonction A4j+2 est decroissante sur [0, 1/2], et la fonction A4j+4 est croissante
sur [0, 1/2] ; elles sannulent exactement une fois entre 0 et 1/2 ; la fonction A4j+1 est
negative sur [0, 1/2], et la fonction A4j+3 est positive sur [0, 1/2].
On a vu `a propos des proprietes de symetrie par rapport `a 1/2 que lintegrale de
A2k sur [0, 1/2] est nulle, et A2k+1 (0) = A2k+1 (1/2) = 0, pour k 1.
On voit que A1 est < 0 sur [0, 1/2], donc A2 est decroissante sur [0, 1 / 2], et la
condition dintegrale nulle pour A2 impose A2 (0) > 0 > A2 (1/2) ; la fonction A3 est donc
dabord croissante, puis decroissante sur [0, 1/2], et sa nullite aux bornes implique que
A3 (t) > 0 pour 0 < t < 1/2 ; maintenant A4 est croissante sur [0, 1/2] et on continue. . .
Si g est croissante sur [0, 1] il en resulte que
Z 1
A4j+1 (t)g(t) dt 0
0
puisqu`
a cause de lantisymetrie de A4j+1 par rapport `a 1/2 lintegrale precedente vaut
Z 1/2
A4j+1 (t) g(t) g(1 t) dt
0
et la fonction `a integrer est 0 sur [0, 1/2] comme produit de deux quantites negatives.
On a bien s
ur le signe oppose pour A4j+3 .
Dans le cas o`
u f (x) = x1 , les derivees paires sont toutes croissantes (et negatives),
donc
Z
+
5
=
+
+
24
+
+
A
(t)t
dt
3
k2
n 2n2
6n3
n 2n2
6n3
n
k=n
un bon moment avant que B2p 1002p1 ne se mette `a remonter, ce qui signifie que
B2p+2 > 10000 B2p .
La morale est la suivante : si on avait fait un peu plus de theorie avant, on naurait
pas additionne 100 termes : on aurait pu se contenter de n = 10, aller jusquau moment
o`
u B2p+2 /B2p depasse n2 = 100, ce qui se produit `a peu pr`es pour B62 , et recolter avec
une trentaine de termes pairs du developpement asymptotique, plus la somme des dix
premiers termes de la serie, une erreur B62 1063 < 3 . 1027 . Mais cest tellement
facile, avec les outils modernes, dajouter les 100 premiers termes sans reflechir !
Bernoulli et Fourier
Les series de Fourier apportent un autre eclairage `a cette question des polynomes
de Bernoulli. Si on prolonge A1 (t), definie sur [0, 1[, en une fonction 1-periodique sur R,
on obtient pour tout t ]0, 1[
A1 (t) =
+
1 X sin(2nt)
n=1
n
puis par integration `a moyenne nulle, pour tout t [0, 1] cette fois
+
1 X cos(2nt)
;
A2 (t) =
2 2 n=1
n2
en particulier a2 = A2 (0) =
pour tout entier p 1
t [0, 1],
1
2
1
22p1 2p
et
a2p = A2p (0) = (1)p+1
+
X
cos(2nt)
n2p
n=1
(2p)
22p1 2p
Les proprietes de symetrie de la fonction A2p par rapport `a 1/2 sont evidentes sur ces
formules. On voit de plus que
(1)p+1 22p1 2p A2p (t) = cos(2t) +
1
1
cos(4t) + 2p cos(6t) +
2p
2
3
converge assez rapidement sur [0, 1] vers la fonction t cos(2t), ce qui permet de
comprendre le comportement graphique des polynomes A2p pour p assez grand ; les
polynomes de degre impair tendent eux (sur [0, 1] et `a des constantes multiplicatives
pr`es) vers t sin(2t).
Le quotient a2p+2 /a2p , qui intervient dans la decision darreter le developpement
asymptotique (au moins lorsque les erreurs successives ont le bon go
ut detre alternees),
converge donc rapidement vers 1/(4 2 ) 1/40. Le rapport
qp = B2p+2 /B2p = (2p + 1)(2p + 2) a2p+2 /a2p
est donc de lordre de p2 /10. Pour atteindre une valeur qp 10000 (question qui a ete
evoquee precedemment), il faut aller `a p 300, ce qui est hautement improbable. . .
9
On va donc chercher, pour chaque b fixe, une fonction x gb (x) qui verifie la propriete
que doit avoir x x (], b]), cest `a dire
Z
Z
h(x) gb (x) d(x) =
h(x) 1yb d(x, y)
R2
pour toute h borelienne bornee. Le point essentiel qui rattache ce developpement aux applications de la denombrabilite est le suivant : pour determiner la fonction de repartition
b x ((, b]), il suffit de la determiner lorsque b = q est rationnel. On va donc
chercher une famille denombrable de fonctions (gq )qQ de la variable x, qui reconstitueront, pour x fixe et q variant, la fonction de repartition de la probabilite x voulue.
Notons i1 le plongement isometrique de L2 (R, ) dans L2 (R2 , ) obtenu par la formule i1 (h)(x, y) = h(x), cest `a dire que nous considerons tout simplement une fonction
2
dune seule variable h comme une fonction de deux variables i1 (h) qui ne depend que de
la premi`ere variable ! Loperateur adjoint P = i1 , defini de L2 (R2 , ) dans L2 (R, ) est
caracterise par
h L2 (), hPf, hiL2 () = hf, i1 hiL2 ()
cest `a dire que la fonction g = Pf dune seule variable est caracterisee par le fait que
Z
Z
h(x)g(x) d(x) =
h(x)f (x, y) d(x, y)
R2
est -negligeable, comme reunion denombrable densembles negligeables. De meme puisque 0 fq 1 on a 0 gq 1, donc
[
N2 =
{x R : gq (x) < 0, q Q}
et
N3 =
{x R : gq (x) > 1, q Q}
Par construction, cette fonction t gt (x) est une fonction croissante continue `a droite
sur R, comprise entre 0 et 1, et pour chaque t fixe x gt (x) est borelienne comme
limite simple de fonctions boreliennes. Lorsque t est rationnel, on verifie par convergence
dominee lorsque q & t, appliquee `a fq ft et gq gt que la fonction x gt (x) verifie
aussi les proprietes qui caracterisent Pft , `a savoir
Z
Z
h(x)
gt (x) d(x) =
h(x)1yt d(x, y)
R2
pour toute h L2 (R, ). On en conclut que gq = gq -presque partout pour tout rationnel
q, et quitte `a faire une nouvelle modification `a un ensemble negligeable pr`es on pourra
supposer que gq = gq partout, et on notera simplement gt (x), pour tout t reel.
La fonction t R gt (x) admet aussi des limites g (x) et g (x) aux deux infinis ;
ces deux limites sont des fonctions boreliennes de la variable x. On verifie comme ci-dessus
3
que ces limites sont des representants de P(0) et P(1) respectivement, donc g = 0 et
g = 1 -presque partout. En enlevant encore un negligeable on trouve finalement un
borelien -negligeable N0 R tel que : pour tout x
/ N0 , la fonction t R gt (x) est
une fonction croissante continue `a droite, dont les limites en sont egales `a 0 et 1 ;
cest donc la fonction de repartition dune probabilite x sur R. Pour les autres valeurs
de x on posera par exemple x = 0 , si on veut.
Par construction x x (A) est borelienne lorsque A = (, q] avec q rationnel,
puisque cest la fonction gq de la construction precedente. La classe C formee par tous ces
intervalles est stable par intersection finie, et la classe M des boreliens A R tels que
x x (A) soit borelienne est monotone et stable par difference, elle contient la classe
C, donc elle contient aussi la tribu engendree par C (lemme des classes monotones), cest
a dire la tribu borelienne de R. On a ainsi montre la premi`ere affirmation du theor`eme.
`
On a aussi par construction
Z
Z
Z
1A (x)1yq d(x, y) =
1A (x)
1yq dx (y) d(x)
R2
puisque
qui contient donc les produits A (, q] par la formule precedente. On passe ensuite
aux fonctions etagees, puis mesurables par les techniques standard.
La demonstration du resultat dunicite est laissee au lecteur, sil en reste un.
Probabilites conditionnelles
On se donne un couple (X, Y) de v.a. reelles et on designe sa loi jointe par . La loi de
X est limage de par lapplication p1 . Les x sont les lois conditionnelles de Y sachant
que X = x. Pour toute fonction borelienne bornee f (x, y), on obtient un representant
de lesperance conditionnelle de la variable aleatoire Z = f (X, Y) sur la tribu A = (X)
engendree par X, qui se met sous la forme
E f (X, Y) | A = g(X),
o`
u
g(x) =
f (x, y) dx (y).
Du point de vue probabiliste, les deux exemples evidents donnes apr`es le theor`eme
correspondent aux deux cas (extremes) suivants : dans le cas 1, on a deux v.a. independantes X, Y de lois 1 et 2 , et lindependance dit que linformation X = x ne change
pas notre connaissance de la loi de Y, la loi conditionnelle x est simplement la loi 2
de Y ; le cas 2 est celui o`
u X est de loi et o`
u Y = X : dans ce cas evidemment, la loi
de Y sachant que X = x est x !