Vous êtes sur la page 1sur 26

Prepa. Agreg. ecrit dAnalyse, Annexe no 3.

D
emonstration du th
eor`
eme de Tykhonov
On va presenter deux demonstrations du theor`eme de Tykhonov. La premi`ere est essentiellement la demonstration au moyen des ultrafiltres, mais sans le dire. . . La deuxi`eme
ressemble plus `a la demonstration du theor`eme de Hahn-Banach. Dans les deux cas, on
fera appel au lemme deQZorn ; cela nest pas surprenant si on pense que la seule affirmation que le produit iI Xi dune famille quelconque densembles non vides est non
vide equivaut au lemme de Zorn. Et si on veut sinteresser en plus `a la topologie de cet
espace produit, la moindre des choses serait bien de pouvoir dire sil est vide ou non !
Pour la premi`ere demonstration qui suit, il est agreable de concevoir la topologie
dun produit infini comme une esp`ece de limite des produits finis (cette notion existe vraiment, cest la notion de limite
Qprojective). Soit (Xi )iI une famille quelconque despaces
topologiques et posons
X
=
erons le
iI Xi ; pour tout sous-ensemble fini J I, consid
Q
produit fini XJ = jJ Xj et lapplication de projection naturelle J de X sur XJ qui
est definie par

J (xi )iI = (xj )jJ .
Les ouverts de la topologie produit sur X sont agreables `a decrire avec ces projections :
disons quun ensemble V X est un ouvert semi-elementaire sil existe un ensemble fini
J I et un ouvert W du produit fini XJ tels que V = J1 (W). Un ouvert quelconque de
X est reunion douverts semi-elementaires.
La description precedente montre que les projections J sont continues de X sur XJ ,
pour tout J I.
Q
Th
eor`
eme : theor`eme de Tykhonov. Tout produit X = iI Xi dune famille (Xi )iI
de compacts est compact.
Demonstration. Il est facile de voir que X est separe. Soit F une famille de fermes de
X, avec la propriete dintersection finie, cest `a dire que toute famille finie F1 , . . . , Fn
delements de F a une intersection F1 . . . Fn non vide ; la famille A de toutes les
intersections finies A = F1 . . . FN delements de F a les deux proprietes suivantes :
si A, B sont deux elements de A, alors A B A
tout element de A est un ferme non vide de X.

Pour savoir que X est compact, nous devons montrer que lintersection de cette
famille A est non vide ; la strategie (bizarre) de la preuve est daugmenter la famille A
en une famille B qui aura elle aussi une intersection non vide ; linteret de lelargissement
de B est que dans B, on aura simplifie la description de lintersection : il ny aura plus
quun seul element !
Pour les besoins de la redaction de cette demonstration, appelons famille convenable
toute famille A de parties fermees de X avec les deux proprietes ci-dessus. On fera
quelques remarques.
1. Si A est convenable et si est une application de X dans un compact K, alors
es (A) du compact K a la propriete
AA (A) est non vide, car la famille des ferm
dintersection finie : en effet, (A1 ). . .(An ) est toujours non vide quand A1 , . . . , An
A, puisque cette intersection est plus grande que (A1 ). . .(An ), lui-meme plus grand
que lensemble non vide (A1 . . .An ), image de lensemble non vide A1 . . .An A.
T

2. Par Zorn, toute famille convenable A est contenue dans une famille convenable
maximale B. Dans cette situation maximale, le fait quun ferme C X rencontre tous les
elements B B entrane que C B : sinon, la famille C formee de C, de tous les B B
et de tous les C B pour B B serait une famille convenable plus grande (strictement)
que B.
Q
3. Appliquons ce qui prec`ede `a la projection J de X sur le compact XJ = jJ Xj ,
o`
u J est un sous-ensemble
fini quelconque de I ; dapr`es le point 1, on peut trouver un
T
point xJ BJ = BB J (B) ; pour tout voisinage ferme V de xJ dans XJ et tout B B,
lensemble V J (B) est donc non vide, donc J1 (V) B est non vide pour tout B B.
Par maximalite, le ferme J1 (V) est dans B. En particulier, si j J et si W est un
voisinage ferme dans Xj de la coordonnee xj de xJ , lensemble V = {yJ XJ : yj W}
est un voisinage ferme de xJ dans XJ et j1 (W) = J1 (V) est dans B.
Il en resulte que si j est un indice commun `a J1 et `a J2 , si xJ1 BJ1 et yJ2 BJ2 ,
alors leur coordonnee j concide, yj = xj ; sinon, on pourrait trouver des fermes W1
et W2 disjoints, qui soient voisinages de xj et yj dans Xj , et alors B contiendrait les
ensembles disjoints j1 (W1 ) et j1 (W2 ), ce qui est impossible puisque deux elements
quelconques dune famille convenable ont une intersection non vide.
En particulier, quand J = J1 = J2 , on conclut que tous les elements de BJ ont les
memes coordonnees, cest `a dire que BJ est reduit `a un seul point xJ , et de plus on a
isole pour tout j I un point xj Xj associe de facon unique `a la famille maximale B.
On va naturellement considerer le point x = (xi )iI X et montrer quil est dans tous
les B B, donc a fortiori dans lintersection de la famille initiale F.
Si on avait x
/ B et puisque chaque B est ferme pour la topologie produit, il
c
existerait un ouvert elementaire V tel que x V
Q B ; cet ouvert elementaire est de la
1
forme J (W0 ), o`
u W0 est un ouvert de XJ = jJ Xj , pour un certain sous-ensemble
fini J I. Cela signifie que xJ = J (x) W0 et que W0 est disjoint de J (B), donc aussi
de J (B), contrairement `a la construction precedente. En effet, W0 contient un voisinage
ferme W de xJ , et on a dit que W doit rencontrer J (B) pour tout B B (en fait, on a
meme conclu que J1 (W) B).
Ceci ach`eve la premi`ere demonstration, qui est finalement assez courte mais peu
intuitive.
Passons `a une autre demonstration, qui colle de plus pr`es `a la demonstration habituelle par extractions successives sur les coordonnees ; quand on veut demontrer BolzanoWeierstrass pour une suite bornee (xn , yn , zn ) de R3 par exemple, on commence par trouver un candidat pour la premi`ere coordonnee x dune limite de sous-suite en selectionnant
une premi`ere sous-suite telle que xnk tende vers une limite x ; ensuite, on cherche `a
etendre la definition de la limite en trouvant la deuxi`eme coordonnee y, puis la derni`ere ;
dans le cas dun produit infini non denombrable, cette strategie dextension ne pourra
pas etre menee aussi explicitement, elle utilisera le lemme de Zorn.
La description est plus agreable si on rend la situation un tout petit peu plus concr`ete
en traitant seulement un cas particulier, celui du produit X = [0, 1]I , que lon considerera
comme lespace des toutes les fonctions f sur lensemble I, `a valeurs dans [0, 1] ; cet espace
X est muni de la topologie de la convergence simple. Un ouvert elementaire V de cette
topologie est de la forme suivante : on donne un sous-ensemble fini J I et pour chaque
j J un intervalle Uj [0, 1] ouvert dans [0, 1], et on pose
V = V(J, (Uj )jJ ) = {f : I [0, 1] : j J, f (j) Uj }.
2

Il est clair que lintersection de deux, ou dun nombre fini douverts elementaires est un
ouvert elementaire.
On suppose donc donnee une famille F de fermes de X. On suppose que la famille F
poss`ede la propriete dintersection finie, et on veut prouver que lintersection de la famille
F est non vide. Il est commode dintroduire `a nouveau la famille A formee de tous les
ensembles fermes non vides de la forme A = F1 . . . Fn , o`
u n N est quelconque et
F1 , . . . , Fn F. Il faut montrer que lintersection des fermes A A est non vide.
Disons que (L, g) est une donnee partielle si L I et si g est une fonction de L dans
[0, 1] ; `a une telle donnee partielle on associe le ferme de X forme de toutes les fonctions
f sur I dont la restriction `a L est g,
C(L, g) = {f X : i L, f (i) = g(i)}.
Lorsque L = I, lensemble C(I, g) est reduit au seul point g X, qui est bien une
fonction de I dans [0, 1]. On dira que (L, g) est adherent `
a la famille A si pour tout
ouvert V elementaire de X qui contient le ferme C(L, g) et tout A A, lensemble V
rencontre A.
Lorsque L = I et que (I, g) est adherent `a la famille A, cette information dit que
pour tout A A fixe, tout ouvert elementaire contenant lelement g X rencontre A, et
comme A est ferme on en deduit que g A, pour tout A A, autrement dit lintersection
de la famille A est non vide, puisquelle contient g.
Notre objectif est donc de montrer quil existe une donnee partielle (L, g), adherente `a
la famille A, pour laquelle L = I, en procedant par elargissement progressif de lensemble
de definition L ; on peut considerer quon commence avec le cas trivial o`
u L = , ou bien
anticiper sur le pas general de recurrence pour demarrer avec un cas moins trivial o`
u
L = {i0 } (ce passage de L = `a {L = i0 } est identique `a ce qui sera fait plus bas pour
montrer que la situation maximale est necessairement celle o`
u L = I).
Avant de se lancer, il est utile de voir `a quelle condition un ouvert elementaire V =
V(J, (Uj )jJ ) contient un ferme de la forme C(L, g). On note que si V = V(J, (Uj )jJ )
contient C(L, g), alors Uj = [0, 1] pour tout j J \ L : si j
/ L, un element f C(L, g)
peut prendre au point j nimporte quelle valeur s [0, 1], mais si C(L, g) V, cela
impose f (j) Uj ; cela nest possible que si Uj = [0, 1]. On voit que C(L, g) est contenu
dans V(J, (Uj )jJ ) si et seulement si g(j) Uj pour tout j J L et Uj = [0, 1] pour
tout j J \ L. Les ouverts Uj = [0, 1] ne servent `a rien dans la definition de V : si V
contient C(L, g), on peut supposer que J L.
On dira que la donnee partielle (L1 , g1 ) est plus petite que la donnee partielle (L2 , g2 )
si L1 L2 et g2 = g1 en tout point de L1 . On verifie que les donnees partielles adherentes
a A forment un ensemble inductif pour cet ordre : si (L , g ) est une famille totalement
`
ordonnee de donnees partielles adherentes `a A, la famille
(L ) de sous-ensembles de I est
S
totalement ordonnee par inclusion. On pose L = L , et il est clair par la definition
de lordre que pour tout i L on aura une valeur g(i) [0, 1] bien definie qui est la
valeur de g (i) `a partir du moment o`
u i L . Considerons la donnee partielle (L, g)
et montrons quelle est adherente `a A : soit V = V(J, (Uj )jJ ) un ouvert elementaire
contenant C(L, g) ; on a vu quon peut supposer J L, et linclusion signifie alors que
g(j) Uj pour tout j J ; comme J est fini et la famille (L ) totalement ordonnee, le
sous-ensemble fini J sera contenu dans L pour assez grand ; on en deduit alors que V
contient dej`a C(L , g ) (micro-exercice), donc V rencontre tout A A puisque (L , g )
etait supposee adherente `a A.
3

Lensemble des donnees partielles adherentes `a A etant inductif, il admet des elements maximaux dapr`es le lemme de Zorn. Pour terminer, il suffit de montrer que si
(L, g) est maximal, alors L = I. Montrons que toute donnee partielle (L, g) adherente
a A peut etre etendue, tant que L 6= I (ce qui justifie laffirmation sur les elements
`
maximaux). Soit k I \ L. La famille B de tous les ensembles
B=AV
o`
u V varie dans la famille des ouverts elementaires contenant C(L, g) et A dans A,
verifie la propriete dintersection finie.
T En effet, etant donne un nombre fini densembles
A V B, lintersection
finie V = V est encore un ouvert
T
T elementaire qui contient
C(L, g), et A = A est un element de A. Il en resulte que (A V ) = A V est
non vide, puisque (L, g) est adherent `a A. Designons par k lapplication f f (k) de
X sur [0, 1]. Il resulte de la propriete de B que la famille des ensembles
k (A V)
est une famille de fermes du compact [0, 1], avec la propriete dintersection finie. Il existe
e = L {k} on definit une extension ge de g en
donc un point xk dans lintersection. Sur L
posant ge(k) = xk (et ge(i) = g(i) pour tout i L).
e ge) est adherent `a la famille A. Supposons que louvert
Montrons pour finir que (L,
e contienne le nouvel ensemble C(L,
e ge),
elementaire V
On peut ecrire

e ge) = C(L, g) {f X : f (k) = xk }.


C(L,

e = V(J, (Uj )jJ ) {f X : f (k) Uk }


V

o`
u lensemble J ne contient pas k, et xk Uk . Il est clair que V contient C(L, g), donc
A V est lun des ensembles de la famille B, par consequent le voisinage Uk de xk
e rencontre A.
rencontre k (A V), ce qui signifie exactement que V
On a bien montre que toute donnee partielle (L, g) avec L 6= I peut etre etendue.

Prepa. Agreg. ecrit dAnalyse, Annexe no 4.


Un exemple simple de Cauchy-Lipschitz
On suppose donnees une norme (quelconque) sur Rd , qui sera notee v Rd kvk,
et une application F : Rd Rd ; on suppose que F est globalement lipschitzienne, cest
a dire quil existe une constante K telle que
`
v1 , v2 Rd ,

kF(v1 ) F(v2 )k K kv1 v2 k.

On sinteresse `a lequation differentielle (vectorielle) y 0 = F(y) sur un intervalle [0, T].


Le theor`eme qui suit est evidemment consequence du theor`eme general de CauchyLipschitz, mais le but de ce petit texte est de montrer quil admet une demonstration
directe tr`es simple `a partir du theor`eme de point fixe des applications contractantes, et
de lintroduction dun espace norme (complet) adapte.
Th
eor`
eme. Pour toute donnee initiale y0 Rd , il existe une solution (unique) de
lequation y 0 = F(y) verifiant y(0) = y0 , cest `a dire une fonction y : [0, T] Rd de
classe C1 telle que
t [0, T],

y 0 (t) = F(y(t)), et y(0) = y0 .

Demonstration. On consid`ere lespace de Banach E des applications continues de [0, T]


dans Rd , mais on le munit dune norme differente de la norme du sup, qui est cependant
equivalente `a la norme du sup ; cette norme est donnee par
f E,

|||f ||| = max{eKt kf (t)k : t [0, T]}

o`
u K est la constante de Lipschitz de F. Considerons la transformation S de E dans E
definie par
Z t
f E, t [0, T], (Sf )(t) = y0 +
F(f (s)) ds
0
d

(lintegrale est une integrale vectorielle `a valeurs dans R ). Montrons le caract`ere contractant de S ; si f, g sont deux elements de E, on aura pour tout t [0, T],
Z t


Kt
Kt
e
k(Sf )(t) (Sg)(t)k = e
F(f (s)) F(g(s)) ds

Kt

e
Z

Kt

kF(f (s)) F(g(s))k ds e

Kt

K kf (s) g(s)k ds

K eKs |||f g||| ds = eKt (eKt 1) |||f g||| (1 eKT ) |||f g|||

ce qui montre en prenant le max en t [0, T]


f, g E,

|||Sf Sg||| (1 eKT ) |||f g|||

donc S est bien contractante, avec la constante C = 1eKT < 1. Puisque E est complet,
il existe une fonction unique f0 telle que Sf0 = f0 . On en deduit dabord que f0 (0) = y0 ,
et on montre classiquement que Sf0 est de classe C1 (parce que f0 est continue) avec
(Sf0 )0 = F(f0 ). Reciproquement, si f1 de classe C1 verifie lequation differentielle et la
condition f1 (0) = y0 , on constate facilement que Sf1 = f1 , donc f1 = f0 par lunicite
(evidente) dans le theor`eme de point fixe.

Remarques
1. Il faut rappeler que le cadre Rd est important du point de vue theorique, car
il permet de ramener une equation differentielle dordre > 1 `a une equation vectorielle
dordre 1, et egalement une equation non autonome `a une equation autonome avec une
dimension despace de plus. Notons encore que tout marcherait aussi bien si lespace des
valeurs Rd etait remplace par un espace de Banach.
2. Au lieu de tordre la norme uniforme on aurait pu garder la norme usuelle et
tordre loperateur S en posant
Z t

 
Kt
(S1 f )(t) = e
y0 +
F eKs f (s) ds .
0

3. On peut utiliser une variante de la methode pour travailler directement sur


[0, +[ ; ca nest pas tr`es utile puisquil suffit, si on veut resoudre lequation sur [0, +[,
de la resoudre sur chaque intervalle [0, n] comme on la explique precedemment, puis de
remarquer que les differentes solutions (yn ), definies sur [0, n], se recollent (dapr`es le
resultat dunicite) pour former une fonction bien definie y sur [0, +[, qui est solution
de y 0 = F(y). Expliquons cependant cette variante : on introduit une norme f |||f |||
avec une constante M > K,
|||f ||| = sup{eMt kf (t)k : t 0}
qui est definie sur lespace E (M) des fonctions continues sur [0, +[ telles que f (t) =
O(eMt ) ; cet espace E (M) est complet pour cette norme. Ceci donnera en remplacant
dans le calcul precedent, pour tout t 0
Z t
Mt
Mt
e
k(Sf )(t) (Sg)(t)k e
K eKs |||f g||| ds = eMt (eKt 1) |||f g|||
0

et le maximum de C(t) = eMt (eKt 1) sur [0, +[ est atteint en un certain t0 > 0 pour
lequel 1 eKt0 = K/M et C = C(t0 ) K/M < 1. On en deduit
f, g E (M),

|||Sf Sg||| C |||f g||| .

4. Bien entendu il sagit ici dun developpement cense illustrer linteret des espaces
de fonctions. La methode plus directe par iteration, sans mention explicite despace
norme de fonctions continues, est aussi (sinon plus) rapide dans ce cas uniformement
lipschitzien. On definit une suite (yn ) de fonctions de [0, T] dans Rd en posant y0 (t) = y0
pour tout t, puis
Z
t

yn+1 (t) = y0 +

F(yn (s)) ds

pour tout n 0. Si on pose M = kF(y0 )k, on montre facilement par recurrence que
kyn+1 (t) yn (t)kP
K1 M (Kt)n+1 /(n + 1)! pour tout n 0, do`
u resulte la convergence
de la serie y0 + n0 (yn+1 yn ) vers une fonction y qui est solution de lequation
y 0 = F(y) et verifie de plus lestimation ky (t) y0 k K1 M(eKt 1).

Prepa. Agreg. ecrit dAnalyse, Annexe no 5.


Fonctions monotones. Fonctions convexes
Fonctions monotones
Fonctions de sauts
On consid`ere un ensemble denombrable D [0, 1], que lon enum`ere dans une suite
de points (xn )nN ; pour chaque point x D, cest P
`a dire pour chaque n 0, on se donne
+
une hauteur de saut n > 0, et on suppose que n=0 n = 1. On pose
X
n .
x R, f (x) =
xn x

On definit ainsi une fonction croissante et continue `a droite. Si on pense probabilite,


cette fonction P
f est la fonction de repartition de la mesure (de probabilite) purement
+
atomique = n=0 n xn . On a f (x) = 0 si x < 0 et f (x) = 1 si x 1.
Rapport avec le theor`eme de derivabilite de Lebesgue

Il ne faut pas croire que la fonction f ait une derivee nulle en tout point qui nest
pas un point de saut, cest `a dire en tout x
/ D. En effet, on peut verifier quen tout
point de lensemble
\ [
A=
[xn n , xn + n ]
m nm

la derivee ne peut pas etre nulle, et cet ensemble A peut etre tr`es riche (un ensemble avec
la puissance du continu, genre Cantor : voir un exemple dans le paragraphe suivant).
Cependant, un theor`eme (assez delicat) de Lebesgue dit que toute fonction croissante
est derivable presque partout ; ce resultat est plus facile `a obtenir dans le cas present,
mais il nest quand meme pas trivial, `a ma connaissance. On va donc montrer que :
la fonction de sauts f `a une derivee `a droite nulle Lebesgue-presque partout.
On a le meme resultat `a gauche, par une demonstration analogue, donc en fait f est
Lebesgue-presque partout derivable de deriv
e nulle. Il est clair que pour tout entier
PeN1
N 0, la fonction fN definie par fN (x) = n=0 n 1xn x na que N sauts, situes aux
points x0 , . . . , xN1 , donc elle a certainement une derivee nulle partout ailleurs ; on voit
ainsi que le probl`eme de la derivabilite de f se ram`ene `a celui de gN = f fN , pour un
N quelconque ; la seule difference entre f et gN est que gN = f fN est une fonction
de sauts
P pour laquelle la somme des sauts devient petite, puisque cette somme vaut
rN = nN n , qui tend vers 0 avec N. Notons que gN (1) gN (0) rN .
Introduisons lun des quatre nombres derives de Dini de la fonction g, le nombre
D+ g(x), quon peut appeler la derivee superieure droite de g au point x,
g(y) g(x)
,
yx
yx,y>x

D+ g(x) = lim sup

valeur + admise. On definit de meme une derivee inferieure droite D+ g(x) en remplacant lim sup par lim inf, et la derivee `a droite ordinaire gd0 (x) existe precisement quand
D+ g(x) = D+ g(x). La fonction D+ g est clairement mesurable quand g est croissante et
continue `a droite (parce quon peut limiter le choix de y au cas o`
u y x est un rationnel
1

> 0, par exemple). Soit > 0 ; on va montrer que la derivee superieure `a droite D+ g
dune fonction de sauts g telle que g(1) g(0) < 2 est plus petite que sauf sur un
ensemble de mesure de Lebesgue .
Rx
Soit K un compact
contenu dans {D+ g > } ; posons k(x) = 0 1K , cest `a dire

k(x) = K [0, x] , o`
u |A| designe la mesure de Lebesgue de A [0, 1] ; posons ensuite
h(x) = g(x) k(x) ; on va montrer que

() pour tout x [0, 1[, il existe y > x tel que h(y) h(x) ;
comme g est croissante et k continue, un petit coup de borne superieure impliquera que
h(1) h(0), do`
u |K| = k(1)k(0) g(1)g(0) 2 , linegalite que nous cherchions :
considerons en effet lensemble B des x [0, 1] tels que h(x) h(0) ; cet ensemble contient
0 et si (xn ) B tend en croissant vers x, on aura g(x) limn g(xn ) limn k(xn ) = k(x),
donc x B. Ceci montre que B contient sa borne superieure, et la propriete () pour h
implique que la borne superieure de B est egale `a 1. Montrons donc cette propriete () :
si x
/ K, la fonction k reste constante au voisinage de x, donc h varie comme g dans
ce voisinage V, cest `a dire en croissant et on prend pour y nimporte quel y > x qui
est dans V ; si x K, alors D+ g(x) > , ce qui donne lexistence dun y > x tel que
g(y) g(x) > (y x) ; comme la fonction k ne peut pas varier de plus de (y x) entre
x et y, il en resulte que h(y) h(x) > 0.
Puisque tout compact K contenu dans {D+ g > } a une mesure de Lebesgue ,
il en resulte que lensemble {D+ g > } est de mesure de Lebesgue . Dapr`es nos
considerations sur le passage de f `
a gN , on deduit que {D+ f > } est de
Pmeme mesure
+
que {D gN > } pour tout N, donc de mesure (prendre N tel que nN n < 2 )
pour tout > 0, donc D+ f est nulle Lebesgue-presque partout. Comme f est croissante,
on a fd0 (x) = 0 en tout point o`
u D+ f (x) = 0.
Un exemple plus specifique
On prend pour D lensemble de tous les nombres dyadiques de ]0, 1[, cest `a dire les
nombres de la forme j 2k , j, k entiers et k > 0 et 0 < j < 2k .
Si xn D secrit xn = j 2k avec j impair, posons n = 3k ; on verifie que
P+
k1
dyadiques de la forme j 2k , j impair et donc
n=0 n = 1 ; en effet, il y a 2
+
X

n=0

n =

+ k1
X
2

k=1

3k

= 31

1
= 1.
1 2/3

La fonction f est strictement croissante sur [0, 1] (parce que D est dense dans [0, 1]), ce
qui permet de definir une fonction inverse g par la formule
y ]0, 1[,

g(y) = sup{x : f (x) < y} = inf{x : f (x) > y}.

Cette fonction inverse est la fonction g de Cantor-Lebesgue, fonction croissante continue,


qui verifie g(0) = 0 et g(1) = 1, et qui est constante sur chaque intervalle complementaire
du triadique de Cantor. Le procede de construction precedent apparat dans un article
de Ludwig Scheeffer, el`eve de Cantor, en 1885. Il est donc certainement abusif dappeler
cette fonction g la fonction de Lebesgue, comme font certains. Cette fonction interessait
les mathematiciens de lepoque car elle montrait que la derivee peut etre nulle en dehors
dun ferme de mesure nulle (notion accessible `a lintegrale de Riemann) sans que la
fonction soit constante, contrairement `a ce que certains avaient ecrit un peu vite, `a peu
pr`es `a la meme epoque.
2

Montrons comme promis que la fonction de sauts f admet une infinite non denombrable de points o`
u sa derivee `a droite est non nulle (la meme chose est vraie pour la
derivee `a gauche). Choisissons une suite strictement croissante dentiers (mk )k0 telle
que 2mk+1 > 3mk pour tout k 0. Pour chaque suite a = (ak ) formee de 0 et de 1 posons
+
X
ak
y(a) = 1
[0, 1].
2mk
k=0

Fixons a qui change une infinite de fois de valeur, posons y = y(a) et pour tout k 0
yk = 1

k
X
aj
> y.
mj
2
j=0

Lorsque ak = 1, on voit que yk est de la forme j 2mk avec j impair, donc yk = xn D


pour un certain n, et n = 3mk . Alors f (yk ) f (y) 3mk et
X aj
yk y =
21mk+1
m
j
2
j>k


donc f (yk ) f (y) /(yk y) 1/2. Il en resulte que la derivee `a droite de f au point
y ne peut pas etre nulle. Et il y a une infinite non denombrable de tels points y = y(a),
quand a varie dans {0, 1}N .
Fonctions convexes

Il est commode dadmettre quune fonction convexe peut prendre la valeur +, ce


qui permet de considerer quelle est definie sur lespace entier. En revanche pour faire
simple on excluera la valeur . Les inegalites de convexite avec valeurs + admises
sont `a traiter avec les conventions utilisees pour lintegration des fonctions 0.
Continuite et caract`ere localement lipschitzien
Th
eor`
eme. Si F est convexe et finie sur un ouvert convexe U de Rd , elle est localement
lipschitzienne dans U.
La demonstration passe par les etapes qui suivent.
1. Si F est finie dans U, elle est majoree au voisinage de tout point x U (cette
etape utilise la finitude de la dimension).
Pour x U, on choisit un voisinage convexe ferme V de x tel que V U, et tel que V
soit lenveloppe convexe dun ensemble fini S (on peut prendre pour V un (hyper)-cube
de centre x). La convexite entrane que F(y) M = max{F(z) : z S} pour tout y V.
2. Si F est majoree dans une boule B(x, r), elle est minoree dans la meme boule
(valable pour un espace norme de dimension infinie).
Supposons F majoree par M dans B(x, r), et soit x + v un point quelconque de B(x, r).
On ecrit F(x + v) + F(x v) 2F(x), do`
u resulte que F(x + v) 2F(x) M.
3. Si F est bornee dans la boule fermee B(x0 , r), elle est lipschitzienne dans B(x0 , s)
pour tout s < r (valable pour un espace norme de dimension infinie).
Supposons |f | M sur B(x0 , r). Soient x 6= y deux points de B(x0 , s) ; on va ecrire
y = x + tu, avec u vecteur de norme un et t = ky xk. On prolonge la demi-droite issue
3

de x, de vecteur directeur u, qui passe par le point y = x + tu B(x0 , s), jusqu`a ce


quelle rencontre le bord de B(x0 , r) en un point x + u ; on a necessairement t < , et
= kuk k(x + u) x0 k kx x0 k = r kx x0 k r s.
La fonction convexe g(s) = F(x+su) est bornee par M sur lintervalle [0, ] puisque F est
bornee par M sur B(x0 , r). Si on utilise la croissance de la pente de la fonction convexe
g (sachant que 0 < t < ), on obtient
F(y) F(x)
g(t) g(0)
g() g(0)
2M
=

ky xk
t

rs
ce qui montre que F est lipschitzienne de constante 2M(r s)1 dans la boule B(x0 , s).
Une forme du theor`eme de Hahn-Banach
Th
eor`
eme. Si f est convexe, `a valeurs R {+}, definie sur un espace affine reel E de
dimension finie, et si x0 est un point au voisinage duquel f est finie, il existe une fonction
affine a sur E telle que a(x0 ) = f (x0 ) et a f sur E.
Le resultat decoule dun resultat de prolongement, que lon appliquera avec le sousespace affine F = {x0 } et la fonction affine sur F egale `a f (x0 ).
Si f est convexe, `a valeurs R{+}, definie sur un espace affine reel E de dimension
finie, si x0 est un point au voisinage duquel f est finie, si F est un sous-espace affine de
E contenant x0 , et si a est une fonction affine sur F, telle que a(y) f (y) pour tout
y F, il existe un prolongement e
a de a `
a E tout entier, qui est affine sur E et qui verifie
linegalite e
a f sur E.

Letape cruciale est de prolonger `a une dimension de plus, tant que F 6= E. Si F 6= E,

on peut trouver un vecteur


v tel que x0 +
v
/ F. Lensemble des points y + t
v , o`
uy
e
varie dans F et t dans R, est un sous-espace affine F strictement plus grand que F. Si e
a
e
est un prolongement affine de a `a F, on aura


y F, t R, e
a(y + t
v ) = a(y) + t e
a(x0 +
v ) a(x0 ) ;

Posons M = e
a(x0 +
v ) a(x0 ) ; la seule question est de montrer quon peut trouver M

e cest `a dire a(y) + tM f (y + t


de facon que e
a f sur F,
v ) pour tous y F et t reel.
On va diviser ces conditions en deux cas, selon que t = t1 > 0 ou bien t = t2 < 0 (le
cas t = 0 est vrai par hypoth`ese : a f sur F) ; on veut que



a(y2 ) f (y2 t2
v) ,
f (y1 + t1
v ) a(y1 ) et M t1
M t1
2
1

pour tous y1 , y2 F et t1 , t2 > 0 ; autrement dit M doit etre coinc


 e entre linf I des
1
1

t1 f (y1 + t1 v ) a(y1 ) et le sup S des t2 a(y2 ) f (y2 t2 v ) ; le fait que f soit


finie au voisinage de x0 F permet de dire que linf nest pas + et le sup nest pas
(prendre y1 = y2 = x0 et t1 = t2 = t > 0 petit). Si on montre que S I, ces deux
nombres seront finis et on pourra prendre pour M nimporte quel nombre de lintervalle
[S, I] (qui est peut-etre reduit `a un point). Pour montrer que S I, il suffit de voir
que tout nombre du type 1 est plus grand que tout nombre du type 2, ce qui revient `a
demander si on a bien, pour tous y1 , y2 F et t1 , t2 > 0
1
1
1

t1
1 a(y1 ) + t2 a(y2 ) t1 f (y1 + t1 v ) + t2 f (y2 t2 v ) ??

On multiplie les deux cotes par t1 t2 /(t1 + t2 ) > 0 et on ecrit


 t

t1
t1
t2
2
a(y1 ) +
a(y2 ) = a
y1 +
y2
t1 + t2
t1 + t2
t1 + t2
t1 + t2
 t

 t

t1
t1
2
2

f
y1 +
y2 = f
(y1 + t1 v ) +
(y2 t2 v )
t1 + t2
t1 + t2
t1 + t2
t1 + t2
t2
t1

f (y1 + t1
f (y2 t2
v)+
v)
t1 + t2
t1 + t2
ce quil fallait demontrer.
Remarque. Une hypoth`ese est necessaire pour quon puisse trouver une fonction affine
a egale `a f au point x0 et a f sur E ; la moindre des choses est evidemment que f (x0 )
soit fini, mais ca nest pas suffisant : pour la fonction f convexe sur R egale `a 0 pour
x > 0, f (0) = 1 et f (x) = + pour x < 0, il nexiste pas de fonction a affine sur R telle
que a(0) = f (0) et a f sur R.
Si nous supposons que a existe, la fonction a sera lipschitzienne sur E, dune certaine
constante C et on devra avoir f (y) f (x0 ) a(y) a(x0 ) C ky x0 k pour tout
y E. On peut verifier que la condition quil existe une constante C telle que
y E,

f (y) f (x0 ) C ky x0 k

est la condition necessaire et suffisante pour lexistence


 de a ; en effet, on introduit la
fonction g definie par g(x) = inf yE f (y) + C kx yk f (x) (prendre y = x) ; sous la
condition precedente on a g(x0 ) = f (x0 ) et on verifie que cette fonction g est partout
finie et convexe sur E. Le theor`eme dej`
a vu sapplique `a g et donne une fonction affine
a g, verifiant a(x0 ) = g(x0 ) = f (x0 ).
Transformee de Legendre-Fenchel
Ici E est lespace Rd muni du produit scalaire usuel (x, y) x . y. La fonction F est
convexe sur E, `a valeurs R {+}, non identiquement +. On pose

y E, F (y) = sup y . x F(x)
xE

(la valeur trouvee peut etre +, mais elle nest pas ). La fonction F est la fonction
conjuguee de F ; cest evidemment une fonction convexe (sup de fonctions affines en y).

Si F est une fonction de classe C1 sur E, strictement convexe, et telle que F(x)/kxk
tende vers + lorsque kxk +, alors la fonction conjuguee F poss`ede les memes
proprietes. La fonction x F(x) est un homeomorphisme de E sur E, et la bijection
reciproque est lapplication gradient de F .
Montrons que F est surjectif. Soit y0 E ; la fonction x y0 . x F(x) est continue sur
E, et elle tend vers lorsque kxk + (mettre kxk en facteur et utiliser lhypoth`ese
sur F). Cette fonction atteint donc un maximum sur E, en un point x0 , unique parce que
F est strictement convexe ; il en resulte que son gradient sannule en x0 (et seulement en
x0 ), ce qui donne y0 F(x0 ) = 0. On a montre que F est une bijection continue de
E sur E.
On montre ensuite que lapplication inverse est continue ; si (yn ) converge vers y,
il faut montrer que les points xn tels que F(xn ) = yn convergent vers le point x tel
que F(x) = y. Pour cela il suffit de savoir que (xn ) reste borne ; si nous admettons
5

ce point, nous noterons que pour toute sous-suite (xnj ) convergente vers une limite x0 ,
nous aurons F(x0 ) = y, donc x0 = x, et on en deduit que (xn ) tend vers x (on vient de
refaire la demonstration du fait quune bijection continue entre compacts est bicontinue ;
on aurait pu se ramener `a appliquer ce resultat classique).
La croissance de la derivee de la fonction convexe g (de classe C1 ) definie sur R par
g(t) = F(tx) implique que
Z 1
F(x) F(0) = g(1) g(0) =
g 0 (s) ds g 0 (1) = F(x) . x kF(x)k kxk
0

et kF(x)k (F(x) F(0))/kxk, qui tend vers + par hypoth`ese. Il en resulte bien que
(xn ) sera bornee si (F(xn )) est bornee, ce quil nous fallait au paragraphe precedent.
Si x1 est fixe, on a que F (y) y . x1 F(x1 ) pour tout y par definition, avec au
point y1 = F(x1 ) legalite F (y1 ) = y1 . x1 F(x1 ), ce qui donne
y E,

(y y1 ) . x1 F (y) F (y1 )

et si y = F(x) on aura aussi en inversant les roles de y et y1


(y y1 ) . x1 F (y) F (y1 ) (y y1 ) . x.
Quand y tend vers y1 , le point x tend vers x1 et lencadrement precedent montre que
F est differentiable au point y1 , avec x1 = (F)1 (y1 ) comme gradient. Dapr`es ce qui
prec`ede F est de classe C1 , et son application gradient est injective.
Puisque le gradient de F est injectif lhyperplan dappui en un point ne touche le
graphe quen ce point : si y0 = x0 , la fonction G(y) = F (y) F (y0 ) (y y0 ) . x0 est
0 partout, nulle en y0 et de classe C1 ; cette valeur G(y0 ) = 0 est donc le minimum
absolu de G sur E, et le gradient G(y) = F (y) x0 = F (y) F (y0 ) sannulerait
en tout autre point y o`
u G(y) = 0, ce qui est impossible puisque F est injective ; on
a donc G(y) > 0 en tout point y 6= y0 ; il en resulte en appliquant ceci au milieu
y0 = (y1 + y2 )/2 dun segment que F est strictement convexe.
Pour finir il reste `a verifier que F (y)/kyk tend vers + lorsque kyk +. Limage
KR par F de la boule fermee de rayon R est un compact, donc il existe une constante
M(R) telle que ky0 k M(R) et F (y0 ) M(R) pour tout y0 KR . Choisissons y de
norme > M(R), posons x0 = R y/kyk et y0 = F(x0 ). On sait que
F (y) F (y0 ) + (y y0 ) . x0 R kyk |F (y0 )| ky0 k kx0 k R kyk (R + 1) M(R)
ce qui montre le resultat voulu.
On aurait pu noter depuis longtemps que, sous nos hypoth`eses, F est la fonction
conjuguee de F , ce qui compl`ete le tableau de la reversibilite de la situation. On sait
dej`
a que F(x) x . y F (y) pour tous x, y E, par definition de F , mais on a vu quil
y a egalite si on prend y = F(x), donc

F(x) = sup x . y F (y) = (F ) (x).
yE

Prepa. Agreg. ecrit dAnalyse, Annexe no 7.


Illustrer par des exemples et contre-exemples
la th
eorie des s
eries num
eriques
Developpement asymptotique du reste des series de Riemann convergentes
P
On consid`ere la serie de Riemann
k
avec > 1. Le principe de comparaison
serie-integrale donne pour tout entier n 2
1
1
=
1
1 n

Z n
Z +
+
X
1

dx
x dx +
x dx

k
n1
n
k=n

qui implique que


+
X
1
1
=
+ E(n)

k
( 1) n1

k=n

avec

0 E(n) (n 1) .
Remarque. Ce resultat elementaire, applique avec n = 2 (par exemple) et = s > 1
suffit pour voir que lims1+ (s 1)(s) = 1.
Pour poursuivre letude on peut appliquer la formule de Taylor ; posons pour tout
entier n 1 et tout reel > 1
+
X
1
.
Rn () =
k
k=n

On a vu ci-dessus que Rn () = ( 1)1 n1 + O(n ), et on va montrer comment


preciser plus. Si f (x) = (1 )1 x1 , la formule de Taylor-Lagrange `a lordre 3,
appliquee entre a = k et b = k + 1 donne
f (k + 1) f (k) =

1
1
1

+ f 000 (k )

+1
k
2 k
6

o`
u k < k < k + 1 ; apr`es sommation en k variant de n `
a + on obtient
+

X f 000 (k )

.
f (n) = Rn () Rn ( + 1) +
2
6
k=n

On a f 000 (x) = ( + 1)x2 , et une application rudimentaire des premiers resultats


ci-dessus donne, puisque 0 < f 000 (k ) < ( + 1)k 2
+ 000
X
f (k )
= O(n1 ).
6

k=n

On sait dej`a que Rn ( + 1) = 1 n + O(n1 ), donc


+
X
1
1
1
=
+
+ O(n1 ).

1
k
( 1) n
2 n

k=n

On concoit quon pourrait continuer aussi longtemps que notre courage le permettrait,
mais on va voir ci-dessous un raccourci, proche cousin de la methode sommatoire dEulerMacLaurin ; `a ce sujet, on consultera avec profit Chatterji volume 2, 6.6, ou bien Godement, tome 2, chapitre VI, paragraphe 2. Il ny a rien detonnant `a voir apparatre
ces deux variantes : la formule de Taylor avec reste integral et la formule sommatoire se
demontrent de la meme facon, par une succession dintegrations par parties ; la difference
vient du choix des constantes dintegration dans les primitives successives de dt ; pour
la formule de Taylor entre 0 et x, on fait apparatre des multiples des fonctions polynomiales t (x t)n , alors que la formule sommatoire fait apparatre les polynomes de
Bernoulli (voir plus loin).
Proposition. Il existe des coefficients a0 , a1 , . . . tels que : pour tout entier p > 0 et pour
toute fonction f de classe C sur un intervalle I, la fonction g definie sur I par
g = a0 f + a1 f 0 + + ap1 f (p1)
verifie

p1

g0 +

X (p)
1 00
1
1
g + g (3) + + g (p) = f 0 +
b` f (p+`) .
2!
3!
p!
`=1

Il est facile de montrer par recurrence lexistence de ces coefficients. On trouve dabord
que a0 = 1, et on a ensuite la relation de recurrence
()

aj1

j
X
aji
=
i!
i=2

pour tout j 2, qui permet de calculer les coefficients de proche en proche, en commencant par a1 = 1/2 puis a2 = 1/12.
Pp1 (p)
Lorsque f est une fonction de la forme x , la fonction R(x) = `=1 b` f (p+`) est
une combinaison lineaire de fonctions xp` qui sont toutes O(xp1 ), cest `a dire
dordre nettement plus petit que f (x) lorsque x +. Quand on appliquera la formule
de Taylor-Lagrange `a lordre p `a la fonction g entre k et k + 1 il se passera des choses
interessantes, comme on le verra plus bas sur un exemple.
Une autre facon dintroduire ces nombres (an ) est dappliquer la proposition `a la
fonction f (x) = esx , o`
u s est un param`etre reel qui tendra ensuite vers 0. On obtient
alors
g(x) = (a0 + a1 s + + ap1 sp1 ) f (x) = P(s)f (x)

et



s2
1
1
1
s3
sp 
g 0 + g 00 + g (3) + + g (p) (s) = P(s) s +
+
+ +
f (x) =
2!
3!
p!
2!
3!
p!
sf (x) +

p1
X

(p)
b` sp+`

`=1

En appliquant avec x = 0 on obtient


P(s) s +


f (x).

s2
s3
sp 
+
+ +
= s + O(sp+1 )
2!
3!
p!
2


(s tendant vers 0) donc P(s) es 1 + O(sp+1 ) = s + O(sp+1 ) et
 es 1 
P(s)
= 1 + O(sp ),
s

ce qui implique que P(s) est le developpement limite `a lordre p 1 de la fonction s


s/(es 1) ; cette fonction est en fait une fonction holomorphe dans la bande | Im z| < 2
(on trouve des zeros du denominateur en 2i), donc cette fonction admet un developpement en serie enti`ere, de rayon de convergence egal `a 2,
+
X
s
=
an sn
s
e 1
n=0

o`
u les coefficients (an ) sont bien les nombres que nous cherchons. On introduit classiquement les nombres de Bernoulli par la relation
+
X
s
Bn n
=
s
s
e 1
n!
n=0

ce qui nous dit que les coefficients (an ) verifient la relation n! an = Bn pour tout entier
n 0. On voit dans les livres que
1
1
B0 = 1, B1 = , B2 = ,
2
6

et tous les B2k+1 sont nuls pour k 1. On a donc (et on retrouve)


1
1
, a3 = 0, . . .
a0 = 1, a1 = , a2 =
2
12
La relation de recurrence () trouvee precedemment pour les nombres (an ) devient
n  
X
n
Bni
()
n Bn1 =
i
i=2
pour tout entier n 2. On trouvera ainsi B4 = 1/30 et B6 = 1/42.
Application. On prend f (x) = x1 et on introduit, conformement `a ce qui prec`ede
1 0
1 00
1
1
1
f (x) +
f (x) = 2 3 .
2
12
x 2x
6x
On sait dapr`es la proposition appliquee avec p = 4 que
g(x) = f (x)

g 0 (x) +

1
1
1 00
g (x) + g 000 (x) + g (4) (x) = f 0 (x) + E(x)
2!
3!
4!

o`
u E(x) est une combinaison lineaire des fonctions derivees f (p+`) avec p + ` 5, ce qui
correspond `a des termes xm avec m 6. En appliquant Taylor entre k et k + 1 `a la
fonction g il vient
1
1
1
1 00
g (k) + g 000 (k) + g (4) (k) + g (5) (k ) =
2!
3!
4!
5!
1
f 0 (k) + E(k) + g (5) (k ) = f 0 (k) + R(k).
5!

g(k + 1) g(k) = g 0 (k) +

A nouveau g (5) est une combinaison lineaire de fonctions xm avec m 6 et le point k


est entre k et k + 1. Il existe donc une constante A telle que |R(k)| Ak 6 pour tout
k 1. On en deduit
+
X
1
g(n) =
+ O(n5 )
k2
k=n

cest `a dire
+
X
1
1
1
1
= + 2 + 3 + O(n5 ).
2
k
n 2n
6n

k=n

En posant
n1
X 1 1
1
1
S3 (n) =
+ + 2+ 3
2
k
n 2n
6n
k=1

on obtiendra une approximation de la somme totale (2) = 2 /6. Jai teste pour vous
S3 (100) = 1, 6449340668515 . . .
2
= 1, 6449340668482 . . .
6
Methodes dacceleration de la convergence
Prenons un exemple tr`es simple. Il resulte des discussions precedentes quil existe
des coefficients (cn ) tels que pour tout entier p 1, on ait quand n +
2

/6 =

n
X

k=1

Pn


k 2 + c1 n1 + + cp1 np+1 + O(np ).

2
Posons un =
. On constate facilement que la combinaison vn = 2u2n un
k=1 k
approche encore la somme 2 /6, mais le terme du premier ordre c1 /n a disparu,

vn = 2 /6 + d2 n2 + + dp1 np+1 + O(np ).


En formant des combinaisons convenables des (vn ), on fera de meme disparatre le terme
n2 , etc. . .
Le nombre e
Exercice. Montrer que le nombre e est irrationnel, en montrant que q! e est non entier
pour tout entier q.
(Indication : le nombre q! e est de la forme
L+

1
1
+
+ = L + x
q + 1 (q + 1)(q + 2)

avec L entier, x > 0 et pour q 1 on montrera que x < 1).


4

Nombres de Liouville
Exercice. Montrer que le nombre
x=

+
X

10n!

n=0

est transcendant.
Indication. Pour m entier 1 designons par Dm lensemble des nombres decimaux
Pn de la
forme j 10m , j Z. Lorsque m = n! le nombre ym Dm defini par ym = k=0 10k!
P
0
u m0 = (n + 1)! = (n + 1)m.
verifie les inegalites 0 < x ym = k>n 10k! < 2 . 10m o`
Prenons par exemple un polynome P `a coefficients entiers de degre 3,
P = A X3 + B X2 + C X + D.

Puisque 0 < x, ym < 1, on aura



|P(x) P(ym )| sup |P0 (t)| |x ym |
t[0,1]

(3 |A| + 2 |B| + |C|) 2 . 10m = K 10(n+1)m < 103m

si n est assez grand. Par ailleurs, P(ym ) D3m Dm , parce que A, B, C et D sont entiers
2
3
et ym
D2m , ym
D3m ; si P(x) = 0 on aura |P(ym )| < 103m , donc necessairement
P(ym ) = 0. Mais quand n varie les ym sont deux `a deux distincts, et ne peuvent etre
tous racines du polynome P : le nombre x ne peut donc pas etre racine dun polynome
a coefficients entiers (de degre 3 pour linstant ; la generalisation `a tout autre degre est
`
evidente).
Polyn
omes de Bernoulli
On definit une suite de fonctions polynomiales (An (t))n0 verifiant les conditions
suivantes :
R1
A0 (t) = 1, A0n+1 = An et 0 An+1 (t) dt = 0 pour tout n 0.
On verifie facilement que ces conditions definissent compl`etement notre suite. On note
que An est de degre n pour tout n 0. On trouve ainsi
A1 (t) = t 1/2, A2 (t) = t2 /2 t/2 + 1/12, A3 (t) = t3 /6 t2 /4 + t/12,
R1
et les polynomes de Bernoulli sont les Bn (t) = n! An (t). Comme 0 An (t) dt = 0 `a partir
de n = 1, il en resulte que An (1) = An (0) `a partir de n 2. On constate que ces valeurs
en 0 sont justement les coefficients (an ) introduits precedemment ; en effet, en posant
provisoirement cn = An (0) pour tout n 0 on obtient de proche en proche
An (t) = c0

t2
tn
+ + cn2 + cn1 t + cn ,
n!
2!

et la condition dintegrale nulle donne


c0
cn2
cn1
+ +
+
+ cn = 0
(n + 1)!
3!
2!
ce qui est exactement la relation de recurrence (). Puisque c0 = 1 = a0 , on en deduit
que cn = an pour tout n 0.
5

On voit que A1 (t) + A1 (1 t) = 0 donc A2 (t) A2 (1 t) est constante, en fait nulle


(prendre t = 1/2). Donc A2 est symetrique par rapport `a 1/2, et dintegrale nulle, donc
R1
A (t) dt = 0. Ensuite A3 (t) + A3 (1 t) est constante, nulle puisque lintegrale est
1/2 2
R1
nulle ; alors A3 (1/2) = 0 et A3 (1) = A3 (1/2) + 1/2 A2 (t) = 0. Ce raisonnement continue
pour montrer que tous les An (0) = An (1) avec n impair 3 sont nuls. On peut aussi
obtenir cela `a partir de lequation generatrice (G) ci-dessous, avec t = 0, car
1+

+
X

an z n =

n=2

z
z
z
=
+
ez 1 2
2 th(z/2)

est une fonction paire.


La relation de recurrence () permet de voir que |an | 1 pour tout n ; en effet, si
cette propriete est vraie pour a0 , . . . , an1 on aura
|an |

1
1
+ +
< e 2 < 1.
2!
(n + 1)!

Il en resulte que |An (t)| e 1 < 2 pour tout t [0, 1], ce qui montre que la serie
f (z, t) =

+
X

An (t) z n

n=0

converge pour tout t [0, 1] et tout z C tel que |z| < 1 (en fait le rayon de convergence
en z est egal `a 2 pour tout t [0, 1], dapr`es le resultat quon trouvera ci-dessous). On
en deduit
+
+
X
X
d
0
n
f (z, t) =
An (t) z =
An (t) z n+1 = z f (z, t)
dt
n=0
n=0

ce qui implique que pour tout z fixe il existe un nombre complexe (z) tel que
f (z, t) = (z) etz .
Ensuite
1=

A0 (t) dt =

donne la valeur de (z) et finalement


+
X

(G)

An (t) z n =

n=0

1
0

f (z, t) dt = (z)(ez 1)/z

+
X
z etz
Bn (t) n
.
z = z
e 1
n!
n=0

Formule sommatoire
Par integration par parties successives
Z 1
h
i1 Z
0
0
f (1) f (0) =
A0 (t)f (t) dt = A1 (t)f (t)
0

i1 h
i1
A1 (t)f 0 (t) A2 (t)f 00 (t) +
0

A1 (t)f 00 (t) dt =

A2 (t)f 000 (t) dt

ce qui donne pour tout entier q 1


Z
q
h
i1
X
j+1
(j)
q
f (1) f (0) =
(1)
Aj (t)f (t) + (1)
0

j=1

Aq (t)f (q+1) (t) dt.

En tenant compte de A2j1 (0) = 0 et Aj (0) = Aj (1) pour j 2 on obtient pour


q = 2p + 1
Z 1
p
 X

1 0
0
(2j)
(2j)
f (1) f (0) =
f (0) + f (1)
a2j f
(1) f
(0)
A2p+1 (t)f (2p+2) (t) dt.
2
0
j=1

Lorsque toutes les derivees de f tendent vers 0 `a linfini, on obtiendra en appliquant ce


qui prec`ede `a fk (t) = f (k + t), pour chaque k n, puis en sommant en k
Z +
p
+
X
X
1 0
0
(2j)
f (n) = f (n) +
f (k) +
a2j f
(n)
A2p+1 (t)f (2p+2) (t) dt,
2
n
j=1
k=n

Aj (t)

= Aj (t [t]), cest `a dire quon a prolonge la fonction Aj definie


o`
u on a pose
sur [0, 1] en fonction de periode 1. On obtient le meme resultat quavec la proposition 1,
mais on a maintenant une autre estimation de lerreur,
Z +
p
+
X
X
1 0
0
(2j)
f (k) = f (n) + f (n)
a2j f
(n) +
A2p+1 (t)f (2p+2) (t) dt.
2
n
j=1
k=n

Si on revient au meme exemple f (x) = 1/x, on ecrira avec p = 2


Z +
+
X
1
1
1
1
1
= + 2+ 3
720
A5 (t)t7 dt.
k2
n 2n
6n
30 n5
n
k=n

(comme ici f (j) (x) = (1)j+1 j! xj1 , le coefficient qui apparat dans la formule precedente en facteur de n2j1 pour j 1 est exactement le nombre de Bernoulli B2j ). Le
lecteur acharne pourra calculer
720 . A5 (t) = 6t5 15t4 + 10t3 t,

puis justifier que le maximum du module pour t [0, 1] est atteint sur [0, 1/2] et majorer
ce maximum (`a la grosse louche) par 2 (une etude numerique donne plutot 0, 14675 . . .
pour ce maximum). Le terme integral se trouve alors majore par
Z +
1
2
t7 dt = 6 .
3n
n

Si n = 100 par exemple, cette erreur est donc de lordre de 1012 , ce qui est bien
sympathique. En fait le calcul numerique montre que lerreur est encore plus petite que
cet ordre prevu. En posant
n1
X 1 1
1
1
1
+ + 2+ 3
S5 (n) =
2
k
n 2n
6n
30 n5
k=1

on obtient

S5 (100) = 1, 6449340668482262 . . .
2
= 1, 6449340668482264 . . .
6
7

Attention ! les developpements asymptotiques ne donnent pas des series convergentes,


lorsque la longueur q = 2p du developpement augmente : si n = 100 (par exemple)
est fixe, il faut choisir le bon moment pour arreter. . . Dans lexemple present, le terme
suivant, egal `a n7 /42, ameliorerait encore la precision ; mais au bout dun certain temps,
le resultat donne par les nombres de Bernoulli se deteriorera, puis divergera totalement.
Complements sur le signe de lerreur
On va voir que les polynomes (An ) (ou bien leurs multiples de meme signe (Bn ))
ont les proprietes suivantes, pour tout j 0 :

la fonction A4j+2 est decroissante sur [0, 1/2], et la fonction A4j+4 est croissante
sur [0, 1/2] ; elles sannulent exactement une fois entre 0 et 1/2 ; la fonction A4j+1 est
negative sur [0, 1/2], et la fonction A4j+3 est positive sur [0, 1/2].
On a vu `a propos des proprietes de symetrie par rapport `a 1/2 que lintegrale de
A2k sur [0, 1/2] est nulle, et A2k+1 (0) = A2k+1 (1/2) = 0, pour k 1.
On voit que A1 est < 0 sur [0, 1/2], donc A2 est decroissante sur [0, 1 / 2], et la
condition dintegrale nulle pour A2 impose A2 (0) > 0 > A2 (1/2) ; la fonction A3 est donc
dabord croissante, puis decroissante sur [0, 1/2], et sa nullite aux bornes implique que
A3 (t) > 0 pour 0 < t < 1/2 ; maintenant A4 est croissante sur [0, 1/2] et on continue. . .
Si g est croissante sur [0, 1] il en resulte que
Z 1
A4j+1 (t)g(t) dt 0
0

puisqu`
a cause de lantisymetrie de A4j+1 par rapport `a 1/2 lintegrale precedente vaut
Z 1/2

A4j+1 (t) g(t) g(1 t) dt
0

et la fonction `a integrer est 0 sur [0, 1/2] comme produit de deux quantites negatives.
On a bien s
ur le signe oppose pour A4j+3 .
Dans le cas o`
u f (x) = x1 , les derivees paires sont toutes croissantes (et negatives),
donc
Z
+

A4j+1 (t)f (4j+2) (t) dt 0

et le signe oppose pour 4j + 3. On avait donc, avec les notations precedentes,


Z +
+
X
1
1
1
1
1
1
1

5
=
+
+

24
+
+
A
(t)t
dt

3
k2
n 2n2
6n3
n 2n2
6n3
n

k=n

et loppose pour le cran suivant ; on a donc


S5 (n) 2 /6 S3 (n)
et cet encadrement vaut aussi avec S5 et S7 . Il en resulte que lerreur est en fait majoree
par la valeur absolue du dernier terme ecrit dans le developpement asymptotique ; ceci
permet aussi de choisir la bonne longueur, question evoquee precedemment ; on choisira
q = 2p + 1 de facon que le dernier terme du developpement soit minimal. Dans lexemple
precis, le terme en n2p1 est B2p n2p1 ; avec n = 100, on pourra continuer encore
8

un bon moment avant que B2p 1002p1 ne se mette `a remonter, ce qui signifie que
B2p+2 > 10000 B2p .
La morale est la suivante : si on avait fait un peu plus de theorie avant, on naurait
pas additionne 100 termes : on aurait pu se contenter de n = 10, aller jusquau moment
o`
u B2p+2 /B2p depasse n2 = 100, ce qui se produit `a peu pr`es pour B62 , et recolter avec
une trentaine de termes pairs du developpement asymptotique, plus la somme des dix
premiers termes de la serie, une erreur B62 1063 < 3 . 1027 . Mais cest tellement
facile, avec les outils modernes, dajouter les 100 premiers termes sans reflechir !
Bernoulli et Fourier
Les series de Fourier apportent un autre eclairage `a cette question des polynomes
de Bernoulli. Si on prolonge A1 (t), definie sur [0, 1[, en une fonction 1-periodique sur R,
on obtient pour tout t ]0, 1[
A1 (t) =

+
1 X sin(2nt)
n=1
n

puis par integration `a moyenne nulle, pour tout t [0, 1] cette fois
+
1 X cos(2nt)
;
A2 (t) =
2 2 n=1
n2

en particulier a2 = A2 (0) =
pour tout entier p 1
t [0, 1],

1
2

2 (2) = 1/12. En iterant les integrations, on trouve

A2p (t) = (1)p+1

1
22p1 2p

et
a2p = A2p (0) = (1)p+1

+
X
cos(2nt)
n2p
n=1

(2p)
22p1 2p

Les proprietes de symetrie de la fonction A2p par rapport `a 1/2 sont evidentes sur ces
formules. On voit de plus que
(1)p+1 22p1 2p A2p (t) = cos(2t) +

1
1
cos(4t) + 2p cos(6t) +
2p
2
3

converge assez rapidement sur [0, 1] vers la fonction t cos(2t), ce qui permet de
comprendre le comportement graphique des polynomes A2p pour p assez grand ; les
polynomes de degre impair tendent eux (sur [0, 1] et `a des constantes multiplicatives
pr`es) vers t sin(2t).
Le quotient a2p+2 /a2p , qui intervient dans la decision darreter le developpement
asymptotique (au moins lorsque les erreurs successives ont le bon go
ut detre alternees),
converge donc rapidement vers 1/(4 2 ) 1/40. Le rapport
qp = B2p+2 /B2p = (2p + 1)(2p + 2) a2p+2 /a2p
est donc de lordre de p2 /10. Pour atteindre une valeur qp 10000 (question qui a ete
evoquee precedemment), il faut aller `a p 300, ce qui est hautement improbable. . .
9

Prepa. Agreg. ecrit dAnalyse, Annexe no 8.


D
enombrabilit
e en Analyse et Probabilit
es
Une suite ne peut remplir aucun intervalle, dapr`es Cantor
Largument qui suit a ete publie par G. Cantor vers 1875 ; on peut imaginer que
bien dautres mathematiciens auraient pu le faire avant, si on leur avait pose la question,
mais Cantor est lun des tous premiers `a setre interesse `a ces probl`emes de cardinalite. A
la meme epoque, il montre que lensemble des nombres algebriques est denombrable ; la
conjonction des deux arguments donne une raison tr`es simple pour lexistence de nombres
transcendants, existence precedemment montree directement par Liouville.
Considerons une suite quelconque (wp ) de nombres reels et un intervalle [a, b], a < b ;
on va montrer quil existe au moins un element z de lintervalle qui ne fait pas partie de
la suite.
Designons par m1 le plus petit indice m tel que a < wm < b ; sil nen existe aucun,
notre affirmation sera montree en prenant nimporte quel z de ]a, b[ ; de meme designons
par n1 le plus petit indice n tel que a < wn < b et wn 6= wm1 ; sil nen existe aucun,
notre affirmation est montree comme avant, en prenant pour z un point de ]a, wm1 [
ou bien un point de ]wm1 , b[ ; si m1 et n1 existent, on note que n1 > m1 et on pose
x1 = min(wm1 , wn1 ) et y1 = max(wm1 , wn1 ) ; on a a < x1 < y1 < b.
Designons ensuite par m2 le plus petit indice m tel que x1 < wm < y1 ; sil nen existe
aucun, notre affirmation sera montree en prenant nimporte quel z de ]x1 , y1 [ ; de meme
designons par n2 le plus petit indice n tel que x1 < wn < y1 et wn 6= wm2 ; sil nen existe
aucun, notre affirmation est montree comme avant ; sinon, on note que n2 > m2 > n1 et
on pose x2 = min(wm2 , wn2 ), y2 = max(wm2 , wn2 ) ; on a a < x1 < x2 < y2 < y1 < b.
On continue ainsi par recurrence, choisissant mk , nk plus grands que nk1 > mk1
de facon que xk = min(wmk , wnk ) et yk = max(wmk , wnk ) soient les premiers elements
de la suite (wp ) `a verifier xk1 < xk < yk < yk1 . On pose aussi x0 = a et y0 = b.
La suite des intervalles embotes [xk , yk ] contient au moins un point z, et on a
xk < z < yk pour tout entier k ; il nest pas possible que z soit lun des (wp ), par exemple
z = wp0 ; en effet, la suite des indices nk tend vers linfini puisque nk < mk+1 < nk+1 pour
tout entier k 1 ; soit k0 = k le plus petit indice tel que p0 nk ; si on avait p0 mk
et z = wp0 , alors z serait le premier point x de la suite (wp ) verifiant xk1 < x < yk1 ,
ce qui nest pas le cas puisque ce point est xk ou bien yk , tous deux differents de z ;
si on avait mk < p0 nk , alors z serait le premier point y de la suite (wp ) verifiant
xk1 < y < yk1 et y 6= wmk , ce qui nest pas le cas `a nouveau, puisque ce point est
encore yk ou xk .
Exercices elementaires
1. Montrer que toute partie X de R2 , munie de la distance d induite par R2 , est un
espace separable.
Indication. On suppose X non vide. Soit (xm ) une suite dense dans R2 , (rn ) une enumeration des rationnels > 0, et z0 un point fixe de X ; pour tout couple (m, n) on pose
zm,n = z0 si la boule B(xm , rn ) ne rencontre pas X, sinon on prend pour zm,n un point
de lintersection. Montrer que lensemble denombrable (zm,n ) est dense dans X.
1

2. Montrer que la tribu borelienne de R2 concide avec le produit tensoriel de la tribu


borelienne de R avec elle-meme.
Desintegration dune probabilite sur R2
Designons par une probabilite sur R2 (cest `a dire une probabilite sur la tribu
borelienne de R2 ) et par la probabilite sur R qui est limage de par la premi`ere
projection p1 : R2 R, definie par p1 (x, y) = x. On a donc
Z
Z
h(x) d(x, y) =
h(x) d(x)
R2

pour toute fonction borelienne positive h sur R.


Th
eor`
eme. Il existe une application x R x , o`
u chaque x est une probabilite sur
R, telle que
pour tout borelien A de R, lapplication x x (A) est borelienne
pour toute fonction borelienne positive sur R2 , on a
Z
Z
Z

(x, y) d(x, y) =
d(x)
(x, y) dx (y) .
R2

On a de plus le resultat dunicite suivant : si (


x ) est une autre famille de probabilites sur
R qui verifie les deux proprietes precedentes, alors
x = x pour -presque tout x R.
Exemples
evidents.
1. Si 1 , 2 sont deux probabilites sur R, si = 1 2 , alors = 1 et on a x = 2
pour 1 -presque tout x ; dans ce cas la formule ci-dessus est simplement le theor`eme de
Fubini pour la mesure produit.
2. Si est une probabilite sur R, et si on designe par limage de par lapplication
x (x, x) qui envoie R sur la premi`ere diagonale de R2 , on obtient encore = comme
dans lexemple precedent, mais maintenant on aura x = x (la masse de Dirac au point
x) pour -presque tout x.
Idee de preuve du theor`eme. On va trouver les x gr
ace `a leur fonction de repartition.
Si (x, y) = h(x) 1yb , on devra avoir
Z
Z
d(x) h(x)x (], b]) =
h(x) 1yb d(x, y).
R2

On va donc chercher, pour chaque b fixe, une fonction x gb (x) qui verifie la propriete
que doit avoir x x (], b]), cest `a dire
Z
Z
h(x) gb (x) d(x) =
h(x) 1yb d(x, y)
R2

pour toute h borelienne bornee. Le point essentiel qui rattache ce developpement aux applications de la denombrabilite est le suivant : pour determiner la fonction de repartition
b x ((, b]), il suffit de la determiner lorsque b = q est rationnel. On va donc
chercher une famille denombrable de fonctions (gq )qQ de la variable x, qui reconstitueront, pour x fixe et q variant, la fonction de repartition de la probabilite x voulue.
Notons i1 le plongement isometrique de L2 (R, ) dans L2 (R2 , ) obtenu par la formule i1 (h)(x, y) = h(x), cest `a dire que nous considerons tout simplement une fonction
2

dune seule variable h comme une fonction de deux variables i1 (h) qui ne depend que de
la premi`ere variable ! Loperateur adjoint P = i1 , defini de L2 (R2 , ) dans L2 (R, ) est
caracterise par
h L2 (), hPf, hiL2 () = hf, i1 hiL2 ()
cest `a dire que la fonction g = Pf dune seule variable est caracterisee par le fait que
Z
Z
h(x)g(x) d(x) =
h(x)f (x, y) d(x, y)
R2

pour toute h L2 (R, ). On verifie facilement les proprietes suivantes.


(1). Lapplication P est lineaire et continue en norme L2 .
(2). On a P(k(x)f (x, y)) = k(x)(Pf )(x) pour toute k borelienne bornee.
(3). Si f 0, alors Pf 0 -presque partout.
(4). Et finalement, P(1) = 1.
Pour chaque rationnel q posons fq (x, y) = 1yq et designons par gq une fonction
borelienne sur R, definie partout, qui soit un -representant de Pfq ; pour chaque couple
q < r de rationnels, on a gq gr -presque partout dapr`es (3), puisque fq fr , donc
[
N1 =
{x R : gq (x) > gr (x), q < r, q, r Q}

est -negligeable, comme reunion denombrable densembles negligeables. De meme puisque 0 fq 1 on a 0 gq 1, donc
[
N2 =
{x R : gq (x) < 0, q Q}
et

N3 =

{x R : gq (x) > 1, q Q}

sont -negligeables. Posons N = N1 N2 N3 . Pour chaque reel x


/ N, la fonction
q Q gq (x) est croissante et comprise entre 0 et 1 ; pour x N, on posera par
exemple gq (x) = 0 si q < 0 et gq (x) = 1 si q 0 ; ce changement sur lensemble
negligeable N ne modifie pas le fait qui nous interesse, `a savoir que gq est toujours un
representant de Pfq . On pose maintenant pour tous t, x reels
gt (x) = lim gq (x).
q&t

Par construction, cette fonction t gt (x) est une fonction croissante continue `a droite
sur R, comprise entre 0 et 1, et pour chaque t fixe x gt (x) est borelienne comme
limite simple de fonctions boreliennes. Lorsque t est rationnel, on verifie par convergence
dominee lorsque q & t, appliquee `a fq ft et gq gt que la fonction x gt (x) verifie
aussi les proprietes qui caracterisent Pft , `a savoir
Z
Z
h(x)
gt (x) d(x) =
h(x)1yt d(x, y)
R2

pour toute h L2 (R, ). On en conclut que gq = gq -presque partout pour tout rationnel
q, et quitte `a faire une nouvelle modification `a un ensemble negligeable pr`es on pourra
supposer que gq = gq partout, et on notera simplement gt (x), pour tout t reel.
La fonction t R gt (x) admet aussi des limites g (x) et g (x) aux deux infinis ;
ces deux limites sont des fonctions boreliennes de la variable x. On verifie comme ci-dessus
3

que ces limites sont des representants de P(0) et P(1) respectivement, donc g = 0 et
g = 1 -presque partout. En enlevant encore un negligeable on trouve finalement un
borelien -negligeable N0 R tel que : pour tout x
/ N0 , la fonction t R gt (x) est
une fonction croissante continue `a droite, dont les limites en sont egales `a 0 et 1 ;
cest donc la fonction de repartition dune probabilite x sur R. Pour les autres valeurs
de x on posera par exemple x = 0 , si on veut.
Par construction x x (A) est borelienne lorsque A = (, q] avec q rationnel,
puisque cest la fonction gq de la construction precedente. La classe C formee par tous ces
intervalles est stable par intersection finie, et la classe M des boreliens A R tels que
x x (A) soit borelienne est monotone et stable par difference, elle contient la classe
C, donc elle contient aussi la tribu engendree par C (lemme des classes monotones), cest
a dire la tribu borelienne de R. On a ainsi montre la premi`ere affirmation du theor`eme.
`
On a aussi par construction
Z
Z
Z

1A (x)1yq d(x, y) =
1A (x)
1yq dx (y) d(x)
R2

puisque

1yq dx (y) = x ((, q]) = gq (x),

et on passe au cas general par classes monotones `a nouveau, en considerant la classe M


des boreliens B de R2 tels que
Z
Z Z

1B (x, y) d(x, y) =
1B (x, y) dx (y) d(x)
R2

qui contient donc les produits A (, q] par la formule precedente. On passe ensuite
aux fonctions etagees, puis mesurables par les techniques standard.
La demonstration du resultat dunicite est laissee au lecteur, sil en reste un.
Probabilites conditionnelles
On se donne un couple (X, Y) de v.a. reelles et on designe sa loi jointe par . La loi de
X est limage de par lapplication p1 . Les x sont les lois conditionnelles de Y sachant
que X = x. Pour toute fonction borelienne bornee f (x, y), on obtient un representant
de lesperance conditionnelle de la variable aleatoire Z = f (X, Y) sur la tribu A = (X)
engendree par X, qui se met sous la forme

E f (X, Y) | A = g(X),
o`
u

g(x) =

f (x, y) dx (y).

Du point de vue probabiliste, les deux exemples evidents donnes apr`es le theor`eme
correspondent aux deux cas (extremes) suivants : dans le cas 1, on a deux v.a. independantes X, Y de lois 1 et 2 , et lindependance dit que linformation X = x ne change
pas notre connaissance de la loi de Y, la loi conditionnelle x est simplement la loi 2
de Y ; le cas 2 est celui o`
u X est de loi et o`
u Y = X : dans ce cas evidemment, la loi
de Y sachant que X = x est x !

Exercices tordus, avec de la denombrabilite


1. On designe par le premier ordinal non denombrable et on suppose que (U )<
est une famille croissante douverts de R2 , indexee par les ordinaux < (cest `a
dire indexee par la famille des ordinaux denombrables). Montrer quil existe un ordinal
0 < tel que U = U0 pour tout 0 (la famille est stationnaire).
Indication. Soit (Vm )mN une base de la topologie de R2 . Pour chaque m fixe, considerer
la famille des ordinaux tels que Vm U ; si elle nest pas vide, elle poss`ede un plus
petit element m . Montrer que 0 = supm m convient.
2. Montrer que tout espace topologique compact separable K a au plus la puissance 2c
(celle de P(P(N)) ; la notation c designe ici la puissance du continu, celle de P(N)).
Indication. Soit (xn )nN une suite dense dans K ; pour chaque M N designons par KM
ladherence dans K
T de lensemble (xm )mM , puis pour chaque A P(N) designons par
A
K lintersection MA KM . Enfin designons par F le sous-ensemble de P(P(N)) forme
des A tels que KA soit un singleton, et posons KA = {(A)} pour tout A F. Montrer
que est surjective de F sur K. Conclure.
Remarque : si K est compact m
etrisable il a au plus la puissance du continu.