Vous êtes sur la page 1sur 18

Chapitre 1

Transformations qui préservent la


mesure

1.1 Présentation générale

1.1.1 Notations et hypothèses


Dans ce cours, (X, A , µ) désigne un espace mesuré et T une application tels que :
. X est un espace métrique σ-compact 1 .
. A est la σ-algèbre borélienne complétée par rapport à µ : c’est-à -dire qu’elle
contient tous les ensembles de mesure nulle (si A ⊂ B et B ∈ A tel que µ(B) = 0
alors A ∈ A ).
. µ est finie ou σ-finie 2 . Lorsque µ est finie, on la supposera normalisée (µ(X) = 1).
. T : X → X est une application A -mesurable.

Exercice 1. Existence de la σ-algèbre complète


Montrer que toute σ-algèbre peut être complétée.

Définition 1.1. Soit (X, A , µ) un espace mesuré et T une application mesurable de X,


on appelle la mesure image de µ par T qu’on note µT ou T µ la mesure sur X définie
pour tout A ∈ A par
µT (A) = T µ(A) = µ(T −1 A).

En particulier on a aussi pour toute fonction f ≥ 0 mesurable


Z
T µ(f ) := f ◦ T dµ. 3
X
1. en particulier il est séparable et localement compact. En particulier, il est aussi Polonais (séparable
et complet)
2. c’est-a-dire que X est une union dénombrable d’ensembles de mesure finie
3. Savoir pourquoi

1
Définition 1.2. On dit que T préserve la mesure µ si µT = µ. On dit aussi dans ce
cas que µ est T -invariante. Cela se traduit par :
∀A ∈ A µ(T −1 A) = µ(A) (1.1)
On dit alors que (X, A , µ, T ) est un système préservant la mesure (abrégé MPT, Me-
sure Preserving Transformation). Si µ(X) = 1 on dit qu’il s’agit d’un système préservant
la probabilité (abrégé PPT, Probability Preserving Transformation)

Dans un MPT, on a 4
Z Z
1
∀f ∈ L (A , µ), f ◦ T dµ = f dµ.
X X

1.1.2 Quelques outils d’analyse utiles


Pour vérifier que T préserve la mesure il suffit en général de vérifier (1.1) sur une classe
plus petite d’ensembles ou de fonctions qui engendre la σ-algèbre. Les hypothèses sur X
permettent d’utiliser les critères suivants pour l’identification des mesures :
Proposition 1.1. Critère d’égalité de deux mesures.
Soit µ et ν des mesures finies sur (X, A ), alors elle sont égales lorsque l’un des critères
est vérifié :
1. il existe un π-système C 5 qui engendre A et contient X tel que
∀A ∈ C , µ(A) = ν(A).
2. Lorsque A est la σ-algèbre borélienne (complétée) on a
∀f ∈ Cb (X) 6 µ(f ) = ν(f ). 7
3. Lorsque X est un groupe abélien compact, si X̂ est l’ensemble des caractères de X :
∀χ ∈ X̂ χ(µ) = χ(ν).
En particulier si X = R/Z
R = T, alors toute mesure est caractérisée par sa série de
Fourier : µ̂ : n ∈ Z 7→ X e2iπnx dµ(x).

Preuve : Exercice. 

Définition 1.3. Convergence des mesures : on note M (X) l’espace des mesures de masse
finie. La suite (µn )n∈N converge étroitement vers µ ∈ M (X) si
∀f ∈ Cb (X), µn (f ) −−−−→ µ(f ).
n→+∞

Lorsque X n’est pas compact, on dit que la suite converge vaguement si la convergence
ci-dessus est restreinte aux fonctions de C0 (X) 8
4. savoir pourquoi
5. un sous-ensemble de A stable par intersection
6. fonctions réelles de X continues et bornées
7. s’étend aux mesures σ-finies, en se restreignant aux fonctions à support compact.
8. fonctions nulles à l’infini : pour tout ε > 0, il existe K compact tel que kf 1K c k∞ < ε.

2
Proposition 1.2. Compacité de la boule unité de M (X) : l’ensemble des mesures de
masse inférieure à 1,M1 (X), est compact pour la topologie vague. En particulier, toute
suite de probabilités admet un point d’accumulation dans M (X). 9

1.2 Exemples de systèmes : les translations.


1.2.0.1 Cas d’un ensemble fini

X = {1, . . . , d} où d ∈ N, et T le cycle d’ordre d : T (i) = i + 1 si i ∈ {1, · · · , d − 1} et


T (d) = 1. Alors µ la mesure uniforme sur X est T -invariante.

Remarque 1.1. On peut aussi interpréter ce système comme une translation de 1 sur
X = Z/dZ.

1.2.0.2 Translation sur Z

P = Z muni de sa σ-algèbre naturelle, on considère T : x 7→ x + 1. Alors la mesure


Sur X
µ = n∈N δn est T -invariante. Dans ce cas le MPT est σ-fini.

1.2.0.3 Rotation du cercle.

Soit X = T = R/Z muni de la tribu borélienne complétée. Pour tout α ∈ R on définit la


rotation de α sur Tnotée Tα par :
∀x ∈ X, Tα (x) = x + α mod 1.
X peut être identifié avec le cercle S 1 ou l’intervalle [0, 1]/ ∼ où on a "collé" les extrémités
0 ∼ 1.
Alors la mesure de Lebesgue µ = λ est Tα -invariante.
Preuve : Exercice. 

Exercice 2. Unicité de la mesure invariante ?


Etudiez l’existence d’autres mesures invariantes dans les exemples précédents.
Montrer que si α ∈/ Q, alors il n’y a pas d’autre mesure invariante (à normalisation près).
9. Lorsque X n’est pas compact, cette valeur d’adhérence n’est pas nécessairement de masse 1.

3
Remarque 1.2. Plus généralement si X = G est une groupe topologique localement
compact et Tg (x) = gx alors µ est la mesure de Haar à gauche de G, et l’action par
translation est donc un MPT.

1.3 La transformation de décalage et suite de variables


aléatoires .

1.3.1 Notations et propriété des produits infinis.


On va donner d’autres exemples construits à partir de l’étude des suites de variables
aléatoires : dans ce cas X est un espace produit infini de la forme X = ΩN où (Ω, B, ρ)
est un espace de probabilité. Alors A est la tribu produit engendrée par les cylindres
et la mesure µ peut donc être définie de manière unique comme prolongement de ses
marginales sur les cylindres 10 .
Définition 1.4. (Ω, B) est un espace mesurable, un cylindre de l’espace produit X = ΩN
est un ensemble de X de la forme :
Y
E0 × · · · × Ek × Ω = [ω0 ∈ E0 , . . . ωk ∈ Ek ] où k ∈ N et Ei ∈ B.
i>k

On notera plus simplement si x = (xi )i≤k ∈ Ωk+1 et n ∈ N


[x]n = [x0 , · · · , xk ]n = {(ωi )i∈N , ∀i ∈ {0, .., k} ωi+n = xi }.
On omettra l’indice n lorsque n = 0.

1.3.2 L’opération de décalage (shift en anglais)


Définition 1.5. Soit (Ω, B) un espace mesurable et X = ΩN muni de la tribu produit
A = B N . La transformation de décalage sur X est la transformation S : X → X
définie pour tout (ωn )n∈N ∈ X par :
S(ω0 , ω1 , . . .) := (ω1 , ω2 , . . .)

Si A = [ω0 ∈ E0 , . . . ωk ∈ Ek ] on a alors :
Y
S −1 A = {x : Sx ∈ A} = [ω1 ∈ E0 , . . . ωk+1 ∈ Ek ] = Ω × E0 · · · × Ek × Ω
i>k+1

Propriété 1.3. Soit (Ω, B) est un espace mesurable et (X, A , S) le décalage associé.
Alors une mesure µ sur X est S-invariante si elle vérifie pour tout A cylindre de X,
µ(A) = µ(S −1 A) . 11
10. c’est le théorème d’extension de Carathéodory
11. On pourrait faire mieux : supposons qu’il existe une suite de mesures (µn )n compatibles sur les
cylindres (c’est à dire que si n < m alors les marginales de µm sur les cylindres de taille inférieure à n
coïncident avec µn ) qui vérifie pour tout n ∈ N∗ et pour tout cylindre A de taille inférieure à n − 1,
µn (S −1 A) = µn (A). Dans ce cas, il existe une mesure µ sur X qui est S-invariante et dont les marginales
sur les cylindres de taille inférieure à n coïncident avec µn .

4
Preuve : Savoir pourquoi 

1.3.3 Décalage de Bernoulli et variables i.i.d.


Propriété 1.4. Si X = ΩN où (Ω, B, ρ) est un espace de probabilité, alors la mesure
produit µ = ρ⊗N est invariante pour le décalage.

Preuve : Exercice 

Définition 1.6. Lorsque Ω est fini, le système (ΩN , B N , ρ⊗N , S) est appelé décalage de
Bernoulli, ou shift de Bernoulli de loi ρ.

Exemple 1.1. Si Ω = {0, 1} et ρ = 1/2δ0 + 1/2δ1 , on note B(1/2, 1/2) ce PPT : il


représente le système dynamique associée au tirage de Pile ou Face standard.

Remarque 1.3. De manière générale, si (Xn )n∈N est une suite de variables aléatoires à
valeurs dans (Ω, B, ρ), alors on peut lui associer un PPT selon les règles précédentes, en
choisissant pour ρ la loi commune de Xn .

Remarquez que dans ce cas, des mesures invariantes, il y en a plein ! On va voir dans le
paragraphe suivant comment construire d’autres mesures invariantes.

1.3.4 Chaines de Markov stationnaires


Une classe d’exemples plus générale de PPT est donnée par une chaine de Markov à va-
leurs dans un ensemble fini (ou dénombrable) Ω, qui admet une probabilité stationnaire :
comme précédemment, on considère le décalage sur l’espace produit (X = ΩN , A , S), et
on définit la loi associé à une chaîne de Markov. X est vu dans ce cas comme l’espace
des trajectoires de la chaîne de Markov.

Définition 1.7. Une chaîne de Markov est définie par une loi initiale ν et une matrice
(ou noyau) de transition p : Ω2 → [0, 1] vérifiant :
P
. Pour tout n ∈ N, pour tout i ∈ Ω, j∈Ω p(i, j) = 1.
. ν ∈ [0, 1]Ω est une probabilité sur Ω : i∈Ω ν(i) = 1.
P

La loi de la chaîne de Markov de noyau p partant de ν, notée Pν , est la probabilité


sur ΩN définie par son action sur les cylindres de la manière suivante : pour tout n ∈ N
et pour tout x = (xi )i≤n ∈ Ωn+1 ,
n
Y
Pν (x) = ν(x0 ) p(xi−1 , xi )
i=1

Remarque 1.4. De manière équivalente, on aurait pu dire que Pν était l’unique proba-
bilité sur ΩN vérifiant
. Pν ([ω0 ]) = ν(ω0 ) : autrement dit la loi initiale est ν.

5
. Pour tout (i, j) ∈ Ω, p(i, j) = Pν (ωn+1 = j|ωn = i) : c’est la probabilité de transition
de l’état i à l’état j.

Définition 1.8. On dit que ν est stationnaire pour p si νp = ν. 12


Cela signifie en particulier que ω0 a la même loi que ω1 en effet
X
Pν (ω1 = k) = ν(i)p(i, k) = ν(k) = Pν (ω0 = k)
i∈Ω

Propriété 1.5. Si ν est stationnaire pour p, alors (X, A , Pν , S) est un PPT.


Preuve : A savoir refaire. En effet, pour tout b ∈ ΩM +1 on a

Pν (S −1 [b]) = Pν (ω1 = b0 , . . . ωM +1 = bM )
X
= Pν (ω0 = k, ω1 = b0 , · · · ωM +1 = bM )
k∈Ω
X
= ν(k)p(k, b0 )p(b0 , b1 ) · · · p(bM +1 , bM )
k∈Ω
= ν(b0 )p(b0 , b1 ) · · · p(bM +1 , bM )
= Pν ([ω0 = b0 , . . . ωM = bM ] = Pν ([b])

Exemple 1.2.
. Si Ω = {0, 1} alors

p(1, 0) p(0, 1)
ν(0) = ν(1) =
p(1, 0) + p(0, 1) p(1, 0) + p(0, 1)

définit une loi stationnaire.


. Un système de Bernoulli est un cas particulier de chaîne de Markov stationnaire,
il correspond au cas où les états sont tous indépendants. Explicitez p et ν dans ce
cas.

Remarque 1.5. De façon générale, la proposition suivante permet d’affirmer l’existence


de probabilités stationnaires pour les chaînes de Markov à espace d’états finis. L’existence
de probabilités stationnaires peut-être vu comme une conséquence directe du Théorème
de Perron Frobenius. On présente ici une preuve directe qui a l’avantage de donner des
informations supplémentaires qui nous seront utiles dans la suite. Cette preuve présente
aussi des techniques utiles pour démontrer l’existence de mesures invariantes dans d’autres
contextes plus généraux.

12. Cette égalité est vue comme une égalité matricielle : autrement dit, ν est un vecteur invariant à
gauche pour la matrice p.

6
Proposition 1.6. 13 Soit Ω = {1, · · · , d} où d ∈ N. On considère une matrice stochas-
tique P ∈ M (d × d).
nl −1
n−1
!
1X n 1 X
Alors la suite P est bornée et tout point d’accumulation Q = lim P nl
n k=0 l→+∞ nl k=0
n≥0
est une matrice stochastique telle que P Q = QP = Q.
En particulier chaque ligne de Q définit une probabilité stationnaire pour P .

Preuve :
13. La preuve de cette propriété est non exigible dans mon cours, ceci dit, elle ne me semble pas très
difficile et elle est instructive.

7
8


9
1.4 Propriétés élémentaires sur les ensembles et les me-
sures des MPT.
L’idée de l’étude des systèmes dynamiques mesurés consiste à se détacher du point de
vue ponctuel pour ne garder que l’information statistique sur la dynamique du système.
L’intérêt des mesures invariantes est de conserver l’information au cours du temps dans
la déformer.. On perd, comme en statistique, l’information ponctuelle, mais on conserve
alors l’information globale.

1.4.1 Pseudo-distance sur A


Définition 1.9. Soit (X, A , µ) un espace mesuré complété. On peut définir une pseudo-
distance d sur A pour tout (A, B) ∈ A 2 par :

d(A, B) = µ(A∆B) = µ(|1A − 1B |).

Si d(A, B), on notera alors A = B mod 0 lorsqu’il n’y a pas d’ambiguïté sur µ.

Preuve : Vérifier que d est symétrique et satisfait l’inégalité triangulaire. 

Exercice 3. Démontrer les propriétés suivantes :


1. d(Ac , B c ) = d(A, B)
P
2. d(∩n An , ∩n Bn ) ≤ n d(An , Bn )
P
3. d(∪n An , ∪n Bn ) ≤ n d(An , Bn )

1.4.2 Ensembles invariants, errants, récurrents.


Soit (X, A , µ, T ) un MPT en mesure σ-finie. On explicite dans cette partie la structure
dynamique d’un ensemble de mesure non nulle.

Définition 1.10. A ∈ A est un ensemble T -invariant (resp. T -invariant mod 0) si


T −1 A = A (resp. T −1 A = A mod 0 ou d(T −1 A, A) = 0)

Propriété 1.7. On considère A ∈ A . Alors les deux ensembles suivants sont T -invariants :
\ [
A = lim sup T −n A = T −k A = {x ∈ X, pour une infinité de n, T n x ∈ A}
n→+∞
n≥0
[ k≥n
\
−n
A = lim inf T A = T −k A = {x ∈ X, pour tout n assez grand, T n x ∈ A}
n→+∞
n≥0 k≥n

Remarque 1.6. Lorsque T est inversible, l’ensemble des éléments qui "vivent" dans A
est T -invariant : ∩n∈Z T n A.

10
Exercice 4. Soit A ∈ A un ensemble T -invariant mod 0. Montrer qu’il existe B ∈ A
T -invariant tel que µ(A∆B) = 0.
Définition 1.11. Points récurrents dans un ensemble, ensembles récurrents.
. Un point x ∈ X est un point récurrent dans A (resp. infiniment récurrent dans
A) s’il existe n ∈ N∗ (resp. une infinité de n ∈ N∗ ) tel que T n x ∈ A .
. Un ensemble A est récurrent (resp. infiniment récurrent) si µ-presque tout point de
A est récurrent (resp. infiniment récurrent) dans A.
Remarque 1.7.
. A ∩ A est la partie infiniment récurrente de A.
. A est en quelque sorte "le bassin d’attraction" de A.

Lorsqu’un point n’est pas infiniment récurrent dans A, son orbite "s’échappe" de A au
bout d’un certain temps : Notons EA l’ensemble des points de A qui ne reviennent jamais
dans A, alors x ∈ T −n EA signifie que x visite A pour la dernière fois au temps n. Par
conséquent EA est disjoint toutes ses images réciproques : on dit que c’est un ensemble
errant.
Définition 1.12. Ensembles errants et transients.
. Un ensemble E ∈ A est dit errant si µ(T −n E ∩ E) = 0 pour tout n ≥ 1.
. Un ensemble A est dit transient s’il existe un ensemble errant E ∈ A tel que
µ(A \ ∪n∈N T −n E) = 0.
Propriété 1.8. On considère A ∈ A .
[
EA = A \ T −n A est une partie errante de A.
n≥1

Alors on peut décomposer A en 2 parties disjointes, une partie infiniment récurrente et


une partie transiente :
A = (A ∩ A) ∪ (A ∩ ∪n≥0 T −n EA ).
On a T −1 ( n≥0 T −n EA ) ⊂ n≥0 T −n EA .
S S

Preuve : Exercice 

1.4.3 Systèmes conservatifs, récurrence et ergodicité.


Dans les parties errantes, il n’y a pas d’information du point de vue de la mesure.. l’étude
des MPT sera donc particulièrement pertinente lorsque toutes les parties errantes sont
de mesure nulle : on parlera alors de systèmes conservatifs.
Définition 1.13. Systèmes conservatifs et transients :
. On dit qu’un MPT (X, A , µ, T ) est conservatif si tout ensemble errant est de me-
sure nulle.

11
. On dira qu’il est transient s’il existe un ensemble errant E ∈ A tel que µ(X \
∪n∈Z T −n E) = 0.

Exercice 5. Montrer que tous les PPT sont conservatifs, puis donner un exemple de
systèmes non conservatif.
La décomposition en partie transiente et partie récurrente d’un ensemble permet d’ob-
tenir immédiatement l’un des premiers théorèmes classiques de la théorie des systèmes
dynamiques mesurés :

Théorème 1.9. Récurrence de Poincaré


Soit (X, A , µ, T ) un MPT conservatif 14 . Pour tout A ∈ A , si µ(A) > 0 alors A est
infiniment récurrent. Autrement dit :

Pour µ − pp x ∈ A, ∀N ∈ N ∃n ≥ N, T n x ∈ A

On peut remarquer que le théorème s’applique uniquement aux points de l’ensemble


considéré : cette condition est intimement liée à l’existence d’ensembles invariants non
triviaux.. cette remarque conduit à la notion d’ergodicité.

Exercice 6. Donner un exemple de système qui ne vérifie pas le théorème de Poincaré.


Donner un exemple qui montre que le théorème ne s’étend pas pour µ presque tout x ∈ X
pour un ensemble A de mesure positive donné.

1.4.4 Temps de retour et théorème de Kac


Définition 1.14. Soit (X, A , µ, T ) un MPT et A ∈ A . Le temps de premier retour
dans A est l’application τA à valeur dans N ∪ {∞} définie pour tout x ∈ X par

τA (x) := inf{n ≥ 1 : T n x ∈ A},

et τA (x) = +∞ si T n x 6∈ A pour tout n ∈ N.

Le théorème de récurrence dit que τA (x) < ∞ pour µ-presque tout x dans A. Il indique
plus précisément qu’on peut définir une suite de temps retours dans A pour presque tout
point de A :

Définition 1.15. La suite des temps de retours dans A est définie pour tout x ∈ X
par : τA0 := 0 et si k ∈ N, τAk+1 (x) = inf{n > τAk (x), T n x ∈ A} si l’ensemble est non vide,
et τAk+1 (x) = +∞ sinon.
On a pour tout k ≥ 0,
k
τAk+1 (x) = τAk (x) + τ (T τA (x) x).
14. habituellement, le cadre du théorème concerne les mesures finies, mais la généralisation est une
conséquence immédiate du paragraphe précédent

12
Preuve : Savoir interpréter la dernière égalité. 

.
Propriété 1.10. Avec les notations précédentes, on a
x∈A ⇐⇒ la suite (τAk (x))k≥0 est strictement croissante et à valeurs finies.
x ∈ n≥1 T −n EA ⇐⇒ Il existe k > 0, τAk (x) = +∞.
S

Preuve : Exercice : utiliser les propriétés des paragraphes précédents. 

Définition 1.16. Loi du premier temps de retour : Soit (X, A , µ, T ) un MPT et


I ∈ A , la loi du temps de premier retour dans I est la donnée pour tout n ∈ N∗ ∪ {∞}
de
µ(A ∩ (τA = n))
µA (τA = n) =
µ(A)

Le Théorème de Kac donne le temps moyen de retour en A lorsqu’on part de A.


Théorème 1.11. Espérance du temps de premier retour - Théorème de Kac.
Soit (X, A , µ, T )un PPT et A ∈ A tel que µ(A) > 0, alors
Z
τA (x)dµ(x) = µ(τA < ∞)
A

Corollaire 1.12. Si µ(τA < ∞) = 1 alors


Z
1 1
τA (x)dµ(x) =
µ(A) A µ(A)
i.e. si on conditionne à partir de A, l’espérance du temps de retour en A c’est l’inverse
de µ(A).

Preuve : Comprendre la décomposition de l’espace en fonction des temps de retours


dans A.
Il s’agit de "lire" l’information donnée par une décomposition de l’espace en fonction des
temps de retours dans A. Pour la lisibilité on notera τ = τA .
. On écrit la décomposition de {τ < ∞} = ∪n≥1 {τ = n}
. On décompose {τ = n} = Xn ∪ An où An désigne l’ensemble des points de A dont
le premier retour dans A vaut n : An = {τ = n} ∩ A. Par conséquent Xn sont les
points qui arrivent dans A pour la première fois au temps n (c’est {τ = n} ∩ Ac ).
. On peut remarquer que tous les points dont le premier retour à A vaut n ont leurs
images dans Xn−1 (leur image arrive au temps n − 1 dans A, mais n’est pas dans
A !) : par conséquent on a T −1 (τ = n) = Xn−1 . Si n = 1, on peut noter X0 = A.
. On peut maintenant relier les mesures de An et {τ = n} :
µ(τ = n) = µ(A P n ) + µ(Xn ) = µ(An ) + µ(τ = n + 1) (µ est T -invariante)
= k≥n µ(Ak ) (µ(τ = n) −−−−→ 0)
n→+∞
= µ(∪k≥n Ak ) (les Ak sont disjoints)
= µ(A ∩ (τ ≥ n)) (τ < ∞ sur A).

13
. Il reste à recomposer la somme :
X X Z
µ(τA < ∞) = µ(τ = n) = µ(A ∩ (τ ≥ n)) = τ dµ.
n≥1 n≥1 A

1.5 Systèmes ergodiques et mesures invariantes.


Nous avons vu dans les paragraphes précédents que la condition de retour dans un en-
semble est liée à l’appartenance à cet ensemble.. Le phénomène en jeu est la possibilité
d’avoir un système qui se décrit comme la "juxtaposition" de 2 systèmes qui n’inter-
agissent pas : cela se traduit par l’existence d’une partition de l’espace X en 2 ou plusieurs
sous-ensembles T -invariants. La propriété d’ergodicité d’une mesure assure alors que ce
cas ne se produit pas :
Définition 1.17. On dit que (X, A , µ, T ) est ergodique ou que µ est T -ergodique s’il
n’existe pas d’ensemble T -invariant non trivial :

∀A ∈ A , µ(A∆T −1 A) = 0 =⇒ (µ(A) = 0 ou µ(X \ A) = 0) . 15

Propriété 1.13. un MPT (X, A , µ, T ) est ergodique si et seulement si

∀f : X → R mesurable, (f = f ◦ T µ − pp =⇒ f est constante µ − pp) .

Preuve : Exercice, à savoir refaire.


Si toutes les fonctions µ-pp invariantes sont constantes, alors c’est aussi vrai pour la
fonction indicatrice d’un intervalle µ-pp invariant, donc la mesure est ergodique.
Pour la réciproque, si f est mesure et µ-pp invariante, alors la σ-algèbre engendrée par
f est µ-pp invariante, et en particulier tous les ensembles de la forme f −1 (I) où I est
un intervalle de R. On peut prendre par exemple, pour tout t ∈ R, At = (x, f (x) ≥ t).
L’ergodicité de µ entraine que pour tout t, µ(At ) = 0 ou µ(Act ) = 0. Comme f est à
valeurs dans R, elle est pp finie, donc il existe t0 tel que µ(f ≥ t0 ) > 0. On en déduit que
f ≥ t0 µ-pp. Posons c = sup{t, µ(f < t) = 0} (qui existe bien, vérifiez pourquoi !), on
obtient alors pour tout n > 0, f ≥ c − n1 µ-pp et f ≤ c + n1 µ-pp. On en déduit que µ-pp,
on a f ≥ c et f ≤ c, donc f = c. 

Exercice 7. Montrer que dans un système ergodique et conservatif, alors pour tout A ∈ A
tel que µ(A) > 0, presque tout point de X est infiniment récurrent dans A.
Preuve : A faire pour la semaine prochaine, preuve rédigée. 

Exercice 8. *(pour ceux qui veulent) Montrer qu’une chaîne de Markov irréductible est
ergodique.
15. Cette définition est encore valable pour les mesures σ-finies.

14
Cette propriété d’ergodicité rend compte de l’indécomposabilité du système, elle sera
fondamentale dans l’étude des systèmes dynamique mesurés. En particulier, on a vu dans
le paragraphe précédent qu’on pouvait choisir une multitude de mesures invariantes par
décalage : en fait, les mesures ergodiques occupent une place particulière dans l’ensemble
des mesures invariantes associée à une transformation donnée.
Théorème 1.14. Soit (X, A , µ, T ) un PPT. Alors l’ensemble des mesures T -invariantes
est convexe dans P(X) 16 et ses points extrémaux sont exactement les probabilités T -
ergodiques.

Preuve : Exercice, voir TD1 ex.4. Savoir refaire.


. La convexité est immédiate : si µ1 et µ2 sont deux probabilités invariantes de X et
t ∈ [0, 1], alors µ = tµ1 + (1 − t)µ2 est encore une probabilité invariante.
. On suppose que µ est ergodique. On montre d’abord que µ1 (et µ2 ) sont ergodiques :
Soit A ∈ A invariant, alors on doit avoir µ(A) = 0 ou µ(A) = 1. Si c’est 0, alors
on a aussi µ1 (A) = 0. Sinon, alors on a 1 = tµ1 (A) + (1 − t)µ2 (A), et donc on doit
aussi avoir µ1 (A) = µ2 (A) = 1 : µ1 est donc ergodique.
. On a maintenant µ1 << µ deux mesures ergodiques. Il faut démontrer qu’elles sont
égales. On montre d’abord qu’elles sont équivalentes : s’il existe A tel que µ(A) > 0
et µ1 (A) = 0, alors A est invariant de mesure supérieure à celle de A et donc
µ(A) = 1 et µ1 (A) = 0. Les mesures sont donc étrangères, ce qui est absurde.
. La dernière étape est la plus délicate : il s’agit de montrer que 2 probabilités ergo-
diques équivalentes sont égales. Pour cela, on supposera que T est bijective. Le cas
général nécessite l’utilisation d’un théorème ergodique que nous verrons ultérieure-
ment.
On note f ∈ L1 (µ) la dérivée de Radon Nykodim de µ1 par rapport à µ. On
veut montrer que f est invariante pp (l’une R ou l’autre des mesures, c’est pareil.).
Alors pour tout A ∈ A , on a µ 1 (A) = A
f dµ. On a aussi µ1 (A) = µ1 (T −1 A) =
−1
R R
RT −1 A f dµ = −1A f ◦ T dµ (T est bijective). Par conséquent,
−1
pour tout A on a
A
(f − f ◦ T )dµ = 0, ce qui montre que f = f ◦ T µ-pp. On en déduit que f
est invariante, donc constante, ce qui termine la preuve dans ce cas.


Corollaire 1.15. Unique ergodicité : lorsqu’il existe une unique mesure invariante,
alors elle est ergodique : on dit que le système (X, A , µ, T ) est uniquement ergodique.

Exercice 9. Déterminer dans les exemples précédents les systèmes uniquement ergo-
diques.
Propriété 1.16. Soit T une transformation mesurable sur (X, A ) et µ et ν deux proba-
bilités T -invariantes. Alors on a :
. Si ν << µ 17 et µ est T -ergodique, alors ν = µ.
16. l’ensemble des probabilités de X
17. Cela signifie que pour tout A ∈ A , µ(A) = 0 =⇒ ν(A) = 0. Dans notre cadre, on peut donc définir
une dérivée de Radon-Nikodym, f ∈ L1 (µ) qui vérifie ν = f µ

15
. Si µ et ν sont T -ergodiques, alors elles sont égales ou étrangères. 18

Preuve : Voir en TD. 

La question de l’existence de mesures invariantes pour un système donné est une question
clé dans l’étude des systèmes dynamiques. Elle sera abordée en seconde partie du cours,
et en cours de systèmes dynamiques.
Nous terminons ce chapitre par l’un des théorèmes star de la théorie ergodique. Il motive
en quelque sorte la terminologie de l’"ergodicité" : comme le théorème des temps de
retours, il permet de mettre en lien la fréquence moyenne des passages dans un ensemble
donné avec la mesure de cet ensemble.
18. On peut trouver A ∈ A tel que µ(A) = 0 et ν(X \ A) = 0

16
1.6 Théorème ergodique ponctuel de Birkhoff
Soit A ∈ A avec µ(A) > 0. Le théorème de récurrence nous dit que T n x revient infiniment
souvent dans A. On s’intéresse maintenant à l’estimation des fréquences des retours dans
A, ce qui revient à s’intéresser au comportement asymptotique pour n grand de
n−1
1X 1
1A (T k x) = Card{k ≤ n − 1; T k x ∈ A}.
n k=0 n

Cette question est intimement liée aux questions de répartition d’une suite dans un en-
semble donné, et permet d’interpréter certaines propriétés d’équidistribution 19 comme
des propriétés dynamiques : c’est l’objet du principe de correspondance de Furstenberg.
Ce point de vue est largement développé et a permis des avancées récentes dans le do-
maine de la théorie analytique des nombres (l’exemple des progressions arithmétiques de
longueur arbitraire dans la suite des nombres premiers en est l’un des plus importants :
ce résultat est dû à B. Green et T. Tao).
Nous commençons par présenter quelques exemples simples :

Exemple 1.3. X = {1, . . . , M } fini T le cycle d’ordre M (i.e. T (i) = i + 1 T (M ) = 1)


µ(i) = 1/M Si A = {1} alors pour tout x ∈ X
n−1
1X k 1n  1
1A (T x) = + O(1) −−−−→ = µ(A)
n k=0 n M n→+∞ M

Exemple 1.4. Cas d’une rotation irrationnelle : question d’équirépartition

Si X = [0, 1] et α ∈
/ Q, alors pour tout intervalle I de X on a
n−1
1X 1
1I (T k x) = Card{k < n, {nα} ∈ I − x} −−−−→ Leb(I − x) = µ(I),
n k=0 n n→+∞

car la suite (nα)n∈N est uniformément distribuée modulo 1.


Preuve : : Utiliser le critère de Weyl. Comment le relier aux propriétés des mesures ?


Exemple 1.5. Variables aléatoires i.i.d .


Si X = ΩN , µ = ρN , T = S le décalage et A = A0 × i>0 Ω, alors
Q

n−1 n−1
1X 1X µ−ps x, L1
1A (T k x) = 1A0 (ωk ) −−−−−−→ ρ(A0 ) = µ(A)
n k=0 n k=0 n→+∞

d’après la loi des grands nombres.


1
19. Une suite (xn )n∈N de [0, 1] est équidistribuée si pour tout intervalle I ⊂ [0, 1], on a n Card{i <
n; xi ∈ I} −−−−−→ Leb(I).
n→+∞

17
Exercice 10. Montrer que la convergence ci-dessus reste valable pour tous les cylindres
pour les systèmes de Bernoulli.

Exemple 1.6. X = X1 ∪ X2 = {1, 2} ∪ {a, b; c} T le cycle d’ordre 2 sur X1 et d’ordre 3


sur X2 . µ(x) = 1/5

On peut facilement vérifier alors que :


n−1  1
1X k si x ∈ X1
. Si A = {1} alors 1A (T (x)) −−−−→ 2
n k=0 n→+∞ 0 si x ∈ X2
n−1 
1X k 0 si x ∈ X1
. Si A = {a} alors 1A (T (x)) −−−−→ 1
n k=0 n→+∞
3
si x ∈ X2

Théorème 1.17. Théorème ergodique ponctuel de Birkhoff.


Soit (X, A , µ, T )un PPT. Pour toute fonction f ∈ L1 (X), les sommes partielles définies
pour tout x ∈ X et pour tout n ∈ N∗ par
n−1
1 1X
Sn f (x) := f (T k (x))
n n k=0

convergent µ-presque partout et dans L1


R vers une
R fonction f ∗ qui est T -invariante et qui
vérifie pour tout A ∈ A T -invariant, A f dµ = A f dµ.

Preuve : Nous verrons dans un premier temps la preuve dans le cas d’une fonction
indicatrice d’un intervalle, pour la convergence presque sûre. Le schéma de preuve suit
celui proposé par M. Keane dans "Ergodic Theory, Symbolic Dynamics, and Hyperbolic
Spaces" (Oxford Science Publications).

18

Vous aimerez peut-être aussi