Académique Documents
Professionnel Documents
Culture Documents
q=1
d(x
(n+q)
, x
(n+q1)
)
q=1
k
n+q1
d(x
(1)
, x
(0)
)
d(x
(1)
, x
(0)
)k
n
_
1 +k + +k
p1
_
d(x
(1)
, x
(0)
)
k
n
1 k
0 quand n + car k < 1.
La suite
_
x
(n)
_
nN
est donc de Cauchy, i.e.:
> 0, n
N; n n
, p 1, d(x
(n+p)
, x
(n)
)
1
Comme E est complet on a donc x
(n)
x dans E lorsque n +. Comme la fonction f est strictement contrac-
tante, elle est continue et on a aussi f(x
(n)
) f(x) dans E lorsque n +. En passant `a la limite dans legalite
x
(n+1)
= f(x
(n)
), on en deduit que f(x) = x.
Etape 2: Unicite
Soient x et y deux points xes de f, qui satisfont donc x = f(x), y = f(y). Alors d(f(x), f(y)) = d(x, y) kd(x, y);
comme k < 1 ceci est impossible sauf si x = y.
Remarque 2 1. Sous les hypoth`eses du theor`eme precedent, d(x
(n+1)
, x) = d(f(x
(n)
), f(x)) kd(x
(n)
, x); donc si
x
(n)
= x alors
d(x
(n+1)
, x)
d(x
(n)
, x)
k < 1. On dit que la methode est au moins lineaire (cette methode converge donc
en general assez lentement).
2. On peut generaliser le theor`eme precedent en remplacant lhypoth`ese f strictement contractante par il existe
n > 0 tel que f
(n)
def
= f f f est strictement contractante (exo).
La question qui se pose alors est: que faire si f nest pas strictement contractante? Pour = 0, on denit f
(x) =
x + g(x), et on remarque que x est solution du syst`eme (1) si et seulement si x est point xe de f
(x). On cherche
des conditions pour que f
(x
(n)
) =
x
(n)
+g(x
(n)
);
Demonstration:
Soit 0 < <
2
M
2
. On veut montrer que f
(x) f
(y)|
k|x y|, (x, y) (R
N
)
2
. Soit (x, y) (R
N
)
2
, alors par denition de la norme euclidienne,
|f
(x) f
(y)|
2
= (x y +(g(x) g(y))) (x y +(g(x) g(y)))
= |x y|
2
+ 2(x y) ((g(x) g(y))) +
2
|g(x) g(y)|
2
.
Gr ace aux hypoth`eses (2) et (3), on a: |f
(x) f
(y)|
2
(1 2 +
2
M
2
)|x y|
2
, et donc la fonction f
est
strictement contractante si 1 2 +
2
M
2
< 1 ce qui est verie si 0 < <
2
M
2
.
Remarque 4 Le theor`eme precedent permet de montrer que sous les hypoth`eses (2) et (3), et pour
_
0,
2
M
2
_
, on
peut obtenir la solution de (1) en construisant la suite:
_
x
(n+1)
= x
(n)
+g(x
(n)
), n 0
x
(0)
R
N
.
(4)
On peut aussi (exo) ecrire cette suite de la mani`ere suivante:
_
x
(n+1)
= f(x
(n)
)
x
(n+1)
=
x
(n+1)
+ (1 )x
(n)
, x
(0)
R
N
.
(5)
Ce dernier procede de construction de la suite est lalgorithme de relaxation sur f.
Quelques rappels et notations de calcul dierentiel
Soit h C
2
(R
N
, R). La fonction h est donc en particulier dierentiable, cad que pour tout x R
N
, il existe
Dh(x) L(R
N
, R) telle que
h(x +y) = h(x) +Dh(x)(y) +|y|(y)
2
o` u (y) 0 quand y 0. On a dans ce cas, par denition du gradient, Dh(x)(y) = h(x) y o` u h(x) =
(
1
h(x), ,
N
h(x))
t
R
N
est le gradient de h au point x (on designe par
i
h la derivee partielle de f par rapport
`a sa i-`eme variable).
Comme on suppose h C
2
(R
N
, R), on a donc g = h C
1
(R
N
, R
N
) et g est contin ument dierentiable, cad
Dg(x) L(R
N
, R
N
) et g(x +y) = g(x) +Dg(x)(y) +|y|(y)
o` u (y) 0 quand y 0.
Comme Dg(x) L(R
N
, R
N
), on peut representer Dg(x) par une matrice de R
N,N
, appelee matrice hessienne
de h, on confond alors lapplication lineaire et la matrice qui la represente dans la base canonique, et on ecrit par
abus de notation Dg(x) R
N,N
. On peut alors ecrire, grace `a cet abus de notation, Dg(x)(y) = Dg(x)y avec
(Dg(x)y)
i
=
j=1,N
2
j,i
h(x) y
j
o` u
2
j,i
h(x) =
j
(
i
h)(x).
Comme h est de classe C
2
(R
N
, R), la matrice Dg(x) est symetrique. Pour x R
N
, on note (
i
(x))
1iN
les
valeurs propres de Dg(x), qui sont donc reelles. Cela permet de justier lhypoth`ese faite dans la proposition ci-dessous.
Proposition 5 Soit h C
2
(R
N
, R), et (
i
)
i=1,N
les valeurs propres de la matrice hessienne de h. On suppose quil
existe des reels strictement positifs et tels que
i
(x) , i {1, ..., N}, x R
N
. Alors la fonction
g = h verie les hypoth`eses (2) et (3) du theor`eme 3 avec = et M = .
Demonstration:
Montrons dabord que lhypoth`ese (2) est veriee. Soit (x, y) (R
N
)
2
, on veut montrer que (g(x) g(y)) (x y)
|x y|
2
. On introduit pour cela la fonction C
1
(R, R
N
) denie par:
(t) = g(x +t(y x)).
On a donc (1) (0) = g(y) g(x) =
_
1
0
(t)dt. Or
_
1
0
|Dg(x +t(y x))| |(y x)|dt,
o` u | | est la norme sur R
N,N
subordonnee `a la norme euclidienne sur R
N
. Puisque la matrice Dg(x + t(y x)) est
symetrique donc normale, on a
|Dg(x +t(y x))| = (Dg(x +t(y x))) .
On a ainsi montre que:
|g(y) g(x)| |y x|,
ce qui termine la demonstration.
Remarque 6 Le theor`eme 1 est constructif dans le sens o` u il fournit un algorithme permettant dapprocher le point
xe. Il existe aussi un theor`eme de point xe dans R
N
avec des hypoth`eses beaucoup plus generales (mais le theor`eme
nest pas constructif ), cest le theor`eme du point xe de Brouwer: si f est une fonction continue de la boule unite de
R
N
dans elle-meme, alors elle y admet un point xe.
3
3 Vitesse de convergence
Denition 7 Soit (x
(n)
)
nN
une suite delements de R
N
et x R
N
. On suppose que x
(n)
x, avec x
(n)
= x pour
tout n N. On dit que:
1. la convergence est au moins lineaire sil existe ]0, 1[ et il existe n
0
N tels que si n n
0
alors x
(n+1)
x
x
(n)
x,
2. la convergence est lineaire si il existe ]0, 1[ tel que
x
(n+1)
x
x
(n)
x
quand n +,
3. la convergence est super lineaire si
x
(n+1)
x
x
(n)
x
0 quand n +,
4. la convergence est au moins quadratique si il existe > 0 et il existe n
0
N tels que si n n
0
alors
x
(n+1)
x x
(n)
x
2
,
5. la convergence est quadratique si
> 0;
x
(n+1)
x
x
(n)
x
2
quand n +.
Remarque 8 La convergence quadratique est evidemment plus rapide que la convergence lineaire.
Proposition 9 Soit f C
1
(R, R); on suppose quil existe x R tel que f(x) = x. On construit la suite
x
(0)
R,
x
(n+1)
= f(x
(n)
).
1. Si on suppose que f
(x) = 0 et |f
= [x , x + ] alors
x
(n)
x lorsque n +, et si x
(n)
= x, alors
|x
(n+1)
x|
|x
(n)
x|
|f
(x) = 0 et f C
2
(R, R), alors il existe > 0 tel que si x
(0)
I
= [x, x+],
alors x
(n)
x lorsque n +, et si x
(n)
= x, alors
|x
(n+1)
x|
|x
(n)
x|
2
=
1
2
|f
(x)|
La convergence est donc quadratique.
Demonstration:
1. Supposons que |f
alors x
(n)
x. Comme
f C
1
(R, R), il existe > 0 tel que = max
xI
|f
).
On va maintenant montrer que f : I
(I
.
Soit x I
: comme f C
1
(R, R), dapr`es le theor`eme des accroissements nis, il
existe ]x, x[ tel que |f(x) x| = |f(x) f(x)| = |f
.
On verie alors que f
|I
; x < y, il existe
]x, y[ I
.
Cherchons maintenant la vitesse de convergence de la suite. On a suppose que f
(x) = 0 et |f
n
]x
(n)
, x[ ou ]x, x
(n)
[, tel que f(x
(n)
) f(x) = f
(
n
)(x
(n)
x). On a donc
|x
(n+1)
x|
|x
(n)
x|
= |f
(
n
)| |f
(x)| car x
(n)
x et f
est continue.
4
On a donc une convergence lineaire.
2. Supposons maintenant que f
(x) = 0 et f C
2
(R, R). On sait dej`a par ce qui prec`ede quil existe > 0 tel que
si x
(0)
I
alors x
(n)
x lorsque n +. Pour estimer la vitesse de convergence, on suppose que x
(n)
= x pour
tout n N.
Dapr`es la formule de Taylor `a lordre 2, il existe
n
]x
(n)
, x[ tel que
f(x
(n)
) f(x) = f
(x
(n)
)(x
(n)
x) +
1
2
f
(
n
)(x
(n)
x)
2
On a donc x
(n+1)
x =
1
2
f
(
n
)(x
(n)
x)
2
ce qui entrane que
|x
(n+1)
x|
|x
(n)
x|
2
=
1
2
|f
(
n
)|
1
2
|f
(x)|
La convergence est donc quadratique.
On va etudier dans la section suivante la methode de Newton dans le cas multidimensionnel. Donnons dabord
lide de la methode dans le cas N = 1 `a partir des resultats de la proposition precedente.
Soit g C
2
(R, R) et x R tel que g(x) = 0. On cherche une methode de construction dune suite (x
(n)
)
n
qui
converge vers x de mani`ere quadratique. On pose
f(x) = x +h(x)g(x)
avec h C
2
(R, R) tel que h(x) = 0, x R. On a donc
f(x) = x g(x) = 0
Dapr`es la proposition precedente, il sut que f
. Or, on a f
(x) = 1 + h
(x)g(x) + g
(x)h(x) et donc f
(x) = 1 + g
(x)
. Ceci est possible si g
(x) = 0.
En resume, si g C
2
(R, R) est telle que g
(x)
.
Dapr`es la proposition precedente, il existe donc > 0 tel que si x
(0)
I
g(x
(n)
)
g
(x
(n)
)
converge vers x de mani`ere au moins quadratique.
Remarquons que la construction de la suite de Newton secrit encore (dans le cas N = 1) g
(x
(n)
)(x
(n+1)
x
(n)
) =
g(x(n)) ou encore g(x
(n)
) +g
(x
(n)
)(x
(n+1)
x
(n)
) = 0.
4 La methode de Newton
Soit g C
1
(R
N
, R
N
) et x R
N
tels que g(x) = 0.
Lalgorithme de Newton secrit maintenant:
_
x
(0)
R
N
Dg(x
(n)
)(x
(n+1)
) x
(n)
) = g(x(n)), n 0.
(6)
A chaque iteration, il faut donc eectuer les operations suivantes:
1. Calcul de Dg(x
(n)
),
2. Resolution du syst`eme lineaire Dg(x
(n)
)(x
(n+1)
x
(n)
) = g(x
(n)
).
Theor`eme 10 (Convergence de la methode de Newton, I) Soient g C
2
(R
N
, R
N
) et x R
N
tels que g(x) =
0. On munit R
N
dune norme . On suppose que Dg(x) est inversible. Alors il existe b > 0 et > 0 tels que
1. si x
(0)
B(x, b) = {x R
N
, x x < b} alors la suite (x
(n)
)
nN
est bien denie par (6)
5
2. si x
(0)
B(x, b) et si la suite (x
(n)
)
nN
est denie par (6) alors x
(n)
x quand n +,
3. si x
(0)
B(x, b) et si la suite (x
(n)
)
nN
est denie par (6) alors x
(n+1)
x x
(n)
x
2
n N.
Pour demontrer ce theor`eme, on va commencer par demontrer le theor`eme suivant, qui utilise des hypoth`eses plus
faibles mais pas tr`es faciles `a verier en pratique :
Theor`eme 11 (Convergence de la methode de Newton, II) Soient g C
1
(R
N
, R
N
) et x R
N
tels que g(x) =
0. On munit R
N
dune norme et R
N,N
de la norme subordonnee. On suppose que Dg(x) est inversible. On
suppose de plus quil existe a, a
1
, a
2
R
+
tels que:
(a) si x B(x, a) alors Dg(x) est inversible et (Dg(x))
1
a
1
,
(b) si x, y B(x, a) alors g(y) g(x) Dg(x)(y x) a
2
y x
2
.
Alors, si on pose b = min
_
a,
1
a
1
a
2
_
> 0, = a
1
a
2
et si x
(0)
B(x, b), on a:
1. (x
(n)
)
nN
est bien denie par (6),
2. x
(n)
x lorsque n +,
3. x
(n+1)
x x
(n)
x
2
, n N.
Demonstration du theor`eme 11:
Soit x
(0)
B(x, b) B(x, a) o` u b a. On va montrer par recurrence sur n que x
(n)
B(x, b) n N (et que
(x
(n)
)
nN
est bien denie). Lhypoth`ese de recurrence est que x
(n)
est bien denie et x
(n)
B(x, b).
Comme b a, la matrice Dg(x
(n)
) est inversible et x
(n+1)
est donc bien denie; on a: x
(n+1)
x
(n)
= Dg(x
(n)
)
1
(g(x
(n)
)).
Pour montrer que x
(n+1)
B(x, b), on va utiliser le fait que b
1
a
1
a
2
.
Dapr`es lhypoth`ese (b) avec y = x et x = x
(n)
, on obtient:
g(x) g(x
(n)
) Dg(x
(n)
)(x x
(n)
) a
2
x x
(n)
2
.
Comme g(x) = 0 et par denition de x
(n+1)
, on a donc:
Dg(x
(n)
)(x
(n+1)
x
(n)
) Dg(x
(n)
)(x x
(n)
) a
2
x x
(n)
2
,
et donc
Dg(x
(n)
)(x
(n+1)
x) a
2
x x
(n)
2
. (7)
Or x
(n+1)
x =
_
Dg(x
(n)
)
1
(Dg(x
(n)
))(x
(n+1)
x), et donc
x
(n+1)
x Dg(x
(n)
)
1
Dg(x
(n)
)(x
(n+1)
x).
En utilisant (7), les hypoth`eses (a),(b) et le fait que x
(n)
B(x, b), on a donc
x
(n+1)
x a
1
a
2
x
(n)
x
2
< a
1
a
2
b
2
. (8)
Or a
1
a
2
b
2
< b car b
1
a
1
a
2
. Donc x
(n+1)
B(x, b).
On a ainsi montre par recurrence que la suite (x
(n)
)
nN
est bien denie et que x
(n)
B(x, b) pour tout n 0.
Pour montrer la convergence de la suite (x
(n)
)
nN
vers x, on repart de linegalite (8) et on en deduit par recurrence
a
1
a
2
x
(n)
x
_
a
1
a
2
x
(n1)
x
_
2
_
a
1
a
2
x
(0)
x
_
2
n
, n N.
Comme x
(0)
B(x, b) et b
1
a
1
a
2
, on a (a
1
a
2
x
(0)
x) < 1 et donc x
(n)
x 0 quand n +. La convergence
est au moins quadratique dapr`es linegalite (8).
Demonstration du theor`eme 10:
On veut se ramener au theor`eme 11, on cherche donc `a verier les hypoth`eses (a),(b). On remarque dabord que
Dg(x) = Dg(x) Dg(x) +Dg(x) = Dg(x)(Id+S) o` u S = Dg(x)
1
(Dg(x) Dg(x)). Or si S < 1, la matrice Id+S
est inversible et (Id +S)
1
(1 S)
1
. Nous allons donc essayer de majorer S. Par denition de S, on a:
S Dg(x)
1
Dg(x) Dg(x).
6
Comme g C
2
(R
N
, R
N
), on a Dg C
1
(R
N
, R
N,N
); donc par continuite de Dg, pour tout > 0, il existe a > 0 tel que
si xx a alors Dg(x) Dg(x) . En prenant =
1
2Dg(x)
1
(t)dt =
1
_
0
Dg(x +t(y x))(y x) Dg(x)(y x)dt.
On a donc
(1) (0) = g(y) g(x) Dg(x)(y x)
1
_
0
Dg(x +t(y x))(y x) Dg(x)(y x)dt
y x
1
_
0
Dg(x +t(y x)) Dg(x)dt.
(9)
Pour majorer Dg(x +t(y x)) Dg(x)), on utilise alors le theor`eme des accroissements nis applique `a Dg.
Rappel (theor`eme des accroissements nis): Soient E et F des espaces vectoriels normes, soient h C
1
(E, F)
et (x, y) E
2
. On denit ]x, y[= {tx + (1 t)y, t ]0, 1[}. Alors: h(y) h(x) y xsup
z]x,y[
Dh(z)
L(E,F)
.
ATTENTION: si dim(F) > 1, on ne peut pas dire, comme en dimension 1, que: ]x, y[ t.q. h(y) h(x) =
Dh()(y x).
On tire donc de (9) que pour x, y B(x, a) et t ]0, 1[:
Dg(x +t(y x)) Dg(x) ty x sup
cB(x,a)
D
2
(g)(c)
L(R
N
,R
N,N
)
.
Comme D
2
g est continue par hypoth`ese et comme B(x, a) est inclus dans un compact, on a
a
2
= sup
cB(x,a)
D
2
(g)(c)
L(R
N
,R
N,N
)
< +
En majorant ensuite dans (9) on montre nalement que lhypoth`ese (b) du theor`eme 11 est satisfaite ce qui termine
la demonstration du theor`eme 10.
Remarque 12 En pratique on ne sait pas facilement estimer le rayon b dans le theor`eme 10 et ceci peut poser
probl`eme lors de limplementation numerique: il faut choisir litere initial x
(0)
susamment proche de x pour avoir
la convergence.
5 Variantes de la methode de Newton
Lavantage majeur de la methode de Newton par rapport `a une methode de point xe par exemple est sa vitesse de
convergence dordre 2. On peut dailleurs remarquer que lorsque la methode ne converge pas, par exemple si litere
initial x
(0)
na pas ete choisi susamment proche de x, alors la methode diverge tr`es vite...
Linconvenient majeur de la methode de Newton est son co ut: on doit dune part calculer la matrice jacobienne
Dg(x
(n)
) `a chaque iteration, et dautre part la factoriser pour resoudre le syst`eme lineaire Dg(x
(n)
)(x
(n+1)
x
(n)
) =
g(x
(n)
). Rappelons que pour resoudre un syst`eme lineaire, il ne faut pas calculer directement linverse de la matrice,
mais plutot la factoriser sous la forme LU par exemple, et on calcule ensuite les solutions des syst`emes avec matrices
7
triangulaires faciles `a inverser. Plusieurs variantes ont ete proposees pour tenter de reduire ce co ut.
Faux quasi-Newton Cette methode consiste `a remplacer le calcul de la matrice jacobienne `a chaque iteration par
un calcul toutes les quelques iterations. On a ainsi moins de factorisations `a eectuer, mais on perd malheureuse-
ment la convergence quadratique: cette methode nest donc pas tr`es utilisee en pratique.
Newton incomplet On suppose que g secrit sous la forme: g(x) = Ax + F
1
(x) + F
2
(x), avec A R
N,N
et
F
1
, F
2
C
1
(R
N
, R
N
). La methode de Newton incomplet consiste `a ne pas tenir compte de la jacobienne de F
2
:
_
x
(0)
R
N
(A+DF
1
(x
(n)
))(x
(n+1)
x
(n)
) = Ax
(n)
F
1
(x
(n)
) F
2
(x
(n)
).
On dit quon fait du Newton sur F
1
et du point xe sur F
2
. Les avantages de cette procedure sont les suivants:
- La methode ne necessite pas le calcul de DF
2
(x), donc on peut lemployer si F
2
nest pas derivable ou encore si
la derivee est dicilement calculable.
- On peut choisir F
1
et F
2
de mani`ere `a ce que la structure de la matrice A+DF
1
(x
(n)
) soit meilleure(par exemple
pour conserver une certaine structure creuse de la matrice A) que celle de la matrice A+DF
1
(x
(n)
) +DF
2
(x
(n)
).
Linconvenient majeur est `a nouveau la perte de convergence quadratique; la methode est cependant assez souvent
emplyee en pratique en raison des avantages enumeres ci-dessus.
Methode de la secante Cest une variante de la methode de Newton dans le cas de la dimension 1 despace. On
veut remplacer le calcul de g
(x
(n)
) par une quantite proche sans calculer g
, la suite (x
(n)
)
nN
construite par la methode de la secante est bien denie, que (x
(n)
)
nN
I
et que x
(n)
x quand n +. De
plus, la convergence est super lineaire et on peut meme montrer que la methode est dordre le nombre dor.
Methode de type Quasi-Newton On peut generaliser la methode de la secante au cas multi-dimensionnel en
remplacant Dg(x) par une matrice B
(n)
susamment proche de Dg(x). Il y a plusieurs facons possibles. Nous en
etudierons certaines dans le cours doptimisation (presente au semestre 2).
8