Vous êtes sur la page 1sur 328

,

ANALVS NUMERIQUE
MATRICIELLE
I'- Cours
• Exercices
Ill- Corrigés détaillés

Luca Amadei
,Jean-Piene 0 edieu
1
•Baccllus2008 ~ - Prot~sion

_
EnJtux ., , dlttoe-nt
~srate91es el
1 1. De la
.ora11<:1uts d.-M <ont~~

--,·-
-'"-
Jati1iere -= cha-n.~emen1 a _ . , . . ... Del
'>ilMl'li('(lle f3dlM
ceraro Rotti.
........ ..
Jean-Pierre -
Coi.ot<e. Mtf'lt L!id'IJl l(uttyQ

. . . .
. -,_
Har'11A.

-
F~nçols

----
GHautMe. ~
Ellenne

.. ...
l.1ontaima

·=·"'"· ·--
- 1
xtJ6rMnctt.1 •IO

....ru!,.fu1>:1r
tJS'f'CfkllOQledu

·~·
Cl fJlmlf:"W
r artklla<:lf
- '
'TlOJons .et

YvanPaquel.
Pascal l.egrP
Elisabelh
Rosnel.
Stéphane
Ru.....

d§tg.!,_,!P@i 4.QJ,,A., 4~.!YM•M$,..falJW~.

-0
0
c
::J
0
CX)
0
0
N
@
~
..c
OI
·c
>-
Cl.
0
u
,
ANALYSE NUMERIQUE
MATRICIELLE
Cours et exercices corrigés

Luca Amadei
Maître de conférences à l'Institut
de Mathématiques de Toulouse

Jean-Pierre Oedieu
Professeur à l'Institut
de Mathématiques de Toulouse

-0
0
c
::J
0
OO
0
0
N
@
......
..c
en
ï::::
>-
a.
0
u

DU NOD
Série« Mathématiques pour le Master/SMAI »

La série« Mathématiques po ur le Master/SMAI >>p ropose une nouvelle génératio n de livres


adaptés aux étudiants de Master niveau M1 et aux élèves ingénieu rs. Leu r adéquation au
cursus LMD et aux outi ls de calcul modernes so nt au service de la qualité scientifique.
La SMAI (Société de Mathématiques Appliquées et Industrielles) assure la direction éd ito-
riale grâce à un comité renouvelé périodiquement et largeme nt re présentatif des différents
t hèmes des mathématiques appliquées et de leu r évolution: analyse numériq ue, probabili -
tés appliquées, statistique, optimisation, systèmes dynamiques et commande, traitement
d'images et du signal, finance, recherche opération nell e, etc. Son ambition est de constituer
un ensemble d'ouvrages de réfé rence.

1llustration de couverture : © Digitalvision

Le pictogramme qui figure ci-contre d'enseignement supérieur, provoquant une


mérite une explication. Son objet est baisse brutale des achats de livres et de
d'alerter le lecteur sur la menace que revues, au point que la possibilité même pour
représente pour l'avenir de l'écrit, les auteurs de créer des œwres
particulièrement dans le domaine DANGER nawelles et de les faire éditer cor-
de l'édition technique et universi- rectement est aujourd'hui menacée.
taire, le développement massif du
photocopillage.
Le Code de la propriété intellec-
tuelle du 1er juillet 1992 interdit
en effet expressément la photoco·
®
LE PHOTOCOPILLAGE
Nous rappelons donc que toute
reproduction, portielle ou totale,
de la présente publication est
interdite sans autorisation de
TUE LE LIVRE l'auteur, de son éditeur ou du
pie à usage collectif sans autori· Centre français d'exploitation du
-0 salien des ayants droit. O r, cette pratique droit de copie (CFC, 20, rve des
0
c s' est généralisée dans les établissements Grands-Augustins, 75006 Paris).
::J
0
OO
0
0
N
@
© Dunod, Paris, 2008
...... ISBN 978-2-10-052085-5
..c
en
ï::::
>-
a. Le Code de la propriété intellectuelle n'au torisant, oux termes de l'article
0
u L. 122-5, 2 ° el 3 ° a), d ' une pari, que les «copies ou reproductions strictement
réservées à l'usage p rivé du copiste et non des tinées à une util isation collective »
et, d'autre part, que les analyses et les cour tes citations dons un but d'exemple et
d ' illustration, « toute représentation ou reproduction intégrale ou partielle faite
sans le consentement de l' auteur ou de ses oyants droit ou ayan ts couse est
illicite » (art. L. 1224).
Cette représentation ou reproduction, par quelque p rocédé que ce soit, constitue-
ra it donc une contrefaçon sanctionnée par les articles L. 335-2 et suivants du
Code de la propriété intellectuelle.
Avant-propos

Ce livre est issu des cours d'analyse numérique matricielle que nous avons ensei-
gnés pendant plusieurs années en licence de mathématique et en licence d'ingénierie
mathématique. Il s'adresse aux étudiants de licence, à ceux de mastère ou préparant
l'agrégation, aux élèves ingénieurs et aux chercheurs confirmés.
Cet ouvrage s'articule autour de quatre thèmes principaux qui sont:

• Les décompositions matricielles,

• La résolution des systèmes d' équations linéaires,

• Le calcul des valeurs propres,

• Le problème des erreurs en algèbre linéaire.

À vrai dire, cette division est informelle et plusieurs thèmes peuvent être abordés au
sein d'un même chapitre.
En rédigeant ce manuscrit, nous avons adopté le point de vue d'un numéricien :
..... pour chaque problème étudié nous décrivons :
-0 ~
0 "O
c c
0
::J ::l
.....
</)
• Les résultats théoriques qui y sont associés,
V
OO V
0 'V
0
N
</)
·;::: • Les problèmes de robustesse et de sensibilité,
@
8
::l
...... ro
..c c
0
• L'algorithmique et les problèmes de complexité,
en c
ï:::: V
>-
a. ·o..
0
• La stabilité des algorithmes.
0 (.)
u 0
0
..c:
o.. Par robustesse et sensibilité nous entendons l'étude locale de la fonction problème -
ro
.....J
1
solution c'est-à-dire l'étude des variations de la solution d'un problème en fonction des
"O
0 variations des données. Elle conduit au concept de conditionnement d'un problème qui
c
::l
0
est un des concepts clé de l'analyse numérique. Le conditionnement est une mesure
@ de la difficulté intrinsèque d'un problème.
vi Avant-propos

Le problème de la stabilité est, quant à lui, lié à l'utilisation d' une arithmétique
de précision finie au lieu de l'arithmétique des nombres réels. Les erreurs que l'on
commet pour calculer la solution d' un problème dépendent alors de l'algorithme
choisi pour mener ce calcul : des algorithmes différents peuvent donner des solutions
(approchées) différentes. La recherche d'algorithmes stables est un souci majeur de
l'analyse numérique.
Nous définissons la complexité d'un algorithme par le nombre d'opérations arithmé-
tiques sur le corps des nombres réels (ou des nombres complexes) que requiert l'algo-
rithme considéré. Un tel modèle continu (modèle Blum-Shub-Smale par exemple) est
cohérent avec l'usage de l'arithmétique virgule flottante.
Nous nous écartons du calcul formel sur ces deux derniers points. En effet, l'usage
de l'arithmétique (exacte) des nombres entiers rend inutile l'étude de la stabilité des
algorithmes, quant aux problèmes de complexité sur des modèles discrets ils font
aussi intervenir la taille des entiers considérés alors que, dans notre modèle, chaque
opération sur les nombres réels compte pour une unité quelle que soit la taille des
nombres ou la nature de l'opération.
Ce livre débute par un chapitre de rappels. Il sert à fixer les notations utilisées
et il contient l'énoncé de théorèmes fondamentaux de l' algèbre linéaire. Les quatre
chapitres suivants (2 à 5) sont consacrés aux normes matricielles, à l'arithmétique
virgule flottante, au conditionnement et au problème des erreurs. On passe ensuite
aux décompositions matricielles : LU, QR, Cholesky, SVD, à leur application à la
résolution des systèmes et au problème des moindres carrés (chapitres 6 à 9). Les deux
chapitres suivants étudient les méthodes itératives pour la résolution des systèmes.
Elles sont fondées soit sur un schéma de type approximations successives (chapitre 10)
soit sur des méthodes de projections sur des espaces de Krylov (chapitre 11). Les
chapitres 12 à 15 sont consacrés aux problèmes de sensibilité des problèmes de valeurs
propres, à leur calcul et à celui des sous-espaces invariants. Les chapitres 16 et 17
présentent des exemples de matrices et de problèmes d'algèbre linéaire : matrices
-0
c
0 classiques, systèmes obtenus via l'approximation d'équations aux dérivées partielles,
::J
0 problèmes industriels et assimilation des données.
CX)
0
0
Chaque chapitre se termine par un paragraphe d' exercices. Certains sont de simples
N
@
applications numériques, d' autres de véritables prolongements du cours. Ces exercices
~
..c
sont corrigés en fin d'ouvrage.
O'I
·c
>-
Cl.
0 Luca Amodei, Jean-Pierre Dedieu, Toulouse, juillet 2007.
u
Table des matières

AVANT-PROPOS v

CHAPITRE 1 • RAPPELS D'ALGÈBRE LINÉAIRE............. . .... . . . .... . .... 1


1 .1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Rang et noyau d'une matrice ................. . ............... 2
1.3 Déterminant. ................................................ 3
1.4 Valeurs propres et vecteurs propres.. . . . . . . .... .. . ... . .. .. . .. . 3
1.5 Sous-espaces caractéristiques et théorème de Cayley-Hamilton 5
1.6 Décomposition de Jordan.. . ... . .. .... . ... . . ... . ... . . . .. . . . .. 6
1.7 Trace ....... . ... .. ... .. ........ .. ... .. ... . ......... . .... . .... 6
1.8 Produit hermitien ....... . ..... . .... . .............. . .... . ..... 7
....
-0 ~
"O
1.9 Produit scalaire. ...... .. ... . ............... . ... .. ........ . ... 8
0
c i::
;:::s
::J
0 .... 1. 10 Matrices unitaires ......... . ................... . .............. 9
CX)
""'
~
~
0 '~
0
N ""'
·c:: 1 .11 Matrices orthogonales . . .. . . . .. . . .. . . . . . . . . . .. . . . . .. . . . .. . . . . 1O
0
@ 'ro='
~
..c i::
1.12 Matrices hermitiennes, symétriques, normales . . . . . . . . . . . . . . . . 1O
0
O'I i::
·c
>-
Cl.
~
·s.. 1 .13 Projections orthogonales. . . . .. . . .. .. . . .. . . .. . . . . . .. . . . .. . . . . . 11
0 0
(.)
u ....00 1 .14 Matrices par blocs .. . .. . . . .. .. . .. . . . .. .. . .. . . . .. . . . . . . . . .. .. . 12
..c:
o..
ro
......l 1.15 Décomposition de Schur ..................................... 15
1
"O
0
i::
;:::s
1 . 16 Notes et références . . . .. . . . .. . . .. . . . .. . . . . .. . . . .. . . . . .. . . . .. . 17
Q
@ EXERCICES. ..... . .. . .... . ... ... ..... . .. . .... . ... ... .......... . ... 19
vii i Table des matières

CHAPITRE 2 • L'ARITHMÉTIQUE« VIRGULE FLOTTANTE» 25


2.1 Les nombres flottants.. . ..... . .... . ... .. ... . .... .. .... . ... .. . 25
2.2 Arrondis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3 L'arithmétique flottante ...... . ................... . ........... 28
2.4 Exemple : le calcul du produit scalaire . . . . . . . . . . . . . . . . . . . . . . . . 28
2. 5 Notes et références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

EXERCICES... . .... . .. . . . . .. . . . ... . ... . . .. . . . . ... . . ... . ... . . . .. . . . 32

CHAPITRE 3 • NORMES SUR LES ESPACES DE MATRICES . . . . . . . . . . . . . . . . . . . . 33

3.1 Norme d'opérateur ... . ................... . .................. 33

3.2 Rayon spectral.. . .... .. ..... . ... . . . . . ... ... . . . ......... . . ... . 35

3.3 La norme spectrale...... . . .... . ... . . . .. . .... . . . ... . ... . . . ... 36

3.4 La norme de Frobenius ....... .. ... . .... . ......... .. ... . .... . . 37


3.5 Le théorème de perturbation de Neumann.. .. . . .... . ... .... .. 39
3.6 Notes et références.......................................... 40
EXERCICES... .. .. . .. . . . . .. .. . ... . . . ... . .... . . ... . ... . . . ... . .... . . 41

CHAPITRE 4 • LA DÉCOMPOSITION EN VALEURS SINGULIÈRES . . . . . . . . . . . . . . 47


4 .1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.2 Calcul des valeurs singulières. ................................ 49
-0
0
c
::J 4 .3 Notes et références...... ...... .... . . .... ... .... ....... . . .... 49
0
CX)
0
0
EXERCICES ... . ......... . .... . .... . .... . .... . ......... . .... . .... . . 50
N
@
~ CHAPITRE 5 • LE PROBLÈME DES ERREURS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
..c
OI
·c
>- 5.1 Introduction. . . . ... . ... .. .. . . . ... . . . ... . ... .. .. . . . . .. . .. .. . .. 53
Cl.
0
u 5.2 Concepts généraux .. . .... ... .. . .. .. . . ... . .... .... . ..... . ... . 55
5.3 Le théorème des fonctions implicites . . . . . . . . . . . . . . . . . . . . . . . . . 57

5.4 Le cas des systèmes linéaires : conditionnement d'une matrice. 61

5.5 Le cas des systèmes linéaires : erreurs inverses ... . ...... . ...... 64
Table des matières ix

5.6 Préconditionnement d'un système linéaire .. . ......... . ....... 64


5. 7 Notes et références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
EXERCICES .... . ........ .. ... . .... . ......... . ......... . .... . .... . . 67
CHAPITRE 6 • PIVOT DE GAUSS ET DÉCOMPOSITION LU . . . . . . . . . . . . . . . . . . . . 69
6.1 Résolution des systèmes triangulaires .............. . .......... 69
6.2 L'élimination de Gauss ....................................... 70
6.3 Décomposition LU .. .. .................. .. .................. . 71
6.4 Pivot partiel, pivot total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
6.5 Complexité. .... . .... . ... .. ... . .. .. . ... .. . ... .. ... . .. .. . .... . 80
6.6 Conditionnement de la décomposition LU. . .. . . . . . ... . .. . ... . 81
6.7 Notes et références. . . . .. . . . .. . . . ......... . .. . . . .. . . .... . ... . 83
EXERCICES. .. . ......... . .... . .... . .... . .... . ......... . .... . .... . . 84

CHAPITRE 7 • MATRICES DÉFINIES POSITIVES ET DÉCOMPOSITION DE


CHOLESKY. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
7 .1 Matrices définies positives. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
7.2 Quadriques et optimisation.. .... . ... .... . .... .... . ...... .. .. 91
7.3 Racine carrée d'une matrice, décomposition polaire..... .. ... . 95
7.4 La décomposition de Cholesky. .... . . . .. . .. . . . .... ... .. . . .... 96
....
-0 ~
"O
7.5 Complexité de la décomposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
0
c i::
;:::s
::J
0 .... 7.6 Conditionnement de la décomposition de Cholesky . . ......... 98
CX)
""'
~
~
0 '~
0
N ""'
·c:: 7. 7 Notes et références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1OO
0
@ 'ro='
~
i::
EXERCICES... . . . .. . . . ....... . . . .. . ... . .. . ................ . . . .. . . . 101
..c 0
O'I i::
·c
>-
Cl.
~
·s.. CHAPITRE 8 • LA DÉCOMPOSITION QR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
0 0
(.)
u ....00
..c:
8.1 Matrices de Stiefel.. .... . .... . .... . .... . .... . ......... . ... .. . 107
o..
ro
......l 8.2 Décomposition QR ..................................... . ..... 108
1
"O
0
i::
;:::s
8.3 L'orthonormalisation de Gram-Schmidt ..... . ................. 109
Q
@ 8.4 Rotations de Givens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
X Table des matières

8.5 La méthode de Householder................ . ......... . ...... 116


8.6 Réduction à la forme de Hessenberg .... ... ....... . ........ .. . 121
8. 7 Tridiagonalisation d'une matrice hermitienne . . .... . ........ .. . 124
8.8 L'algorithme d'Arnoldi ...... . ......... . ... . .... .. ........ . ... 125
8.9 L'algorithme de Lanczos... . . .... .. . ... .. . ... .... . ....... ..... 129
8.10 Conditionnement de la décomposition QR . . . . . . . . . . . . . . . . . . . . 132
8. 11 Notes et références. ........... . ......... . .................. . 137
EXERCICES ....................................................... 138

CHAPITRE 9 • INVERSES GÉNÉRALISÉS ET MOINDRES CARRÉS . . . . . . . . . . . . . . . 141


9.1 Inverses généralisés. . . . . . .. . . . .. . . . .. . . . .. . . . .. . . .. ... .. . . . . . 141
9.2 Moindres carrés . ... . ... . . .. . . . . .. . . . ... . ... . . ... . . . .. . . . ... . 146
9.3 Problèmes surdéterminés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
9.4 Etude d'un exemple : l'équation AX = B..................... 154
9.5 Notes et références ...................... . .................. . 155
EXERCICES .................. . .... . ... .. ...... . .. . . . .. . .. .... ..... 156

CHAPITRE 10 •MÉTHODES ITÉRATIVES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161


10.1 Résultats généraux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
10.2 Choix d'un test d'arrêt.. .............. . ...................... 164
-0
c
0 10.3 Exemples de méthodes itératives. ...... . ..... . .... . ........ . . 166
::J
0
CX)
10.4 Convergence des méthodes itératives .. ... ... . .. . . . . .. . . ... ... 168
0
0
N 10.5 Exemples.. . . . ... . ... .. .. .. . . .. . . . .. .. ... .. .. . .. . .. . .. . . . ... . 173
@
~
..c
OI
10.6 Méthodes itératives et préconditionnement. ...... . ........ .. . 174
·c
>-
Cl. 1O.7 Notes et références. ............ . .... . ........ . .............. 175
0
u
EXERCICES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

CHAPITRE 11 • MÉTHODES DE PROJECTION SUR DES SOUS-ESPACES


DE KRYLOV... . .... . ... .. .... . . . .... . .. . . . . . .. . .... . . . .. . . 181
11.1 Structure générale d'une méthode de projection . . . . . . . . . . . . . . 182
Table des matières xi

11.2 Espaces de Krylov et réduction de Hessenberg . . . . . . . . . . . . . . . . 182

11.3 La méthode GMRES. . .... .. .... . .. . . .... . .. .. . ... . . . ... . .... 185

11.4 La méthode du gradient conjugué ... . ........................ 188

11.5 Analyse d'erreur ......... . .... . ... .. ........ . .... . .... . ...... 195
11.6 Notes et références. .... .... . . ...... . ...... . . .... .. . ... .. .... 199
EXERCICES ....................................................... 201

CHAPITRE 12 •VALEURS PROPRES : SENSIBILITÉ.. . . . .. . . . . . .. . .... . .... . .. . 203


12. 1 Le théorème de Gershgorin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
12 .2 Le théorème d'Elsner.... .. ... ..... . . ... . ... .. . . ... . ... . . ... . 204
12.3 Sensibilité via le théorème des fonctions implicites . . . . . . . . . . . . 206

12.4 Notes et références.......................................... 21 O

EXERCICES.. . . .. ............... .. . . ..... . ..... .... . .. . . ...... . .. . 211

CHAPITRE 13 •SOUS-ESPACES INVARIANTS.... . .... . .... . . . .. . . . .... . .... . 213


13.1 Sous-espaces invariants, simples, complémentaires ............ 213

13.2 Forme réduite... . .... .... .... . ...... . .. . . .... .... . ...... . . . . 216

13.3 Équation de Sylvester . . .... . .. . .... . ... . .. . .... . .. . . . .... ... . 217
13.4 Diagonalisation par blocs d'une matrice . . . . . . . . . . . . . . . . . . . . . . 220

EXERCICES .... . ......... . ... . .... .. ........ .. ... . .... .. ........ . . 222
....
~
-0
0 "O CHAPITRE 14 •LE CALCUL DES VALEURS PROPRES...... . ......... . ......... 225
c i::
;:::s
::J
....
0
CX)
""'
~ 14.1 La méthode de la puissance...... . .. . . .... . . .. . ...... . . . ..... 225
~
0 '~
0
N ""'
·c::
0
14.2 Itération de sous-espaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
@ 'ro='
~
..c i::
0
14.3 La méthode QR.. ........ . ......... .. ......... . ........ .. .... 236
O'I i::
·c ~
>-
Cl. ·s.. 14.4 Le cas des matrices réelles... . . . . .. . ... . . . ... . .... . . . .. . . .... . 241
0 0
(.)
u ....00
..c:
14.5 L'utilisation de la forme Hessenberg . . . . . . . . . . . . . . . . . . . . . . . . . . 242
o..
ro
......l 14.6 La stratégie du décalage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
1
"O
0
i::
;:::s
14. 7 Remarques finales.. . . .. . . . . .. . ...... . .. . . .. . . . . .. . ...... . . . . 246
Q
@ 14.8 Notes et références. .. . . ... .... . ....... . .... ... .... . ....... . . 247
xii Table des matières

EXERCICES ........ .. ........ . ......... . ......... . ......... . ...... 249

CHAPITRE 15 •MÉTHODES DE PROJECTION POUR LE PROBLÈME DES VALEURS


PROPRES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 51
15.1 Principe d'une méthode de projection pour le problème des
valeurs propres.. .... . .. . .... . ... .... . . ....... . ... ..... ... . .. 251
15.2 Méthode de projection sur des sous-espaces de Krylov. ...... . 253
15.3 Notes et références .......................................... 256
EXERCICES . . .. .... . . . .. . . . . .. . . . . . ... . . . . ... .. . . . .. . . . . .. . . . .. . . . 257

CHAPITRE 16 • EXEMPLES DE SYSTÈMES LINÉAIRES . . . . . . . . . . . . . . . . . . . . . . . . . 2 59


16.1 Le problème de Poisson discrétisé par différences finies... .. ... 259
16.2 Le problème de Poisson sur un carré discrétisé par différences
f1n1es.... . . .... . ......... . ......... . ......... . .... . ... .... . . . 261
16.3 Le problème de Poisson discrétisé par éléments finis........... 262
16.4 La matrice de Vandermonde . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264
16.5 La matrice de Fourier. . .. . . . .. . . . . .. . .. . . . . .. . . . .. . . . . .. . . . .. 265
16.6 Système linéaire associé à la spline cubique d'interpolation . . . . 267
16.7 Notes et références.......................................... 268
EXERCICES . . . . ....... ...... . . .... . ...... ..... . . . . .... . ...... . . .. . 270

CHAPITRE 17 •GAUSS-NEWTON ET l:ASSIMILATION DES DONNÉES.. .... . ... . 271


-0
c
0 17. 1 La méthode de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
::J
0 17.2 Gauss-Newton et moindres carrés. . . .. .. .. ... . . .. . . . . .. . . . .. . 272
CX)
0
0
N 17.3 Le problème de l'assimilation des données . . . . . . .. . . . . ... ... . . 273
@
~
..c
OI
·c
CORRIGÉS DES EXERCICES 281
>-
Cl.
0
u BIBLIOGRAPHIE 309

INDEX 313
Chapitre 1

Rappels d'algèbre linéaire

1.1 NOTATIONS
Ce paragraphe a pour but de fi xer les notations qui sont utilisées tout au long de ce
livre.

• L' espace des matrices complexes (resp. réelles) à m lignes et n colonnes est
noté C/1!XI! (resp. JRl1!Xll). Pour une matrice A = (aij ) E cmxn , i est l'indice de
la ligne et j celui de la colonne.

• 011111 E cm x n (aussi notée 0) est la matrice nulle et l n E cnx n est la matrice


identité.
-0
0 • Les vecteurs X E C11 (resp. X E R 11 ) sont identifiés à des matrices n X 1
c
::J
0
donc à des vecteurs-colonne 1. Avec cette convention, A E cm Xn s'identifie à
CX)
0
l'application linéaire A : en
~ cm qui à X E en
associe le produit matrice-
0
N vecteur Ax E cm .
@
~
..c
OI
• Lorsqu'unematriceA apourcolonnes ai, 1 ( i ( n,onlanoteA = (a 1 • • • a,i).
·c
>-
Cl.
0
• Soient A E cmxn et les indices 1 ( i 1 < i2 < ... < i p ( met l ( j , <
u h < .. . < jq ( n. Alors, la matrice de taille p x q constituée par les éléments
aux intersections des lignes 1 ( i 1 < i2 < . . . < i P ( m et des colonnes

1. Suivant un usage déjà ancien les mots composés vecteur-colonne, vecteur-ligne, matrice-colonne,
matrice-ligne sont unis par un trait d' union ; ils font leur pluriel en vecteurs-colonne . .. sur le modèle de
timbres-posle.
2 1 • Rappels d'algèbre linéaire

1 (Ji < }2 < ... < }q ( n de A est appelée sous-matrice de A. Autrement


dit, une sous-matrice de A est obtenue en supprimant dans A un certain nombre
de lignes et de colonnes.

• Pour toute matrice A E cmxn et les entiers p , q , r , s tels que 1 ( p ( q ( m,


1 ( r ( s ( n on note A(p : q, r : s) la sous-matrice de A de terme général
aiJ, p ( i ( q, r ( j ( s. De telles sous-matrices sont parfois qualifiées de
«contigües».

• Pour tout vecteur a E cm, a(p : q) est le sous-vecteur de a de coordonnées ai,


p ( i ( q.

• Une matrice (pas nécessairement carrée) est triangulaire supérieure si aiJ = 0


pour i > j, triangulaire inférieure si aiJ = 0 pour i < j et diagonale si aiJ = 0
pour i =J j.

• Une matrice diagonale D est notée D diag(di) où les di sont les entrées
diagonales .

• Soit A = (aij) E cmxn _ On note A T E cn xm la transposée de A et A * =


A T E cnxm son adjointe: AT = (aj;) et A*= (aj;) (conjuguée et transposée).

• GL11 (C) (resp. GL11 (1R.)) ou plus simplement GL11 est l'ensemble des matrices
A E C 11Xn (resp. A E JR.nXn ) qui sont inversibles. C'est un groupe pour la
multiplication des matrices appelé groupe linéaire. Les notations A -T et A -*
(inverse de la transposée et inverse de l'adjointe) ne sont pas ambigües parce
que (A T) - 1 = (A- 1)r, de même pour A * .

1.2 RANG ET NOYAU D'UNE MATRICE


-0
0
c
::J
0
Étant donné une matrice A E cmxn' l' image par A d'un vecteur X E C 11 est le vecteur
CX) Ax = I:;1
= I X;Q; Ecm où les a; sont les colonnes de A. L'image de A est définie par

t
0
0
N
@
~
..c lm A = { Ax : x E IC"} = { x;a; : x E IC" } .
OI
·c
>-
Cl.
0
u C'est un sous-espace vectoriel de cm engendré par les vecteurs-colonne de A. Sa
dimension est le rang de A. Le rang de A est donc le nombre maximum de vecteurs-
colonne indépendants de A.
Une caractérisation utile du rang est la suivante : rang A = r si et seulement
s'il existe dans A une sous-matrice carrée r x r de déterminant non nul et si toute
sous-matrice carrée s x s avec s > r a un déterminant égal à O.
1.3 Déterminant 3

Cette caractérisation montre que

rang A = rang A T = rang A * .

Le noyau de A est le sous-espace vectoriel

Ker A = {x E <C11 : Ax = 0} .

Le rang et la dimension du noyau de A sont reliés par la formule célèbre :

rang A+ dimKer A = n.

1.3 DÉTERMINANT
• Le déterminant d'une matrice A E <C11 xn est une forme multilinéaire alternée
des colonnes de A, on le note <let A.

• det / 11 = 1,

• Le déterminant d'un produit de matrices est le produit de ses déterminants :


det(AB) = <let A det B ,

• detA = detA T,

1
• A est inversible si et seulement si <let A -=/= 0, dans ce cas det(A - ) = 1/ <let A ,

.... • Si deux matrices sont semblables elles ont même déterm inant.
-0 ~
0 "O
c i::
;:::s
::J
0 ....
CX)
""'
~
~
1.4 VALEURS PROPRES ET VECTEURS PROPRES
0 '~
0
N ""'
·c::
@
0 • On appelle valeur propre d' une matrice A E <C11 x 11 toute racine du polynôme
'ro='
~
..c i::
caractéristique
0
O'I i::
·c ~ PA(À) = det(A - A/ 11) = O.
>-
Cl. ·s..
0
0 (.)
u ....00 La multiplicité algébrique d'une valeur propre est sa multiplicité en tant que
..c:
o.. racine de l'équation caractéristique. Lorsque l'on parle de multiplicité d' une
ro
......l valeur propre c'est de la multiplicité algébrique dont il s'agit.
1
"O
0
i::
;:::s
Q
• L'ensemble des valeurs propres de A est appelé le spectre de A et se note
@ spec A .
4 1 • Rappels d'algèbre linéaire

• On appelle vecteur propre de A associé à la valeur propre À tout vecteur non


nul X E e 11 vérifiant Ax = À X . La réunion du vecteur 0 et des vecteurs propres
associés à la valeur propre À est un sous-espace vectoriel E A de en appelé sous-
espace propre associé à À. Sa dimension dim EA est la multiplicité géométrique
de À. Elle est toujours inférieure ou égale à la multiplicité algébrique.

• Deux matrices A , B E c nxn sont semblables lorsqu'il existe une matrice


P E GILn(e) telle que A = P sp -i.

• Une matrice A E enxn est diagonalisable lorsqu'elle est semblable à une


matiice diagonale, c' est-à-dire s'il existe des matrices D E en xndiagonale et
P E GIL,i(e) telles que
A = PDP- 1 •

Dans ce cas, écrivons D = diag(Àï) où les À i sont les valeurs propres de A ;


on peut prendre pour P une matrice dont les colonnes Pi, ... , p 11 E en sont
indépendantes et où Pi est un vecteur propre associé à À i.

• Une matrice A E enxn est diagonalisable si et seulement si en possède une


base de vecteurs propres de A ou encore lorsque, pour toute valeur propre À de
A, les multiplicités algébrique et géométrique de À sont les mêmes.

• Lorsque A E R 11 x n, que les valeurs propres de A sont réelles et que A est


diagonalisable, il existe une base de Rn faite de vecteurs propres et l 'on peut
prendre P E GIL,1 (R).

Proposition 1.1 Pour toute matrice A E en X n' on a les propriétés


suivantes:
-0
0 l. Les valeurs propres de A - µ,!11 sont les scalaires À - µ,, À E spec A ,
c
::J
0 2. Les valeurs propres de A k, k ): 0, sont les Àk, À E spec A, et, plus généra-
CX)
0 lement, pour tout polynôme p(x ), les scalaires p(À), À E spec A, sont les
0
N valeurs propres de p(A) (dé.finition paragraphe 1.5),
@
1 1
~
..c 3. Lorsque A est inversible, les valeurs propres de A - sont les scalaires À - ,
O'I
·c À E spec A,
>-
Cl.
0
u 4. Le déterminant de A est le produit des valeurs propres de A, chacune comp-
tée autant de fois que sa multiplicité algébrique :

det A = nA; Espec A Àri'


où mi est la multiplicité algébrique de Ài.
1.5 Sous-espaces caractéristiques et théorème de Cayley-Hamilton 5

• Une matrice A E <C11 xn est triangularisable lorsqu'elle est semblable à une


matrice triangulaire supérieure, c'est-à-dire s'il existe une matrice P E cnxn
inversible et une matrice T E <C11 X n triangulaire supérieure telles que A =
PTP - 1•

• Nous verrons ci-dessous (décomposition de Jordan, décomposition de Schur)


que toute matrice A E <C11 X n est triangularisable.

• Lorsque A E cnx n s' écrit A = PT p - I avec T triangulaire supérieure, la


diagonale de T contient les valeurs propres de A.

1.5 SOUS-ESPACES CARACTÉRISTIQUES ET THÉORÈME DE


CAYLEY-HAMILTON

À tout polynôme complexe P(z) = ao + a1z + ... + adzd et à toute matrice A E <C11 on
associe le polynôme matriciel

On dit qu'un polynôme P(z ) est un polynôme annulateur de A E <C11 x 11 lorsque


P(A) = O.

Théorème 1.2 (Cayley-Hamilton) Le polynôme caractéristique de A est un polynôme


annulateur de A: PA(A) = O.
Définition 1.3 (Sous-e.~1Jaces caractéristiques) Soit A E <C11 xn . Écrivons son poly-
nôme caractéristique

.... q
-0 ~ PA(À) = det(A - Àln) = IT(Ài - Ayn;
0 "O
c i::
;:::s i = .1
::J
0 ....
CX)
""'
~
~
0
0
'~ où les valeurs propres Àï, 1 ~ i ~ q, sont deux à deux distinctes, de multiplicité
""'
·c::
N
0 algébrique mi avec m 1 + ... + mq = n. Les sous-espaces caractéristiques de A sont
@ 'ro='
~
..c i::
les ensembles
0
O'I
·c i::
~
Ei = Ker (Ai In - A)111i .
>-
Cl. ·s..
0
0
u
(.)

....00 Théorème 1.4 (Décomposition en sous-espaces caractéristiques) Les sous-espaces


..c:
o.. caractéristiques de A vérifient les propriétés suivantes :
ro
......l
1
1. Ei est un sous-espace de <C11 de dimension mi,
"O
0
i::
;:::s
2. AEi c Ei,
Q
@ 3. <C 11 = E 1 El1 ... El1 Eq.
6 1 • Rappels d'algèbre linéaire

1.6 DÉCOMPOSITION DE JORDAN

Théorème 1.5 (Décomposition de Jordan) Pour toute matrice A E cnxn, il existe une
matrice P E GlLn(C) et une matrice J E cn x n telles que A = P J p - i et où J a la
structure diagonale par blocs suivante :

] =

Chaque bloc diagonal h E C 11kxnk (n1 + . . . + np = n) est soit du type h = Àk l nk'


c'est-à-dire un multiple de l'identité, soit du type h = À k l nk + N,, k, où N 11k E C 11kxnk
est la matrice nilpotente
0 1
0 1
0
1
0
Les scalaires A1 , ... , À p (qui ne sont pas nécessairement distincts) sont les valeurs
propres de A :
spec A = { À1. .. , À P} .

1.7 TRACE
• La trace d' une matrice carrée A E cnxn est la somme de ses entrées diago-
-0
c
0 nales: Il
::J
0
CX)
0
trace A = L aii·
0 i= L
N
@ • Pour deux matrices M E cmxn et N E cn xm on a
~
..c
O'I
·c trace (MN) = trace ( N M)
>-
Cl.
0
u de sorte que, pour toute matrice A E cnxn et P E GlL11 ,

trace (P- 1AP) = trace A.

• La trace de A est égale à la somme des valeurs propres de A comptées avec


leur multiplicité (cela se prouve en écrivant A = PT p - I avec T triangulaire).
1.8 Produit hermitien 7

1.8 PRODUIT HERMITIEN


• Un produit hermitien sur un espace vectoriel complexe E est une application
(., .) : E x E --+ e qui vérifie les propriétés suivantes :
1. Pour tout y E E, l'application x E E --+ (x, y) E e est linéaire,
2. Pour tout x, y E E, (x, y) = (y, x),
3. Pour tout x E E, (x , x) ~ 0,
4. Pour tout x E E , (x,x) = 0 si et seulement six = O.
Un espace vectoriel complexe E muni d'un produit hermitien est appelé espace
préhilbertien complexe~ si de plus E est de dimension finie on dit que c'est un
espace hermitien.

• Un exemple fondamental d'espace hermitien est donné par


Il

E= e 11
, (x, y) = L Xi Yi·
i =I

Avec les notation matricielles, x et y sont des vecteurs-colonne et

(x,y)=y*x

en identifiant la matrice y* x E e 1x 1 au scalaire correspondant. Attention, xy *


est une matrice n x n !
1
• Lorsque (x, y) est un produit hermitien sur E, llx Il = (x, x) 2 est une norme
sur E et
1(x,y)1 !( llxllllYll
....
-0 ~ avec égalité si et seulement si x et y sont colinéaires (inégalité de Cauchy-
0 "O
c i::
;:::s Schwarz).
::J
0 ....
""'
~
CX)
0
0
~
'~ • Lorsque E =en est muni du produit hermitien canonique, la norme associée
N ""'
·c::
0 est notée
@ 'ro=' Il
2
~
..c
O'I
·c
i::
0
i::
~
llxll2= L lxï l -
>-
Cl. ·s..
0
i= l
0 (.)
u ....00
..c:
• Soient E et F deux espaces hermitiens. L'adjoint d' un opérateur linéaire L :
o..
ro E --+ Fest l' unique opérateur linéaire L * : F --+ Etel que
......l
1
"O
0
i::
;:::s
(Lx,y)F = (x, L *y)E
Q
@ pour tout x E E et y E F.
8 1 • Rappels d'algèbre linéaire

• Lorsque E = C 11 et F = cm sont munis de leur structure hermitienne cano-


nique, l'adjoint de l'opérateur défini par une matrice A E cmxn
est l'opérateur
défini par la matrice adjointe A* = AT.

• Lorsque L est un endomorphisme de E, on dit que L est hermitien lorsque


L * = L c'est-à-dire si
(Lx ,y)E = (x, Ly)E
pour tout x, y E E.

• Lorsque E = C'Z, l'opérateur défini par une matrice A E C 11 xn est hermitien


lorsque la matrice A est hermitienne c'est-à-dire lorsque A * =A.

1.9 PRODUIT SCALAIRE


• Un produit scalaire sur un espace vectoriel réel E est une application (., .) :
E x E ----+ lR qui vérifie les propriétés suivantes :
l. Pour tout y E E , l' application x E E ----+ (x, y) E lR est linéaire,
2. Pour tout x, y E E, (x, y) = (y, x),
3. Pour tout x E E , (x, x) ;;?: 0,
4. Pour tout x E E , (x,x) = 0 si et seulement six = O.
Un espace vectoriel réel E muni d ' un produit scalaire est appelé espace pré-
hilbertien; si de plus E est de dimension finie on dit que c'est un espace
euclidien.

• Le produit scalaire canonique sur E = JR11 est donné par


Il

-0
c
0 (x, y)= L XiYi·
::J i= l
0
CX)
0
0
Avec les notation matricielles, x et y sont des vecteurs-colonne et
N
@
~
..c
O'I
·c
>-
Cl.
en identifiant la matrice yr x E lR 1x 1 au scalaire correspondant.
0
u l
• Lorsque (x, y) est un produit scalaire sur E , llx Il = (x, x) 2 est une norme sur
E et
(x, y) ~ llxllllYll
1 1

avec égalité si et seulement si x et y sont colinéaires (inégalité de Cauchy-


Schwarz).
1.10 Matrices unitaires 9

• Lorsque E = R 11 est muni du produit scalaire canonique, la norme associée est


notée, comme dans le cas complexe,
Il

llxll2= L lxi l2·


i= I

• Soient E et F deux espaces euclidiens.L'adjoint d'un opérateur linéaire L :


E ~ Fest l'unique opérateur linéaire L * : F ~ Etel que

(Lx, y) F = (x, L *y) E


pour tout x E E et y E F.

• Lorsque E = R 11 et F = R 111 sont munis de leur structure euclidienne cano-


nique, l'adjoint de l'opérateur défini par une matrice A E Rmxn est l'opérateur
défini par la matrice transposée AT .

• Lorsque L est un endomorphisme de E, on dit que L est symétrique lorsque


L * = L c'est-à-dire si
(Lx ,y)E = (x,Ly)E
pourtout x,y E E.

• Lorsque E = R11 , l'opérateur défini par une matrice A E R 11 x 11 est symétrique


lorsque la matrice A est symétrique c'est-à-dire si AT = A.

1.10 MATRICES UNITAIRES


• Une matrice V E <C11 x 11 est unitaire lorsqu'elle conserve le produit hermitien
.... de <C11 :
-0
0
~
"O (Ux , Uy) = (x,y)
c i::
::J
0
;:::s
....
""'
~
pour tout X, y E e 11

CX)
~
0
0
N
'~

""'
·c::
0
• une matrice V E en
X Il est unitaire si et seulement si V * V = V V * = In .

@ 'ro=' L'ensemble de ces matrices est un sous-groupe (pour la multiplication) du


~
..c
O'I
i::
0 groupe linéaire GLn(e) : c 'est le groupe unitaire, il est noté lUn .
i::
·c ~
>-
Cl. ·s..
0 • Une matrice V est unitaire si et seulement si les vecteurs-colonne de V consti-
0
u
(.)

....
0
0
..c:
e
tuent une base orthonormée de 11 pour le produit hermitien canonique.
o..
ro
......l • Les valeurs propres d'une matrice unitaire sont des nombres complexes de
1
"O
0
module 1. Le déterminant d'une telle matrice est aussi un nombre complexe de
i::
;:::s module 1. Les matrices unitaires dont le déterminant est égal à 1 constituent un
Q
@ sous-groupe de lUn appelé groupe spécial unitaire. Il est noté §1U11 •
10 1 • Rappels d'algèbre linéaire

1.11 MATRICES ORTHOGONALES


• Une matrice U E R 11 x 11 est orthogonale lorsqu'elle conserve le produit scalaire
de JR.11 :
(Ux, Uy) = (x, y)
pour tout x, y E JR.11 •

•u E est orthogonale lorsque uTu = uuT = In· Une matrice est


JRllXll

orthogonale si elle est à la fois réelle et unitaire. Ces matrices constituent un


sous-groupe (pour la multiplication) du groupe linéaire GL11 (R) appelé groupe
orthogonal et noté On .

• Une matrice U E JR.11 XII est orthogonale si et seulement si ses vecteurs-colonne


constituent une base orthonormée de JR.11 pour le produit scalaire canonique.

• Les valeurs propres d'une matrice orthogonale sont des nombres complexes de
module 1. Le déterminant d'une telle matrice est égal à 1 ou - 1. Les matrices
orthogonales dont le déterminant est égal à 1 constituent un sous-groupe de ((])11
appelé groupe spécial orthogonal ou groupe des rotations. Il est noté §((])n ·

1.12 MATRICES HERMITIENNES, SYMÉTRIQUES, NORMALES


• Les matrices hermitiennes ou syméttiques réelles possèdent la propriété fonda-
mentale suivante :

Théorème 1.6 (Théorème spectral) Si A E cnxn est hermitienne (resp. symé-


trique réelle) alors
1. Les valeurs propres de A sont réelles,
-0
c
0
::J
2. en (resp. Rn) possède une base orthonormée constituée de vecteurs propres
0 de A.
CX)
0 Ces deux propriétés sont équivalentes à la suivante :
0
N
@ 3. Il existe une matrice diagonale réelle D E JR.11 X 11 et une matrice unitaire
~
..c (resp. une matrice orthogonale) U telles que A = U DU*.
O'I
·c
>-
Cl.
0
• Une matrice A E cnxn est normale lorsque A A* = A* A. Pour une matrice
u A E JR.11 x 11 cette condition devient A AT = AT A. Ces matrices possèdent la
caractérisation suivante :

Théorème 1.7 A E est normale si et seulement si


(['.ll XI! en
possède une base
orthonormée constituée de vecteurs p ropres de A , c'est-à-dire s'il existe une
matrice diagonale D E C 11 x 11 et une matrice unitaire U telles que A= U DU*.
1.13 Projections orthogonales 11

Les matrices hermitiennes, les matrices unitaires, les matrices réelles et antisy-
métriques (AT = - A) sont des matrices normales.

1.13 PROJECTIONS ORTHOGONALES


• Soit E un espace vectoriel réel ou complexe. On appelle projecteur un endo-
morphisme p de E qui vérifie p o p = p . L'espace E se décompose alors en
somme directe

E = F œG avec F = lm p , G = Ker p.

De plus
p(y) =y pour tout y E F ,
p(y ) = 0 pour tout y E G.
On dit aussi que p est la projection sur F parallèlement à G.

• Lorsque E est un espace hermitien ou euclidien et que p est un projecteur


hermitien, c'est-à-dire lorsque

p op = pet p * = p ,

on a Ker p = (lm p )..L de sorte que

E= F œG avec F = lm p et G = F ..L .
....
-0 ~
"O
c
0
i::
p est appelé la projection orthogonale de E sur F et noté p = IlF
;:::s
::J
0 ....
CX)
""'
~

0
~
'~ • Pour tout x E E la projection orthogonale de x sur F est l' unique vecteur
0
N ""'
·c::
0 y E F qui rende minimum la distance de x à F:
@ 'ro='
~
..c i::
O'I
·c
0
i::
~
y E F et llx - Yll = min llx -
zE F
zll -
>-
Cl. ·s..
0
0 (.)
u ....00
..c:
o.. • Lorsque E = <C11 et que F est le sous-espace vectoriel engendré par r vecteurs
ro
......l indépendants Yi, 1 ~ i ~ r , la matrice de Ilp est égale à Y(Y * Y)- 1Y* avec
Y = (y 1 ... Yp ) (l'inversibilité de la matrice Y* Y est prouvée au théorème
1
"O
0
i::

Q
;:::s 7 .2, voir aussi la remarque 7 .1). Si les vecteurs Yi sont orthonormés, alors
@ IlF = YY * .
12 1 • Rappels d'algèbre linéaire

1.14 MATRICES PAR BLOCS


1.14.1 Définition
Une matrice par blocs M = (Mij), 1 ~ i ~ m, 1 ~ j ~ n, est une matrice dont les
entrées Mij sont des matrices au lieu d'être des scalaires. On doit toutefois respecter
les deux règles suivantes :

• Toutes les matrices d'une même ligne (Mij avec 1 ~ j ~ n) ont le même
nombre de lignes,

• Toutes les matrices d'une même colonne (Mij avec 1 ~ i ~ m) ont le même
nombre de colonnes.

Ainsi, il existe des nombres entiers mi et n j tels que Mij E cm; Xllj .
On étend aux matrices par blocs les concepts de matrice diagonale, de matrice
triangulaire supérieure ou de matrice triangulaire inférieure :

• M = (Mi.i) est triangulaire supérieure par blocs si Mij = 0 pour i > j,

• M est triangulaire inférieure par blocs si Mij = 0 pour i < j,

• M est diagonale par blocs si Mij = 0 pour i =1- j.

1.14.2 Produit par blocs


Donnons-nous deux matrices par blocs :

• M = (Mij ), 1 ~ i ~ m, l ~ j ~ n où Mij E cm; Xllj'

-0
0
c
::J
0
CX)
0
Tous les produits Mik Nkz sont bien définis et Mik Nkl E cm; X Pt . Le produit par blocs
0
N des matrices M et N est défini par :
@
~ Il
..c
OI
·c
>-
Cl.
MN= ((MN)u), 1 ~ i ~ m, 1 ~ l ~ p avec (MN)u = L MikNkz ·
0 k= I
u
La propriété essentielle de ce produit est qu'il coïncide avec le produit usuel; c'est
la raison pour laquelle on les note tous deux de la même manière. Toutefois, il faut
prendre garde à la non-commutativité du produit MikNkz et respecter l'ordre de ces
facteurs.
Etudions un exemple : prenons
1.14 Matrices par blocs 13

• M = ( ~ ~ n ~n = ( où A = ( ~ ~ ) E ~2 x 2 et où l'on
note par 0 le scalaire 0 E ~ dans M , la matrice ( ~ ) E ~2 x 1 et la matrice
( 0 0 ) E lR 1 x 2 dans la description de M par blocs,

• N = ( ~ !) = ( ~ ) où fi ~2 x 2 est la matrice identité et B


E

( 3 3) ElR1x2.

Le calcul du produit par blocs s'écrit :

MN = ( A 0 ) ( li )
O 1 B
= ( Ali+ OB
O/i + 1B
) = ( AB ) = ( ~ ~) .
3 3

On vérifie facilement qu'il s'agit bien du produit usuel:

MN = ( ~~~
001
)( 33
~~ ) ( ~3 ~3 )
1.14.3 Matrices t riangulaires par blocs

Théorème 1.8 Étant donné une matrice triangulaire par blocs

M11 0 0
.... 0
-0 ~
M 21 M22
c
0 "O
i::
M=
;:::s
::J
0 ....
CX)
""'
~
~
M 111 M11 2 M 1111
0 '~
0
N ""'
·c::
0 on a :
@ 'ro='
~
..c i::
0
1. Le déterminant de M est le produit des déterminants des matrices Mii :
O'I i::
·c
>-
Cl.
0
u
~
·s..
0
(.)

....00
det M = II det Mii,
l ~ i ~n
..c:
o..
ro
......l 2. Le polynôme caractéristique de M est le produit des polynômes caractéristiques
1
"O des matrices Mii :
Q
0
i::
;:::s PM(À) = II
PM;;(À) ,
@ l ~ i ~n
14 1 • Rappels d'algèbre linéaire

3. Le spectre de M est la réunion des spectres des matrices Mi; :

spec M = U1 ~; ~ 11 spec M;;

et la multiplicité algébrique d'une valeur propre de M est la somme de ses


multiplicités en tant que valeur propre de matrices Mu.

Démonstration. La propriété sur les spectres découle de celle sur les poly-
nômes caractéristiques qui est elle-même une conséquence de la formule
donnant le déterminant. Pour prouver cette dernière il suffit de l'établir pour
n = 2 puis de raisonner par récun·ence. Traitons donc le cas

Le théorème de Jordan (théorème 1.5) appliqué à la transposée de la matrice


M i 1 montre que l'on peut écrire M i 1 = VTv - t où T est triangulaire
inférieure. On obtient

M = (~ )( ) ( v~1 l~, )
0 T 0
1112 M 11 V M 12

v-1
Comme les matrices ( ~ 0
1 112
) et ( 0
°)
1112
sont inverses l' une de
l'autre on a
detM = det (
M 11
T
V
0
)
M 22

En développant ce déterminant par rapport à la première ligne et après n 1


telles opérations cela donne
-0
0
c
::J detM = t11 ... tn 1 n 1 detM22 = det T detM22 = detM1 1detM22·
0
CX)
0
0
N
@
~
Il est bien évident qu' un énoncé similaire au théorème 1.8 à lieu pour des matrices
..c
O'I
·c
triangulaires supérieures par blocs.
>-
Cl.
0
u
1.14.4 Le complément de Schur

Proposition 1.9 Considérons la matrice par blocs

M = (~ ~)
1.15 Décomposition de Schur 15

où les dimensions des blocs A, B, C et D sont n X n, n X m, m X n et m X m . Supposons


que A soit inversible. On a alors :

)(~ )
0
D - CA- 1 B

De plus
det(M) = det(A)det(D - CA- 1 B).

Démonstration. La décomposition est immédiate et le calcul du déterminant


1est une conséquence du théorème l.8.
Définition 1.10 La matrice D - C A - 1 B s'appelle le complément de Schur de la
matrice A dans M.

1.14.5 La formule de Sherman-Morrison-Woodbury


Le complément de Schur est à la base de la formule de Sherman-Morrison-Woodbury
de mise à jour de rinverse d'une matrice:

Proposition 1.11 Soient A, B, C, D des matrices de dimensions n x n, n x m, m x n


et m x m. Supposons que A et D - CA- 1 B soient inversibles. Alors A - BD- 1C est
inversible et

Cette proposition est prouvée à l'exercice 1.9.

....
-0
0
~
"O 1.15 DÉCOMPOSITION DE SCHUR
c i::
;:::s
::J
0 ....
CX)
""'
~
~
Théorème 1.12 Pour toute matrice A E cn x n il existe une matrice unitaire U E UJ 11
0 '~
0
N ""'
·c::
0
et une matrice triangulaire supérieure R telles que
@ 'ro='
~
..c
O'I
i::
0 A = URU*.
i::
·c ~
>-
Cl. ·s..
0 0
(.) Cette décomposition est appelée décomposition de Schur de A. Pour une matrice
u ....00
..c:
réelle, la décomposition de Schur est réelle si et seulement si les valeurs propres de A
o..
ro sont réelles.
......l
1
"O
0 Démonstration. Par récurrence sur n. Le cas n = 1 est immédiat. Suppo-
i::

Q
;:::s
sons que le théorème soit vrai pour des matrices de taille n - 1 x n - 1.
@ 1Soit À une valeur propre de A et soit x E C 11 un vecteur propre associé avec
16 1 • Rappels d'algèbre linéaire

llxll2 = 1. Soit V = (x Z ) une matrice unitaire : V E UJ11 et sa première


colonne est le vecteur x. On a :

x* ) ( x* Ax x*AZ )
V * A V = ( Z* A ( x Z )= Z*Ax Z *AZ .

Puisque Ax = Àx et que V est unitaire, on a Z*x = 0 et donc Z*Ax =


AZ*x = O. Ceci prouve que

* ( A x* AZ )
V AV= 0 Z *AZ .

Appliquons l'hypothèse de récurrence à la matrice B = Z*AZ E cn - txn - l _


Il existe des matrices W et T E <C11 - 1x n- I , W unitaire et T triangulaire
supérieure, telles que B = WT W* . Ainsi

V ' AV = ( ~ x * AZ ) = ( l
WTW* 0 W
0 )("' x* AZW)(l
0 T 0

On obtient la décomposition de Schur A = UR U * en prenant

R = ( ~ x* AÇW ) et u= v( b ~ ).

Remarque 1.1. La démonstration précédente montre que l'on peut choisir la


matrice unitaire V telle que les valeurs propres de A qui apparaissent sur la
diagonale de R aient un ordre spécifique. On dit dans ce cas que l' on a une
décomposition de Schur ordonnée.
-0
0
c
::J
0 Lorsque A est une matrice réelle, la décomposition de Schur A = UR U * ne fait
CX)
0
0
pas nécessairement intervenir des matrices réelles. On peut toutefois introduire une
N
décomposition de Schur réelle à condition de prendre R triangulaire supéri eure par
@
~ blocs :
..c
O'I
·c
>- Théorème 1.13 Pour toute matrice A E JR11 x 11 il existe des matrices Q E 0,, ortho-
Cl.
0
u gonale et R E JRnxn triangulaire supérieure par blocs telles que A = QRQ r. De
plus

R=
1.16 Notes et références 17

chaque bloc diagonal Rii est soit de taille 1 X 1 soit de taille 2 X 2 avec un spectre
constitué de deux valeurs propres complexes conjuguées.

Démonstration. On démontre qu'il existe une matrice orthogonale Q E 0 11


telle que

et où R 11 a les propriétés requises puis on raisonne par récurrence. Montrons


comment construire ces matrices. Soit À une valeur propre de A.
Si elle est réelle on procède comme au théorème 1.12 : on prend q 1 E JR11 de
norme 1 tel que Aq1 = Aq 1 que l'on complète par n - 1 autres vecteurs pour
en faire une base orthonormée (qi) de JR11 • Soit Q la matrice orthogonale
dont les colonnes sont les qi. On a :

Si À = a + i f3 avec f3 ":I 0, soient x , y E JRll tels que

A(x + iy) =(a+ if3)(x + iy) ,

c'est-à-dire
A(x y) = (x y) ( ~{3 !)
Notons que x +iy et x -iy sont linéairement indépendants parce qu'associés
aux valeurs propres distinctes a ± i f3. On en déduit que x et y sont aussi
linéairement indépendants. Soit (q 1, q2 ) une base orthonormée de l'espace
.... engendré par x et y et soit B E JR 2 x 2 telles que (q 1 q 2 )B = (x y). On a
-0 ~
0 "O
c i::
;:::s
::J
0 ....
CX)
""'
~
~
0 '~
0
N ""'
·c::
@
0
On construit Q en prenant pour colonnes q 1 et q2 complétés par n - 2
'ro='
~
..c i:: autres vecteurs pour en faire une base orthonormée (qï) de JRn. On obtient
)
0

~ 1 !~~
O'I i::
·c ~
>-
Cl. ·s.. Qr A Q = ( avec les propriétés souhaitées.
0 0
(.)
u ....00
..c:
o..
ro
......l
1 1.16 NOTES ET RÉFÉRENCES
"O
0
i::

Q
;:::s
Le terme matrice qui est au cœur du sujet de ce livre est utilisé pour la première fois
@ par le mathématicien anglais James-Joseph Sylvester (18 14-1897) en 1850 dans un
18 1 • Rappels d'algèbre linéaire

texte intitulé Sur une nouvelle classe de théorèmes. Ce mot provient de la racine indo-
européenne m-a qui désigne la mère et qui a donné les mots latins mater (mère) et
matrix : femelle reproductrice, puis l'organe qui sert de réceptacle au f œtus (l'utérus)
et, par extension de sens, au moule (fonderie, sculpture), au contenant, à un registre
(la matrice des impôts).
La notion de matrice est définie de manière générale par Arthur Cayley (1821-1895)
dans son traité Mémoire sur la théorie des matrices (1858).
Il est difficile de recommander un ouvrage d 'algèbre linéaire générale tant ce sujet
a fait l'objet de publications. Osons toutefois le« Cours d ' algèbre » de R. Godement
[12] et« Algèbre linéaire» de notre collègue J. Grifone [16].

-0
0
c
::J
0
CX)
0
0
N
@
~
..c
O'I
·c
>-
Cl.
0
u
Exercices 19

EXERCICES

Exercice 1.1 Matrices triangulaires inférieures


Notons Ln l'ensemble des matrices A E cnxn qui sont triangulaires inférieures et
9L11 le sous-ensemble de celles qui sont inversibles. Montrer que:
1. L 11 est stable pour le produit des matrices,
2. Pour tout A E L 11 , det A = ai 1 • . . ann'
3. Les valeurs propres de A E Ln sont les entrées diagonales aii ,
4. A E Ln est inversible si et seulement si aii f= 0 pour tout i,
5. Pour tout A E 9L11 , la diagonale de A - 1 est donnée par ai7 1,
6. L'inverse d' une matrice A E 9L11 est lui aussi dans 9L11 (ceci fait de cet
ensemble un groupe multiplicatif).
7. Calculer l'inverse de la matrice n x n

an-1 Ü Û 1
a11 0 0 0 1

Exercice 1.2 Matrices de rang 1


-0 ~
....
"O
Soient u et V E en non nuls. On note R la matrice uv* E cnxn .
0
c i::
;:::s 1. Montrer que R est une matrice de rang 1 et que toute matrice de rang 1 est de ce
::J
0 ....
CX)
""'
~ type.
~
0 '~
0
N ""'
·c::
0
2. Montrer que les valeurs propres de R sont 0 et ( u, v), déterminer les sous-espaces
@ 'ro=' propres correspondants.
~
..c i::
0
O'I
·c i:: 3. Montrer que Rest diagonalisable si et seulement si \u , v) f= O.
~
>-
Cl. ·s..
0
0 (.)
u ....00
..c: Exercice 1.3
o..
ro Soient a et b deux nombres réels. Calculer une matrice unitaire U E 1Ih et une
......l

"O
1
matrice diagonale D E c 2 x 2 telles que
0
i::
;:::s
Q
a b) = U DU*.
@ ( -b a
20 1 • Rappels d'algèbre linéaire

Exercice 1.4
Soient a et f3 deux nombres réels. Calculer une matrice orthogonale 0 E 0 2 et une
matrice diagonale D E R2 telles que

1+ a2 af3 ) T
( af3 l + /3 2 = ODO .

Exercice 1.5
Soient a et b E Rn non nuls. Calculer les valeurs propres et les sous-espaces propres
de la matrice 2n x 2n suivante :

(1 + llall;)l,z baT .)
( abT (1 + llbll;)J,, .

Exercice 1.6
Soit A E ccmxn et soient X E CC11 et y E ccrn tels que y* Ax i= O. Posons
B =A_ Axy* A
y*Ax
Montrer que :
1. lm B C lm A C lm B +CC Ax,
2. Ker A C Ker B,
3. x E Ker B et x ~ Ker A .
4. En déduire que rang B = rang A - l.
-0
0
c
::J
0 Exercice 1. 7 Matrice compagnon
CX)
0
0 Étant donnés n nombres complexes a0 , ... , a,, _ 1, la matrice
N
@
~
..c
0 0 0 - ao
OI
·c 1 0 0 -a1
>-
Cl. 0 1 0 - a2
0 A=
u

0 0 1 - an-1

est appelée matrice compagnon du polynôme

P( z) = ao +ai z + ... + a11-1 zn - 1 + z . 11


Exercices 21

Montrer que le polynôme caractéristique de A est égal à (- l)nP(z).

Exercice 1.8
Soit la matrice par blocs :

M = (~ ~)
avec A E C 11 x 11 , D E cmxm, B E cnxm et C E cm x n. Montrer que M est inversible
si et seulement si A et D sont inversibles. Calculer alors l'inverse de M à l' aide de A,
B et D. Donner 1' inverse de la matrice

M = ( ~ ~)
Exercice 1.9
Soit M = ( ~ ~ ) avec A E C""', D E cmxm, B E C'"m et C E cmx".

l. On suppose que A est inversible. Démontrer 1' égalité

/~) ( ~
1
ln 0 ) ( 111 A- B )
M = ( CA - 1 D - CA - i B 0 lm .

En déduire que det(M) = det(A)det(D - CA - 1 B). Montrer que si de plus


n = m et AC = C A , alors det(M) = det(AD - CB ).
2. On suppose que D est inversible. Démontrer de la même façon l'égalité
....
M = (~ B v- A - B v- c
1 1
-0 ~ ) ( 0 ) ( In 0 )
c
0 "O
i::
;:::s
1m o D D- 1 c 1m ·
::J
0 ....
CX)
""'
~

0
0
~
'~ En déduire que det(M) = det(D)det(A - BD - 1 C). Montrer que si de plus
N ""'
·c::
0 n = met BD = DB , alors det(M) = det(D A - BC).
@ 'ro='
~
..c i::
0
3. On suppose que A et D - C A - 1 B sont inversibles. À l'aide de la question 1
O'I
·c i::
~ donner une expression de M - 1 utilisant A - J et ( D - C A - 1 B)- 1 .
>-
Cl. ·s..
0
0
u
(.)

....00 4. On suppose que D et A - B D- 1C sont inversibles. Calculer de même M - 1 en


..c:
o..
utilisant D - 1 et (A - BD- 1C)- 1 .
ro
......l
1
5. Sous l'hypothèse que A et D - C A - J B sont inversibles, montrer grâce aux
"O
0 questions 3 et 4 que A - B v - 1C est inversible et que
i::
;:::s
Q
@
22 1 • Rappels d'algèbre linéaire

(formule de Sherman-Morrison-Woodbury de mise à jour de l'inverse d 'une


matrice).
Application : soient x et y deux vecteurs-colonne de C 11 • On suppose que A est
inversible. Montrer que A + xy* est inversible si et seulement si y* A - lx # - 1
etque(A +xy*)- 1 = A- 1 - A- 1xy*A- 1/ (1 + y*A- 1x).

Exercice 1.10
Soient A et B E C 11 xn. Montrer que

det ( ; !) = det(A - B) det(A + B).

Exercice 1.11
Soit la matrice par blocs :

Montrer que

Soient A et B dans R 11 xn. Montrer que

M-1( A - B
B)M = (A+iB
A 0 A - zB
o _ )·

En déduire que

-0
det ( _AB !) = det(A + i B) det(A - i B) = ldet(A + i B) l
2
.

0
c Si de plus AB= BA on a
::J
0
CX)
0
0
N
det ( _AB !) 2
= det(A + B
2
)
@
~
..c
O'I
·c Exercice 1.12
>-
Cl.
0 Utiliser le complément de Schur pour déterminer l'inverse de la matrice 5 x 5
u
suivante:
1 0 0 1 2
0 1 0 2 1
0 0 1 3 2
4 1 0 1 2
1 0 1 0 1
Exercices 23

Exercice 1.13
Soit A E en xn tridiagonale

a b 0 0
c a b
A(a ,b, c) = 0 0
c a b
0 0 c a

où a, b , c E <C avec be -:/= O. Nous allons calculer les valeurs propres et les vecteurs
propres de A(a , b , c).
1. On commence par traiter le cas des matrices A(O, b , c). Montrer que pour tout
:7
p = 1 ... n , le vecteur v <P) = (v ip), ... , v~p)l où Vkp) = ( Jt) k sin est un
vecteur propre de A(O, b, c) relatif à une valeur propre À p que l'on précisera.
Montrer que ces valeurs propres sont distinctes et que les vecteurs v<P) sont
indépendants.
2. Déterminer les valeurs propres et les vecteurs propres de A(a , b, c).

Exercice 1.14
Soit A E <C11 xn antihermitienne, c'est-à-dire telle que A*= -A.
l . Montrer que les valeurs propres de A sont des nombres complexes imaginaires
purs.
2. Montrer que 111 - A est inversible.
.... 3. Montrer que Q =Un - A) - 1(111 +A) (connue sous le nom de transformation de
-0 ~
c
0 "O
i::
Cayley) est unitaire et que - 1 tj. spec Q.
;:::s
::J
0 ....
CX)
""'
~
~
0 '~
0
N ""'
·c:: Exercice 1.15
0
@ 'ro=' Soient X et y deux vecteurs linéairement indépendants de <C11 • On considère la
~
..c
O'I
i::
0
i::
matrice A = xy * + yx* E <C11 xn.
·c ~
>-
Cl. ·s..
0
1. Montrer que A est hermitienne, de rang 2 et déterminer lm A.
0 (.)
u ....
0
2. Déte1miner les valeurs propres de A ainsi que les sous-espaces propres associés
0
..c:
o.. (utiliser la décomposition <C11 = Im A EB (lm A)-1 ). Préciser le cas x, y E JR11 •
ro
......l

"O
1 3. Étudier par la même méthode le cas de la matrice B = xy* - yx * E cnxn .
0
i::
;:::s Montrer qu'elle est antihermitienne, c' est-à-dire telle que B* = - B , de rang 2,
Q
@
déterminer ses valeurs propres, ses vecteurs propres et préciser le cas x, y E JR11 •
"O
0
c
:J
0
OO
0
0
N
@
~
..c
O'I
·;::::
>-
0..
0
u
Chapit re 2

L'arithmétique cc virgule flottante>>

Dans ce chapitre nous allons étudier l'arithmétique« virgule flottante » puisque c'est
elle (ou l'une de ses versions) que le calcul scientifique utilise en machine au lieu
de celle du corps IR. des nombres réels. Il faut bien avoir conscience du fait que cela
introduit des erreurs d'arrondi et qu'à force d'empiler de telles erreurs on peut aboutir
à des résultats sans signification. Nous allons définir les nombres flottants, le concept
d'arrondi, les opérations sur les flottants et nous étudierons le problème du calcul d'un
produit scalaire.

2.1 LES NOMBRES FLOTTANTS

-0
0
Définition 2.1 Donnons-nous quatre nombres entiers : /3 > 1, t ): 1, emin E -N et
c
::J emax E N. Les nombres flottants qui leur sont associés sont les nombres réels suivants
0
CX)
0
0 y= ±m X 13e-t
N
@
~
..c
O'I
f3 est la base, en général f3 = 2, 10 ou 16,
·c
>-
Cl.
0 t est la précision,
u
e est l'exposant, c'est un entier qui vérifie emin ~ e ~ emax ; emin est l'exposant
minimum et emax est l'exposant maximum,

m est la mantisse, c'est un entier qui vérifie 0 ~ m ~ /3 1 - 1.


26 2 • L'arithmétique «virgule flottante »

La mantisse m d' un nombre flottant peut s'écrire

m = dtf3t-J + ... + dr - 1/3 + d,

avec 0 ( d; ( /3 - l (d 1 ... d1 _ 1d, est donc l'écriture en base f3 de l'entier m). On


peut donc écrire un flottant

_± (dl/3 + 132
y -
d2 + . . . + 131dt ) /3e
avec emin ( e ( emax et 0 ( di ( /3 - 1. On utilise plutôt la notation suivante :

Définition 2.2 On appelle nombre flottant normalisé les nombres flottants

avec d 1 =/= O. Leur ensemble est noté JF.

Le choix des nombres flottants normalisés privilégie l'écriture .1234 1o- 6 plutôt
que .01234 10- 5 .

2.2 ARRONDIS

Définition 2.3 On appelle fonction d'arrondi toute fonction

-0
0 fl: IR ~ lF
c
::J
0
CX)
0
qui associe à un nombre réel x le flottant f l(x) le plus proche de x.
0
N
@ Cette définition n'est pas complètement déterministe. Il y a plusieurs stratégies
~
..c possibles pour définir l' anondi de x lorsque celui-ci est équidistant de deux flottants.
O'I
·c Par exemple on peut prendre le flottant le plus éloigné de O.
>-
Cl.
0
u Définition 2.4 Les concepts d'overflow et d'underfiow pour un nombre réel x sont
définis par les inégalités lxl > maxyElF IYI et 0 < lxl < minyEIF, y=fO IYI·
Définition 2.5 L'unité d'arrondi est

131-t
U= - -
2 .
2.2 Arrondis 27

L'énoncé suivant prouve que, dans le changement d' un nombre réel par son arrondi,
on commet une erreur relative constante : c'est la propriété fondamentale des nombres
flottants.

Théorème 2.6 Pour tout nombre réel x contenu dans ['intervalle

mm y, max
[yEIF, y>O yEIF, y>O
y] ,
il existe un autre nombre réel ô, lôl < u, tel que

fl(x) = x (l + ô)

ou bien
fl(x) - X
( u.
X

Démonstration. Prenons x E [,B e, ,se+L ]. Lorsque x = ,se le résultat est


évident. Lorsque x > ,se, les nombres flottants contenus dans l' intervalle
[,Be, ,se+L ] sont du type .di d2 ... d, X 13e+L avec di -/= 0, 0 ( di ( ,8 - 1.
La distance entre deux tels nombres consécutifs est constante et égale à
,se+l-t = 2,Beu. La distance entre x et f l(x ) est au plus la moitié de cette
distance c'est à dfre

lfl(x) - xi ( 2f3eu / 2 < lxlu .


....
-0 ~
0 "O
c i::
;:::s
::J
0 .... Remarque 2.1. La norme IEEE utilise la base f3 = 2 . Pour cette norme, les
""'
~

nombres flottants en double précision ont une précision t = 53 et l' unité


CX)
~
0 '~
0
N ""'
·c::
0 d'arrondi vaut donc u = 2- 53 ::::::::: 1.11 x 10- 16 . Pour un nombre écrit en base
@ 'ro='
~
i::
10, on a ainsi 16 chiffres significatifs après la virgule.
..c 0
O'I i::
·c ~
>-
Cl. ·s..
0 0
(.) Remarque 2.2. Certains auteurs considèrent également l'epsilon machine e M
u ....00
..c:
qui est la distance entre 1 et le plus petit élément de IF strictement plus grand .
o..
ro Pour la norme IEEE, on a eM = 2u et donc, pour la double précision, BM =
......l
1 2- 52 ::::::::: 2.22 X 10- 16 .
"O
0
i::
;:::s
Q
@
28 2 • L'arithmétique «virgule flottante »

Remarque 2.3. Le fait que les en-eurs d' an·ondi soient relativement constantes
n'est pas sans conséquences lorsque ce sont les erreurs absolues qui importent.
Voici un calcul effectué à l'aide de Maple (/3 = 10, t = 10):

> Dig its := 10;


Di gits := 10
> evalf (13 + 2000 * P i);
6296.185308
> sin(6296.185308);
.4201677813
> sin(l3.);
.4201670368

2.3 L'ARITHMÉTIQUE FLOTTANTE

Définition 2.7 Notons o l'une des opérations arithmétiques suivantes:+, - , x et / .


On définit l'opération flottante correspondante par

xoy = f l(x o y)
pour tous x et y réels.

Notons, en vertu du théorème 2.6, qu'il existe o, loi < u, tel que
xoy = (x 0 y)(l + ô).
En général, x et y sont eux-mêmes flottants mais il n'y a aucune raison pour que
-0
0
1'opération x o y fournisse un résultat dans F. Reprenons l'exemple des flottants de
c l'exercice 2.1.
::J
0
CX)
0
0
• .99-î-.099 = fl(l.089) = 1.1
N
@
~
•. 02 x 9.9 = J zc.198) = .20,
..c
O'I
·c
>- • 9.9:.02 = fl(495) = overflow.
Cl.
0
u
2 .4 EXEMPLE : LE CALCUL DU PRODUIT SCALAIRE
Le calcul d'un produit scalaire est une opération essentielle que l' on retrouve lors
d'un produit matrice-vecteur ou matrice-matrice. Nous allons analyser ce qui se passe
lorsqu' un tel produit est calculé en arithmétique flottante.
2.4 Exemple : le calcul du produit scalaire 29

2.4.1 Calcul en série


Soient (x 1 , . • . , x 11 ) et (y 1 , ... , y 11 ) deux vecteurs-ligne. On souhaite calculer S 11
x 1y 1 + . . . + x 11 y11 • Bien sûr, on doit spécifier quel est l'algorithme de calcul suivi. Nous
prenons :

ce qui conduit à un algorithme flottant de même conception mais en y remplaçant les


opérations usuefü~_s par leurs contreparties flottantes. On obtient donc, à la place des
sk' des quantités sk qui vérifient

- -
• s, = Pi = X1Y1(l + 81) ,

-
• S2 =
-
f l(Si - o
+ P2) = (xi Yi (1 + 1) + X2Y20 + 82))(1 + 03),

• S,1 = x,y, (1+8)11+X2Y2(l+0)11 + X3y3(l + üyz- t + ... + XnYnO + 8)2 '

o
avec les notations suivantes : tous les vérifient 181< u et une expression du type
(1+0)11 est écrite pour un produit (1 + oi) ... (1 + o,i). Ils ont la propriété suivante :

Proposition 2.8 Considérons des nombres 1oi1< u, 1 ~ i ~ n, avec nu < 1. Notons


nu
'Yn = .
1 - nu

.... Alors
-0
0
~
"O Il?=!(1 + ôi) = 1 + 811
c i::
;:::s
::J
0 .... pour un réel 811 qui vérifie l'inégalité 1811 1 < 'Yn·
CX)
""'
~
~
0 '~
0
N ""'
·c:: Dans le cas du produit scalaire nous avons obtenu :
0
@ 'ro='
~
..c
O'I
i::
0 • S,1 = XtYL + · · · +XnYn
i::
·c ~
>-
Cl. ·s..
0 0
(.)
u ....00
..c:
o..
ro
À ce stade de notre analyse nous avons deux interprétations possibles de ce résultat.
......l
1
La première est de constater que l' on a obtenu une estimation de l'erreur absolue
"O
0 commise dans ce calcul :
i::
;:::s
Q
@
30 2 • L'arithmétique «virgule flottante »

Remarquons que cette en-eur dépend de l'ordre dans lequel on effectue les calculs, un
ordre pour lequel

semblant préférable. Notons que

n
ISn - S,i l ~ Yn L lxiYi I·
i= l

La seconde interprétation découle des identités précédentes et montre que

autrement dit S11 peut être vu comme le produit scalaire exact de deux vecteurs proches
des vecteurs de données : x' = (x 1 , ••• , x 11 ) et y' = (y 1(1 + 8,i), . .. , YnCl + 82)). Le
choix fait de x' et y' n'est bien sûr pas unique, toute mixture x' = (a 1x 1 , ••• , a 11 x,i)
et y' = (/31 Yt, ... , {3 11 y,z) avec a1 /31 = (1 + Bn) et cetera est acceptable.
Cette interprétation, introduite par Givens et Wilkinson, est connue sous le nom de
« backward en-or analysis » ou « analyse rétrograde des en-eurs ». Sa signification est
importante pour un numéricien. Si 1'on suppose que les vecteurs x et y sont donnés de
façon approchée (soit résultant de calculs approchés, soit donnés expérimentalement),
le calcul flottant du produit scalaire (x , y) qui nous a conduit à S'n = (x', y') sera tout
à fait acceptable si les vecteurs x' et y' sont dans les tolérances du problème.
Insistons sur le fait que ces deux points de vue sur l'analyse des en-eurs peuvent
être transposés à tout calcul approché : une analyse directe fournit une estimation de
-0 la taille de l'erreur commise, une analyse rétrograde donne au calcul sa signification.
0
c
::J
0
CX) 2.4.2 Calcul en éventail
0
0
N
@
La stratégie du calcul en éventail consiste à effectuer tous les produits xi Yi puis,
~
..c
pour les additionner, à les séparer en deux sous-ensembles, à sommer chacun d'eux
O'I
·c et enfin à additionner ces deux sommes. Cette procédure s'applique aussi aux sous-
>-
Cl.
0
ensembles en question puis aux sous-sous-ensembles et ainsi de suite ... ce qui conduit
u au schéma :
2.5 Notes et références 31

X1Y1
'\,
X ) YI+ X2Y2
/ '\,
X2Y2

X )Y i + X2Y2 + X3y3 + X4y4

x3y3
'\, /
X3y3 + X4y4
/
X4y4

Le calcul en flottant du produit scalaire S11 = x 1y 1 + . . . + Xn Yn selon cet algorithme


conduit au résultat suivant

où chacun des nombres ()(i) vérifie


Nu
eCi) 1~ yN = N = 1 + flogz n l .
1
l - Nu'

Ainsi
.... Il

-0
c
0
~
"O
i::
;:::s
IS11 - Sn l ~ 'YN L lxiYi l
i= l
::J
0 ....
CX)
""'
~
~
et la borne obtenue pour cette erreur abso1ue est bien moindre que pour le calcul en
0 '~
0
N ""'
·c:: série.
0
@ 'ro='
~
..c i::
0
O'I
·c
>-
i::
~
·s..
2.5 NOTES ET RÉFÉRENCES
Cl.
0 0
(.)
u ....00 Le lecteur voulant en savoir plus peut consulter le livre de J.-M. Muller « Arithmétique
..c:
o..
ro
des ordinateurs» [25] qui est téléchargeable gratuitement via le site
......l
1 http://prunel.ccsd.cnrs.fr/ensl-00086707
"O
0
i::
;:::s
ou bien l' ouvrage plus récent de J.-C. Bajard et J.-M. Muller « Calcul et arithmétique
Q des ordinateurs » [4].
@
32 2 • L'arithmétique «virgule flottante »

EXERCICES

Exercice 2.1
Quels sont les nombres flottants normalisés correspondant aux paramètres /3 = 10,
t = 2, emin = - 1, emax = 1.

Exercice 2.2
Montrer que le plus grand des nombres flottants normalisés positif est 13em•x (l -13-t )
et le plus petit 13em;n- 1.

Exercice 2.3
Dans le système des nombres flottants de l' exercice 2.1 calculer l' expression
3(4/3 - 1) - 1 en suivant le schéma

4/ 3 --7 4/ 3 - 1 --7 3(4/3 - 1) --7 3(4/3 - 1) - l.

Effectuer ce même calcul sur votre calculette ou bien à l'aide de Maple en prenant
«Digits := 20 » .

Exercice 2.4
Prouver la proposition 2.8.

-0
0
c
::J
0
CX)
0
0
N
@
~
..c
O'I
·c
>-
Cl.
0
u
Chapitre 3

Normes sur les espaces de matrices

Un espace de matrices tel que ffi.m XII ou cm XII étant un espace vectoriel de dimension
finie on peut lui associer toutes so11es de normes qui, rappelons le, sont toutes équiva-
lentes, c'est-à-dire définissent la même topologie. Mais toutes ces normes possibles
n'ont pas forcément un bon comportement vis-à-vis de la multiplication des matrices
ou des produits matrice-vecteur, à la différence des normes matricielles que nous
introduisons ici.

3.1 NORME D'OPÉRATEUR

Définition 3.1 Une norme surcn xn est multiplicative si llABll ( llAll llBll quelles
que soient les matrices A et B E C11 xn.
-0
0
c
::J Définition 3.2 Une norme sur cmxn est consistante avec des normes 11 -llm sur cm
et 11-lln sur C11 si llAxllm ( Il A 11 llx1111 pour toute matrice A
0
CX) E cm Xn et tout vecteur
0
0
N
XE C11 •
@
~ Étant donné deux espaces vectoriels normés de dimension finie E et F, nous notons
..c
O'I
·c par .C(E , F) l'espace des applications linéaires L: E---+ F .
>-
Cl.
0
u Définition 3.3 La norme d'opérateur sur l'espace .C(E, F) est définie par

llLll = sup llL(x)ll _


xE E , x # O llxIl

Remarquons que dans cette définition nous notons de la même manière la norme de
E, celle de F et celle de .C(E, F). Le contexte permet de s' y retrouver.
34 3 •Normes sur les espaces de matrices

Par définition du supremum (le plus petit des majorants) llLll est la plus petite des
constantes C E IR qui vérifient

llL(x)ll ~ C llxll
pour tout x E E. D'autres caractérisations des normes d'endomorphisme sont données
à l'exercice 3.1.

Proposition 3.4 La norme d'opérateur possède les propriétés suivantes :


1. C'est une norme, c'est-à-dire que
a) llLll ~ 0,
b) llLll = 0 si et seulement si L = 0,
c) ll AL ll = IAI Il Lli pour tout scalaire À,
d) llL + Mii ~ llLll + l Mll
2. Elle est consistante : pour tout x E E

ll L(x)ll ~ llL l llxll,


3. Pour tout L E .C(E, F) et N E .C(F, G), où G est un troisième espace normé,

llN ° Lll ~ llNll llLll ·


Nous ne démontrerons pas
. cette proposition.
.

Exemple 3.1 :
1. La norme d'opérateur d 'une matrice A E cmxn associée à la norme
-0
0
c Il
::J
0
CX)
0
llxll1 = L lxi l
0 .i = l
N
@
~
..c sur C.11 et
O'I m
·c
>-
Cl.
0
llYll1= L IYd
u i= l

sur cm est donnée par


3.2 Rayon spectral 35

2. La norme d'opérateur d' une matrice A E cmxn associée à la norme

sur C11 et

sur cm est donnée par


I!

3.2 RAYON SPECTRAL

Définition 3.5 Le rayon spectral d'une matrice A E cnxn est le nombre

p(A) = max IAI .


AEspec A

Le rayon spectral d' une matrice joue un rôle central dans l'analyse de nombreux
phénomènes et il est important de pouvoir le calculer. Voici deux résultats en ce sens :

Proposition 3.6 p(A) ~ llAll pour toute norme consistante.


Démonstration. Six est un vecteur propre unitaire associé à la valeur propre
À de A on a:

....
IAI = IAI llxll = llAx ll = llAxll:::;; llAll llxll = llAll -
-0 ~
0 "O
c i::
::J ;:::s
.... Théorème 3.7 (Théorème de Gelfand) Pour toute matrice A E C 11 xn et pour toute
0
CX)
""'
~
~
norme sur cnxn
0 '~
0
N ""'
·c::
0
p(A) = lim
p-+oo
llAP ll'/P_
@ 'ro='
~
i::
Démonstration. Montrons tout d'abord que la valeur de la limite est indé-
..c
O'I
·c
0
i::
~
pendante de la norme choisie. Notons 11-11 a une norme sur en x 11
pour laquelle
>-
Cl. ·s..
0
0
u
(.)

....00 p(A) = lim


p -+ oo
llAP ll a1/ P
..c:
o..
ro
......l
1
et établissons le résultat pour une seconde norme 11-llb· Elle est équivalente à
"O
0 la première c'est-à-dire qu' il existe deux constantes positives a et f3 telles
i::
;:::s
Q
que
@
36 3 •Normes sur les espaces de matrices

pour toute matrice B E <C11 xn. Prenons B = A P et passons aux racines


p-ièmes, on obtient

Il suffit alors de passer à la limite lorsque p -----+ oo pour obtenir le résultat.


Nous allons prouver le théorème dans un cas simplifié : celui où A est
diagonalisable. On peut alors écrire A = P vp - 1 avec D = diag(Àï) où les
À i sont les valeurs propres de A. Prenons pour norme sur Xn en
llBll = max
1~i ,j~ n
ICP- BP)iJ I·
1

Puisque AP = P DP p- 1 nous obtenons :

3.3 LA NORME SPECTRALE

Définition 3.8 La norme spectrale d'une matrice A E cm xn est la norme d'opérateur


associée aux structures hermitiennes canoniques de en et cm :
l Axllz
Il A 112= sup
x#O
IlX Il 2 = max Il Ax llz
llxll2= l
(voir l 'exercice 3.1) avec
Il

-0
0
llxll/ = L lxi l2·
i= J
c
::J
0 Théorème 3.9 La norme spectrale d'une ma,trice A E cmxn est égale à la racine
CX)
0
0
carrée du rayon spectral de A * A :
N
@
~
..c
llAll; = p(A *A)
O'I
·c
>- et, lorsque A est hermitienne,
Cl.
0
u l All2 = p(A).
Démonstration. Remarquons que A * A est une matrice hermitienne et que
ses valeurs propres sont ~ O. En effet (A*A)* = A * A ** = A * A et si
A * Ax = Àx avec x -/= 0 on obtient, en multipliant à gauche par x *,

ll Axll~ = x * A * Ax = Àx*x = À llxll;


3.4 La norme de Frobenius 37

de sorte que À ) O. En vertu du théorème spectral (théorème 1.6) on peut


décomposer A * A = V DU* avec V unitaire et D = diag(Ài) où les Ài sont
les valeurs propres () 0) de A* A. Revenons à la définition de la norme
spectrale. On a: ll All; =

max llAx ll; = max x * A * A x = max x * UDV* x = max y* Dy


llxll 2 = l llxll 2 = l llxll 2 =l llxl'2=1

avec y = V * x. Mais puisque V est unitaire, lorsque x décrit la sphère unité


dans en il en est de même pour y de sorte que

ll All; = max y * Dy.


llYll,= 1

Le maximum de y * Dy = 2::~ = 1 Ài IYi sur la sphère unité est égal à


1 2
1

A1 = maxi Ài = p(A * A), il est atteint lorsque y = e7 le vecteur dont


les coordonnées sont nulles sauf celle d'indice Tégale à 1. Ceci établit la
première identité. Pour la seconde on note que

p(A * A) = p(A 2 ) = p(A)2


lorsque A est hermitienne.

Remarque 3.1. La norme spectrale d' une matrice-colonne a E cmx 1 est égale
à sa norme en tant que vecteur de cm :
l alli = J2:;1~ 1 la; 2. La notation llall2
1

n'est donc pas ambiguë. Il en est de même pour les vecteurs-ligne.

La norme spectrale est unitairement invariante :

....
Proposition 3.10 Quelles que soient la matrice A E cm xn et les matrices unitaires
-0 ~
"O
V E Dm et V E Un, on a
0
c
::J
i::
;:::s
.... ll VAV l!i = l All2 ·
0
""'
~
CX)
0
0
~
'~ Démonstration. ll VAV ll; = p(V* A* U * UAV) = p(V* A * AV) =
""'
·c::
N
@
0 p(A * A) = IlA Il; . La première égalité vient du théorème 3.9, la seconde
'ro='
~
..c i::
a lieu parce que V est unitaire et la troisième parce que V * A* A V et A * A
0
O'I
·c i::
~
sont semblables.
>-
Cl. ·s..
0
0 (.)
u ....00
..c:
o.. 3.4 LA NORME DE FROBENIUS
ro
......l
1
"O
0
i::
;:::s
Définition 3.11 Étant donné deux matrices A ' B E cm XII posons
Q
@ (A , B ) F = trace (B * A).
38 3 •Normes sur les espaces de matrices

C'est un produit scalaire hermitien sur cm x n et l'on a

1 ~ i ~ Ill
1 ~ j ~Il

La norme associée à ce produit scalaire s'appelle la norme de Frobenius :

ll A ll ~ = trace (A *A) =
1 ~ i ~ Ill
1 ~ j ~Il

Voici quatre propriétés de la norme de Frobenius :

Proposition 3.12
1. Elle est multiplicative : pour tout A E cm X Il et B E C 11 X p

2. C'est une norme consistante avec 11 .112: pour tout A E cm x n et XE C 11

3. Constantes d'équivalence: pour tout A E cm x n

4. Pour tous A E C111 x 11 et B E cn x p

Démonstration. 1 se déduit de 3 et 4. 2 provient de 1 en prenant pour


matrice B la matrice-colonne x. 3 se prouve ainsi : notons A1 ~ A2 ~ •.• ~
-0 À 11 ~ 0 les valeurs propres de A * A (voir le théorème 3.9 et sa preuve). On a
0
c
::J ll A ll; = p(A *A) = À1. et ll A l l ~ = trace (A* A) = À1 +À2 + .. .+À11 ~ nÀ 1 ce
0
CX) qui prouve 3. Reste à prouver 4. Notons b j la j - ième colonne de B. On a :
0
0
N p p
@
~
..c
llAB ll;, = L ll Abjll~ ~ L llA ll; ll bj ll~ = ll A ll; llB ll;, .
O'I j= I j= l
·c
>-
Cl.
0
u
Une dernière propriété importante de la norme de Frobenius est son invariance
unitaire:

Proposition 3.13 Quelles que soient les matrices A E cm X II et les matrices unitaires
U E 1Um et V E lU11 on a
3.5 Le théorème de perturbation de Neumann 39

Démonstration. Il UA V Il~ = trace (V* A* U * UA V) = trace (V * A* A V) =


trace (A* A) = Il A Il~ : la première égalité vient de la définition de la norme,
la seconde de U *U = l m et la troisième d'une propriété classique de la
trace : trace (P- 1 A* AP) = trace (A*A) pour toute matrice inversible P
(voir le paragraphe 1.7).

3.5 LE THÉORÈME DE PERTURBATION DE NEUMANN


En perturbant une matrice carrée inversible on récupère une matrice qui est encore
inversible ou, en termes plus savants, le groupe linéaire GILn est ouvert dans cnxn .
Voici une version quantitative de ce résultat :

Proposition 3.14 Notons 11 ·11 une norme multiplicative sur<C11 x 11 • Si l alors llAll <
/ 11 - A est inversible et son inverse est la somme de la série absolument convergente
OO

U11 - A) - ) = L Ak.
k=O
De plus
1
l Un- A)- ' li ~ 1- llAll.
Démonstration. La série est absolument convergente parce que ~ l Ak ll
llAllk qui est le terme général d'une série convergente. Pour calculer sa
somme on passe à la limite dans l' identité
p
/
11
- A p+I = (/11 - A) L Ak
k=O

.... en remarquant que AP+l ---+ 0 puisque c' est le terme général d' une série
-0 ~
"O
convergente. On a enfin
0
c i::
;:::s OO OO
::J
....
li Un - A)- l 11 = L ~ L llAllk = 1 _ ~I A l .
0
CX)
""'
~
~ Ak
0 '~
0
N ""'
·c:: k=O k=O
0
@ 'ro='
~
..c
O'I
i::
0
i::
Coroll aire 3. 15 Notons li .li une norme multiplicative sur<C 11
x 11 et soit BE GIL11 • Si
·c
>-
Cl.
0
~
·s..
0
llAll < l B- 1
11-L alors B - A est inversible.
(.)
u ....00
..c:
o..
Démonstration. On écrit B -A = B(/11 - B - 1 A) et on note que Il s - 1 A Il ~
ro
......l 1 11 s - 1 1111A 11 < l. On applique alors la proposition précédente.
1
"O
0
1
Ce corollaire signifie que la boule ouverte de centre B et de rayon 11s- 1 11 - est
i::
;:::s
Q
@ contenue dans GIL11 • Ceci prouve que cet ensemble est ouvert.
40 3 •Normes sur les espaces de matrices

3.6 NOTES ET RÉFÉRENCES


L' axiomatisation de ce que l'on appelle aujourd'hui« espace de Banach » a été forma-
lisée par S. Banach dans sa dissertation (1920) bien que d' autres auteurs tels Wiener et
Minkowski aient eu leur contribution. L'inégalité de Cauchy est due à Cauchy (1821),
on lui associe souvent les noms de Schwarz et de Bunyakovski. La norme spectrale
(notée ici 11- 11 2 ) a été introduite par Peano (1888) et la norme de Frobenius (notée
11- llF) par lui-même (1911). Nous avons aussi rencontré Israil GeJfand (1913-) et
Carl Neumann (1832-1925) sur la série des puissances d' un opérateur ... à ne pas
confondre avec d'autres Neumann!

-0
0
c
::J
0
CX)
0
0
N
@
~
..c
O'I
·c
>-
Cl.
0
u
Exercices 41

EXERCICES

Exercice 3.1
Montrer que les quantités suivantes sont égales
1. l Lll = supxEE, x fO 111t~llll '
2· supllxll ~ 1, xfO 111t~lll ,
3. supllxll= l llLxll ,
4. sup llx ll ~ J llLxll ,

supllxll< J, x fO 1 ~!1 '


11 11
5.
6. supllxll< J llLxll -
7. Montrer que les cinq premiers supremums sont des maximums 1.

Exercice 3.2
Démontrer les affirmations contenues dans l' exemple 3.1.

Exercice 3.3
Montrer que les valeurs propres de A E cnxn sont contenues dans le disque de
centre 0 et de rayon max 1 ~J ~11
1
2:;
=1 laiJI·

Exercice 3.4
....
-0 ~
Soit A E C 11 x 11 • Montrer que si p(A) < 1 alors / 11 - A est inversible .
0 "O
c i::
;:::s
::J
0 ....
CX)
""'
~
~
Exercice 3.5
0 '~
0
N ""'
·c::
0
Prouver le cas général du théorème 3.7. Raisonner de façon similaire mais au lieu de
@
~
'ro=' la forme diagonalisée A = PD p - J utiliser la décomposition de Jordan (théorème 1.5)
A = P J p - 1• Remarquer que J s' écrit J = D + N avec D diagonale, N nilpotente
..c i::
0
O'I i::
·c ~
>-
Cl. ·s.. (N 11 = 0) et ND = DN pour calculer J P.
0 0
(.)
u ....00
..c:
o..
ro
......l
1
"O
0
i::
;:::s
Q 1. Max imum, minimum, supremum et infimum font leur pluriel soit en ums comme dans minimums soit
@ en ma comme dans minima.
42 3 •Normes sur les espaces de matrices

Exercice 3.6
Soient a, b, c, d quatre nombres réels. Calculer les normes spectrale et de Frobenius
de la matrice ( b ~ ic b : ic ) .

Exercice 3. 7
Calculer la norme de 111 pour les no1mes li .li 1, 11. 112, 11 .11oo ' 11 ·li F •

Exercice 3.8
Montrer que 11U11 2 = 1 et 11U11 F = .jii. pour toute matrice unitaire U E Un.

Exercice 3.9

Calculer les normes spectrale et de Frobenius de la matrice A = ( !1!).


Exercice 3.10
Soit A E JR11 X II. Montrer que A est diagonale si et seulement si A est symétrique et
a ses valeurs propres sur la diagonale (utiliser la norme de Frobenius).

Exercice 3.11
Soient A E cnx n et B > O. Montrer qu'il existe une norme matricielle multiplicative
N telle que:
N(A) ~ p(A) + e.

-0
On procède de la façon suivante : notons a = p(A) + e. D'après le théorème de
c
0 Gelfand il existe un entier p > 0 tel que
::J
0
CX)
0
0
N On pose alors
@ p- 1
~
..c
O'I
·c
N(x) = L ap-i-1 llAixll2
>-
Cl.
i= O
0
u pour tout X E <('. 11

1. Montrer que c'est une norme sur C 11 ,


2. Montrer que la norme d'endomorphisme qui est associée à N (que l' on note
aussi N) vérifie N(A) ~ a,
3. Conclure.
Exercices 43

Exercice 3.12
Soient x, y E <C 11 • Montrer que llxy* 11 2 llxy*llF
llx 111 llYllCX) et que llxy* llCX) = llx llCX) llY111 ·

Exercice 3.13
Soient A E GL,1 et H E <C11 x 11 • Montrer, en utilisant le théorème de perturbation de
Neumann, que

Cette identité montre que l'application Inv : A E <GL11 ----+ A- 1 E <GL11 est dif-
férentiable et en donne la différentielle en A dans la direction H : D'Inv(A)H =
- A - 1HA- 1•

Exercice 3.14 Exponentielle de matrice


L'exponentielle d' une matrice A E <C11 x 11 est définie par
OO Ak
exp( A) = L k!.
k=O

Le but de cet exercice est d' établir quelques propriétés de l'exponentielle. Montrer
que:
1. Cette série est absolument convergente et que, pour toute norme multiplicative,
llexp(A)ll :::;; exp (llAll),
2. ex p(O) = l n,
....
-0 ~
"O
3. Si AB = BA alors exp( A + B) =exp( A) exp(B) ,
0
c i::
;:::s
::J
.... 4. ex p(A) est inversible, calculer son inverse,
0
""'
~
1
CX)
0
~
'~
5. Si A = P op - I avec P E <GLn alors exp(A) = P exp(D)P - ,
0
N ""'
·c::
@
0 6. En déduire que les valeurs propres de ex p( A) sont les exponentielles des valeurs
'ro='
~
..c i:: propres de A,
0
O'I i::
·c
>-
~
·s.. 7. detexp(A) = exp(trace A),
Cl.
0 0
u
(.)

....00 8. t E IR -7 exp(t A) E <C11 xn est différentiable et


..c:
o..
ro d
......l - exp(tA) = A exp(t A) .
"O
1 dt
0
i::

Q
;:::s
9. Soient X' y E <C11 distincts de zéro. Calculer exp(xy*) (distinguer les cas x* y =/:- 0
@ etx *y= O).
44 3 •Normes sur les espaces de matrices

10. Soit A hermitienne et A = U AU * sa diagonalisation avec U unitaire et A =


diag(À 1, ••• , À11 ) diagonale. Écrire A sous forme d ' une somme de matrices de
rang un. En déduire l'expression de exp(A) sous forme d' un produit de matrices
qui commutent entre elles.

Exercice 3.15
Soit A E cm X Il. Montrer que

llA 112 + 2 + llA Ili V llA ll; + 4


A)
ln 2 2

Exercice 3.16
Montrer que pour toute matrice A E cnxn on a llAll 1 = llA*lloo · En déduire que
llAll2 ~ VllAll1 ll A Jloo·

Exercice 3.17
Un cané magique est une matrice C E JR11 xiz dont les entrées sont les entiers de 1 à
n 2 rangés de telle sorte que la somme des termes d'une même ligne ou d ' une même
colonne soit la même. Par exemple

-0
c
0 est un carré magique 3 x 3. Montrer que dans un carré magique C d'ordre n la somme
des lignes vaut n(n2 + 1)/ 2 et que ce nombre est aussi égal à llC l!i-
::J
0
CX)
0
0
N
@
~
Exercice 3.18 Matrices à diagonale strictement dominante
..c
O'I
·c
Une mattice A E cnxn est à diagonale strictement dominante lorsque
>-
Cl.
0
u
la ul > L laij l
j =/=i

pour tout i . Montrer qu'une telle matrice est inversible (utiliser le corollaire 3.15 et la
norme 11- 1100 de l'exercice 3.2).
Exercices 45

Exercice 3.19
Calculer la norme spectrale de la matrice n + 1 x n + l suivante :

0 1 1
l 0 0

1 0 0

Exercice 3.20
Montrer que pour toute matrice M E e,mxn on a:

det(/,, + M * M) ,,::; (1 + Il~Il~ )"


Exercice 3.21
Montrer que <GIT.. .11 est dense dans e,nxn : toute matrice A E e,nxn est limite d' une
suite de matrices inversibles (utiliser la décomposition de Jordan de A ou bien la
décomposition de Schur).

-0
0
c
::J
0
CX)
0
0
N
@
~
..c
O'I
·c
>-
Cl.
0
u
"O
0
c
:J
0
OO
0
0
N
@
~
..c
O'I
·;::::
>-
0..
0
u
Chapitre 4

La décomposition en valeurs
singulières

4.1 DÉFINITION
Nous avons vu, au chapitre précédent, que la norme spectrale d' une matrice A E cmxn
est égale à la racine catTée de la plus grande valeur propre de A* A. Plus généralement,
posons :

Définition 4.1 Les valeurs singulières de A E cm XII sont les racines carrées des
valeurs propres positives(> 0) de A* A.

Remarque 4.1.
-0
c
0 1. Nous avons démontré au cours de la preuve du théorème 3.9 que les valeurs
::J
0 propres de A * A sont positives ou nulles. Il est donc loisible d'en considérer
CX)
0 les racines carrées.
0
N
@ 2. On trouve ça et là une définition des valeurs singulières qui acce pte 0 : ce
~
..c sont alors les racines catTées des valeurs propres de A * A. Nous ne trouvons
O'I
·c aucun avantage à cette définition.
>-
Cl.
0
u 3. Les valeurs propres positives de A * A et A A * sont les mêmes. Il n 'y a donc
pas des valeurs singulières « à gauche » et des valeurs singulières « à droite »
(voir l'exercice 4.1).
4. Si 1'on note <.T 1 ~ •.• ~ <.Tr > 0 les valeurs singulières de A alors

llA l l ~ = uî = p(A *A)


48 4 • La décomposition en valeurs singulières

et
llAIl} = uf + ... + u; = trace (A* A ).

Théorème 4.2 (Décomposition en valeurs singulières) Pour toute matrice


A E cm xn de rang r, il existe des matrices unitaires U E U11 , V E Um et une matrice
I E ]Rmxn telles que:

~ *,
A = V "'"V ~~ = ( D
O Û
O) , DE ~
lTllrXr
, D = d iag(u1
. , ... , u ,. )

où u 1 ~ ••• ~ u ,. > 0 sont les valeurs singulières de A. Cette décomposition


s'appelle la décomposition en valeurs singulières de A (singular value decomposition
ou SVD en anglais).

Démonstration. Puisque A* A est hermitienne, par le théorème spectral


(théorème 1.6), on peut écri re que

(}"2
l

u 2,.
U * A * AU =
0

pour une matrice unitai re U E Un . Notons u 1 , . • . , un les colonnes de U.


L'écriture précédente prouve que les vecteurs Au;, 1 ( i ( n, sont deux
à deux orthogonaux, que 11Au;ll 2 = O";, 1 ( i ( r, et que Au; = 0,
-0
0
r + 1 ( i ( n. Posons
c
::J
0
CX)
0
0
N
@
~
Ces r vecteurs de cmsont orthonormés. Complétons-les pour en faire une
..c
O'I
base orthonormée de cm . On obtient une matrice unitaire V E Um dont
·c les colonnes sont v1, ... , V m et, par construction, AU = VI. Cette identité
>-
Cl.
0
u
prouve aussi que le rang de A est égal au nombre de valeurs singulières.

Remarque 4.2.
1. Il n'y a pas unicité de la décomposition en valeurs singulières. Par exemple
/ 11 = U InU* pour toute matrice unitaire U E Un . C'est donc un abus que
d' utiliser l ' article défini « la » !
4.2 Calcul des valeurs singulières 49

2. Notons V ,. et V,. les matrices obtenues à partir de V et V en ne conservant


que les r premières colonnes. On a aussi

A = V,. DU,: ,
c'est la décomposition en valeurs singulières réduite.
3. Lorsque A est une matrice réelle, on peut prendre pour V et V des matrices
orthogonales.
4. La démonstration du théorème 4 .2 montre que l'image par A de la sphère
unité dans l'orthogonal du noyau de A (ensemble des vecteurs x E (Ker A).L
de norme 1) est l 'ellipsoïde dans le sous-espace lm A c cm dont les axes
sont portés par les vecteurs vi, 1 ~ i ~ r, et la longueur des demi-axes u i :
. ~r ~r 12 ~,.
s1 x = L..,i = J xiui avec L..,i = l lxi = 1 alors Ax = L..,i = l uixi Vf et

4.2 CALCUL DES VALEURS SINGULIÈRES


Les valeurs singulières de A sont les racines carrées des valeurs propres positives de
A * A ou de AA * : il vaut mieux choisir celle de ces deux matrices qui a la plus petite
taille ! Ceci ramène le problème du calcul des valeurs singulières à un problème de
valeurs propres pour une matrice hermitienne.
Une autre approche possible est basée sur la proposition suivante:

Proposition 4.3 Soit A E cmxn dont les valeurs singulières sont ui , 1 ~ i ~ r.

-0
0
~
....
"O
Les valeurs propres non nulles de la matrice ( 1. ~ ) E IC(m+n)x(m+n) sont ±u ;,
c i::
;:::s 1~i ~ r.
::J
0 ....
CX)
""'
~
~
0 '~
0
N ""'
·c::
0 4.3 NOTES ET RÉFÉRENCES
@ 'ro='
~
..c i::
O'I
0
i::
La décomposition en valeurs singulières a été introduite par Eugenio Beltrami (1873)
·c
>-
~
·s.. et indépendamment par Camille Jordan (1874) à propos de leurs études sur les formes
Cl.
0
0
u
(.)
quadratiques. On doit à Jordan la forme normale du même nom (théorème 1.5).
....00
..c:
o.. La décomposition en valeurs singulières est un outil important de l ' algèbre linéaire.
ro
......l Elle joue un rôle essentiel en statistique (analyse en composantes principales), com-
1
"O
0
pression des données (approximation d' une matrice par une matrice de rang donné),
i::
;:::s traitement du signal, reconnaissance des formes, linguistique (analyse sémantique
Q
@ latente) et cetera.
50 4 • La décomposition en valeurs singulières

EXERCICES

Exercice 4.1
Montrer que si A E cm XII et si B E C 11 Xm alors les valeurs propres non nulles de
AB et de BA sont les mêmes. Montrer que lorsque m = n les valeurs propres de AB
et de BA sont les mêmes.

Exercice 4.2
Calculer une décomposition en valeurs singulières de la matrice A

(11 J2 J20) .
0

Exercice 4.3
Calculer les valeurs singulières ainsi que toutes les décompositions en valeurs
singulières d' une matrice colonne.

Exercice 4.4
Déterminer la décomposition en valeurs singulières d'une matrice hermitienne en
fonction de ses éléments propres.

Exercice 4.5
Démontrer la proposition 4.3. On procèdera de la façon suivante:
-0 1. Soit À une valeur propre non nulle de la mau·ice augmentée :
0
c
::J
0
CX)
0
0
N
@
2
~
..c avec x ou y non nul. Alors x et y sont tous deux non nuls et A * A y = À y.
O'I
·c
>-
Cl.
2. Réciproquement, si A * A y = À 2 y avec y # 0, montrer que ±À sont valeurs
0
u propres de la matrice augmentée.

Exercice 4.6
Montrer que le rayon specu·al d' une matrice est plus petit que la plus grande de ses
valeurs singulières.
Exercices 51

Exercice 4. 7
Montrer que, pour tout A E GLn, les valeurs propres de A- 1 sont les inverses des
valeurs propres de A et que les valeurs singulières de A - J sont les inverses des valeurs
singulières de A.

Exercice 4.8
Étant donnés n nombres complexes z 1 , ••• , z11 calculer le polynôme caractéristique
et les valeurs singulières de la matrice

1
ZJ 1
Z=
Zn 1

(les entrées de Z sont nulles hors de la diagonale et de la première colonne).

Exercice 4.9
Donner la décomposition en valeurs singulières de la matrice

1 0
0 a
Z=
/3 0
0 /3

-0
0
c
::J
0
CX)
0
0
N
@
~
..c
OI
·c
>-
Cl.
0
u
"O
0
c
:J
0
OO
0
0
N
@
~
..c
O'I
·;::::
>-
0..
0
u
Chapitre 5

Le problème des erreurs

5.1 INTRODUCTION
Nous allons analyser à partir de quelques exemples modèles le problème des en-eurs
en analyse numérique. Mais au juste, pourquoi fait-on des erreurs? Trois causes
principales peuvent être envisagées :

5.1.1 Les erreurs de modélisation


Nous entendons par là le fait de remplacer un modèle du problème initial par un modèle
simplifié. Un exemple classique est celui du pendule simple: les oscillations d' un tel
pendule sont données, en l'absence d'amortissement, par l' équation différentielle du
-0 second ordre
0
c
::J
0
811 = _gsin8
CX)
l
0
0
N où g est l'accélération de la pesanteur, / la longueur du pendule et 8 l' angle que fait le
@
~
pendule avec la verti cale. Sous l'hypothèse des « petites oscillations», on estime que
..c
O'I
·c
sin() ~ () et l' équation devient
>-
Cl.
0
u
011 = -9-o
l

qui est une équation linéaire à coefficients constants.


De telles simplifications du modèle sont Je pain quotidien du physicien et du mathé-
maticien appliqué : nos moyens d'investigation ne permettent que rarement de consi-
dérer les problèmes naturels dans toute leur complexité.
54 5 • Le problème des erreurs

5.1.2 Les erreurs de données


Il arrive que les paramètres du problème soient des données expérimentales obtenues
avec une marge d'erreur ou bien des données issues d'un calcul approché. Nous ne
traitons donc pas le « vrai » problème mais un problème voisin et la question se pose
de savoir comment une telle erreur sur les données se répercute sur la solution : nous
devons estimer la distance de la solution S(a) associée au paramètre a à la solution
S(a') associée à un paramètre a' proche de a, c'est le problème de la sensitivité aux
erreurs.
Il y a deux approches possibles à ce type d'étude : une approche directe qui est
très utilisée en algèbre linéaire et une analyse au premier ordre fondée sur le calcul
différentiel. Par exemp.le, l'erreur commise dans le ca1cul de la racine carrée d'un
nombre réel positif a est, pour tout h > 0,
h h
Va+h-vfa = vfa+h ( G.
a +h +va 2ya
C'est un exemple d'approche directe. Par le calcul différentiel on obtient:

Ja + h - va =_h_
2yla
+ O(h 2 ).

Dans ces deux cas, l'expression h / 2yla fait intervenir l'erreur h d'une part et un
facteur multiplicateur indépendant de cette erreur : l / 2yla. Ce facteur ne dépend
que du problème (ici le calcul des racines carrées) et d' une instance de ce problème
(le nombre a). Il conduit au concept de conditionnement du problème. Dans notre
exemple on pose
1
cond(V., a) = G
2ya
-0
qui est un nombre indépendant de la pe1turbation h, de sorte que, au premier ordre
0
c
::J
0
CX)
0
lra+Ti -val ( cond(V.,a) lhl .
0
N
@ 5.1.3 Les erreurs de calcul
~
..c
O'I
·c Une fois le problème posé, vient le moment d'introduire un alg01ithme pour en calcu-
>-
Cl. ler la solution. Cet algorithme va être une source d'erreurs pour trois raisons princi-
0
u pales:
1. Les processus limites sont arrêtés après un nombre fini d'étapes,
2. Les nombres irrationnels, les fonctions transcendantes sont remplacés par des
approximations,
3. L'utilisation d'une arithmétique de précision finie (virgule flottante par exemple).
5.2 Concepts généraux 55

_ L'effet de ces e1Teurs est de remplacer la solution S(a) par une solution approchée
S(a) qui dépend du problème, de l'instance a de ce problème et de l'algorithme utilisé.
Pour analyser ce type d' en-eur, il est d'usage de procéder en deux étapes :
1. L'estimation de .l' erreur S(a) - S(a) proprement dite,
2. L' ana.lyse rétrograde de cette erreur.
a,
Qu'est-ce que cela signifie? Il s'agit de d~terminer le (ou un) paramètre le plus
proche possible de a, pour lequel S(a) = S(a), autrement dit, étudier le problème de
minimisation
in( llii - all -
sca>=S<a>
La valeur de ce minimum est l'erreur rétrograde ou erreur inverse du problème : elle
permet de valider l'algorithme choisi dans la mesure où cette en-eur rétrograde est du
même ordre que la précision des données.
Dans le cas des racines carrées, supposons que l' on ait calculé Va + e au lieu de
-fo. Si e est suffisamment petit pour que Va+ e > 0 on a

JQ+e =v'a

avec
â = a + e2 + 2e Ja.

L' en-eur inverse est donc

a- a = e2 + 2eJQ ~ 2e Va

au premier ordre. Si la précision avec laqueJle a est donné est du même ordre que
....
-0 ~ 2e fa nous pouvons estimer que le calcul a été effectué avec une précision suffisante .
0 "O
c i::
;:::s Nous voyons, sur cet exemple, que l'erreur inverse est le produit de l'erreur e
::J
0 ....
CX)
""'
~ par le coefficient multiplicateur 2-fo indépendant de cette erreur que nous appelons
~
0
0
'~

""'
·c::
conditionnement inverse du problème.
N
0
@ 'ro='
~
..c i::
0
O'I
·c i::
~
5.2 CONCEPTS GÉNÉRAUX
>-
Cl. ·s..
0
0
u
(.)

....00 Considérons un problème que nous modélisons par une application


..c:
o..
ro
......l S : IE ---+ JF .
1
"O
0
i::

Q
;:::s
IE est l'espace des instances du problème, lF est l' espace des solutions du problème et
@ S est l'application « solution» . Voici quelques exemples de telles situations:
56 5 • Le problème des erreurs

1. Systèmes d'équations linéaires. Soit A E e


une matrice inversible. Ils' agit de
11
XII

résoudre l'équation Ax = b. Ce problème est décrit par la donnée de b E IE = 11 e


et sa solution est S(b) = A- 1b E IF= e 11 •
2. Racines carrées. IE = ]0, oo[ l'ensemble des réels positifs, IF = ]0, oo[ et il faut
calculer la racine carrée d'un nombre a > O. L'application solution est S(a) =
;a.
3. Le problème symétrique des valeurs propres. IE = Sn (JR) est l'espace des matrices
n x n réelles et symétriques, IF = JR11 x JR. Etant donnée A E S11 (JR) le problème
considéré consiste à rechercher un couple (x , À) E JR11 x JR tel que Ax = Àx et
llx11 2 = 1. La définition de S n'est pas explicite : la solution (x , À) est décrite
par un système d'équations algébriques. On va donc utiliser le théorème des
fonctions implicites.
4. Equations polynomiales. IE = Pd(e) est .l'espace des polynômes complexes de
degré ( d et IF = e. Le problème posé est le calcul des racines d'un poly-
nôme f E Pd(e). La définition de l'application solution fait elle aussi appel au
théorème des fonctions implicites.
Le premier problème à envisager est celui de la sensitivité : on veut savoir comment
varie la solution S(a) E IF lorsque l'on fait varier a E IE. On suppose ici que S est de
classe C 1• Dans ce contexte, pour deux entrées voisines a et a' E IE, on a

S(a') - S(a) = DS(a)(a' - a)+ o(lla' - all)


d'où, au premier ordre (c'est le sens du 1 en indice),

llS(a') - S(a)ll (1 llDS(a)ll lla' - ail ·


Le nombre Il DS(a)ll (norme de l'opérateur linéaire DS(a)) est appelé le conditionne-
-0
ment du problème. Il dépend du problème (S), de l'instance considérée (a) mais pas
0
c de l'erreur sur les données (a' - a).
::J
0
CX)
0 Le second problème à envisager est celui du calcul approché de S(a). ~ous suppo-
0
N sons que a est connu de façon exacte mais que l'on calcule une quantité S(a) proche
@
~
c!_e S(a). L'analyse rétrograde des erreurs consiste à considérer la quantité calculée
..c
O'I
·c
S(a) comme la solution exacte S(a) d'un problème associé à une instance a voisine
>-
Cl. de a. On cherche alors à estimer lia - ail ce qui permet de savoir si la réponse S(a)
0
u est plausible compte tenu de la précision avec laquelle on connait a. Cette approche
conduit à l'étude du problème d'optimisation

mif!. lla - a Il
S (êi)=S(a)

dont la valeur est appelée erreur inverse ou erreur rétrograde.


5.3 Le théorème des fonctions implicites 57

Supposons, pour simplifier l'exposé, que la solution de ce problème de minimisation


soit donnée par une application de classe C 1

R: IF --+ lE.

Par construction nous avons


R(S(a)) = a
pour tout a. L'erreur inverse du problème est donnée au premier ordre par

mif! lla - ail = llR(S(a)) - R(S(a)) ll =


S (a) = S(a)

llDR(S(a)) ( S(a) - S(a)) +o ( ll S(a) - S(a) ll ) Il ~1 ll DR(S(a)) llll S(a) - S(a) ll ·


Le nombre ll DR(S(a)) ll est appelé le conditionnement inverse du problème. Il ne
dépend lui aussi que du problème (S) et de l'instance considérée (a) mais pas des
erreurs de calcul S(a) - S(a).

5.3 LE THÉORÈME DES FONCTIONS IMPLICITES


Bien souvent l' application solution associée à un problème donné n'est pas connue
de façon explicite m~ùs au travers d' une« équation définissante». C 'est le cas, par
exemple, pour le problème des valeurs propres ou bien pour les racines d'un polynôme
d
f( z ) = 2= akl = O.
k=O

.... D'une façon générale on dispose d' une application de classe C 1


-0 ~
0 "O
c i::
;:::s
::J
0 .... F : lExIF-dG
CX)
""'
~
~
0 '~
0
N ""'
·c:: et le problème est décrit par l'équation F(x , y ) = O. Par exemple, dans le cas des
0
@ 'ro=' équations polynomiales, F est la fonction d' évaluation
~
..c i::
0
O'I i::
·c ~ F : Pd(<C) x <C --+ <C, F(f , z) = f (z),
>-
Cl. ·s..
0
0 (.)
u ....00
..c:
et dans le cas du problème symétrique des valeurs propres
o..
ro
......l
1
"O
0
i::
;:::s
Q
@ Le théorème des fonctions implicites est adapté à l' analyse de telles situations:
58 5 • Le problème des erreurs

Théorème 5.1 Soit F : JE x IF -+ G une application de classe C 1 où JE, IF et G sont


des espaces de Banach. Supposons que F(a, x) = 0 et que D 2 F(a, x) : IF-+ G soit
un isomorphisme. Sous ces hypothèses, il existe un voisinage ouvert Va de a dans JE
et une unique fonction S définie et de classe C 1 sur Va, à valeurs dans un voisinage
ouvert Vx de x dans IF et telle que

S(a) = x et F(a' , S(a 1 )) = 0


pour tout a' E Va . De plus,

Nous allons illustrer ce théorème à l'aide del' exemple suivant :

5.3.1 Équations polynomiales : conditionnement


Avant tout, introduisons une structure hermitienne sur Pd(C). Son produit hermitien
est défini par

(!, g) = t (~ )_,
k=O
akbk

avec f(z) = ~~=O akzk et g(z) = ~~=O bkzk. Soit x E C donné. Notons

Px(z) = (l + xz)d E Pd·

On vérifie facilement que


f(x) = \f,p_,J
ce qui implique, par l'inégalité de Cauchy-Schwarz,
-0
0
c
::J
0 IJ(x)I ( llJll llPxll ·
CX)
0
0
N En prenant f = Px on obtient
@
~
..c
OI
·c
>-
Cl.
0
u de sotte que

Calculons maintenant le conditionnement du calcul des racines d'un polynôme. Soit

F : Pd(C) x C -+ C , F(f, z) = f (z).


5.3 Le théorème des fonctions implicites 59

Les dérivées partielles de F sont données par :

et
D2F(f , z) = J'(z).
Donnons-nous f et x tels que f (x) = O. Le théorème des fonctions implicites ne
s'applique que si D2 F(f, x) est un isomorphisme c'est-à-dire, dans ce contexte, si
f' (x) =F O. Cela signifie que x est une racine simple de f. Sous cette hypothèse, il
existe une application solution S définie dans un voisinage de f, à valeurs dans un
voisinage de x, telle que S(f) = x et g(S(g)) = 0 pour tout polynôme g dans ce
voisinage. On a, au premier ordre, c' est-à-dire à un terme en o(f - g) près,

S(g) ~ S(.f) + DS(f)(g - /)

c'est-à-dire
S( ) ~ _ (g - f )(x)
g X f'(x)
de sorte que

S( ) - 1 ~ lg(x) - /(x) I ~ Il/ - Il (1 + lx l2)d/ 2


I
g x lf'(x) I ~ g lf'(x) I
Le conditionnement du problème associé à cette norme est donné par
(1 + lx 12)d/2
cond(f , x) = lf'(x) I

Noter que ce conditionnement est d'autant plus« mauvais» (c'est-à-dire grand) que
f'(x) est petit c'est-à-dire lorsque x est« presque» une racine double .
....
-0 ~
c
0 "O
i::
5.3.2 Exemple numérique
;:::s
::J
0 ....
CX)
""'
~
~
Considérons le polynôme de Pochhammer : ses racines sont les entiers 1, 2, . . . , 20,
0 '~
0
""'
·c::
N
@
0 f(x) = (x - l)(x - 2) ... (x - 20).
~
'ro='
..c i::
O'I
0
i::
La figure 5.1 montre les valeurs du conditionnement cond(/, x) pour les différentes
·c ~
>-
Cl. ·s.. racines. On remarque des valeurs importantes du conditionnement (valeurs del' ordre
0
0
u
(.)

....00 de 10 10 ) à partir de la racine 12, avec un maximum pour la racine 16.


..c:
o.. La figure 5.2 montre les racines dans le plan complexe du polynôme de Pochham-
ro
......l mer dont les coefficients ont été perturbés par des valeurs aléatoires de distributions
1
"O
0
gaussiennes centrées et d'écarts-type 10-5 . Malgré les valeurs faibles de ces pertur-
i::

Q
;:::s
bations, on observe une modification importante des racines proches de 16 dont le
@ conditionnement est élevé.
60 5 • Le problème des erreurs

1
X 10 0
4.5
0
0
0
0
3.5
0 0 0
0
2.5 0
0 0000000 0
0 0
0
-2 0
15
-4 0
0
0 -6
0
0.5
0 0
0 ------- - - -"
) 0
-8
0 - - - - 5 - - - - iO 15 20 0 10 15 20 25 30

Figure 5.1 Valeu r du conditionnement pour Figure 5.2 Racines du polynôme de


les racines du polynôme de Pochhammer. Les Pochhammer perturbé. Les racines sont
valeu rs des racines sont portées en abscisse. représentées dans le plan complexe.

5.3.3 Équations polynomiales : erreurs inverses


Supposons que f (x ) = 0 et quel' on ait calculé une approximation x' de x . Quel est le
polynôme g E Pd qui vérifie g(x' ) = 0 et qui minimise la quantité Il f - g Il ? Notons

Hx' = {g E Pd : g(x') = O}.


C'est un sous-espace vectoriel de Pd et, en vertu de l' égalité h(x') = (h , Px') , c'est le
sous-espace orthogonal à Px' . On a

g E Hx et 1
Il! - gll = hmin
EH x'
Il! - hll
-0
0
c
::J lorsque g est la projection orthogonale de f sur Hx' . La décomposition orthogonale
0
OO de f est alors
0
0

{~~'.j2 )d (1 + X' d
N
@
......
f (z) = Ap, ,(z) + g(z) = (1 + g(z).
..c
en
ï::::
>-
a. Cela résulte de l' égalité
0
u

On en déduit que

If (x')I
5.4 Le cas des systèmes linéaires : conditionnement d'une matrice 61

qui est l ' etTeur inverse du problème.

L'application R: C---+ Pd(C ) qui à x' associe la solution optimale g est égale à

Puisque f (x) = 0, la dédvée de R en x est donnée par le polynôme en z


DR(x)(z) = lim R(x')(z) - R(x)(z) =- f'(x ) (1 + xz)d
· x'~x x'-x (l+ lx l2)C1

dont la norme (c'est-à-dire le conditionnement inverse en (f, x )) vaut

l!'Cx) I
llDR(x) ll = (1 + lx l2)d/ 2.

5.4 LE CAS DES SYSTÈMES LINÉAIRES: CONDITIONNEMENT


D'UNE MATRICE
Soit A E C 11 xn inversible. Nous supposons que C 11 est équipé d' une norme quelconque
et C11 xn d' une norme multiplicative et consistante avec la précédente.
À deux données voisines b et b' E C 11 cotTespondent deux solutions : Ax = b et
Ax' = b' de ce système. L'erreur commise sur la solution est

de sorte que
....
-0 ~
0 "O Ce résultat signifie que .l'erreur absolue faite sur x est bornée par celJe faite sur la
c i::
;:::s
::J
0 .... donnée b multipliée par le facteur d' amplification ll A-' 11 · Ce nombre est appelé
CX)
""'
~
~ conditionnement absolu du système Ax = b. Comme
0 '~
0
N ""'
·c::
0
@ 'ro=' IJbll ( llAllllx ll
~
..c i::
0
O'I i::
·c ~ on a aussi
>- ·s..
Cl.
0 0
(.)
llx' - x ll ~ llAllll A- Jll llb' - b ll
u ....00 llx Il "' llb ll '
..c:
o..
ro l' eITeur relative faite sur x est bornée par l' eITeur relative faite sur b multipliée par le
......l
1 facteur d'amplification ll AllllA- 1 Il ·
"O
0
i::

Q
;:::s
Définition 5.2 On appelle conditionnement d'une matrice A E GlL11 le nombre
@ cond(A) = ll Allll A- 1 li · Ce conditionnement dépend de la norme considérée sur
62 5 • Le problème des erreurs

en xn_ On note cond2 , cond 1, cond00 et condp le conditionnement associé à la norme


spectrale, aux normes li -I li et 11 -1100 décrites à l'exemple 3.1 età la norme de Frobenius.

Supposons maintenant que l'on commette à la fois une erreur sur le second membre
b mais aussi sur la matrice A d'un système, quelle erreur commet-on sur sa solution?
Une réponse
. est donnée par
. le théorème suivant :

e
Théorème 5.3 Etant donné des matrices A et E E 11 xn, A inversible, avec
Il A - 1 11 11E Il < 1, soient b et b' E en et soient X et x' E e n tels que

Ax = b et (A + E)x' = b'.
Sous ces hypothèses

llx' - x Il 1 ( llb' - b ll
~
1 )
llx ll l-llA- 1 llllE ll llb ll cond(A)+ llA- ll llE ll .
Démonstration. Notons que, par le corollaire 3.15, la matrice A+ E est
inversible de sorte que x' existe bel et bien. On écrit que

x' - x = (!11 + A- 1E)- 1 (A - 1(b' -b)- A- 1 Ex)

puis on utilise la proposition 3.14 et l'inégalité llbll ~ llAll llxll ·

Remarque 5.1. L'approche « calcul différentiel » donne le résultat suivant.


Posons S(A, b) = A- 1b. On a au premier ordre x' - x ~

de sorte que
-0

llx' - x Il ~ llb' - bll cond(A) + Il A - ' li 11 E Il


0
c
::J
0 llx ll "' llbll
CX)
0
0
N expression égale au premier ordre à celle du théorème 5.3. C'est rassurant!
@
~
..c Le conditionnement associé à la norme spectrale s'exprime bien à l'aide des valeurs
O'I
·c singulières de la matrice :
>-
Cl.
0
u Théorème 5.4 Pour toute matrice A E CGIL11 on a:
1. cond2 (A) = cond2 (A- 1),
2. cond2 (A) ~ 1,
3. Quelles que soient les matrices unitaires U et V E lUn, cond2 (U A V)
cond2 (A),
5.4 Le cas des systèmes linéaires : conditionnement d'une matrice 63

4. Si u 1 ) ••• ) u 11 > 0 sont les valeurs singulières de A alors cond2(A) =


(]" J / 0"11.

Démonstration. l est évident. 2 est une conséquence de 4 ; 3 aussi parce


que les valeurs singulières de A et celles de UA V sont les mêmes. Pour
prouver 4 on utilise le théorème 3.9 qui donne Il A 112 = 0"1 et IlA - 1 112 = 0";;- 1
(voir l ' exercice 4.7.)

Définition 5.5 On dit qu'une matrice est mal conditionnée lorsque son conditionne-
ment est grand, bien conditionnée lorsque son conditionnement est petit.

Le conditionnement d' une matrice a une interprétation géométrique que nous allons
décrire:

Théorème 5.6 (Eckart-Young, 1936) Notons k n l'ensemble des matrices n x n non-


inversibles. On a :
ll A ll2
cond2(A ) = d ( ""' )
F A , ~Il

Démonstration. L' inégalité d p(A , k 11 ) - 1 ( ll A - 1 112 résulte du fait suivant:


si llS ll2 < 1 alors In - S est inversible (proposition 3.14). Comme pour tout
B E kn on a aussi A- 1 B E k 11 on obtient
1
1 ~ li111 - A- B ll2 = ll A- 1(A - B) ll2 ~
1 1
ll A- ll2 llA - B ll2 ( llA- ll2ll A - B llF ·
Pour prouver l'inégalité inverse considérons X E <C11 tel que
.... llx ll2 1 et llA- 1 112 llA- 1xll2- Un tel x existe puisque
~
-0
c
0 "O
i::
ll A- 1 112 max llxlli = l llA- 1xll2 - Posons z A - 1 x/ l l A - 1 x ll~ et
;:::s
::J
0 .... B = A - xz* . La matrice Best singulière parce que
CX)
""'
~
~
0
0
'~

""'
·c:: AA- 1 *A- 1 ( A - 1X )* A- 1 0
N
0 B(A - l
X
)
= X - xz X = X - X IlA - 1X Il~ X =
@ 'ro='
~
..c i::
0
O'I
·c i::
~
alors que A - 1x =/= O. On en déduit que
>-
Cl. ·s..
0
0 (.)
u ....00
..c:
o..
ro
......l
1
"O
0
i::
;:::s
Q
Le résultat précédent signifie que les matrices mal conditionnées sont celles qui
@ sont proches des matrices singulières.
64 5 • Le problème des erreurs

5.5 LE CAS DES SYSTÈMES LINÉAIRES : ERREURS INVERSES


Donnons-nous une matrice A E GLn, un vecteur b E C 11 , la solution x = A - i b
du système Ax = b et une approximation x' de x. Quelle est la plus petite matrice
E E C 11 x 11 telle que (A+ E)x ' = b. Plus petite est ici à prendre au sens d'une norme.
Cette question est traitée dans le théorème suivant :

Théorème 5.7 {Rigal-Gaches, 1967) Pour tout x' E C 11 non nul on a

mm
E E cnxn
(A+ E)x' = b

Le minimum est atteint pour

A(x - x' )x'*


E = -----
JJx'JJ~
Démonstration. Si (A+ E)x' = b et Ax = b alors A(x' - x) =- Ex' et
donc JJA(x' - x)Jl2 ~ IJ
EJl2llx'll2· Ceci prouve que
llA(x' - x)IJ2 ~ llEll 2
llx'll2 ~
et il y a égalité lorsque
A(x - x')x'*
E= - - - - -
J lx' I J~
(voir l'exercice 3.12).

-0
0 Ce théorème prouve que l' eneur inverse commise est égale à
c
::J
0

llEll2= l A(x'llx'-112x)ll2 ~~ llAll2llx'llx'll2


- xlJ2
CX)
0
0
N .
@
~
..c
O'I
·c
>-
5.6 PRÉCONDITIONNEMENT D'UN SYSTÈME LINÉAIRE
Cl.
0
u L'objectif du préconditionnement d ' un système linéaire est de diminuer la valeur du
conditionnement de la matrice du système. Pour cela on remplace le système par un
système équivalent. On distingue trois types de préconditionnements :

• Le préconditionnement à gauche consiste à remplacer le système Ax = b par


le système C Ax = C b où la matrice C est inversible.
S. 7 Notes et références 65

• Le préconditionnement à droite est obtenu en considérant le système A Dy = b


où D est inversible. La solution du système initial est alors donnée par x = Dy .

• Le préconditionnement à gauche et à droite qui combine les deux précédents:


CADy = Cb.

Les matrices C et D sont appelées matrices de préconditionnement. Dans tous les cas,
on cherche à diminuer la valeur du conditionnement :

cond(C A), cond(AD) et cond(C AD) ~ cond(A).

On a bien sûr un choix optimal de préconditionnement en prenant C = A- 1 dans


le cas du préconditionnement à gauche (ou à droite), ce qui veut dire qu'on a résolu
le problème ! Bien entendu ce choix ne présente aucun intérêt. Dans la pratique, on
recherche des matrices C qui permettent d'une part d'obtenir des valeurs faibles de
cond( CA) et d'autre part de ne pas augmenter de manière significative la complexité
du calcul de la solution du système.
Un exemple classique de préconditionnement qui permet dans certains cas de dimi-
nuer sensiblement le conditionnement du système est obtenu en normalisant les lignes
ou les colonnes du système. Dans le cas des colonnes, cela revient à considérer le pré-
conditionnement à droite avec la matrice diagonale D = diag(l / llc1 112, ... , l / llc11 ll2)
où ci sont les vecteurs-colonne de la matrice A .
Voici un exemple de préconditionnement à droite obtenu en normalisant les colonnes
de la matrice de Vandermonde (paragraphe 16.4) A E ~ 12 x 12 basée sur les points
xi = lO(i + 1), i = 0 , ... , 11 ,. On obtient les valeurs cond2 (A) = 1.3765 10
26 et
cond2 (AD) = 2.4457109 .
Nous verrons au paragraphe 10.6 que le préconditionnement est également utilisé
.... dans les méthodes itératives car il permet d'accélérer la convergence des suites .
-0 ~
0 "O
c i::
;:::s
::J
0 ....
CX)
""'
~
~
0
0
'~

""'
·c::
5.7 NOTES ET RÉFÉRENCES
N
0
@ 'ro='
~
i::
Deux articles fondent véritablement le sujet abordé dans ce chapitre dans l'immédiat
..c 0
O'I
·c i:: après-guerre. Ce sont: « Numerical lnverting of Matrices of High Order (1947) » [13]
~
>-
Cl. ·s..
0
par H. Goldstine (1913-2004) etJ. Von Neumann (1903-1957) et «Rounding-off errors
0 (.)
u ....00 in matrix processes (1948) » [35] par A. Turing (1912-1954). Mais c'est à J. Wilkinson
..c:
o.. (1919-1986), qui fut assistant de Turing, que l'on doit d'avoir approfondi cette question
ro
......l dans les deux ouvrages: Rounding Errors in Algebraic Processes (1963) [36] et The
1
"O
0 Algebraic Eigenvalue Problem (1965) [37]. Nous recommandons la lecture du livre de
i::
;:::s
Q
Stewart-Sun Matrix Perturbation Theory [34] qui est désormais un classique! Parmi
@ les ouvrages récents citons ceux de F. Chaitin-Chatelin et V. Frayssé Lectures on Finite
66 5 • Le problème des erreurs

Precision Computations (1996) [8], N. HighamAccuracy and Stability of Numerical


Algorithms (2002) [18] qui traite en détail les problèmes issus de l'algèbre linéaire et
enfin Complexity and Real Computation (1997) [6] par L. Blum, F. Cucker, M. Shub
et S. Smale plus versé vers les problèmes polynomiaux.
'' ' '

-0
0
c
::J
0
CX)
0
0
N
@
~
..c
O'I
·c
>-
Cl.
0
u
Exercices 67

EXERCICES

Exercice 5.1
Calculer la solution des systèmes suivants A X = B 1 et A X = B2 où :

A = ( 0.780 0.563 ) B = ( 0.217 ) B2 = ( 0.216.999 )


0.913 0.659 ' l 0.254 ' 0.254
et calculer cond2(A).

Exercice 5.2
Montrer que pour toutes matrices A et B E en X Il' A inversible et B # A- 1
' on a

Exercice 5.3
Soit A E enxn une matrice hermitienne définie positive. On va montrer que, pour
tout X E en, X # 0,
2
< Ax ,x >< A - 1x,x > ((cond2A) 112 +(cond2A) - 112)
1~ ~ ------------
< x , x >2 4
(inégalité de Kantorovitch).
l. Notons A1 ) A2... ) A,1 > 0 les valeurs propres de A. Montrer que l'on peut
.... écrire
~ 1
< Ax,x >< A- x , x > = (~ a i Ài) (~a;)
-0
0 "O
c i::
;:::s
::J
0 .... <X X >2 L L À· 1
CX)
""'
~
~
' i=I i=.I
0
0
N
'~

""'
·c:: pour des ai ) 0 tels que L: a; = 1. Indication: diagonaliser A en base ortho-
0
@ 'ro=' normée.
~
..c i::
O'I
0
i::
2. Montrer que
·c
>-
Cl.
~
·s.. 1
--- ~
~ ai
L - ~
À1 + Àn
-------
- L: aiÀi
0
u
0
(.)

....00 2.: aiÀi À; À1 Àn


..c:
o.. Indication : utiliser un argument de convexité .
ro
......l
3. Calculer
À1 + Àn -
1
"O À
0
i::
max A- - - -
;:::s A,. ~A~A 1 À 1À11
Q
@ et conclure.
68 5 • Le problème des erreurs

Exercice 5.4
Soit
1 1/ 2 1/ 3 )
A = 1/ 2 1/ 3 1/ 4 .
(
1/ 3 1/ 4 1/ 5
Donner un minorant du conditionnement de A à l'aide de l'inégalité de Kantorovitch.

On prendrax = ( ~).
Exercice 5.5
Calculer cond2 A(a, b, c) avec a E ~etc = b, et où A(a , b, c) est la matrice décrite
à l'exercice 1.13.

-0
0
c
::J
0
CX)
0
0
N
@
~
..c
O'I
·c
>-
Cl.
0
u
Chapitre 6

Pivot de Ciauss et décomposition LU

6.1 RÉSOLUTION DES SYSTÈMES TRIANGULAIRES


Soient A E <C11 XII triangulaire supérieure et b E C 11 • On suppose que la matrice A est
inversible c'est-à-dire que a; i i= 0 pour tout i. Le système Ax = b

a1n - 1 a111
a211-I azn

0 0 a11-111-1 a11 - 111 b11 - ]

0 0 0 a,m bn
se résout de la façon suivante (la notation i = n - 1 : - 1 : 1 indique que l'indice i
-0
0 décroît den - 1 à 1 avec un pas égal à - 1):
c
::J
0
CX)
0 Algorithme de résolution d'un système triangulaire
0
N
@
~
X11 = b11/a,111
..c
O'I
·c
pour i = n - 1 : - 1 : 1
>-
Cl. Xi= b;
0
u pour k = i + 1 : n
Xi = Xi - GjkXk
fin
xi= x;/au
fin
70 6 •Pivot de Gauss et décomposition LU

Cette méthode requiert n 2 opérations arithmétiques. Noter que les erreurs commises
à une étape du calcul se propagent aux étapes suivantes.

6.2 L'ÉLIMINATION DE GAUSS


Le procédé d'élimination de Gauss pour résoudre un système linéaire n x n consiste à
uti1iser la première équation pour exprimer la première inconnue x 1 en fonction des
autres x 2 , .. . , Xn puis à reporter la valeur ainsi trouvée dans les équations suivantes.
On obtient alors un système n - 1 x n - 1 en les inconnues x 2 , ... , x 11 auquel on
applique la même méthode. Ce procédé permet d'obtenir, après n - 1 telles étapes,
un nouveau système qui est triangulaire et équivalent au premier : tous deux ont les
mêmes inconnues et leurs solutions respectives sont les mêmes.
Etudions un exemple :

3xi + 2x2 + x3 1,
x, + 3x2 + 2x3 2,
2x, + 4x2 + 6x3 3.

Calculons x 1 en fonction de x 2 et x 3 en utilisant la première ligne et reportons dans E 2


et E 3. Ceci revient à remplacer E 2 par E~ = E 2 - E 1/ 3 et E 3 par E~ = E 3 - 2E 1/ 3.
On obtient
1,
5
3'
7

-0 Dans l' étape suivante, on calcule x2 en fonction de x 3 en utilisant la seconde ligne et


0
c
::J
on le reporte dans E~ . On remplace E~ par Ef = E~ - 8 E~/7 ce qui conduit à
0
CX)
0
0
N E, 1,
5
@ E'2
~
..c E"
~'
OI 3 7.
·c
>-
Cl.
0
u Ce dernier système est triangulaire et sa solution est x 3 = 1/ 8, x 2 = 5 / 8, x 1 = - 1/ 8.

Plus généralement, pour une matrice A E C 11 x 11 et un second membre b E C 11 ,


l'algorithme suivant retourne, lorsque les divisions par zéro n'apparaissent pas, un
système triangulaire équivalent à Ax = b :
6.3 Décomposition LU 71

Algorithme d'élimination de Gauss

pour i = 1 : n - 1
pour j = i + 1 : n
a ji = 0
b·J = bJ· - '!.il
a;; t
b.
pour k = i + l : n

a J.k = a .l.k. - '.a::1!...a.k
;; i

fin
fin
fin

6.3 DÉCOMPOSITION LU
Le calcul de base du procédé d'élimination de Gauss est l'addition à une ligne de A
d'une autre ligne multipliée par un scalaire. Cette opération peut se décrire comme un
produit matriciel.

Définition 6.1 Étant donnés deux entiers distincts l ::; i , j ::; net un scalaire À E C,
la matrice élémentaire E(i , j, À) E cnxn a pour coefficients ekk = 1 pour tout
k = 1 . .. n, ei.i = À et ekz = 0 pour les autres entrées de la matrice.

....
-0 ~ 1
0 "O
c i::
;:::s
::J
0 ....
CX)
""'
~

0
~
'~ 1
0
N ""'
·c::
@
0 E(i , j , À) =
'ro='
~
..c i::
0
À 1
O'I i::
·c ~
>-
Cl. ·s..
0
0
u
(.)

....00 0 1
..c:
o..
ro
......l
1
"O
0
i::
;:::s Les propriétés attendues des matrices élémentaires sont données par la proposition
Q
@ suivante dont la démonstration est laissée à titre d'exercice:
72 6 •Pivot de Gauss et décomposition LU

Proposition 6.2
1. Pour toute matrice A E cnxn dont les lignes sont notées L h 1 ( k ( n, les
lignes de la matrice E(i, j , A)A sont L k si k -/= i, Li+ AL j si k = i,
2. Notons Ch 1 ( k ( n, les colonnes de A. Les colonnes de la matrice A E(i , j , A)
sont Ck si k -/= j, C j +AC si k = j,
3. Lorsque i > j la matrice E(i , j, À) est triangulaire inférieure,
1
4. E (i, j , À) est inversible, son déterminant est égal à 1 et E(i , j, À) -
E(i , j , - A).

Algorithme d'élimination de Gauss (matrices élémentaires)

pour i = 1:n - 1
pour j = i+1:n
. i ' - a.;;
A = E( ], a ..
)A
/.1

b = E(. i - c.!J.i. )b
J' ' a;;
fin
fin

L'effet de la boucle j est de multiplier à gauche la matrice courante A par le produit


de matrices élémentaires
. a ni . . ai+li
E(n , z, - - ) ... E(z + 1, z, - - - ).
au au

Un tel produit de matrices élémentaires est égal à la matlice

1
-0
0
c
::J
0 1
CX)
0
E(n, i , A11 ) ••• E(i + 1, i , À i+i ) =
0
N
@
~
..c
O'I
·c
1
>-
Cl.
0
u Définition 6.3 La matrice précédente est appelée matrice d'élimination. Elle se note

E(n , i, A11 ) ••• E(i + l , i , À; +1 ) = E(i , À i+t, ... , A,z).

Ces matrices ont les propriétés suivantes données sans démonstration :

Proposition 6.4
6.3 Décomposition LU 73

1. E(i , Ài+l, ... , À11 ) est triangulaire inférieure à diagonale unité,


2. det E(i , Ài+I , .. . , À11 ) = 1,
1
3. E(i , Ài+J, . . . , À,z)estinversibleetE(i , Ài+l, · ·· , À,z) - = E(i ,-Ài+J, . . . ,-À,z) .

L'algorithme d'élimination de Gauss s'écrit désormais:

Algorithme d'élimination de Gauss (matrices d'élimination)

pour i = 1:n - 1
A = E(i _a; + i ; .. . -~ )A
' a; ; ' ' a;;
b = E(i _ a;+ 1; . . . _ a,,; )b
' a;; ' ' a;;
fin

Il fournit une matrice triangulaire supérieure U en multipliant A à gauche par n - 1


matrices d'élimination. Leur produit est une matrice triangulaire .inférieure à diagonale
unité que nous notons L - 1• On a donc décomposé A = LU avec U triangulaire
supérieure et L triangulaire intérieure à diagonale unité.

Définition 6.5 On appelle décomposition LU d'une matrice A E C 11 xn toute identité


A = LU avec U triangulaire supérieure et L triangulaire inférieure à diagonale
unité.

Pour obtenir cette décomposition nous avons effectué un certain nombre d'opé-
rations du type a1ifaii. Nous devons nous assurer que nous ne divisons pas par 0 !
L'algorithme serait alors en défaut comme par exemple pour la matrice

....
-0 ~
0 "O
c i::
;:::s
::J
0 ....
CX)
""'
~
~
0 '~
0
""'
·c:: Il « se bloque » juste après la première étape puisque l'on obtient la matrice
N
0
@ 'ro='
~
..c i:: 1 1
0
O'I
·c i::
~
0 0
>-
Cl. ·s..
0
( 0 - )
0 (.)
u ....00
..c:
o.. dont le coefficient a22 est nul. De façon plus précise :
ro
......l

"O
1
Théorème 6.6 Pour toute matrice A E <GL,1
0

Q
i::
;:::s
1. Une décomposition LU de A existe si et seulement si det A(l : k , 1 : k) =I 0 pour
@ tout k = 1 ... n.
74 6 •Pivot de Gauss et décomposition LU

2. Lorsqu 'elle existe, la décomposition LU est unique.


Démonstration. Prouvons la première assertion. Si A = LU il est facile
de voir que A( l : k, 1 : k) = L(l : k , 1 : k)U(l : k, 1 : k) de sorte
que detA(l : k, 1 : k) = u 11 ••. ukk· Puisque A E <GlLn on a detA =
u.11 ... u 1111 f= 0 et donc det A(l : k, 1 : k) f= O. Ceci prouve que la condition
det A(l : k , 1 : k) f= 0 est nécessaire.
Pour voir qu' elle est suffisante nous allons raisonner par récurre nce. La
première étape d'élimination peut être effectuée parce que a 11 = det A ( 1 :
1, 1 : 1) f= O. Supposons avoir réalisé k - 1 étapes avec succès ce qui nous a
conduit à la décomposition

UJ k U 1 k+ l U1n

0 Ukk Ukk+l
A=L
0 Û Vk+I k+l

0 0 Vn k+l

où L est une matrice triangulaire inférieure à diagonale unité. Pour pour-


suivre l'algorithme, il faut être assuré que Vk+ J k+I f= O. Notons que

UJJ UJk UJ k +l

A(l: k+ l , 1: k+l) = L(l: k+l , 1: k+ l)


0 Ukk U kk+l
0 Û Vk+I k+l

-0
de sorte que detA(l : k + 1, 1 : k + 1) = u 11 .. . ukkvk+ l. k+l · Comme
c
0
det A(l : k + 1, 1 : k + 1) i= 0 il en est de même pour Vk+L k+I ·
::J
0
CX)
Reste à prouver que la décomposition LU est unique. Si A= L 1 U1 = L 2 U2 ,
0
0 puisque A est inversible les matrices L i et Ui le sont aussi et L 2 1L 1 =
U2 u,- 1. On reconnaît à gauche une matrice triangulaire inférieure à diago-
N
@
~
.c nale unité et à droite une matrice triangulaire supérieure; la seule matrice
ayant ces deux vertus est / 11 d'où L 1 = L 2 et U1 = U2.
O'I
·c
>-
Cl.
0
u
6.4 PIVOT PARTIEL, PIVOT TOTAL
La première étape de la méthode d'élimination de Gauss fait jouer un rôle particulier
au coefficient a 11 de la matrice A. On l'appelle pivot de la méthode et, pour cette
raison, on parle souvent de la méthode du pivot de Gauss. Le choix de a 11 comme
6.4 Pivot partiel, pivot total 75

pivot n' est pas le seul possible: on obtient un système équivalent en permutant entre-
elles les différentes équations ou bien en prenant les inconnues dans un ordre différent
et, à ces nouveaux systèmes, on peut aussi appliquer la méthode du pivot de Gauss.
Ces différentes stratégies ne sont pas sans influence du point de vue du calcul des
erreurs.

6.4.1 Etude d'u n exemple


Considérons le système suivant :
10- 3x + y
{ X+ 10y
= b1
= b2
Il est équivalent au système

{ X+ lOy
b2
10- 3x + y
= b1
=

obtenu en permutant les deux équations ainsi qu'au système


lOy +x = b2
{ y+ 10- 3 x = bi
où l'on a permuté l'ordre des inconnues.
Notons A la matrice du premier système et U(A) la matrice triangulaire supérieure
obtenue par la méthode du pivot de Gauss. On a :
3 3
A = ( 10- 1 ) U(A) = ( 10- 1 )
1 10 ' . 0 -990 .
Notons B la matrice du second système et U(B) la matrice triangulaire supérieure
obtenue par la méthode du pivot de Gauss. On a :

~
.... B = (id-3 110 ) , U(B) =( ~ 01g9 )
-0
c
0 "O
i::
Le troisième système conduit de même aux matrices
;:::s
::J
....
~ -0.~99 )
0 1
CX)
0
0
N
""'
~
~
'~

""'
·c::
C = ( 1° 1d-
3 ) ' U(C) = (
0
@ 'ro=' Quoique tous ces systèmes soient équivalents ils ont des comportements très différents
~
..c i::
0
quant au conditionnement. En effet :
O'I i::
·c
>-
Cl.
~
·s..
0
cond2 (A) = cond2 (B) = cond2 (C) = 103.0205972,
0 (.)
u ....00 cond2 (U(A)) = 990001.0100,
..c:
o..
ro cond2 (U(B)) = 103.0004933,
......l

"O
1
cond2 (U(C)) = 102.0203000.
0
i::

Q
;:::s
Dans le passage de A à U(A) on constate que le conditionnement de A a été détruit,
@ restauré avec U (B) et amélioré avec U (C).
76 6 •Pivot de Gauss et décomposition LU

6.4.2 Matri ces de transposition

Définition 6.7 Pour deux entiers 1 ~ i, j ~ n distincts on note P(i , j) E C x la11 11

matrice dont les entrées sont Pkk = 1 lorsque k i= i et k i= j, Pij = P.ii = 1, Pkl = 0
dans les autres cas. Cette matrice est appelée matrice de transposition.

l J

0 1 l

P(i , j) =
1 0 J

Ces matrices servent à permuter deux lignes ou deux colonnes dans une matrice
donnée. De façon plus précise, on a :

Proposition 6.8
1. P(i , j) est orthogonale et symétrique,
2. P(i , j)A est la matrice dont les lignes sont celles de A, les lignes i et j étant
-0
0
permutées, les autres inchangées,
c
::J
0 3. AP(i , j) est la matrice dont les colonnes sont celles de A, les colonnes i et j
CX)
0 étant permutées, les autres inchangées.
0
N
@ Définition 6.9 On appelle matrice de permutation un produit de matrices de transpo-
~
..c sition.
O'I
·c
>-
Cl.
0
u
Si P est une telle matrice, PA (resp. A P) est une matrice dont les lignes (resp.
des colonnes) sont celles de A prises dans un ordre différent. Noter que toutes les
permutations possibles des lignes (resp. des colonnes) peuvent être ainsi obtenues
parce que toute permutation est un produit de transpositions.
6.4 Pivot partiel, pivot total 77

6.4.3 Pivot partiel


La méthode du pivot partiel consiste à choisir pour pivot le coefficient de plus grand
module de la première colonne de A :

Notons que ail i= 0 puisque l'on a supposé que A est inversible. On pourra donc
diviser par a; 1• On obtient un nouveau système en permutant dans A les lignes l et
i et en laissant les autres inchangées. Puis on applique une étape d'élimination à ce
nouveau système. En termes de produits mat1iciels on a commencé par multiplier A à
gauche par la matrice de transposition P(l , i) puis par une matrice d'élimination:
a21 a111 .)
E(l , - - , . . . , - - )P(l, z A
a;1 ail
que l' on note plus simplement E 1P 1A. Les autres étapes sont identiques à la première :
recherche d' un nouveau pivot puis élimination pour obtenir

où U est triangulaire supérieure.

6.4.4 Pivot total


La méthode du pivot total prend pour pivot aij tel que

On doit donc permuter les lignes 1 et i ainsi que les colonnes 1 et j . Ceci revient à
.... considérer la matrice P(l, i)AP(l , j) au lieu de A. Le système à résoudre est donc
-0
0
~
"O P (l, i)A P (l , j)y = P(J , i)b avec y = P(l , j)x au lieu de Ax = b puis on effectue
c i::
::J ;:::s
.... une étape d'élimination. Après n - 1 telles opérations on a :
0
CX)
""'
~
~
0 '~
0
N ""'
·c::
0
@ 'ro='
~
i::
où V est triangulaire supérieure.
..c 0
O'I i::
·c ~
>-
Cl. ·s..
0 6.4.5 Une justification
0 (.)
u ....00
..c:
o.. Le choix de ces stratégies est motivé par l'analyse que l'on fait des erreurs dans une
ro
......l division ou dans le calcul de l'inverse d'un nombre réel. Soient x eth E ffi. avec x et
1
"O
0
x +hi= O. On a, au premier ordre,
i::
;:::s
Q 1 1 h
@ -- --~--
X+ h X x2
78 6 •Pivot de Gauss et décomposition LU

ce qui prouve que l'erreur commise dans le calcul de l'inverse est d'autant plus grande
que le nombre par lequel on divise est petit et d'autant plus petite que le diviseur
est grand. Les choix du pivot partie] et celui du pivot total sont motivés par ces
considérations : on minimise les erreurs d'arrondi en divisant par le pivot de plus
grand module.

6.4.6 Exemple numérique


Considérons le système Ax = b où A est une matrice de Vandermonde (voir para-
graphe 16.4) 8 x 8 définie par des points choisis aléatoirement. Posons x = (1, ... , 1)7'
et prenons pour second membre b = Ax = A(l , ... , l)T. La solution exacte de ce sys-
tème est bien sûr x = (1 , ... , lf. La solution calculée par la méthode d'élimination
de Gauss donne les normes d' erreurs suivantes :

0.0032 pour la méthode sans stratégie de pivot,

1.2279 10- 13 pour la méthode avec stratégie de pivot partiel,

3.859910- 14 pour la méthode avec stratégie de pivot total.

La méthode d'élimination de Gauss sans stratégie de pivotage peut donc détériorer


la solution du système. Dans la plupart des cas on observe que la stratégie de pivot
pa1tiel est suffisante pour obtenir des résultats satisfaisants.

6.4.7 Décompositions PLU et LUP


Une conséquence des méthodes du pivot partiel ou du pivot total est résumée dans le
théorème suivant :
-0
0
c
::J
Théorème 6.10 Pour toute matrice A E GIT....n il existe une matrice de permutation P,
0 une matrice triangulaire inférieure à diagonale unité L et une matrice triangulaire
CX)
0
0 supérieure U telles que PA= LU.
N
@
~
Démonstration. Elle est basée sur la méthode du pivot partiel qui permet
..c
O'I
·c d'écrire En-1Pn-1 ... EzP2E1P1A = U que l'on écrit de façon plus com-
>-
Cl. pliquée
0
u E11-1E:1 _ 2 ... E~ PA= U

avec E~ = Pn-1 Pn-2 ... Pk+1 Ek Pk+l ... Pn-2 Pn-1 et P = P11-1 Pn-2 . .. P1
(noter que P? = 111 pour toute matrice de transposition). Il faut, pour
conclure, se convaincre que les matrices E~ sont encore des matrices
d'élimination (examiner le cas Pk+ 1E k Pk+ 1 et continuer par récurrence).
6.4 Pivot partiel, pivot total 79

Une autre possibilité est de rechercher le premier pivot dans la première ligne de A,
ce gui revient à multiplier A à droite par une matrice de permutation, puis à effectuer
une étape d'élimination de Gauss. La nouvelle matrice est du type E 1AP1 et, après
n - 1 telles étapes, on obtient

On a prouvé que :

Théorème 6. 11 Pour toute matrice A E GIT..11 il existe une matrice de permutation P ,


une matrice triangulaire inférieure à diagonale unité L et une matrice triangulaire
supérieure U telles que A P = LU.

6.4.8 Le cas des matrices rectangulaires


Le procédé d'élimination de Gauss s'applique aussi aux systèmes d'équations linéaires
dont le nombre d'équations et celui d'inconnues sont différents. Il permet, dans le cas
le plus général, d'obtenir un système échelonné équivalent.

Définition 6.12 Une matrice E E cm xn, E =/= 0, est échelonnée lorsqu'il existe des
entiers 1 ~ r ~ min(m , n) et 1 ~ n 1 < n1 < ... < nr ~ n tels que:
1. Les lignes 1 à r de E ont la structure suivante: pour 1 ~ i ~ r et 1 ~ j < ni on a
eij = 0 et ein; =/= 0,
2. Les lignes r + 1 à m sont nulles : pour r + l ~ i ~ m et l ~ j ~ n on a eij = O.
Un système linéaire est échelonné lorsque c 'est le cas de la matrice de ce système.

n,.

.... X X X
-0 ~
0 ... 0 =/= 0 X X
0 "O
c i::
;:::s
0 0 0
::J
0 .... E=
CX)
""'
~
~
=/= Ü X X
0
0
'~

""'
·c::
0 0 0
N
0
@ 'ro='
~
..c
O'I
i::
0 0 0 0 0 0 0 0 0
i::
·c ~
>-
Cl. ·s..
0 0
(.) Remarque 6.1.
u ....00
..c:
o.. 1. Les entrées ein; =!= 0, 1 ~ i ~ r , sont appelées les pivots de la matrice E .
ro
......l
1
2. Le nombrer de pivots est égal au rang de E .
"O
0
i::

Q
;:::s
Le calcul de la forme échelonnée d' une matrice B E cm XII se mène par la méthode
@ du pivot partiel. Si B = ( 0 . . . 0 B 1 ) où la première colonne non nulle de B
80 6 •Pivot de Gauss et décomposition LU

est b111 (c'est aussi la première colonne de B 1), par multiplication par une matrice de
transposition P1 puis par une matrice d'élimination E 1, on obtient

0 0 #0 X X X
0 0

0 0 0 0

où la première colonne de B2 est b11 2 E cm - l, bn2 # O. L'étape suivante poursuivra


la construction de la forme échelonnée sans changer la structure déjà acquise jusqu'à
obtenir la matrice échelonnée E,. P,. ... E 1 P1 B = E. On obtient ainsi, en suivant la
preuve du théorème 6.10, le
Théorème 6.13 Pour toute matrice B E cmxn il existe une matrice de permutation
P E cmxm, une matrice triangulaire inférieure à diagonale unité L E cmxm et une
matrice échelonnée E E cm Xll telles que p B = LE.

6.5 COMPLEXITÉ
Chaque étape d'élimination requiert le calcul den - i divisions, (n - i)2 additions et
(n - i) 2 multiplications avec 1 ~ i ~ n - 1. Pour l' ensemble des étapes on obtient:

n(n - 1) d...
• 1 + ... + n - l = 1v1s10ns,
2
n(n - 1)(2n - 1) ..
• 12 + . . . + (n - 1)2 = add1t10ns,
6
n(n - 1)(2n - 1) .
-0
• 12 + ... + (n - 1)2 = multiplications,
0 6
c
::J
0 donc un total de
CX)
0 n(n - 1)(2n - 1) n(n - 1) 2n 3
0 ------- + ~ -
N
3 2 3
@
~
..c
opérations arithmétiques.
O'I
·c Nous n'avons pas tenu compte des opérations sur le second membre b du système
>-
Cl.
0 Ax = b. Leur ordre de grandeur est O(n).
u
On déduit de ce compte que

• Le calcul de la solution d'un système linéaire n x n peut se faire en O(n 3)


opérations arithmétiques ( O(n 3 ) pour la décomposition LU avec ou sans per-
mutations et O(n 2 ) pour la solution du système triangulaire obtenu),
6.6 Conditionnement de la décomposition LU 81

• Le calcul de l 'inverse d' une matrice requiert O(n 3 ) opérations arithmétiques :


ce calcul se ramène au précédent pour un second membre arbitraire. Plus
précisément, ce sont~ 2~ + n 3 opérations qu 'il faut exécuter. Ce calcul peut
3

être évité dans la plupart des expressions utilisant la matrice inverse comme par
exemple le scalaire a * A - 1b où a et b sont des vecteurs. Dans ce cas A - 1b est
obtenu en résolvant un seul système linéaire sans calcul explicite de la matrice
A - 1.

• Le calcul du déte rminant de A se fait en O(n 3 ) opérations arithmétiques :


si A = L U alors det A = <let V = uu ... Unn · Si des permutations sont
effectuées, det A = ± det U, chaque permutation de deux lignes ou de deux
colonnes changeant le signe du déterminant. C' est la méthode utilisée par le
logiciel Matlab.

Il faut rapprocher ces résultats de complexité avec ceux que l'on obtient en utilisant
les formules de Cramer. Un déterminant y est décrit comme une somme de n ! monômes
(chacun d'eux de degré n en les entrées de la matrice) d'où une complexité en O(n ! x n)
pour un calcul brutal !

6.6 CONDITIONNEMENT DE LA DÉCOMPOSITION LU


Nous allons analyser, via le calcul différentiel, les variations au premier ordre de la
décomposition LU d'une matrice en fonction des variations de cette matrice. Nous
renvoyons le lecteur à son ouvrage préféré de calcul différentiel pour le théorème de
dérivation des fonctions inverses qui est utilisé dans ce paragraphe. Nous utilisons les
notations suivantes :
....
-0 ~
• .Cn est l 'espace vectoriel des matrices L E C 11 xn qui sont triangulaires infé-
0 "O
c i::
;:::s
rieures et qui ont une diagonale nulle,
::J
0 ....
CX)
""'
~
~ • Un est l 'espace vectoriel des matrices V E cnxn qui sont triangulaires supé-
0 '~
0
N ""'
·c::
0
neures,
@ 'ro='
~
..c
O'I
i::
0
i::
• ÇUn est le sous-ensemble de U11 constitué des matrices triangulaires supérieures
·c
>-
~
·s.. et inversibles,
Cl.
0 0
(.)
u ....00
..c:
• .CU est le sous-ensemble de CGL 11 constitué par les matrices qui possèdent une
o.. décomposition LU (voir la caractérisation donnée au théorème 6.6).
ro
......l
1
"O
0
i::
Soit A E GLn . Ecrivons la décomposition LU de A sous la forme
;:::s
Q
@ A = U11 + L)U
82 6 •Pivot de Gauss et décomposition LU

avec U E Ç}Un et L E .C11 • Nous souhaitons calculer la dérivée de l'application


A ~ (L, U) ainsi que la norme de cette dérivée. Pour ce faire, nous allons calculer la
dérivée de (L , U) ~ A, ce qui est très facile, puis utiliser le théorème de dérivation
des fonctions inverses. Notons

P: Ln X Ç}U11 ~.CU, P(L, U) = (/11 + L)U.

Par le théorème 6.6 c'est une bijection entre .Cn x Ç}U11 et .CU. La bijection inverse
associe à A E .CU les matrices L E .C" et U E Ç}U11 telles que A =(ln+ L)U. On note

.C: .CU~ .Cn, .C(A) = L

et
U: .CU ~ Ç}U11 , U(A) = U.
On équipe l 'espace des applications linéaires M : cnxn ~ cnxn de la norme

llM(B)llF
llMllFF = sup
B E c11 xn llBllF
B =/= 0

Théorème 6.14 met Ç}Ull sont des sous-ensembles ouverts de en


X II' [,et sont desu
applications de classe <CCX) sur .CU et, pour toute matrice A E .CU, A = (/11 + L)U,

et
-0
0
c
::J
0 Démonstration. Les étapes principales de cette démonstration sont les sui-
CX)
0
0
vantes. Nous laissons le lecteur en vérifier les détails à titre d'exercice.
N
@ 1. .CU est ouvert dans cnxn (par le théorème 6.6) et Ç}U11 est ouvert dans U11
~
..c (par le corollaire 3.15) .
O'I
·c
>-
Cl.
2. L'application Pest de classe C CX) et sa dérivée en (L, U) E .Cn x Ç}Un est
0
u donnée par:

x U11 ~ <C x
11 11
DP(L , U): .C11 , DP(L , U)(M , V) = Un+ L )V +MU.

3. DP(L , U) est un isomorphisme (DP(L, U) est une injection entre deux


espaces de même dimension).
6. 7 Notes et références 83

4 . On utilise le théorème d'inversion locale pour en déduire que les applica-


tions .C : .CU ---+ .C11 et U : .CU ---+ ÇU11 sont elles aussi C (XJ et que, pour
tout B E ccn xn

D.C(A)B = Un+ L)Ilc (Un+ L)- 1su- 1),


11

DU(A)B = [Ilu (Un+ L)- 1 BU- 1) ] U


11

et où, pour toute matrice M E CC11 X Il' II L:11 ( M) et Ilu/I (M) sont les parties
triangulaires inférieure stricte et supérieure de M .
5. On calcule les normes de ces dérivées.

Remarque 6.2. Ce théorème montre que les variations de la décomposition LU


de la matrice A dépendent non pas du conditionnement de A (on verra que
c'est le cas pour la décomposition de Cholesky et pour la décomposition QR)
mais des conditionnements ou, plus précisemment, des plus grandes et des plus
petites valeurs singulières des matrices 111 + Let V telles que A = (/11 + L)U.
Nous avons vu, sur des exemples, que cond2 (U) peut être bien plus grand que
cond 2 (A) ce qui peut conduire à une vision pessimiste de la décomposition
LU et à son utilité quant à la résolution de systèmes linéaires. Un exemple
classique, dû à Wilkinson, donne une détérioration exponentielle en le nombre
de variables du conditionnement de U ! Mais le cas moyen est par contre
extrêmement stable; voir à ce sujet l'article de Schreiber-Trefethen [31] et les
ouvrages de Wilkinson et Higham cités en bibliographie.

6. 7 NOTES ET RÉFÉRENCES
....
-0 ~
"O
LU vient de l'anglais Lower-Upper (triangular matrices).
0
c i::
::J ;:::s
.... Une idée récurrente pour résoudre un système d'équations linéaires est de se rame-
0
CX)
""'
~
~
ner via une décomposition matricielle adaptée à un système triangulaire, celui-ci étant
0 '~
0
N ""'
·c:: facile à résoudre. Les décompositions LU, QR et de Cholesky permettent d ' y arriver.
0
@ 'ro=' La décomposition LU, due à Gauss, est la plus célèbre et la plus ancienne de ces
~
..c
O'I
i::
0 méthodes. Gauss naquit à Brunswick en 1777 et mourut à Gottingen en 1855.
i::
·c ~
>-
Cl. ·s.. Un des intérêts de la décomposition LU, pour une matrice à coefficients dans un
0 0
u
(.)

....00 anneau commutatif quelconque, est que cette décomposition s'effectue dans le corps
..c:
o..
des fractions associé. Ceci en fait un outil de choix pour le calcul formel.
ro
......l Le livre de Stewart [32] est extrêmement documenté sur l'algorithmique de la
1
"O
0
décomposition LU. Pour l 'étude de la stabilité de l'élimination de Gauss nous ren-
i::
;:::s voyons aux ouvrages de Wilkinson [36] et [37] ainsi qu' à celui de Higham [18].
Q
@
84 6 •Pivot de Gauss et décomposition LU

EXERCICES

Exercice 6.1
On suppose que A E Gll....11 admet une décomposition LU. En calculant formellement
le produit A = LU, donner un algorithme de calcul des coefficients uij de U et lij de L
à partir des coefficients aij de A (algorithme de Crout et Doolittle). Indication: calculer
la première ligne de U puis la première colonne de L et ainsi de suite. Application
numérique : donner la décomposition LU de la matrice

1 2 0 0
1 3 2 0
0 1 3 2
0 0 1 3

Exercice 6.2
On utfüse la méthode d' élimination de Gauss pour trianguler le système;
4
(S) { 10- x +y = 1
x+ y= 2
1. Calculer le conditionnement associé à la norme Il · lloo
de la matrice A de ce
système et de la matrice U 1 du système triangulaire obtenu par la décomposition
LU.
2. Même question si l'on permute d'abord les deux lignes de A.

-0
0 Exercice 6.3
c
::J
0 Une matrice d'élimination E(i, Ài+J, ... , À11 ) s'écrit sous la forme
CX)
0
0
N
@
~
..c où l = (0, ... , 0, Àï+ I , ... , A11 )1' est un vecteur dont les i premières coordonnées sont
O'I
·c
>-
nulles et ei est le i-ième vecteur de la base canonique de ffi.11 •
Cl.
0
u 1. Pour i <j , calculer le produit de deux matrices d' élimination E(i , Ài+J, . . . , Àn )
E(j , A)+i' ... , A:,). Généraliser le résultat au produit de k matrices d' élimination
ordonnées par ordre croissant d'indice i 1 < i 2 < ... < ik.
2. Soit A inversible admettant la décomposition LU. Déduire du calcul précédent
l' expression de la matrice L à partir des matrices d'élimination E(i, Ài+ I , ... , Àn)
intervenant dans l'algorithme d'élimination de Gauss.
Exercices 85

Exercice 6.4
On considère deux vecteurs x, y E en, la matrice M = / 11 + x y* et l'on suppose
que 8 k = 1 + 2:7=,
Xt Y t f= 0, pour tout k = 0, ... , n (par convention, 8 0 = 1).
l. Montrer que det(M) = 8 11 •
2. Montrer que M admet une décomposition LU.
3. Montrer, par récurrence, l'égalité

Lk
XzYz
Ôt Ôt-1
l= l

pourtoutk = l , .. . ,n.
4. On décompose M sous la forme M = D+ E + F, avec D diagonale, E triangulaire
strictement inférieure et F triangulaire strictement supérieure. On considère les
matrices diagonales ~ = diag(ô 1 , ... , ôn), ~+ = diag(l , 8 1 , ... , Ôn _ 1) et les
matrices triangulaires L = ( E + Ll)~ - J et U = Ll-; 1(F + Ll). Montrer que
M = LU (calculer les coefficients de la matrice LU, considérer pour cela les
cas i < j, i > j et i = j).
5. Soit A E GLn et u , V E en . On suppose que la matrice A admet une décomposi-
tion A = LU. Donner une condition suffisante portant sur u , v, Let U pour que
la matrice B = A+ uv* possède une décomposition LU. Utiliser les résultats
précédents pour exprimer la décomposition LU de B à partir de la décomposition
LU de A (formule de mise à jour de la décomposition LU).

Exercice 6.5
-0 Soit A E enxn une matrice bande inversible de largeur 2p + 1 c'est-à-dire telle que
a ij = 0pour 1 i - j I> p. On suppose que A admet une décomposition LU. Montrer
0
c
::J
0
CX)
que les matrices L et U ont également une structure bande de largeur 2p + 1.
0
0
N
@
~
..c
O'I
·c
>-
Cl.
0
u
"O
0
c
:J
0
OO
0
0
N
@
~
..c
O'I
·;::::
>-
0..
0
u
Chapitre 7

Matrices définies positives


et décomposition de Cholesky

7.1 MATRICES D ÉFINIES POSITIVES

Définition 7.1 Une matrice A E ccn xn


est semi-dé.finie positive lorsqu'elle est hermi-
tienne et que X * Ax ~ 0 pour tout X E CC11 •
Une matrice A E CC11 Xn est dé.finie positive lorsqu'elle est hermitienne et que X * A x >
11
Û pour tout X E CC , X =/=- Û.

Soit A E ccnxii, X et y E CC11 • Notons


li

-0
c
0
(x, y) A = y * Ax = L aijXjYi·
::J i , j=l
0
CX)
0
0
11 est facile de voir que ]a forme(., .) A est Un produit hermitien SU( ccn
SÏ et seulement
N
@
si A est une matrice définie positive. D'autres caractérisations des matrices définies
~
..c
positives sont données par le théorème suivant :
O'I
·c
>-
Cl.
Théorème 7.2 Pour une matrice A E CC11 x 11 , il y a équivalence entre:
0
u 1. A est défmie positive,
2. Il existe un espace hermitien IE et n vecteurs indépendants ei E IE tels que
aij = (ej , ei) E;
3. A est hermitienne et ses valeurs propres sont positives,
4. Il existe une matrice M E ccm xn de rang n telle que A = M * M.
88 7 • Matrices définies positives et décomposition de Cholesky

Démonstration. l => 2. Cela a déjà été quasiment démontré : on peut


prendre IE = e 11 équipé du produit scalaire (x' y) A = y* Ax. Pour les
vecteurs ei de la base canonique on a bien (e j, ei) A = e; Ae j = aij .
2 => 3. Si aij = (e j, e; )JE, il est clair que A est hermitienne. Si A x = ,.\x
avec x =f. 0 alors x* A x = ,.\ llx I l ~ et
2

JE

Puisque x =f. 0 et que les ei sont indépendants, on a 11 2:;.'= 1 xiedlJE > 0 et


llx 112 > 0 de sorte que ,.\ > O.
3 => 4. Puisque A est hermitienne et à valeurs propres positives, nous
pouvons diagonaliser A = V D V* avec V E 1U11 , D = diag( ,.\i) et ,.\i > 0
(théorème 1.6). Prenons M = diag( .JA;)U*. Il est clair que M *M = A et
que M E enxn est inversible donc de rang n.
4 => 1. Notons que si A = M * M alors A est hermitienne. De plus, pour tout
X E en, X =f. 0, nous avons :

x * Ax = x * M * Mx = llMx ll; ~ O.
Si cette quantité était nulle, cela signifierait que Mx = 0 avec x =f. O. Les
n colonnes de M senùent donc dépendantes et M ne senùt pas de rang n.
Ainsi x* Ax = llMxll; > 0 et A est définie positive.

Remarque 7.1.
1. Une matrice du type ((e1, ei)JE) est appelée matrice de Gram du système de
-0 vecteurs (ei). Toute matrice semi-définie positive est une matrice de Gram
0
c
::J
(théorème 7.3). Une matrice de Gram est inversible si et seulement si les
0 vecteurs qui la définissent sont indépendants (théorème 7 .2).
CX)
0
0
N
2. Soit A E lR" x n une matrice définie positive. L'ensemble
@
~
..c
O'I
[A = {x E JRn : x *Ax = 1}
·c
>-
Cl.
0
u est un ellipsoide. Dans une base orthonormée (ui) de vecteurs propres de A
son équation est

[A= {x = V1U1 + ... + V11U11 : À t VT + ... + ÀnV~ = 1}


où les À; > 0 sont les valeurs propres de A.
7.1 Matrices définies positives 89

À titre d'exemple, montrons que la matrice de Hilbert

Hn =(-. i+1-l
~ ) ..
l,j =
1. .. Il

est définie positive. On a

qui peut être vu comme le produit scalaire des monômes (linéairement indépendants)
xi- 1 , i = 1, ... , n, pour le produit scalaire

(f ,g) = l f(x)g(x)dx

dans C[O, 1]. On conclut à l'aide du théorème 7.2-2.

Les matrices semi-définies positives ont une caractérisation similaire. Nous n'en
donnons pas la preuve qui est, mutatis mutandis, similaire à la précédente :
Théorème 7.3 Pour une matrice A E r,cnxn il y a équivalence entre
l. A est semi-définie positive,
2. Il existe un espace hermitien IE et n vecteurs ei E IE tels que aij = \e j, ei )JE,
3. A est hermitienne et ses valeurs propres sont positives ou nulles,
4. Il existe une matrice M E r,cmxn telle que A = M * M .

Voici quelques conséquences du théorème de caractérisation des matrices définies


.... positives
-0 ~
0 "O
c i::
;:::s Corollaire 7.4 Supposons que A E r,cnxn soit définie positive ( resp. semi-d~finie
::J
0 ....
CX)
""'
~
~
positive) alors :
0 '~
0
N ""'
·c::
0
> 0 (resp.): 0) et trace A > 0 (resp.): 0),
1. detA
@ 'ro='
~
i::
2. Pour tout i = 1 ... n, aii > 0 (resp. ): 0),
..c 0
O'I i::
·c ~ 3. Toute matrice obtenue en supprimant dans A les lignes L i1 , • • • , Lip et les
>-
Cl. ·s..
0 0
(.) colonnes Ci 1 , • • • , Ci,, est défi.nie positive (resp. semi-définie positive).
u ....00
..c: Démonstration. 1 provient du théorème 7 .2-3, 2 découle de 3 (supprimer
o..
ro
......l n - l lignes et les n - l colonnes de même indice), 3 est une conséquence
"O
0
i::
1
1du théorème 7.2-2.
;:::s
Q
@
90 7 • Matrices définies positives et décomposition de Cholesky

La caractérisation suivante des matrices définies positives ne s'étend pas aux


matrices semi-définies positives :
Théorème 7.5 Pour une matrice A E C11 x 11 , il y a équivalence entre
1. A est dé.finie positive,
2. A est hermitienne et les matrices A(l : k , 1 : k), 1 ~ k ~ n, ont un déterminant
positif.

Démonstration. Le corollaire 7.4-3 et 1 prouve que la condition est néces-


saire. Pour montrer qu'elle est suffisante, nous raisonnons par récurrence.
Le cas n = lest évident. Supposons la propriété établie pour n - 1. Ainsi
A(l : n - 1, 1 : n - 1) est définie positive et il existe une matrice C E GIL11 _ 1
telle que A(l : n - 1, 1 : n - 1) = CC*. Écrivons

A=( A(l: n - 1, 1 : n - 1)
a*
a ) avec a =
a11n

Notons que

;) ( A(l : n - l , l : n - l)
u*C*
Cu
u*u + af3
)

de sorte que
A = ( ~ 0 ) ( C* u )
u"' a 0 /3
si l'on prend Cu = a c'est-à-dire u = c- 1a et u*u + af3 = a 11n. On aura
prouvé que A est définie positive si l'on peut prendre a = f3 > 0 (appliquer
-0
c
0 le théorème 7.2-4). Il reste donc à prouver que af3 > O. L'égalité ci-dessus
::J
0 prouve que
2
CX)
0 det A= det Ca detC* /3 = ldetC l af3;
0
N
@ comme, par hypothèse, det A> 0 on a bien af3 >O.
~
..c
O'I
·c Corollaire 7.6 Toute matrice dé.finie positive possède une décomposition LU.
>-
Cl.
0
u 1 Démonstration. C'est une conséquence des théorèmes 6.6 et 7.5.

L'exemple de la matrice ( ~ ~! ) montre que le théorème 7.5 n'a pas d'exten-


sion immédiate au cas semi-défini positif: elle n'est pas semi-défine positive alors que
ses déterminants principaux sont~ O.
7.2 Quadriques et optimisation 91

7.2 QUADRIQUES ET OPTIMISATION


Étant donné une matrice symétrique A E ~nxn, un vecteur b E ~n et un nombre
a E ~. nous allons décrire les m.inimums et les maximums de la quadrique

Puisque A est symétrique ses valeurs propres sont réelles et notées

À 1 ~ ... ~ Àn ·

Théorème 7. 7

1. Si À 1 > 0 et Àn < 0 alors

inf q(x) = - oo et sup q(x) = oo.


xEIR" xEIR"

2. Si b ~ lm A alors

inf q(x) = -oo et sup q(x) = oo .


x E IR" x E IR"

3. Les points stationnaires de q sont les x E ~n tels que Ax = b. Lorsque b E lm A


et que Ax = b:
a) Si À1 ~ ... ~ À 11 ~ 0 alors q (x) = minxEIR" q(x),
b) Si 0 ~ À 1 ~ ... ~ Àn alors q (x) = maxxEIR" q(x).
Démonstration. 1. Soit u 1 un vecteur propre unitaire associé à À 1. On a

....
Au, =
À1u1 et ll u1 Ili=
1 de sorte que
-0 ~

2l µ 2u r1 Au 1 - 21 µ 2À 1 -
0 "O T T
c i::
;:::s q (µu 1) = µb u 1 + a = µb u 1 + a --+ oo
::J
0 ....
CX)
""'
~

0
0
~
'~ lorsqueµ--+ oo. De la même manière, prenons un vecteur propre unitaire
N ""'
·c::
0 Un associé à À,1 :
@ 'ro='
~
i::

ll µ 2 Àn -
..c 0 T
O'I
·c i::
~
q(µu n) = µb Un+ ll' --+ - OO .
>-
Cl. ·s..
0
0 (.)
u ....00 2. Puisque A est symétrique on a Ker A = (lm A)..l. En effet, six E Ker A
..c:
o..
ro on a Ax = 0 d'où ( Ax , u) = 0 pour tout u E ~n et, puisque A est symé-
......l
1 trique, \x, Au ) = 0 pour tout u c'est-à-dire x E (ImA)..l. On a prouvé
"O
0
i::
l'inclusion Ker A c (lm A)..l . Il y a égalité parce que
;:::s
Q
@ dimKer A= n - dimlm A= dim(Im A)..l .
92 7 • Matrices définies positives et décomposition de Cholesky

Supposons désormais que Ker A c b1-. On a donc (lm A )1- c b1- et par
passage aux orthogonaux

ce qui est contraire à l'hypothèse. Ceci prouve qu' il existe x E Ker A tel
que brx -=!= O. On a alors

lorsqueµ ---+ ± oo en fonction du signe de brx.


3. Un point stationnaire x de q vérifie, par définition, Dq(x)h = 0 pour tout
h. Par un calcul facile, on a

Dq(x)h = lim q(x +eh) - q(x) = h T(Ax - b)


e->0 ê

de sorte que Dq(x)h = 0 pour tout h si et seulement si Ax = b.


Si b E lm A, b = Ax, on a

1 7 1
q(x) = -(x
2 - xl A(x - x) +a - -x
2 Ax .

Utilisons la décomposition A = U DUT. On obtient

1 r T r lr lr
q(x) = Ï(U (x-x)) DU (x-x)+a- x Ax = y Dy+/3 = Q(y )
2 2
-0
avec y= U T(x - x) et /3 =a - !xT Ax. Remarquons que
0
c
::J
0 inf Q(y) = inf q(x)
CX) yEIR" xEIR11
0
0
N
@ et que si y est un minimum pour Q(y ) alors x = Uy + x est un minimum
~
..c
O'I
pour q(x). Idem pour le sup et les maxima. On remarque maintenant que
·c
>-
Cl.
1 n
0
u Q(y ) = 2YT Dy+ /3 = L ÀiYl + /3.
i= I

Si tous les Ài sont~ 0 cette quantité a pour minimum y = 0 d'où la solution


x = x et l'égalité q(x) = min q(x). Lorsque tous les Ai sont ( 0, y = 0 est
un maximum d'où q(:X) = maxq(x).
7.2 Quadriques et optimisation 93

Remarque 7.2.

• La démonstration de ce théorème prouve que, pour une quadrique, tout


minimum (maximum) local est global.

• Lorsque A est inversible, la quadrique q(x) possède un unique minimum


si et seulement si A est définie positive. Il est alors donné par x = A - 1b.
Le graphe de la quadrique correspondante est un paraboloïde elliptique.

1 1

Tableau 7.1 Paraboloïde elliptique d'équation z = 2x 2 + y2.

• Lorsque A est seulement semi-définie positive, le graphe de la quadrique


q(x) est un paraboloïde cylindrique. Suivant que b possède ou non une
-0
c
0 composante le long du noyau de A, la « gouttière» est« inclinée» et il
::J
0 n'y a pas de mjnimum ou bien «horizontale» et il y en a une infinité.
CX)
0
0
N
@
~
..c
OI
·c
>-
Cl.
0
u
94 7 • Matrices définies positives et décomposition de Cholesky

Tableau 7 .2 Paraboloïde cylindrique d'équation z= 3x 2 .

• Lorsque A est indéfinie c'est-à-dire lorsqu'elle possède des valeurs


propres de signes différents, la quadrique q(x) ne possède ni minimum ni
maximum. Les points stationnaires sont des points-selle (on dit encore
des cols). Dans ce cas le graphe de q(x) est un paraboloïde hyperbolique.

-0
0
c
::J
0
CX)
0
0
N
@
~
1 1
..c
OI
·c
>-
Cl.
0
u Tableau 7.3 Paraboloïde hyperbolique d'équation z= 3x2 - 2y2 .

• q(x) possède un unique maximum si et seulement si A est définie néga-


tive c'est-à-dire lorsque A est symétrique et que ses valeurs propres sont
< O.
7.3 Racine carrée d'une matrice, décomposition polaire 95

7.3 RACINE CARRÉE D'UNE MATRICE, DÉCOMPOSITION


POLAIRE
À la différence de l'équation scalaire x 2 = a, l'équation X 2 = A, lorsque A et X
sont des matrices carrées, possède toutes sortes de solutions. L'exemple X 2 = 0
avec X E JR 2 x 2 est déjà parlant! Mais comme pour les équations scalaires, la définie
positivité permet d'isoler une solution particulière.

Théorème 7.8 Pour toute matrice semi-défi.nie positive A E cnxn il existe une et
une seule matrice B E C 11 xn qui soit semi-définie positive et qui vérifie 8 2 = A. On
l'appelle la racine carrée de A et on la note A 112 .

Démonstration. L'existence d' une racine carrée de A est donnée par A =


U DU* avec U unitaire, D = diag(Ai), Ai ) 0 et A 112 = U D 112 U* où
D 112 = diag(Ai1/ 2). L'unicité est plus délicate à établir. Soit B une autre
racine carrée de A : B est semi-définie positive et B 2 = A. Comme B et
A 1/ 2 ont les mêmes valeurs propres (elles sont positives ou nulles et leurs
carrés sont les valeurs propres de A), on peut écrire que B = V D 112 V*
pour une matrice unitaire V E lU11 • On a ainsi, en élevant au carré,

UDU* = VDV *

ou encore
(V * U)D(V* U)* = D

que nous écrivons


WDW * = D
avec W = V * U. La question est de savoir si
....
-0 ~
0 "O
c i::
;:::s
::J
0 ....
""'
~
CX)
0
~
'~
et donc si
0
N ""'
·c::
0
@ 'ro='
~
..c i::
0
Supposons que les valeurs propres de A soient ordonnées en décroissant :
O'I i::
·c ~
>-
Cl. ·s..
0
0 (.)
u ....00
..c:
o..
ro
......l
1
"O
0 avec n 1 + ... + np - J + np = n. L'équation W DW * = D montre que les
i::

Q
;:::s
colonnes w 1 , ••• , w 111 de W constituent une base orthonormée de l'espace
@ engendré par les vecteurs e 1 .• • , e111 de la base canonique de C 11 • Idem pour
96 7 • Matrices définies positives et décomposition de Cholesky

w11 1+1 , ... , w ,+ et cretera. Ainsi W est une matrice unitaire diagonale par
11 112

blocs W = diag( Wi , 1 ~ i ~ p) avec Wi E lU11 ;. Mais alors

Corollaire 7.9 Pour toute matrice A E Gll..n il existe des matrices U E lU11 et P
définie positive telles que A = PU. Cette décomposition est unique et s'appelle la
décomposition polaire de A.

Démonstration. Si A = PU comme ci-dessus alors AA* = PUU* P * =


P 2 et donc P = (AA *) 112 (AA * est définie positive par le théorème 7.2) et
1U = p - 1 A. Il est clair que p - 1 A E lU11 d'où l'existence et l'unicité.

7.4 LA DÉCOMPOSITION DE CHOLESKY

Théorème 7.10 Soit A E cnxn une matrice définie positive. Il existe une unique
matrice L E <C" xn triangulaire inférieure telle que lii > 0 pour tout i et A = LL *
(décomposition de Cholesky).

Démonstration. Supposons que LL * = MM *, que lii > 0 et que mii > 0


pour tout i. On a M- 1L = M *L - * qui est à la fois triangulaire inférieure
(à gauche) et triangulaire supérieure (à droite). C'est donc une matrice dia-
gonale. Les entrées diagonales valent m;;1zii = miilij 1 et donc sont égales
à 1 par la condition de positivité. Ainsi M - 1L = M *L -*= l n c'est-à-dire
-0
0
L = M.
c
::J L'existence de cette décomposition se prouve par récurrence sur n. Pour
0
CX) n = 1 on prend L = (yla)I). Supposons que la décomposition de Cholesky
0
0
N
existe pour toute matrice définie positive n - 1 x n - 1. Écrivons
@
~
..c

A=(
OI
·c A11 - I
>- a ) avec a =
Cl.
0 a* a11n
u

Notons An- 1 = L 11 _ 1L~_1 la décomposition de Cholesky de A,1 _ 1. On a :

A=( ~) ( L~0- I ;)
7.5 Complexité de la décomposition 97

en prenant L 11 _ 1u = a et u*u + a.{3 = a1111 • On obtiendra la décomposition


de Cholesky de A si l'on peut prendre a = f3 > 0 ce qui sera possible si
a.{3 > O. L'égalité ci-dessus prouve que

detA = detLn-J a detL~_ 1 {3 .


Comme, par hypothèse, det A
' '
> 0 et <let Ln- I > 0 on a bien a.{3 > O.

Remarque 7.3. Lorsque A est définie positive, la méthode de Cholesky pour


la résolution du système A x = LL * x = b consiste à étudier les deux systèmes
triangulaires L y = b et L * x = y .

7.5 COMPLEXITÉ DE LA DÉCOMPOSITION


La décomposition de Cholesky s'obtient par l' algorithme suivant qui décrit l'identifi-
cation des deux membres de l'équation matricielle:
l 11 l 11 l21 l 111
lit ln li2 I,a
= A.

l111 ln2 l 1111 lnn

On obtient:

Algorithme de décomposition de Cholesky

z, , = y'all
pour j = 2: n
....
-0 ~
lj t = aji/l11
"O
c
0
i::
;:::s
fin
::J
0 .... pour i = 2: n
""'
~
CX)
0
0
~
'~

""'
·c::
zu = v,_a_ii--2-:~:-1,-1-zi-k-12
N
0
@ 'ro=' pour j = i +1:n
(aji - 2:~:', zjklik) / lu
~
..c i::
O'I
·c
0
i:: lJi =
~
>-
Cl. ·s..
0
fin
0 (.)
u ....
0 fin
0
..c:
o..
ro
......l
1
"O
0
Chaque étape de cet algorithme requiert (2i - l)(n - i + 1) opérations arithmétiques:
+, - , x, /, 1.12 et ..J.· Puisque 1 ~ i ~ n, le compte total est de (n - l)n(n + 1)/ 3 ~
i::
;:::s
Q
@ n 3 / 3 opérations arithmétiques soit moitié moins que pour la décomposition LU.
98 7 • Matrices définies positives et décomposition de Cholesky

7.6 CONDITIONNEMENT DE LA DÉCOMPOSITION DE


CHOLESKY
Comment varie la décomposition de Cholesky d'une matrice définie positive? Nous
allons répondre à cette question en utilisant le calcul différentiel suivant le schéma
utilisé pour la décomposition LU. Nous noterons :

• .C,. l' espace vectoriel des matrices L E cn x n qui sont triangulaires inférieures
et qui ont une diagonale réelle,

• P .C,. le sous-ensemble de .C,. constitué par les matrices à diagonale positive,


• Hn l'espace vectoriel des matrices hermitiennes A E C 11 X Il'

• PH,1 le sous-ensemble de H 11 constitué par les matrices définies positives.

Par les théorèmes 7.2 et 7.10 l' application

P: P.C,.--+ PH 11 , P (L) = LL*

est une bijection de P .C,. sur PH 11 • La bijection réciproque,

est l'application qui à A E PH11 associe sa décomposition de Cholesky C(A) = L E


P.C,. .

On équipe l'espace des applications linéaires M : H 11 ----+ .C,. de la norme

l M(B)llF
llM llFF = sup
-0
0 B E Hn llBllF
c
::J
0
B -/= 0
CX)
0
0
N
@
Nous allons voir que l' application « Cholesky » est différentiable et nous allons
~
..c estimer la norme de sa dérivée. On a :
O'I
·c
>-
Cl.
Théorème 7 .11 L'application « Cholesky » C : PHn --+ P .C,. est de classe C(X) et,
0
u pour toute matrice A E PH 11 ,
1 cond2 (A)
IlDC(A)llFF :::; V2 llA11~/2
Démonstration. Nous n'en déc1ivons que les étapes principales, laissant au
1lecteur le soin d' en compléter les détails à titre d' exercice.
7.6 Conditionnement de la décomposition de Cholesky 99

1. Lr et H 11 sont des espaces de même dimension (réelle) égale à n 2 , PLr


est un ensemble ouvert dans .C,. et PH11 est un ensemble ouvert dans Hn
(utiliser le théorème 7.5). Comme ces ensembles sont ouverts on peut
envisager de dériver P sur P .C,. et C sur PH 11 •
2. P est de classe Ccx:> et sa dérivée en L E P .C,. est donnée par

DP(L) : .C,. --+ H 11 , DP(L)M = LM * + ML* .

3. DP(L) : .C,. --+ H 11 est un isomorphisme (comme ces deux espaces ont
même dimension il suffit de prouver que DP(L) est injective. Pour ce
faire on écrira que LM* + ML* = 0 et on considèrera la première colonne
de cette matrice).
4. Par le théorème de dérivation des fonctions inverses, C est aussi de classe
C(X) et si L E P .C,. est la décomposition de Cholesky de A E PH11 alors

DC(A) = DP(L)- 1 •

5. Pour tout L E P.C,. et M E .C,. on a:

En effet, puisque L -1. M est triangulaire inférieure à diagonale réelle et


que (L - 1M)* = M * L -*, on a

1 2 1 2 11 1 2
ll L - M+M*L- *ll F = 2llL - M llF +2'°' Il m··
L.,1• = l 1z-:-: li l :::::::
::;;,.--

211 L - t Mii}) 2 llM ll}/ ll L ll~


....
-0 ~
par la proposition 3.12-4. Il est de plus clair que
0 "O
c i::
;:::s
::J
0 ....
CX)
""'
~
~
0 '~
0
N ""'
·c::
@
0
6. On en déduit que, pour A = LL *,on a
~
'ro='
..c i::
O'I
·c
>-
Cl.
0
0
i::
~
·s..
0
(.)
ll DC(A)llFF ( Jz llLll, llL- ' 11~ ·
u ....00
..c:
o..
ro
7. On montre enfin que cond2(A) = cond2(L)2 d'où l'inégalité
......l
1
"O
0 llDC(A) ll ~ _1 cond2(A).
J2 ll A ll ~/2
i::
;:::s
Q FF
@
100 7 • Matrices définies positives et décomposition de Cholesky

7.7 NOTES ET RÉFÉRENCES


André-Louis Cholesky (15 octobre 1875 - 31 août 1918) était un mathématicien
et un militaire français. Il a effectué sa carrière dans les services géographiques et
topographiques de l'armée. C'est pour résoudre des problèmes de moindres carrés
posés par la géodésie que Cholesky inventa la décomposition qui porte aujourd'hui
son nom.

-0
0
c
::J
0
CX)
0
0
N
@
~
..c
O'I
·c
>-
Cl.
0
u
Exercices 101

EXERCICES

Exercice 7 .1
On considère la matrice A 11 = (aij ) E JR11 x n défi nie par aij = min(i , j).
l. Montrer que pour tout n, det(A,1 ) = 1. En déduire que A 11 est définie positive.
2. Une autre façon de prouver que A,1 est défin ie positive utilise un argument
d' analyse. Posons x~ = 1 si x ): 0 et 0 sinon. Montrer que

min(i , j) = [ '" (i - y )z (j - y )z d y

et que les fonctions y ---+ (i - y)~, 1 ( i ( n , sont indépendantes. En déduire


que A 11 est définie positive.
3. Déterminer la décomposition de Cholesky de A 11 : A11 = CC T . Calculer c - 1 et
en déduire A;; 1.

Exercice 7 .2
Soit A E CC11 x 11 défin ie positive, A = LU sa décomposition LU et soit D =
diag(uii ).
1. Montrer que u ii > 0 et que ( L D 112 )* = D - 1! 2 u. En déduire que
( LD 112 ) (LD 112 ) * est la décomposition de Cholesky de A.
2. On considère la matrice B = A +xx * où x E ccnest donné. En utilisant l' exercice
.... 6.4 donner la décomposition de Cholesky de la matrice B à l'aide de celle de A .
-0 ~
0 "O
c i::
;:::s
::J
0 .... Exercice 7 .3 Matrice de Cauchy
CX)
""'
~
~
0
0
'~
Soit ai E CC, i = 1, . . . , n , tels que R(ai ) > 0 pour tout i . La matrice
N ""'
·c::
0
@ 'ro='
~
..c i::
0 Ca = ( 1- )
O'I i::
·c ~ ai +a j i ,j= l.. .n
>-
Cl. ·s..
0
0 (.)
u ....00 est appelée matrice de Cauchy. La matrice de Hilbert H,1 considérée au paragraphe
..c:
o.. 7 .1 est ainsi une matrice de Cauchy (prendre ai = i - ~ ) . On considère les fonctions
ro
......l
1
'Pi(x) = x a;- L L' espace des fonctions de carré intégrable sur JO, 1[ est équipé du
"O
produit hermitien
l
0
i::
;:::s
Q
@ (f, g) = f(x) g (x )dx.
102 7 • Matrices définies positives et décomposition de Cholesky

1. Montrer que, pour tout i, les fonctions 'Pi sont de carré intégrable sur ]0, l[ et
que

En déduire que la matrice Ca est semi-définie positive.


2. On veut montrer que, si les coefficients ai sont distincts, les fonctions 'Pi (x) sont
linéairement indépendantes sur l'intervalle ]0 , 1[. Pour cela, on considère une
combinaison linéaire telle que L::
1
=1 a i'Pi (x) = 0, pour tout x E]O, l[. Montrer
que cette égalité implique
n
Laiaf = 0,
i= I

pour tout entier k = 0, ... , n - 1. En déduire que les coefficients ai sont tous
nuls et que, lorsque les ai sont distincts, la matrice Ca est définie positive.

Exercice 7.4
Montrer que l'application exponentielle (exercice 3.14) est une bijection des
matrices he1mitiennes sur les matrices défi nies positives. Pour prouver l'injectivité on
raisonnera comme dans la démonstration du théorème 7.8.

Exercice 7.5
Résoudre par la méthode de Cholesky le système :

~~ : 26~ : ~ ~
-0
39
0
86
c
::J
0
CX)
{ 3x + 6y + 3z 27
0
0
N
@
~
..c
Exercice 7.6
O'I
·c Résoudre via la décomposition de Cholesky le système linéaire Ax = b avec
>-
Cl.
0
u
4 -2 2 0 6
-2 2 -2 1 -4
A= b=
2 -2 6 3 ' 8
0 1 3 6 3
Exercices 103

Exercice 7. 7
Soit A = ( ~ !) E JR2 x 2 non nécessairement symétrique.

1. a) Écrire des conditions nécessaires et suffisantes que doivent vérifier a , b , c , d


pourque l'onait xT Ax > Opourtout x E R 2 ,x =/= O.
b) Montrer que ces conditions impliquent a > 0 et det A > 0 mais que la
réciproque est fausse.
2. On étudie désormais le cas général. On dit qu'une matrice A E R 11 x 11 appartient
à P si x 7 Ax > 0 pour tout x E R 11 , x =!= O. On désigne par .C 1 l'ensemble
des matrices triangulaires inférieures et à diagonale unité ; .C 1 est un groupe
multiplicatif. Soit Q E R 11 xn une matrice inversible. Montrer que

AE P <;:::;> QA QTE P

3 . Soit A E P . Montrer que au > 0 pour tout i = 1, · · · , n .


4. Soit A E P.
a) Montrer qu 'il existe L E [, 1 telle que A(I) = LALT se mette sous la forme

A(l) = ( a,~ v~ ) avec v E IR"- 1 et B E JR(n-l) x (n- l)

b) En déduire qu ' il existe L E .C 1 telle que

LAL 7 = V
.... avec V E P triangulaire supérieure .
-0 ~
0 "O
c i::
;:::s 5. a) Montrer que toute matrice A E P se décompose sous la forme A = M V M T
::J
0 ....
CX)
""'
~ avec M E [, 1 et V E P, triangulaire supérieure et que cette décomposition
~
0
0
'~ est unique.
N ""'
·c::
0
@ 'ro=' b) Lorsque A est définie positive, montrer que l'on retrouve la décomposition
~
..c
O'I
i::
0 de Cholesk:y.
i::
·c ~
>-
Cl. ·s..
0
0 (.)
u ....00 Exercice 7.8 Calcul de la racine carrée d'une matrice définie posi-
..c:
o.. tive
ro
......l

"O
1 1. Montrer que pour tout nombre réel a > 0 la suite définie par
0
i::

~2 (x
;:::s
Q
@ xo = 1, x p+ 1 = P + !!:.__. ) ,
Xp
104 7 • Matrices définies positives et décomposition de Cholesky

converge vers fa. Cette méthode est attribuée à Héron d'Alexandrie (premier
siècle de notre ère).
2. On se donne maintenant une matrice A E en XII définie positive. Montrer que la
suite de matrices définie par

1 ( X p + A X P-l)
X o = l n, X p +1 = 2

est bien définie et converge vers A 112 .

Exercice 7.9 Dérivée de la racine carrée d'une matrice définie posi-


tive
Notons V: PHn ~PH,, l'application qui à la matrice A définie positive associe sa
racine caiTée B = VA.
1. Montrer que pour toute matrice K E cnxn l'intégrale

l"' exp( - t B)K exp(- tB)dt

est absolument convergente (utiliser l'exercice 3.14).


2. Montrer que l'application C : PH 11 ~ PHn définie par C(B) = B 2 est de
classe C 00 et que
DC(B)H = BH + HB

pour tout H E Hn (espace des matrices n x n hermitiennes).


3. Montrer que V est de classe C 00 et que
-0
0
c 1
::J
0
Dyi(A) = DC(B) -
CX)
0
0
N lorsque B = ·JA.
@
~
..c
4. En déduire que
O'I
·c
>-
Cl.
0
u D.J(A)K = fo 00

exp(-t B)K exp(-tB)dt,

pour toute matrice hermitienne H E H 11 , et que


Exercices 105

Exercice 7.10
On veut calculer l'inverse de la matrice définie positive A2 E JRnxn

2 - 1
- 1 2 - 1
Az =
- ] 2 - ]
-1 2

On sait qu'elle est associée à la discrétisation de la dérivée seconde dans un schéma


de différences finies (paragraphe 16.1). Considérons d' abord la matrice B2

1 - 1
- 1 2 - 1
B2 =
- 1 2 - 1
-1 2

qui diffère de A 2 par une matrice de rang 1 :

(7.1)

où e 1 E Rn, e 1 = (1 , 0, . . . , 0) T est le premier vecteur de la base canonique de ffi. 11 •


l. Montrer par récurrence sur n que <let B2 = l. En déduire que B2 est défini e
positive et donner sa décomposition de Cholesky B2 = CC T. Calcu1er B2 1 à
l'aide de cette décomposition .
....
-0 ~
"O
2. À partir de l'égalité (7.1) montrer que
0
c i::
;:::s
::J
....
0
CX)
0
0
""'
~
~
'~

""'
·c::
A2 1 = (min(i , )) - _!j_)
n+l
N
0
@ 'ro='
~
i::
en utilisant la formule de Sherman-Morrison-Woodbury (exercice 1.9).
..c 0
O'I i::
·c ~
>-
Cl. ·s..
0
u
0
(.) Exercice 7.11
....00
..c:
o..
Soit A une matrice définie positive ayant une structure bande de largeur 2p + 1.
ro Montrer que la matrice L triangulaire inférieure donnée par la décomposition de
......l

"O
1
Cholesky possède la même structure bande. On a vu que cette même propriété est
0
i::
;:::s aussj vérifiée pour la décomposition LU (exercice 6.5).
Q
@
"O
0
c
:J
0
OO
0
0
N
@
~
..c
O'I
·;::::
>-
0..
0
u
Chapitre 8

La décomposition QR

8.1 MATRICES DE STIEFEL


Nous verrons, lors de l'étude de la méthode des moindres carrés, qu'il est utile de
considérer la décomposition QR d'une matrice rectangulaire. Une telle décomposition
requiert des matrices unitaires « incomplètes » que nous introduisons ici.

Définition 8.1 On appelle matrice de Stiefel toute matrice S E cmxn (m ~ n) dont


les n vecteurs-colonne constituent une famille orthonormée dans cm. On note §tmn
l'ensemble de ces matrices.

Remarque 8.1. Une matrice unitaire est une matrice de Stiefel carrée: §t1111 =
-0
0 lUn .
c
::J
0
CX)
0 Proposition 8.2 S E cm x n est une matrice de Stiefel si et seulement si S* S =
111 • Dans ce cas, SS* est la projection orthogonale de cm sur le sous-espace lm S
0
N
@
~
engendré par les vecteurs-colonne de S.
..c
O'I
·c
>-
Cl. Démonstration. La première assertion est évidente : S* S est en effet la
0
u matri.ce dont les entrées sont les produits scalaires (s j, si) où les si sont les
colonnes de S. Pour prouver la seconde assertion (voir paragraphe 1.13 sur
les projections orthogonales) on note que SS*si = si pour toute colonne
si de S et que SS*x = 0 pour tout x E (lm S)1-. En effet cette dernière
condition est équivalente à S* x = O.
108 8 • La décomposition QR

8.2 DÉCOMPOSITION QR
Dans tout ce chapitre nous supposons que m ) n.
Définition 8.3 On appelle décomposition QR d'une matrice A E e,mxn avec m ) n
une identité A = QR où Q E §tmn est une matrice de Stiefel et où R E C 11 xn est
triangulaire supérieure.

Il n'y a pas unicité de ce type de décomposition puisque, par exemple, 1 = zz pour


tout nombre complexe z de module l. Toutefois on a :
Proposition 8.4 Toute matrice A E cm XII de rang n possède une et une seule décom-
position A = QR avec rii > 0 pour tout i = 1 ... n.
Démonstration. Puisque A est de rang n la matrice A * A E C 11 X II est définie
positive (théorème 7 .2). Elle possède donc une décomposition de Cholesky
A * A = R* R (théorème 7.10) où R E C 11 x 11 est triangulaire supérieure et à
diagonale positive. Prenons Q = AR- 1• On a:
Q* Q = R - * A* AR- 1 = R - * (R * R)R - 1
= / 11

ce qui prouve que Q E §tm11 et que A = Q R.


Pour prouver l' unicité on part d'une seconde décomposition : A = Q' R'.
On a A* A = R'* R' = R* R donc R' = R puisque la décomposition de
Cholesky est unique d'où Q = Q' .

Remarque 8.2. On rencontre, dans la littérature consacrée à l'algèbre linéaire,


deux définitions de la décomposition QR. La première est celle donnée ci-dessus
A = Q1 R 1 avec Q1 E §tmn et R1 E C 11 x 11 triangulaire supéri eure. Une seconde
définition est A = QzRz avec Qz E Vm et Rz E e,mxn triangulaire supérieure.
-0
Dans le premier cas Q 1 est rectangulaire et R1 carrée, dans le second cas c'est
0
c l'inverse.
::J
0
CX)
1. Les deux définitions coïncident lorsque m = n c'est-à-dire lorsque A est
0
0
N
carrée,
@
~
2. Le lien entre ces deux définitions est le suivant : Q 1 = Q2 (1 : m , l : n) et
..c R 1 = Rz(l : n , 1 : n),
O'I
·c
>-
Cl. 3. Seule la première définition assure l' unicité de la décomposition.
0
u
Cette première définition apparaît naturellement avec la méthode de Gram-
Schmidt, la seconde avec Givens et Householder. C'est la raison pour laquelle
nous les conservons toutes deux.
Un des intérêts de la décomposition QR est que le conditionnement de la matrice A
n'est pas détruit comme cela peut être le cas pour LU. Si A = Q R le système linéaire
8.3 L'orthonormalisation de Gram-Schmidt 109

Ax = b est équivalent à R x = Q* b qui est un système triangulaire. Par le théorème


5.4 A et Ront le même conditionnement cond2 (A) = cond2 (R).

Nous allons maintenant décrire plusieurs procédés pour calculer cette décomposi-
tion.

8.3 L'ORTHONORMALISATION DE GRAM-SCHMIDT


8.3.1 Description du procédé
Soient a 1, .•• , an des vecteurs linéairement indépendants d'un espace hermitien (ou
préhilbertien) JE. Le procédé d'orthonormalisation de Gram-Schmidt ca1cule n vec-
teurs q 1, .•• , q 11 qui ont les deux vertus suivantes :

• Ils sont orthonormés,

• Pour tout i , les sous-espaces de JE engendrés par a 1 , •.• , ai et q 1 , ••• , qi sont


les mêmes.

On obtient un tel résultat par l'algorithme suivant :

Algorithme de Gram-Schmidt

q1 = aif lla1112
pour i = 1 : n - 1
.... Pi+I = ai+I - 'L:~= I (ai+J, qk) qk
-0
0
~
"O qi+I = Pi+I /Il Pi+1 ll2
c i::
;:::s fin
::J
0 ....
CX)
""'
~
~
0 '~
0
N ""'
·c::
0
@ 'ro='
~
..c i::
Ce procédé est à la base de la construction des polynômes orthogonaux. Notons que
0
O'I
·c i::
~
la base orthonormée obtenue dépend de l'ordre dans lequel sont pris les vecteurs ai.
>-
Cl. ·s..
0 Voir l' exercice 8.9 pour un procédé d'orthonormalisation indépendant de l'ordre des
0 (.)
u ....00 ai .
..c:
o..
ro
......l Soit A = (a1 ... a11 ) E cmxn une matrice de rang n dont les ai sont ses vecteurs-
1
"O
0 colonne. L'orthonormalisation de Gram-Schmidt appliquée aux ai donne la matrice
Q = (q1 ... qn) E §tm11 et la matrice R E C 11 XII triangulaire supérieure à diagonale
i::
;:::s
Q
@ positive telles que A = QR par l' algorithme qui suit:
110 8 • La décomposition QR

Décomposition QR par l'algorithme de Gram-Schmidt

r 11 = ll a1 112
q1 = a1 / lla 1 Ili
pour i = 1 : n - 1
Pi+I = ai+l
pour k = 1 : i
rk i+I = \ai+I, qk)
Pi+l = Pi+l - r ki+I qk
fin
ri+I i+ I = llPi+l 112
qi+J = Pi+1 / ri+li+I·
fin

8.3.2 Interprétation géométrique de G-S


Notons Qi E §tmi la matrice de Stiefel constituée des i premières colonnes de Q :
q1 , ... , qi. L' identité
i

Pi+I = ai+I - L \ai+I, qk ) qk


k= l

montre que Pi+J - ai+I E lm Qi et que Pi+I E (lm Q i)..l, autrement dit Pi+l est la
projection orthogonale de ai+J sur (lm Q i )..l. Ainsi

où Pi = lm - Qi Qj est la matrice de la projection 011hogonale sur (lm Q i)..l (voir le


paragraphe 1.13). L'algorithme de Gram-Schmidt s'écrit alors
-0
c
0 Algorithme de Gram-Schmidt (formulation géométrique)
::J
0

q1 =a, / lla1112
CX)
0
0
N pour i = 1 : n - 1
@
~ Pi+I = Pi a i+l
..c
O'I
·c qi+l = Pi+I / llPi+l 112
>-
Cl. fin
0
u

8.3.3 Complexité de G-S


La complexité de cet algmithme est donnée par le compte suivant du nombre d'opéra-
tions arithmétiques :
8.3 L'orthonormalisation de Gram-Schmidt 111

• 2m pour le calcul de r 11 ,

• m pour le calcul de q 1,

• 2mi pour le calcul de r k i + t.

• 2mi pour le calcul de Pi+t,

• 2m pour le calcul de ri+L i+L,

• m pour le calcul de qi+I ·

On obtient un total de
11-J
3m + L(4mi + 3m) ~ 2mn2 opérations arithmétiques.
i= I

8.3.4 Instabilité numérique de G-S


Donnons un exemple numérique. On prend une matrice A de Vandermonde 10 x .10
(voir le paragraphe 16.4) définie à partir de 10 points aléatoires. Le conditionnement
de A est important: cond2 (A) = 1.0022108 . Soit b E JRLO un vecteur aléatoire. On
résout le système Ax = b grâce à la décomposition QR de A : x = R-J Q*b. Les
résultats numériques obtenus par l'algorithme de Gram-Schmidt sont les suivants (:X
désigne la solution approchée du système) :

• défautd'orthonormalité l Q*Q- /1oll2= 7.178910- 4 ,


• norme de l'erreur llx - xll2 = 71.7977.
.... L' égalité A = QR est par ailleurs satisfaite à l'ordre de l'unité d'arrondi ~ 10- 16 .
~
-0
0 "O On constate une perte significative d'orthogonalité des vecteurs qi et la solution du
c i::
;:::s
::J
0 .... système calculée grâce à cette décomposition est très différente de la solution exacte.
CX)
""'
~
~
0
0
'~ Remarque 8.3. La raison de cette instabilité numérique peut être comprise en
N ""'
·c::
@
0 raisonnant sur deux vecteurs a 1 et a2 . Le procédé de Gram-Schmidt va générer
'ro='
~
..c i::
0
q1 = aif llaill2puis le vecteur P2 = a2 - (a2, q1) q, et enfin q1 = p2 / llP2ll 2.
O'I
·c i::
~
Lorsque a 1 et a2 sont deux vecteurs quasi proportionnels, les vecteurs a2 et
>-
Cl. ·s..
0 (a 2 , q 1) q 1 sont à peu près égaux, leur différence sera donc petite et q2 sera
0 (.)
u ....00 obtenu comme quotient de deux petites quantités d'où des instabilités numé-
..c:
o.. nques.
ro
......l
1
"O
0
Prenons a 1 = (-0.88061, - 0.47384)T, a 2 = (-0.881 , - 0.474f et calculons avec
Q
@
i::
;:::s

-
cinq décimales. On obtient: q 1 = a 1, (a2, q 1 ) = 1.0004, p2 = (- 0.00004, 0.00003)T
ce qui conduit à un angle (q 1 , p 2 ) = 66.4 degrés bien loin des 90 degrés souhaités.
112 8 • La décomposition QR

8.3.5 L'algorithme de Gram-Schmidt modifié


On peut remédier en partie à ce défaut en ordonnant différemment le calcul des
vecteurs Pi· On décompose l'opérateur de projection orthogonale Pi de la manière
suivante:
Pi = l m - Qi Q7 = Um- qiqt) · · · CJm - qiq7).
Il est facile de prouver que ces deux expressions de Pi sont égales. Cependant, du fait
des erreurs d'arrondi, les deux formes ne sont pas numériquement équivalentes. Ce
nouveau calcul donne lieu à l'algorithme de Gram-Schmidt modifié :

Algorithme de Gram-Schmidt modifié

q1 =a,/ lla1 112


pour i = l : n - 1
Z = a i +I
pour k = 1:i
z = z - (z, qk) qk
fin
q i +J = z/ llzll2
fin

L'algorithme de Gram-Schmidt modifié appliqué au système considéré au para-


, '

graphe 8.3.4 donne le résultat suivant:

• défaut d'orthonormalité Il Q* Q - I10ll2= 1.522910- 9 ,

-0
• norme de l'erreur llx - xll2 = 0.0970.
0
c
::J
0 L'orthogonalité des vecteurs est mieux satisfaite que par l' algorithme de Gram-
CX)
0
0
Schmidt et la solution du système meilleure, bien qu ' encore assez médiocre. On
N
verra au paragraphe 8.5.3 que la décomposition QR obtenue grâce à la méthode de
@
~ Householder donne de meilleurs résultats.
..c
O'I
·c
>-
Cl.
0 8.3.6 Procédé de réorthogonalisation
u
Une autre méthode fréquemment utilisée pour améliorer 1'01thogonalité des colonnes
de Q consiste à appliquer une seconde fois 1' algorithme de Gram-Schmidt à la matrice
Q que l' on vient de calculer et dont on a vu qu'elle ne vérifiait qu'imparfaitement
l' égalité Q* Q = 111 • On obtient la décomposition Q = Q' R' et donc A = Q'(R' R).
La matrice R' R est triangulaire supérieure et Q' est la matrice de Stiefel de cette
8.4 Rotations de Givens 113

nouvelle décomposition QR de A. En général les colonnes de Q' vérifient les relations


d'orthogonalité avec une bonne précision et il n'est par nécessaire de poursuivre au-
delà ce processus.
La complexité des calculs de cette méthode a plus que doublé par rapport à I 'al-
gorithme de Gram-Schmidt puisqu'il faut aussi considérer le produit des matrices
triangulaires supérieures R' R.
Donnons une illustration del' efficacité de cette méthode pour le système numérique
déjà considéré :
• défaut d'orthonormalité Il Q'* Q' - l 1üll2 = 6.775910- 16
,

• norme de l'erreur llx - xll2 = 1.1819 10- 11 .


Les résultats sont meilleurs que ceux obtenus par les transformations de Househol-
der (voir paragraphe 8.5.3).

8.4 ROTATIONS DE GIVENS


Nous n'allons considérer, dans ce paragraphe, que des matrices réelles, le cas complexe
fait l' objet de l'exercice 8.8. Une rotation de Givens consiste en une rotation d'angle
-8 dans le plan 0 Xi x j. Elle est donnée par G (i , j , fJ)x = y avec

.... 1
-0 ~
c
0 "O
i::
cos() sin()
;:::s
::J
0 .... 1
CX)
""'
~

0
0
~
'~ G(i , j , 8) =
N ""'
·c::
0
@ 1
'ro='
~
..c i::
0
- sin() cos() - - - -- - - .!
O'I i::
·c ~ 1
>-
Cl. ·s..
0
0 (.)
u ....00
..c:
o.. 1
ro
......l
1 c'est-à-dire
"O
0
i::
Xk k =f. i , j,
;:::s
Q xi cos () + x.i sin () k = i,
@
-xi sin()+ Xj cos() k = j.
114 8 • La décomposition QR

Il est clair qu'il s'agit là d'une transformation orthogonale. On peut forcer Yj à être
nul en prenant
X·1 X·
1
cos () = et sin () =
V+ x?1 x}2
j x~ + x
l
2
}
.

Une succession de telles rotations permet d'appliquer un vecteur a E ffi. 111 sur le vecteur

± llall2
0

Il suffit, pour ce faire, d'effectuer le produit suivant de rotations de Givens :

G(l , 2, 82)G(2, 3, 83) ... G(m - 1, m, 8m)a

l'angle ()k est choisi de façon à annuler la k-ième composante du vecteur

G(k, k + 1, 8k+J) . . . G(m - 1, m, 8,i)a

comme indiqué dans l'algorithme suivant :

Algorithme de Givens pour la transformation d'un vecteur

pour i = m : - 1 :2
r = ja? 1 +a~1- l

ai-J = r

-0
ai = 0
c
0 fin
::J
0
CX)
0
0
N
@
Notons enfin que l'on peut contrôler le signe de la première coordonnée ± llall 2 en
~
..c
remplaçant () par 'TT + ().
O'I
·c Pour obtenir la décomposition QR d'une matrice A E ffi.m x n on applique la méthode
>-
Cl.
0 précédente aux différentes colonnes de A comme indiqué dans le schéma suivant :
u

X X X X X X X X
X X G(3 ,4) X X G(2 ,3) X X G(l ,2) Ü X G (3,4)
---+ ---+ ---+ ---+
X X X X Ü X Ü X
X X Ü X Ü X Ü X
8.4 Rotations de Givens 115

X X X X
Ü X G(2 ,3) Ü X
--7
Ü X 0 0
0 0 0 0
Noter que l'ordre choisi dans la composition des rotations de Givens ne perturbe pas
les zéros déjà acquis. L' algorithme correspondant est le suivant :

Algorithme de Givens

pour j n- 1
= 1:
pour i = m : - 1 : j - 1
r = Vfa2 ,_ 1 ./. +a?.
11

c = ai- .1.i/r
s = aij / r
ai- 1 j = r
aiJ = 0
pour k = j + 1 : n
ai - t k = cai- 1k + saik
aik = - sai-1 k + caik
fin
fin
fin

.... Ceci montre que


-0 ~
c
0 "O
i::
Théorème 8.5 Toute matrice A E ~rn x n p ossède une décomposition A = QR avec
;:::s
::J
0 .... R E ~mxll triangulaire sup érieure et Q E Oni. p roduit d 'au p lus n(2m - n - 1)/ 2
""'
~
CX)
0
~
'~ rotations de Givens. L'algorithme de Givens calcule la matrice R en ~ 3m n2 - n 3
0
N ""'
·c::
0 opérations arithmétiques.
@ 'ro='
~
..c i::
O'I
0
i::
Démonstration. Le calcul de r , c et s compte pour 6 opérations, puis 6
·c
>-
Cl.
~
·s.. autres opérations dans la boucle k d' où un total de 6(n - j) + 6 ops. La
0 0
u
(.)

....00 boucle sur i puis celle sur j conduisent à un total de


..c:
o..
ro n- 1
......l

"O
1
L(6(n - j) + 6)(m - j + 2) ~ 3mn 2 - n3.
0
i::
;:::s J= I
Q
@
116 8 • La décomposition QR

8.5 LA MÉTHODE DE HOUSEHOLDER


8.5.1 Symétries orthogonales

Définition 8.6 Soit w E cm un vecteur unitaire c'est-à-dire tel que


llwll; = \w, w) = w *w = l.

On appelle matrice de Householder associée à w

Hw = lm - 2ww*.

Théorème 8.7 Hw est la symétrie orthogonale par rapport à l 'hyperplan

Hw = {u E cm : (u, w) = 0} .
Elle est hermitienne et unitaire : H 111= H1~ = H;;; 1 •
Démonstration. H 111 (w) = Um - 2ww*)w =
w - 2w(w *w ) = - w parce
que w*w = 1. De plus, pour tout u E H w, H 111 (u) = Um - 2ww*)u =
u - 2w(w*u) = u puisque w *u = \u, w) =
O. Ceci prouve que Hw est
bien la symétrie orthogonale par rapport à l'hyperplan H w. Notons enfin que
H; = Um- 2ww*)* = lm- 2ww* = Hw et a ; Hw = Um - 2ww*)2 =
l m - 4ww* + 4ww*ww* = lm parce que w *w = 1. Ceci prouve que
la symétrie orthogonale par rapport à l'hyperplan H w est hermitienne et
unitaire.

Étant donné deux vecteurs dans JRm de même longueur, on peut les rabattre l'un
sur l'autre par une symétrie orthogonale. En termes plus imagés, l'un est« l'image
-0 miroir» de l'autre. Pour des vecteurs complexes cela n'est vrai qu'à un changement
0
c
::J
d' argument près :
0
CX)
0
0
Théorème 8.8 Soient u 1 et U2 E cm
de mêmes normes et indépendants. Tl existe
N w E Cm, unitaire, et un nombre complexe 8 de module 1 tels que
@
~
..c
OI
·c
>-
Cl.
0
u Démonstration. On prend

8 = exp(- i arg(ur u2))

et
Ut - 8u2
w= - - - - -
llul - 8u2ll2.
8.5 La méthode de Householder 117

L'indépendance de u 1 et u2 fait que u 1 - 8u2 =/= O. On a: Hw(u 1) =

(u1 - 8u2)(u1 - 8u2)* ( () ) uju1 - Ouiui


U1 - 2 U1 =Ut - UJ - U2 - - - - - - -
(u 1- 8u2)*(u 1- 8u2) u j u 1- R(Ouj u2)

Le choix de() fait de 8uju 2 un nombre réel positif donc

R(Ouju2) = eu ru2 = Ouiui

de sorte que

Lorsque les vecteurs u 1 et u 2 ne sont pas de même n01me, il suffit de considérer le


théorème précédent avec u 1/llu1 ll2et u2/llu2ll2- On obtient le résultat suivant
Soient UJ et U2 E
Corollaire 8.9 cm indépendants. Il existe w E cm unitaire et un
nombre complexe k =/= 0 tels que

Le cas réel se traite de façon similaire :


Théorème 8.10 Soient u 1 et u 2 E Rm de mêmes normes et indépendants. Posons
U] + U2
W+ =
llu1 + u2 l'2
et
U1 - U2
w_ = - - - -
llu1 - u2ll2.
Alors
....
-0 ~
0 "O
c i::
;:::s
::J
0 .... Corollaire 8.11Soient u .1 et u 2 E ffi.m indépendants. Il existe w E ffi.m, unitaire, et un
CX)
""'
~
~ nombre réel positif (resp. négatif) k tels que
0 '~
0
N ""'
·c::
0
@ 'ro='
~
..c i::
0
O'I i::
·c ~
>-
Cl. ·s.. 8.5.2 QR via Householder
0 0
(.)
u ....00
..c:
La méthode de Householder pour calculer la décomposition QR d' une matrice A E
o..
ro cmxn repose sur la construction suivante:
......l
1
"O
0 Théorème 8.12 Il existe une matrice unitaire Q E Um produit d'au plus n matrices
de Householder (n - 1 matrices si m = n) et une matrice triangulaire supérieure
i::
;:::s
Q
@ R E cmxn à diagonale positive ou nulle telles que A = QR.
118 8 • La décomposition QR

Démonstration. Soit a 1 le premier vecteur-colonne de A et soit e 1 le premier


vecteur de la base canonique de cm :e 1 = (1, 0 , ... , Ol. Si 1 = 1 il a ke
n'y a ri en à faire et l'on pose H 1 = l m. Sinon, en ve1tu du corollaire 8.9, il
existe une matrice de Householder H 1 et un scalaire k 1 =!= 0 tels que

I I
k1 a,2 a,11
0
H1A =
A,
0

Après j telles étapes on obtient

0
k·J
0
A·J
0 0

où A j est une matrice (m- j) x (n- j). Appliquons à A j la même procédure


que pour A : notons a j +l E cm- j la première colonne de A j et e 1 E j cm-
le premier vecteur de la base canonique de cm-
j. Si aj+ 1 est proportionnel
à e1 on pose H j+l = l m et on passe à l'étape suivante. Sinon, on calcule une
matrice de Householder H j+l E c<m - j)x(m - j) et un scalaire kj+I E c tels
que
Hj+1aj+1 = kj+1e1.

-0
0
À la matrice de Householder Hj+l E c<m-j)x(m-j) nous associons la matrice
c
::J
0
H j+I E cmxm donnée par
CX)
0
0
N
@
~
-
0
H .i+l )
..c
O'I
·c
>- Il est facile de voir que lorsque H j+J est la matrice de Householder associée
Cl.
0
u au vecteur w cm-E .i, H .i+l est la matrice de Householder associée au
vecteur w E cm tel que
0

w=
0
w
8.5 La méthode de Householder 119

La multiplication à gauche de H.i ... H 1A par H.i+l ne modifie que le bloc


A.i, qui est transformé en H.i+1A 1 , et laisse inchangé le reste de la structure
d'où

0 0

Le processus s'arrête après n telles étapes. On obtient alors une matrice tri-
angulaire supérieure H11 • • • H 1 A = R d'où A= QR avec Q = H 1 ••• H11 •
Lorsque m = n la dernière étape n'est plus nécessaire parce que la matrice
A 11 est de taille 1 x 1 donc déjà triangulaire supérieure; n - 1 matrices de
Householder suffisent.

Remarque 8.4. Par construction des matrices de Householder H.i, les diffé-
rentes colonnes q.i de la matrice Q = H 1 ... H11 sont données par q.i = Qe.i =
H1 ... H.ie.i.

8.5.3 L'algorithme et sa complexité


La triangulation d' un système via la méthode de Householder est résumée dans l'algo-
rithme suivant que nous donnons pour des matrices réelles. La matrice R obtenue a
une diagonale positive ou nulle .
....
-0 ~
0 "O
c i::
;:::s
::J
0 ....
CX)
""'
~
~
0 '~
0
N ""'
·c::
0
@ 'ro='
~
..c i::
0
O'I i::
·c ~
>-
Cl. ·s..
0
0 (.)
u ....00
..c:
o..
ro
......l
1
"O
0
i::
;:::s
Q
@
120 8 • La décomposition QR

Décomposition QR par la méthode de Householder

pour j = 1 : n
a 2 -_ '\' m 1 12
L..Ji = j+ I aiJ
si a =/: 0
/3 =
V/lan.· 12 + a 2
Wj = a j j - f3
pour i = j + 1 : m
Wi = ai)
fin
WW T
H = l m- j + I - 2- -2
llwll2
A(j : m , j : n) = H A(j : m , j : n)
fin
fin

Le calcul du produit de matrices H A(j : m , j : n) demande en principe 2(m - j +


2
1) (n - j + 1) opérations arithmétiques. Compte tenu de la structure particulière de
H , on peut l'effectuer en ;:::::; 4(m - j + l)(n - j + 1) opérations. Il suffit de procéder
de la façon suivante:
1. On calcule le produit vecteur ligne-matrice w r A(j : m , j : n) : ceci nécessite
;:::::; 2(m - j + l)(n - j + 1) opérations,
2. On évalue v = - 2 ; 11 2 puis v ( wr A(j : m , j : n)) ce qui demande ;:::::; (m - j +
11
l)(n - j + 1),
3. On ajoute le résultat obtenu à A(j : m , j : n) d' où (m - j + l)(n - j + l)
-0
c
0 opérations supplémentaires,
::J
0
CX)
4. Comme 1 :s; j :s; n on obtient au total (les opérations oubliées dans ce compte
0
0 ont un ordre de grandeur inférieur)
N
@
n 2
~
..c
O'I
·c
L 4(m - j + l)(n - j + 1) ;:::::; 2mn 2 -
3
n 3 opérations arithmétiques .
>-
Cl.
j= I
0
u
Cet algorithme est donc moins coûteux que l'algorithme de Gram-Schmidt (2mn 2 )
mais il faut noter que ce dernier calcule les matrices Q et R à la fois alors que les
algorithmes de Givens et de Householder ne fournissent que la matrice R.
Une évaluation possible de Q utilise la remarque 8.4 : les différentes colonnes q1
de la matrice Q = H 1 . . . Hn sont données par q1 = Qe1 = H 1 ... H1e1 . Ce calcul
8.6 Réduction à la forme de Hessenberg 121

requiert~ 2mn2 - ~n 3 opérations arithmétiques, mais il suppose que l'on stocke les
matrices H1 . . . Hn.
Une dernière possibilité consiste à effectuer le produit Q* = Hn . . . H 1 ce qui évite
de conserver les différentes matrices de Householder mises en oeuvre. Cette stratégie
coûte~ 4(m 2 n - mn 2 + n 3 / 3) opérations arithmétiques.

Considérons à nouveau l'exemple du paragraphe 8.3.4 en utilisant la décomposition


QR par les matrices de Householder (fonction qr de Matlab). On obtient le résultat
suivant:
15
• défautd'orthonormalité llQ*Q- l 10 ll2 = 1.191710- ,

• norme de l' erreur llx - xll2=1.498010- 8 .

On constate l'excellente précision numérique des calculs obtenus avec la méthode


de Householder.

8.6 RÉDUCTION À LA FORME DE HESSENBERG

Définition 8.13 Une matrice H E C 11 XII est dite de Hessenberg lorsque hij = 0 pour
tout i > j + 1.
Une matrice de Hessenberg H est de la forme
X X

H = (8.1)
....
-0 ~
0 "O
c i::
;:::s
X X
::J
0 ....
CX)
""'
~
~ On va montrer que toute matrice A est unitairement semblable à une matrice de
0 '~
0
N ""'
·c::
0
Hessenberg. Cette décomposition peut être obtenue grâce aux matrices de Househol-
@ 'ro=' der et de Givens déjà considérées pour la décomposition QR. Nous donnons ici la
~
..c i::
O'I
0
i::
décomposition par les matrices de Householder.
·c ~
>-
Cl. ·s..
0 0
(.) Théorème 8.14 Étant donné une matrice A E C" x n, il existe une matrice unitaire Q
u ....00
..c:
produit d'au plus n - 2 matrices de Householder telle que Q* A Q soit une matrice de
o..
ro Hessenberg.
......l
1
"O
0 Démonstration. Si la première colonne a 1 de A est du type
i::

Q
;:::s
a, = (a 11 , a11 , 0, ... , Ol alors on pose H2 = In. Sinon, les vec-
@ 1 teurs, a- 2 -- (a 21 , . . . , a111 )T et e- 1 -(1
- , Ü, • . . , O)T E rr<n- . d'
\\._, l 'sont rn ependants
122 8 • La décomposition QR

donc, par le corollaire 8.9, il existe une matrice de Householder


H2 E ccn - l)x(n - l) et un scalaire k1 tels que

On pose

qui, comme nous l'avons vu, est aussi une matrice de Householder. On a

a, 1 a12 a13 ... a1n


k1
0
Ai
0

La multiplication à droite de H 2 A par Hi ne modifie pas la première colonne


de H2 A. On obtient la matrice

0
-0
0
c On recommence ce même procédé sur la matrice A 1 et après n - 2 étapes
::J
0
CX) on obtient
0
0
N
@
~
..c
O'I
·c
où H est de Hessenberg (à ne pas confondre avec les matrices de Househol-
>-
Cl. der Hj). Il suffit de poser Q = Hi ... H,7_ 1 = H 2 . . . H11 -1 pour avoir la
0
u décomposition de Hessenberg A = QHQ*.

La forme algorithmique du théorème 8.14 est donnée ici pour des matrices réelles:
8.6 Réduction à la forme de Hessenberg 123

Forme Hessenberg par la méthode de Householder

pour j = 1:n- 2
~Il
a 2 -- Lti 1 12
= j+2 aij
si a i= 0
(3 = Vla.i+l .i 12 + a 2
Wj+ l = (3
a j +I j -
pour i = j + 2 : n
Wi = aij
fin
WWT
H = ! 11 _ .i - 2- -2
llwlb
A(j + 1 : n , j : n) = H A(j + 1 : n, j : n)
A(l : n , j + 1 : n) = A(l : n , j + 1 : n)H
fin
fin

Le décompte des opérations est le suivant :

• ~ 1n 3 opérations pour le produit des matrices H A(j + 1 n, j n) (voir


paragraphe 8.5.3),

• I:;:~ 4n(n - j) ~ 2n 3 opérations pour le produit des matrices A(l : n , j + 1 :


.... n)H,
-0 ~
0 "O
c i::
;:::s
::J
....
0
""' soit~ .!.Qn 3 opérations pour le calcul de la matrice de Hessenberg. Il faut ajouter à
f
~

cela~ n 3 opérations pour le calcul de la matrice Q (voir paragraphe 8.5.3).


CX)
~
0 '~
0
N ""'
·c::
0
@ 'ro='
~
..c i:: Remarque 8.5.
0
O'I i::
·c
>-
~
·s.. 1. La matrice obtenue par cet algorithme est du type Hessenberg et, lorsque le
Cl.
0
0
u
(.) cas a= 0 ne s'est jamais présenté dans son déroulement, les entrées h i+ I i
....00
..c: sont toutes positives.
o..
ro
......l 2. La décomposition de Hessenberg peut aussi s'obtenir à l'aide des matrices
1
"O
0 de G.ivens.
i::
;:::s
Q
@
124 8 • La décomposition QR

8.7 TRIDIAGONALISATION D'UNE MATRICE HERMITIENNE

Définition 8.15 Une matrice T est tridiagonale 1 si Iij = 0 lorsque li - j 1> l.

La décomposition de Hessenberg d'une matrice hermitienne conduit à une matrice


(hermitienne) tridiagonale. Nous donnons ici le procédé de tridiagonalisation qui
utilise les matrices de Householder.

Théorème 8.1 6 Étant donné une matrice A E e,n x n hermitienne, il existe une matrice
unitaire Q produit d'au plus n - 2 matrices de Householder telle que QA Q* soit une
matrice tridiagonale hermitienne.

Démonstration. On procède comme dans la preuve du théorème 8.14. Le


résultat de la multiplication à gauche de A par la mat.ri.c e de Householder H2
ne modifie pas la première ligne de A. Puisque la matrice A est hermitienne
cette ligne est la conjuguée de la première colonne de A et a 11 = a 11. On a

a11 lï21 a31 ... lïnJ


k1

H2A = 0
Ai
0

En multipliant à droite par H2 = H2 on a donc

a11 k1 0 .. . 0
k1
H2A H; = 0
-
A1
-0
0
0
c
::J - -
0 où A 1 est elle-même hermitienne. On recommence avec A 1 ce qui vient
CX)
0
0
d'être fait avec A et après n - 2 telles étapes on a :
N
@
~
..c
OI
·c
>-
Cl.
tridiagonale hermitienne. Il suffit de poser Q = H2 ... H,~_ 2 = H2 ... H11 -2
0
u pour avoir la décomposition A = QT Q*.

Cette décomposition s'obtient également grâce aux transformations de Givens.

1. D'après la définjtion générale (voir exercice 6.5) une matrice tridiagonale est une matrice bande de
largeur 3.
8.8 L'algorithme d'Arnoldi 125

8.8 L'ALGORITHME D'ARNOLDI


La décomposition A = QH Q * sous la forme de Hessenberg n'est pas unique. Déter-
minons le nombre de variables réelles indépendantes d'une matrice Q E U11 unitaire
et d'une matrice H E cnxn de Hessenberg.
Pour Q E Un nous obtenons le décompte suivant :

• dimR <Cnxn = 2n 2 ,

• n(n - 1)/ 2 conditions d' orthogonalité et donc n(n - 1) équations réelles,

• n conditions de normalité et donc n équations réelles.

Cette heuristique« montre que» dimR U11 = 2n 2 - n(n - 1) - n = n 2 .2 Pour une


matrice HE cnxn de .Hessenberg, on a (1+2+ . . . +n)+(n - 1) coefficients complexes
et donc n 2 + 3n - 2 coefficients réels. Sachant que A E cnxn admet 2n 2 coefficients
réels, nous disposons donc de 3n - 2 paramètres réels arbitraires. Cette possibilité est
utilisée par l'algorithme d' Arnoldi qui calcule une décomposition de Hessenberg de A
ayant la première colonne de Q fixée (2n - 1 paramètres réels) et les arguments des
coefficients h j+ J j fixés, par exemple h j +I j > 0 (n - 1 paramètres réels).

Considérons un vecteur unitaire q 1 E <C11 • Nous souhaitons construire une matrice


unitaire Q = (q 1q 2 . . . q,z) ayant q 1 pour première colonne et une matrice H de
Hessenberg à sous-diagonale positive (hi+I i > 0 pour tout i = 1 ... n - 1) telles que
A = QH Q *, c'est-à-dire
AQ = QH. (8.2)
La première colonne de (8.2) montre que

....
-0 ~
0 "O
c i::
;:::s on a donc h 2 1q2 = Aq 1 - h 11 q 1. La condition d'orthogonalité (q 1 , q2 ) = 0 permet de
::J
0 .... déterminer
CX)
""'
~
~
0
0
'~ h11 = (Aq1 , q1) = q t Aq1.
N ""'
·c::
0
@
~
'ro=' Par ailleurs, la condition llq2 l 2 = l implique
..c i::
0
O'I i::
·c ~
>-
Cl. ·s..
0
0 (.)
u ....00 Si Aq 1 - h 11 q 1 =!= 0 est distinct de zéro, on peut alors choisir
..c:
o..
ro
......l
1
"O
0
i::
;:::s
2. Il s'agit là de la dimension de lU" en tant que sous-variété différentiable de ~2" • Nous admettons ici
2

Q
@ que les relations d'orthonormalité Q* Q = 111 sont indépendantes.
126 8 • La décomposition QR

et

On aurait pu tout aussi bien prendre h11 = z llAq1 - h 11q 1 112 avec z E C de module 1.
Supposons avoir construit les j premières colonnes de Q et de H avec les conditions
requises. La relation (8.2) appliquée à la colonne j donne

j+l
Aqj = L hi_;qi
i=l

et l'on obtient
j

hj+J j qj+l = Aqj - L hijqi . (8.3)


i= l

Puisque les vecteurs q; (i = 1, ... , j) sont orthonormés, les coefficients hij (i


1, ... , j) sont déterminés par les contraintes d' orthogonalité (qj+I, qi) = 0, ce qui
donne

Si Aq_; - L,{= 1 hi.iqi =/= 0 alors on choisit

hj+l j = llAq_; - Lhijqi ll2> 0


i= I

-0
0 et
c
::J
0 .i
CX)
0 qj+I = (Aq_; - L hijqi)/hj+ I j·
0
N i=l
@

:g Si le processus se poursuit jusqu'à l'étape n - 1, c'est-à-dire si Aqj - L,{=1 hijqi =/= 0


-~
Cl.
pour j = l , ... , n - 1, alors (q1 , ... , qn) est une base orthonormée de C 11 • Dans
8 cette base, écrivons Aq11 = L.;'= 1 hi 11 qi. Les coefficients hin sont encore donnés par
hin = qt Aqn et la matrice H est enfin déterminée. On a ainsi défini l'algorithme
d'Arnoldi:
8.8 L'algorithme d'Arnoldi 127

Algorithme d' Arnoldi

Entrée· A H E cn x ii H = 0 q E <C11 de norme 1


. ' ' ' 1

pour j = 1 : n - 1
z = Aq.i
PJ+I = z
pour i = 1 : j
hiJ = qtz
P.i+J = P.i+l - h;.iqi
fin
h j +I j = Il PJ+1 ll2
Si h j+I j = Ü
k= j
stop
fin
qj+I = p J+ifh.i+l j
fin
k=n
pour i = 1 : n
h;11 = qt Aq11
fin

Sortie: k, Qk = (q1 ... qk ) E §t11 k, Hk E Ckxk de Hessenberg avec h.i+l .i > O.

D'une manière générale, lorsque 1'algorithme s'arrête


....
-0 ~
0 "O
c • Si k ~ n - 1 et hk+I k = 0, on a AQk = QkHk avec Qk E §t11ki Hk E <ek x k de
::J
0
i::
;:::s
....
""'
~
- -
Hessenberg et AQ1 = Q 1+1 H1 pour tout j < k avec H1 = Hk(l : j + 1, 1 : j).
CX)
~
0
0
'~ Les colonnes de Qk engendrent un sous-espace de <C11 , de dimension k, invariant
N ""'
·c::
@
0 par A.
~
'ro='
..c i::
0
O'I
·c i::
~
• Si k = n - 1 et hk+I k =J 0, on a obtenu à la fin de la boucle k l'égalité
>-
Cl. ·s..
0 AQn-1 = Q11Hn-I avec Hn-1 E <C11 X(1!-I) que l'on transforme en AQ11
0 (.)
u ....00 Q11 H,1 au travers de la dernière boucle de l'algorithme .
..c:
o..
ro
......l
1 Nous résumons les propriétés que nous venons de décrire dans la
"O
0
i::

Q
;:::s
Proposition 8.17 L'algorithme d'Arnoldi calcule un entier k ~ n, une matrice de
@ Stiefel Qk E §t11 k et une matrice de Hessenberg Hk E <ekxk telles que A Qk = QkHk
128 8 • La décomposition QR

et h,;+i J > 0 pour tout j = 1, ... , k - 1. Les colonnes q 1 de Qk engendrent un


sous-espace de dimension k de C11 invariant par A . On a les égalités

-
AQ1 = Q 1+1 H1
AQJ = Q 1H1 +h1+1JqJ+1e) (8.4)
Q j AQ J = H1

pour tout j < k, en notant Q 1 = Qk(l : n, l : j), H 1 = Hk(l : j, l : j), H 1 = Hk(l :


j + 1, l : j) et e .i le j-ième vecteur de base de ffi.l.

Cet algorithme est un cas particulier d'algorithme de Gram-Schmidt: il s'agit de


l'orthonormalisation de la base (q 1 , Aq 1 , Aq2 , ... , Aqk_ 1) où chaque q,; est construit
grâce aux vecteurs q 1 , ••• , qJ- I et AqJ- I • À ce titre on observe les mêmes défauts
numériques que dans 1'algorithme de Gram-Schmidt : lorsque j croît, les vecteurs
q,; calculés ne vérifient pas la contrainte d'orthogonalité de manière satisfaisante.
On modifie les calculs de la même façon que dans l' algorithme de Gram-Schmidt
(paragraphe 8.3 .5). L'égalité (8.3) s'écrit

où P1 = (111 - Q 1 Qj) et Q,; = (q1 ... q 1 ) E §t11,;. Le projecteur orthogonal P,; admet
la décomposition

et les matrices (111 - q;qt) commutent entre elles. Nous obtenons ainsi l'algorithme
d' Amoldi modifié.
-0
0
c
::J
0
CX)
0
0
N
@
~
..c
OI
·c
>-
Cl.
0
u
8.9 L'algorithme de Lanczos 129

Algorithme d' Arnoldi modifié

Entrée· A H E cnxii H = 0 q E <C11 de norme 1


. ' ' ' 1

pour j = 1 : n - 1
z = Aq.i
pour i = 1 : j
hi1·=q~
.! z

z= z- hijqi
fin
h j+I j = llzll2
Si hj+I j = Ü
k= j
stop
fin
qj+l = zjh j+I j
fin
k=n
pour i = 1 : n
hin = q;* Aqn
fin

Sortie: k, Qk = (q, . . . qk) E §tnk, Hk E ck xk de Hessenberg avec h j+I j > O.

Définition 8.18 Une matrice de Hessenberg H dont les coefficients h j+I .i sont dis-
.... tincts de zéro est dite non réduite. La matrice H k donnée par l'algorithme d'Arnoldi
-0 ~
c
0 "O
i::
en est un exemple.
;:::s
::J
0 ....
CX)
""'
~
~
La complexité de l'algorithme d' Arnoldi est celle de l'algorithme de Gram-Schmidt
0 '~
0
N ""'
·c:: auquel il faut ajouter le coût des produits Aq.i , j = 1, ... , k. Chaque produit néces-
0
@ 'ro=' site 2n 2 opérations. L'algorithme d' Arnoldi requiert donc~ 2nk2 + 2n 2 k opérations
~
..c
O'I
i::
0
i::
arithmétiques.
·c ~
>-
Cl. ·s..
0
0 (.)
u ....00
..c:
8.9 L'ALGORITHME DE LANCZOS
o..
ro
......l
1
Lorsque la matrice A est hermitienne, la décomposition de Hessenberg A = QH Q*
"O
0
i::
montre que la matrice H est également hermitienne et donc tridiagonale. Notons T
;:::s
Q
@
130 8 • La décomposition QR

cette matrice

T =
/311 - 2 an-1 f3n- I
/311-1 a n
Nous allons suivre la même démarche qu' au paragraphe précédent en considérant
les relations existant entre les vecteurs-colonne des matrices A et Q déduites de la
relation
AQ = TQ (8.5)
et les propriétés d' orthogonalité des colonnes de Q.
On suppose que le vecteur unitaire q 1 est donné. La première colonne de l' égalité
(8.5) donne
A q 1 = a 1q1 + f3 1q2

d'où l'on déduit f3 1q 2 = Aq 1 - al q 1• Le vecteur A q 1 - al q 1 colinéaire à q2 doit


être perpendiculaire à q 1• Le choix du coefficient a 1 est imposé par cette contrainte :
on a (Aq1 - a1q 1, q1 ) = 0 et donc a 1 = qr Aq1. Par ailleurs, ll q2ll2 = 1 implique
lf3 1I = ll Aq1 - a1q1 112 - Si llAq1 - a1 q1112 est distinct de zéro, on peut alors choisir
/3 1 = ll Aq1 -a1q,112 > 0 et q2 = (Aq 1 -a i q1 )/ /31. De cette dernière égalité on déduit
aussi que q~ q2 = 1 = qi (Aq 1 - a 1q1)/ /31 = qi Aqi/ /3 1 et donc /31 = q~ Aq 1
r
q A q2 puisque A est hermitienne et {3 1 réel.
Plus généralement, pour les colonnes successives j = 2, ... , n - 1, on a

que l'on écrit sous forme d' une récurrence à trois termes :
-0
0
c
::J
0 (8.6)
CX)
0
0
N
Supposons que les vecteurs qi, i = 1, ... , j soient orthonormés et que f3 j - I E lR
@
~ vérifie /3 j -l = q j Aqj - l = q j _ 1 Aqj . Le produit scalaire par q j des deux membres
..c
OI
·c de l' égalité (8.6) donne a j = q j Aq.i. Le produit par q j-l donne /3 j-J = q j_ 1Aqj
>-
Cl. qui est déjà vérifié par hypothèse. En considérant la norme, on obtient
0
u
lf3j l = ll Aq.i - /3 .i - lqj - 1 - a .iq .i ll2-

Si llAqJ· - f3 J·- 1q. J·- 1 - a J·q.. }· 112 -t


Î 0 on pose f3 J· = llAq. }· - f3 J·-1 q.. }·- 1 - a J·q. J· 112 et
8.9 L'algorithme de Lanczos 131

Cette égalité donne en outre /3,; = qj+i Aq,; = qj Aq,;+l · On poursuit ainsi le calcul
tant que f3 .i est distinct de zéro.
De cette récun-ence, nous déduisons l'algorithme de Lanczos qui calcule les vecteurs
q,; à partir d' une vecteur q 1.

Algorithme de Lanczos

Entrée : A , T E c nxn, T = 0, q1 E <Cn de norme l , qo = 0, /30 = 0

pour j = 1 : n - 1
z= Aq,;
a ,;= qj z
z = z - a ,;q,; - /3,;-1q,;-1
!3,; = llzll2
si {3,; = 0
k= j
stop
fin
q,;+1 =z/ /3,;
fin
k= n
an= q,7Aqn
fin

Sortie: k, Qk = (q1. . . qk) E § tnki Tk = T(l : k , 1 : k ) E c kxk tridiagonale

....
-0 ~
0 "O
c i::
::J ;:::s
.... La complexité de l' algorithme de Lanczos est dominée par les produits
0
CX)
""'
~
~
Aq,;, j = 1, . . . , k ce qui donne ~ 2n 2 k opérations.
0 '~
0
N ""'
·c::
0
@ 'ro=' Remarque 8.6. Une récun-ence à trois termes se rencontre aussi dans la
~
..c i::
0
construction des polynômes orthogonaux tels que, par exemple, les polynômes
O'I i::
·c ~ de Legendre, de Chebyshev ou de Jacobi utilisés dans les formules de
>-
Cl. ·s..
0 0
(.) quadrature de Gauss. L' orthogonalité des polynômes y est donnée au sens du
u ....00
..c:
produit scalaire
o..
ro
......l
1
(f,g) = /, f(t )g (t )w(t )dt,
"O
0
i::
;:::s
Q où I est un intervalle et w : I ---+ ]0, +oo[ une fonction poids.
@
132 8 • La décomposition QR

8.10 CONDITIONNEMENT DE LA DÉCOMPOSITION QR


Comment les variations de la matrice A influent-elles sur sa décomposition QR?
Pour traiter cette question nous allons, suivant les principes exposés au chapitre 5,
calculer la dérivée de l'application A--? (Q , R). Nous avons vu à la proposition 8.4
que cette application est bien définie à condition de prendre pour Q une matrice de
Stiefel et pour R une matrice à diagonale positive. Le calcul de sa dérivée repose sur le
théorème de dérivation des fonctions inverses: on commence par dériver l'application
(Q, R) --? A, ce qui est très facile, puis on calcule l'inverse de cette dérivée, ce qui
l'est moins. On a ainsi obtenu la dérivée de l'application A --? (Q , R). Mais une
difficulté se présente. L'application ( Q, R) --? A est définie non pas sur un ouvert d'un
espace vectoriel mais sur une variété différentiable: c'est donc de calcul différentiel
sur les variétés (ici des sous-variétés) dont nous aurons besoin. Afin qu'un lecteur
peu familier de ces notions puisse suivre le déroulement des calculs nous présentons
brièvement, dans les lignes qui suivent, les outils nécessaires. On peut sans dommage
éviter ce paragraphe, il ne sera pas utilisé par la suite.

8.10.1 Sous-variétés différentiables

Définition 8.19 (Sous-variétés) Un sous-ensemble V de Rn est une sous-variété de


classe Ck (k ~ l) lorsque, pour tout x E V, il existe un voisinage ouvert U de x dans
Rn et une application F : U --? Rm, m indépendant de x E V, qui vérifie les trois
conditions suivantes :
1. F est de classe Ck,
2. Pour tout x E V, rang DF(x) = m ,
3. V nU = {y E U : F(y) = O}. Une telle application est appelée «équation
locale» de V en x . La dimension de V est définie par dim V = n - m.
-0
0
c
::J Remarque 8.7. La condition de surjectivité pour les équations locales
0
CX) (rang DF(x) = m pour tout x E V) peut être remplacée par une condition
0
0
N
de rang constant : pour un même entier r, 0 ~ r ~ m, pour tout x E V,
@ rang DF(y) = r pour tout y EU. Dans ce cas dim V= n - r .
~
..c
O'I
·c Donnons quatre exemples de sous-variétés:
>-
Cl.
0
u • Un ouvert .fl de R 11 • Une équation locale est donnée par l'application nulle
F : .fl--? R, F(x) = O. Ainsi dim.fl = n.

• Un sous-espace affine E de R 11 • Un tel sous-espace s'écrit E = a +Ker L


avec a E E et L : R 11 --? Rm linéaire. Une équation locale est donnée par
F(x) = L(x - a), x E R 11 , et on a dim E = n - rang DF(x) = dimKer L.
8.10 Conditionnement de la décomposition QR 133

• La sphère unité § 11 - 1 dans IR11 • L'équation de la sphère, F(x) = l l xll~ - 1, est


de rang maximum, égal à 1, pour tout X E JR11 , X f- Ü, donc dim § 11 - I = n - 1.

• Le groupe orthogonal 0 11 • Dans ce dernier cas, on peut prendre F : G IL11 ---+


IR11 x 11 donnée par F(A) = AAT - l n. Comme rang D F (A) = n(n + 1)/ 2 pour
tout A E <GIL11 on obtient dim 0 11 = n 2 - n(n + 1)/ 2 = n(n - 1)/ 2.

Définition 8.20 (Espace tangent) Soit V une sous-variété de classe Ck et de dimen-


sion d de !Rn et soit x E V. À toute courbe (de classe C 1) contenue dans V et passant
par x associons son vecteur-vitesse en x : si 'Y :] - 1, 1 [---+ V avec y(O) = x posons
i = J,
y(t) li=O.
L'ensemble de ces vecteurs constitue un sous-espace vectoriel de
dimension d de IR11 appelé espace tangent en x à V et noté Tt V.
Lorsque F est une équation locale de V en x on montre que

Tx V = Ker DF(x ).

Reprenons nos exemples :

• Pour un ouvert n de !Rn on a Txil = IR11 ,

• Pour un sous-espace affine E = a + Ker L on a Tx E = Ker L,

• Pour la sphère unité, Tx§n- I = {y E IR11 : \y, x) = 0}


• Pour le groupe orthogonal, TQOn = { Q V : V E IR11 xn, V T + V = 0} .
Définition 8.21 (Dérivée-1) Soit f: V ---+ IRm. On dit que f est de classe C 1 lorsque,
pour tout x E V et pour toute courbe 'Y :] - 1, 1 [---+ V passant par x ( y(O) = x)
.... l'application f o 'Y :] - 1, 1[---+ IRm est de classe C 1• Lorsque c'est le cas on dé.finit la
~
dérivée de f en x dans la direction i E Tx V par
-0
0 "O
c i::
;:::s
::J
0 ....
CX)
""'
~

0
0
~
'~

""'
·c::
Df (x)i = :t f oy(t) l1=0, lorsque i = :t y(t) lr=O.
N
0
@ 'ro='
~
..c i:: Définition 8.22 (Dérivée-2) Soient V C IR 11 et W C IRm deux sous-variétés de classe
0
Ck et soit f : V ---+ W de classe C 1 (au sens de la définition précédente). Il est
O'I i::
·c ~
>- ·s..
Cl.
0 0
(.)
clair que Df(x)i E TJ(x) W pour tout i E Tt V. La dérivée de f en x est donc une
u ....00
..c:
application
o..
ro Df(x ): Tx V ---+ T_rcx) W.
......l
1
"O
0 Bien souvent f admet un prolongement naturel g défini sur un voisinage ouvert
i::

Q
;:::s
de V dans IR11 • Par exemple l'application ( Q, R) ---+ QR est définie quel que soit la
@ paire (Q , R) et pas seulement lorsque Q est orthogonale et R triangulaire supérieure.
134 8 • La décomposition QR

Lorsque le prolongement g de f est de classe C 1 au sens habituel du terme, la dérivée


de f en x E V est égale à la restriction de Dg(x) à T," V :

D(g lv )(x) = Dg(x) Ir, v .

Nous sommes en mesure d'énoncer le théorème d'inversion locale dans le cadre


des sous-variétés :

Théorème 8.23 (Inversion locale) Soient V C R 11 et W C Rm deux sous-variétés de


classe ck et de même dimension d et soit XE V. Soit f : V ~ de classe c 1 tellew
que Df(x): Tx V ~ Tt(x) W soit un isomorphisme. Alors, il existe un ouvert Vx de V
contenant x ainsi qu'un ouvert Wf(x) de W contenant f (x) tels que f : Vx ~ Wf(x)
soit bijective. La bijection inverse 1- 1 : wf(x) ~ v,.
est de classe c 1 et

Df- 1(f(x)) = (Df(x))- 1


8.10.2 Calcul du conditionnement


Afin de simplifier un peu les calculs nous ne considérons que des matrices carrées et
réelles. Nos espaces de travail sont:

• <GIL11 (R) : matrices n x n réelles et inversibles,

• <0),i : matrices n x n orthogonales,

• U11 : matrices n x n triangulaires supérieures,

• PU11 : matrices n x n triangulaires supérieures à diagonale positive.

-0 Toute matrice B E R 11 xn est somme d'une matrice antisymétiique IIas(B) et d 'une


0
c
::J matrice triangulaire supérieure IIup(B) et cette décomposition est unique : si B =
0
CX)
E + D + F où D , E , F sont les parties diagonale, triangulaire supérieure stricte et
0
0 triangulaire inférieure stricte, alors : IIas(B) = F - FT et IIup(B) = E + D + FT.
N
@ Remarquons que
~
..c
OI
·c
>-
Cl. et que
ll IIup(B)ll~ ~ 2 ll Bll~.
0
u
Nous considérons les applications suivantes :

• P: 0 11 X PUn ~ <GILn(R) définie par P(Q, R) = QR

• QR: GIL11 (R) ~On x PUn , QR(A) = ( Q , R). Elle se décompose en


8.10 Conditionnement de la décomposition QR 135

• Q : GL11 (R) ~ 0 11 , Q(A) = Q, et

• R : GIL11 (R) ~ PU11 , R(A) = R.

L'espace tangent en Q E On au groupe


. orthogonal est donné par
.

Nous allons prouver le

Théorème 8.24 Soient A E GL11 (R), Q E On et R E PU11 telles que A = Q R. La


dérivée de Q en A est donnée par :

De plus

La dérivée de R en A est donnée par :

et

Démonstration. L'application P : 0 11 x PU11 ~ GIL,,(R) est la restriction


à oil X PUn de l'application

P: Rn x11 X PUn ~ R 11 x11 définie par P(Q , R ) = Q R .

.... Cette dernière est de classe C 00 et sa dérivée en (Q , R) E R 11 x 11 x PU11 est


~
-0
0 "O donnée par
c i::
;:::s
::J
0 .... . . . .
CX)
""'
~
~
DP(Q , R): Rnxn x Un---* R 11 x 11 , DP(Q , R )(Q, R) = QR + QR.
0 '~
0
N ""'
·c::
@
0
La dérivée de la restriction P : 0 11 x PU11 --""* GL,1 (R) est la restriction à
'ro='
~
..c i:: TQ 0 11 x U11 de la dérivée définie sur Rnxn x U11 • On obtient
0
O'I i::
·c ~
>-
Cl. ·s..
0 DP(Q , R): TQ011 x U11 ---* R 11 x 11 , DP(Q , R)(Q , R) = Q R + QR.
0 (.)
u ....00
..c:
o.. Cette dérivée est un isomorphisme. En effet, TQ0,1 x U11 et R 11 x 11 ont même
ro
......l dimension n2 et si DP(Q , R)(Q, R) = 0 avec Q = QV et vT =- V , on a
1
"O
0 QV R+QR = 0 d'où V = - RR- 1• Cette m~trice est triangulaire supérieure
i::

Q
;:::s
et antisymétiique ce qui implique V = 0 et R = O. Ainsi Ker DP(Q , R) =
@ 0 et DP(Q , R) est un isomorphisme et on peut donc appliquer le théorème
136 8 • La décomposition QR

d'inversion locale (théorème 8.23). La dérivée de QR en A QR est


donnée par

1
DQR(A) : IR11 x 11 ---+ T Q([JJ11 x U11 , DQR(A) = DP(Q , R) - .

On a donc pour tout QE TQ0 11 , RE U 11 et  E ffi.11 xn

DQR(A)(À) = (Q, R) si et seulement si DP(Q , R)(Q , R) = À

c'est-à-dire si
. . .
QR+ QR = A.

Posons Q= QV avec V 7 = - V on a

Il en résulte que

Prouvons les inégalités sur les normes. En utilisant les propositions 3.10,
3.12 et 3.1 3 on a:

7
11Q11F = 11QIIas ( Q Â R -J) 11 F = 11IIas ( Q T ÂR- J) 11F ~ J2 lI Q T ÂR - 111F

-0
0
c
::J
0
CX)
L'inégalité sur l i? llFse prouve de la même manière.
0
0
N
@ Remarque 8.8. Ce théorème, que l'on peut reformuler en
~
..c
O'I
·c
>-
Cl.
0
u

montre que l'erreur commise sur Q dépend de l'erreur relative À F/ llAll2 Il Il


alors que l' erreur commise sur R dépend de l'erreur absolue 11 Â 11 F. Le facteur
amplificateur est à chaque fois proportionnel au conditionnement de A.
8.11 Notes et références 137

8.11 NOTES ET RÉFÉRENCES


Le sigle QR vient de l' anglais : Q pour « orthogonal» et R pour« upper triangular ».
Clair comme del' eau de roche ! La décomposition QR est une conséquence immédiate
du procédé d'orthonormalisation dit« de Gram-Schmidt » introduit afin d'orthonor-
maliser des suites de fonctions. Cette dénomination nous renvoie à J0rgen Pedersen
Gram (1850 - 1916) mathématicien danois spécialiste de théorie des nombres et à
Erhard Schmidt (1876 - 1959) connu pour ses travaux sur l'analyse fonctionnelle et
les équations intégrales.
Les transformations de Householder étaient utilisées dès le début du XX-ème siècle
(Schur, 1909) pour établir qu'une matrice carrée pouvait être rendue triangulaire via
une transformation unitaire. Mais c'est Alston S. Householder (1904 - 1993) qui
a reconnu le premier les propriétés de stabilité numérique des transformations qui
portent désormais son nom, voir [19].
Pour en savoir plus, voir les livres de Golub-van Loan [15] et de Stewart [32].
Les algorithmes d' Arnoldi et de Lanczos sont utilisés de manière importante dans
les méthodes de projection dans les sous-espaces de Krylov (voir chapitre 11). L'al-
gorithme de Lanczos est présenté dans un article publié en 1950 [22] qui traite du
problème du calcul numérique des valeurs propres d' un opérateur. Cornelius Lanczos
(1893-1974) est surtout connu pour ses travaux en physique mathématique, en théorie
de la relativité et également en analyse numérique. Il est à l' 01igine de la transformée
de Fourier rapide (voir paragraphe 16.5) bien avant les travaux de Cooley et Tuckey.
Walter Edwin Arnoldi (1917-1995) était ingénieur en mécanique. L'algorithme que
nous présentons apparait dans un article publié en 1951 [2] dans lequel il reprend les
idées de Lanczos et les généralise aux matrices non hermitiennes.

-0
0
c
::J
0
CX)
0
0
N
@
~
..c
O'I
·c
>-
Cl.
0
u
138 8 • La décomposition QR

EXERCICES

Exercice 8.1
Donner la décomposition Q R à diagonale positive de la matrice

A=u ~ n
en utilisant les méthodes de Gram-Schmjdt, Givens et Householder.

Exercice 8.2
Résoudre le système linéaire sujvant en calculant au préalable la décomposition QR
de la matrice du système via la méthode de Householder :
2x1+x2+2x3 = 1
XJ+ X2 + 2x3 = 1
{
2x1+x2+x3 = l

Exercice 8.3
Même question que précédemment avec :
70 X + 121 y + 71 Z 525
-40 x + 80y + 70z 330
{ - 40 X ] 72 y 47 Z -525

Exercice 8.4
-0
0 Quelles sont les valeurs propres d'une matrice de Householder, d ' une rotation de
c
::J
0
Givens?
CX)
0
0
N
@
Exercice 8.5
~
..c Soit A une matrice orthogonale, A E On . Montrer qu 'il existe des entiers 0 ~
OI
·c p, q, r ~ n, des réels 8 1 , ... , 8,. et une matrice orthogonale Q tels que:
>-
Cl.
0
u lp 0 0 0 0
0 - Iq 0 0 0
0 0 Ai 0 0
sin eei ) .
0 0 0 A2 0 cos i

0 0 0 0
Exercices 139

Exercice 8.6
Montrer que toute transformation orthogonale dans Rn est le produit d'au plus
n symétries orthogonales. Utiliser la méthode de Householder à la matrice A de la
transformation.

Exercice 8. 7
Montrer que toute transformation orthogonale dans Rn est le produit d'au plus n - 1
rotations et d ' une symétrie orthogonale.

Exercice 8.8 Rotations de Givens complexes


1. Montrer que le groupe unitaire llh est l'ensemble des matrices
ei (]" cos a ei v sin a )
( - ei 7 sin a ei (,,.+v-o-) cos a

avec 0 ( cr, r , v ( 27T, 0 ( a ( 'TT/ 2.


2. Montrer que le groupe spécial unitaire §llh est l'ensemble des matrices
ei~ co.s a e - .ir sin a )
( -e17 sm a e- 1(]" cos a
avec 0 ( cr, r ( 27T, 0 ( a ( 'TT/ 2.
3. Étant donnés deux nombres complexes x, y E C avec r
montrer que la matrice
R= ~r ( x
-y

.... vérifie R E §IU2 et R ( ~ ) = ( ~)


-0 ~
0 "O
c i::
;:::s 4. Étendre au cas complexe le calcul de la décomposition QR via les rotations de
::J
0 ....
CX)
""'
~
~
Givens.
0 '~
0
N ""'
·c::
0
@ 'ro='
~
i::
Exercice 8.9 Cet exercice décrit un procédé d ' orthonormalisation invariant par
..c 0
O'I
·c i:: permutation des vecteurs de la base initiale. Soit A E cmx n de rang n . Les colonnes
~
>-
Cl. ·s..
0
ai de A constituent une base de lm A.
0 (.)
u ....00 1. Montrer que les colonnes qi de Q A = A(A* A)- 1! 2 constituent une base ortho-
..c:
o..
ro normée de lm A. (Montrer que lm Q A = lm A et que Q'.4 Q A = l 11 .)
......l

"O
1
2. Montrer que l'ensemble des vecteurs qi, 1 ( i ( n, est indépendant de l'ordre
0
i::
;:::s dans lequel on a rangé les vecteurs a i (montrer que pour toute matrice de permu-
Q
@
tation P E cnxn on a Q AP = Q AP).
"O
0
c
:J
0
OO
0
0
N
@
~
..c
O'I
·;::::
>-
0..
0
u
Chapit re 9

Inverses généralisés
et moindres carrés

9.1 INVERSES GÉNÉRALISÉS


Le problème des moindres carrés et l'inverse généralisé d'une application linéaire
poursuivent un but commun : il s'agit dans le premier cas de résoudre un système
linéaire dont la matrice n'est pas nécessairement carrée et dans le second cas, de
calculer un « inverse » pour une application linéai re entre deux espaces de dimen-
sions qui peuvent être différentes. Nous avons choisi d' introduire d' abord les inverses
généralisés.
Soit L : JE~ lF une application linéaire entre deux espaces hermitiens. Considérons
les deux décompositions en sommes directes orthogonales suivantes : JE = Ker L œ
-0
(Ker L )..L et IF = lm L œ (lm L )..L . Si nous notons n = dim JE, m = dim IF et r =
0
c rang L , les sous-espaces précédents ont pour dimensions
::J
0
CX) dim Ker L = n - r , dim(Ker L)..l = r , dimlm L = r , dim(lm L)..l = m - r.
0
0
N
@
La restriction M de Là (Ker L )..L est une bijection entre (Ker L)..l et lm L. En effet
~
..c
ces deux espaces ont même dimension r et M est injective (si M(x) = 0 pour un
O'I
·c x E (Ker L )..L on a aussi x E Ker L et donc x = 0). On peut donc inverser M et
>-
Cl.
0
considérer le produit de composition suivant
u
-1 j .L
lF fl~L lm L M~ (Ker L)..L <K~> JE

où 111m L : IF ~ lm L est la projection orthogonale sur l'image de L et i(Ker L).L est


l' injection canonique. Pour tout y E lF cette projection orthogonale vérifie
I11m L(Y ) E lm Let y - I11m L(Y) E (lm L)..l ,
142 9 • Inverses généralisés et moindres carrés

quant à l' injection canonique, il s'agit simplement de

i(Ker L).L (x) = x pour tout x E (Ker L )..l .

Définition 9.1 On appelle inverse généralisé ou encore inverse de Moore-Penrose


l'application linéaire

Lt: lF --+ JE, Lt = i (Ker L).L O M- I O I11m L·

(Lmi.;)l.

y
-l
( L :K~l L-)- )

JE lF LmL

Figure 9.1 Inverse généralisé L t .

Comme le montre la définition et le schéma ci-dessus 9.1 , l'inverse généralisé de


y E lF est l'unique préimage dans (Ker L)..l de la projection orthogonale de y sur
l'image de L. Ses propriétés principales sont résumées dans le théorème suivant:
-0
0
Théorème 9.2 L'inverse généralisé L t vérifie
c
::J
0 1. L t o = Il(Ker L )J.. (projection orthogonale sur (Ker L)..l ),
L
CX)
0
0
2. L o L t = I11m L (projection orthogonale sur Tm L ),
N
@ 3. L t o Let
~
..c 4. L o L t sont des applications hermitiennes,
O'I
·c
>-
Cl. 5. L o L t o L = L,
0
u
6. L t o L o L t = L t .

Soient X E JE et x' = rr(Ker l ).L (x ). Comme L(x) = L(x')


Démonstration.
(que nous notons y ) on a, par définition de l'inverse généralisé, L t (y) = x'.
Aussi
9.1 Inverses généralisés 143

ce qui prouve la première assertion.


Passons à la seconde : soient y E lF et z = rrùn
L(y). Par définition de
l'inverse généralisé L t (y ) = x avec x E (Ker L )1- et L (x ) = z. Ceci prouve
que
L o L t(y ) = L(x ) = z = I11m L(y)

d'où la seconde assertion.


Les troisième et quatrième assertions sont des conséquences des deux pre-
mières : une projection orthogonale est une application hermitienne (exercice
1.13). On a donc

Même chose pour L t o L .


On a enfin
L o Lt o L = L o II(Ker L).l. = L

et

Corollaire 9.3 Lorsque L est injective (resp. surjective) on a L t o L idE (resp.


L o L t = idJF ) et lorsque L est bijective L t = L - l .

Démons.t.r ation. On applique le théorème 9.2 1et 2. Lorsque Lest injective


Ker L = 0 et donc II(Ker L ) .i. = idJE. Lorsque L est surjective lm L = lF et
1 donc IIrm L = idJF. Le cas bijectif s' ensuit.

Les propriétés 3, 4, 5 et 6 du théorème 9.2 caractérisent l'inverse généralisé comme


.... le montre la proposition suivante :
-0 ~
0 "O
c i::
::J ;:::s
.... Proposition 9.4 Supposons qu 'une application linéaire P : lF ---+ IE satisf asse les
0
CX)
""'
~
~
p ropriétés suivantes :
0 '~
0
N ""'
·c::
0 1. P o L et
@ 'ro='
~
..c i:: 2. L o P sont des applications hermitiennes,
0
O'I i::
·c
>-
~
·s.. 3. L o P o L = L ,
Cl.
0 0
(.)
u ....00 4. P o L o P = P.
..c:
o..
ro Alors P = Lt.
......l
1
"O
0
Démonstration. P = P o L o P = P o L o L t o L o P = P o L o L t o L o
i::

Q
;:::s L t o L o L t o L o P = L * o P * o L * o L t* o L t o L f* o L * o P * o L * =
@ 1 L * o L t* o L t o L f* o L * = L t o L o L t o L o L t = L t o L o L t = L t .
144 9 • Inverses généralisés et moindres carrés

Nous allons déduire de la proposition précédente les résultats suivants :

Proposition 9.5
J. (L*)t = (L t)*,
2. (Lt)t = L ,
3. Lorsque Lest injective, c'est-à-dire si rang L = dim JE, on a L t = (L * o L)- 1 o
L *,
4. Lorsque L est surjective, c 'est-à-dire si rang L = dim lF, on a L t = L * o (L o
L *)- 1.

Démonstration. Pour la première assertion on remplace L par L * et on


prend P = (L t)* dans la proposition 9.4. On a
1. P o L * = (L t )* o L * = (L o L t)* qui est hermitienne par le théorème
9.2,
2. Idem pour L * o P,
3. L * o P o L * = L * o (L t )* o L * = (L o L t o L)* = L * par le théorème
9.2,
4. On montre de même que P o L * o P = P.
La proposition 9.4 montre qu' alors P = (L *)t .
On procède de façon similaire pour les trois autres assertions. Notons sim-
plement que l'hypothèse« L injective» faite en 3 implique l'inversibilité de
L * o L . De même, l'hypothèse « L surjective » faite en 4 implique l'inversi-
bilité de L o L *.

Pour deux opérateurs linéaires inversibles L et M on a :


-0
0
c ( L o M)- 1 = M- 1 o L - I.
::J
0
CX)
0
0
N
Cette propriété ne s'étend pas aux inverses généralisés, même si l'une des deux
@ applications est inversible. Un exemple est donné à l'exercice 9.1. Mais les choses se
~
..c
O'I
passent bien si l'une des applications est unitaire :
·c
>-
Cl.
0 Proposition 9.6 Soient U : JE -----+ JE et V : lF -----+ lF des applications unitaires. On a :
u
( V o L o U)t = U * o L t o V *.

Démonstration. On remplace L par V o L o U et P par U * o L t o V * dans


1 la proposition 9.4
9.1 Inverses généralisés 145

Le résultat précédent permet de calculer facilement l'inverse généralisé d'une


matrice lorsque l'on en connait une décomposition en valeurs singulières (voir théo-
rème 4.2).
Théorème 9.7 Soit A E emxn
de rang r qui possède la décomposition en valeurs
singulières A = VI.V * avec V E Un, V E Um,

L-(-
D
Om -r,r
0,. ,n -
Om-r ,11-r
r

D = diag( lT 1' ••• ' lT r ) E ffi_1" X r et où lT 1 ;;:;: •. . ;;:;: lT r > 0 sont les valeurs singulières
de A. Sous ces hypothèses

0,. ,m -
011 - r ,m - r
r
)
Démonstration. L'égalité At = uI.t V * est une conséquence de la propo-
sition 9.6 et le calcul de L t se mène à partir de la définition de l'inverse
e
généralisé : soit y E 111 ; projeter y sur lm I. revient à annuler ses m - r
dernières coordonnées

Yt

Yr
IIrm :l.(Y) =
0

-0 ~
.... Les préimages de ce vecteur sont les X E e 11
qui s'écrivent
0 "O
c i::
;:::s
::J
0 ....
CX)
""'
~
~
0 '~
0
""'
·c::
N
@
0
X=
y,./ u ,.
'ro='
~
..c i:: Xr+l
0
O'I i::
·c ~
>-
Cl. ·s..
0
0 (.)
u ....00
..c:
o..
ro De plus
......l

"O
1 Ker k = {X E e 11
Xl = .. . = x,. = 0}
0
i::

Q
;:::s
et
@ (KerL)..l = {x E en Xr+I = . .. = Xn = O} .
146 9 • Inverses généralisés et moindres carrés

On voit donc que la seule préimage de I11m k(y) dans (Ker I)_L est

Y 1/ u1 YI

( v -'
It(y) = Yr/ u ,.
0 - Ûn-r ,r
Û,. ,m- r
Ûn-r ,m-r ) y,.
Yr+ .1

0 Yn

9.2 MOINDRES CARRÉS


Nous considérons ici un système d'équations linéaires Ax = b avec A E cmx 11 ,
X E C. , b E Cm OÙ le nombre n d'inconnues et celui m d' équations sont différents.
11

Deux cas sont à considérer :

• Celui des systèmes surdéterminés (m > n) : le nombre d' équations est plus
grand que celui des indéterminées. De tels systèmes se rencontrent dans les pro-
blèmes d' identification de paramètres, d'assimilation de données, en géodésie
et cetera. En général, un système surdéterminé n'a pas de solution.

• Celui des systèmes sous-déterminés (m < n) où le nombre d'équations est plus


petit que celui des inconnues. En général, un tel système admet une infinité de
solutions.

La méthode des moindres carrés consiste à rechercher, parmi les x E C.11 , celui ou
-0 ceux qui minimisent la quantité
0
c
::J
0
CX)
f (x) = ll Ax - bll;
0
0
N
@
appelée fonction résidu. La valeur de cet infimum (on verra que c'est un minimum)
~
..c
OI
·c
>-
m = inf llAx -
xEC"
bll;
Cl.
0
u
est appelé le résidu minimum et tout vecteur x E R 11 qui le réalise, c'est-à-dire pour
lequel f (x) = m , est appelé solution au sens des moindres carrés du système Ax = b.
Exemple 9.1 : barycentre. Un exemple simplissime de système surdéterminé
est donné par
X = bi, 1 ~ i ~ m.
9.2 Moindres carrés 147

On peut penser à un ensemble de mesures que l' on effectue pour déterminer la

valeur numérique d'une grandeur physique. Ici A = ( ; ) ,b = ( :~. ) et

x E JR . Lorsque les bi ne sont pas tous égaux, ce qui est toujours le cas pour
des mesures faites en précision finie, la solution au sens des moindres carrés

est la moyenne arithmétique des bi : x = l:i bi / m.


Exemple 9.2 : régression linéaire. On suppose que des mesures physiques ont
été effectuées :
(xi ,Yi ) , l ( i ( m , m > 2,
où xi E lR est le paramètre de la mesure et Yi E lR le résultat obtenu. Le modèle
linéaire consiste à supposer que Yi = axi + f3 . En général il est impossible de
trouver a et f3 pour lesquels il y a égalité quel que soit i .On recherche donc une
solution au sens des moindres carrés :

D' un point de vue matriciel ce problème correspond à

Xt 1 Yi
X2 1 Y2
.... A= b=
'
-0 ~
0 "O
c i::
;:::s
Xm 1 Ym
::J
0 ....
""'
~

~
CX)
~
0 '~
0
N ""'
·c:: le vecteur des inconnues étant ( ). La droite obtenue d'équation y = œx +(3
0
@ 'ro=' s'appelle droite de régression.
~
..c i::
0
O'I i::
·c ~ La figure 9.2 montre une droite de régression obtenue à partir d' un nuage de 100
>-
Cl. ·s..
0
u
0
(.) points (xi , Yi ) Pour chaque abscisse Xi la valeur correspondante Yi a été calculée
....00
..c: suivant l' égalité
o..
ro
......l
Yi = 2xi + 1 + ei
1
"O
0 où ei est une variable aléatoire gaussienne de moyenne nulle et d'écart-type 0.25 .
i::
;:::s
Q
Suivant la théorie statistique, en supposant que les variables aléatoires ei sont indépen-
@ dantes, la droite des moindres carrés est « proche » de la droite d'équation y = 2x + l .
148 9 • Inverses généralisés et moindres carrés

Droite des moindres carrés


3.5

*
*
3
* ** *
* *
*
2.5
**
* * **
* ** * * * I' * *" ** *
*
* *
2 * ** *
#
*
*
* **
*
1.5
* * ** * "'* * *
* ** *
* * * * *
1 * *
***#* *

0.5
0 0.1 0.2 0.3 0.4 0.5 0.6 0 .7 0.8 0.9

Figure 9.2 Droite de régression . Les points (x;, y;) sont notés *

On trouve les valeurs a = 1.9857 et f3 1.0209. Pour 1000 points, on obtient


a = 2.0061 et /3 = 1.0067.
Exemple 9.3 : régression mult iple. C' est le même exemple que le prece-
dent mais on suppose que la mesure Yi E lR dépend de n paramètres
Xi = (x}, .. . , x; ) , l ~ i ~ m. Le modèle linéaire consiste maintenant à
1

supposer que
Il
-0
c
0
::J
0
Yi = L a .i x( + f3
CX)
J= I
0
0
N
ce qui conduit au problème des moindres carrés
@
~ m
..c
OI
·c inf ~ (a 1x/ + ... œnxf1 + /3 - Yi )2.
>- (a,,8)ElR xlR
11
~
Cl. 1= !
0
u

Exemple 9.4: erreurs rétrog rades. Nous avons rencontré cet exemple. au para-
en,
'

graphe 5.5. Donnons-nous une matrice A E GK....11 , un vecteur b E la solution


1
X = A- b E
11
e
du système Ax = b et une approximation x ' de X. L' ana-
lyse rétrograde des erreurs consiste à considérer x ' comme la solution exacte
9.2 Moindres carrés 149

d' un système linéaire du type (A+ E)x' = b. Il s'agit là d'un problème sous-
déterminé : il an équations, n 2 inconnues (les entrées de la matrice E) et il
possède une infinité de solutions. Nous en avons, au théorème 5.7, sélectionné
une en considérant le problème d'optimisation

mm ll Ell2-
E E cnxn
(A+ E)x' = b

Cet exemple n' entre pas exactement dans notre cadre d'étude: la norme spec-
trale Il E 112 ne se déduisant pas d'un produit scalaire (voir exercice 9.10).

Étudions maintenant l'existence et la caractérisation des solutions de tels problèmes.


Théorème 9.8 Soient A E cm XII et b E cm.
1. Le problème des moindres carrés

inf
xEC11
llAx - bll;
possède au moins une solution.
2. Ces solutions sont caractérisées par :

A*Ax = A*b
appelée équation normale.
3. Six et x' sont deux solutions alors Ax = Ax'. La solution est donc unique si la
matrice A est de rang n.
.... 4. La solution de norme minimale
-0 ~
0 "O
c i::

A*}~A*b 11x 11;


;:::s
::J
0 ....
CX)
""'
~
~
0 '~
0
N ""'
·c::
@
0 est donnée par x = A t b.
~
'ro='
..c i::
O'I
0
i::
Démonstration. Le problème d'optimisation
·c ~
>-
Cl. ·s..
0
0
u
(.)

....00 inf
yEim A
llY - bll;
..c:
o..
ro
......l
1
possède une et une seule solution y E lm A qui est la projection orthogonale
"O
0 de b sur lm A. Elle est caractérisée par (voir paragraphe 1.13)
i::
;:::s
Q
@ y E lm A et (y - b, y) = 0 pour tout y E lm A .
150 9 • Inverses généralisés et moindres carrés

L'ensemble des solutions du problème des moindres canés est égal à

S = {x E e 11
: Ax = y} .
Ceci prouve l'existence d'une solution et le fait que Ax = Ax' = y pour
deux telles solutions (assertions 1 et 3). Soit :X E S de sorte que Ax = y .
L'équation qui caractérise y peut aussi s'écrire

(Ax - b , Ax) = 0 pour tout X E en


c'est-à-dire
(A *(Ax - b) , x) = 0 pour tout XE en
ou encore
A *(A x- b) = O
qui est l' équation normale du problème (assertion 2 prouvée).
L'ensemble S des solutions est l'image réciproque de la projection ortho-
gonale de b sur lm A. Six est l' une d'entre-elles alors S = x +Ker A. La
solution x de norme minimale est la projection orthogonale de 0 sur S donc
x E (Ker A)1- et ceci prouve que x =At b (assertion 4).

Remarque 9.1. Pour toute fonction f : R" -+ R différentiable on définit le


gradient de f en x par
Df(x)u = ('\lf(x) , u)
pour tout u E R11 où Df(x) : RIZ -+ Rest la dérivée de f en x . On sait que
'\l f (x) = 0 lorsque x réalise le minimum de f sur RIZ .
Prenons pour f la fonction résidu :

f: R 11 -+ R, f(x) = llAx - bll;.


-0
0
c
::J Son gradient est '\l f (x) = 2A *(Ax - b) : l'équation '\l f(x) = 0 n' est autre
0
CX) que l'équation normale A * Ax = A *b.
0
0
N
@ Remarque 9.2. Le problème des moindres carrés
~
..c
inf Il Ax - bll;
O'I
·c
>-
Cl.
xEE
0
u où E est un sous-espace vectoriel de <C11 est qualifié de problème des moindres
carrés contraints. En reprenant la démonstration du théorème (9.8) on voit que
ce problème possède au moins une solution et que toute solution :X E E du
problème est caractérisée par

( Ax - b,Az ) = o
9.3 Problèmes surdéterminés 151

pour tout z E E. Le calcul effectif d'une solution est obtenu à l'aide d' une base
s
(s1 ' ... 'Sk ) de E. Notons = (s, . . . Sk) E cnxk la matrice dont les vecteurs-
colonne sont les si. Ainsi x E E si et seulement s'il existe y E «:::k tel que
x = Sy. Un vecteur x = Sy est solution du problème si et seulement si

(ASy - b , ASy) =0
pour tout y E «:::k. On obtient ainsi l'équation normale par rapport à y

S* A * ASy = S* A *b.

9.3 PROBLÈMES SURDÉTERMINÉS


Supposons maintenant que m > net que A soit de rang n .

9.3.1 L'équation normale

Théorème 9.9 Soient A E cmxn, rang A = net b E cm. Le problème des moindres
carrés
inf
xE<C"
l Ax - bll;
possède une unique solution

....
-0 ~ Démonstration. Comme rang A = n la matrice A * A est inversible et
0 "O
c i::
;:::s l'équation normale donne x = (A* A) - 1 A *b. On reconnaît là l'inverse
::J
....
0
CX)
0
""'
~
~
'~
1généralisé At de A (proposition 9.5).
0
N ""'
·c::
@
0
Exemple 9.5: Reprenons l' exemple 9.2. L'équation normale s'écrit
~
'ro='
..c i::
0
O'I
·c i::
~
YI
>-
Cl. ·s..
0 Y2
0 (.)
u ....00
..c:
o..
ro Ym
......l
1
"O
0
i:: c'est-à-dire

)(~ )
;:::s
Q
@
( )
152 9 • Inverses généralisés et moindres carrés

La matrice A TA est inversible si et seulement si son déterminant mI: xf -


(2::: xi) 2 n'est pas nul. Il revient au même de dire que

Il s' agit là de l'inégalité de Cauchy-Schwarz appliquée aux vecteurs (x 1 , ... , xm)


et ( 1, ... , 1). Lorsque les xi ne sont pas tous égaux, ces deux vecteurs ne sont
pas proportionnels et l'inégalité de Cauchy-Schwarz est stticte.
Ainsi, lorsque qu'au moins deux des xi sont distincts, la droite des moindres
carrés est unique et donnée par y = a x + f3 avec

f (x , y) _ _
a = ) , f3 = y - ax ,
u 2 (x

1 m ] m
2 2
u (x) = - " (xi - x) , f(x , y) = ...:_ "(xi - x)(Yi - y).
m L..J m L..J
i=I i= I

9.3.2 Algorithmique, complexité


a) Via Cholesky
Une méthode classique de résolution du problème des moindres carrés utilise l' équa-
tion normale
A * Ax = A * b.
-0
0
c
::J
La matrice de ce système est définie positive puisque rang A = n (théorème 7 .2). On
0
CX)
calcul e sa décomposition de Cholesky CC* = A * A où C E e,n x n est triangulaire
0
0 inférieure. On résout ensuite les systèmes
N
@
~
..c
Cy = A* b et C *x = y.
O'I
·c
>-
Cl. Il est important de note r qu 'en général n est très petit devant m. Par exemple, dans
0
u l'exemple 9.2, n = 2 alors que m peut être très grand. Ce n'est donc pas la résolution
du système donné par les équations normales qui pose problème mais le calcul de ces
équations normales c'est-à-dire celui du produit A * A. Le nombre d'opérations arith-
métiques nécessaire est de mn 2 pour le calcul de A * A parce que A * A est symétdque
(en négligeant dans le compte exact les termes d' ordre inférieur à mn 2 ) et de n 3 / 3
pour la décomposition de Cholesky. Le calcul de A * b demande mn opérations et la
9.3 Problèmes surdéterminés 153

résolution des systèmes triangulaires 2n 2 opérations supplémentaires. On obtient donc


le total
i
(m + )n 2 opérations arithmétiques

en négligeant dans le compte exact les termes d'ordre inférieur.

b) Via QR
Lorsque l'on dispose d' une décomposition QR de la matrice A, c'est-à-dire lorsque
m ~ net A = QR avec Q E §tm 11 et R E cn x n triangulaire supérieure, l'équation
normale A* Ax = A* b devient R* Q* Q Rx = R* Q * b. Comme Q E §tm 11 , on a
Q * Q = ! 11 et comme A est de rang n, R est inversible de sorte que l'équation normale
est
Rx = Q * b, (9.1)

qui est un système triangulaire n x n. Le projecteur orthogonal lm - Q Q* fournit en


outre le résidu r = b - Ax: on a Ax -b = QRx - QQ* b- Um - QQ* )b. Puisque
la solution vérifie l'équation (9.1), on a

r =b- Ax = Um - QQ* )b.

L'interprétation géométrique de cette égalité est claire puisque Um - Q Q*) est le


projecteur (orthogonal) sur l'orthogonal de lm A.
La résolution del' équation (9 .1) requiert n 2 opérations auxquelles il faut ajouter les
2mn opérations nécessaires pour calculer Q * b.
Par cet algorithme, le calcul de la solution des moindres carrés se ramène essentiel-
lement à celui de la décomposition QR de A. Sil' on utilise la méthode de Householder
pour le calcul de QR on obtient
....
-0
c
0
::J
0
~
"O
i::
;:::s
....
2(m - i 2
)n opérations arithmétiques
CX)
""'
~
~
0 '~
0
""'
·c:: en négligeant dans le compte exact les termes d'ordre inférieur.
N
0
@ 'ro='
~
..c i::
O'I
0
i::
9.3.3 Analyse des erreurs
·c ~
>-
Cl. ·s..
0 L'analyse des erreurs fait intervenir le concept de conditionnement d'une matrice
0 (.)
u ....00
..c:
rectangulaire:
o..
ro
......l
1
Théorème 9. 10 Étant donné une matrice A E cm xn, le conditionnement de A pour
"O
0
la norme spectrale est dé.fini par :
i::
;:::s
Q
@
154 9 • Inverses généralisés et moindres carrés

Lorsque rang A = r, si l'on note u 1 ) ... ) u ,. > 0 les valeurs singulières de A,


alors
cond2 (A) = -lTJ ) 1.
(T r

Soient b et b' E C 11, notons X = At b et x' = A t b' les solutions des problèmes de
moindres carrés associés aux systèmes Ax = b et Ax' = b'. On a

llx' - X 112 llb' - bll2


2
llx 112 ~ cond (A) llbll2 .
Démonstration. Nous avons vu (remarque 4.1) que Il A lb = u 1 la plus
grande des valeurs singulières de A. De plus, par le théorème 9.7, les valeurs
singulières de At sont u; 1 ) ••• ) u~ > O. On a donc IlAt 11 2 = u; 1 et le
1

théorème est établi. L'inégalité sur les erreurs relatives est une conséquence
de
llx' -x ll2= llAt(b' -b) ll2~ ll Atll2llb' -bll2
et de l ' inégalité

Corollaire 9.11 Étant donné une matrice A E C111 x 11 , le conditionnement de A * A


pour la norme spectrale est égal à cond2 (A *A) = cond2 (A)2.

Remarque 9.3. Le calcul de la solution d'un problème de moindres carrés via


l'équation normale A* Ax = A*b fait intervenir la matrice A* A dont le condi-
tionnement est le carré de celui de A (corollaire 9.11). Lorsque cette matrice est
mal conditionnée, la matrice A* A est (mal conditionnée)2 ce qui rend, dans de
tels cas, l'algorithmique fondée sur la décomposition de Cholesky peu attractive.

-0
0
c
::J
0
9.4 ETUDE D'UN EXEMPLE : L'ÉQUATION AX = 8
CX)
0
0
N
Étant données des matrices A E cmX n et B E cm
X p' existe-t-il une matrice X E

@ C X p telle que AX = B ? Cette équation matricielle possède np inconnues (les entrées


11

~
..c
O'I
de X) et mp équations scalaires. Un tel problème n 'a pas nécessairement de solution
·c et, s 'il en existe, elle n'est pas nécessairement unique. Nous notons
>-
Cl.
0
u

Proposition 9.12 Une condition nécessaire et suffisante pour qu'il existe une matrice
X E cnxp telle que AX = B est que lm B c lm A. Dans ce cas X 0 = B est At
solution du problème.
9.5 Notes et références 155

Démonstration. Si AX = B et si y E lm Bon a y = Bx pour un certain


x E CP d'où y = A(Xx) et donc y E lm A. Réciproquement, on a :
1 A(A t B) = I11m AB (théorème 9.2) et IIrm AB = B puisque lm B C lm A.
Que sont les solutions au sens des moindres canés ?

Proposition 9.13 L'équation normale du problème de moindres carrés

inf llAX - B ll ~
XE<C 11 XJJ

est
A * AX = A * B.

La solution de norme minimale est

Démonstration. L'équation normale est (LA) * o L A(X) = (LA) *(B) c'est-


à-dire A* AX = A* B parce que (L A) * = LA* et que (LA)* o LA = L A* A·
Passons à la solution de norme minimale. En vertu du théorème 9.8 il suffit
de montrer que l 'inverse généralisé de L A est l 'application

Cela résulte des identités L u oL v = Luv , (Lu)* = L u• et de la proposition


9.4.

.... 9.5 NOTES ET RÉFÉRENCES


-0 ~
0 "O
c i::
;:::s Deux grands noms sont associés à la méthode des moindres canés : A . Legendre
::J
0 ....
CX)
""'
~
~
(1752-1833) qui introduisit cette méthode en appendice d' un ouvrage sur la déter-
0 '~
0
""'
·c:: mination des trajectoires de comètes (l 805) et C. F. Gauss (1777-1855) intéressé
N
0
@ 'ro=' par la détermination de la trajectoire de l'astéroïde Cérès . Une querelle d' antériorité
~
..c i::
0
opposera les deux hommes lorsque Gauss publiera sa méthode.
O'I i::
·c
>-
~
·s.. Les équations normales ont été, jusqu'à une date récente, la seule voie possible pour
Cl.
0
0
u
(.) résoudre les problèmes de moindres carrés. La décomposition de Cholesky a été créée
....00
..c: pour résoudre ces équations. On doit à Gene Golub (1932-2007) l' approche fondée
o..
ro
......l
sur la triangulation QR via la méthode de Householder (article publié en 1965 [14]).
"O
1
Pour en savoir plus on peut consulter les ouvrages de Bjûrck [5] et de Golub-van Loan
0
i::
;:::s [15].
Q
@
156 9 • Inverses généralisés et moindres carrés

EXERCICES

Exercice 9.1
1. Calculer l'inverse généralisé de la matrice L = (a , b) E JR 1x 2 où a et b sont
deux réels donnés tels que a 2 + b2 =f O.

2. Soit M E JR2 x 2 définie par M = ( ~ ~ ) . Montrer que M - 1 L 1 of (LM) 1.

Exercice 9.2
Calculer l'inverse généralisé d'une matrice-colonne.

Exercice 9.3
Soient x et y E C'\ non nuls. Montrer que l'inverse généralisé de la matrice
A = xy* est
t _ _yx*
__
A - 2 2.
llxll2 llYll2
Exercice 9.4
Montrer que pour toute matrice A E cm xn on a ( AA *)T = (A *)î A t .

Exercice 9.5
Soit A E C 11 x 11 • Montrer qu' en général (Ak)t =f (A t)k, mais que l'égalité a lieu
lorsque A est une matrice normale.
-0
0
c
::J
0 Exercice 9.6
CX)
0
0 Soit A E cnxn . Les valeurs propres non nulles de At sont-elles les inverses des
N
@ valeurs propres non nulles de A ?
~
..c
O'I
·c
>-
Cl.
Exercice 9. 7
0
u 1. Montrer que pour toute matrice A E cmxn et t E C, t =f 0, et suffi samment
petit, les matrices t / 11 + A * A et t / 111 + AA * sont inversibles.
2. En déduire que
1
At = lim (t 111 + A * A ) - 1 A * = li m A * ( t l m + A A *) - .
t--+O t--+O
Exercices 157

Exercice 9.8
Soit A = ( ~ ~ ) . Résoudre Ax = b par la méthode des moindres carrés et

donner la solution de norme minimale lorsque b = ( _ : ) et b = ( b) .


Exercice 9.9
Soit le système Ax = b que l'on veut résoudre au sens des moindres carrés, où

A = o~n eth=(;)
Calculer
1. lm A, Ker A, (Ker A)1-,
2. La projection orthogonale b de b sur lm A,
3. L'ensemble des solutions du système Ax = b,
4. La solution du système Ax = b qui est dans (Ker A)1- (solution au sens des
moindres carrés).
5. Obtenir ce même résultat via l'inverse généralisé de A et via l'équation normale
Ar Ax = A rb.

Exercice 9.10
Donnons nous une matrice A E GLn, un vecteur b E en' la solution X = A - 1b du
système Ax = b et une approximation x' # 0 de x. Montrer que
....
-0 ~ mm llEll = llA(x' - x)ll2
c
0 "O
i::
;:::s E E e11xn F llx' ll2
::J
0 ....
CX)
""'
~ (A+ E)x' = b
~
0 '~
0
N ""'
·c::
0
et que le minimum est atteint pour
@ 'ro='
~
i::
A(x - x' )x'*
..c 0 E =----
llx'll~
O'I i::
·c ~
>-
Cl. ·s..
0
0 (.)
u ....00
..c: Exercice 9. 11
o..
ro
......l Soit S E enxn une matrice définie positive. On note (., .)s le produit scalaire sur
"O
0
1
e 11
défini par
i::
;:::s (x, Y)s = (x, Sy) =y* Sx
Q
@ et par li -lis la norme qui lui est associée.
158 9 • Inverses généralisés et moindres carrés

Étant donnés une matrice A E Gl..n et un vecteur b E C 11 ' montrer que le problème
des moindres carrés pondérés

inf
xE<C11
11Ax - b Il~·
possède au moins une solution et qu'elles sont données par l'équation normale

A*SAx=A*Sb.

Exercice 9.12
Soit A E cmxn de rang n. On considère le système

( ~": ~ ) ( : ) = ( ~) . (9.2)

1. Montrer que la matrice M = ( ~": ~ ) E c<•+mJx(n+mJ est inversible.

2. Montrer que le vecteur x obtenu à partir de la solution ( : ) du système (9.2)


est solution du problème des moindres carrés

inf llAx - bll~-


xEC''

3. Calculer les valeurs propres de M à l 'aide des valeurs singulières de A. En


déduire le conditionnement cond2 M (pour mener le calcul de llM- 1 11 2 distinguer
les cas u min :::;; .J2 et u min > .J2 où u min est la plus petite valeur singulière non
nulle de A).
-0
0
§ Exercice 9.13 Moindres carrés régularisés
0
~ Soient A E cmxn de rang p ~ n, b E cm et p > O. On considère le problème Pp
0
N

@ inf l Ax - b l l ~ + Pl l xll~ -
~ xE<C"'
..c
OI
·c
>-
Cl.
8 1. Écrire Pp sous forme d' un problème des moindres carrés standard, donner l'équa-
tion normale du problème et montrer qu'il possède une solution unique Xp (mon-
trer que A * A+ p/11 est inversible).
2. Soient p et p' tels que 0 < p ~ p'. Montrer que llxP 112 ~ llxp' 112
et que
llAxp - bll2 :::;; llAxp' - bll2 (on pourra utiliser les propriétés d'optimalité de Xp
etxp' etmontrerque ll <A * A+p'ln)- 1(A* A+pl11) ll2 ~ 1).
Exercices 159

3. Montrer que limµ_, 0 xP = x0 la solution de norme minimale du problème de


moindres carrés
inf l Ax - bl l~
xEC"'
(utiliser l'exercice 9.7).

Exercice 9.14
Soit A E cm X Il de rang p ( n et p > O. On considère le système

lm A
( A* - pin ) C) U) (9.3)

!. Montrer que la matrice Mµ = ( !~ -:/,, ) est inversible.

2. Montrer que le vecteur xµ obtenu à partir de la solution ( ~ ) du système (9.3)


est solution du problème des moindres carrés régularisé Pp (voir exercice 9.13).
3. Calculer les valeurs propres de Mp à l' aide des valeurs singulières de A ainsi
que le conditionnement cond2 M.

-0
0
c
::J
0
CX)
0
0
N
@
~
..c
O'I
·c
>-
Cl.
0
u
"O
0
c
:J
0
OO
0
0
N
@
~
..c
O'I
·;::::
>-
0..
0
u
Chapitre 10

Méthodes itératives

Dans les chapitres précédents nous avons étudié des décompositions matricielles (LU,
Cholesky, QR) qui permettent de ramener la résolution de systèmes linéaires à celJe
de systèmes triangulaires. Ces méthodes sont qualifiées de directes parce que le calcul
de la solution est obtenu après un nombre fini d' opérations.

Les méthodes .itératives suivent une autre approche : elles calculent une suite d' ap-
proximations successives de la solution du problème. En théorie ce processus est infini,
en pratique le calcul d'une solution approchée est arrêté dès que l' on estime avoir
atteint une précision suffisante. Les méthodes itératives sont utilisées pour résoudre des
systèmes de grande taille et à matrices creuses 1 • Cette approche est en effet plus natu-
relle dans ces cas-là puisqu' il n'est pas nécessaire comme dans les méthodes directes
de porter à terme le calcul d' une décomposition de la matrice qui serait extrêmement
-0
c
0 coûteux.
::J
0
CX)
0
La méthode des approximations successives pour la résolution de l'équation de
0
N point fixe x = f (x ) est donnée par le schéma itératif Xk+ I = f (xk) où le point initial
@
~
xo est donné. Si la suite (xk) converge vers x et si f est continue en ce point alors
..c
O'I f (x) = x et les xk constituent autant d' approximations du point fixe x . On transforme
·c
>-
Cl.
un système linéaire Ax = b en une équation de point fixe en « cassant » la matrice A
0
u en A = M - N où M est inversible et « facile à inverser ». Le système devient

1. On dit qu' une matrice est creuse lorsqu'elle a« beaucoup» de coeffic ients nuls. C' est le cas notamment
des systèmes obtenus par discrétisation d'équations aux dérivées partielles (voir le chapitre 16).
162 10 •Méthodes itératives

qui conduit au schéma itératif

que nous allons étudier ici.

10.1 RÉSULTATS GÉNÉRAUX


Au système linéaire Ax = b avec A E GL11 et b E en nous associons le schéma
itératif
Xk+l = Bxk + c, xo donné,

où B E e 11
XI!' cE e 11
.

Définition 10.1
1. On dit que cette méthode itérative est consistante si 111 - B est inversible et si
A - 1b = (/11 - B )- 1C.
2. On dit qu'elle est convergente si pour tout Xo E en la suite (xk) définie ci-dessus
est convergente.

Remarque 10.1. Lorsqu'une méthode itérative est consistante, le point fixe


qu'elle définit est la solution du système Ax = b.

Remarque 10.2. Une méthode itérative consistante xk+J = Bxk + c ne construit


pas nécessairement une suite d'approximations de la solution du système Ax =
b. Un exemple simplissime est donné par le système 2/11 x = b et la méthode
itérative xk+l = - xk + b. La suite (xk) vérifie x2k = b - xo et x2k+l = b.
Elle ne converge pas vers la solution x = b / 2 (sauf dans le cas très particulier
-0
0
b = Xo = 0).
c
::J
0
CX)
0
La suite (xk) est donnée par
0
N
@
~
..c
O'I
·c
>-
Cl.
0
u Cette identité montre que la convergence de la méthode est liée à celle de la série de
matrices "E~o Bk que nous avons déjà rencontrée au paragraphe 3.5.
Théorème 10.2 Pour toute matrice B E enxnil y a équivalence entre:
1. La série L~o Bk est convergente,
2. Iimk ...... CX) Bk = 0,
10.1 Résultats généraux 163

3. Le rayon spectral de B vérifie p(B) < 1.


Sous ces hypothèses, la convergence de la série est absolue, la matrice I11 - B est
inversible et Un - B)- 1 = l:~o B k.
Démonstration. 1 implique 2 parce que le terme général d'une série conver-
gente a pour limite O.
2 implique 3 : si À E C est une valeur propre de B et si B x = Àx avec
llxll = 1 alors, pour une norme matricielle consistante on a

Si Àk --t 0 c'est que IAI < 1 et ceci prouve la troisième assertion.


3 implique l. C'est une conséquence du critère de d'Alembert : la série
l:~o Bk converge absolument si

Par le théorème 3.7 cette limite est égale à p(B) < 1 et donc le critère de
d'Alembert est vérifié.
Lorsque ces conditions sont satisfaites, la somme de la série se calcule via
l'identité
k-1
Un - B) L Bi = In - Bk
i=O
et un passage à la limite.

La conséquence attendue de ce théorème est donnée par:


....
-0 ~
"O
Théorème 10.3 Pour toute matrice B E C11 xn telle que In - B soit inversible et pour
0
c i::
;:::s tout c E C, la méthode itérative
::J
0 ....
CX)
""'
~
~
0 '~
0
N ""'
·c::
0
@ 'ro='
~
est convergente si et seulement si l'une des trois conditions équivalentes du théorème
..c i::
O'I
·c
0
i:: 1O.2 est satis/aite.
~
>-
Cl. ·s..
0
u
0
(.) Démonstration. La condition est nécessaire: soit X E C 11 tel que X = Bx+c.
....00
..c: On a
o..
ro
......l
Xk - x = B(xk-1 - x ) = ... = Bk(xo - x).
1
"O
0
Comme par hypothèse la méthode itérative est convergente on a B k (x 0 -
i::

Q
;:::s
x) ---+ 0 pour tout x 0 ; en prenant pour x 0 - x un vecteur propre unitaire de
@ B cela prouve que p(B) < 1.
164 10 •Méthodes itératives

La condition est suffisante : cela résulte de l'égalité

10.2 CHOIX D'UN TEST D'ARRÊT


Dans la pratique, il faut décider d' un test d' arrêt pour savoir quand mettre fin au
processus itératif. Deux tests« tombent sous le sens» étant donné un seuil de précision
e > 0 ce sont

pour le premier et

pour le second.
Il faut noter que le premier test peut n' être jamais satisfait même si la méthode
converge. Il se peut, en effet, que les erreurs d'arrondis dues à l'usage d' une arith-
métique de précision finie soient du même ordre que le gain de précision obtenu à
l'itération en cours.
Le second test est plus réaliste. On arrête l'itération lorsqu'elle ne produit plus de
gain significatif de précision. Il se peut qu'alors la quantité ll Axk - bll soit significati-
vement grande.
Le test idéal (mais irréaliste) est bien sûr lié à la distance à la solution :

-0
0
Ces trois quantités sont reliées par :
c
::J
0
CX)
Proposition 10.4 Donnons-nous des normes li·li sur C/
et li·li sur cnxn consistante
1
,

0
0
avec la précédente. Étant donné une méthode itérative consistante Xk+l = Bxk + c
N
associée au système linéaire Ax = b on a :
@
~
..c
O'I
1. Si llAxk - bll ( e alors
·c
>-
Cl.
0
u

2. Si llxk - Xk- 1 li ( e alors

llxk - xll ( llU11 - B)-


1
Il e et llxkllxll
- xll
(
e
cond(Jn - B)j~"
10.2 Choix d'un test d'arrêt 165

Démonstration. Dans le premier cas, xk - x = A - 1(Axk - b) d'où


llxk - xll ( ll A- 1 li e. L'erreur relative est donnée par
llxk - xll ( llA- 1 li ellbll / llbll et llbll = llAxll ( llAll llxll ·
Le second cas se traite mutatis mutandis de façon similaire.

Un des intérêts des méthodes itératives convergentes est dû à l'absence d ' accum u-
lation des erreurs d' arrondis : que l'on utilise l'itéré xk ou une valeur voisine xk on a
quand même affaire à deux points initiaux pour une méthode convergente. Le résultat
suivant précise les propriétés des schémas itératifs approchés :

Proposition 10.5 Donnons-nous des normes li ·li sur C


et li·li sur e,nxn consistante
11
,

avec la précédente. Considérons une méthode itérative consistante et convergente


Xk+J = Bxk +c associée au système linéaire Ax = b et supposons que llBll ( À < 1.
Soit e > 0 et soit (xk) une suite de points de C 11 qui vérifie

Ona

pour tout k ~ O.

Démonstration. Nous allons montrer, par récurrence sur k, que

k- 1

....
llxk - xll ( Àk llxo - xll + e L Ài .
-0 ~ i= O
0 "O
c i::
;:::s
::J
0 .... L' inégalité en résulte puisque L::~·,:~ Ai ( 1/ (1 - A). Pour k = 0 il n'y a
CX)
""'
~

0
0
~
'~ rien à démontrer. Le passage de k à k + 1 se fait ainsi :
N ""'
·c::
0
@ 'ro='
~
..c i::
0
llxk+L- xll ( llxk+J - (Bxk +c)ll+ll(Bxk +c) - (Bx +c)ll ( e+À llxk - xll
O'I i::
·c ~
>-
Cl. ·s..
0
0 (.)
u ....00
..c:
o..
ro
......l
1
"O
0
i::
;:::s
Q
Cette proposition prouve que la suite (xk) «converge» vers la boule de centre x et
@ de rayon L~A . Ce rayon mesure la précision maximum que l'on peut obtenir.
166 10 •Méthodes itératives

10.3 EXEMPLES DE MÉTHODES ITÉRATIVES


Nous allons utiliser les notations suivantes : A E Gil...11 est décomposé en

A= D- E- F

avec

• dij = ai.i si i = j et 0 sinon,


• eij = -aij si i > j et 0 sinon,
• fij = -ai.i si i < j et 0 sinon.
Nous supposons aussi que

au "# 0 pour tout i = l ... n

de sorte que D , D - E et D - F sont inversibles.

10.3.1 Méthode de Jacobi


Cette méthode utilise la décomposition A = D - ( E + F) . La matrice D étant diagonale
elle est bien sûr facile à inverser. On obtient le schéma

d'où

-0
0
c
::J
0
CX)
0
0
10.3.2 Méthode de Gauss-Seidel
N
@ Cette méthode utilise la décomposition A = ( D - E) - F. La matrice D - E est
~
..c triangulaire inférieure donc facile à inverser. On obtient
O'I
·c
>-
Cl.
0
u

d'où
l (
xk+ l ,i =~ -
11
L
i- 1
aijXk+l ,j - L n
aijXk ,j + bi
)
, 1~ i ~ n.
j= I j = i+I
10.3 Exemples de méthodes itératives 167

10.3.3 Méthode de relaxation ou SOR


On se donne un paramètre w E ~. Cette méthode est définie par :

d'où le schéma

1 ( i-1
~ i ~ n.
Il )
Xk+l ,i = -;;; - w L aijXk+l,j + (1 - w)aiixk,i - w L aijxk,j + wbi , 1
li j=l j=i+l

Nous verrons que l'on choisit toujours w E]O, 2[. Le cas w = 1 correspond à la
méthode de Gauss-Seidel. La dénomination SOR vient de l'anglais Successive Over
Relaxation.

10.3.4 Méthode de relaxation symétrique ou SSOR


Après une étape de type SOR, on effectue une autre étape de même type mais en
échangeant les rôles de E et F. On obtient :

(D - wE)xk+l / 2 = ((1 - w)D + wF)xk + wb ,

(D - wF)xk+I = ((1 - w)D + wE)xk+l / 2 + wb.


La dénomination SSOR vient de l'anglais Symmetric Successive Over Relax ation.
On obtient l'itération suivante entre xk et Xk+I :

Xk+l = Swxk + w (2 - w) (D - wF) - 1 D (D - wE) - 1 b,

.... avec
-0 ~
"O
Sw = (D - wF) - 1 ((1 - w)D + wE) (D - wE) - 1 ((1 - w)D + wF).
0
c i::
;:::s
::J
0 ....
CX)
""'
~
~
0 '~
0
N ""'
·c:: 10.3.5 Méthodes par blocs
0
@ 'ro='
~
i::
Supposons que la matrice A s'écrive de la façon suivante :
..c 0
O'I i::
·c ~
>-
Cl. ·s..
0
A1 1 A1 2 A 1p
0 (.)
u ....00 A 11 A 12 A 2p
..c: A =
o..
ro
......l
1 Apt Ap2 App
"O
0
i::

Q
;:::s
où les blocs Aii E C 11 ; xn; sont inversibles. On peut générer des méthodes de Jacobi,
@ Gauss-Seidel, SOR, SSOR par blocs en utilisant les mêmes formules, la décomposition
168 10 •Méthodes itératives

A = D - E - F étant ici entendue« par blocs». Notons aussi xT = (Xf, ... , X ~)


avec
Xi = (x j) , n 1 + ... + n; - 1 + 1 ~ j ~ n 1 + ... + ni - 1 + ni
et, de façon similaire, bT = (Bf , ... , B~ ). La méthode de Jacobi par blocs s'écrit:

Xk+ l,i = Aif 1 ( - L AijXk,j +Bi) , 1 ~ i ~ n.


j=li

On procède de même pour les autres méthodes. Il faut bien sûr prendre garde à la non
commutativité des produits de matrices.

10.4 CONVERGENCE DES MÉTHODES ITÉRATIVES


Le théorème 10.3 fournit un critère général pour détermjner les propriétés de conver-
gence d'une méthode itérative. Dans ce paragraphe nous allons utiliser ce critère pour
étudier quelques cas classiques.

10.4.1 Matrices à diagonale strictement dominante

Définition 10.6 Une matrice A. E C11 xn est à diagonale strictement dominante


lorsque
laii l > L laij l
j =li
pour tout i.

Nous avons rencontré ces matrices à l'exercice 3.18 où nous avons vu qu' une telle
matrice est inversible.
-0
0
Théorème 10.7 Si A est à diagonale strictement dominante, les méthodes de Jacobi
c
::J et de Gauss-Seidel convergent.
0
CX)
0
0
Démonstration. Avec les notations introduites aux paragraphes consacrés à
N
ces méthodes on a J = v- 1 (E + F), G = (D - E)- 1 F et l' on doit prouver
@
~
..c
(théorème 10.3) que p(J) et p(G) < l.
OI
·c
>-
Pour la méthode de Jacobi, on a : l ;j = 0 si i = j et -aij / aii si i =f. j donc
Cl.
1
llJll = m~x L IJij l = max -a -.. L laijl < 1
0
u
00
1 1
j 1 Zl 1 j #;i

(voir l'exemple 3.1 pour la définition de 111 1100 ) puisque A est à diagonale
strictement dominante. On conclut à l'aide de la proposition 3.6:
p(J) ~ Il 1 lloo < l.
10.4 Convergence des méthodes itératives 169

Passons à la méthode de Gauss-Seidel. Nous allons montrer que IAI < 1


pour toute valeur propre À de G = (D - E) - 1 F . L'inégalité étant évidente
si À = 0, nous supposons donc que À f:. O. On a det((D - E)- 1 F - À/11 ) = 0
d'où det(F - A(D - E)) = 0 autrement dit 0 est valeur propre de

Àall a1 2 a 111
Àa21 Àa22 a 2n
-F+ A(D -E) =

Àa111 Àa112 Àann

D'après le théorème de Gershgorin (théorème 12.1), il existe i tel que

IO- Àau l ( L IAai.i l + L lai.i l .


j<i j>i

D' après l'hypothèse on a:

j<i j>i j<i j>i

ce qm prouve que
L IÀai.i l < L iai.i l
.i>i j>i

d'où IAI < 1 et p(G) < 1.

10.4.2 Convergence de la méthode de relaxation

.... Théorème 10.8 Le rayon spectral de la matrice G w (méthode de relaxation) vérifie :


-0 ~
0 "O
c i::
;:::s
::J
0 ....
CX)
""'
~
~
0 '~
0
N ""'
·c::
0
Une condition nécessaire pour que la méthode de relaxation converge est que 0 <
@ 'ro=' (t) < 2.
~
..c i::
0
O'I
·c i::
~
Démonstration. Le résultat est évident si w = 1. Lorsque w # 1 écrivons :
>-
Cl. ·s..
0
0 (.)
u ....00 Gw = (D - wE) - 1((1 - w)D + wF).
..c:
o..
ro
......l La matrice (D - wE)- 1 est triangulaire inférieure de diagonale v - 1, la
1
"O
0 matrice ((1 - w)D + wF) est triangulaire supérieure de diagonale (1 - w)D ,
i::
;:::s
Q
aussi
@ det G w = det D - 1 det( (1 - w) D) = (1 - w )'1.
170 10 •Méthodes itératives

Comme det G w est le produit des valeurs propres de G w on a :

ce qm prouve que
Il - wl ~ p(Gw)·
Pour que la méthode converge il faut que p(Gw) < 1 d'où Il - wl < 1
c' est-à-dire 0 < w < 2.

10.4.3 Le cas des matrices hermitiennes


Le théorème suivant donne un cadre général d'étude de la convergence lorsque A est
hermitienne.
Théorème 10.9 Soit A E C11 X 11 hermitienne et inversible. Écrivons A M - N avec =
M inversible et supposons que M * + N est définie positive. La méthode itérative

converge si et seulement si A est définie positive.

Démonstration. Remarquons tout d'abord que M * + N = M * + M - A est


hermitienne puisque A est hermitienne.
Supposons que A soit définie positive et notons

llxll~ = x* Ax = \ Ax,x )

la norme associée au produit scalaire


-0
c
0
\x,y)A = \Ax , y).
::J
0
CX)
0 La norme d' endomorphisme associée à cette norme vectorielle est
0
N
@
~
llXx llA
..c llX llA = sup Il Il .
O'I
·c x~O X A
>-
Cl.

Nousallonsprouverque 11 M- 1Nl lA < ld'oùilrésulteraquep(M- 1 N) < 1


0
u
(proposition 3.6) et donc la convergence de la méthode (théorème 10.3).
Compte tenu du fait que le sup définissant 11M - 1 N 11 A est un maximum
(exercice 3.1) et que M- 1 N = 111 - M- 1 A , nous devons prouver que

x*(/11 - M - 1A)* A(/11 - M - 1A)x < x* Ax


10.4 Convergence des méthodes itératives 171

pour tout x -=/= O. Partons de l'hypothèse M * + N = M * + M - A définie


positive. Pour tout y -=/= 0, on a:

y* (M* +M - A)y > 0

et pour y = M - 1Ax, x -=/= 0, on obtient

c'est-à-dire

x* Ax - x *(ln - M - 1A)* A(/11 - M - 1A)x >0


ce qui est bien l'inégalité souhaitée.
Supposons maintenant que la méthode soit convergente :

Notons E = / 11 M- 1 A et F = AM- * (M* + M - A)M- 1 A. Comme


-

M * + N = M + M * - A est définie positive, cette matrice peut s'écrire


B * B avec B E GIL11 (penser par exemple à la décomposition de Cholesky)
donc F = C*C avec C = BM - 1 A ce qui prouve que Fest définie positive.
D'autre part
A = F+E*AE
d'où, par récurrence,
k-1
.... A = E *k A E k + L E *Î F Ei .
-0 ~
0 "O
c i::
i= O
;:::s
::J
0 ....
CX)
""'
~
~
Comme p(E) < l la suite E k a pour limite 0 (théorème 10.3) et donc
0 '~
0
N ""'
·c::
0 OO
@ 'ro='
~
A = LE*kFEk.
..c i::
0
O'I
·c i:: k=O
~
>-
Cl. ·s..
0 0
(.) Ceci prouve que A est définie positive.
u ....00
..c:
o.. Corollaire 10.1 0 Lorsque les matrices A et 2D-A sont dé.finies positives, la méthode
ro
......l
1
de Jacobi est convergente.
"O
0
i::
;:::s Démonstration. On a : M = D et N = E + F. Par hypothèse A et M * + N =
Q
@ 1 2D - A sont définies positives et le théorème précédent s'applique.
172 10 •Méthodes itératives

Remarque 10.3. Ce résultat s'étend à la méthode de Jacobi par blocs mais alors
D est la diagonale par blocs de la matrice A.

Corollaire 10.11 Lorsque la matrice A est définie positive, la méthode de relaxation


est convergente si et seulement si 0 < w < 2. En particulier, la méthode de Gauss-
Seidel est convergente.

Démonstration. Le théorème 10.8 montre que cette condition est nécessaire.


La méthode de relaxation correspond au découpage M = D - E et i
:w :w
N = 1 D+ F et donc M * + N = 2 D. Notons que les entrées diagonales
de D sont positives parce que A est définie positive. Si 0 < w < 2 la matrice
M* + N est définie positive et le théorème précédent s'applique.

Remarque 10.4. Ce résultat s'étend à la méthode de relaxation par blocs.


Comme pour la méthode de Jacobi, D est alors la diagonale par blocs de la
matrice A.

Corollaire 10.12 Lorsque la matrice A est définie positive et que 0 < w < 2, la
méthode de relaxation symétrique est convergente.

Démonstration. Ecrivonsxk+i; 2 = GExk+c1 etxk+I = Gpxk+i/ 2 +c2. Soit


x la solution du système Ax = b. Comme x = GEX+ c 1 et x = G px+ c2
on a:

Puisque 0 < w < 2, les méthodes de relaxation associées aux matrices GE


et G F convergent et il résulte de la démonstration du théorème 10.9 que
11 G E11A et 11G F 11 A < 1. Cette norme étarJt multiplicative et comme d'autre
-0
0
part llGEllA = llGFllApuisque A est hermitienne on a:
c
::J
0
CX)
0
0
N
@
ce qui prouve que la méthode de relaxation converge.
~
..c
O'I
·c Remarque 10.5. La démonstration précédente prouve que les suites (xf 0 R)
>-
Cl.
0 (méthode de relaxation) et (xfSOR) (méthode de relaxation symétrique) issues
u
d'un même point initial x 0 vérifient

et
10.5 Exemples 173

La convergence de SSOR est donc deux fois plus rapide que celle de SOR. Mais
une itération SSOR correspond à deux itérations SOR ... ce gain est bien sûr
illusoire!

10.5 EXEMPLES
On considère le système Ax = b où A est la matrice tridiagonale définie positive
donnée au paragraphe 16.1 :

2 - 1
- 1 2 - 1
A=
- 1 2 - 1
- 1 2

On compare les normes des erreurs llekll 2 où ek = xk - x, obtenues par les méthodes
itératives de Jacobi et de Gauss-Seidel tout au long des itérations. Pour tout schéma
itératif Xk+J = Bxk + c, la no1me de l' erreur vérifie l' inégalité

et donc
llek ll / lleo ll ( ll Bkll-
D'après le théorème 3.7 la suite (li Bk Il ) est asymptotiquement équivalente à la suite
(p(B)k). Ceci permet de déterminer approximativement le nombre d'itérations né-
cessaires pour majorer le rapport des erreurs llekll / lleoll par une valeur fixée a ,
.... 0 < a < 1. Il suffit pour cela de considérer l'égalité p(BY = a, de laquelle on déduit
-0
0
~
"O r = log(a)/ log(p(B)), et on prend k = 1r l le plus petit entier supérieur où égal à r.
c i::
;:::s
::J
0 ....
CX)
""'
~ Pour la méthode de Jacobi, le rayon spectral p(J) s' obtient facilement à partir du
~
0
0
'~ spectre de A (voir paragraphe 16.l) :
N ""'
·c::
0
@ 'ro=' 7T
~
..c i:: p(J) = cos(- ),
O'I
0
i::
n+ 1
·c ~
>-
Cl. ·s..
0 où n est la dimension de la matrice. Pour la méthode de Gauss-Seidel, nous avons
0 (.)
u ....00 que p(G 1) = p(J)2 car la matrice A est tridiagonale à valeurs constantes sur chaque
..c:
o.. djagonale (voir exercice 10.5).
ro
......l
1
"O
0 En prenant n = 100 et a= 1/ 10 (c' est-à-dire pour diviser l'erreur par 10) il faut
i::

Q
;:::s
ln(0.1) / ln(cos( 1~ 1 )) ~ 4759 itérations dans le cas de la méthode de Jacobi et deux
@ fois moins dans le cas de la méthode de Gauss-Seidel. C'est ce que l'on observe sur la
174 10 •Méthodes itératives

figure 10.1. Plus précisemment, on voit que le logarithme de la norme de l' erreur dans
le cas de la méthode de Jacobi suit approximativement la droite de pente ln(p(J)) :

et dans le cas de Gauss-Seidel la droite de pente double 2 ln(p(J)) :

' ... .
........
', , <
' '
.. ·'
''
..;,
:'
... .......... ........ ......... .. ' . . ... ......... ..... . .... .......... . . ..
... ................ ... ....... . .. ....
... .......... ........ .......... .......' ·' · ... . .... .......... .... . ..... ......... .......... .... .
5 ... ......... ·, . .. ......... .. ' ...... · , .... .......... .... . ..... ......... .......... .... .
~ ... ~ . , ..
~ ... .......... ........ ....... ; .. ......... ..... . ..~ . . . . ........ .... . ..... ......... .......... .... .
Q)
"O ' '
Q) ''
E ' >-,, , , ,
0c ' '
- - Jacobi ''
''
- - - - Gauss- Seidel

10' , __ __.__ _ __.__ _ __.__ __.._ _ __,__ __ ,


0 1000 2000 3000 4000 5000 6000
itérations

Figure 10.1 Décroissance de la norme de l'erreur llek Ili en fonction de k.


-0
0
c
::J
0
OO
0
0
N
@ 10.6 MÉTHODES ITÉRATIVES ET PRÉCONDITIONNEMENT
.....
..c
en
ï:::: Les méthodes itératives que nous avons considérées jusqu'à présent sont basées sur la
>-
a.
0 recherche d'un point fixe du système
u
x= M - 1Nx+ M - 1b
'
avec A = M - N. On résout donc le système M- (M - N)x = M - 1b c'est-à-dire, 1

en fin de compte, le système initial préconditionné (à gauche) par la matrice M - 1 :


M - 1 Ax = M - 1b.
10.7 Notes et références 175

On obtient ainsi les matrices M de préconditionnement suivantes :

• M = D pour la méthode de Jacobi,

• M = D - E pour la méthode de Gauss-Seidel,

• M = (D - ûJE)/ ûJ pour la méthode de relaxation SOR,

• M = (D - ûJE)D - 1(D - ûJF)/ (ûJ(2 - ûJ)) pour la méthode de relaxation sy-


métrique SSOR.

Ces matrices de préconditionnement sont utilisées en particulier dans les méthodes


de projection sur les sous-espaces de Krylov présentées au chapitre 11.

1O.7 NOTES ET RÉFÉRENCES


Les méthodes itératives ont été introduites et utilisées au XIX ième siècle par Carl
Friedrich Gauss (1777-1855), Philipp von Seidel (1821-1896) et Carl Jacobi (1804-
1851). Le traitement moderne de cette question est plutôt orienté vers les méthodes de
projection présentées au chapitre suivant.

-0
0
c
::J
0
CX)
0
0
N
@
~
..c
O'I
·c
>-
Cl.
0
u
176 10 •Méthodes itératives

EXERCICES

Les matrices des méthodes de Jacobi, Gauss-Seidel et SOR sont définies respective-
ment aux paragraphes 10.3. l, 10.3.2 et 10.3.3.

Exercice 10.1
Soient A E JR2 X 2 et b E 1R2 . La solution du système Ax = b s'interprète géométri-
quement comme le point d'intersection des deux droites

(Di) a 11X1 + a12X2 = b1 '


(D2) a21 X1 + a22X 2 = b2.
On suppose que a 11 et a22 i= O.
1. Calculer les matrices des méthodes de Jacobi et de Gauss-Seidel associées à ce
système.
2. Calculer les rayons spectraux de ces matrices. Que remarque-t-on ?
3. Calculer les rayons spectraux des matrices des méthodes de Jacobi et de Gauss-
Seidel associées au système obtenu en permutant les deux équations ci-dessus.
4. Interpréter géométriquement les méthodes de Jacobi et de Gauss-Seidel appli-
quées à Ax = b. Pour cette dernière, on notera que le vecteur X k+I E 1R2 est
solution du système triangulaire

Exercice 10.2
-0
c
0 Calculer les rayons spectraux des matrices des méthodes de Jacobi et de Gauss-
::J
0 Seidel des matrices :
CX)
0
0
N
@
~
..c
O'I
·c
>-
(i
2
1
2
-n (
et
2 - 1 1 )
2 2 2
- 1 - 1 2
.

Cl.
0
u Exercice 10.3
Soient
1 0 -1 / 4 -1 / 4 1
A=
0 1
- 1/ 4 - 1/ 4
-1 / 4 -1 / 4
1 0 =( f2
K
K
h ) 1
et b = -
2
1
1
-1 / 4 -1/ 4 0 1 1
Exercices 177

1. Calculer les matrices des méthodes de Jacobi, de Gauss-Seidel et de relaxation


associées à A. On les notera J, G et G w·
2. Donner l'expression en fonction de k, b et K des itérés de la résolution du
système Ax = b par la méthode de Gauss-Seidel et la méthode de Jacobi quand
le point initial est l'origine. Il est recommandé d'utiliser la structure bloc de la
matrice A.
3. Calculer les rayons spectraux des matrices G et J.
4. a) Montrer que si À est valeur propre de G w• alors À = 1- w ou bien À est racine
de l'équation :

A2 -
(2 (1 - w) + w
4
2) À+ (1 - w) = O.
2

b) Calculer p(Gw) en distinguant les cas où les racines de l'équation précédente


sont réelles ou non.
c) Trouver la valeur de w qui rend p( G w) minimum.

Exercice 10.4
1. Soit B E e 211 x 2 n de la forme :

où Bi et B2 E enxn .

a) Soit A E spec (B) et x = ( ~~ ) un vecteur propre associé (x 1 et x2 étant

.... deux vecteurs de e 11 ). Montrer que B1 B2X1 = 2


À X1 et B2B 1x2 = À2 Xz .
~
-0
0 "O b) En déduire que p(B) ~ Jp(B1B2) .
c i::
;:::s
::J
0 .... c) Prouver qu'en fait p(B) = y'p(B 1 B2 ).
CX)
""'
~

0
0
N
~
'~

""'
·c::
2. Soit A E e 211 x 211 de la forme
0
@ 'ro='
~
..c
O'I
·c
i::
0
i::
~
( D~2 D: 1
)
>- ·s..
Cl.
0
u
0
(.) où D 1 et D2 E e 11
xn sont inversibles et où A 1 et A2 E e 11
XII.
....
0
0
..c:
o..
a) On considère la matrice de la méthode de Jacobi par blocs:
ro
......l

"O
0
i::
1

;:::s
J = ( Di
0
0
D2
)-J ( 0 A1 )
A2 0
Q
@ Calculer p(J).
178 10 •Méthodes itératives

b) On considère la matrice de la méthode SOR par blocs:

où lù est un réel donné. Lorsque lù = 1, G 1 = G est la matrice de Gauss-Seidel


par blocs. Calculer G w·
c) Calculer p(G) en fonction de p(D:; 1A 2 D ï 'A 1) .
d) On cherche à résoudre le système Ax = b par les méthodes itératives précé-
dentes. Montrer que les méthodes de Jacobi par blocs et de Gauss-Seidel par
blocs convergent ou divergent simultanément et écrire la condition nécessaire
et suffisante de convergence.
e) Calculer det Gw (le résultat ne dépend que de lù et den). :M ontrer qu'une
condition nécessaire de convergence pour « SOR par blocs » est que 0 < lù <
2.
f) Montrer que cette condition est aussi suffisante lorsque A est aussi définie
positive.

Exercice 10.5
a, b etµ désignant des nombres complexes et n étant un entier supérieur ou égal à
2, on considère les matrices tridiagonales C,1 (a , b) = (cij) E cn x n définies par:

Cij =a pour i = j - 1 et 2 ~ j ~ n,
Cij = b pour i = j + 1 et 1 ~ j ~ n - 1,
Cij = Ü sinon.

On défi nit également les matrices :


-0
0 An(µ, a, b) = µI11 + C,i(a , b)
c
::J
0
CX)
où In E cn x n est la matrice unité.
0
0
N
Dans cet exercice, a et b sont des nombres complexes non nuls quelconques.
@
~
1. a) Soit a un nombre complexe, a # O. On considère la matrice diagonale
..c
O'I
·c
>- Ll(a) = diag(a, a 2 , ... , an).
Cl.
0
u
Montrer que pour tout nombre complexe µ on a :

A11(µ, a - 1a, ab)= Ll(a)A 11 (µ, a, b)Ll(a- 1


).

b) En déduire que pour tout nombre complexe a # 0, les matrices A 11 (µ, a, b)


et A 11 (µ , a- 1a, ab) ont même spectre.
Exercices 179

2. Soit maintenant s > 0 fixé ; on cherche à résoudre par des méthodes itératives le
système:
A 11 (s , a , b)X = f.

A A

a) Soient J et G respectivement les matrices des méthodes de Jacobi et de Gauss-


Seidel associées à la matrice A 11 (s , a , b). Montrer que leurs rayons spectraux
respectifs vérifient la relation :

p(G) = p(Î)2 .

b) En déduire que ces méthodes convergent ou divergent simultanément. Obser-


ver que leur convergence implique l'inversibilité de A 11 (s, a , b).
3. Pour quelles valeurs de s les méthodes itératives ci-dessus sont-elles conver-
gentes?

Exercice 10.6 Méthode de la plus grande pente dite aussi méthode


de Richardson
On considère A E JRnx n définie positive et a > 0 un paramètre fixé. On associe au
système Ax = b la méthode itérative

Xk+I = Xk - a(Axk - b).

On note 0 < À 1 ~ ••• ~ À 11 les n valeurs propres ordonnées de A .


l. ·Écrire cette itération sous la forme standard Xk+J = Baxk + c . Pour quelles valeurs
de a > 0 cette méthode itérative est-elle convergente?
.... 2. Déterminer la valeur a > 0 optimale c' est-à-dire telle que p(Ba) soit minimum.
-0 ~
0 "O
c i::
;:::s La dénomination «plus grande pente » vient de ce que Axk - b est le gradient
::J
0 ....
CX)
""'
~ de la quadrique q(x) = ! xT Ax - bT x (voir paragraphe 7.2). Le minimum unique
~
0
0
'~ de la quadrique q correspond à la solution du système: \lq(x) = Ax - b = O. À
N ""'
·c::
@
0
partir de Xk, le nouveau point Xk+I est obtenu en« descendant » le long du gradient
'ro='
~
..c i:: \7q(xk) = Axk - b avec un pas constant a . Cette méthode est aussi appelée méthode
0
O'I
·c i::
~
du gradient à pas constant (voir aussi exercice 11 .1 qui traite la méthode du gradient
>-
Cl. ·s..
0 à pas optimal).
0 (.)
u ....00
..c:
o..
ro
......l
1
"O
0
i::
;:::s
Q
@
"O
0
c
:J
0
OO
0
0
N
@
~
..c
O'I
·;::::
>-
0..
0
u
Chapitre 11

Méthodes de projection
sur des sous-espaces de Krylov

Les méthodes de projection sur des sous-espaces de Krylov fournissent une autre
famille importante de méthodes itératives. Leur développement est plus récent que
les méthodes itératives classiques et date des années 1970-80. Ce sont en partie les
besoins créés par les applications industrielles et en particulier la nécessité de résoudre
des systèmes de grande dimension qui ont motivé leur essor. D' autre part, les pro-
grès constants réalisés en informatique ont permis d' accroître considérablement les
capacités de calcul et de stockage des données et ont rendu possible la mise en œuvre
effective de ces nouveaux algorithmes. Actuellement, ces méthodes font encore l' objet
de recherches mathématiques actives.
-0 Dans ce chapitre, nous nous limiterons à 1' étude de deux méthodes parmi les plus
0
c représentatives : la méthode GMRES (en anglais Generalized Minimum RESsidual)
::J
0
CX)
pour des systèmes généraux et la méthode du gradient conjugué pour des systèmes à
0
0 matrice défini e positive.
N
@ On verra au chapitre 15 que les méthodes de projection sont également utilisées pour
~
..c
O'I
calculer les valeurs propres et vecteurs propres de matrices de grande taille. Donnons
·c tout d'abord le cadre général d' une méthode de projection pour le calcul de la solution
>-
Cl.
0
u d'un système linéai re.
182 11 • Méthodes de projection sur des sous-espaces de Krylov

11.1 STRUCTURE GÉNÉRALE D'UNE MÉTHODE DE


PROJECTION
On considère le système Ax = b, où la matrice A E cnxn est inversible, et x 0 E <C11
un vecteur donné.
Une méthode de projection associée au système consiste à calculer une suite (xk)
d'approximations à l'aide de deux familles de sous-espaces vectoriels Kk et [,k de
dimension k en imposant les conditions

et
b - Axk 1- [,k·
La condition d'orthogonalité est dite condition de Petrov-Galerkin. Elle permet de
définir de manière unique Xk dans le sous-espace affine x 0 + Kk·
Les sous-espaces [,k et Kk ne sont pas nécessairement identiques. On dit que la
méthode de projection est orthogonale si [,k = Kk et oblique sinon. Les sous-espaces
sont généralement emboîtés : Kk c Kk+l et [,k c Lk+I ·
Pour toutes les méthodes considérées on a toujours x,1 = x la solution du système.
Sous certaines hypothèses, le vecteur xk est une bonne approximation de cette solution.
On souhaite bien sûr arrêter l'algorithme pour des valeurs de k petites devant n.
Les espaces d'approximation Kk que nous allons considérer sont des sous-espaces
de Krylov. Le paragraphe suivant présente les propriétés de ces sous-espaces et leur
relation avec les algorithmes de réduction de Hessenberg de la matrice A, en particulier
l'algorithme d' Arnoldi et l'algorithme de Lanczos.

-0
11.2 ESPACES DE KRYLOV ET RÉDUCTION DE HESSENBERG
0
c
::J
0
Soit A E <C11 X 11 une matrice inversible et V E <C11 , V =f. O.
CX)
0
0 Définition 11 .1 Le sous-espace de Krylov d'ordre k associé à la matrice A et au
N
@ vecteur v, noté Kk(A, v ), est le sous-espace vectoriel généré par les k vecteurs
~
..c
OI
·c v , A v , A 2 v, . . . ) Ak- 1v .
>-
Cl.
0
u On le note Kk lorsqu'il n'y a pas de risque d'ambiguïté et on convient que K 0 (A, v) =
{O}.
Proposition 11 .2 Pour tout k, les sous-espaces Kk(A, v) vérifient les propriétés sui-
vantes dont la démonstration est laissée au lecteur :
11.2 Espaces de Krylov et réduction de Hessenberg 183

2. A Kk(A, v) c Kk+i(A , v) ,
3. Le sous-espace Kk(A, v) est invariant par A (autrement dit AKk(A, v) C
Kk(A , v), voir chapitre 13) si et seulement si Kt(A , v ) = Kk(A , v) pour tout
l ~ k,
4. K 11 (A, v) = K,i+ 1(A, v),
5. Kk(A , av)= Kk(A , v) pour tout scalaire a f= O.

Ayant à utiliser les sous-espaces de Krylov comme sous-espaces d'approximation,


il est important d'y disposer d'une base orthonormée. Supposons que les vecteurs
(v, Av, ... , Ak- 1 v) soient indépendants. Le procédé d'orthonormalisation de Gram-
Schmidt permet d' obteni r une base orthonormée de Kk(A , v). Nous savons cependant
qu'en général les directions des itérés successifs A j v, lorsque j augmente, tendent
vers la direction d' un vecteur propre associé à la valeur propre de plus grand module
de A (voir la méthode de la puissance: théorème 14.3). Cette propriété entraîne que les
matrices Kk = (v Av ... Ak- 1v) sont en général mal conditionnées. Nous allons voir
qu'une décomposition de Hessenberg de la matrice A définit une base orthonormée
d' un espace de Krylov tout en évitant le calcul direct des vecteurs itérés A j v .

Soit A = QH Q* une décomposition de Hessenberg de A (voir paragraphes 8.6 et


suivants). Notons Hk = H(l : k, 1 : k) E <ekxk, Qk = Q(l : n , l : k) = (q 1 ••• qk) E
§tnk et Kk = (q1 Aqi . . . Ak- 1q1) E cn xk .

Proposition 11.3 Si Hk est non réduite (définition 8.18), alors les vecteurs q 1 ,
qk ••• ,

constituent une base de l'espace de Krylov Kk(A , qi). En outre, Kk = QkRk pour une
matrice triangulaire supérieure Rk E <Ckxk_ Si k < n et hk+ Ik = 0, alors l'espace
Kk(A, qi) est invariant par A .
....
-0 ~
c
0 "O
i::
Démonstration. Par construction, les vecteurs q.i sont orthonormés. Mon-
;:::s
::J
0 .... trons que qj = Pj- i(A)q 1 , où Pj - I est un polynôme de degré j - 1. Pour
""'
~
CX)
0
~
'~
j = 1 on a q 1 = po(A)q 1 avec Po = 1. Supposons la proptiété vraie jusqu'à
0
N ""'
·c::
0 l'ordre j. De la relation A Q = QH on déduit l'égalité pour la colonne j
@ 'ro='
~
(voir l'équation (8.3))
..c i::
0
O'I
·c i:: j+I
~
>-
Cl. ·s..
0 Aq.i = L hijqi ,
0 (.)
u ....00 i= l
..c:
o..
ro
......l et donc
1
"O j
0
i::
;:::s h.i+l j qj+I = Aq.i - L hijqi. (11.1)
Q
@ i= l
184 11 • Méthodes de projection sur des sous-espaces de Krylov

L'hypothèse de récurrence implique


j

hj+ l j qj+ I = Apj- 1(A)q1 - L hij Pi- 1(A)q , .


î= I

Puisque h j +J j i= 0, il en résulte que qj+J = p j (A)q 1, où p j est un polynôme


de degré égal à j .
Les vecteurs orthonormés qj appartiennent à l'espace K k( A , q 1) et forment
donc une base de cet espace. La propriété q j = p j _ , (A)q 1 , pour j =
1, ... , k , montre que Qk = K kSk, où Kk = (q1 Aq1 ... Ak- Lq i ) et où
Sk E (Ckxk est triangulaire supérieure et inversible puisque Qk est de rang k.
Nous avons donc K k = QkRk avec Rk = s-;; 1 triangulaire supérieure.
Si hk+ lk = 0, l'égalité (11.l) pour j = k montre que Aqk = 2.:~=J hij qi
et donc que Aqk E K k(A , q 1). D'autre part, pour j = l , ... ,k - 1, on a
Aqj = Apj - 1(A)q 1 E K j +i(A, q1) c K k(A , q i). Ainsi K k est invariant
par A.

La proposition précédente et la propriété 5 de la proposition 11.2 montrent que


les vecteurs-colonne de la matrice Qk = (q 1 .•. qk) avec q 1 = v / llv112 où v i= 0,
constituent une base de l'espace de Krylov K k(A , v).
Nous avons étudié au chapitre 8 deux méthodes pour obtenir une décomposition
de Hessenberg: la méthode d' Arnoldi (modifiée) (paragraphe 8.8) et la méthode de
Householder (paragraphe 8.6).
La méthode de Householder jouit d' une meilleure stabilité numérique que la
méthode d' Arnoldi. En revanche, la complexité de la méthode d' Arnoldi est plus
faible que celle de Householder. Pour les systèmes de grande dimension, on consi-
dère que la méthode d' Arnoldi offre actuellement le meilleur compromis entre la
-0
0 complexité des calculs et la fiabilité des résultats.
c
::J
0 Remarque 11.1. Il convient de noter que k étapes de la méthode de Householder
CX)
0
0 présentée au paragraphe 8.6 définissent la matrice Qk = (q 1 ••• qk) E § t 11 k où
N
@ q 1 = e 1 et qj = H2 .• • H je j pour j = 2, ... k. On a ainsi une base orthonormée
~
..c de l'espace de Krylov K k(A , e 1). Afin de pouvoir définir une base orthonormée
OI
·c d'un espace de Krylov général K k( A , v), VE ccn,V i= 0, il est nécessaire de
>-
Cl.
0 considérer dans cet algorithme une première transformation de Householder
u
H 1 telle que H i v = ae1 où a E CC et lai = llvll2- Cette transformation H i
est obtenue en vertu du corollaire 8.11. On poursuit ensuite l' algorithme de la
même façon en prenant la matrice H 1 A H 1•

Le paragraphe suivant est consacré à la méthode GMRES. Le calcul de la base de


l' espace de Krylov y est donné par la méthode d' Arnoldi.
11.3 La méthode GMRES 185

11.3 LA MÉTHODE GMRES


11.3.1 Description de la méthode
Soit Xo E <C11 ' notons X la solution du système Ax = b et ro = b - Axo le résidu
en x 0 . La méthode GMRES est une méthode de projection de Krylov oblique avec
Lk = AKk(A , r0 ). L'approximation Xk est donc définie par

et

Ces conditions d'orthogonalité montrent que

Proposition 11 .4
1. Pour tout k ~ n, Xk est définie par la solution unique du problème des moindres
carrés
min llAz - bll~ · (11.2)
zExo+X:k(A ,ro)

2. Pour tout k < n , les résidus rk et rk+J vérifient

3. Xk est solution du système Axk = b si et seulement si Kk est invariant par A.


Démonstration.

.... 1. Le problème des moindres carrés s'écrit


-0 ~
0 "O
c
::J
i::
;:::s
.... min llAz - bll~ = min llAu - roll~
0 zExo+X:k uEX:k
CX)
""'
~
~
0 '~
0
N ""'
·c::
0
et toute solution optimale uk vérifie (théorème 9.8) \ Auk - r0 , Au) = 0
@
~
'ro=' pour tout u E Kk c'est-à-dire (avec Xk = xo + uk) \b - Axki Au) = 0
pour tout u E Kk autrement dit b - Axk J_ AKk( A , ro). La solution
..c i::
0
O'I i::
·c ~
>-
Cl. ·s.. du problème des moindres carrés est unique puisque A est inversible
0 0
u
(.)

....00 (théorème 9.8).


..c:
o..
ro
2. Le résultat est évident puisque Kk c Kk+1 et que la solution Xk+ 1 est
......l
1
définie par
"O
0
i::
;:::s
Q llAxk+t - b l l~ = min llAz - bll~·
@ zExo+Kk+l (A ,ro)
186 11 • Méthodes de projection sur des sous-espaces de Krylov

3. xk est défini par la condition xk - x 0 E Kk et b - Axk ..l A Kk. Si Kk


est invariant par A on a AKk = Kk et donc b - Axk ..l Kk. Comme
b - Axk E Kk (b - Axk = b - Axo - A(xk - xo) = ro - A(xk - xo) E
Kk + AKk = Kk) on obtient b - Axk = O.
Réciproquement, si Axk = b, puisque Xk - xo E Kk , il existe des scalaires
a i tels que xk - xo = a oro + ... + a k- l A k- I ro. On obtient Axk =
Axo+aoAro+ ... +ak- 1Akro = b de sorte que Œk - 1Akro = ro-(aoAro+
... + Œk-2Ak-J ro). Si Œk-1 ::/= 0 cette identité prouve que Kk+I = Kk et
donc que Kk est invariant par A. Si ak - 1 = 0, c'est que xk - xo E Kk- I
et Axk = b, de sorte que xk = xk- I par définition de xk- I· On est ramené
au même problème à un ordre inférieur. Il reste à traiter le cas k = O. On
a alors Ax 0 = b c'est-à-dire r0 = O. L'espace de Krylov Ko = {O} est
évidemment invariant par A.

11.3.2 Algorithmique
L'algorithme associé à la méthode consiste à détermjner la solution xk décrite précé-
demment à l'aide de la base 01thonormée (q 1, ... , qn) de Kk obtenue par l'algorithme
d 'Arnoldi avec q1 = ro/llroll2·
Proposition 11.5 L'itéré Xk obtenu par la méthode GMRES est donné par Xk = x 0 +
QkYk où Yk E Ck est la solution du problème des moindres carrés

(11.3)

avec e 1 = (1, 0 , ... , Ol E «:::k+ I et où Qk et fJ.k sont les matrices déterminées par
l'algorithme d'Arnoldi (paragraphe 8.8).
Démonstration. En utilisant la base orthonormée (q 1 , ... , qk) on a z - x 0 E
Kk si et seulement si z = xo + Qky pour un y E Ck . Des égalités A Qk =
-0
0
c
::J
0 Qk+l Hk (équation 8.4) et puisque ro = llro ll2q1 = llroll2Qk+I e1 on obtient
CX)
0
0
N
Az - b = AQky - ro = Qk+1(Hky - llro ll2e1)
@
~
..c
de sorte que, puisque Qk+J est Stiefel,
O'I
·c
>-
Cl.
0
u
L'algorithme GMRES est donc ramené au calcul de la solution d 'un problème de
moindres carrés associé à une matrice ih E c<k+l)xk de Hessenberg. Afin de résoudre
ce dernier problème nous utilisons une décomposition Q R de Hk (paragraphe b).

L'algorithme tire avantage de deux spécificités importantes :


11.3 La méthode GMRES 187

- -
1. la matrice Hk est obtenue en complétant la matrice Hk- 1 par une k-ième colonne,
2. Hk est de Hessenberg.
La décomposition QR de la matrice Hk de Hessenberg peut être calculée par k - 1
rotations de Givens (paragraphe 8.4).
- - -
Supposons avoir calculé GHk- 1 = G k-z ... G 1H k- J = U k-J où les Gi sont des
rotations de Givens, Ük- 1 E Ck x (k - l ) est triangulaire supérieure

u- k- 1 = ( U k- 1 ) ,
0

avec Uk-l E c <k- L)x(k- I) triangulaire supérieure. On obtient Fh en ajoutant à Hk- I


une ligne de 0 et la colonne h k d' où

- -
avec h k = Ghk · Par une rotation convenable de Givens G k- J on annule le terme hk+I k
-
de Hk (coeffici ent k + 1 de h k) sans changer la structure triangulaire supérieure déjà
acqmse.

L'étape k de GMRES est donc :


1. Calculer q k+I et h k par l'algorithme d' Arnoldi,
2. Calculer la rotation de Givens G k- 1 telle que (Gk- 1 ... G i hük+J = 0,
3. Calculer G k - 1 ... G1hk et l'adjoindre à U k- t pour obtenir

....
-0 ~
0 "O
c i::
;:::s
::J
....
0
CX)
""'
~ 4. Calculer g = (GT ... Gk_ 1)e 1 E Ck+ I ,
~
0 '~
0
N ""'
·c:: 5. Résoudre le système triangulaire
0
@ 'ro='
~
..c i::
0
O'I i::
·c ~
>-
Cl. ·s..
0
0
u
(.)

....00 où g E Ck est tel que g= ( g ),


..c: gk+J
o..
ro 6. Calculer la norme du résidu
......l
1
"O
0
i::
;:::s
Q
@
188 11 • Méthodes de projection sur des sous-espaces de Krylov

On arrête cet algorithme lorsque le résidu rk = b - Axk a une no1me suffisamment


petite.
La complexité d' une étape k de cet algorithme est dominée par le calcul de qk+I et
hk: on a

• ~ 2n 2 opérations pour le produit Aqk.

• ~ 2n(k + 1) + 2nk + n opérations pour le calcul de qk+t et hk·

On voit que la complexité de la méthode GMRES croît avec la dimension k de l'es-


pace de Krylov. Pour remédier à ce problème on utilise une méthode de réinitialisation
cyclique des sous-espaces de Krylov (méthode de redéman-age, en anglais restarting) :
à partir de xk E x 0 + Kk(A , r0 ), on calcule le résidu rk = b - Axk et on poursuit avec
les nouveaux espaces Xk + K j (A , rk) jusqu'à obtenir x2k E Xk + Kk(A, rk). Le processus
se poursuit ainsi en réinitialisant les espaces de Krylov au bout de k étapes.

11.4 LA MÉTHODE DU GRADIENT CONJUGUÉ


11.4.1 Description de la méthode
Notons A E cnxn une matrice définie positive, Xo E <C11 un vecteur donné et X E <C11
la solution du système Ax = b. Notons aussi

(u, v)A = (Au , v) = v*Au

le produit scalaire associé à A (paragraphe 7 .1).

La méthode du gradient conjugué est une méthode de projection de Krylov oblique


-0
0
avec Lk = Kk(A, ro). L'approximation Xk est donc définie par
c
::J
0
CX)
(11.4)
0
0
N
@ et
~
..c
O'I
(11.5)
·c
>-
Cl.
0
On a les propriétés suivantes
u
Proposition 11.6
1. Pour tout k :::;; n , Xk est définie par la solution unique du problème des moindres
carrés
min llz - x l l ~ ·
zE xo+Kk(A ,ro)
(11.6)
11 .4 La méthode du gradient conjugué 189

2. Pour tout k < n , les erreurs ek = x - Xk et ek+l = x - Xk+I vérifient

3. Xk est solution du système Axk = b si et seulement si Kk est invariant par A.

Démonstration.
1. Le problème de minimisation

min llz - x Il~


zE xo+JCk(A ,ro)

a une solution xk unique qui est égale à la projection orthogonale de x sur


xo+Kk(A , ro) pour le produit scalaire ( , ) A . On a donc xk E xo+K k( A , ro)
et
(x - Xk, V) A = Û

pour tout v E Kk(A , ro). Cette dernière condition s'écrit

(A(x - xk), v) =0
pour tout v E K k(A , ro) c'est-à-dire

2. Le résultat est évident puisque K k C K k+ I et que la solution Xk+J est


définie par
llxk+I - xll~ = min llz - x l l ~ -
zExoEJCk+1 (A ,ro)
....
-0 ~ 3. À partir des conditions xk - x 0 E Kk et b - Axk ..l Kki la démonstration
0 "O
c i::
;:::s
est identique à celle de la proposition 11.4.
::J
0 ....
CX)
""'
~
~
0 '~
0
N ""'
·c:: Remarque 11.2. Lorsque A est une matrice quelconque, les conditions (11.4)
0
@ 'ro=' et (11.5) définissent la méthode FOM (en anglais Full Orthogonal Method).
~
..c i::
0
O'I i::
·c ~
>-
Cl. ·s..
0 0
(.) 11.4.2 Algorithmique
u ....00
..c:
o.. L'algorithme associé à cette méthode consiste à déterminer la solution xk à l' aide
ro
......l de la base orthonormée (q 1, ... , qk) de Kki obtenue par l' algorithme de Lanczos
1
"O
0 puisque A est hermitienne. La récurrence à trois termes de l'algorithme de Lanczos
i::
;:::s
Q
pe1met d' obtenir une expression simple de la solution Xk E Kk à partir de la solution
@ précédente Xk-1 E Kk-1 ·
190 11 • Méthodes de projection sur des sous-espaces de Krylov

Soit (q 1 , ... ,qk ) la base orthonormée de Kk(A,r0 ) obtenue par l'algorithme de


Lanczos avec q1 = ro/llroll2·
Proposition 11.7 L'itéré Xk de la méthode du gradient conjugué est donné par Xk =
xo + QkYk où Yk E CC.k est l 'unique solution du système

(11.7)

avec e 1 = (1, 0 , ... , Ol E CC.k et où Qk et Tk sont les matrices déterminées par


l 'algorithme de Lanczos (paragraphe 8.9).

Démonstration. En utilisant la base orthonormée (q 1, ... , qk) on a z - x 0 E


Kk si et seulement si z = Xo + Qky pour un y E cck . La condi tion d'ortho-
gonalité (11.5) s'écrit (b - A(x0 + QkYk), qj) = 0, pour tout j = 1, ... , k ,
et donc
Q'k (ro - A QkYk ) = O.
Puisque Q,kA Qk = Tk (équation 8.4) et que ro = llroll2q1 = llroll2 Qkei, on
obtient le système
TkYk = llroll2e1 ·
Montrons que la matrice Tk = QZ A Qk est inversible : la matrice définie
positive A admet la décomposition de Cholesk:y A = LL *, donc la condition
QZA Qky = 0 implique llL* Qky 112 = 0 et alors y = 0 puisque Qk est de
rang k et L * inversible.

Le résultat suivant montre que le résidu rk est colinéaire au vecteur qk+ 1 •

Proposition 11 .8 Le résidu rk = b - Axk obtenu par la méthode du gradient conjugué


est donné par
- T
-0
0 rk = -/3k ek Yk qk+L·
c
::J
0 Démonstration. D 'après les équations (8.4) on a
CX)
0
0
N
@
~
..c
O'I
·c
>-
Cl.
0
u
La récurrence qui définit xk à partir x k- t est obtenue grâce à la décomposition LU
de la matrice Tk.

La proposition 11.7 donne la solution Xk :


11.4 La méthode du gradient conjugué 191

Considérons la décomposition LU de Tk : Tk = L k U k, e t posons Pk


1
Zk = L-;; l roll2e1. Nous avons

xk = xo + Q k (Uk- l L-;; 1) llroll2e1= x o + PkZk·


Nous allons calcul er P k à partir de Pk- l et Zk à parti r de Zk - I . Notons Pj les
colonnes de la matrice Pk .

Lemme 11.9 On a Pk = (Pk-1 Pk) où Pk- 1 T


( Zk- 1' Vk ) T OU'
Zk- 1 = L-;;~ 1 l l ro l l 2e 1 .
Démonstration. La décomposition LU de la matrice Tk- 1 montre que

L = ( L k-1 0 )
k X 1 '

et
u, = ( u~_ , : ) ,
où L k- I et Uk- 1 sont les matrices de la décomposition LU de Tk- I ·
Les matrices inverses de U k et L k sont données par

et
L"k' = ( Ls!, n.
....
u,-' = (
u - 1
k- 1
0 :)
-0 ~
On a donc
0 "O
c i::
;:::s
::J
.... u -1
0 k- 1
""'
~
(
CX)
0
~
'~
0
0
N ""'
·c::
0
@ 'ro=' et
LS!, ~ ) llroll2e1= L;!, ~:ollie, ) .
~
i::
..c
O'I
·c
0
i::
z, = ( (
~
>-
Cl. ·s..
0
0
u
(.)

....00 Il faut noter dans cette dernière égalité que le vecteur de base e 1 a successi-
..c:
o..
vement la dimension k et k - l .
ro
......l
1 Nous pouvons déduire de ce lemme une récurrence sur xk :
"O
0
i::
;:::s
Q
@
192 11 • Méthodes de projection sur des sous-espaces de Krylov

et donc
(11.8)

En multipliant cette égalité par A et en retranchant b au deux membres de façon à


faire apparaître les résidus, nous avons une récurrence sur r k :

(11.9)

Il reste à définir une récurrence sur Pk .

Lemme 11.10 On a
(11.10)

Démonstration. La relation Pk = Q ku k- l implique PkUk = Q k. D ' autre


part, la matrice triangulaire supérieure Uk est bidiagonale puisque Tk est
tridiagonale. On déduit que qk = 'Yk- 1Pk -L + ÔkPki et

(11.11)

puisque ôk -::f. O. La proposition 11.8 montre que les vecteurs qk et r k-J sont
colinéaires. Le vecteur Pk est donc une combinaison linéaire des vecteurs
r k- 1 et Pk- 1. On peut écrire cette relation sous la forme Pk = r k- 1 + µ kPk- 1
après multiplication des vecteurs Pk par des coefficients appropriés. Nous
allons conserver la même notation pour ces nouveaux vecteurs. Il faut noter
que la transformation des vecteurs Pk ne modifie pas la forme des récurrences
sur Xk et r k (équations (11.8) et (11.9)).

-0
0
c Nous avons obtenu pour XkJ r k et Pk trois récurrences (11.8), (11.9) et (11.10). Le
::J
0 calcul des coefficients v k et µ k se fait grâce aux propriétés d'orthogonalité des vecteurs
CX)
0 r k et d'orthogonalité pour le produit scalaire associé à la matrice A des vecteurs Pk·
0
N
@
~
Proposition 11.11 On a \ Api, p j) = 0, pour tout i , j , i i= j.
..c
O'I
·c Démonstration. Il suffit de donner la démonstration pour les vecteurs Pi
>-
Cl.
0 « d'origine » . On a
u
1 1 1
P k* APk = u-
k * Q k* AQk u k- = u-
k * ,..,.,
Lk u k- = u-
k * L k u k u k- = u-
k * L k·

La matrice u k- * L k est triangulaire inférieure. La matrice symétrique Pk* APk


égale à u k- * L k est donc diagonale.
11 .4 La méthode du gradient conjugué 193

Les vecteurs rk colinéaires à qk+J sont orthogonaux entre eux puisque les vecteurs
qk satisfont cette propriété. On est maintenant en mesure de déterminer les coefficients
vk et µ k.

Lemme 11 .12 On a
(rk-1, rk-1)
vk = _(_A_p_k_, -P-k)- '

et

Démonstration. Grâce à l'orthogonalité des vecteurs r k on obtient

à partir de (11.9). L' orthogonalité pour le produit scalaire associé à A et


l'égalité (11.10) donnent

On a donc

Utilisant à nouveau l'orthogonalité pour le produit scalaire associé à A et


(11.10), on obtient
(APk- 1, rk-1)
.... µk = - .
-0 ~ ( APk-1, Pk - 1)
0 "O
c i::
;:::s
::J
0 .... Del' égalité (11.9) prise au rang k - 1 on déduit
CX)
""'
~
~
0 '~
0
N ""'
·c:: 1
@
0
'ro=' APk-1 = - -(rk-2 - rk-1).
~
i::
llk-1
..c 0
O'I i::
·c ~
>-
Cl. ·s..
0
Enfin, utilisant l'orthogonalité des rk et l'expression de vk- t, on obtient
0 (.)
u ....00
..c: (rk - 1,rk- 1)
o..
ro
......l (rk-2, Yk-2) .
1
"O
0
i::
;:::s
Q
@ Nous pouvons ainsi définir l'algorithme du gradient conjugué.
194 11 • Méthodes de projection sur des sous-espaces de Krylov

Algorithme du gradient conjugué

k = 0, x 0 E C 11, E > 0,
r0 = b - Axo, p 1 = ro,

tant que llrkll2 > ê


k = k+ 1
z= Apk
rt_ 1l"k - 1
Vk = *
Pk z
Xk = Xk-J + VkPk
rk = rk - I - VkZ
_ r k* r k
µ k+l - r*
k- 1
rk
-
1

Pk+J = rk + µ k+I P k
fin

À chaque itération k , on effectue

• un produit matrice x vecteur (Apk),

• 3 produits scalaires,

• 3 sommes,

• 3 produits scalaire x vecteur,

• 2 divisions.

-0 La complexité de chaque itération est dominée par le produit Apki ce qui donne ;: : : : 2n 2
0
c opérations.
::J
0
CX)
0 Remarque 11.3. L'algorithme du gradient conjugué fait partie des outils actuels
0
N les plus performants, robustes et simples à mettre en œuvre pour résoudre des
@
~
systèmes de grande dimension à matrice définie positive.
..c
O'I
·c
>-
Cl. Remarque 11.4. D 'un point de vue pratique, les méthodes de projection dans
0
u des sous-espaces de Krylov présentent une particularité importante. La matrice
A du système intervient uniquement par son action sur des vecteurs. On dit que
A est donnée en évaluation. Contrairement aux méthodes itératives classiques
qui requièrent la représentation explicite de tous les coefficients de la matrice
A on se contente ici d'utiliser l' information globale donnée par les images Av
calculées pour différents vecteurs v. On a ainsi un processus de type « boîte
11.5 Analyse d'erreur 195

noire » qui calcule l' image A v d' un vecteur v donné en entrée. Cette situation
se rencontre dans la plupart des cas où A est « définie » par un programme
informatique ou une suite de programmes info rmatiques qui s'enchaînent les
uns à la suite des autres. Il n'est pas nécessaire alors de calculer et stocker les
différents coefficients de la matrice. Ce mode opératoire rend ces méthodes
bien adaptées aux grands systèmes pour lesquels le calcul de l'ensemble des
coefficients de la matrice est souvent rédhibitoire. De plus, lorsque la structure
de la matrice est creuse (voir par exemple le système des éléments finis et le
problème de l' assimilation des données aux chapitres 16 et 17), ces méthodes
tirent parti de la faible complexité de chaque opération Av ( O(n) opérations
pour des matrices bande à la place des O(n 2 ) usuelles).

Remarque 11.5. Il existe de nombreuses approches pour définir l'algorithme


du gradient conjugué (voir exercice 11.2). Historiquement, cet algorithme a été
in troduit dans les années 1950 c'est-à-dire bien avant que ne soient développées
les méthodes de projection dans les sous-espaces de Krylov.

Remarque 11.6. Dans le cas des grands systèmes que l'on résout à l' aide des
méthodes GMRES ou du gradient conjugué, on cherche à préconditionner la
matrice du système afin de limiter le nombre d' itérations. Au paragraphe 10.6
nous avons donné des exemples de matrices de préconditionnement tirées des
méthodes itératives classiques. Il existe d' autres approches pour définir des
matrices de préconditionnement. On peut citer les méthodes de fact01isation LU
incomplète ou de Cholesky incomplète lorsque A est défine positive qui sont
utilisées dans le cas de matrices creuses. Nous renvoyons le lecteur intéressé
aux ouvrages plus spécialisés comme par exemple [29] .
....
-0 ~
0 "O
c i::
::J
0
;:::s
.... 11.5 ANALYSE D'ERREUR
CX)
""'
~
~
0 '~
0
""'
·c:: En arithmétique exacte les méthodes de projection que nous avons étudiées aboutissent
N
0
@ 'ro=' en au plus n itérations. En ce sens, on ne peut pas les qualifier de méthodes itératives
~
..c i::
0
puisqu' elles calculent la solution en un nombre fini d'étapes. Cependant, lorsqu'on
O'I i::
·c ~ les utilise pour résoudre de grands systèmes, le nombre d' itérations que l'on effectue
>-
Cl. ·s..
0 0
(.) est dans la plupart des cas bien inférieur à la dimension du problème. C'est cet usage
u ....00
..c:
particulier qui les fait considérer comme des méthodes itératives .
o..
ro
......l
Nous avons vu que la méthode GMRES minimise la norme du résidu llb - Axk ll2
"O
1
tandis que la méthode du gradient conjugué minimise la norme de l' erreur llx - xk Il A .
0
i::
;:::s L' analyse des erreurs se fonde sur ces propriétés d'optimalité.
Q
@
196 11 • Méthodes de projection sur des sous-espaces de Krylov

11.5.1 Analyse des erreurs de la méthode du gradient conjugué


Notons ek = x - Xk l'erreur à l'itération k et Pk l'espace des polynômes de degré ~ k.
La propriété d' optimalité du gradient conjugué (proposition 11.6) conduit au résultat
suivant:

Proposition 11.13 On a

où Qk est l'ensemble des polynômes q de degré~ k tels que q(O) = 1.

Démonstration. D ' après la proposition 11.6, xk est solution du problème

min llz - x llA·


zExo+Kk

Tout z E xo+ .Kk(A , ro) est de la forme z = xo + Pk - 1(A)ro, où Pk- 1 E Pk - 1·


Sachant que b = Ax , on a z = xo + Pk - i(A)A(x - xo) et donc

x - z = Un - Pk - 1(A)A)(x - xo) = qk(A)(x - xo) ,


où qk(X) = 1 - Pk-1 (X)X appartient à Pk et vérifie qk(O) = l.

Pour majorer la quantité minq EQk llq(A)eollA nous allons utiliser un résultat clas-
sique de la théo1ie de l'approximation (voir par exemple P.-J. Laurent [23]). Rappelons
que les polynômes de Chebyshev sont défini s par Tk(x) =cos k(J et x =cos fJ, k ) O.
Ils vérifient la relation de récmTence Tk+2(x) + Tk(x) = 2x Tk+ 1(x) .

Proposition 11.14 Soit [a , b] un intervalle de lR etc <a. Alors la solution du pro-


blème
-0
0 min m ax lq(t) I
c qE'Pk.q(c)=l tE[a ,b]
::J
0
CX)
est obtenue pour le polynôme
0
0
N
@ -
T.k (1 +2 b-
a-t )
a
~ Tk(t) = --'--------'"-
..c
O'I
·c
>-
T.k (i + 2a-c )
b- a
Cl.
0
u où Tk est le polynôme de Chebyshev de degré k. On a
1
min max lq(t) I =
q E'Pkiq(c)= I t E[a ,b] 1j
k
(1 + 2 ~ ) .
b-a

Nous en déduisons la majoration de l'erreur du gradient conjugué :


11.5 Analyse d'erreur 197

Proposition 11.15 Dans la méthode du gradient conjugué la norme de l'erreur


llekllA = llxk - x llA vér(fie

llek llA ~ 2
( Jcond2 (A) -
Jcond (A) + 1
1) k
lleo llA·
2
Démonstration. Puisque la matrice A est symétrique définie positive, elle
est diagonalisable: A = QAQ* avec Q unitaire, A = diag(A 1, ••• , A,i) et
À1 ~ ... ~ À 11 > O. On a
llq(A)eo l l ~ = eôq(A)* Aq(A)eo = eôq(QAQ* )* QAQ* q(QAQ*)eo
= eô Qq(A)* Q * QAQ* Qq(A)Q* eo = y * q(A)* Aq(A)y

où l'on a posé y = Q* eo . D'autre part,

q(A)*Aq(A) = diag (lq (A1)12 A1 , ... , lq(A,,) 12 An) .


On a donc
Il

llq(A)eo ll ~ = L 1Yd Ad q(Àï) l


2 2
~ max lq(A) l2 lleoll~
AE[A,,,A1]
(11.12)
i= I

car l leo l l ~ = eôAeo = eôQAQ* eo = I:~ = 1 IYi l2 Ai· D 'après la proposition


1

11.13, on a
llek llA = min llq(A)eollA·
qEQk

De l'inégalité (l 1..12) et de la proposition précédente en prenant a = A,, , b =


A1 etc= 0, on déduit que

lleollA
....
-0 ~
0 "O
c i::
;:::s
::J
0 .... Pour tout t tel que lt l > 1, on sait que les polynômes de Chebyshev Tk
CX)
""'
~
~ satisfont l'égalité
0 '~
0
N ""'
·c::
0
@ 'ro='
~
..c i::
0
O'I i::
·c
>-
Cl.
~
·s.. et donc pour t > 1
0 0
(.)
u ....00
..c:
o.. Tk(t) ~ ~ (t + Vt 2 - 1) k .
ro
......l
1
"O
0
Posonsµ: = À,1 / (A 1 - A,J. Nous obtenons
i::
;:::s
Q
@
198 11 • Méthodes de projection sur des sous-espaces de Krylov

Par un calcul simple, on vérifie que

Puisque cond2 (A) = À 1 / À11 , on en déduit le résultat.

La fonction x f--7 'Jx:


1
1
est définie et croissante de [1 , +oo[ sur [O, 1[. La vitesse de
convergence de la méthode du gradient conjugué est d' autant meilleure que cond2 (A)
est proche de 1.

11.5.2 Erreur de la méthode GMRES


Notons rk =b- Axk le résidu associé à la méthode GMRES.

Proposition 11.16 L'itéré xk donné par la méthode GMRES vérifie

(11.13)

où Qk est l'ensemble des polynômes q de degré:::;; k tels que q(O) = 1.

Démonstration. On sait que Xk est solution du problème

min llA z - bll2.


zExo+JCk(A ,ro)

Tout z E xo + Kk est de la forme z = xo + Pk - 1(A)ro, où Pk- 1 E Pk - 1· On


a donc b - Az = Un - APk-1(A))ro = qk(A)b, où qk(X) = 1 - XPk-1(X )
-0
c
0 est un polynôme de Pk et tel que qk(O) = l.
::J
0
CX)
0
0 Lorsque la matrice est diagonalisable, nous en déduisons la majoration suivante
N
@ dont la démonstration est laissée au lecteur.
~
..c
O'I
·c
Proposition 11.17 Supposons que A soit diagonalisable et soit A PAP- 1 une
>-
Cl. décomposition avec A diagonale. Alors
0
u

où p(q(A)) est le rayon spectral de q(A) :

p(q (A)) = max lq(A)I.


AEspec A
11.6 Notes et références 199

Contrairement à la méthode du gradient conjugué où la borne d'erreur ne dépend


que du conditionnement de A et de la distance de x 0 à la solution x, la borne d'erreur
donnée ici pour GMRES dépend aussi de la norme de la matrice de passage P c'est-
à-dire des vecteurs propres de A. Ce dernier terme quantifie d'une certaine façon la
distance de A à la« normalité». On rappelle que toute matrice normale (théorème 1.7)
est diagonalisable dans une base de vecteurs orthonormés et que cond 2 (P) = 1 si P
est une matrice unitaire. Lorsque la matrice A n'est pas normale, on constate que cette
borne d'erreur n'est pas optimale contrairement à la borne obtenue pour le gradient
conjugué.

La figure 11.1 illustre la décroissance de l'erreur pour Je système de Poisson 2D


discrétisé par éléments finis (paragraphe 16.2). La dimension du système est égale à
557. L'échelle logarithmique de l 'axe des ordonnées montre une vitesse de conver-
gence linéaire dans les premières itérations et superlinéaire 1 lorsque les itérations
augmentent.

11.6 NOTES ET RÉFÉRENCES


Alexei Nikolaevich Krylov (1863-1945) est surtout connu pour ses travaux en ingénie-
rie navale. C'est dans un article publié en 1931 [20] qu'apparaît pour la première fois
la notion de sous-espace de Krylov.
La méthode du gradient conjugué a été développée indépendamment e t à partir
d ' approches différentes par Cornelius Lanczos d'une part et par Magnus R. Hestenes
et Eduard Stiefel d 'autre part. Dans un article paru en 1952 [17] ils illustrent les poten-
tialités de l 'algorithme en faisant état de la résolution d'un système de 106 équations,
.... ce qui devait représenter une dimension considérable pour l'époque. Actuellement,
-0 ~
"O
des systèmes de plusieurs millions de variables sont couramment résolus à l'aide de
0
c i::
;:::s cet algorithme. On notera que c'est le même auteur E. Stiefel qui a laissé son nom aux
::J
0 ....
CX)
""'
~ matrices définies au paragraphe 8.1.
~
0 '~
0
N ""'
·c:: La méthode du gradient conjugué était conçue à l'origine comme une méthode de
0
@ 'ro=' résolution directe de systèmes. Pendant de nombreuses années elle est restée dans
~
..c
O'I
i::
0 l'oubli en raison de propriétés numériques moins bonnes que celles obtenues par les
i::
·c ~ méthodes directes classiques. Ce n'est que dans les années 1970 que son intérêt pour
>-
Cl. ·s..
0
u
0
(.) la résolution des grands systèmes a matrice creuse est apparu.
....00
..c:
o..
ro
......l
1
"O
0
i::
;:::s
1. On dit que la convergence est superlinéaire lorsque lle11+1 ll2 / lle11 ll2 ---+ 0 lorsque n ---+ oo. Lorsqu'on
Q a simplement lim sup lle11+1 ll2/ lie" 112 = a avec 0 < a < 1 on dit que la convergence est linéaire et a
@ est le taux de convergence linéaire.
200 11 • Méthodes de projection sur des sous-espaces de Krylov

' - - - - GMRES
'
- - gradient conjugué

' \

"
'
'I

10-
16
~-~-~--~-~-~--~-~--~-~-~
0 20 40 60 80 100 120 140 160 180 200
itération

Figure 11.1 Décroissance de la norme de l'erreur lh ll 2 en fonction de k

On trouvera dans l 'ouvrage de Saad [29] une étude plus approfondie de la conver-
gence de la méthode du gradient conj ugué et de la méthode GMRES.
Nous nous sommes limités dans ce chapitre à considérer les deux plus importantes
méthodes de projection sur des sous-espaces de Krylov. À partir des années 1980
et 1990 ont été développées de nombreuses autres variantes de cette grande famille
permettant de traiter des systèmes non hermitiens. Parmi celles-ci on peut citer la
-0
c
0 méthode de bi-orthogonalisation BiCG (en anglais BiConjugate Gradient) qui utilise
::J
0 deux espaces de Krylov, l'un associé à A et l'autre à A* : xk E x 0 + Kk(A , r 0 ) et
OO
0 b - Axk J_ Kk(A *' so) avec So E C 11 tel que (uo, so) # O. Cette méthode fait intervenir
0
N des récurrences «courtes» du même type que le gradient conjugué.
@
......
..c
en
ï::::
>-
a.
0
u
Exercices 201

EXERCICES

Exercice 11 .1 Méthode du gradient à pas optimal


Soient A E ffi. 11 X 11 définie positive et b E ffi. 11 • On considère le système Ax = b. Notons
q(x) = !x 7
Ax - bT x la quadrique qui lui est associée. Nous avons vu au paragraphe
7 .2 que la solution x du système est le vecteur qui minimise la fo nction q(x) sur ffi.n .
En effet le gradient de q(x) est donné par \lq(x) = Ax - b.
Pour résoudre le système Ax = b, on définit une méthode itérative par

où Pk > 0 est un pas de descente le long du gradient de q. La méthode du gradient à


pas optimal consiste à choisir, à chaque itération k, le pas Pk E ffi. solution du problème

min llx - (xk - p(Axk - b)) I l ~ .


pElR

1. Calculer la valeur du pas optimal Pk· Montrer que Pk est également solution du
problème
minq(xk - p(Axk - b)),
pE lR

et que

2. Posons rk = b - Axk et ek = x - Xk. Montrer que


....
-0 ~
0 "O
c i::
;:::s
::J
0 ....
CX)
""'
~
~
0 '~
0
N ""'
·c:: Grâce à l'inégalité de Kantorovitch (exercice 5.3), montrer que
0
@ 'ro='
~
..c i::
0
O'I i::
·c ~
>-
Cl. ·s..
0
0 (.)
u ....00 En déduire que
..c:
o..
ro
......l
1 llek llA~
cond2 (A) - 1)
( cond2 (A) + 1
k
lleollA
"O
0
i::
;:::s
Q
et que la suite (xk) converge vers la solution x du problème. Comparer la vitesse
@ de convergence avec celle obtenue pour le gradient conjugué (proposition 11.15).
202 11 • Méthodes de projection sur des sous-espaces de Krylov

Exercice 11.2
Cet exercice présente l'algorithme du gradient conj ugué comme une généralisation
de la méthode du gradient à pas optimal. Les notations utilisées sont celles del' exercice
précédent, A E JR12 xn est définie positive.
On définit une suite de vecteurs (xk) par la récurrence Xk+ .t = xk + gk où gk est
solution du problème
min q(xk + g)
gEGk

et Gk est l 'espace vectoriel engendré par les vecteurs V' q(xi), 0 ( i ( k:

Gk = [A xo - b, Ax1 - b, ... , Axk - b].

1. Donner les conditions nécessaires et suffisantes d' optimalité du problème d' op-
timisation précédent. En déduire que \\i'q(xk+i ) , V'q(xj)) = 0 , pour tout j =
0, ... , k.
2. On suppose que \i'q(xj) f. 0 , pour tout j = 0 , ... , k. Montrer que Gj =
JC j+ t (A, r 0 ) pour tout j = 0 , . .. , k. En déduire que (xk) est la suite donnée par
l'algorithme du gradient conjugué.

-0
0
c
::J
0
CX)
0
0
N
@
~
..c
O'I
·c
>-
Cl.
0
u
Chapitre 12

Valeurs propres : sensibilité

Ce chapitre est consacré aux valeurs propres d' une matrice A considérées comme
fonctions des entrées de cette matrice. Ce n'est pas une question facile parce que
la définition des valeurs propres est donnée implicitement : ce sont les racines du
polynôme caractéristique

Les questions que l'on se pose sont liées à leur localisation dans le plan complexe, à
leur continuité et leur dérivabilité. C'est ce quel' on appelle étude de sensibilité.

12.1 LE THÉORÈME DE GERSHGORIN


-0
0 Le théorème qui suit est un résultat de localisation :
c
::J
0 Théorème 12.1 Les valeurs propres d'une matrice A E <C11 x 11 sont contenues dans
CX)
0
0 l'union des disques
N
@
~
..c
O'I
·c
>-
Cl.
V;(A) = {A E (:
0
u
appelés disques de Gershgorin.

Démonstration. Soit À E <C une valeur propre de A. On a Ax = Ax pour


un X E <C11 tel que
llxll = m~x lxd =
00
l
l.
204 12 • Valeurs propres: sensibilité

Soit i tel que lxi l = 1. On a:


Il

Àxi = (Ax)i = L aijXj


j=l

de sorte que

IA - aii l = l(A - aii)xï l = L aijXj :s; L laijXj l :s; L laij l ·


.i =/=i j =/=i .i =/=i

Ce théorème peut être raffiné de la façon suivante : si un disque de Gershgorin,


disons 'Di(A), est isolé des n - 1 autres disques, c'est-à-dire si 'Di(A) n 'Dj(A) = 0
pour tout j =f. i, a1ors ce disque contient une et une seule valeur propre de A. La
démonstration de cette propriété utilise des résultats d'analyse complexe; nous ne la
démontrons pas ici.

12.2 LE THÉORÈME D'ELSNER


Nous allons prouver un résultat de continuité du spectre d'une matrice. Comme c'est
un ensemble fini de points, nous devons définir une distance entre de tels ensembles.

Définition 12.2 Soit JE un espace métrique, d sa distance et K(JE) l'ensemble des


parties compactes et non vides de JE. La distance de Hausdorff' sur K:(JE) est donnée
par
hd(S , T) =max (maxmind(s,t), maxmind(s ,t))
sES tET tET sES

pour tout S, TE K(JE) (exercice 12.1).


"O
0
c
::J
Théorème 12.3 Étant donné deux matrices A et A' E C 11 xn notons hd(A , A') la
0 distance de Hausdorff entre les spectres de A et de A' :
CX)
0
0
N
@
hd(A , A') = max ( max min IA - A'I , max min IA - A'I) .
AEspec A A' E spec A' A' Espec A' AEspec A
~
..c
O'I
·c On a: 1 1 1
>-
Cl.
0
hd(A, A') :s; ( llAll2 + llA' lli) -;; llA - A'll ~ ·
u
La démonstration de ce théorème repose sur l'inégalité suivante :

Lemme 12.4 (Inégalité de Hadamard) Pour toute matrice A E C 11 x 11 on a


Il

ldet A 1 :s; II liai 112


i= I
12.2 Le théorème d'Elsner 205

où les ai sont les vecteurs-colonne de A. Lorsque det A # 0, il y a égalité si et


seulement si les colonnes de A sont orthogonales deux à deux.

Démonstration. (Inégalité de Hadamard) Notons A = Q R une décomposi-


tion QR de A et ri les colonnes de R. Comme ai = Qri et que Q est unitaire
on a
lru 1 ~ l!rt 112 = liai 112
de sorte que, puisque ldet Q I = 1,

Lorsque det A # 0, il y a égalité si et seulement si lru 1 = lh 11 2 = llai 112


pour tout i c'est-à-dire si R est diagonale. Cette dernière condition revient à
dire que les colonnes de A = Q R sont orthogonales deux à deux.

Remarque 12.1. Pour une matlice réelle, !<let A 1est le volume du parallélotope
de R 11 constrnit sur les vecteurs ai. L'inégalité de Hadamard dit que ce volume
est majoré par le produit des longueurs de ces vecteurs et qu'il y a égalité si et
seulement si ce parallélotope est rectangle.

Démonstration. (Théorème 12.3) A et A' jouant des rôles symétriques dans


le résultat que l'on doit prouver, il suffit de le montrer pour

max min IA - A' I


A'Espec A' AE spcc A

au lieu de hd(A , A'). Supposons que le maximum soit attei nt pour la valeur
.... propre À 11 de A'. Soit X [ l • • . 'X11 une base orthonormée de telle que en
-0
0
~
"O
A'x 1 = A" x 1 et enfin soit U E U 11 une matrice unitaire telle que U ei = Xi
c i::
;:::s où les ei désignent les vecteurs de la base canonique de <C11 • On a :
::J
0 ....
""'
~
CX)
0
0
N
~
'~

""'
·c::
0
max min
A' Espec A' AEspec A
IA - A' l ~
11
Il IA - A" I = ldet(A - A" /,J I =
@ À
~
'ro='
..c i::
0
O'I
·c i:: ldet((A - A" ln)U) I .
~
>-
Cl. ·s..
0 0
(.) Par l'i négalité de Hadamard, cette dernière quantité vérifie
u ....00
..c:
o..
ro
......l
1
"O
0

Il ll(A - Il ll(A -
i::
;:::s 11 11
Q À ln)Xi112 = ll(A - A')x1112 À ln)Xi 112 ·
@
i#l
206 12 • Valeurs propres: sensibilité

On majore alors

et, en utilisant la propositi.on 3.6,

llCA - A" l n)xd l2 (llA - A" In112llxi112= llA - A" 111 ll2(

llAll2+ IA"I ( l All2+ l A' lb.


On a ainsi prouvé l'inégalité

max IA- A'l


min
A'Espec A' AEspec A
11
( llA - A' lli (llAll2+ llA'lbr- I.
Il suffit pour conclure de prendre les racines n-ièmes des deux membres.

Remarque 12.2. Le théorème 12.3 montre que l' applicati.on «valeur propre »
est hôldérienne d' exposant 1/ n ce qui est une propriété un peu décevante.
L'exemple de la matrice n x n
0 1

0 1
e 0
avec e > 0, montre que c'est un mal nécessai re ! A s est une perturbation de A 0 .
Cette dernière a pour valeur propre À = 0 de multi.plicité n et A s a pour valeurs
propres À~= e 1111 w b 1 ( k ( n, où les w k sont les racines n-ièmes de l'unité.
On a ici

-0
0
c
::J
0
CX)
0
0
12.3 SENSIBILITÉ VIA LE TH ÉORÈME DES FONCTIONS
N
@
IMPLICITES
~
..c
O'I
·c
Tout au long de ce paragraphe, nous allons supposer que A E enxn est une matrice
>-
Cl. hermitienne, de s01te que ses valeurs propres Àj, 1 ( i ( n, sont réelles et qu' il existe
0
u une base orthonormée Xi E en' 1 ( i ( n, de vecteurs propres de A.
Le calcul des éléments propres peut se formuler comme la recherche des zéros du
système

(Al11 A)x )
t) .
-
F (A, ., .) : e 11
x R - t e x R, F( A ,x, À) = ( ~
11
(llxll; -
12.3 Sensibilité via le théorème des fonctions implicites 207

Lorsque F (A, x, À) = 0 c'est que À est une valeur propre de A et que x est un vecteur
propre unitaire associé à cette valeur propre.
Nous allons appliquer le théorème des fonctions implicites dans ce contexte pour
prouver l'existence d'une fonction matrice---+ (vecteur propre, valeur propre) qui soit
définie et C 00 dans un voisinage de A puis nous calculerons sa dérivée.

Théorème 12.5 Soit A E ccnxn une matrice hermitienne; supposons que À soit une
valeur propre simple de A et que x soit un vecteur propre unitaire associé. Alors
1. Il existe un voisinage ouvert V A de A dans CC.11 xn et une unique application C 00
(et même analytique réelle)

(X , A): VA c cnxn --7 ccn X lR

telle que:
a) X(A) = x et A(A) = À,

b) BX(B) = A(B)X(B) et llX(B) ll 2 = 1 pour tout BE VA.


2. Les dérivées de ces fonctions en A vérifient
a) DX(A) : ccnxn ---+ ccn et DX(A)Â = (A/11 - A)t Âx,
b) DA(A): ccnxn ---+ lR et DA(A)Â = x * Âx.
3. Les normes de ces opérateurs lorsque CC.11 xn est muni de la norme spectrale
sont
= maxllÂll ~ 1
a) llDX(A)ll
2 ll DX(A)A ll = maxµ,Espec
2 A , µ ;/; A IA - µ,l- l,

maxllÂll ~ 1 IDA(A)A I = 1.
b) llDA(A)ll =
2
.... Remarque 12.3.
-0 ~
0 "O
c i::
;:::s 1. Quoique nous ayons supposé que A soit hermitienne, les fonctions X et A
::J
0 ....
CX)
""'
~ sont définies sur un voisinage de A dans ccnxii et non pas dans le sous-espace
~
0
0
'~

""'
·c::
des matrices hermitiennes. Autrement dit, nous considérons des perturbations
N
0
@ 'ro=' non hermitiennes d'une matrice hermitienne.
~
..c i::
O'I
0
i::
2. L'énoncé 3.b. signifie que le calcul des valeurs propres d'une matrice hermi-
·c
>-
Cl.
~
·s.. tienne est toujours bien conditionné. On a au premier ordre
0 0
(.)
u ....00
..c:
o.. IA(A) - A(B)I ~l llA - Bll2 .
ro
......l
1
"O
0 3. L'énoncé 3.a. donne le conditionnement du calcul des vecteurs propres: un
i::

Q
;:::s
bon conditionnement correspond à des valeurs propres bien séparées, un
@ mauvais conditionnement à des valeurs propres proches.
208 12 • Valeurs propres: sensibilité

4. Le théorème 12.5 ne s'étend pas directement au cas non hermitien. En effet,


pour une matrice A E CC11 x 11 quelconque, le système Ax = Ax contient n + 1
inconnues et n équations complexes ou bien, en séparant parties réelles et
parties imaginaires, 2n + 2 inconnues et 2n équations réelles. L'équation
normalisante pour le vecteur propre llxIl; = 1 du théorème 12.5 compte pour
une équation réelle et ne suffit pas à lever l'indétermination. On se tire de ce
mauvais pas en recherchant un vecteur propre dans l'espace affine x + x..l :
on est ainsi amené à étudier des problèmes perturbés du type

By =µy, (y - x, x) = O.

Cette fois-ci le compte y est : n + l équations et n + l inconnues complexes.


En termes plus savants, on prend y dans l'espace projectif complexe IP11 _ 1(CC)
et on utilise la carte locale x + x ..l .

Démonstration. (Théorème 12.5) La première chose à faire est de vérifier


les hypothèses du théorème des fonctions implicites (théorème 5.1). Comme
F est une application polynomiale (donc C 00 et même analytique réelle) il
suffit de vérifier que sa dérivée en (A , x , A) par rapport aux variables (x , À)
est un isomorphisme de ccn
X IR. On a: D2F(A , X' À) : ccn
X IR --+ CC11 X IR,

D2F(A , x , A)(i , À) = ( (Al,, (/;~ + Àx ) .

Il suffit de montrer que cette application est injective. Si D 2 F(A , x , À)(x , À) =


0 cela signifie que

(A/11 - A)x + Ax = 0 et i E x..l .

En multipliant cette équation à gauche par x * on obtient


-0
c
0
x*(A/11 - A)x + Âx*x = O.
::J
0
CX)
0
Comme A est hermitienne et que (A / 11 - A)x = 0 on a aussi x*(A/11 - A) = 0
0
N et donc À = O. Ceci prouve que
@
~
..c (Àln - A)x = 0, À = 0, .X E x ..l .
O'I
·c
>-
Cl. Notons Ài' 1 :::; i :::; n, les valeurs propres de A et Xi E CC11 ' 1 :::; i :::; n, une
0
u base orthonormée de vecteurs propres de A. Supposons que À = À 1 et que
x = x 1. Ainsi x ..l est le sous-espace engendré par les vecteurs x2 , ... , Xn et
. ..l ' , . . ""\'Il 0
x Ex s ecnt x = L..Ji = 2 aixi. na
n
0 = (A in - A)x = L ai(À - Ài )xi.
i= 2
12.3 Sensibilité via le théorème des fonctions implicites 209

Comme les xi sont des vecteurs linéairement indépendants on a a i(À- Àï) =


0 pour tout i ; puisque À est une valeur propre simple, on a À - Ài =J. 0, donc
ai = 0 et par conséquent .X = O. Ainsi D 2 F(A, x , À) est un isomorphisme,
le théorème des fonctions implicites s'applique ce qui prouve les assertions
1.a et 1.b.
La délivée de la fonction implicite en A est donnée par

où D 1 F désigne la dérivée de F par rapport à la variable A et D 2 F celle par


rapport au couple (x , A). Soit  E cnxn . On a:

D 2 F(A , x , A)(DX(A)A, DA(A)Â) = -D 1F(A ,x, A)Â

ou encore, en posant .X= DX(A) et  = DA(A)Â,


. .
(AJ11 - A)x + Àx = Ax ,
(.X,x)= O.

Notons que
Ker (Àl11 - A) = <Cx

et que
lm (À/11 - A) = x .L .

La première égalité a lieu parce que À est une valeur propre simple de A et la
seconde parce que x 1- est le sous-espace engendré .rar les vecteurs propres
x 2 , ... , x11 • Tout ceci prouve que (A/11 - A)x et Àx sont les projections
orthogonales de Âx sur x .L et sur <Cx. Ainsi
....
-0 ~
c
0 "O
i::
(A/11 - A)x = Ilx.L Âx ,
;:::s
::J
0 .... Âx = IIcxÂx ,
""'
~
CX)
0
~
'~
.X E x.L
0
N ""'
·c::
0
@ 'ro=' de sorte que
~
..c
O'I
i::
0
i::
.X E Ker (A/11 - A).L ,
·c
>-
Cl.
~
·s.. ~Àln - ~).X = II1m (,\/11 -A) Âx,
0 0
u
(.)

....00 À = x* Ax.
..c:
o.. donc, par définition de l' inverse généralisé,
ro
......l

x. -- (À/11 A) t Ax
. .
1
"O
0 -
i::
;:::s
Q
@ Ceci prouve la seconde assertion.
210 12 • Valeurs propres: sensibilité

La matrice À/11 - A a pour valeurs propres 0 et À - Ài -=/= 0, 2 ( i ( n .


Puisqu'elle est hermitienne, ses valeurs singulières sont IA - Ài I, 2 ( i ( n,
et celles de (A/11 - A)t sont IA- Ad- , 2 ( i ( n, (théorème 9.7).
1

Passons au calcul de la norme de l 'opérateur DX(A). Par définition

l DX(A)ll = ip.ax llCA/n- A)t Â.x 11


2
.
llAll2~ l

Lorsque 11 A11 2 ( 1, puisque 11x 112 = 1, il n'est pas trop difficile de voir que
les vecteurs Ax décrivent la boule unité dans C 11 • On a donc

par le théorème 3.9.


Pour le calcul de la norme de DA(A), notons que:

llDA(A)ll = max lx*Âx l .


l l À l l 2~ 1

Lorsque ll All 2 ( 1, puisque llxl'2 = 1, les scalaires x* Â.x décrivent le


disque unité dans C et donc le maximum des modules est égal à 1. Ceci
prouve la troisième assertion et le théorème.

Remarque 12.4. Dans le cas de perturbations hermitiennes d 'une matrice


hermitienne on a le résultat plus précis suivant : soient A, B E C 11 x 11 deux
matrices hermitiennes dont les valeurs propres sont À 1 ) . . . ) À11 pour A et
µ 1 ) ... ) µ 11 pour B. Alors

~
c
m~x 1À i -
1
µd ( 11 A - B 11 2 ·
::J
0
oo
0
Une démonstration de ce résultat est donnée à l'exercice 12.3.
0
N
@

t·c 12.4 NOTES ET RÉFÉRENCES


>-
Cl.
3 La terminologie valeur propre, vecteur propre vient des travaux de Camille Jordan. Il
publie en 1870 son Traité des substitutions et des équations algébriques sur ce quel' on
appelle aujourd'hui réduction d'endomorphisme. Les anglophones utilisent les termes
eigenvalue et eigenvector de l'allemand Eigenwert dû à David Hilbert (1862-1943).
Trois ouvrages sont à recommander sur ce sujet: Wilkinson [37], Chatelin [7] et
Stewart-Sun [34].
Exercices 211

EXERCICES

Exercice 12.1
Montrer que la distance de Hausdorff (définition 12.2) est bien définie et vérifie les
axiomes des distances sur l' ensemble lC(IE) des parties compactes et non vides de IE.

Exercice 12.2
Le but de cet exercice est de prouver le théorème suivant dû à E. Fisher (1905) :
soient A E e,nxn une matrice hermitienne et A1 ~ ••• ~ À11 ses valeurs propres
rangées par ordre décroissant. Alors

Ài = max min x * Ax
XE<G11,i xE§x

où le maximum est pris sur l'ensemble <G11 ,i des sous-espaces vectoriels de dimension
i de C.11 et le minimum sur l'ensemble § x des vecteurs de norme 1 dans X (autrement
dit la sphère unité dans X). Pour x "# 0 quelconque, le quotient

x* Ax
x* x
est appelé quotient de Rayleigh. Six E §x alors x * Ax est un quotient de Rayleigh.
1. Montrer qu'il existe XE §x tel que x * Ax ~ x * Ax pour tout XE §x .
2. On pose A = V DU* avec V unitaire et D = diag(Ài). Montrer que

.... max min x * Ax = max min y* D y .


-0 ~ X EG11,i x E§x Y EG11,i y E§y
0 "O
c i::
;:::s
::J
0 ....
CX)
""'
~ 3. Calculer mjnyE§r y* D y lorsque Y = Yi = {y E C.11 : Yk = 0, i + 1 ~ k ~ n }.
~
0 '~
0
N ""'
·c:: 4. Soit Y E <Gn ,i · Montrer qu'il existe y E §y tel que y* D y ~ Àj . Conclure et
0
@ 'ro=' donner la valeur de X E Gn,i qui réalise le maximum.
~
..c i::
0
O'I
·c i:: 5. Quelles expressions plus simples obtient-on pour À1 et Àn?
~
>-
Cl. ·s..
0 6. Montrer que À 1 est une fonction convexe de A et que Àn est une fonction concave
0 (.)
u ....00 de A .
..c:
o..
ro
......l
1
"O
0
Exercice 12.3
i::

Q
;:::s
Dans cet exercice nous allons prouver le théorème suivant (H. Weyl, 1912) : soient
@ A , B , E E e,nxn trois matrices hermitiennes avec B =A+ E. Notons Àt ~ . . . ~ À 11
212 12 • Valeurs propres: sensibilité

(resp. µ 1 ~ • •• ~ µ 11 , e 1 ~ ••• ~ e 11 ) les valeurs propres de A (resp. B, E) rangées


par ordre décroissant. Alors, pour tout i,

1. Montrer qu'il existe un sous-espace X de <C11 de dimension i tel que

µi ~ x * (A + E)x

pour tout x EX, llxlli = 1 (utiliser l'exercice 12.2). En déduire que

2. Montrer que Ài + e 11 ~ µ; (écrire que A = B - E ).


3. Montrer que
m~x IA; -
1
µd ~ llA - Bll2 ·
4. Montrer que si E est semi-définie positive alorsµ; ~ À; pour tout i.

-0
0
c
::J
0
CX)
0
0
N
@
~
..c
O'I
·c
>-
Cl.
0
u
Chapitre 13

Sous-espaces invariants

13.1 SOUS-ESPACES INVARIANTS, SIMPLES,


COMPLÉMENTAIRES
Dans l' étude de la diagonalisation d' une matrice A E e 11 xn les sous-espaces propres
E;.. = Ker (A - Àln) associés aux valeurs propres À de A ont un rôle essentiel. Une
de leurs propriétés est la suivante :

Ils sont dits invariants par A. Les sous-espaces invariants d'une matrice A jouent un
rôle important dans le calcul de ses valeurs propres ainsi que, nous l'avons déjà vu,
-0
dans l'étude des méthodes de projection sur des sous-espaces de Krylov.
0
c
::J
0
CX)
Définition 13.1 Un sous-espace vectoriel X c e 11
est dit invariant par A E en X II si
0
0
N
@ AXcX.
~
..c
O'I
·c Un autre exemple est fourni par la décomposition de Schur (théorème 1.12) ou la
>-
Cl.
0 décomposition de Jordan (théorème 1.5) de A. Dans ces deux cas
u
1
A = PRP -

c'est-à-dire AP = PR, où Rest triangulaire supérieure; on en dédtùt que pour tout


k = 1 .. . n
214 13 • Sous-espaces invariants

avec Pk = P(l : n , 1 : k) et Rk = R(l : k , 1 : k). L' égalité précédente prouve que

les k premières colonnes de P, sans être obligatoirement des vecteurs propres de A,


engendrent un sous-espace invariant par A.

La définition précédente montre que, si X est un sous-espace invariant de A, la


restriction de A à X est un endomorphisme de X :

A lx: X--+ X.

Définition 13.2 On appelle valeur propre de A dans X les valeurs propres de cette
restriction et on note leur ensemble

spec (A , X)= spec (A lx)·


On note en.fin PA, x(À) le polynôme caractéristique de A lx.
Il est clair que toute valeur propre de A lx est aussi une valeur propre de A. Aussi
le polynôme PA,x(À) divise le polynôme caractéristique PA(À) de A mais les multi-
plicités d'une valeur propre dans PA ,x(À) et dans PA(À) ne sont pas nécessairement
.identiques.
Définition 13.3 On dit qu'un sous-espace invariant X de A est simple lorsque les
multiplicités des valeurs propres de A lx sont égales aux multiplicités des valeurs
propres correspondantes de A.
À titre d'exemple considérons la matrice de Householder Hw avec w E C11 , 11w11 2 =
1 (définition 8.6). Elle ne possède que deux sous-espaces invariants simples en dehors
de {O} et < C1i : ce sont Cw et w ..l.. . Ils correspondent aux valeurs propres -1 de
-0
c
0
multiplicité 1 et 1 de multiplicité n - 1.
::J
0 Un sous-espace invariant simple est caractérisé par ses valeurs propres :
CX)
0
0
N Théorème 13.4 Soit X un sous-espace invariant simple de A. Alors
@
~
..c
O'I
X = Ker PA ,x(A) .
·c
>-
Cl.
0 De plus, il existe un unique sous-espace invariant simple Y de A qui soit aussi un
u
supplémentaire de X. On l'appelle le sous-espace invariant complémentaire de X.
Démonstration. Supposons que
q

PA(À) = rr(Ài - Ayr';


i= I
13.1 Sous-espaces invariants, simples, complémentaires 215

où les valeurs propres Ài sont deux à deux distinctes et où les m ; sont leurs
m ultiplicités (donc m 1 + . . . + mq = n) et que

PA,x(A) = II(À;- Ayn;


i= I

où les Ài, l ~ i ~ p, sont les valeurs propres de A lx· Nous allons utiliser
la décomposition en sous-espaces caractérisques (théorème 1.4) :

Si x E X on a PA,x(A)x = 0 par le théorème de Cayley-Hamilton (théo-


rème 1.2) d' où
p

X c Ker II(Ai Ill - Ayr'; = E 1 EB . . . EB Ep.


i= l

Comme dim X = m 1 + ... + m P (le degré du polynôme caractéristique PA ,x)


on a égalité :
p

X = Ker II(Àïln - Ayn;.


i= J

L' unique sous-espace invariant simple Y de A qui soit aussi un supplémen-


taire de X est égal à
q
Y = Ker II (AJn - A)'";.
i =p+l
....
-0 ~
0 "O
c i::
::J ;:::s
.... Le théorème précédent admet la réciproque suivante:
0
CX)
""'
~
~
0
0
'~ Théorème 13.5 Soit S UT= spec A une partition du spectre de A (Sn T = 0). Il
N ""'
·c::
@
0 existe une unique décomposition en sous-espaces invariants de A qui soient simples
'ro='
~
..c i:: et complémentaires :
0
O'I
·c i::
~
C11 = X EB Y
>-
Cl. ·s..
0
0
u
(.)

....00 avec S = spec (A, X) et T = spec (A, Y).


..c:
o.. Démonstration. L' unicité est une conséquence du théorème 13.4. Pour
ro
......l
1 1'existence on prend
"O
0

II (Ai In - II (AJn -
i::
;:::s
Q X = Ker A)'1 et Y = Ker A)'1.
@
A; E S À;E T
216 13 • Sous-espaces invariants

Remarquons que ces sous-espaces sont invariants par A. Notons

P1(A) = II (À; - À)
11
et P 2 (A) = II (Ài - A)'1 .
A;ES À;ET

Ce sont des polynômes premiers entre-eux donc, par le théorème de Bézout,


il existe des polynômes Q 1(A) et Q2 (A) tels que

Q 1(A)P1(A) + Qz(A)P2(A) = 1.
Les polynômes matriciels correspondants vérifient donc

On en déduit que

X n Y = Ker P1(A) n Ker P2 (A) = {O}.

Pour prouver que C11 = X EB Y on utilise la décomposition

et le fait que Q 1(A)P1( A)x E Y et que Q2 ( A)P2 (A)x E X. En effet, les


' '

polynômes matriciels en une même matrice tels que P 1(A) , P2 (A) et Q 1(A)
commutent entre eux de sorte que

comme Pi (A)P2(À) = ITA;Espec A (Ài - À)'1 est un multiple du polynôme


caractéristique PA(À) = ITA; Espec A(À; - Ayn; (mi ~ n est la multiplicité
-0 de la val eur propre Ài ) on a P1 (A)P2 (A)x = 0 par le théorème de Cayley-
0
c
::J
Hamilton (théorème 1.2). On remarque enfin que les spec tres de A dans X
0
CX)
et Y sont égaux à Set T qui sont deux ensembles d' intersection vide. C' est
0
0 pourquoi X et Y sont simples.
N
@
~
..c
O'I
·c 13.2 FORME RÉDUITE
>-
Cl.
0
u Soit X un sous-espace invariant de dimension k de A et soit X E C11 xk une matrice
dont les k vecteurs-colonne constituent une base de X. Notons X = (x 1 ... Xk ).
Puisque Axi E X , ce vecteur s'écrit de façon unique sous la forme d'une combi-
naison linéaire des vecteurs x j , j = 1 .. . k. On a donc A xi = X li pour un vecteur
unique li E Ck et AX = XL en notant L = (1 1 ..• lk ). La matrice Lest la matrice de
l'endomorphisme A lx dans la base Xj, j = l ... k. Nous venons de prouver que
13.3 Équation de Sylvester 217

Proposition 13.6 Pour toute matrice X E cnxk dont les vecteurs-colonne constituent
une base de X, il existe une unique matrice L E Ckxk telle que

AX = XL .

De plus
spec (A, X) = spec (L).

Soit X E §tnk une matrice dont les vecteurs-colonne constituent une base orthonor-
mée de X et soit L E Ckxk telle que AX = XL. Complétons les vecteurs-colonne de
X en une base orthonormée de C 11 : on obtient ainsi une matrice unitaire (X Y) E U11 •
Dans cette base la matrice A s' éc1it sous fo1me d' une matrice triangulaire supérieure
par blocs :

Proposition 13.7 Soit X E §t11k de rang k telle que AX = XL. Pour toute matrice
Y E cnx(n - k) telle que (X Y) E cnxn soit unitaire, on a la forme réduite

(X Y)* A(X Y) = ( ~ 1) (13.1)

avec L = X *AX , H = X *AY et L = Y *AY.

Démonstration. On a A(X Y) = (AX AY) = (XL AY). En multipliant à


gauche par ( ; : ) et en observant que X* X = h et Y* X = 0 on obtient
la forme annoncée.

Remarque 13.1. Puisque (X Y ) est une matrice unitaire, l'espace Y engendré


par les colonnes de Y est égal à x ..L. Ce n'est pas nécessairement un sous-
....
-0 ~ espace invariant de A sauf si cette matrice est hermitienne. Dans ce cas H = 0,
"O

~ ~
0
c i::
::J
0
;:::s
.... (X Y) * A(X Y) = ( ) et A lm Y c lm Y.
CX)
""'
~
~
0 '~
0
N ""'
·c::
0 Lorsque X est un sous-espace invariant simple, un changement de base va nous
@ 'ro='
~
i::
permettre de décomposer A sous-forme d'une matrice diagonale par blocs. Cette
..c 0
O'I
·c i:: construction utilise 1'équation de Sylvester que nous étudions ci-dessous.
~
>-
Cl. ·s..
0
0 (.)
u ....00
..c:
o.. 13.3 ÉQUATION DE SYLVESTER
ro
......l
1
"O
0
Définition 13.8 Soient A E cnxn , B E cmxm et C E cnxm . L'équation matricielle
i::
;:::s
Q
@ AQ - QB = C (13.2)
218 13 • Sous-espaces invariants

où Q E en xm est appelée équation de Sylvester.


Cette équation fait apparaître l'opérateur linéaire

S: cnxm---+ cnxm ' S(Q) = AQ - QB.

Nous souhaitons savoir si l'équation de Sylvester S(Q) = C admet une solution


unique ou, en d'autres termes, si l'opérateur S est inversible. On a le théorème suivant:

Théorème 13.9 L'opérateur de Sylvester S est inversible si et seulement si

spec A n spec B = 0.

Démonstration. Considérons À une valeur propre de A et X E en'


X =!= 0,

un vecteur propre associé. De même, soit µ une valeur propre de B et soit


y E C 111 , y# 0, tel que y* B =µy * (y est un vecteur propre de B * associé
à la valeur propreµ). La matrice Q = xy* E cnxm vérifie Q =/= 0 et l'on a

AQ - QB = Axy* - xy* B =(A - µ)xy *.

Si spec A n spec B =!= 0 et si l' on prend À = µdans cette intersection, alors


la matrice Q = xy* correspondante est un élément non nul du noyau de S
qui n'est donc pas inversible.
Réciproquement, supposons que spec A n spec B = 0. On va montrer que
pour toute matrice C l'équation S(Q) = C possède une solution et donc S
sera inversible. Considérons une décomposition de Schur de B (théorème
1.12) : B = VTV *. En multipliant à droite le système S(Q) = C par la
matrice V on obtient

-0
0
A(QV) - (QV)T = CV.
c
::J
0
CX)
Posons P = Q V et D = CV. Il s'agit de résoudre le système
0
0
N
@
AP - PT = D , (13.3)
~
..c
O'I
·c où Test une matrice triangulaire supérieure. Notons Pi (respectivement di)
>-
Cl.
0
les colonnes de P (respectivement de D) et tij les coefficients de T. La
u première colonne de ce système est égale à

et t 11 , élément de la diagonale de T , est une valeur propre de B. L'hypothèse


implique que A - t 11 111 est inversible et donc p 1 est bien défini.
13.3 Équation de Sylvester 219

Supposons avoir déterminé les colonnes p 1, ... , Pk-J de P. La k- ième


colonne de l'équation 13.3 est
k
Apk - L tikPi = dk
i =l

d'où
k- 1

(A - tkkln)Pk = L tikPi + dk.


i= l
Comme tkk E spec B la matrice A - tkk In est inversible ce qui prouve
l' existence (et l'unicité) de Pk·

Corollaire 13.10 Quelles que soient les matrices A E C11 XII et B E cm xm, les valeurs
propres de l'opérateur de Sylvester S sont À- µ où À E spec A et µ E spec B.
Démonstration. Dans la première partie de la démonstration du théorème
précédent on a montré que À - µoù À E spec A etµ E spec B est une
valeur propre S.
Réciproquement, soient Q =1- 0 et u E C tels que S Q = u Q. On a donc
(A - u In) Q - Q B = 0 c'est-à-dire que le noyau de ce dernier opérateur de
Sylvester n'est pas réduit à O. Le théorème montre que cela n'est possible
que s'il existe À E spec A etµ E spec B tels que À - u = µ.Ceci prouve
que u = À - µ.

Remarque 13.2.
1. La démonstration du théorème précédent donne un procédé de construction
de la solution Q del' équation de Sylvester :
....
-0 ~ a) On calcule une décomposition de Schur de B,
0 "O
c i::
;:::s
::J
0 .... b) On résout les systèmes linéaires
CX)
""'
~
~
0 '~
0
""'
·c:: k-1
N
@
~
0
'ro='
i::
(A - tkk l,.J pk = L tik Pi + db k = 1, ... , m.
..c 0 i=l
O'I i::
·c ~
>-
Cl. ·s..
0 Ce procédé est numériquement coûteux : chaque résolution nécessite O(n 3 )
0 (.)
u ....
0
0 opérations arithmétiques .
..c:
o.. 1
ro
......l
2. Une méthode plus performante est celle de Bartels et Stewart.
1
"O
0
i::
;:::s
Q
@ 1. Méthode publiée en 1972 dans Communications of the ACM.
220 13 • Sous-espaces invariants

a) On décompose aussi la matrice A dans la forme de Schur: A = U S U*


avec S triangulaire supérieure,
b) En multipliant à gauche l'équation (13.3) par U* on obtient

SR - RT = D ,

où R = U*QV , et D = U*CV.
c) Comme dans la démonstration précédente les colonnes ri de R sont obte-
nues en résolvant les systèmes
k-J
(S - tkk ln)rk = L tikri + Jki k = 1, .. . , m ,
i= I

dont les matrices sont triangulaires supérieures ; chaque résolution ne néces-


site que O (n 2 ) opérations arithmétiques.

Remarque 13.3. L'équation de Lyapunov

AQ+QA*= D

est une forme particulière d'équation de Sylvester. Elle est utilisée en théorie
du contrôle et permet de caractériser la stabilité de tels systèmes. Le théorème
précédent permet de montrer que, si la matrice A est stable (c'est-à-dire si
~(À) < 0 pour toute valeur propre À de A), il existe une solution unique de
cette équation (exercice 13.4).

-0
13.4 DIAGONALISATION PAR BLOCS D'UNE MATRICE
0
c
::J
0 Théorème 13.1 1 Soit X 1 un sous-espace invariant simple de A et soit X 1 E §t11k une
CX)
0
0 matrice dont les vecteurs-colonne constituent une base orthonormée de X1. Complé-
N
@
tons X 1 en une matrice unitaire (X 1 Y2 ) E lU11 et considérons la forme réduite
~
..c
~ ~
O'I
·c (X , Y2)* A(X 1Y2) = ( )
>-
Cl.
0
u
Soit Q la solution de l'équation de Sylvester L 1 Q - Q L 2 =- H et soient

X2 = Y2 + X1Q
Y1 = X1 - Y2Q*.
Sous ces hypothèses
13.4 Diagonalisation par blocs d'une matrice 221

1. (Xi X2) est inversible et (X 1 X2)- 1 = (Y1 Y2)*,

2. (X 1 X2)*A(Y1 Yi)= ( ~1 ~2 ) ,

3. X 2 = lm X 2 est le sous-espace invariant complémentaire de X 1.

Démonstration. Pour toute matrice Q E<Ckx(n - k) la matrice ( h


0 !,~,)
1
est inversible d'inverse ( k -Q ) et
0 111 - k

(~ -Q ) ( L1
ln-k 0

Puisque Xi est un sous-espace invariant simple, on a spec L 1 n spec L 2 = 0


et donc, <l'a.p. rès le théorème 1.3.9, l'équation
. de Sylvester L 1 Q - QL 2 =
- H admet une solution unique Q. On obtient X 2 et Y1 en considérant
respectivement les produits

et
( ~ ,,,: ) ( ~1)
ce qui prouve l'égalité 2. On a Xi œX2 = <C11 parce que la matrice (X 1 X2)
est inversible et AX2 c X 2 parce que AX2 = X 2 L 2 . Enfin, X 2 est un sous-
espace simple parce que les spectres de A 1x . et de A 1x 2 , égaux aux spectres
de L 1 et L 2 , sont disjoints.

-g Corollaire 13.12 Avec les hypothèses et les notations du théorème 13.11, X 1.l et X2.l
c
::J sont deux sous-espaces invariants complémentaires de A*.
0
CX)
g La démonstration est laissée en exercice au lecteur.
N
@
~
..c
O'I
·c
>-
Cl.
0
u
222 13 • Sous-espaces invariants

EXERCICES

Exercice 13.1
Déterminer les sous-espaces invariants d'une rotation de Givens. Quels sont ceux
qui sont simples ?

Exercice 13.2
Démontrer le corollaire 13.12.

Exercice 13.3
Soient A E cnxn, B E cm x m et C E cnxm _ On considère l'équation de Sylvester

AQ - QB = C.

On suppose que spec A n spec B = 0 . Donner 1'expression de la solution Q de cette


équation lorsque l'on suppose que A = diag(A 1 , . . • , Àn) et B = di ag(µ 1 , . . . , µ m) . En
déduire l'expression de Q lorsque A et B sont diagonalisables : A = Mdiag(Ai)M - 1
et B = N diag(µ 1)N- 1 .

Exercice 13.4
Soient A , D , Q E cnxn . On considère l' équation de Lyapunov

AQ+QA* = D
-0
c
0
::J
et l'on suppose que A est stable c' est-à-dire que R(A) < 0 pour toute valeur propre À
0 de A.
CX)
0
0
N
l. Montrer que cette équation admet une solution unique Q.
@ 2. Montrer que l' intégrale
~
..c
O'I
·c
>-
Cl.
0
fo°" exp(t A) D exp(t A ' ) dt
u

est convergente et qu'elle est égale à - Q.


3. Montrer que si D est hermitienne alors Q l'est aussi.
4. Montrer que si - D est semi-définie positive (resp. définie positive), alors Q l'est
aussi.
Exercices 223

5. En utilisant l'exercice 13.3 donner l'expression de Q lorsque A est diagonale. Si


de plus D = (dij ), avec diJ = 1 pour tout i , j, montrer que Q est une matrice de
Cauchy (exercice 7.3).
6. On considère la matrice H E CC211 x 211

a) Montrer qu'il existe Y , Z, A E ccnxn avec Y inversible et spec (A)


spec (A*) telles que

b) M.ontrer que Q = Z y- 1 •

-0
0
c
::J
0
CX)
0
0
N
@
~
..c
O'I
·c
>-
Cl.
0
u
"O
0
c
:J
0
OO
0
0
N
@
~
..c
O'I
·;::::
>-
0..
0
u
Chapitre 14

Le calcul des valeurs propres

Puisque les valeurs propres d'une matrice sont les racines du polynôme caractéristique,
on doit s'attendre à ce que le calcul des valeurs propres soit aussi compliqué que la
recherche des racines d' un polynôme. Ces deux problèmes sont même équivalents
puisque tout polynôme est le polynôme caractéristique de sa matrice compagnon (voir
l' exercice 1.7). Pourtant, la recherche des valeurs propres ne se fait pas par le biais des
zéros des polynômes. On préfère une approche plus géométrique comme nous aUons
le voir.

14.1 LA MÉTHODE DE LA PUISSANCE


Le principe de la méthode de la puissance est contenu dans l'observation suivante :
-0
0
soient A E C 11 X Il et z E C, z f= O. En général, la suite des droites vectorielles de
c
::J direction Ak z converge vers la direction propre associée à la valeur propre de plus
0
CX) grand module. Commençons par préciser ce que l'on entend par « une suite de droites
0
0
N
converge».
@
~
..c
Définition 14.1 Étant donnés u , v E C 11 , u et v f= 0, posons
O'I
·c
>- . llu - Avll2
Cl.
0
u
dp(u , v) =mm
AE<C
Il U Il .
2

Proposition 14.2 Quels que soient u, v E C11, u et v f= 0, a , /3 E CC, a et /3 f= 0


on a:
1.
dp(u , v) = dp(œu , v) = dp(u, f3v) ,
226 14 • le calcul des valeurs propres

2.

du v = 1- l(u,v)I2 ) 4
p( ' ) ( . llull; llvll; '
3. dp est unitairement invariante: dp(Qu , Qv) = dp(u , v) pour toute transforma-
tion unitaire Q E 1U11 ,
4. dp est une distance sur l'ensemble des droites vectorielles de <C11 (leur ensemble
est noté IP'n-J (<C) et s 'appelle l'espace project~f complexe associé à <C 11 .)

Remarque 14.1.
1. On définit de la même manière une distance sur l'ensemble des droites
vectorielles de JRll. Dans ce contexte, la distance dp(u,v) est le sinus de
l'angle fait par les droites JRu et JRv.
2. dp(u , v) ~ 1 et= 1 pour des vecteurs u et v orthogonaux.

Démonstration. Le minimum qui définit dp est atteint lorsque .Av est la


projection orthogonale de u sur la droite Cv . On a donc (u - .Av, v) = 0
d 'où
À= (u, v).
(v,v)

Ainsi
(u ,v) V Il 4
dp(u, v) = ll u - M 2 l-
2
l(u,v) l )
-0
llull2 ( llull; llvll;
0
c
::J
0 La première propriété en découle, l'invariance unitaire aussi. Prouvons que
CX)
0 c'est une distance. La symétrie (dp(u, v) = dp(v , u)) est immédiate ainsi
0
N que dp(u, u) = O. Si dp(u, v) = 0, c'est que u est sa propre projection sur
@
~
la droite <Cv. Ceci prouve l'égalité <Cu = Cv. L'inégalité du triangle est
..c
O'I délicate à démontrer. Nous ne le ferons pas ici (exercice 14.3).
·c
>-
Cl.
0
u
Revenons à la méthode de la puissance. Elle est donnée par l'algorithme suivant :
14.1 La méthode de la puissance 227

Méthode de la puissance

Entrée : z E en, z -/=- 0


z
zo = llzll2
pour k = 1 : ...
AZk-1
Zk =
llAZk- 1112
Ck = z; Azk
fin

Théorème 14.3 Supposons que les valeurs propres de A E C11 XI! vérifient

Soit x 1 un vecteur propre de A associé à À 1• Il existe un ensemble ouvert et dense


U C C11 tel que, pour tout z E U,
1. Les suites (Zk) et (Çk) définies ci-dessus sont bien définies,
2. limk-+oo dp(Zk, X1) = 0,
3. limk-+oo Ck = À1.

Démonstration. Afin d'établir les propriétés de ces suites nous allons utili-
ser la décomposition de Jordan de A :

A = PJP- 1

où J = diag(J1 , ... , lp) est une matrice diagonale par blocs constituée de
....
-0 ~
blocs de Jordan: Ji = Àn)n, E C 111 xn; ou Ji = A11 Jn 1 + Nn , (notations du
"O
c
0
i::
;:::s
théorème 1.5) et où n 1 + . . . + np = n . Notons que cette écriture suppose
::J
0 .... que les valeurs propres suivantes sont égales
CX)
""'
~
~
0 '~
0
N ""'
·c::
0
@ 'ro='
~
..c
O'I
i::
0
i::
i 2, . . . , p. Comme A1 est une valeur propre simple on peut supposer
·c
>-
Cl.
~
·s.. que le premier bloc de Jordan est 11 = (À1) E C 1X 1. Notons X1 ' . . . ' X11 les
0
0
u
(.)

....00 colonnes de P. Ces vecteurs constituent une base de C". Définissons


..c:
o..
ro
......l
1
"O
0
i::
c'est un ouvert dense de C 11 • Soit z EU, z= a1X1 + ... + Œ11Xn. On a
;:::s
Q
@
228 14 • le calcul des valeurs propres

parce que a 1 et A1 =/= O. Nous allons voir que

Akz
Zk = llAkzll2.
C 'est vrai pour k = 0 et sil' égalité a lieu à l'ordre k on a :

Ak+lz
11 Ak+ 1z112 .

Nous allons montrer que

avec limk-too ek = O. On pourra alors en déduire que

et que z'k Azk =

( a,x ~ + e;) A (a1x1 + ek) (aixnA (a 1x1 )


= --7 . = Àt
l a1x1 + ekll; lla1x1 Il;
-0
0 ce qui établit le théorème. Afin de donner l'expression de Akz notons que
c
::J
0
CX)
0
0
N
@
~
..c
O'I
·c et que
>-
Cl.
0
u
de sorte que
14.1 La méthode de la puissance 229

où ni est la taille du bloc Ji . Nous avons vu que n 1 = 1 de sorte que

A.k z = À k1 a1X1 + """""'


D <X111+ ... +ll;-1 + l' ... ' Xn ,+...+n; ) J ik
i= 2

A1(a1x1 + ek).
De plus, Jt = À~; 111; ou bien, dans le cas nilpotent,

(2k) À k-2
Il;
k ) À k-n;+I
( 11; -I 11;
(k)1 À k - 1
Il;
k ) À k - n;+2
( ll; - 2 Il;

lorsque k > n. Comme IA11 > IAi 1pour tout i ~ 2, on a

lim ( k) À~; =0
k-+oo m A1

.... pour tout m :::; n de sorte que


-0 ~
0 "O
c i::
;:::s
::J
0 .... Œn,+ .. . +11; - 1+1
CX)
""'
~

0
0
~
'~ ) = 0
N ""'
·c::
0
(
œn ,+ .. .+n;
@ 'ro='
~
..c i::
O'I
·c
0
i:: Ceci prouve notre assertion et le théorème.
~
>-
Cl. ·s..
0
0 (.)
u ....00
..c:
o..
Remarque 14.2.
ro
......l l. Nous disons qu'une propriété P(a), qui est vraie ou non suivant la valeur
1
"O
0 du paramètre a E <CP, a lieu de façon générique lorsque l'ensemble des
i::

Q
;:::s
a E <CP pour lesquels la propriété P(a) est vraie contient un ensemble ouvert
@ et dense de <CP.
230 14 • le calcul des valeurs propres

2. L'hypothèse du théorème n'est pas vraiment restrictive. On peut montrer


qu'une matrice A E <C11 x 11 a des valeurs propres de modules distincts de
façon générique. De plus, un vecteur z E <C11 a de façon générique des
coordonnées non nulles dans une base donnée.
3. Le calcul précédent montre que, lorsque A est diagonalisable (c'est-à-dire
lorsque les blocs de Jordan sont tous de type Àn; In;) on a

pour une constante C > 0 convenable. La convergence de la suite (Zk) est


donc linéaire, et la vitesse de convergence donnée par le quotient 1A2 / À11 <
l. Dans le cas général, cette inégalité n'a lieu qu' asymptotiquement.
4. Lorsque la matrice A a des valeurs propres de modules distincts, on peut
montrer que la méthode de la puissance converge quel que soit le point initial
z E <Cn, z -=/=- 0, vers l' une des directions propres de A (exercice 14.2).
5. Il faut noter que cet algorithme n'utilise que des produits matrice-vecteur.
On n'a donc pas besoin de stocker la matrice A.
6. La direction propre et la valeur propre de plus petit module peuvent être
obtenues, lorsque A est inversible, par la méthode de la puissance inverse.
Celle-ci est définie par l'itération

Les valeurs propres de A - 1 sont les inverses des valeurs propres de A et ces
deux matrices se diagonalisent dans la même base de vecteurs propres.
-0
0
c
::J La figure 14.1 illustre la convergence de la suite (zk) dans le cas d'une matrice
0
CX) symétrique 3 x 3. Les points sont sur la sphère unité de JR3 .
0
0
N
@
~
..c 14.2 ITÉRATION DE SOUS-ESPACES
O'I
·c
>-
Cl. La méthode de la puissance est en défaut pour une matrice A qui possède deux
0
u valeurs propres de plus grand module (exercice 14.1). Mais dans un tel cas et sous
des hypothèses raisonnables la suite des plans Pk+ 1 = APb où Po est un plan donné,
« converge » vers le plan P défini par les vecteurs propres associés à ces deux valeurs
propres. C'est pourquoi on étend la méthode de la puissance au cas d'une itération
de sous-espaces. On entend par là toute suite définie par Xk+I = AXk où X 0 est un
sous-espace de dimension p de <C11 • Cette suite se stabilise-t-elle vers un sous-espace
14.2 Itération de sous-espaces 231

Méthode de la puissance

vecteur initial

-1

- 0.5

0 vecteur itéré k=6


0

Figure 14.1 Convergence de la suite (Zk ).

de en? En général la réponse est oui : la suite (Xk) converge vers le « sous-espace
invariant dominant » de dimension p.
Quelle structure de données choisir pour décrire un sous-espace de dimension
p de <C11 ? Et bien tout simplement une matrice X E cnxp de rang p. Ses
colonnes engendrent un sous-espace de dimension p : le sous-espace image
.... lm X = {Xu : u E CP}. Un tel choix n'est pas unique:
-0 ~
"O
c
0
i::
Lemme 14.4 Quelles que soient les matrices de rang p: X , Y E cnxp on a lm X=
;:::s
::J
0 .... lm Y si et seulement s'il existe G E <GlLp telle que Y = XG.
CX)
""'
~
~
0 '~
0
N ""'
·c:: Démonstration. La condition est suffisante : si Y = X G alors Y v = X Gv
0
@ 'ro=' pour tout v E <CP de sorte que lm Y c Im X. L'autre inclusion s'obtient
~
..c
O'I
i::
0
i::
via l'égalité X = Y c-
i.. La condition est nécessaire : si lm X = lm Y les
·c
>-
~
·s.. colonnes de Y sont des combinaisons linéaires de celles de X ce qui prouve
Cl.
0
0
u
(.) l'existence de GE ([PXP telle que Y= XG. Si G n'était pas inversible, il
....00
..c: existerait v E <CP, v =!= 0, avec Gv = O. On aurait alors dim(Im X G) ~ p-1
o..
ro
......l
et Y ne serait pas de rang p.
1
"O
0
i::

Q
;:::s
A toute matrice Z E C 11 x P de rang p on peut associer une unique décomposition
@ Z = QR avec Q E §t11p et R E ([PXP triangulaire supérieure à diagonale positive
232 14 • le calcul des valeurs propres

(proposition 8.4) que nous notons Q = Q(Z) et R = R(Z). En vertu du lemme


précédent on a :
lm Z = lm Q(Z).

Comme au paragraphe précédent, où nous avons défini la notion de convergence


d' une suite de droites, nous devons définir maintenant un concept de limite pour des
suites de sous-espaces dans C 11 •

Définition 14.5 Notons Gnp l'ensemble des sous-espaces vectoriels de dimension


e
p contenus dans 11 • Cet ensemble est appelé «grassmannienne ». Etant donnés
U, V E <G11p, posons
. llu - vlli
dc(U, V) = sup mf
uEU ,u:;é-0 vEV
Il U Il2 .
Ce nombre est le supremum du sinus de 1' angle fait par un vecteur u E U avec sa
projection orthogonale sur V. Noter que pour p = 1 on retrouve la définition 14.1.

La proposition suivante (difficile) sera prouvée à l'exercice 14.3.

Proposition 14.6
. llu - vlli
1. dc(U , V) = max mm
uEU ,u~O v EV
Il U Il ,
2
2. da(U , V) = llIIv.L o IIu 11 2 où IIx désigne la projection orthogonale dans C 11
sur le sous-espace X ,
3. de est une distance sur G 11p .
4. de est unitairement invariante: dc(Q(U), Q(V)) = de(U , V) pour toute matrice
unitaire Q dans e 11 •
-0
0
L'itération de sous-espaces est décrite par l'algorithme suivant:
c
::J
0 Itération de sous-espaces
CX)
0
0
N
@
Entrée: z E e11 Xp' de rang p
~
..c
Zo = Q(Z),
O'I
·c pour k = 1 : ...
>-
Cl.
0
Zk = Q(AZk-1)
u fin

Théorème 14.7 Soit A E enxn une matrice diagonalisable dont les valeurs propres
vérifient
14.2 Itération de sous-espaces 233

et soit x 1, ... , x 11 une base de vecteurs propres de A (x; associé à ,\J Notons X
et Y les sous-espaces de <C11 engendrés par les vecteurs x 1 , ... , Xp pour X et par
Xp+t, . . . , Xn pour Y.
Pour toute matrice Z E cnxp de rang pet telle que

(lm Z) n Y = { o} ,

la suite (Zk) décrite ci-dessus vérifie les propriétés suivantes :


1. rang zk = p,
2. limk-+oo dG(Im Z k, X) = 0.

Démonstration. Nous n'allons prouver ce théorème (difficile) que lorsque


A est hermitienne. On a alors

A = UDU*

avec

où D 1 = diag(A 1, . . . , Àp) et D 2 = diag(Àp+t, ... , ,\11 ). On peut aussi sup-


poser que les vecteurs x; sont orthonormés et que

U = (x1 ... x 11 ) = (X Y)

avec X = (x 1 . . • xp) et Y = (xp+I ... x 11 ). Ainsi

.... X. -- U ( lOp ) et Y -- U ( In-0 p ) .


-0 ~
0 "O
c i::
::J ;:::s
.... On pose aussi
~
0
CX)
""'
~

0
~
'~ Q(Z) = Zo = U Qo = U ( )
0
N ""'
·c::
0
@ 'ro='
~
avec Vo E (CPXP et Wo E c<n-p)xp _L'hypothèse
..c i::
0
O'I i::
·c ~
>-
Cl. ·s..
0
(lm Z) n Y = {O}
0 (.)
u ....00
..c:
o.. qui s'écrit aussi
ro
......l (lm Z 0 ) n (lm Y) = {O}
1
"O
0
i::
;:::s
devient donc
Q 0
@ ) = {O} .
ln - p
234 14 • le calcul des valeurs propres

Puisque l'on a supposé que Z (et donc Q 0 ) est de rang p, cette dernière
identité signifie que Vo est inversible (supposons que Vou = O. L'hypothèse
implique alors Wou = 0 c 'est-à-dire Qou = O. Comme rang Q o = p on a
u = 0 et donc V0 est inversible.)
Nous allons maintenant montrer que rang Z k = p pour tout k. Par construc-
tion Zk = Q(AZk_ i) c' est-à-dire que

pour une matrice Rk E


'
CP x P triangulaire supérieure à diagonale positive.
' '

On notera
z, = u ( ~ ) = u Q,
avec Vi E f:,PXP et Wk E e,cn-p) x p de sorte que

Cette égalité implique

ce qui prouve, par récurrence, que Vk est inversible pour tout k (D 1 est
elle-même inversible) et donc que rang zk = p pour tout k.
Nous devons maintenant estimer la distance dc (Im Z k, X). En vertu de
l'invariance unitaire de de (proposition 14.6-4), elle est égale à

dG(lm z,, X) = dc(lm z., lm X) = de (1m Q., lm ( ~ )) .

-0
c
0
::J
Les projections orthogonales sur lm Q, et sur (1m ( ~ )) 1- sont don-
0
CX)
nées par les matrices
0
0
N
@
~
..c
O'I
·c
>-
Cl.
0
u de sorte que, par la proposition 14.6-2,
14.2 Itération de sous-espaces 235

1 12

° °)
( 0 111 - p
° °)
QkQZQk Q; ( 0 1
11 - p 2
= 1 wkw:11~12 = 1 Wkl '2,
quantité que nous allons estimer. L' égalité QkRk = DQk- I donne, par
récmTence,

c' est-à-dire

(~)Rk · · ·Ri= (iJ~)


de sorte que, puisque Vk et D 1 sont inversibles,

Notons que IlVk 1


'2 ~ 1 parce que Qk est une matrice de Stiefel. Ainsi

et notre théorème est démontré.

Remarque 14.3.
1. L' hypothèse (lm Z) n Y = {O} du théorème 14.7 est satisfaite de façon
générique suivant le sens donné à ce terme dans la remarque 14.2.
2. Le calcul précédent montre que, dans le cas hermitien,
k
. Àp+ l
dc (lm Zki X) ~ C -
Àp

....
-0 ~
pour une constante C > 0 convenable. La convergence de la suite (lm Zk) est
c
0 "O
i::
;:::s
donc linéaire et la vitesse de convergence donnée par le quotient IAp+J / Àp < 1
::J
0 .... l.
CX)
""'
~
~
0
0
'~

""'
·c::
3. L'hypothèse A diagonalisable n'est pas vraiment nécessaire. Elle nous per-
N
0
@ 'ro=' met ici d' éviter de parler de paire complémentaire de sous-espaces invariants
~
..c i::
0
(les sous-espaces X et Y du théorème).
O'I i::
·c
>-
Cl.
~
·s.. 4. La démonstration du cas général ( A non diagonalisable) utilise le même
0
0
u
(.)

....00 argument que dans le cas hermitien mais est techniquement beaucoup plus
..c:
o..
compliquée. Dans ce cas aussi la vitesse de convergence est linéai re et donnée
ro
......l asymptotiquement par le quotient 1Àp+ 1 / Àp 1< 1.
1
"O
0 5. Lorsque les valeurs propres de A ont des modules distincts, on peut montrer
i::

Q
;:::s
que l' itération de sous-espaces converge vers un sous-espace invariant quel
@ que soit le sous-espace initial choisi.
236 14 • le calcul des valeurs propres

6. Cet algorithme utilise à chacune de ses étapes

• Un produit de deux matrices n x net n x p (calcul de AZk) . Le coût


d' un tel produit est de 2n 2 p opérations arithmétiques si A est une
matrice pleine.

• La décomposition QR d'une matrice n x p. Le coût de cette décom-


position est ~ 2np2 opérations arithmétiques par les méthodes de
Gram-Schmidt ou de Householder (voir le paragraphe 8.5.3).

7. L' itération de sous-espaces consiste en la suite (A k Z) qui est représentée par


la suite de matrices (Q(Ak Z)) où Z = lm Z. La décomposition QR sert ici
à no1maliser les matrices A k Z qui sans cela auraient des entrées infiniment
grandes ou petites (ou les deux à la fois). Il n'est pas utile d' effectuer cette
normalisation à chaque étape : une fois de temps en temps suffit !
8. Une autre stratégie utilise non pas la décomposition QR pour normaliser la
suite (AkZ) mais la décomposition LU, c'est la méthode de Treppen. L'al-
gorithme correspondant est le suivant (on note .C(Z)U(Z) la décomposition
LU de la matrice Z):
Méthode de Treppen

Entrée : z E en X p' de rang p

Zo = .C(Z),
pour k = 1 : ...
Z k = .C(AZk-1)
fin

-0
0
c
::J
0
CX)
0
0
14.3 LA M ÉTHODE QR
N
@ Cette méthode permet le calcul de toutes les valeurs propres d'une matrice. Soit
~
..c A E <C11 xn et soit U E {[]11 une matrice unitaire. L' itération QR est donnée par
O'I
·c
>-
Cl.
l'algorithme suivant:
0
u
14.3 La méthode QR 237

Itération QR

Entrée: A E cn x n, U E U11
Ao =
U * AU = QoRo ,
pour k = 0: . . .
A k+l = RkQk = Q k+l Rk+I
fin

On constate que, en général, la suite Ak « converge » vers une matrice triangulaire


supérieure dont la diagonale contient les valeurs propres de A rangés par modules
décroissants. Le mot converge a été mis entre guillemets en attendant de lui donner sa
signification précise.
La matrice unitaire U qui sert à initialiser cet algorithme a pour seul but de le
«rendre générique». On avait pris, de la même manière, dans la méthode de la puis-
sance un vecteur initial «au hasard».
L'algorithme QR est à la base de plusieurs méthodes de calcul des valems propres,
nous allons le décrypter dans le théorème qui suit.
Théorème 14.8 Soit A E cn xn une matrice dont les valeurs propres sont de modules
distincts :
IA1I > IA2I > ... > IA11 I ·
Soit A = Q R Q * une décomposition de Schur de A (théorème 1.12) telle que ru = Ài
pour tout i et soit U E Un une matrice unitaire telle que

lm U ( 1 : n , 1 : i) n lm Q( 1 : n , i + 1 : n) = { 0}

.... pour tout i (pour la notation U(l : n, 1 : i) voir le premier paragraphe du chapitre de
-0 ~ rappels).
0 "O
c i::
::J ;:::s
.... Sous ces hypothèses :
0
CX)
""'
~

0
~
'~ 1. La suite (Ak) ci-dessus est unitairement semblable à A,
0
N ""'
·c::
@
0 2. Il existe des matrices Tk E Un diagonales et Bk E cn x n telles que
~
'ro='
..c i::
0
O'I i::
·c ~
>-
Cl. ·s..
0
0 (.)
u ....00
..c:
Remarque 14.4.
o..
ro 1. L'hypothèse faite sur U est satisfaite de façon générique suivant le sens
......l

"O
1
donné à ce terme dans la remarque 14.2.
0
i::

Q
;:::s
2. Lorsque les valeurs propres sont de modules distincts, pour tout U E Un , la
@ suite Ak converge (au sens décrit dans le théorème 14.8) vers une matrice
238 14 • le calcul des valeurs propres

triangulaire supérieure unitairement semblable à A. Mais les élément dia-


gonaux de cette matrice ne sont pas nécessairement rangés par modules
décroissants.
3. Si l 'on note ak ,ij les entrées de A k on a, lorsque k ~ oo,
·· ~ 0
ak,t} Sl l > j,
ak,ij ~ Ài Sl i = .i '
lak,iJ 1 ~ lri.i 1 SI l < j.
Il n'y a donc pas nécessairement convergence de la partie triangulaire supé-
rieure de A k : les modules de ces entrées convergent mais pas nécessairement
leurs arguments.
4. La complexité d 'une étape de calcul est celle d'une décomposition QR
c'est-à-dire, par exemple, 4n 3 /3 opérations arithmétiques par la méthode de
Householder.

Démonstration. (Théorème 14.8) Cette démonstration difficile est paitagée


en les cinq points suivants.
1. Les matrices Ak sont unitairement semblables à A : A 0 = U * AU et
A k+I = Pt APk avec Pk = U QoQ1 ... Qk. En effet Ak+I = Rk Qk =

Q'k QkRkQk = Q'k AkQk = ... = Q'k . . . QôAoQo . . . Qk = Pk* APk.

2. On a Pk+ I = Q(APk)- En effet

APk = (U AoU * )(V QoQ1 ... Qk) = U QoR0QoQ 1 ... Qk =


UQ0Q 1R1 ... Qk = UQ0Q 1 ... Qk+1 Rk+1 = Pk+1 Rk+1
de sorte que Q(APk) = Pk+l par unicité dans la décomposition QR.
-0
0
3. L' égafüé précédente implique
c
::J
0 Pk+I (1 : n , 1 : i) = Q(APk(l : n, 1 : i)).
CX)
0
0
N Autrement dit, Pk(I : n , 1 : i) est la suite décrite au paragraphe précédent
@ d'itération de sous-espaces associée à A et avec P0 (1 : n, 1 : i) = U(l
~
..c
O'I
n, 1 : i). De l' hypothèse faite et du théorème 14.7 nous déduisons que
·c
>-
Cl.
0 lim dc (lm Pk( l : n, 1 : i), lm Q(l : n, 1 : i)) = 0 pour touti = 1 ... n .
u k-+ oo

4. Un point un peu délicat: les limües précédentes et le fait que les matrices
Pk et Q sont unitaires impliquent l'existence d ' une suite de matrices Tk
unitaires et diagonales telles que
14.3 La méthode QR 239

Notons Pk,i (resp. Qi) la i - ème colonne de Pk (resp. de Q). Il revient


au même de montrer qu'il existe des suites de scalaires (fh,i)k telles que
llh ,i = l et limk->oo fh ,i Pk ,i = Q; pour tout i = 1 . . . n. On prend alors
1

Tk = djag((h,i ). Procédons par récurrence suri .


Pour i = 1, partons de la limite suivante
lim dc (lm Pk(l : n, 1 : 1), lm Q(l : n , 1 : 1)) = O.
k->oo

Comme

dc (lm Pk(l : n , 1 : 1), lm Q(l : n , 1 : 1)) = dp(Pk,1 , Q 1)

(voir les définitions 14.l et 14.5), par la proposition 14.2 on a

Il existe donc une suite (8k,th de scalaires de module 1 tels que

(prendre ek,I = exp (-i arg ( Pk, t , Q 1) )). On en déduit que


k~~ 11 ek,1Pk,1 2~ (fh,1 Pk,1, Q1)
2 2 2
- Q111 = 11ek,1Pk,11! +Il Q111 - =

2- 2~ (8k, l Pk ,1 , Q1 )---+ 0
et ainsi
lim ek )1 pk' 1 = Q 1 •
k ->OO
....
-0 ~
"O
Supposons maintenant avoir prouvé qu' il existe des suites (8k ,j )k. 1 :( j :( i,
0
c i::
;:::s de scalaires de module 1, telles que
::J
0 ....
CX)
""'
~
~
0 '~
0
N ""'
·c::
0
@ 'ro='
~
..c i:: Nous allons utiliser le fait que
0
O'I i::
·c ~
>-
Cl. ·s..
0 lim dc (Im Pk(l : n, 1 : i + 1), lm Q(l : n , 1 : i + 1)) = O.
0 (.) k ->oo
u ....
0
0
..c:
o..
ro
Cela signifie que
......l

f3 j Q j Il
1

= l Œj p k , j -
"O " ""i+I
D "ij +I
0
i::
;:::s
~x~n
Il . L..,j = I
2
--+ Ü
Q
@ CXj {3 j Il""î+I
J=I a 1. p k ,J·Il
L..,
2
240 14 • le calcul des valeurs propres

ce qui donne
i+I
mm Pk,i+l - L/3 j Q j ---? O.
f3 j
j=I 2
Ce minimum est atteint en la projection orthogonale de P k,i+ I sur l' espace
lm Q(l : n, 1 : i + 1) c'est-à-dire pour

On a donc prouvé que


i+l
lim Pk,i+L - L ( Pk,i+t, Q j) Q j = O.
k - HX>
j =l
Multiplions scalairement cette identité par 8 k,t P k,L avec 1 ~ l ~ i . On a
i+l
lim ( P k,i +I ' ek,l P k,l) - "'""""' ( P k,i+l, Q j) ( Q j' ek,l Pk,l) = O.
k'~OO ~
j=I
Comme ( Pk,i+i , 8 k,l Pk,1) = 0 et que limk ~oo (Q j, 8 k,l Pk,i) = ( Qj, Q1), on
obtient
lim (Pk,i+ I, Qz)
k ~ oo
=0
pour tout l ~ i de sorte que

lim
k~oo
Pk,i+I - ( Pk,i+J, Qi+I) Qi+l = Ü

ce qui est équivalent à

-0
0
c par la proposition 14.2. On prouve l'existence d'une suite (8k ,i+i)k de sca-
::J
0
CX)
laires de module 1 telle que
0
0
N
@
lim ek,i +I Pk,i +I = Qi+I
k -+oo
~
..c
O'I
·c
par l' argument développé pour i = 1.
>-
Cl.
0
5. Conclusion :
u

avec

lorsque k ---? oo .
14.4 Le cas des matrices réelles 241

R emarque 14.5.
1. La démonstration précédente montre que la suite des sous-espaces
Ak (lm P0 (1 : n , 1 : i)) = lm Pk(l : n , 1 : i) converge vers le sous-espace
lm Q(l : n, 1 : i) pour tout i , 1 ( i ( n. Une suite de sous-espaces emboîtés
:F = (F1 c F2 . . . c :F,1 ) avec dim :F, = i est appelé drapeau de en.
L'itération QR peut être interprétée comme la méthode des approximations
successives associée à l'action de A sur la variété des drapeaux.
2. Un drapeau peut être décrit à l'aide d ' une matrice F E GIL11 en définissant
Fi comme le sous-espace engendré par les i premières colonnes de F ; dans
notre cas, F = Pk et :F, = l m Pk(l : n , 1 : i). La quatrième partie de la
démonstration précédente donne une interprétation en termes matriciels de
la convergence d ' une suite de drapeaux.
3. En ve1tu du théorème 14.7 la suite lm Pk(l : n, 1 : i) converge vers lm Q(l :
n , 1 : i). Cette convergence est linéaire et sa vitesse est donnée par le quotient
1Ài+1/ À i I· On en déduit que la vitesse de convergence de l'algorithme QR est
linéaire en max1 ~i ~n- 1 IAi+ t/ Ad . Notons que ce maximum est< 1 puisque
les valeurs propres sont rangées par module décroissant.

14.4 LE CAS DES MATRICES RÉELLES


Supposons que A soit réelle et que U soit une matrice orthogonale. L' itération

Ao = U * AU = QoRo,
pour k = 0: ...
Ak+l = RkQk = Qk+t Rk+I
fin
....
-0 ~
0 "O
c i::
;:::s
::J
0 .... où Ak = QkRk est une décomposition QR avec Qk orthogonale et Rk triangulaire
CX)
""'
~

0
~
'~
supérieure réelle ne saurait « révéler » une décomposition de Schur de A : A =
0
N ""'
·c::
0 Q R Q* avec Q unitaire et R triangulaire supérieure parce que cette décomposition fait
@ 'ro='
~
intervenir des matrices complexes dès que A possède des valeurs propres complexes
..c i::
O'I
0
i:: alors que l' algorithme ci-dessus ne calcule que des matrices réelles.
·c ~
>-
Cl. ·s..
0
Les propriétés de la méthode de QR réelle sont résumées dans le théorème suivant
0 (.)
u ....
0 que nous ne démontrons pas. Il fait appel à la décomposition de Schur réelle d'une
0
..c:
o.. matrice réelle :
ro
......l

"O
1
Théorème 14.9 Soit A E JR11 xn qui possède des valeurs propres réelles Àk E JR,
1 ( k ( p, et complexes conjuguées œ.i ± i{3.i E <C, 1 ( j ( q, de modules IAkl et
0
i::
;:::s
Q
@ Ja] +f3] distincts. Pour toute matrice orthogonale U E ([))/!> la suite (A k) définie par
242 14 • le calcul des valeurs propres

Ao = UT AU = QoRo et Ak+l = Rk Qk = Qk+l Rk+I a la propriété suivante: il existe


une décomposition de Schur réelle de A (théorème 1.13)

telle que Les blocs correspondants A k,iJ dans A k vérifient l.imk~oo A k,iJ = 0 si i >j
et que les valeurs propres du bloc diagonal Ak ,i i convergent vers celles de Rii.

14.5 L'UTILISATION DE LA FORME HESSENBERG


Nous avons déjà rencontré les matrices de Hessenberg au paragraphe 8.6 où nous
avons montré que toute matrice A E c nxn est unitairement semblable à une matrice
de Hessenberg. L'intérêt de ces matrices en ce qui concerne l' itération QR est que :

• Le calcul de la décomposition QR d' une matrice de Hessenberg coûte O(n 2 )


opérations arithmétiques au lieu de O(n 3 ) pour une matrice pleine,

• Si H est une matrice de Hessenberg et si H = Q R alors R Q est aussi de


Hessenberg.

Ceci prouve que la forme Hessenberg est conservée tout au long de l'itération QR
d'où un gain en complexité et en erreurs d'anondis.

Démonstration. Pour obtenir la décomposition QR d'une matrice de Hes-


senberg H il suffit de la multiplier à gauche par n - l matrices de rotation
-0
0
de Givens (voir le paragraphe 8.4 pour le cas réel et l'exercice 8.8 pour le
c cas complexe) au lieu de n(n - 1)/ 2 pour une matrice pleine (théorème 8.5).
::J
0
CX)
Ceci justifie la complexité en O(n2 ) opérations arithmétiques dans le cas
0
0
N
Hessenberg. Par exemple, pour une matrice 4 x 4, on a le schéma suivant :
@
~
..c X X X X X X X X X X X X
O'I
·c X X X X G( l ,2) 0 X X X G(2 ,3) 0 X X X
>- --7 --7
Cl.
0 0 X X X 0 X X X 0 0 X X
u 0 0 X X 0 0 X X 0 0 X X

X X X X
G(3 ,4) 0 X X X
--7
0 0 X X
0 0 0 X
14.6 La stratégie du décalage 243

On obtient ainsi la décomposition QR de H : R = G 11 _ 111 .•. G23G12H et


Q = cr
2G23 ... G~ _ 111 • La matrice itérée est

dont il est facile de voir qu 'elle est de Hessenberg.

14.6 LA STRATÉGIE DU DÉCALAGE


14.6.1 Principe général
Partons d'une matrice A mise sous forme Hessenberg A = V H V *. L'itération QR
avec décalage (les franglophones disent QR avec shift) est donnée par :

Itér ation QR avec décalage

Entrée: Ho = H E C 11 x 11 de Hessenberg
pour k = 0: ...
Hk - µ kln = QkRk
Hk+l = Rk Qk + µ k 111
fin

où les µ k sont des scalaires donnés ; l' itération QR décrite précédemment c01Tespond
à µk = O. Les matrices ainsi définies sont unitairement semblables à H (et donc aussi
à A) puisque :

Hk+ t = Rk Qk + µ k/11 = Q'k( QkRk + µ kl1i)Qk = Q'k HkQk


....
-0 ~
"O
de sorte que
c
0
::J
0
i::
;:::s
.... Hk+l =Pt Hk Pk avec Pk = Q o . . . Qk.
CX)
""'
~
~ Par un argument identique à celui développé au paragraphe 14.3 on obtient:
0 '~
0
N ""'
·c::
0
@ 'ro='
~
..c i::
0
O'I
·c i::
~
ou encore
>-
Cl. ·s..
0
0 (.)
u ....00
..c:
o..
et donc
ro Pk+1 = Q((H - µ kl11)Pk)
......l
1
"O
0 (avec les notations du paragraphe 8.10). Si la suite des décalages µ k est convergente :
i::
;:::s
Q
@ lim µ k = µ
k-+oo
244 14 • le calcul des valeurs propres

et si l'on range les valeurs de H de sorte que

alors, sous des hypothèses convenables, la suite (Hk) converge suivant le sens donné
au théorème 14.8. La convergence est linéaire en

IAi+I - µ I
max
l~.i~n - 1 IAi - µI .
On a donc intérêt à choisirµ de façon à rendre max 1 ~i~n - t l~l:'._-:ÎI aussi petit que
possible. Mais comment faire ?

14.6.2 Décalage simple


Cette stratégie consiste à prendre µk = hk,nn (l'entrée nn de la matrice Hk) . Elle est
fondée sur l'argument suivant : supposons que H soit réelle avec

hu h12 h1n- J h1n


hz1 hz2 h211- l hzn
H=
0 hn- ln - 1 hn- Jn
0 0 ê h111z

Le calcul de la décomposition QR de H - hmJn via des rotations de Givens va conduire


tout d'abord à une matrice du type

X X X X
-0
0 Ü X X X
c
::J
0
CX)
0
0
N 0 a b
@ 0 0 8 0
~
..c
O'I
·c La dernière rotation de Givens appliquée au produit précédent
>-
Cl.
0
u
1

Gn- 1n = 1
a
14.6 La stratégie du décalage 245

donne la matrice triangulaire supérieure

X
Jaz + e 2 ab
va2+e2
-be
0 Ja2+e2

et la matrice orthogonale

a
0 ... 0

En conséquence, la matrice itérée est du type

RQ + hn11 I11 =

0 0
*
Cette analyse prouve que, si s est petit devant a, le terme hk ,n 11 _ 1 de la matrice itérée
.... est d'ordre s 2 d'où une convergence quadratique de ce terme vers O.
-0 ~
0 "O
c i::
;:::s
::J
0 ....
CX)
""'
~ 14.6.3 Déflation
~
0 '~
0
N ""'
·c::
0
L'analyse précédente montre que le coefficient hk,n 11 _ 1 converge vers 0 très rapidement.
@ 'ro=' Lorsque, à 1' itération k, le coefficient h k n n- I est jugé suffisamment petit, on supprime
~
..c i:: ' '
O'I
0
i::
la n-ième ligne et la n-ième colonne de la matrice Hk et on continue la méthode
·c ~
>-
Cl. ·s.. QR avec la matrice de Hessenberg réduite Hk(l : n - 1, l : n - 1) et le décalage
0 0
u
(.)

....00 hk ,n- ln - I . Ainsi de suite jusqu'à obtenir une matrice réduite 1x1. On appe11e déflation
..c:
o.. ce processus de réduction de la dimension du problème .
ro
......l La figure suivante montre la norme de la sous-diagonale de la matrice de Hessenberg
1
"O
0 Hk en fonction de k dans le cas des algorithmes QR simple et QR avec décalage simple
i::

Q
;:::s
et déflation. On a choisi une matrice de Hessenberg H de taille 100 x 100 à coefficients
@ aléatoires.
246 14 • Le calcul des valeurs propres

100

90

80
- - - - QR simple
<(
... 70
Q) _ _ QR avec décalalage
't:> simple et déflation
Q)
(ij
c
0
60
O>
al
'51
(/)
~
50
0
(/)

.!!!
Q) 40
't:>
Q)
E
0
c 30

20

10

0
0 100 200 300 400 500 600
itérations

Figu re 14.2 Norme de la sous-diagonale de Hk en fonction de k.

14.7 REMARQUES FINALES


La méthode QR est à la base de nombreux algorithmes de calcul des valeurs propres
et notre approche ne saurait être exhaustive. Citons, parmi les points qui n'ont pas été
abordés:
1. La stratégie du double décalage (double shift en franglais). Elle est donnée par
-0
0
c l'algorithme
::J
0
OO
0
Itération QR avec double décalage
0
N
@ Entrée: Ho= H E cnxn de Hessenberg
.....
..c
en pour k = 0: . . .
ï::::
>-
a.
Hk - µ1 ,k l 11 = Q 1,kR1 ,k
0
u H1 ,k = µ 1,k l n + R1 ,k Q 1,k
H1 ,k - µ 2,k l n = Q 2,k R 2,k
H k+ l = R2,k Q 2 ,k + ,.,,..,2 'k l n
'
11

fin
14.8 Notes et références 247

où µ 1,k et µ 2 ,k sont les valeurs propres de la matrice 2 x 2

h k ,n - . l 11 - l
( hk ,1111-l

2. L'itération LU. Elle fonctionne comme l'itération QR mais utilise la décompo-


sition LU (définition 6.5) au lieu de la décomposition QR. Elle est donnée par
l'algorithme
Itération LU

Entrée : A E C 11 XII
pour k = 0: ...
Ak = LkUk
Ak+I = UkLk
fin

3. L' itération de Cholesky. On part d' une matrice A E C 11 xn définie positive dont
la décomposition de Cholesky (théorème 7.10) est notée A = LL *.L'itération
de Cholesky est donnée par l'algorithme
Itération de Cholesky

Entrée : A E C 11 Xn définie positive


pour k = 0: .. .
Ak = LkLk
Ak+t = L'k Lk
fin

....
-0 ~
"O
où Ak = LkLk est la décomposition de Cholesky de A k.
0
c i::
::J ;:::s
.... 4. L'itération QR pour des matrices hermitiennes. Pour une telle matrice, la forme
0
CX)
""'
~
~
Hessenberg est donnée par une matrice tridiagonale hermitienne (théorème 8.16)
0 '~
0
N ""'
·c:: et cette forme est conservée au cours de l'algorithme (voir l'exercice 14.4). Les
0
@ 'ro=' stratégies de décalage utilisent des décalages réels puisque le spectre d'une
~
i::
..c
O'I
0
i::
matrice herm itienne est réel.
·c ~
>-
Cl. ·s..
0
0 (.)
u ....00
..c:
14.8 NOTES ET RÉFÉRENCES
o..
ro
......l La méthode de la puissance pour le calcul de la valeur propre domfoante d'une matrice
1
"O
0 apparaît explicitement en 1913 dans une note de C. Müntz aux Comptes Rendus de
i::

Q
;:::s
l'Académie des Sciences [26]. Cette méthode connaît un regain d' intérêt auj ourd'hui
@ puisqu'elle est utilisée par Google pour ses recherches de pages-web.
248 14 • le calcul des valeurs propres

La méthode QR est due à Kublanovskaya (1961) [21] et Francis (1961) [11] à la


suite de travaux de Rutishauser (1955) [28] sur l'algorithme LR. Nombre d'auteurs ont
apporté leur brique à l'édifice qui a conduit aux algmithmes actuels, nous renvoyons
les lecteurs intéressés et courageux au « LAPACK User's Guide» [l] et au livre de
Stewart [33]. Une version plus récente de l'algorithme LR (itération LU) est présentée
dans [10] et dans un article de synthèse [27].

-0
0
c
::J
0
CX)
0
0
N
@
~
..c
O'I
·c
>-
Cl.
0
u
Exercices 249

EXERCICES

Exercice 14.1
Etudier la méthode de la puissance lorsque A est la matrice 2 x 2 d'une rotation
plane d' angle e.

Exercice 14.2
On suppose que les valeurs propres de A E cnxn vérifient:

Montrer que pour tout z E C z -=/:- 0, la suite définie par


11
,

vérifie :
1. Elle est bien définie,
2. Il existe un vecteur propre x de A tel que limk- oo dp(Zki x) = O.

Exercice 14.3
Le but de cet exercice est d'établir les propriétés principales de la distance da
(définition 14.5) sur la grassmannienne <G11p . Nous généralisons ici la définition de
.... cette « distance » en posant
-0 ~
0 "O
c i::
::J ;:::s
.... . llv - wll2
0
CX)
""'
~
~
d(V , W) = sup mf
vE V ,v#O wE W
IlV Il2
0 '~
0
N ""'
·c::
0
@ 'ro=' où V et W sont des sous-espaces vectoriels de <C11 qui n'ont pas nécessairement la
~
..c
O'I
i::
0 même dimension. Notons IIv la projection orthogonale sur V. Montrer que:
i::
·c
>-
~
·s.. . llv-wll2
Cl.
0
u
0
(.) 1. d(V, W) = max mm
vEV,v#O wEW
IlV Il ,
....00 2
..c:
o..
ro
2. d(V, W) = llIIwj_ o Ilvll2,
......l
1 3. d(V , W) = d(W1- , V1-) ,
"O
d(V n (V n W)J_ ' w
0
i::
;:::s 4. d(V , W) = n (V n W)J_ ),
Q
@ 5. 0 ~ d (V , W) ~ 1,
250 14 • le calcul des valeurs propres

6. d(V , W) = 0 si et seulement si V c W,
7. d(V , W) < 1 si et seulement si V n W..l = {O},
8. d(Vi, V3) ( d(V1 , V2) + d(V2, V3),
9. Si Vi c V2 alors d(Vi , W) ( d(V2, W) et si W1 c W2 alors d(V , W2) (
d(V , W1),
10. d(V , W1 + W2) ( min(d(V , W1),d(V, W2)) ,
11. Si V1 et V2 sont orthogonaux alors d(Vi EB V2, W) ( d(Vi, W) + d(V2, W) et
d(Vi EB V2, W) ( J2 max(d(V1, W), d(V2, W)),
12. d(Q(U), Q(V)) = d(U, V) pour toute matrke unitaire Q dans en,
13. Si dim V = dim W alors d(V, W) = d(W, V) (on utilisera une transformation
unitaire Q dans en
qui vérifie Q 2 = id11 et QV = W),
14. d(V, W) est une distance sur l'ensemble <G11 p des sous-espaces vectoriels de
dimension p de en .
Exercice 14.4
Soient T E enxn tridiagonale hermitienne, µ, E ffi. et T - µ,ln = QR la décompo-
sition QR de T - µ,ln. Montrer que T+ = R Q + µ,/11 est tridiagonale hermitienne et
unitairement semblable à T.

Exercice 14.5
Soient A une matrice 2 x 2, µ, une valeur propre de A et A - µ,fi = Q R la
décomposition QR de A - µ,]z. Calculer explicitement Q et R en fonction des entrées
de A et de µ, et montrer que

'g
::J
RQ+µ/i = (~ !)
0
~ pour des scalaires a et f3 que l'on précisera.
0
N
@
~
..c
O'I
·c
>-
Cl.
0
u
Chapitre 15

Méthodes de projection pour le


problème des valeurs propres

Les méthodes de projection sont également appliquées au calcul des valeurs et vecteurs
propres de matrices. Elles sont généralement utilisées pour des matrices creuses de
grande taille. On se limite alors à calculer certaines parties du spectre de la mattice et
les vecteurs propres associés. Les sous-espaces d'approximation des vecteurs propres
quel' on utilise sont des sous-espaces de Krylov.

15.1 PRINCIPE D'UNE MÉTHODE DE PROJECTION POUR LE


PROBLÈME DES VALEURS PROPRES
-0
c
0 Soit J( un sous-espace vectoliel de <C'.11 de dimension k . On veut déterminer un vecteur
::J
0 x E JC, x -=f. 0 et un scalaire À E <.C vérifiant « au mieux» l'égalité
CX)
0
0
N
Ax = Àx.
@
~
On impose pour cela des contraintes d'orthogonalité (conditions de Petrov-Galerkin):
..c
OI
·c
>- Ax - Àx l_ .C (15.1)
Cl.
0
u où .C est un sous-espace de dimension k. Ce même principe a déjà été utilisé pour
les systèmes linéaires (paragraphe l J.1). Nous allons considérer des méthodes de
projection orthogonale pour lesquelles .C = JC.

La contrainte d'orthogonalité (15.1) définit un problème de valeurs propres sur une


matrice « réduite » de taille k x k . Donnons une forme plus précise aux équations
252 15 • Méthodes de projection pour le problème des valeurs propres

(15.1). Considérons une base orthonormée (q 1, .•• , qk) de K et notons Q E §tnk la


matrice ayant les qi pour colonnes. Pour tout x E K, nous avons x = Qy pour un
unique y E Ck.

Théorème 15.1 Pour tout À E C, y E Ck, y ~ 0 et x E C 11 tels que x = Qy, on a


l'équivalence
Q *A Q y = Ày ~ Ax - Àx l_ K. (15.2)

Démonstration. Il suffit d'observer que y Q*Qy Q*x


puisque Q* Q h- Nous avons Q * A Q y Ay si et seule-
ment si Q * Ax - AQ*x 0 c'est-à-dire si et seulement si
Ax - Àx E Ker Q * = (lm Q)..L .

Le scalaire À et le vecteur x sont appelés valeur et vecteur de Ritz. La procédure


consistant à calculer des approximations des valeurs propres de A à partir de la matrice
Q* AQ (équation (15.2)) est appelée procédure de Rayleigh-Ritz. Lorsque la matrice
A est hermitienne, Q * A Q est appelée quotient de Rayleigh par extension du quotient
de Rayleigh défini par (q *Aq)/ (q *q) (voir l' exercice 12.2 sur le théorème de Fisher).

Notons P = Q Q* le projecteur mthogonal sur l'espace K. Les valeurs et vecteurs


de Ritz sont eux-mêmes des valeurs et vecteurs propres associés à la matrice P AP
comme le montre la proposition suivante dont la démonstration est laissée au lecteur :

Proposition 15.2 Soient À E C, x E K et y E Ck tels que x = Qy. On a l'équivalence

Q *AQy = Ày ~ PAPx = Àx.

Le résultat suivant montre que, lorsq ue K est un sous-espace invariant de A, la


procédure de Rayleigh-Ritz donne la solution exacte du problème des valeurs propres.
-0
0
c Proposition 15.3 Si K est un sous-espace invariant de A alors les valeurs et vecteurs
::J
0
CX)
de Ritz sont égaux aux valeurs et vecteurs propres de la restriction de A au sous-espace
0
0 K.
N
@
~
Démonstration. En effet, l'égalité PA Px = Àx avec x E K est équivalente
..c
O'I
·c
>-
1 à Ax = Àx puisque Px = x et que PA = A.
Cl.
0
u
Lorsque K est un sous-espace invariant de A, la matrice réduite Q* A Q est l'unique
matrice H telle que A Q - Q H = 0. Dans le cas général, on a le résultat suivant :

Théorème 15.4 La matrice H = Q* AQ est l'unique solution du problème

min
HE CkXk
llAQ - QHll}. (15.3)
15.2 Méthode de projection sur des sous-espaces de Krylov 253

1 Démonstration. C'est une conséquence de la proposition 9.13.

15.2 MÉTHODE DE PROJECTION SUR DES SOUS-ESPACES DE


KRYLOV
Prenons pour espace de projection un sous-espace de Krylov: K = Kk(A, v). Nous
allons étudier quelques propriétés liées à ce choix et en particulier le rôle du vecteur v.
Nous avons vu au paragraphe 11.2 que l'algorithme d' Arnoldi permet d' obtenir une
base orthonormée de Kk(A, v). On suppose que l'algorithme est défini jusqu'à l'étape
k, c'est-à-dire h.i+l .i =/=- 0 pour tout j ~ k - 1. Les vecteurs-colonne de la matrice
Qk = (q1 ... qk) E §t11k forment une base orthonormée de Kk(A, v) et la matrice
réduite Hk = Q kA Q k est une matrice Hessenberg.

À l'étape k de l'algorithme d' Arnoldi nous avons

(15.4)

(voir équation 8.4) et donc, en considérant la colonne k,

où hk est la k-ième colonne de Hk. Nous en déduisons que

(15.5)

Le résultat suivant complète le théorème 15.4 lorsque l'espace d'approximation est un


.... sous-espace de Krylov.
-0 ~
c
0 "O
i::
Proposition 15.5 On a
;:::s
::J
0 ....
CX)
""'
~
~
0 '~
0
N ""'
·c::
0
@ 'ro='
~
..c i:: où Pk est l'ensemble des polynômes de degré ~ k de même coefficient dominant que
0
le polynôme Pk-L tel que qk = Pk-i(A)v.
O'I i::
·c ~
>-
Cl. ·s..
0
0
u
(.)

....00 Démonstration. Les équations (15.5) et Hk = Q 'k A Q k montrent les deux


..c:
o.. premières égalités .
ro
......l Démontrons la dernière égalité. Puisque lm Qk = Kk(A, v), nous avons,
1
"O
0 pourtouth E Ck, Q kh = p(A)v où p E P k-J (Pk-I est l'espace des
i::

Q
;:::s
polynômes de degré ~ k - 1). Par ailleurs l' égalité qk = Pk- i(A)v où
@ Pk-I E Pk-I (voir la démonstration de la proposition 11.3) montre que
254 15 • Méthodes de projection pour le problème des valeurs propres

Aqk = Apk_ 1(A)v = (aAk + p(A))v en notant a le coefficient dominant du


polynôme Pk-1 et p E P k-1 ·On a donc Aqk-Qkh = (aAk+p(A)-p(A))v.
La minimisation étant réalisée sur l'ensemble des polynômes p(A) E Pk-J,
on conclut que

et don c le résultat.

Les propriétés d' invariance du sous-espace de Krylov Kk(A , v) sont liées aux pro-
priétés de v par le résultat suivant

Proposition 15.6 Si v appartient à un sous-espace invariant V de dimension k alors


Kk(A, v) = V.
Démonstration.
Puisque v appartient au sous-espace invariant V, alors Av, A 2 v, ... , A k- J v
appartiennent à V. Donc Kk(A , v) C V et puisque la dimension de Kk(A, v)
est égale à k on déduit l'égalité des ensembles.

Cette proposition implique en particulier que si le vecteur v est une combinaison


linéaire de k vecteurs propres de A , alors le sous-espace Kk(A , v) est invariant par A et
les valeurs propres de la restiiction de A à Kk(A , v) sont les valeurs propres associées
aux vecteurs propres de la combinaison linéaire.
Il est donc intéressant de prendre un vecteur v «proche» d'une combinaison linéaire
de vecteurs propres générant le sous-espace invariant que l'on souhaite obtenir. En
réalité ces vecteurs propres ne sont pas connus puisqu'il s'agitjustement de déterminer
le sous-espace invariant qu'ils génèrent! La sélection d' un «bon candidat» v se fait
-0
0
plutôt en «éliminant » de celui-ci les composantes correspondant aux parties du spectre
c
::J que l'on ne souhaite pas approcher. Les méthodes dites de redémarrage (restarting
0
CX) methods en anglais) utilisent des techniques de filtrage pour annuler les composantes
0
0
N
indésirables du vecteur v. Ces méthodes sont actue11ement parmi les plus pe1formantes
@ pour calculer des sous-ensembles du spectre et les vecteurs propres correspondants de
~
..c
O'I
matrices de très grande dimension (n ~ 106) .
·c
>-
Cl.
0 Dans le cas général, si (A, x) est un couple valeur-vecteur de Ritz, on a Hky = À.y ,
u
avec y =J 0 et x = Qk y. Le résidu Ax - Àx est donné par

Le calcul numérique des valeurs propres de la matrice réduite Hk = Qk A Qk est


obtenu grâce aux méthodes classiques telles que la méthode QR présentée au chapitre
15.2 Méthode de projection sur des sous-espaces de Krylov 255

14. L' algorithme de Lanczos est utilisé dans le cas particulier où A est hermitienne et
la matrice réduite Tk = Q k A Q k est alors tridiagonale hermitienne.

La figure 15.1 montre l'évolution des valeurs de Ritz d' une matiice A à coefficients
aléatoires de dimension 8. On a utilisé l' algorithme d' Arnoldi pour le calcul de Qk·
Le vecteur v qui définit le sous-espace de Krylov a aussi été choisi aléatoirement.
dimension k. = 1 dîmensioo k = 2 dimension k =3 dinensbn k =- 4
0 0 0 0

0
0
0
•o 0
to 0
0

0 0 0 0 0 0 0 0 0 0 c • 0
"
-1 0 -1 0 -1 0 -1 0
0 .o
-2 -2 -2 "° ·2 ..
0

0 0 0 0
-.() -.() -3 -3
-2 -1 0 -2 -1 0 -2 -1 0 -2 -1 0

dimension k. = 5 d'mensioo k = 6 dimension k :: 7 dineosion k = 8


0 0 .. o •
0
0
0
0 •0 0

@

1 *
0 . 0
* o~ 0 0 li() 0 ()< 0 •
-1 0
0
-1 0
0
-1 p 0
-1
• e
-2 -2 -2 -2
n •n
-.()
-2 -1 0
-.()
-2 -1
0
0
-.()
-2 -1 0
-.()
-2 -1
"'
0

Figure 15.1 Convergence des valeurs de Rit z. Les valeurs propres de A sont notés un rond o et
les valeurs de Ritz par une étoile * .

La figure 15.2 montre la convergence des 8 valeurs dominantes de Ritz vers les
valeurs propres dominantes de la matrice de raideur K considérée au paragraphe 16.3.
La matrice Q k est obtenue grâce à l'algorithme de Lanczos puisque K est définie
positive. L' abscisse représente la dimension k de l'espace de Krylov Kk (A , v). Le
vecteur v est choisi de manière aléatoire et la dimension n de A est égale à 517.
-0
0
c
::J
0
CX)
0
0
N
@
~
..c
O'I
·c
>-
Cl.
0
u
256 15 • Méthodes de projection pour le problème des valeurs propres

111

110.5

110

t!
ëë
<Il
"O
~ 109.5
::::>
<Il
~

109

108 .5

1 oa ~~~~~~~~~~~~~~~~~~~~~~~

0 5 10 15 20 25 30 35 40
dimension k

Figure 15.2 Convergence des 8 valeu rs de Ritz dom inantes de la matrice de raideur K (n = 517).

15.3 NOTES ET RÉFÉRENCES


Le physicien John William Strutt (1842-1919) plus connu sous son titre de Lord
Rayleigh montra en 1899 comment calculer la fréquence fondamentale d'un système
vibrant en minimisant la quantité xT A x / xT x. Suivant la même idée Walther Ritz
(1878-1909) proposa en 1909 une méthode générale pour résoudre un problème de
mfoimisation d'une fonctionnelle.
-0
0
c L'analyse de la convergence de ces méthodes reste une question délicate et en partie
::J
0 encore mal comprise. Nous renvoyons le lecteur aux ouvrages spécialisés de Stewart
CX)
0
0
(33] et Saad (30].
N
@
On trouve dans [3] une présentation des differentes méthodes qui se rattachent à
~
..c cette famille ainsi que leurs aspects algorithmjques.
O'I
·c La bibliothèque ARPACK [24] fourm des programmes de calcul qui mettent en
>-
Cl.
0 œuvre les méthodes de redémarrage.
u
Enfin on peut citer la méthode de Jacobi-Davidson qui fait partie des méthodes de
projection bien qu' elle n'utilise pas pour espace de projection des espaces de Krylov
(voir [33]). Cette méthode est aussi conçue pour calculer une partie du spectre d'une
matrice hermitienne ou non-hermitienne de grande taille. L' espace de projection est
généré par des corrections orthogonales de certains vecteurs de Ritz.
Exercices 257

EXERCICES

Exercice 15.1
Soit Qk E § t 11 k telle que lm Qk = K k(A , v). Soit v E C 11, v =/= 0, et Pk = QkQk le
projecteur orthogonal sur K k(A , v ).
1. Montrer que pour tout j ( k on a Pk A j v = ( Pk A Pk)j v. En déduire que
Pkp(A)v = p(PkAPk)v pour tout polynôme de Pk·
2. Soit Pk le polynôme caractéristique de la matrice Q'k A Qk. Déduire
de la question précédente et du théorème de Cayley-Hamilton que
PkPk (A)v = QkPk( QZAQk)QZv = O.
3. Montrer que (pk(A) v, u) = 0 pour tout u E Kk(A , v) . En déduire que (- l)kPk
est solution du problème
mi!l ll p(A)v l l ~
pEP k

où Pk est l'espace des polynômes de degré k et de coefficient dominant égal à


un.

-0
0
c
::J
0
CX)
0
0
N
@
~
..c
O'I
·c
>-
Cl.
0
u
"O
0
c
:J
0
OO
0
0
N
@
~
..c
O'I
·;::::
>-
0..
0
u
Chapitre 16

Exemples de systèmes linéaires

16.1 LE PROBLÈME DE POISSON DISCRÉTISÉ PAR


DIFFÉRENCES FINIES
Considérons le problème du fléchissement d'une poutre de longueur unité fixée à ses
deux extrémités et soumise à une force transversale de densité f. La déformation
transversale, notée u, satisfait à l'équation de Poisson

- u"(x) = f(x ), x E]O, 1[


{ u(O) = u(l.) = 0 (16.1)

où la fonction f est donnée et où u : [O, 1] ---? ~est deux fois continûment dérivable.
-0
c
0 Les valeurs u(O) = u( l) = 0 aux extrémités de l'intervalle [O, l] sont fixées.
::J
0
CX)
0
La solution u de cette équation est unique et donnée par deux quadratures. Elle
0
N s'exprime aussi à l'aide du noyau de Green G :
@

l
~
..c
O'I
·c
>-
Cl.
u(x) = G(x , y)f(y)dy, (16.2)
0
u
où G(x, y ) est défi ni par

G(x , Y) = { x (1 - y) si x ~ y,
y (1 - X) Si X ~ y .
260 16 •Exemples de systèmes linéaires

Nous allons suivre une autre voie pour calculer une approximation de la solution. Pour
cela, nous choisissons la méthode d' approximation par d~fférences finies, certainement
une des plus anciennes et des plus naturelles.

On considère une subdivision de ]'intervalle [0, l ] par des points x; équidistants :


Xi = ih, i = 0, ... , n + 1, où h = 1/ n + 1. Il s'agit de calculer une approximation
de la valeur de la solution u prise aux différents points x;. Notons u; ~ u(x;) cette
approximation. L' inconnue du problème est donc le vecteur u = (u 1, ... , u 11 ) r .

Pour poser l'équation discrète, il faut définir une approximation de la dérivée seconde
u" aux points xi. Nous commençons par définir une approximation de la dérivée u' :

On l' appelle différence .finie centrée. L'approximation de la dérivée seconde u"(x;) est
obtenue en appliquant deux fois la différence finie centrée :

2
u"(x;)"" 8 u(x;) = 8 ôu(x;) = ~ ( ôu ( x; + ~) - ôu ( x; - ~))
1
= h2 (u (xi+1)- 2u (xi)+u(xi - i))
(différence.finie d'ordre deux) . On obtient l'équation (16.1) discrétisée
1
- h 2 ( u i + 1 - 2u i + u i - t) = fi , pour i = 1, ... , n, (16.3)

avec uo = u11 +1 = 0, et f;, = f(xi), i = 1, ... , n . La forme matricielle de ce système


est:
(16.4)
-0
c
0
::J
en notant Ah = h\ A 2 avec
0
CX)
0 2 - 1
0
N -1 2 -1
@
~ (16.5)
..c
O'I
'C - 1 2 - 1
>-
Cl.
0 -1 2
u
et f = (fi , ... , f; 1 l le vecteur des données. Az est une matrice tridiagonale, symé-
trique définie positive. Ses valeurs propres sont égales à (exercice 1.13)

Àk = 2 ( 1 +cos (nk:I)) ,k 1, ... , = n (16.6)


16.2 Le problème de Poisson sur un carré discrétisé par différences finies 261

16.2 LE PROBLÈME DE POISSON SUR UN CARRÉ DISCRÉTISÉ


PAR DIFFÉRENCES FINIES
Sur le can-é D = ]0, l[x]O, l[ de ffi. 2 , le problème de Poisson (16.1) devient

- ô.u = f ' sur n


{ u = 0, sur la frontière den, (16.7)

où ô. est le laplacien en dimension 2 : ~ = + a;x a;y.


De la même façon que dans l'exemple précédent, cette équation modélise la défor-
mation d'une plaque mince fixée à son bord et soumise à une force tranversable de
densité f. De nombreux autres phénomènes physiques sont décrits par cette équation.

On discrétise ce problème en prenant une subdivision régulière du carré n par des


points (xi ,Yj ): Xi = ih , YJ = jh , i, j = 0, .. . ,n + 1, h = 1/ (n + 1). On note UiJ
1' approximation de u(xi, y J). L'approximation de ~u(xi, y J) par différences finies est
donnée par

1
= h2 (ui+lj +Uij+! +ui - lj +Uij - 1 - 4Uij) .
Le calcul du laplacien discrétisé au point (xi , Yj ) est obtenu par le schéma en croix
suivant

....
-0 ~
0 "O
c i::
;:::s
::J
0 ....
CX)
""'
~
~
0 '~
0
N ""'
·c::
0
@ 'ro='
~
..c i::
0
O'I i::
·c
>-
Cl.
~
·s.. L'équation discrétisée a pour inconnue le vecteur de dimension n 2
0 0
(.)
u ....00
..c:
o..
u = (u11, . . . 'UnJ, u12 , ... ' Unz , ... ' U111 ... ' U1111)T '
ro
......l
1 obtenu en prenant colonne après colonne les valeurs du tableau UiJ. De même, en
"O
0
i::
notant fiJ = f (xi, y J), on a le vecteur des données
;:::s
Q
@ f = (f11 , ... 'f;i1' fù, ... '.f~12, . . . ' /111 . . . 'f111l.
262 16 • Exemples de systèmes linéaires

On obtient le système linéaire


B1i u = f,
où B1i = ~2 B et
A4 - In
- 111 A4 - In
B= (16.8)
- In A4 - In
- In A4
avec
4 - 1
- 1 4 - 1
A4 = (16.9)
- 1 4 - 1
- 1 4
La matrice B est définie positive et possède une structure tridiagonale par blocs. Les
valeurs propres de B sont données par Àk + À z, où Àb À t , sont les valeurs propres de
A2 (voi r équation (16.6)).

16.3 LE PROBLÈME DE POISSON DISCRÉTISÉ PAR ÉLÉMENTS


FINIS
Le problème de Poisson

- du = f , sur fi (16.10)
{ u = 0 ' sur la frontière de n

peut également être discrétisé en utilisant les éléments finis. Pour cela, il faut considérer
-0
c
0 une formulation variationnelle du problème : on multiplie les deux membres de
::J
0 l' équation (16.10) par une fonction test v appartenant à un espace V de fonctions
CX)
0 régulières qui s' annulent à la frontière du domaine fi et on intègre sur fi. Grâce à la
0
N fo rmule de Green et à la propriété des fonctions tests, on obtient
@

j J< 'ilu , 'il v > dxdy = j ln f v dx d y ,


~
..c
O'I
·c (16.11)
>-
Cl.
1
0
u pour tout v E V. On montre que ce problème admet une solution unique u E V qui
est aussi la solution du problème initial lorsque la fonction f est régulière.

Pour discrétiser le problème mis sous forme variationnelle on considère des sous-
espaces V,1 de dimension finie, V, 1 c V , par exemple des espaces de fonctions conti-
nues affines par morceaux. Pour cela on subdivise le domaine fi du plan en triangles,
16.3 Le problème de Poisson discrétisé par éléments finis 263

chacun des triangles admettant soit une intersection vide avec un autre triangle, soit
un sommet commun, soit une arête commune. On parle de maillage de n ; chaque
sommet du maillage est appelé nœud du maillage. Un exemple de maillage est montré
à la figure 16. l. Sur chaque triangle, les fonctions V de vil sont des fonctions affines
v(x , y ) = a + bx + cy où les coefficients a , b, c sont définis de manière unique par la
valeur de vaux sommets du triangle. Noter que pour une telle fonction \i'v est défini
presque partout sur n et que l'intégrale (16.11) a un sens. Une base de l'espace V,1 est
constituée par les fonctions affines par morceaux cf>i valant 1 au nœud i du maillage
et 0 aux les autres nœuds. La dimension de cet espace est égale au nombre de nœuds
internes du maillage.

Le problème variationnel (16.11) est alors formulé dans l'espace de dimension finie
V, 1 : u et les fonctions test v appartiennent à Vn. En exprimant u dans la base { cf>i},
u = ~;,'= 1 ci c/>i, on obtient un système linéaire vérifié par les coefficients ci :

te, Jlnr
=
1 1
< Y'c/> j, \i'cf>i > dxdy = Jlnr f c/>i dxdy, pour i = 1, . . . , n.

(16.12)
La matrice du système K = (kij ), où kij = J fn < V' c/>i , V' cf> j > dx dy , est appelée
matrice de raideur.

Dans l'exemple suivant le domaine n est en forme de L couché et f = 1 sur tout le


domaine. La figure 16.l donne le maillage de û produit par la fonction initmesh de
Matlab. La figure 16.2 montre la répartition des coefficients non nuls de la matrice
de raideur K obtenue à partir de ce maillage. La matrice K est définie positive et
creuse. On an = 557 et le nombre de coefficients non nuls de K est égal à 3733.
Chaque sommet du maillage a en moyenne six sommets voisins ce qui donne sept
.... coefficients non nuls sur chaque ligne (ou colonne) de K. Le produit 557 x 7 = 3899
-0 ~
"O
c
0
i::
a une valeur sensiblement plus grande que 3733 du fait que plusieurs sommets de la
;:::s
::J
0 .... triangulation ont moins de six voisins. Les figures 16.3 et 16.4 montrent la solution u
CX)
""'
~

0
~
'~ respectivement sous forme de courbes de niveaux et de surface ombrée.
0
N ""'
·c::
0
@ 'ro=' Remarque 16.1. On peut aussi discrétiser par éléments finis le problème de
~
..c i::
O'I
0
i::
Poisson en dimension 1 défini sur le segment ]O, l[. Si l'on prend pour espace
·c ~
>-
Cl. ·s.. de discrétisation V,1 l' espace des fonction continues affines par morceaux et un
0 0
u
(.)

....00 maillage constitué de points équidistants avec un pas h = 1/ (n+ 1), on obtient la
..c: base { c/>i } des fonctions-chapeau, chaque chapeau c/>i valant l au nœud xi = i h
o..
ro
......l
1
et 0 aux autres nœuds. La matrice de rigidité de ce système est égale à A 2 où *
"O
0
A 2 est la matrice déjà considérée pour le problème discrétisé par différences
i::
;:::s finies.
Q
@
264 16 •Exemples de systèmes linéaires

...-. ·.. -·· ·. ·....-

·' : 'l ·: -:.


·: .
·, .
. ". ~· :-./
.......
::-'\..
""'·:.' "" ... .
~·"'
.. .::

•.t,
: .
:. · r- · •· •;. :.:. :.
. ,

100 200 300 400 500


--0.8 --0.6 --0.4 --0.2 0.2 0.4 o.e 0.8 nz = 3733

Figure 16.1 Maillage du doma ine fi . Figure 16.2 Matrice de raideur K. Les points
représentent les entrées non nulles de K.

0.14

0.12

0.1

0.08

02
0.06
0.15

0.1
0.04
o.os
0.02

-0
0
c --0.8 -0.6 --0.4 --0.2 0.2 0.4 0.6 0.8
::J
0
CX)
0 Figure 16.3 Solution u. lsocontours espacés de
Figure 16.4 Surface u(x , y ) .
0
N 0.02 en partant de 0 à la frontière du domaine n.
@
~
..c
O'I
·c
>- 16.4 LA MATRICE DE VANDERMONDE
Cl.
0
u
Cette matrice intervient pour l'évaluation d'un polynôme sur un ensemble fini de
points et en interpolation polynomfale.
Soit p(x) = ~';:6 CjXj un polynôme de degré inférieur ou égal à n - 1 et
xo , ... , x11 - 1, n points de C. La matrice de Vandermonde V E C 11 x 11 associée à ces
16.5 La matrice de Fourier 265

points est définie par :

1 x'0
1 x'1
V= (16.13)
l 11 - I
1 xn-1 x,,_1

On exprime les égalités p(x; ) '°' 11


L.tJ= OeJxi,
- .I j t = 0 , . .. ,n - 1, sous 1a f orme du
produit matrice-vecteur
v = Ve (16.14)
'
où v = (p(xo ), .. . , p (xn_ 1)l etc = (co, .. . , c11 _ 1)T sont respectivement le vecteur
des valeurs du polynôme p aux points xi et le vecteur des coefficients ei.
Le déterminant de cette matrice est égal à

<let V = ITcx1 - Xj ) .
J>i

La matrice V est donc inversible si et seulement si les points x J sont distincts.


Le problème de 1' inte1polation polynomiale est le problème inverse de l'évaluation :
il s 'agit de déterminer le polynôme p , c' est-à-dire ses coefficients ei, à partir des
valeurs de p aux points xi . On doit donc résoudre le système

Ve = v
'
où le vecteur v = (p(x 0), . . . , p (x11 _ 1)) T est donné. Ce problème a une solution unique
si les points x J sont distincts .
.... Le conditionnement de la matrice de Vandermonde dépend de la répartition des
-0 ~
0 "O points Xj .
c i::
;:::s
::J
0 ....
CX)
""'
~
~
0 '~
0
N ""'
·c:: 16.5 LA MATRICE DE FOURIER
0
@ 'ro='
~
..c i:: La matrice de Fourier est une matrice de Vandermonde particulière. Cette matrice joue
0
O'I
·c i::
~
un rôle important dans le calcul de la transformée de Fourier discrète (TFD) d ' une
>-
Cl. ·s..
0 suite finie de nombres complexes.
0 (.)
u ....00
..c:
o.. Soit UJ = exp(-~i 7T) une racine primitive n -ième de l'unité. La matrice de Fourier <P
ro
......l
1
est la matrice de Vandermonde associée au points UJo, UJ 1 , ... , UJn- J. Les coefficients
"O
0 cf> Jk de la matrice de Fourier <P sont donc définis par
i::
;:::s
Q
@ A- . -
'f"Jk- lù
(j - l)(k - 1) , pour1"k-
, - 1, . . . ,n .
266 16 •Exemples de systèmes linéaires

Proposition 16.1 Lei matrice <l> E cnxn est symétrique et n<I:>- 1 =<P.

Démonstration. Sachant que w = w- 1, on a

n n- 1 11- l
(<P<P)jk = 2:::: <P.il<Ptk = 2:::: lù(j-l )l (ùl(k-1) = 2:::: w'(j-k).
l= l l= O l= O

- 1-w"(j - k)
Si j ":/= k, on a (<l><P)jk = l - wj - k = 0 car wn· = · -
1, smon (<l><l>)jj = n.

La TFD représente la forme discrète de la transformée de Fourier. Soit f une


fonction continue périodique de période 1. Les coefficients de Fourier de f sont
donnés par

Î(j) = l f(x) exp(- 2i7Tjx)dx.

La discrétisation de cette intégrale par la formule des rectangles donne

Cette égalité définit au plus n nombres complexes distincts. En effet fj+ 11 =

-0
0
En résumé, notant fk = f (~ ), et les vecteurs f = (fo, ... , J,z-1l, = J
c
::J (Îo, ... , f~z _ 1)7 , le vecteur des coefficients de Fourier discrets f est obtenu par le
0
CX)
produit
0
0
N l = ~<Pf.
n
@
~
..c
O'I
·c
Lorsque n est une puissance de 2, le produit matrice vecteur <Pf peut être réalisé en
>-
Cl. O(n log2 (n)) multiplications au lieu de O(n2 ) multiplications normalement requises.
0
u L'algorithme qui réalise cette opération, que nous n'allons pas décrire ici, est appelé
transformée de Fourier rapide (en anglais FFf pour Fast Fourier Transform). Cet
algorithme permet d'accélérer les calculs de la transformée de Fourier discrète et en
particulier peut être utilisé pour des vecteurs de très grande dimension. On l'utilise
dans plusieurs domaines d'application comme par exemple le traitement du signal,
l'approximation d'EDP par des méthodes spectrales etc.
16.6 Système linéaire associé à la spline cubique d'interpolation 267

16.6 SYSTÈME LINÉAIRE ASSOCIÉ À LA SPLINE CUBIQUE


D'INTERPOLATION
Considérons un intervalle [a , b] et une subdivision de celui-ci par n points ordonnés
xi : a < x 1 < ... < x,1 < b. Associé à cette subdivision, nous définissons l'espace S3
de fonctions u : [a , b] - t R par
1. La restri.ction de toute fonction u E S 3 à chaque intervalle ]x;, Xi+J [, i =
1, ... , n - 1, est un polynôme de degré inférieur ou égal à 3 ; sur les inter-
valles extrêmes [a, x 1 [et ]xn , b], les restrictions sont des polynômes de degré
inférieur ou égal à l,
2. Les fonctions u de S 3 ont des dérivées continues jusqu'à l'ordre 2 en chaque
' d"ue u (k) ( X;- ) -- u (k)( X;+) , pour tout k -- 0 , ... , 2 , et i. --
. xi, c ' est-a-
pomt
1, ... , n.
L'espace S 3 est appelé espace des fonctions splines cubiques naturelles sur l'in-
tervalle [a , b] associé à la subdivision x 1 , .. . , x 11 • La dérivée seconde d'une fonction
u E S 3 est une fonction continue et affine par morceaux sur [a , b]. La dimension de
S 3 est égale à n (4(n - 1) + 4 coefficients pour décrire ces polynômes et 3n conditions
de raccordement).

Un problème d'interpolation

Étant données n valeurs y; , i = 1, . .. , n , on cherche u E S 3 solution du problème


d' interpolation
u(x;) =y;, i = 1, ... , n.
Notons z; la valeur (inconnue) de la dérivée seconde aux points x; : u" (x;) = z;, i =
1, ... , n. Puisque u est un polynôme de degré ~ 1 dans les intervalles extrêmes, la
.... valeur de la dérivée seconde est nulle aux points x 1 et Xn : z 1 =Zn = O. Nous allons
-0
0
~
"O déterminer le système linéaire vérifié par les Z;, i = 2, ... , n - 1. Sur chaque intervalle
c i::
::J ;:::s
.... [x; , x;+il , i = 1, ... , n - 1, nous avons
0
CX)
""'
~

0
~
'~ 11 X - X; X;+ 1. - X
0
""'
·c:: a- (x) = Z;+1 Ll + z; ô ,
N
0 X; Xi
@ 'ro='
~
..c i::
0
en notant Llx; = X;+ 1 - x;. Si l'on intègre deux fois cette expression et que l' on
O'I
utilise les deux conditions d'interpolation u(x;) =y;, u(x;+ 1) = Yi+J, nous obtenons
i::
·c ~
>-
Cl. ·s..
0 0
(.) l'expression de u dans l' intervalle [x;,X;+i]:
u ....00
..c:
o.. (x - X;) 3 (Xi+ I - x) 3
ro
......l u(x) =z;+1 Llx; + z; Llx; +B;(x -x; )+A; , (16.15)
1 6 6
"O
0
i::
;:::s
avec
Q
@
268 16 •Exemples de systèmes linéaires

et en notant .ôyi = Yi+J - Yi, .ôzi = Zi+l - Zi.


Le système linéaire qui permet de calculer les Zi (et donc u d'après la formule (16.15))
est obtenu en imposant la continuité de la dérivée première en chaque point xi :
u' (x7) = u' (xi-).
En dérivant l'expression (16.15) pour obtenir u'(xt) et en dérivant son analogue sur
l'intervalle [Xi- I , x; ] pour le calcul de u' (x;- ), nous avons, après regroupement des
facteurs de Zi-1, Zi et Zi+ I :
.ÔXi-1 . (.ÔXi- 1 .ÔXi ) . .ÔXi . _ .Ôyi _ .ÔYi- 1
6 Z1 - I + 3 + 3 Z1 + 6 Z1+I - .ÔXi .ÔXi - 1 '

pour i = 3, . . . , n - 2. Du fait que z1 =Zn = 0, nous obtenons pour i = 2

.ÔX1 + .ôx2 ) Z2 + .ÔX2Z3 = .ôy2 - .ôyi)


( 3 3 6 .ÔX2 .ÔX1

et pour i = n - l
.ÔXn-2 (.ÔXn-2 .ÔXn-1) _ .ÔYn-1 .ÔYn-2
Zn - 2 + + Zn - 1 - A
6 3 3 .uXn- J .ÔXn - 2

La matrice (n - 2) x (n - 2) du système est donc donnée par

1
6
.ÔXn-3 2.ÔXn-3 + 2.ÔXn-2 .ÔXn-2
.ÔX 11 - 2 2.ÔX11 - 2 + 2.ÔX11 - J
(16.16
Cette matrice est tridiagonale et définie positive. Le problème d'interpolation dans S 3
-0 admet une solution unique.
0
c La spline cubique naturelle possède une propriété remarquable : elle minimise
::J
0
CX) l'intégrale fab u" (x )2 dx sur l'ensemble des fonctions u (suffisamment régulières) qui
0
0
N
vérifient les conditions d'interpolation u(x; ) = Yi.
@ La figure (16.5) montre une fonction spline cubique naturelle d'interpolation obte-
~
..c
OI
nue à partir de dix points d'interpolation. La représentation de courbes et surfaces par
·c
>- fonctions splines est couramment utilisée en modélisation géométrique et en CAO.
Cl.
0
u
16. 7 NOTES ET RÉFÉRENCES
L'algorithme de transformation de Fourier rapide FFT est présenté dans un article
célèbre de W. Cooley et John W. Tukey paru en 1965 [9] . Il semble cependant que cet
algorithme était déjà connu de C. Lanczos dès 1942.
16.7 Notes et références 269

1.5

0.5

- 0.5

-1

- 1.5 ~-~-~--~-~--~-~--~-~--~-~

0 0 .1 0 .2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

Figu re 16.5 Spline cubique naturelle d'interpolation. Les points d'interpolation (x;, y;) sont notés
avec le symbole o.

Les méthodes de discrétisation par différences finies et par éléments finis sont
largement utilisées dans l'industrie.
On trouve de nombreux logiciels mettant en œuvre la méthode des éléments finis. On
peut citer un logiciel gratuit FreeFem++ et un gros logiciel professionnel NASTRAN
qui représente plusieurs milliers de lignes de code.
.... Les illustrations numériques ont été faites en utilisant le logiciel MATLAB .
-0 ~
0 "O
c i::
;:::s
::J
0 ....
CX)
""'
~
~
0 '~
0
N ""'
·c::
0
@ 'ro='
~
..c i::
0
O'I i::
·c ~
>-
Cl. ·s..
0
0 (.)
u ....00
..c:
o..
ro
......l
1
"O
0
i::
;:::s
Q
@
270 16 •Exemples de systèmes linéaires

EXERCICES

Exercice 16.1
On considère u = (u 1, ••• , u l
11 la solution discrète de l'équation de Poisson (16.4).
1. Déterminer l'expression de u à partir de la matrice A21 calculée à l'exercice
7.10.
2. Calculer une approximation de la valeur de la solution exacte du problème de
Poisson aux points xi = n~ 1 , i = 1, . . . , n , à l'aide de la formule intégrale
(formule du noyau de Green (16.2)) que l'on discrétise par la méthode des tra-
pèzes et en prenant pour subdivision de l'intervalle (0, 1] les points équidistants
Yj = 11 { 1 , j = 0, ... , n + l. Comparer avec la solution discrète obtenue à la
question précédente.

Exercice 16.2 Diagonalisation d'une matrice circulante


Une matrice circulante cE ([llXll est définie par une suite den scalaires co, ... ' C11-J
tels que
Co Ct C11-2 Cn-1

Cn - 1 Co CJ Cn - 2

C=
C2 Cn - 1 Co C1
C1 C2 C11- I Co

Montrer qu'une matrice circulante C est diagonalisable par la matrice de Fourier


-0
0
<(> E en Xn .
c
::J
0
CX)
0
0
N
@
~
..c
O'I
·c
>-
Cl.
0
u
Chapitre 17

Gauss-Newton
et l'assimilation des données

L'algorithme de Gauss-Newton est une des méthodes les plus performantes pour
résoudre les problèmes des moindres carrés non-linéaires. Ce chapitre illustre une
application de cette méthode pour résoudre le problème d'assimilation des données
considéré en météorologie et en océanographje.

17.1 LA MÉTHODE DE NEWTON


Présentons brièvement la méthode de Newton qui permet de calculer les zéros d' une
fonction f : IR 11 --7 !Rn non-linéaire.
-0 Considérons x E IR11 une approximation de la solution cherchée et linéarisons la
0
c
::J
fonction f autour de x : on a
0
CX)
0
0 f (y)~ f (x) + Df(x )(y - x),
N
@
~
..c
où Df(x) est la dérivée de f au point x. L' itération de Newton consiste à remplacer
O'I
·c la fonction f (y) par son approximation affine f (x) + D f (x )(y - x) et à calculer les
>-
Cl.
0
zéros de cette fonction. Si l'on suppose que D f(x) est inversible, on obtient alors
u
y= x - Df (x) - 1 f(x) .

L'algorithme de Newton est défini par l'itération


272 17 · Gauss-Newton et l'assimilation des données

La convergence quadratique de cette suite fait de l'algorithme de Newton un outil


puissant de calcul des zéros de fonctions. La méthode de Newton permet aussi de
calculer la solution d' un problème d ' optimisation tel que

min G(x )
x EIR.11

où G est une fonction scalaire G : IRn ---+ IR. En effet, une solution x du problème est
obtenue comme zéro du gradient de G: \7G (x ) = O. L'itération de Newton est dans
ce cas donnée par
2 1
Xk+J = Xk - \7 G(xk)- \7G(x k) ,
où \72 G(xk ) est la matrice hessienne de G en Xk .

17.2 GAUSS-NEWTON ET MOINDRES CARRÉS


Considérons une fonction g : IRn ---+ IRm régulière et le problème d'optimisation

(17.1)

Lorsque la fonction g est affine, g(x ) = Ax - b , on obtient le problème des moindres


carrés classique. Lorsque g n 'est pas une fonction affine ce problème est qualifié de
moindres carrés non-linéaires.
Pour résoudre ( 17 .1), on peut utiliser l'algorithme de Newton. Dans ce cas, il est
nécessaire, à chaque itération, de calculer la matrice hessienne de la fonction G(x) =
l l g(x) l l ~ · Ce calcul peut s'avérer diffi cile, en particulier lorsque l'expression de g (x)
est complexe et la dimension n importante. La méthode proposée par Gauss consiste à
linéariser la fonction g autour du point courant x et à calculer la solution du problème
des moindres carrés correspondant. L'approximation au premier ordre de g autour de
-0
x est
0
c g (y ) ~ g(x ) + D g(x )(y - x ),
::J
0
CX) et le problème des moindres carrés associé
0
0
N
@ min
yEIR.11
llg(x) + D g(x )(y - x) ll~· (17.2)
~
..c
O'I
·c
>-
Sim ~ n (problème surdéterminé) et rang D g (x ) = n , c'est-à-dire D g(x) injective,
Cl.
0 on sait que la solution du problème (17 .2) est unique et donnée par (théorème 9.9)
u
y = x - (Dg(x l D g (x ))- 1 D g(x )T g (x ). (17.3)

L'algorithme se poursuit ainsi à partir du nouveau point y . On évite donc le calcul de


la matrice hessienne de la fonction G(x ) = llg(x)ll 2 . De plus, cette méthode est peu
sensible au choix du point initial de l'itération contrairement à la méthode de Newton.
17.3 Le problème de l'assimilation des données 273

17.3 LE PROBLÈME DE L'ASSIMILATION DES DONNÉES


Un des objectifs des sciences de la terre et en particulier de la météorologie est
de prévoir l'évolution des phénomènes physiques que l'on observe à notre échelle
sensible. Grâce au développement de l'informatique et des capacités de calcul, il
est devenu possible de réaliser des simulations numériques à l'échelle de la planète
et de prévoir l'évolution météorologique du temps. La prévision du temps, conçue à
l'origine pour les besoins de 1' aviation, est maintenant largement utilisée dans plusieurs
secteurs de la vie socio-économique. D'autre part, les préoccupations actuelles autour
des problèmes d'environnement et de changements climatiques montrent l'importance
de mieux comprendre et prévoir les phénomènes atmosphériques.

Les prévisions météorologiques sont réalisées à partir de deux composantes essen-


tielles : d ' une part un modèle d 'évolution de l'atmosphère basé sur les équations
générales de la physique, essentiellement les équations d'Eul er de la mécanique des
fluides, d'autre part des données provenant de mesures réalisées en différents lieux et
à différents instants (mesures au sol, radiosondages, données satellitaires ... ). La prévi-
sion du temps est définie mathématiquement par un problème d'évolution : il s'agit
d'intégrer un système d'équations aux dérivées partielles d'évolution, non-linéaires,
à partir de conditions initiales connues (problème dit de Cauchy). D'un point de vue
pratique, l'intégration est obtenue à l' aide d 'équations discrétisées.

Une des difficultés majeures de la prévision météorologique réside dans l'instabi-


lité des équations. Elle est due, en particulier, à leur non-linéarité et aux multiples
échelles des phénomènes qu 'elles représentent. Le résultat d'une prévision dépend de
manière cruciale de la précision observée sur les valeurs initiales. Un des objectifs de
l'assimilation des données est précisément de proposer une solution de ce problème.

.... Considérons les équations de la météorologie après discrétisation de la variable


~
-0
0 "O d 'espace. Nous avons un système différentiel
c i::
;:::s
::J
0 ....
CX)
""'
~

0
0
~
'~ x' (t) = f (x(t)) , (17.4)
N ""'
·c::
0
@ 'ro='
~
..c i::
0
que l'on doit intégrer à partir d'une valeur initiale x(to) = x 0 . On note t ~ x(t; x 0 )
O'I i::
·c ~ la trajectoire (appelée aussi vecteur d'état dans le langage du contrôle optimal) issue
>-
Cl. ·s..
0 0
(.) de la valeur initiale xo . Le vecteur d 'état x(t; xo) décrit les variables météorologiques
u ....00
..c: fondamentales sur l'ensemble des points de discrétisation du modèle. Il s'agit des trois
o..
ro
......l
composantes de la vitesse du vent (u , v , w), de la pression p, de la température Tet
1 de l'humidité q. Avec les besoins actuels de précision des modèles, on est amené à
"O
0
i::
;:::s
Q
@
274 17 ·Gauss-Newton et l'assimilation des données

considérer des vecteurs d 'état x de dimension très importante, de l'ordre de 107 et


plus.

Les données quant à elles permettent en principe de déterminer la valeur initiale


x 0 du système différentiel. En réalité, les données seules ne sont pas suffisantes pour
définir avec la précision voulue la valeur initiale x 0 . Le problème est largement sous-
déterminé. Pour le définir correctement et également pour obtenir une solution plus
régulière, on ajoute aux observations une information supplémentaire : on considère
également le vecteur d 'état à l'instant t0 issu d'une prévision antérieure. Ce vecteur,
noté xb, est appelé l' ébauche (l'indice b vient del' anglais background). Le meilleur
compromis entre ces deux sources d'informations (les mesures et l'ébauche) est obtenu
comme solution d'un problème des moindres carrés.

On note zo le vecteur des observations disponibles à l'instant t0 et xb l'ébauche à ce


même instant. Pour passer de l'espace du vecteur d 'état x du modèle à l' espace des
observations, on utilise un opérateur H que 1' on suppose linéaire. Cet opérateur permet
par exemple de calculer par interpolation linéaire les valeurs des variables du modèle
sur les points où sont réalisées des observations : il y a en effet peu de chances que les
observations soient réalisées précisément aux points de grille du modèle. La fonction
G des moindres carrés que l' on utilise est pondé rée par deux matrices symétriques
définies positives B et R, respectivement matrice de covariance d'erreur d 'ébauche et
matrice de covariance d'erreur d'observation.
En adoptant la notation du paragraphe précédent, on a

g(xo ) = (xo - xb, Hxo - zo)


et la norme euclidienne dans l'expression llg(xo) l l ~ est remplacée par la norme associée
à la matrice définie positive (voir exercice 9.11)

)
-0
0
c
::J
0
CX)
0
0
N
La fonction quadratique G s'écrit donc
@
= 1cxo - T -1 1 T -1
~
..c G(xo) xb) B (xo - xb ) + cH xo - zo) R (H xo - zo) .
O'I
·c
>-
2 2
Cl.
0
u La valeur optimale i 0 est celle qui minimise G. Le calcul du gradient de G au point
xo donne
'VG(xo) = s - 1(xo - Xb) + H T R - 1(Hxo - zo).
On cherche donc x0 solution de \7 G(io) = O. Le système à résoudre est donc
(17.5)
17.3 Le problème de l'assimilation des données 275

où la matrice M := (B- 1 + HT R - 1 H) est définie positive. Comme la dimension


du système est très importante et que les différents opérateurs B , R , H sont connus
en évaluation, la méthode du gradient conjugué est toute désignée pour résoudre ce
système. 1

Cette méthode d' assimilation est appelée 3D-Var, le suffixe Var pour Variationnel
et le préfixe 3D pour exprimer qu'il s'agit d'une analyse qui ne prend en compte que
l'information présente à un seul instant, donc uniquement spatiale, par opposition
à une analyse plus complète qui considère également la dimension temporelle (le
4D-Var) et quel' on va considérer dans la suite.

Remarque 17.1. Dans la théorie de ]'estimation, en particulier la théorie du


filtrage de Kalman, la matrice K := (B- 1 + HT R- 1 H)- 1 HT R - 1, est appelée
matrice de gain. Un calcul facile montre que la solution x0 de (17 .5) s'écrit
aussi
.Xo = xb + K(zo - H xb).
L'égalité matricielle (B- 1 + HT R- 1H) - 1 HT R - 1 = BHT (R + H BHT)- 1 , 2
donne une expression de K numériquement plus intéressante puisqu'en général
on a moins d'observations (vecteur z) que de variables d'état (vecteur x) et donc
la dimension de la matrice (R + H B HT) que l' on doit inverser est plus petite
que celle de (B- 1 + HT R- 1 H).

Le princi.pe de l'assimilation 4D-Var est de considérer non plus une image instanta-
née de l'atmosphère à l'instant t0 , mais un ensemble d'observations z;, i = 0 , ... , m,
obtenues à différents instants t; d'une fenêtre temporelle [t0 , tm] fixée. Ces valeurs Zi
sont comparées avec le vecteur d'état x(ti; xo) solution du modèle de prévision (17.4)
aux différents instants t; .
....
-0 ~
0 "O
c i::
;:::s Remarque 17.2. Il faut considérer que les instants sont des ins-
t 0 , ... , tm - I
::J
0 ....
CX)
""'
~ tants passés et t 111 l'instant présent, à partir duquel une nouvelle prévision sera
~
0 '~
0
""'
·c:: effectuée au terme de la phase d ' assimilation.
N
0
@ 'ro='
~
..c i::
O'I
0
i::
Le problème de l'assimilation des données s 'exprime à nouveau sous forme d'un
·c
>-
Cl.
~
·s.. problème de moindres carrés. La fonction g est donnée par
0 0
(.)
u ....00
..c:
g(xo) = (xo - Xb , Hox(to; xo) - zo, . . . , Hmx(tm; xo) - Zm)
o..
ro
......l
1 1. En pratique, sachant qu'il n'est possible d'effectuer qu'un nombre très limité d' itérations vue la taille
"O
0
i::
du problème, on utilise pour accélérer la convergence différents types de préconditionnements de ce
;:::s
Q système.
@ 2. Démontrer cette égalité en exercice.
276 17 ·Gauss-Newton et l'assimilation des données

et la norme est définie par la matrice définie positive

S=~
2
R m-1

Il est naturel de considérer que les opérateurs Hi et Ri dépendent des instants ti.
La fonction des moindres carrés G s'écrit donc

et le problème des moindres carrés

min G(xo), (17.6)


Xo

est non-linéaire puisque les fonctions x(ti; x 0 ) dépendent de manière non-linéaire de


la valeur initiale x 0 . En théorie du contrôle optimal la variable x 0 joue le rôle de
variable de contrôle du problème. Nous allons utiliser la méthode de Gauss-Newton
pour calculer la solution optimale du problème.

Remarque 17.3. À partir de la valeur optimale obtenue io, la solution x(tm; io)
calculée à l'instant tm fournit la nouvelle condition initiale pour une prévision
effective initiée à l' instant tm.

Calcul du gradient du problème linéarisé


-0
0
c
::J
0
La méthode de Gauss-Newton requiert la linéarisation des fonctions x(ti ; x 0 ) , i =
CX)
0
0 , ... , m, par rapport à x 0 . Ce calcul est réalisé grâce aux équations (17.4) linéarisées
0
N autour de la trajectoire t 1--7 x(t; xo) issue de xo.
@
~
Pour cela, nous définissons le système linéaire
..c
O'I
·c
>-
Cl.
ox' (t) = D f (x(t; xo))ox(t) , (17.7)
0
u
vérifié par la variable ox et où Df (x(t; xo)) est la dérivée de f au point x(t; xo).
La variable ox est définie par la condition initiale ox(to) = ox0 . Notons également
ox(t; oxo) la trajectoire de ox issue de la valeur initiale oxo. Au premier ordre, nous
avons
x(t; xo + oxo) ~ x(t; xo) + ox(t; oxo) .
17.3 Le problème de l'assimilation des données 277

Soit R(t , t') la résolvante 3 associée au système différentiel linéaire (17 .7). On a

8x(t; 8xo) = R(t, to)8xo.

On peut donc écrire

x(t; xo + 8xo) ~ x(t; xo) + R(t , to)ôxo .

À partir du problème linéarisé nous considérons la fonction quadratique G de la


variable ôxo :
-
G(ôxo) = 1 (xo + 8xo - T 1
xb) B - (xo + 8xo - xb)
2
1 rn
1
+ L (Hix(ti;xo) + HiR(ti, to)8xo - zt)T Rj (Hix(ti;xo) + HiR(ti , to)8xo - Zï),
2 i= O
(17.8)
et le problème des moindres carrés classique

min G(ôxo).
ôxo

Le gradient de G est donné par


- l
VG(ôxo) = B- (8xo + xo - xb)
m
(17.9)
+L R(ti, tol Hr Ri-i (HïR(ti , to )ôxo + Hix(ti ;xo) - Zi),
i=O

et 1'on cherche ôx0 solution du système

VG(8x0 ) = O.
....
~
-0
0 "O La matrice M du système
c i::
;:::s
::J
0 ....
CX)
""'
~
~
0 '~
0
N ""'
·c::
0
@ 'ro='
~
..c i:: est définie positive. Dans ce cas également, la méthode la plus appropriée pour résoudre
0
O'I
·c i::
~
numériquement ce système est la méthode du gradient conjugué.
>-
Cl. ·s..
0
0 (.)
u ....00 Afin de pouvoir effectuer le produit matrice vecteur M ôx0 , pour tout vecteur ôx0 ,
..c:
o.. il est donc nécessaire d'interpréter les opérateurs qui définissent M. L'opérateur résol-
ro
......l
1
vant R(ti, t0 ) correspond à l'intégration de l'équation linéaire entre les instants t0 et
"O
0
i::
;:::s
Q 3. La résolvante associée à un système différen tiel linéaire est l'opérateur linéaire R (t , 11 ) tel que
1 1
@ y(t) = R(t , t )y(1 ) où y est solution du système différentiel considéré.
278 17 ·Gauss-Newton et l'assimilation des données

ti. Qu'en est-il de l 'opérateur R(ti, t0)T? On introduit pour cela le système adjoint
associé au système linéaire ( 17.7) :

p' (t) = - Df (x(t; xo)l p(t). (17.10)

Il s'agit d'un système différentiel linéaire en p. Ces équations classiques interviennent


dans les conditions d'optimalité des problèmes de contrôle optimal. Notons S (t', t )
la résolvante de ce système entre les instants t et t'. L'opérateur R(ti , tol est lié au
système adjoint par la propriété suivante.

Proposition 17.1 Pour tout t et t', on a l'égalité

R(t', t l = S(t , t').

Démonstration. Considérons ôx et p respectivement solutions du système


linéaire (17 .7) et du système adjoint (17 .10). Calculons la dérivée du produit
scalaire (ôx(t), p(t)) :

d
dt (ôx(t) , p(t)) (ôx' (t ), p(t)) + (ôx (t) , p'(t))

(Df (x(t; xo))ôx(t), p(t)) + ( ôx(t) , - Df (x(t; xo)l p(t)).


(17.11)

Par la propriété de la transposée, on obtient J~ (ôx(t) , p(t)) = O. Le produit


scalaire (x(t), p(t) ) est donc constant par rapport à t. Considérons deux
instants t et t' . On a donc ( ôx(t), p(t)) = (ôx(t') , p(t')). En utilisant les
résolvantes R(t' , t) et S(t, t'), on déduit que

(ôx(t),S(t,t')p(t')) = (R(t' ,t)ôx(t) ,p(t')) = (ôx(t) , R(t' ,tlp(t')).


-0
0
c
::J Comme cette égalité est vérifiée pour tout ôx(t) et p(t'), on a donc
0
CX) R(t' , t f = S(t, t').
0
0
N
@
~
L' opération R(ti , tof correspond ainsi à une intégration rétrograde, de l'instant ti à
..c
O'I l' instant t 0 , de l 'équation adjointe (17.10).
·c
>-
Cl. Le calcul R(ti, t0 f H{ R i-l Hi R(ti, t 0 )ôx0 est donc obtenu par la succession d 'une
0
u intégration directe entre les instants t0 et ti de l'équation linéaire (17 .7) à partir de la
valeur initiale ôxo (produit R(ti, to)ôxo) suivie du produit Hl R i- l Hi et enfin d'une
intégration rétrograde entre les instants ti et t 0 de 1'équation adjointe à partir du vecteur
H{ R;- 1 HiR(ti, to)ôxo (opérateur R(ti, tof appliqué à Hl R i_ , HiR(ti, to)ôxo).
En ajoutant les différentes contributions venant de chaque indice i on voit que la
somme L:;:, 0 R(ti, tol Hl R i- l Hi R(ti , to)ôxo est donnée par une seule intégration
17.3 Le problème de l'assimilation des données 279

du système direct entre les instants t0 et tm suivie d'une intégration rétrograde


du système adjoint augmentée à chaque instant d'observation ti de la valeur
Hr Ri-J H;R(ti, to)ôxo obtenue au cours de l'intégration directe.

Le calcul du gradient que nous avons présenté est un outil classique de la théorie
du contrôle optimal. Il est utilisé ici pour résoudre numériquement ce problème des
moindres canés non-linéaires de très grande dimension. Il est clair que dans la pratique
le système différentiel (17.4) est aussi discrétisé suivant la variable t. Les étapes de
calcul du gradient de la fonctionnelle G(x0 ) sont analogues à celles présentées ici.
Actuellement, plusieurs centres météorologiques utilisent cette approche pour ini-
tialiser les modèles de prévision numérique.

-0
0
c
::J
0
CX)
0
0
N
@
~
..c
O'I
·c
>-
Cl.
0
u
"O
0
c
:J
0
OO
0
0
N
@
~
..c
O'I
·;::::
>-
0..
0
u
Corrigés des exercices

Exercice 1.1. 1. Si A et B sont triangulaires inférieures on a l:~= l aikbkj =


l:~=j aikbkj = 0 si i < j. 2. Récurrence sur n, développer det A par rapport
à la première ligne de A . 3. Calculer PA(À) à l'aide de la question précédente.
4. Conséquence de 2. 5. Effectuer le produit A A _, = I 11 • 6. Effectuer le produit
A- 1A = In. 7. On remplace ai par -ai dans A pour obtenir A - 1 •

Exercice 1.2. 1. Les colonnes de uv* sont viu, 1 !( i !( n, elles sont donc propor-
tionelles. L'une d'elles est i= 0 donc rang (uv * ) = 1. Réciproquement, si l'espace
image lm A est de dimension 1, les colonnes de A qui en forment une base sont
proportionnelles et l' une d'elles est non nulle. 2. (uv * )x = 0 pour tout x E u l. qui est
.... de dimension n - 1 et (uv * )u = (u , v) u. 3. Lorsque (u , v) i= 0 une base de u l. et u
~
-0
0 "O constituent une base de vecteurs propres de uv* qui est donc diagonalisable. Lorsque
c
(u , v) = 0, la seule valeur propre est 0 et comme uv* i= 0 cette matrice n'est pas
i::
;:::s
::J
0 ....
CX)
""'
~
diagonalisable.

c
~
0 '~
0
N ""'
·c::
~ib a~ ib ) Ji ( )
0
@ a b 1 1 l
~
..c
O'I
'ro='
i::
0
i::
Exercice 1.3. (
-b a ) =Ji - l
) ( a
1 - l
·c ~
>- ·s.. 2
af3
Cl.
0
u
0
(.)

....00
..c:
o..
Exercice 1.4. ( 1 +aaf3 1+132 )=
ro

0) j
......l

"O
0
i::
1 1+a2+ 132
0 1
1
a 2 + 132
(af3 -f3)
a ·
;:::s
Q
@
282 Corrigés des exercices

Exercice 1.5. Les valeurs propres et vecteurs propres associés sont 1 + llbll; et ( ~ ) ,

x E a_c , 1 + lia Il; et ( ~ ) , y E b_c , 1 + Il a Il; + Il b 11; et ( ! : ::: ~ ),1 et ( ~b ) .


Exercice 1.6. 1. Cela résulte des égalités

xy* A ) y* Au
Bu = A (u - u = Au - Ax .
y* Ax y* A x
4. Par 1., rang A - 1 ~ rang B ~ rang A. Si rang B = rang A alors dim Ker B =
djm Ker A, impossible par 3.

Exercice 1.7. Notons P(a0 , ... , a 11 _ 1, A) le polynôme caractéristique de A. On obtient


une formule de récurrence en développant ce déterminant par rapport à la première
ligne.

Exercice 1.8. Écrivons A = psp - 1 et B = QTQ - 1 avec S et T trian)ulaires


1
/ . . . ( P O ) ( S p - BQ ) ( p - 1 O
supeneures. On obtient M = Q T Q_ 1 et on
0 0 0
.. . ( A- 1 - A - 1BD - 1 )
peut ut1hser l'exercice 1.1. M - 1 = D -1 ·
0

Exercice 1.9. 5. A + xy* = A(ln + A - 1xy*). Les valeurs propres de ln + A- 1xy*


sont l et 1 + y* A- 1x (exercice 1.2). Aussi A+ xy* est inversible si et seulement si
y *A - 1x =!= - 1. Prenons B = - x, C = y * et D = 1. La formule précédente donne
(A+ xy* )- 1 = A- 1 + A- 1( - x)(l - y* A- 1 (- x))- 1y * A - 1 = A- 1 - A1 :~:<~1 : •
1

Exercice 1.10. Par addition de lignes et de colonnes det ( ~ ~ ) =


-0
0
c
::J
0
CX)
det ( A
B -_ B
A B)
A = det (A -O B AB
+B ) = det(A - B) det(A + B).
0
0
N
@
~
..c Exercice 1.11. Facile. Noter que det(A - iB) = det(A + iB) = det(A + iB) parce
O'I
·c que A et B sont réelles.
>-
Cl.
0
u
Exercice 1.12. Écrire cette matrice ( 2 ~ ).
Exercice 1.13. 1. Noter que v<P) =!= 0 et que les relations bvk~; - À p Vkp)+ cvk~ 1 = 0
sont satisfaites avec À p = 2 /bc cos,~+~ . Noter aussi que v6P) = v~~ = O. 2. À p =
a+ 2Vbc cos ,~:i, vecteurs propres identiques à ceux de A(O, b, c).
Corrigés des exercices 283

Exercice 1.14. 1. Soit À valeur propre de A et x =f. 0 vecteur propre associé. De


l'égalité Ax = Àx on déduit x * Ax = Ax* x et donc x* A *x = Xx *x par adjonction.
L'hypothèse A * = -A implique -x * Ax = Ax*x et donc - Ax *x = Ax*x et - À = À.
À est donc un nombre complexe imaginaire pur. 2. / 11 - A est inversible parce que
1 n'est pas valeur propre de A. 3. A est normale et peut se diagonaliser en A =
Udiag (if3k) V * avec V unitaire et f3k ER. Ainsi Q = Udiag ( i~i/3Ï3: ) V * . I1 est alors
évident que QQ* = In et que (1 + if3k)/ (l - if3k) =f. - 1.

Exercice 1.15.1. Pour tout u E <Cn , Au = (y*u)x +(x*u )y donc lm A est de dimension
2 engendré par x et y . 2. Si u E (Im A)..l c'est-à-dire si x * u = y* u = 0 on a Au = 0
donc 0 est valeur propre et (lm A)..l est le sous-espace propre associé. Si u E lm A ,
u = ax + f3y, le système Au = Àu s'écrit

x(a(y *x - À)+ f3 y* y )+ y(ax* x + f3(x * y - À)) = 0

ce qui est équivalent à

(x, y) - À llYll; ) ( a ) = ( 0 )
( llxll; (x,y)- À f3 0

Les valeurs propres À sont données par l'équation du second degré A2 - 2R (x, y) À+
2
1(x,y)1 - llx Il; Ily 11; = 0 qui possède deux racines réelles d'où À puis a et f3. Lorsque
2
x , y E R 11 cette équation s'écrit À2 - 2 (x , y) À+ l(x, y) l - llxll; llYll; = 0 et les
valeurs propres sont À = (x , y) ± llx 11 llYll - Des vecteurs propres correspondant sont
u = llYll x ± llx ll y. 3. lm Best le sous-espace engendré par x et y, sa dimension est
2, c'est un sous-espace invariant de <C11 par B. Les valeurs propres À de B 1rm 8 sont
2
données par l'équation caracté1istique A2 - 2i<;S (x, y) À - l(x, y) l + llxll; llYll; = O.
.... Les autres valeurs propres sont À = 0 associées au sous-espace propre (lm B)J... .
2
-0
0
~
"O Lorsquex ety sont réels on obtient À = ±i (llxll; llY ll; - l(x ,y) l ) 112 .
c i::
;:::s
::J
0 ....
CX)
""'
~ Exercice 2.1. Les flottants positifs sont :
~
0 '~
0
N ""'
·c::
0
@ 'ro='
~
..c i::
0
O'I i::
·c
>-
Cl.
~
·s.. avec e = - 1, 0 ou 1, 1 ~ d1 ~ 9 et 0 ~ d2 ~ 9. On obtient 270 nombres qui sont, en
0 0
u
(.)

....00 écriture décimale,


..c:
o..
ro .010, .011 , ... ' .019, .020, .021 , ... ' .029, ... ' .090, .091 , ... ' .099,
......l
1
"O
0
i::
;:::s .10, .11 , ' .19, .20, .21 , ' .29, ' .90, .91, ' .99,
Q
@ 1.0, 1.1 , ' 1.9, 2.0, 2.1, ' 2.9, ' 9.0, 9.1 , ' 9.9.
284 Corrigés des exercices

Noter que ces nombres ne sont pas régulièrement espacés mais que leur espacement
est constant entre deux puissances consécutives de f3 = 10.

Exercice 2.3. On trouve O. Pour Maple, l ' instruction > evalf (3 . * (4. / 3. - l.) - l.);
donne - .uo- 18 . Noter la syntaxe : on a écrit 3. et non pas 3 de façon à ce que ces
nombres soient traités avec l'arithmétique flottante et non pas avec l ' arithmétique des
entiers.

Exercice 2.4. Récurrence sur n .

Exercice 3.1. Notons Si et Ai les ensembles et leurs bornes supérieures respectives


cons1"derees
' ' aux
' q uest10ns
·· , l· -- 1, ... , 6. p our tout x 1-t. 0 et a > 0, on ,a lfXîr
llLx ll -_ llLIl aœ
x xll
Il .
On en déduit facilement l ' égalité des ensembles S 1, S2 , S5 et donc l'égalité de leurs

bornes supérieures . L'égalité 11 11 = ll L ~ 1 1 pour tout x # 0 , montre que S3 = S 1
1 1 1 1
et donc A3 = A1. On a llLxll ~ 11 ~j 1 1 pour tout x tel que llx ll ~ l. On en déduit
1 1
que A4 ~ A2 . Or S3 c S4 implique que À 3 ~ A4. Sachant que A2 = À3, on a donc
A4 = A2 . Montrons enfin que 11 ~Îlll ~ A6 , pour tout x # O. Supposons qu'il existe
1
x # 0 tel que tî
11
1
11
1
> A6 . Posons a = 11t:l
1
11
1
et prenons a tel que ~ <a < l. On
a a1ors 11 L a ïîXîï
x 11 -
- a llXîl
11Lx 11 -
- a a > /\\ 6 . D' autre part 11 a x 11 <
ïîXîï 1 montre qu 'il y
a contradiction puisque A6 est un majorant de S6 . On a donc lll~Îlll ~ A6 et A1 ~ A6 .
Comme A4 = A1 et A6 ~ A4 puisque S6 C S4, on en déduit que A6 = A4. On a
montré l' égalité des bornes supérieures Ai , i = 1, ... , 6. 7. A3 est la borne supérieure
de l'image par la fonction continue x t--+ llLxll de la sphère unité S11 _ 1 = {x E
e 11
, llx Il = 1} qui est un ensemble compact. Elle appartient donc à l'ensemble S3.
Les bornes A1, A2 , A5 appartiennent aussi aux ensembles respectifs S 1 , S2 , S5 puisque
ces ensembles sont tous égaux à S3. A4 appartient à S4 puisqu 'il s' agit de la borne
supérieure de l ' image de la boule unité compacte Bn(O , 1) = {X E 11 ' llx Il ~ 1} par e
-0
la fonction continue x t--+ Il Lx Il -
0
c
::J
0 Exercice 3.2. 1. Pour tout vecteur x on a Il Ax li 1
CX) 1
0 E ; = 1 1 E ';=l aiJxJ 1· On a donc
0
N
@ /'I /! n
~
..c
O'I
·c
>-
Cl.
0
et ll A ll1 ~ max1 ~J ~11 E ; = 1 laiJ I· Soit k un indice tel que E ; = 1 laik l
1 1
u
max 1 ~J ~n E ; = 1 laiJ I· Définissons le vecteur x (x 1 , .. . ,x11 l
1
tel que
Xi = Ôik· On a llxll 1 = 1 et llAxll 1 = E~ = 1 1 E '.;= 1 aiJ ÔJk l = E ;'=l laik l =
1

max1 ~J ~11 E; = 1 l aiJ I · Ceci montre que llAll1 ;?: max1 ~ J ~11 E; = 1 laiJ I e t donc
1 1

l'égalité. 2. Pour tout vecteur x on a ll Ax lloo = max 1 ~i ~n E ';= , aiJx.i l· On a donc 1

llAxll oo ~ max1 ~i ~11 E ; = I laiJ I max1 ~J ~11 lx1 I = max1 ~i ~11 E ; = l laiJ I llxll oo ·
Corrigés des exercices 285

Ceci montre que llA 1100 ( max1 ~i ~n I:~=J lai.i I· Soit k un indice tel que
°"'n °"'11 ~
'-'j=l akj l - max 1~î~n'-'j=l 1aij l· Defimssons
1 - . le vecteur x -- (x1 , ... ,xn)T
tel que Xj = 1 si akj = 0 et Xj = lakj l/ akj si akj # O. On a llx lloo = 1
et I:~=J akjXj = I:~=t lakj l = max1 ~i~n I:~=J laij l· Ceci montre que
llAlloo ~ max1 ~i ~n I:~ = I lai.i l et donc l'égalité.

Exercice 3.3. Pour toute valeur propre À de A et tout vecteur propre associé x, x # 0,
on a Ax = Àx et donc llAx ll1 = l.A I llx ll1- On en déduit que et l.AI = llAx ll1 / llx li 1 (
llAllt · On obtient le résultat grâce à l'égalité llAll1 = max 1~j~n I:;'=t lai.i l (voir
exercice 3.2) .

Exercice 3.4. Le spectre de I11 - A est égal à { 1 - .A, À E spec A}. On a l1 - Al ~


l - IAI > 0 puisque l.AI < l pour toute valeur propre de A . Les valeurs propres de
I11 - A sont donc toutes distinctes de zéro et la matrice est inversible.

Exercice 3.5. La matrice J donnée par la décomposition de Jordan (voir théorème 1.5)
a une structure diagonale par blocs. Chaque bloc J k est soit de la forme Jk = À k l 11k,
soit de la forme J k = Àk l 11k + N11k où N 11k E C"kxnk est la matrice nilpotente

0 l
0 1
0
1
0

Nous avons A P = P J P p - 1 et la matrice J P a également une structure diagonale par


blocs avec des blocs de la forme 1{. Lorsque J k = ÀkI11k on a if = .Af I11k et lorsque
.... h = Àk I,,k + Nnk, par la formule du binôme on a
-0 ~
0 "O
c i::
;:::s
::J
0 ....
CX)
""'
~
~
0 '~
0
N ""'
·c::
0
@ 'ro='
~
..c i::
0
La sommation est effectuée jusqu'à l'indice l = n k - 1 puisque la matrice N 11k est
O'I
nilpotente d' ordre nk (c'est-à-dire N(1:~ = 0). La matrice Jf est triangulaire supérieure.
i::
·c ~
>-
Cl. ·s..
0
u
0
(.)

....00 Ses coefficients sont de la forme j ) Af- 1


• Pour la norme considérée dans la
..c:
o.. démonstration du théorème 3.7 nous avons
ro
......l
1
"O
0
i::
;:::s
Q
@
286 Corrigés des exercices

Considérons la limite 1( J {)iJ l1I P lorsque p ~ oo. Pour les coefficients diago-
naux on a 1( J{)id 1I P = 1Àk1 et leur limite est égale à 1À k I· Les autres coefficients
l/p
non nuls sont de la forme (
f À:-
)
1
• Leur limite est égale à 1Àk1 puisque
1/p
limp- oo (
j )
= 1 et que limp- oo IAkl(p - l)/ p = IAkl· On conclut en utilisant la
propriété maxk,i ,J Iimp-oo = limp-oo maxk,i ,J .

Exercice 3.6. On a

llAllF = Ja 2 +d2 + lb+icl2 + lb - ic l2 = Ja 2 +d2 +2(b2 +c2 ) .


La matrice A est hermitienne, donc llAll 2 = p (A). Calculons les valeurs propres de A.
On a
a - À b + ic
PA(À) = det( A - A/2) = b-ic d-A

donc PA(À) = (a - A)(d - À) - (b 2 + c2) = A2 - (a + d)A +ad - (b 2 + c 2). Les deux


racines du polynôme p A sont données par

a+ d ± J(a - d)2 + 4(b 2 + c2 )


2
et
a+ d ± J(a - d) 2 + 4(b2 + c 2 )
p(A) = max
2

Exercice 3.7. Les normes 11 -111, 11 -112, 11· lIoo sont des normes d'opérateur. Pour celles-ci
on a
Il l 11(X ) Il = 1
ll I11 li = sup
x E<C", x ;éO llxll .
-0
0
c
::J
Pour la no1me de Frobenius on a 11 In Il F = fa .
0
CX)
0
0
Exercice 3.8. La proposition 3.10 donne ll V ll2 = llV Inll2 = ll l nll2 = 1. Pour la
N
norme de Frobenius on a llVllF =y/trace (V*V) =y/trace Un)= Vn·
@
~
..c
OI Exercice 3.9. La matrice A est he1mitienne. Les valeurs de cette matr.ice tridiagonale
·c
>-
Cl.
sont égales à
0
u 4 + 2 cos(p1T / 4)
avec p = 1, 2 , 3 (voir exercice 1.13). Donc llAllz = p(A) = 4+2cos(7T/ 4) = 4+vl2.
Pour la norme de Frobenius on obtient llV llF = V 4 + 3 16 = J52.

Exercice 3.10. Si A est diagonale il est évident que les coefficients de sa diago-
nale sont ses valeurs propres. Réciproquement: supposons que A symétrique ait ses
Corrigés des exercices 287

coefficients diagonaux égaux à ses valeurs propres A;, i = 1, . . . , n. On a llAllF =


) trace (A 2 ). Les valeurs propres de la matrice A 2 sont égales à Al. Sachant que la
trace d'une matrice est égale à la somme de ses valeurs propres on a donc 11 A Il F =
JL:; Al. Par ailleurs, le calcul direct des coefficients diagonaux de A
1
= 1
2
donne
j~" A2i + L...ri=l
~n ~ ~ · ~
IlA IlF =L...ri=I L...rj=J=i a ij · On dedmt donc que L...r j=J=i a ij = 0 pour tout
2 2

i = 1, ... , n , et donc A est diagonale.

Exercice 3.11. 1. On a N(x ) = a P- ' llxll2 + aP- 2llAxll2 + ... + l AP- 1xll2- Il est
évident que N (x) est une norme. 2. et 3. Par définition N (A) = supx=l=O NJt~) . On
vérifie que N(Ax ) = a N(x ) - a P llx112 +liA Px 112· D' autre part, pour tout x -:/= 0, on a

et donc llAPx ll2- aP llxll2 ~ O. Cette inégalité et l'expression de N (Ax ) permet de


conclure que N(Ax ) ~ a N(x ). On a donc N(A x )/ N(x ) ~ a et N(A) ~ a.

Exercice 3.12. On a llxy* 112 = J p(yx* xy * ) = llxll2 J p(yy* ). Par l'exercice 1.2 on
sait que l'unique valeur propre non nulle de la matrice de rang un yy* est égale à
(y, y) = li YIli -On conclut que llxy* 112 = llxll2 llYll2- Pour la norme de Frobenius on
a llxy* llF = J L:i L:1lxi YJl 2 = J L:i L:j lxd 2IY1 12 = ..JL:i lxd 2J L:j IY1 12 =
llxll2 llYll2- L'exercice 3.2 montre que

....
-0
0
~
"O et que
c i::
;:::s
::J
0 ....
""'
~ n n
CX)
0
0
N
~
'~

""'
·c:: llxy*ll =00 max L lxi YJ I = max lxd L. IYjl = max lxd llYll1 = llxlloo llY llt-
l ~i~n . l ~i~n l~i~n
@
0
'ro=' .1 =1 .1 =l
~
..c i::
0
O'I i::
·c ~
>-
Cl. ·s..
0 Exercice 3.13. Prenons H E <C11 xn tel que llHll < l / llA-'11 - On a alors
0 (.)
u ....
0
0
..c:
IlA - l H Il ~ 11A - 1111 H11< 1. Le théorème de pe1turbation de Neumann (proposition
o..
ro 3.14) montre que (/11 + A- 1H ) est inversible et donc aussi (A+ H) = A (111 +A - 1 H).
De Un + A- 1H)- 1 = L:~ 0 ( - l)k (A - 1 H)k = In - A- 1 H + (A- 1H)2 + ...
......l
1

on déduit (111 + A- 1H)- 1 A - 1 = A - 1 - A - 1H A - 1 + (A- 1H)2A- 1 + ... et


"O
0

(A+H)- 1- A - 1+A- 1H A- 1= (A- 1H)2(111 - (A- 1H)+(A- 1H)2+ ...)A- 1


i::
;:::s
Q
@ = (A- 1H)2 (/11 + A - 1H) - 1 A - 1 •
288 Corrigés des exercices

Ainsi ll(A + H)- 1 - A-t + A - 1H A- 1 11 :( ll H ll 2 ll A- 1 ll3 ll U11 + A- 1H)- 1 ll et


ll(A + H)- 1 - A- 1 + A - 1 H A- 1 ll/ llHll ---+ 0 lorsque H---+ O.

Exercice 3.14. 1. Cette série est absolument convergente du fait que pour toute norme
multiplicative on a Il Ak/ k! Il :( Il A llk/ k! qui est le terme général d'une série conver-
gente. On a ainsi
OO Ak OO llA llk
~ - < ~ -= exp(ll A ll).
~ k! ---;: ~ k!
k= O k= O

2. Évident. 3. Si AB = BA on peut appliquer la formule du binôme (A + B)k =


I::~o ( ~ ) A'-1 B1 et (A+ B)' /k !I:;+i~• A' /i ! Bi/ j !. Pourtoute matrice M
=
notons Sk(M) la somme partielle Sk(M) = :z=7=o~;. On a

Ai B j
Sk(A+B) = L -., -.,J.
l.
i+j ~ k

et
~ Ai Bj
~ ., J.., .
l .
k + 1 :( i + j :( 2k
l :(i , j:(k
On obtient la majoration

I: .1
l.
.1

k + 1 :( i + .i :( 2k
l:(i , j:(k
-0
c
0 Le majorant est égal
::J
0
~~ ~M - ~ (llA ll + ll B ll)
1
CX)
0
0
N ~ i! ~ i! ~ l!
@ i=O i=O l=O
~
..c
O'I
·c et il converge vers zéro lorsque k ---+ oo en vertu de l'égalité exp( 11A11) exp( 11 B 11) =
>-
Cl. exp( llA ll + ll B ll). 4. La matrice - A commute avec la matrice A. On a d' une part
0
u exp(A +(- A)) = exp(A) exp(- A) et d'autre part exp(O) = ln d'où le résultat.
5. De l'égalité Ak = (PDP - 1)k = PDkp- i on déduit Sk(A) = PSk(D) P- 1
et le résultat par passage à la limite. 6. La décomposition de Jordan de la matrice
A , A = P J p - 1, montre que exp(A) = P exp(J)P- 1. La matrice exp(J) est tri-
angulaire supérieure et a pour coefficients diagonaux :Z:~o À i /i ! = exp(À), où À
est une valeur propre de A . 7. La décomposition de Jordan de la matrice A donne
Corrigés des exercices 289

det(exp(A)) = det(P exp(J)P - 1) = det(P) det(exp(J)) det(P - 1) = det(exp(J )) =


Il exp(Aï) = exp(Ei Ài) = exp(trace (A)) où Ài sontles valeurs propres de A . 8. La
question 3 montre que exp((t + h)A) = exp(tA) exp(hA) donc exp((t + h)A) -
ex p(t A) = (exp(hA) - 111 ) exp(t A). On a exp(hA) - 111 = E : 1(hAl / k ! =
hA CE: 0 (hA)kj (k + l)!) et

. exp(hA) - 111
1I l l = A.
h-->O h

On en déduit le résultat. 9. Pour tout entier k > 0, on a (xy* )k = (y*xi- 1 xy* =


(x, y)k- I xy*. On a exp(xy*) = 111 + xy * + (xy*)2 / 2! + ... . Si (x, y) = 0 alors
exp(xy* ) = In +xy*, sinon exp(xy* ) = In +xy* (exp((x,y))- 1) /(x,y) ).
10. Notons ui les colonnes de la matrice unitaire U. La décomposition A = U AU*
montre que A peut s 'écrire sous la forme d' une somme de matrices de rang
un: A = E~ = 1 Àiuiu;. Pour i =/= j, on a (ui u7)(u juj ) = (uh ui )uiuj = 0
1

puisque les vecteurs ui et u j sont orthogonaux. D'après la question 3 on a donc


exp(A) = exp(E~ = 1 Àiuiu7) = TI~'= 1 exp(Àiuiu7). La question précédente montre
1

que exp( A) = n~l= I Un+ Uju;(exp(Ài) - 1)).

1
Exercice 3.15. Posons M = ( Q :. ) . On a M ' M lm
( A*
A
A * A+ l n
)
.
Considérons À une valeur propre de M * M. On a

X+ Ay = ÀX
{ A * X + (A*A + 111 )y = Ày

où ( ~ ) f 0 est un vecteur propre associé à À. La première équation donne A* x +


....
-0 ~
A * Ay = ÀA *x. Supposons À =!= 1. On a donc A* x = 1/ (À - 1) A * Ay. En remplaçant
A *x dans la deuxième équation, on obtient AA* Ay = ((À - l)À + 1 - A)y . On
0 "O
c i::
;:::s
::J
0 .... constate facilement que À =!= 0 puisque la matrice M est injective et donc M * M
CX)
""'
~

0
0
~
'~ inve rsible. Ainsi, l 'égalité précéde nte donne A * Ay = ((A2 - 2À + I ) / À) y. On
""'
·c::
N
0 observe également que y =!= 0 car sinon on aurait À = 1. On a ainsi (A2 - 2À +
@ 'ro='
~ l) / À = a.2 , où u est une valeur singulière de A. À est donc la solution positive
..c
O'I
·c
>-
i::
0
i::
~
·s..
de l'équation A2 - (2 + u 2 )A + l = 0 : À = (2 + u 2 + uv
u 2 + 4) / 2. La fonction
Cl.
0 0 s t---t (2 + x + x V + 4) / 2 est croissante sur IR+ . En considérant u max la plus grande
2
x2
J
(.)
u ....
0
valeur singulière de A et sachant que (2 + lT~ax + u max u~ax + 4) / 2 ~ 1, on a dans
0
..c:
o..
ro J
tous les cas (2 + u~ax + u max u~ax + 4) / 2 ~ À pour toute valeur propre de M * M
......l
1
d' où le résultat puisque IlA 112 = ( j max.
"O
0
i::

Q
;:::s
Exercice 3.16. Des égalités (voir exercice 3.2) llA ll1 = max1 ~j ~n E~r~ 1 laij l et
@
llA lloo = max1 ~i~m E ; = I laij l on déduit llA* lloo = max1 ~i~m L~ = l laji l = llAll 1·
290 Corrigés des exercices

L'inégalité est démontrée grâce à llAlh ylp(A* A) (voir théorème 3.9) et à


p(A * A) ~ Il A * A li 1 (voir proposition 3.6).
2
Exercice 3.17. La somme des coefficients d'un catTé magique d'ordre n vaut I:;'= 1 i =
n 2 (n 2 + 1)/ 2. La somme S11 des termes d'une même ligne (ou d' une même colonne)
est donc égale à (n2(n 2 + 1)/ 2) / n = n(n 2 + 1)/ 2. Le calcul pour les normes llAll1
et llAlloo est évident en utilisant l'exercice 3.2. L'inégalité llAll2 ~ VllAll1llAlloo
(voir l'exercice 3.16) montre que llAll2 ~ Sn. D'autre part, en prenant le vecteur