Fxroux 4

Chapitre 4
Méthodes directes de
résolution des systèmes
linéaires
4.1 Introduction
Définition 4.1 Factorisation LU
Calculer la factorisation LU d’une matrice inversible A c’est déterminer L, une
matrice triangulaire inférieure, et U , une matrice triangulaire supérieure, telles
que A = LU .
Une fois la factorisation LU réalisée, le système Ax = b se résout en deux

étapes : résolution du système Ly = b, puis du système U x = y. L étant une ma-
trice triangulaire inférieure, le système Ly = b peut se résoudre par substitutions
successives de la première à la dernière ligne. Cette phase est appelée ”descente”.
L’algorithme de descente peut s’écrire de la façon suivante :
for i = 1 to n do
for j = 1 to i − 1 do
b(i) = b(i) - l(i,j) ⋆ y(j)
end for
y(i) = b(i)/l(i,i)
end for
De même, U étant une matrice triangulaire supérieure, le système U x = y
peut se résoudre par ”remontée”, c’est-à-dire par substitutions successives de la
dernière à la première ligne. L’algorithme de remontée peut s’écrire de la façon
suivante :
for i = n to 1 do
for j = i + 1 to n do
y(i) = y(i) - u(i,j) ⋆ x(j)
1
2CHAPITRE 4. MÉTHODES DIRECTES DE RÉSOLUTION DES SYSTÈMES LINÉAIRES
end for
x(i) = y(i)/u(i,i)
end for
Le coût principal d’une méthode directe réside dans la phase de factorisation.
C’est à celle-ci qu’est consacré ce chapitre.
Remarque
Dans la suite du paragraphe, afin de dissocier plus clairement les blocs des
coefficients, on continuera à appeler les matrices avec des lettres majuscules
alors que les références à des coefficients seront notées en minuscule dans la
description des algorithmes.
4.2 Factorisation LU
Considérons une matrice inversible A décomposée en 2 × 2 blocs :

A11 A12
A = (4.1)
A21 A22
Les blocs A11 et A22 sont des matrices carrées respectivement de dimension n1
et n2 . Les blocs A12 et A21 sont des matrices rectangulaires respectivement de
dimensions (n1 , n2 ) et (n2 , n1 ).
Définition 4.2 Factorisation LU incomplète d’une matrice
On appelle factorisation LU incomplète de la matrice A une factorisation de la
matrice par blocs :

A11 A12 L11 0 U11 U12
= (4.2)
A21 A22 L21 I 0 S22
dans laquelle les blocs L11 et U11 sont respectivement triangulaires inférieurs et
triangulaires supérieurs.
La factorisation incomplète représente l’opération de base de tous les algo-
rithmes qui seront étudiés dans ce chapitre.
Lemme 4.1 Pour que la matrice A admette la factorisation incomplète 4.2, il
faut et il suffit que le bloc A11 soit factorisable en A11 = L11 U11 .
Démonstration
La matrice A admet la factorisation incomplète 4.2 si et seulement si :

A11 A12 L11 0 U11 U12 L11 U11 L11 U12
= =
A21 A22 L21 I 0 S22 L21 U11 L21 U12 + S22
(4.3)
Par identification. :
A11 = L11 U11
A21 = L21 U11
(4.4)
A12 = L11 U12
A22 = L21 U12 + L22 U22
4.2. FACTORISATION LU 3
La première relation représente bien la factorisation A11 = L11 U11 du bloc

diagonal principal. Les deux relations suivantes déterminent les deux blocs extra-
diagonaux.
L21 = A21 U11 −1
(4.5)
U12 = L11 A12
−1
Enfin la dernière détermine le bloc S22 .
S22 = A22 − L21 U12 (4.6)

Le bloc S22 est appelé complément de Schur.
Lemme 4.2 Le complément de Schur ne dépend pas de la factorisation du bloc
A11 et vaut :
S22 = A22 − A21 A−1
11 A12 (4.7)
Démonstration
Elle découle immédiatement du lemme précédent et plus précisément des équations
4.5 et 4.6 :
S22 = A22 − L21 U12 = A22 − A21 U11 L11 A12
−1 −1
(4.8)

Finalement, on obtient le théorème fondamental pour les méthodes de fac-
torisation LU.
Théorème 4.1 La matrice A admet une factorisation LU si et seulement si le
bloc A11 et le complément de Schur S22 = A22 − A21 A−1 11 A12 sont eux-mêmes
factorisables.
La factorisation LU de la matrice est déterminée par les factorisations des blocs
A11 = L11 U11 et S22 = L22 U22 selon la formule :

A11 A12 L11 0 U11 U12
= (4.9)
A21 A22 L21 L22 0 U22
dans laquelle les blocs L21 et U12 sont ceux de la factorisation incomplète de la
matrice :
A11 A12 L11 0 U11 U12
= (4.10)
A21 A22 L21 I 0 S22
Démonstration
Une factorisation LU de la matrice s’écrit :

A11 A12 L11 0 U11 U12 L11 U11 L11 U12
= =
A21 A22 L21 L22 0 U22 L21 U11 L21 U12 + L22 U22
(4.11)
Par identification , on retrouve bien que les blocs L11 , U11 , L21 et U12 sont les
mêmes que ceux de la factorisation incomplète du lemme 4.1 et finalement :
A22 = L21 U12 + L22 U22 = L21 U12 + S22 si et seulement si S22 = L22 U22 .

Ce théorème donne un moyen pratique de construire des algorithmes de

factorisation LU. En effet, si on sait factoriser des matrices de petite taille, on
factorise d’abord le petit bloc diagonal principal A11 , puis on calcule les blocs
L21 et U12 et enfin le complément de Schur S22 . Pour finir la factorisation, il suffit
de calculer celle de S22 , en appliquant la même méthode de façon récurrente.
4.3 Factorisation de Gauss

L’algorithme de factorisation de Gauss repose sur l’application récurrente
de la méthode de factorisation partielle, en prenant pour bloc A11 , le bloc de
dimension 1, [a(1, 1)]. Sa factorisation est triviale, L11 = [l(1, 1)], U11 = [u(1, 1)],
avec a(1, 1) = l(1, 1) ⋆ u(1, 1). La factorisation de Gauss fait le choix de prendre
l(1, 1) = 1 et u(1, 1) = a(1, 1).
Les blocs A21 et L21 sont respectivement constitués d’une seule colonne,
les blocs A12 et U12 d’une seule ligne. La factorisation incomplète se calcule
alors aisément, selon l’algorithme suivant, dans lequel la matrice S22 , qui est de
dimension n − 1, est décrite, pour simplifier les notations, comme une matrice
dont les indices de ligne et de colonne varient entre 2 et n.
l(1,1) = 1
u(1,1) = a(1,1)
for i = 2 to n do
l(i,1) = a(i,1) / u(1,1)
end for
for j = 2 to n do
u(1,j) = a(1,j)
end for
for j = 2 to n do
for i = 2 to n do
s(i,j) = a(i,j) - l(i,1) ⋆ u(1,j)
end for
end for
Pour finir la factorisation, il suffit maintenant d’appliquer récursivement le
même algorithme à S22 puis aux différents compléments de Schur de dimension
décroissante ainsi fabriqués.
On constate que chacun des coefficients de la matrice initiale A n’est utilisé
qu’une fois, pour calculer le coefficient correspondant de L21 , U12 ou S22 . Par la
suite, seule la matrice S22 est utilisée. Il n’est donc pas nécessaire de travailler
avec trois matrices : on peut substituer les coefficients de L21 , U12 et S22 à ceux
de A. De même, u(1, 1) peut être substitué à a(1, 1), quant à l(1, 1), il n’est pas
utile de le conserver, on sait que, par construction, il est égal à 1.
Finalement, l’algorithme complet de factorisation de Gauss avec substitu-
tion des termes de L et de U respectivement à ceux de la partie triangulaire
inférieure stricte de A et de sa partie triangulaire supérieure, diagonale comprise,
s’écrit :
4.3. FACTORISATION DE GAUSS 5
for k = 1 to n − 1 do
for i = k + 1 to n do
a(i,k) = a(i,k) / a(k,k)
end for
for j = k + 1 to n do
a(i,j) = a(i,j) - a(i,k) ⋆ a(k,j)
end for
end for
end for
L’algorithme construit, si elle existe, la factorisation de Gauss de la ma-
trice, A = LU , où L est une matrice triangulaire inférieure dont les coefficients
diagonaux sont tous égaux à 1 et U une matrice triangulaire supérieure.
Par construction, l’étape numéro n1 de l’algorithme de Schur calcule la co-
lonne numéro n1 de L, la ligne numéro n1 de U , ainsi qu’un bloc diagonal
inférieur de dimension n2 , avec n1 + n2 = n = dim(A). L’application de l’al-
gorithme de factorisation de Gauss à ce bloc donne les n2 dernières lignes et
colonnes de la matrice complète. Donc, d’après le lemme 4.1, ce bloc n’est autre
que le complément de Schur.
On a donc le théorème suivant.
Théorème 4.2 A l’issue des n1 premières itérations de l’algorithme de Gauss,

les blocs A11 , A21 , A12 et A22 contiennent respectivement, la factorisation de
Gauss L11 U11 du bloc A11 , les blocs L21 , U12 de la factorisation partielle de la
matrice A et le complément de Schur S22 = A22 − A21 U11 L11 A12 .
−1 −1
Corollaire 4.1 Pour que la factorisation de Gauss complète existe, il faut et il

suffit que, pour toute valeur de n1 , le premier coefficient diagonal du complément
de Schur S22 = A22 − A21 U11 L11 A12 soit différent de 0.
−1 −1
Démonstration
L’étape n1 de l’algorithme de factorisation ci-dessus n’est réalisable que si le
coefficient a(n1 , n1 ) issu des n1 − 1 premières itérations est différent de 0.
Inversement, si la factorisation de Gauss existe, le théorème 4.1 montre que le
complément de Schur est factorisable, ce qui implique que son premier coefficient
diagonal, égal au produit des deux premiers coefficients des matrices inversibles
L22 et U22 , est différent de 0.

Remarque
Un autre choix de factorisation du premier terme diagonal à chaque étape ne
change pas cette condition, puisque, comme on l’a vu au théorème 4.1, le bloc
diagonal inférieur de n’importe quelle factorisation incomplète est toujours le
complément de Schur. Ce qui signifie aussi que deux méthodes de factorisation
LU ne diffèrent que par le choix de la factorisation du terme diagonal à chaque
itération.
4.4 Factorisation de Gauss-Jordan

Comme on l’a vu au paragraphe précédent, deux méthodes de factorisation
LU ne peuvent différer que par le choix de la factorisation du premier terme dia-
gonal à chaque itération. Afin de préciser cela, on va commencer par démontrer
un lemme sur la résolution des systèmes triangulaires.
Lemme 4.3 On considère le système linéaire Lx = y. Si les n1 premiers coeffi-

cients de y sont nuls, il en est de même de ceux de x. De plus, le vecteur x2 des
n2 = n − n1 derniers coefficients de x est solution du sous-système L22 x2 = y2 ,
où L22 est le bloc diagonal inférieur de L.
Démonstration
Décomposons le système par blocs, il s’écrit :

L11 0 x1 y1
= (4.12)
L21 L22 x2 y2
Donc L11 x1 = y1 = 0 ce qui implique évidemment que x1 = 0.

De plus L21 x1 + L22 x2 = y2 et donc L22 x2 = y2 , puisque x1 = 0.

Il est maintenant facile de démontrer le théorème suivant :
Théorème 4.3 Si LU et L1 U1 sont deux factorisations LU de la même matrice,

alors il existe une matrice diagonale D telle que : L1 = LD−1 et U1 = DU .
Démonstration
Si L1 U1 = LU , alors L−1 L1 = U1 U −1 = B. La matrice B vérifie : LB = L1 .
Donc le vecteur colonne numéro j de B, que l’on notera x, est solution du
système Lx = y, où y est le vecteur colonne numéro j de L1 . Comme L1 est une
matrice triangulaire inférieure, les j − 1 premiers coefficients de y sont nuls et
il en est de même des j − 1 premiers coefficients de x d’après le lemme .
On en déduit donc que si L et L1 sont deux matrices triangulaires inférieures,
il en est de même pour L−1 L1 .
De même, si U1 et U sont deux matrices triangulaires supérieures, il en est de
même pour U1 U −1 . En effet, la matrice transposée de U1 U −1 est égale à U −t U1 ,
U −t désignant indifféremment la transposée de l’inverse de U ou l’inverse de
sa transposée. C’est donc, on vient de le démontrer, une matrice triangulaire
inférieure, ce qui signifie que U1 U −1 est triangulaire supérieure.
La matrice B est donc simultanément triangulaire inférieure et triangulaire
supérieure. Elle est donc diagonale.
Corollaire 4.2 La factorisation de Gauss, si elle existe, est unique.
Démonstration
En effet, LU et L1 U1 sont deux factorisations de Gauss de la même matrice,
alors, L1 = LD−1 . L et L1 étant toutes deux des matrices triangulaires inférieures
4.4. FACTORISATION DE GAUSS-JORDAN 7
avec des coefficients diagonaux égaux à 1, D ne peut-être que la matrice iden-

tité.

Un autre choix pour la factorisation du coefficient diagonal à chaque itération
consiste à poser : l(1, 1) = 1, d(1, 1) = a(1, 1) et u(1, 1) = 1. On fabrique
maintenant trois matrices, L triangulaire inférieure, U triangulaire supérieure,
toutes deux ayant des coefficients diagonaux égaux à 1, et une matrice diagonale
D telles que A = LDU .
Définition 4.3 La factorisation d’une matrice sous la forme A = LDU où

L est triangulaire inférieure, U triangulaire supérieure, toutes deux avec des
coefficients diagonaux égaux à 1, et D est une matrice diagonale, s’appelle fac-
torisation de Gauss-Jordan.
Le corollaire précédent sur l’unicité de la factorisation de Gauss entraı̂ne le

corollaire suivant.
Corollaire 4.3 La factorisation de Gauss-Jordan, si elle existe, est unique.
Démonstration
Si A = LDU est une factorisation de Gauss-Jordan, alors L et DU sont les
facteurs de la factorisation de Gauss.

Cette démonstration indique aussi que la factorisation de Gauss-Jordan s’ob-
tient tout simplement en commençant par la factorisation de Gauss puis en met-
tant le terme diagonal en facteur dans chaque ligne de U . La mise en facteur
du terme diagonal de la ligne numéro k de U peut être réalisée dès que celle-ci
cesse d’être utilisée, c’est-à-dire à l’issue de l’étape numéro k de la factorisa-
tion de Gauss. Ce qui nous donne l’algorithme suivant pour la factorisation de
Gauss-Jordan :
a(i,k) = a(i,k) / a(k,k)
end for
a(i,j) = a(i,j) - a(i,k) ⋆ a(k,j)
end for
end for
a(k,j) = a(k,j) / a(k,k)
end for
end for
Évidemment, à l’issue de ces calculs, les coefficients des parties triangulaires
inférieures et supérieures strictes de A sont respectivement ceux de L et de U ,
les coefficients diagonaux étant ceux de D.
4.5 Pivotage par ligne

Si le premier coefficient diagonal du complément de Schur est nul, la matrice
n’est pas factorisable a priori. Cependant, il existe forcément toujours au moins
un coefficient non nul dans la première colonne du complément de Schur, sans
quoi celui-ci ne serait pas inversible et, du fait de la formule de la factorisation
incomplète 4.2, la matrice A non plus. On voudrait donc permuter la première
ligne du complément de Schur avec celle qui contient un terme non nul en
première colonne. Pour ce faire, on va appliquer une transformation appelée
permutation élémentaire.
Définition 4.4 La matrice de permutation élémentaire P i1 ,i2 est la matrice
obtenue en permutant les lignes de numéros i1 et i2 de la matrice identité.
Toutes les lignes et colonnes sauf celles de numéros i1 et i2 de la matrice P i1 ,i2
sont les mêmes que celles de la matrice identité. Dans la ligne numéro i1 , tous
les coefficients sont nuls, sauf le coefficient (i1 , i2 ) qui vaut 1. De même, dans
la ligne numéro i2 , tous les coefficients sont nuls, sauf le coefficient (i2 , i1 ) qui
vaut 1. La matrice est symétrique.
Lemme 4.4 Le résultat du produit de la matrice P i1 ,i2 par la matrice A s’ob-
tient en permutant les lignes i1 et i2 de A.
Démonstration
Par définition du produit de deux matrices, le coefficient (i, j) de la matrice
P i1 ,i2 A est égal au produit scalaire de la ligne numéro i de P i1 ,i2 par la colonne
numéro j de A. Comme IA = A, le produit scalaire de la ligne numéro i de la
matrice identité par la colonne numéro j de A est égal au coefficient (i, j) de A.
P i1 ,i2 étant formé par permutation des lignes i1 et i2 de la matrice identité, on
voit que le produit P i1 ,i2 A s’obtient à partir du produit IA par permutation
des lignes i1 et i2 .

Supposons que le coefficient (i1 , 1) de la matrice S22 soit non nul. On voudrait
multiplier la matrice S22 à gauche par la matrice de permutation de dimension
n2 : Pn1,i 2
1
. Pour ce faire, on va multiplier à gauche la matrice complète par la
matrice :
I 0
= P n1 +1,n1 +i1 (4.13)
0 Pn1,i
2
1
Reprenons maintenant l’équation de la factorisation incomplète 4.2 et multi-

plions la à gauche par la matrice de permutation P n1 +1,n1 +i1 .

n1 +1,n1 +i1 I 0 L11 0 U11 U12
P A =
0 Pn1,i 1
L21 I 0 S22
2
(4.14)
L11 0 U11 U12
= 1,i1 1,i1
Pn2 L21 Pn2 0 S22
d’où :
n1 +1,n1 +i1 L11 0 U11 U12
P A = (4.15)
Pn1,i
2
1
L21 I 0 Pn1,i
2
1
S22
4.5. PIVOTAGE PAR LIGNE 9
L’équation 4.15 montre que pour calculer la factorisation incomplète de la ma-

trice obtenue par permutation des lignes n1 +1 et n1 +i1 de A, il suffit d’appliquer
une permutation des lignes 1 et i1 aux blocs L21 et S22 de la factorisation in-
complète de A.
En pratique, comme ces blocs sont en fait stockés aux emplacements correspon-
dants de la matrice A, cela signifie tout simplement appliquer la permutation
des lignes n1 + 1 et n1 + i1 à la matrice A issue des n1 premières étapes de la
factorisation.
A chaque itération de l’algorithme de Gauss, il existe donc au moins une
permutation élémentaire qui permet d’obtenir un un premier coefficient diagonal
non nul dans le complément de Schur. Ce qui nous donne le théorème suivant.
Théorème 4.4 Si A est une matrice inversible,Qalors il existe une suite de

0
permutations élémentaires telles que la matrice k=n−1 P k+1,k+ik A admette
une factorisation de Gauss.
La suite des permutations n’est évidemment pas unique. La permutation des

lignes est appelée ”pivotage”.
Q0 Pour résoudre
k+1,k+ik
le système AxQ
= b, on le remplace par le système
0 k+1,k+ik
k=n−1 P Ax = LU x = k=n−1 P b.
Il suffit donc d’appliquer successivement à b les permutations des lignes k + 1
et k + ik pour k allant de 0 à n − 1, avant de résoudre le système par descente-
remontée.
On peut appliquer le pivotage, même si le premier coefficient diagonal n’est
pas nul. Ceci permet d’améliorer la stabilité de l’algorithme de factorisation de
Gauss. En effet, considérons pour simplifier la première étape de la factorisation.
Le calcul du complément de Schur s’écrit : s(i, j) = a(i, j) − l(i, 1) ⋆ u(1, j) =
a(i, j) − a(i, 1) ⋆ a(1, j)/a(1, 1).
Si le coefficient a(1, 1) est très petit, le terme a(i, 1) ⋆ a(1, j)/a(1, 1) va dominer
le terme a(i, j). Compte tenu du fait que la précision des calculs sur un ordina-
teur est limitée par la représentation des nombres, un certain nombre de chiffres
significatifs de a(i, j) vont disparaı̂tre. En mettant les choses au pire, le résultat
sera le même que si a(i, j) était nul. Cette disparition, ou du moins cette mo-
dification des termes a(i, j) revient à modifier la matrice initiale, de telle sorte
qu’elle peut ne plus être inversible. L’algorithme va devenir numériquement in-
stable.
Au contraire, si le coefficient a(1, 1) est très grand, le terme a(i, 1)⋆a(1, j)/a(1, 1)
va être dominé par le terme a(i, j), au point éventuellement de disparaı̂tre de-
vant celui-ci. Ce qui revient à considérer que les termes a(i, 1) ou a(1, j) sont
négligeables devant a(1, 1), ce qui est source d’imprécision certes mais ne remet
pas en cause l’inversibilité de la matrice.
Faire du ”pivotage numérique” dans la factorisation de Gauss consiste donc à
pivoter à chaque itération de manière à amener un terme grand sur la diagonale.
4.6 Matrices symétriques, factorisations de Crout

et de Cholesky
Si la matrice A est symétrique, alors ses blocs diagonaux A11 et A22 le sont
aussi, et ses blocs extra-diagonaux sont les transposés l’un de l’autre : A12 = At21 .
De ce fait, le complément de Schur, S22 = A22 − A21 A−1 11 A12 est évidemment
symétrique aussi. Lors de la factorisation de Gauss, il suffit donc de ne calcu-
ler que la partie triangulaire inférieure ou la partie triangulaire supérieure du
complément de Schur. Cependant, la factorisation de Gauss ne conserve pas la
symétrie : U 6= Lt .
La factorisation de Gauss-Jordan conserve la symétrie puisque, si A est une
matrice symétrique factorisable, alors A = LDU = At = U t DLt . De l’unicité de
la factorisation de Gauss-Jordan découle que U = Lt . Par voie de conséquence,
les blocs L et U de la factorisation de Gauss de la matrice vérifient : U = DLt .
On vient donc de démontrer le theorème suivant :
Théorème 4.5 Si A est une matrice symétrique factorisable, alors A admet
une factorisation de Crout : A = LDLt .
L’algorithme de Crout peut donc s’écrire en n’utilisant par exemple que
la partie triangulaire inférieure de la matrice et en ne calculant que L et D.
v(i) = a(i,k)
a(i,k) = a(i,k) / a(k,k)
end for
for i = j to n do
a(i,j) = a(i,j) - a(i,k) ⋆ v(j)
end for
end for
end for
Le vecteur utilitaire v sert à conserver les valeurs des coefficients de la ligne k
de U qui sont en fait égaux, par symétrie, aux coefficients de la colonne k de L
avant leur division par le coefficient diagonal.
Remarque
L’algorithme de Crout demande deux fois moins de données et d’opérations
que l’algorithme de Gauss-Jordan, puisqu’on ne se sert que de la moitié de la
matrice et que l’on ne fait que la moitié des opérations arithmétiques. Pour
bénéficier réellement de la diminution du nombre de données nécessaires, il fau-
drait évidemment stocker la partie triangulaire inférieure de la matrice d’une
manière différente.
Écrivons la factorisation de Gauss partielle d’une matrice symétrique.

A11 A12 L11 0 U11 U12
= (4.16)
A21 A22 L21 I 0 S22
4.6. MATRICES SYMÉTRIQUES, FACTORISATIONS DE CROUT ET DE CHOLESKY11
Du fait des relations de symétries, on a :
D11 Lt11 D11 Lt12

A11 A12 L11 0
= (4.17)
A21 A22 L21 I 0 S22
En mettant en facteur les blocs diagonaux, on obtient finalement :

t
L11 Lt12

A11 A12 L11 0 D11 0
= (4.18)
A21 A22 L21 I 0 S22 0 I
L’équation 4.18 apparaı̂t clairement comme une formule de changement de base

au sens des formes quadratiques. On en déduit le théorème suivant :
Théorème 4.6 Si A est symétrique définie positive, il en est de même du

complément de Schur.
Corollaire 4.4 Si A est symétrique définie positive, elle est factorisable et tous
les coefficients diagonaux de sa factorisation de Crout sont strictement positifs.
Démonstration
Puisque le complément de Schur est symétrique défini positif, ses coefficients
diagonaux sont strictement positifs. De ce fait le premier coefficient diagonal du
complément de Schur n’est jamais nul. Les coefficients diagonaux de la factorisa-
tion de Crout sont égaux aux premiers coefficients diagonaux des compléments
de Schur successifs.

Puisque les termes diagonaux sont strictement positifs, il existe un autre
mode de factorisation qui conserve la symétrie.p A l’étape 1 de l’algorithme de
factorisation, on prend : l(1, 1) = u(1, 1) = a(1, 1), puis de même à chaque
itération. En faisant de la sorte, on va calculer la factorisation de Cholesky
de la matrice, A = LLt . Bien évidemment, par unicité de la factorisation
de Gauss-Jordan et donc de Crout pour une matrice symétrique, on obtient
immédiatement que si la factorisation de Crout de la matrice définie positive
h √ i h √ it
s’écrit A = LDLt , alors la factorisation de Cholesky vaut : A = L D L D .
L’algorithme de Cholesky peut donc s’écrire de la manière suivante :
for k = 1 top n − 1 do
a(k, k) = a(k, k)
a(i,k) = a(i,k) / a(k,k)
end for
for i = j to n do
a(i,j) = a(i,j) - a(i,k) ⋆ a(j,k)
end for
end for
end for
4.7 Parallélisation : factorisation par blocs

Pour étudier la parallélisation, il suffit de considérer la factorisation de
Gauss. La parallélisation des autres algorithmes en découlera immédiatement.
Considérons donc l’algorithme de Gauss.
a(i,k) = a(i,k) / a(k,k)
end for
a(i,j) = a(i,j) - a(i,k) ⋆ a(k,j)
end for
end for
end for
Il n’y a pas de dépendances au niveau des deux boucles internes puisque les
indices i et j sont toujours supérieurs à k. En revanche, la boucle en k présente
des dépendances de données et de sorties évidentes. La permutabilité ne peut
pas être étudiée à l’aide des outils d’analyse présentés au chapitre 2 puisque les
bornes des boucles internes dépendent de la valeur de l’indice de boucle externe.
Cette dépendance empêche cependant clairement la permutation. L’algorithme
est fortement récursif : à chaque itération de la boucle d’indice k, on modifie tout
le bloc diagonal inférieur, et les données utilisées pour le faire sont le résultat
des opérations effectuées aux itérations précédentes.
La parallélisation ne peut donc se faire, d’une part qu’au niveau de la
boucle :
a(i,k) = a(i,k) / a(k,k)
end for
et d’autre part des deux boucles imbriquées :
a(i,j) = a(i,j) - a(i,k) ⋆ a(k,j)
end for
end for
qui représentent clairement le plus gros des opérations.
C’est donc sur celles-ci que vont porter les efforts. Elles ne présentent pas de
dépendances et sont donc parallélisables et permutables.
En terme d’accès mémoire, que l’on considère la boucle d’indice i ou j, il y a
deux lectures et une écriture par itération pour un couple d’opérations (−, ⋆). En
revanche, avec la boucle d’indice j, les références aux matrices se font par ligne,
alors qu’elles se font par colonne avec la boucle d’indice i. Si les matrices sont
rangées en mémoire par colonne, la localisation spatiale est donc bien meilleure
avec la boucle d’indice i, qu’il vaut mieux laisser au niveau interne, la boucle
d’indice j, parallélisable restant au niveau externe.
4.7. PARALLÉLISATION : FACTORISATION PAR BLOCS 13
Comme pour le produit de matrices, ce résultat est néanmoins très loin

d’être satisfaisant. En effet, le nombre total de couples d’opérations (−, ⋆) dans
l’algorithme vaut :
n−1
X n−1
X
(n − k)2 = k 2 ≃ n3 /3 (4.19)
k=1 k=1
Or, les données d’entrée de l’algorithme sont les coefficients de la matrice A, leur
nombre vaut n2 , de même pour les données de sortie. Il devrait donc être possible
de ne faire que 2n2 accès mémoire au total pour n3 /3 couples d’opérations (−, ⋆).
La localisation temporelle des accès devrait être très bonne, ce qui n’est pas le
cas avec l’algorithme par ligne tel qu’on l’a écrit.
Une fois de plus, la solution réside dans la mise en place d’une stratégie par
blocs. En effet, si la matrice est de taille suffisamment réduite pour tenir dans
la mémoire cache, elle va y résider tout au long des calculs, et le nombre total
d’accès à la mémoire centrale sera limité à n2 lectures et n2 écritures. Cependant,
contrairement au cas du produit de matrice, il ne suffit pas de dédoubler les trois
niveaux de boucles d’indices k, j et i et d’effectuer des permutations : le caractère
récursif de l’algorithme empêche la permutation automatique. L’algorithme par
blocs ne se construit donc pas à l’aide de simples manipulations des boucles
imbriquées.
En fait, on a déjà posé les bases de l’algorithme de factorisation par blocs en
écrivant la factorisation incomplète 4.2. Pour réaliser la factorisation incomplète,
quatre opérations sont nécessaires.
1. Factorisation du bloc diagonal, A11 = L11 U11 .
2. Détermination du bloc supérieur, U12 = L−1
11 A12 .
3. Détermination du bloc inférieur, L21 = A21 U11
−1
.
4. Calcul du complément de Schur, S22 = A22 − L21 U12 .
Si la dimension de A11 , n1 , est suffisamment petite, la première opération peut
se faire dans le cache. Le nombre de couples d’opérations (−, ∗) qu’elle exige est
d’ordre n31 /3.
La deuxième nécessite la résolution de n2 = n − n1 systèmes linéaires as-
sociés à une matrice triangulaire inférieure, puisque le bloc U12 est solution
de l’équation L11 U12 = A12 . Le coût d’une descente étant de l’ordre de n21 /2
couples d’opérations (−, ∗), le calcul de U12 en demande n2 ⋆ n21 /2. Pour chaque
descente, si le bloc L11 réside déjà dans le cache, il suffit de faire n1 accès à
la mémoire en lecture du vecteur second membre puis n1 accès en écriture du
vecteur résultat, soit 2n1 accès mémoire pour n21 /2 couples d’opérations (−, ∗).
La troisième opération est identique à la précédente. En effet, la transposition
t
de l’équation L21 U11 = A21 , donne U11 Lt21 = At21 , il faut donc de nouveau faire
n2 descentes de systèmes linéaires associés à la matrice triangulaire inférieure
t
de dimension n1 , U11 .
Le calcul du complément de Schur, S22 = A22 − L21 U12 , est un produit de ma-
trices, que l’on peut organiser par blocs pour assurer la localisation temporelle
et spatiale des données. Il requiert n22 ⋆ n1 couples d’opérations (−, ∗), puisque
chacun des n22 coefficients de la matrice S22 est obtenu à l’aide du produit sca-
laire des n1 termes d’une ligne de L21 par ceux d’une colonne de U12 .
Pour compléter la factorisation de la matrice, il suffirait maintenant de réaliser
une cinquième étape consistant à factoriser le complément de Schur, S22 =
L22 U22 , ce qui demanderait d’ordre n32 /3 couples d’opérations (−, ∗). Pour as-
surer la bonne localisation temporelle et spatiale des données, cette factorisation
elle-même se fait en applicant récursivement la même méthodologie par blocs.
On vient de démontrer au passage que le coût du calcul par blocs de la
factorisation de Gauss était le même que celui de l’algorithme classique. En effet,
les cinq étapes décrites précédemment requièrent un nombre total de couples
d’opérations (−, ∗) de l’ordre de :
n31 /3 + n2 ⋆ n21 /2 + n2 ⋆ n21 /2 + n22 ⋆ n1 + n32 /3 = (n1 + n2 )3 /3 (4.20)
Le calcul du complément de Schur requiert la part la plus importante des

opérations arithmétiques réalisées à chaque étape de l’algorithme par blocs. Pour
obtenir une bonne localisation temporelle et spatiale des accès à la mémoire dans
ce produit de matrices, il est nécessaire, de les décomposer de telle sorte que 3
sous-blocs puissent tenir simultanément dans le cache. Au final, c’est la matrice
A tout entière que l’on découpe en P × P blocs de dimension n/P , de sorte que
le cache puisse contenir 3 matrices de dimension n/P .
 .. .. .. 
 A11 A12 . . A1J . A1P 
 .. .. .. 
 A21 A22 . . A2J . A2P 
.. .. .. .. 
 
 ..
 ··· ··· . . . . . 
..
 
 ..  (4.21)
 AI1
 AI2 ··· . AIJ . AIP  
 .. .. .. 
 ···
 ··· ··· ··· . . . 
 .. .. 
 ··· ··· ··· ··· ··· . . 
AP 1 AP 2 ··· · · · AP J ··· AP P
L’algorithme par blocs de factorisation de Gauss s’écrit finalement.

for K = 1 to P do
AKK = LKK UKK
for J = K + 1 to P do
AKJ = L−1KK × AKJ
end for
for I = K + 1 to P do
AIK = AIK × UKK −1
end for
AIJ = AIJ − AIK × AKJ
end for
4.8. MISE EN ŒUVRE DE LA FACTORISATION PAR BLOCS DANS UN ENVIRONNEMENT DE PROGRAMMA
end for
end for
Au cours de la factorisation du bloc diagonal, les blocs LKK et UKK sont
évidemment substitués au bloc AKK .
Les calculs des blocs L−1KK × AKJ et AIK × UKK se font, par descentes de
−1
systèmes triangulaires inférieurs, comme décrit pour l’étape 1. Les boucles de

calcul de ces blocs sont parallélisables.
De même, les calculs des différents compléments de Schur AIJ = AIJ − AIK ×
AKJ sont indépendants et peuvent être réalisés simultanément.
4.8 Mise en œuvre de la factorisation par blocs

dans un environnement de programmation
par échanges de messages
Comme pour le produit de matrices, la mise en place d’une stratégie par
blocs a déjà fourni la localisation temporelle et spatiale initiale des données pour
une parallélisation dans un environnement de programmation par échanges de
messages. Toutes les opérations étant de type produit de blocs, leur granularité
est élevée. Il ne reste plus finalement qu’à distribuer effectivement les blocs aux
différents processus, de façon à obtenir la meilleure efficacité possible, ce qui va
dépendre du degré de parallélisme effectif et de l’équilibrage des charges et à
organiser les transferts de données.
Au cours de l’algorithme, chaque processus va traiter les blocs qui lui sont at-
tribués. On suppose que tous les processus disposent du tableau distribution(P, P )
qui donne, pour chaque bloc, le numéro du processus à qui il est attribué. Au
niveau des calculs, chaque processus ne va faire que les opérations modifiant ses
propres blocs, de sorte que le code pourrait s’écrire :
for K = 1 to P do
if distribution(K,K) = rank then
AKK = LKK UKK
end if
if distribution(K,J) = rank then
AKJ = L−1 KK × AKJ
end if
end for
if distribution(I,K) = rank then
end if
end for
if distribution(I,J) = rank then

end if
end for
end for
end for
Reste à traiter les échanges de données. Prenons une répartition quelconque
des blocs, comme dans la figure 4.1, pour 16 blocs distribués à 4 processus selon
leur couleur. On voit qu’à l’issue de la factorisation du premier bloc diagonal A11
11 12 13 14
21 22 23 24
31 32 33 34
41 42 43 44
Fig. 4.1 – Répartition aléatoire.
par le processus vert, le facteur L11 devra être transmis à tous les autres pro-
cessus chargés d’un bloc A1J , sur la première ligne, en l’occurrence au processus
rouge. De même, le facteur U11 devra être transmis à tous les autres processus
chargés d’un bloc AI1 , sur la première colonne, c’est-à-dire au processus bleu.
Ce n’est qu’après avoir reçu ces facteurs que les processus pourront exécuter
leur part des calculs des nouveaux blocs :
for J = 2 to P do
if distribution(1,J) = rank then
A1J = L−111 × A1J
end if
end for
for I = 2 to P do
if distribution(I,1) = rank then
AI1 = AI1 × U1−1
end if
end for
De même, les blocs A1J et AI1 ainsi calculés devront être respectivement trans-
mis à tous les processus calculant des compléments de Schur sur la colonne J
et la ligne I.
La figure4.2 illustre les différents types de transferts de blocs par ligne ou
par colonne nécessaires à la première itération de l’algorithme de Gauss.
L11
U11 A12 A13 A14

(1,1) (1,2) (1,3) (1,4)
A21
(2,1) (2,2) (2,3) (3,4)
A31
(3,1) (3,2) (3,3) (3,4)
A41
(4,1) (4,2) (4,3) (4,4)
Fig. 4.2 – Transferts de blocs à l’itération 1.
Finalement, on voit qu’il va falloir mettre en place des fonctions de transfert

d’un bloc sur une ligne et une colonne. Le transfert d’un bloc AIK ou d’un
bloc LKK sur la ligne numéro K se fera du processus distribution(I, K) ou
distribution(K, K) respectivement vers tous les processus de numéro distribution(K, J),
J > K. De même, le transfert d’un bloc AKJ ou d’un bloc UKK sur la ligne
numéro K se fera du processus distribution(K, J) ou distribution(K, K) respec-
tivement vers tous les processus de numéro distribution(I, K), I > K. On notera
ces procédures dif f usion par ligne ou dif f usion par colonne, avec, comme
arguments, le numéro I ou J de la ligne ou de la colonne, K qui indique que
ne sont respectivement récepteurs que les processeurs distribution(I, K) pour
I > K ou distribution(K, J) pour J > K, le nom du bloc et le numéro du pro-
cessus émetteur, pour reprendre un formalisme semblable à celui de la fonction
MPI Bcast, puisqu’il s’agit bien de transferts de un à tous dans un groupe. L’al-
gorithme exécuté par chaque processus s’écrit maintenant, gestion des transferts
de données compris :
for K = 1 to P do
if distribution(K,K) = rank then
AKK = LKK UKK
end if
dif f usion par ligne(K, K, LKK , distribution(K, K))
dif f usion par colonne(K, K, UKK , distribution(K, K))
if distribution(K,J) = rank then
AKJ = L−1 KK × AKJ
end if
dif f usion par colonne(J, K, AKJ , distribution(K, J))
end for
if distribution(I,K) = rank then
end if
dif f usion par ligne(I, K, AIK , distribution(I, K))
end for
if distribution(I,J) = rank then
end if
end for
end for
end for
Une distribution efficace doit faire en sorte de faire travailler le plus grand
nombre de processus possibles à chaque phase, tout en équilibrant les charges.
La distribution aléatoire de la figure 4.1 n’est certainement pas très efficace,
puisque, à la première itération par exemple, le processus jaune n’a rien à faire
pendant la phase de remise à jour des blocs de la première ligne et de la première
colonne mais qu’en revanche il traite 4 des 9 blocs dans la phase de calcul du
complément de Schur.
Une possibilité pour parvenir à une bonne efficacité consiste à colorier les
blocs de manière cyclique par ligne et par colonne, comme sur la figure 4.3,
avec un nombre total de blocs sur chaque ligne ou colonne multiple du nombre
de processus. Avec cette répartition, tous les processus travaillent également à
toutes les itérations pour chaque phase parallèle de remise à jour des blocs sur la
ligne et la colonne ou de calcul du complément de Schur. De plus, les procédures
dif f usion par ligne ou dif f usion par colonne peuvent être tout simplement
remplacées par la fonction MPI Bcast, puisque la distribution cyclique fait en
sorte que tous les processus aient des blocs sur chaque ligne et chaque colonne.
En revanche, cette distribution présente l’inconvénient de découper en un
très grand nombre de blocs, ce qui peut nuire à la granularité. De plus, à chaque
itération de l’algorithme de Gauss par blocs, tous les processus auront besoin
de tous les blocs sur la ligne et la colonne pour calculer leurs contributions au
complément de Schur. Ce qui requiert une place mémoire importante.
Il existe d’autres méthodes de distribution nécessitant un découpage en un
nombre de blocs moins importants. Mais, quelque soit la méthode de distri-
bution, le problème de la mémoire nécessaire pour stocker temporairement les
blocs utilisés pour les calculs se pose pour des matrices de grande taille.
11 12 13 14 15 16 17 18
21 22 23 24 25 26 27
31 32 33 34 35 36
41 42 43 44 45
51 5 2 5 3 5 4
61 62 63
71 72
81
Fig. 4.3 – Distribution cyclique.

Fxroux 4

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Fxroux 4

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre 4

Une fois la factorisation LU réalisée, le système Ax = b se résout en deux

La première relation représente bien la factorisation A11 = L11 U11 du bloc

Enfin la dernière détermine le bloc S22 .

S22 = A22 − L21 U12 (4.6)

Ce théorème donne un moyen pratique de construire des algorithmes de

4.3 Factorisation de Gauss

Théorème 4.2 A l’issue des n1 premières itérations de l’algorithme de Gauss,

Corollaire 4.1 Pour que la factorisation de Gauss complète existe, il faut et il

4.4 Factorisation de Gauss-Jordan

Lemme 4.3 On considère le système linéaire Lx = y. Si les n1 premiers coeffi-

Donc L11 x1 = y1 = 0 ce qui implique évidemment que x1 = 0.

Théorème 4.3 Si LU et L1 U1 sont deux factorisations LU de la même matrice,

Corollaire 4.2 La factorisation de Gauss, si elle existe, est unique.

avec des coefficients diagonaux égaux à 1, D ne peut-être que la matrice iden-

Définition 4.3 La factorisation d’une matrice sous la forme A = LDU où

Le corollaire précédent sur l’unicité de la factorisation de Gauss entraı̂ne le

Corollaire 4.3 La factorisation de Gauss-Jordan, si elle existe, est unique.

4.5 Pivotage par ligne

Reprenons maintenant l’équation de la factorisation incomplète 4.2 et multi-

L’équation 4.15 montre que pour calculer la factorisation incomplète de la ma-

Théorème 4.4 Si A est une matrice inversible,Qalors il existe une suite de

La suite des permutations n’est évidemment pas unique. La permutation des

4.6 Matrices symétriques, factorisations de Crout

Du fait des relations de symétries, on a :

D11 Lt11 D11 Lt12

En mettant en facteur les blocs diagonaux, on obtient finalement :

L’équation 4.18 apparaı̂t clairement comme une formule de changement de base

Théorème 4.6 Si A est symétrique définie positive, il en est de même du

4.7 Parallélisation : factorisation par blocs

Comme pour le produit de matrices, ce résultat est néanmoins très loin

n31 /3 + n2 ⋆ n21 /2 + n2 ⋆ n21 /2 + n22 ⋆ n1 + n32 /3 = (n1 + n2 )3 /3 (4.20)

Le calcul du complément de Schur requiert la part la plus importante des

L’algorithme par blocs de factorisation de Gauss s’écrit finalement.

systèmes triangulaires inférieurs, comme décrit pour l’étape 1. Les boucles de

4.8 Mise en œuvre de la factorisation par blocs

AIJ = AIJ − AIK × AKJ

U11 A12 A13 A14

(2,1) (2,2) (2,3) (3,4)

(3,1) (3,2) (3,3) (3,4)

(4,1) (4,2) (4,3) (4,4)

Fig. 4.2 – Transferts de blocs à l’itération 1.

Finalement, on voit qu’il va falloir mettre en place des fonctions de transfert

Fig. 4.3 – Distribution cyclique.

Vous aimerez peut-être aussi