Vous êtes sur la page 1sur 28

Méthodes numériques de base

par Claude BREZINSKI


Docteur ès Sciences Mathématiques
Professeur à l’Université des Sciences et Techniques de Lille Flandres Artois

1. Arithmétique de l’ordinateur................................................................ A 1 220 - 2


1.1 Virgule flottante normalisée ....................................................................... — 2
1.2 Opérations arithmétiques et conséquences.............................................. — 3
1.3 Conditionnement d’un problème ............................................................... — 3
1.4 Correction de l’arithmétique....................................................................... — 3
2. Interpolation.............................................................................................. — 4
2.1 Polynôme d’interpolation et son calcul ..................................................... — 4
2.2 Erreur d’interpolation .................................................................................. — 5
2.3 Choix des points d’interpolation ................................................................ — 5
2.4 Convergence ................................................................................................ — 5
2.5 Polynôme d’interpolation d’Hermite.......................................................... — 6
2.6 Exemples d’interpolation non polynomiale .............................................. — 6
3. Quadrature numérique ........................................................................... — 7
3.1 Quadrature de type d’interpolation............................................................ — 7
3.2 Convergence et stabilité.............................................................................. — 7
3.3 Méthodes des trapèzes et de Romberg ..................................................... — 8
3.4 Méthodes de Gauss et polynômes orthogonaux...................................... — 8
4. Résolution des équations ...................................................................... — 10
4.1 Méthode des approximations successives................................................ — 10
4.2 Ordre d’une suite ......................................................................................... — 10
4.3 Accélération de la convergence ................................................................. — 11
4.4 Méthodes particulières................................................................................ — 11
4.5 Tests d’arrêt.................................................................................................. — 11
4.6 Méthode de Bairstow .................................................................................. — 12
4.7 Systèmes d’équations non linéaires .......................................................... — 12
5. Intégration des équations différentielles.......................................... — 12
5.1 Définition du problème ............................................................................... — 12
5.2 Méthodes à pas séparés ............................................................................. — 13
5.3 Méthodes à pas liés..................................................................................... — 15
5.4 Problèmes aux limites................................................................................. — 17
6. Résolution des systèmes d’équations linéaires .............................. — 17
6.1 Méthodes directes ....................................................................................... — 18
6.2 Méthodes itératives ..................................................................................... — 20
7. Calcul des valeurs propres .................................................................... — 22
7.1 Méthode de la puissance ............................................................................ — 22
2 - 1989

7.2 Calcul du polynôme caractéristique........................................................... — 22


7.3 Forme de Hessenberg ................................................................................. — 23
7.4 Méthode de décomposition........................................................................ — 23
8. Approximation .......................................................................................... — 25
8.1 Meilleure approximation. Théorie.............................................................. — 26
8.2 Meilleure approximation. Exemples .......................................................... — 27
A 1 220

Références bibliographiques ......................................................................... — 28

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
© Techniques de l’Ingénieur, traité Sciences fondamentales A 1 220 − 1
MÉTHODES NUMÉRIQUES DE BASE ________________________________________________________________________________________________________

l est bien connu que les méthodes utilisées en mathématiques classiques sont
I incapables de résoudre tous les problèmes. On ne sait pas, par exemple,
donner une formule pour calculer exactement le nombre x unique qui vérifie
x = exp(– x) ; on ne sait pas non plus trouver la solution analytique de certaines
équations différentielles ni calculer certaines intégrales définies. On remplace
alors la résolution mathématique exacte du problème par sa résolution numé-
rique qui est, en général, approchée. L’analyse numérique est la branche des
mathématiques qui étudie les méthodes de résolution numérique des problèmes,
méthodes que l’on appelle constructives. Par méthode constructive, on entend
un ensemble de règles (on dit : algorithme) qui permettent d’obtenir la solution
numérique d’un problème avec une précision désirée après un nombre fini d’opé-
rations arithmétiques.
L’analyse numérique est une branche assez ancienne des mathématiques.
Autrefois, en effet, les mathématiciens développaient les outils dont ils avaient
besoin pour résoudre les problèmes posés par les sciences de la nature. C’est
ainsi que Newton était avant tout un physicien, Gauss un astronome... Ils s’aper-
çurent rapidement que les problèmes pratiques qui se posaient étaient trop
compliqués pour leurs outils et c’est ainsi que, peu à peu, s’élaborèrent les tech-
niques de l’analyse numérique. Ces méthodes ne connurent cependant leur essor
actuel qu’avec l’avènement des ordinateurs aux alentours des années 1945-1947.
Ce qui suit n’est pas un cours théorique d’analyse numérique. Il existe d’excel-
lents livres pour cela. Ce n’est pas non plus un catalogue de méthodes et de
recettes. Pour être utilisées correctement et pour que leurs résultats soient inter-
prétés correctement, les méthodes d’analyse numérique nécessitent une
connaissance des principes de base qui ont guidé les mathématiciens ; il est très
difficile, voire impossible, d’utiliser un algorithme d’analyse numérique comme
une boîte noire. Pour ces raisons, une voie médiane a été choisie et les algo-
rithmes sont toujours replacés dans leur contexte théorique ; le lecteur soucieux
des démonstrations pourra se référer à la littérature correspondante.
Les méthodes d’analyse numérique sont destinées à être programmées sur
ordinateur. L’arithmétique de l’ordinateur n’a qu’une précision limitée (par la
technologie), ce qui pose souvent des problèmes extrêmement importants qu’il
faut pouvoir analyser et éviter. C’est pour cela que le premier paragraphe est
consacré à cette question.

1. Arithmétique de l’ordinateur Il y a deux façons de procéder : la troncature ou l’arrondi. Sup-


posons qu’un mot de l’ordinateur ne puisse contenir que t digits de
la mantisse (pour simplifier le raisonnement, nous supposerons que
1.1 Virgule flottante normalisée notre ordinateur travaille lui aussi en base 10, ce qui ne changera
pratiquement rien à nos conclusions). On peut tout simplement
couper la mantisse de a après son t ième digit : c’est la troncature.
Soit a un nombre réel. On peut toujours l’écrire sous la forme : On peut aussi, suivant la valeur du digit a t + 1 , arrondir le digit a t :
a = ± 0, a1a 2a 3 ... 10q si a t + 1  5 , on remplacera a t par at + 1 et l’on tronquera, sinon on
tronquera directement. La plupart des ordinateurs travaillent en
où l’exposant q est un nombre entier relatif et où les ai sont les arrondi. Le nombre réel a est donc représenté dans l’ordinateur par
chiffres décimaux de a avec a1 ≠ 0. On dit alors que a est écrit en une valeur approchée, que nous noterons fl(a), obtenue par tron-
virgule flottante normalisée. En général, la mantisse a1a 2a 3 ... de a cature ou par arrondi selon la technologie de l’ordinateur. L’erreur
possède une infinité de chiffres (on dit : digits ou bits). commise en remplaçant a par fl(a) s’appelle erreur d’affectation. Elle
Dans un ordinateur, chaque nombre est placé dans un mot. Un est donnée par le théorème 1.
mot est un ensemble (fini) de petites cases qui peuvent contenir un 0
ou un 1 car les ordinateurs travaillent, pour des raisons techno- Théorème 1
logiques, dans un système de numération dérivé du système binaire.
Le problème qui se pose maintenant à nous est simple : comment a – f l ( a )  K a 10 –t où t est le nombre de digits décimaux
placer un nombre ayant une infinité de digits dans un mot qui n’en de la mantisse des mots de l’ordinateur et où K = 10 si l’ordina-
comporte qu’un nombre fini ? teur travaille par troncature et où K = 5 s’il travaille par arrondi.

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
A 1 220 − 2 © Techniques de l’Ingénieur, traité Sciences fondamentales
_______________________________________________________________________________________________________ MÉTHODES NUMÉRIQUES DE BASE

1.2 Opérations arithmétiques Si l’on veut obtenir un algorithme qui ne présente pas cet
inconvénient, un algorithme numériquement stable, il faut éliminer
et conséquences la différence de nombres voisins qui engendre une erreur de
cancellation. Cela est possible. En effet, l’une des deux racines est
toujours bien calculée : celle pour laquelle le signe devant la racine
Les quatre opérations arithmétiques élémentaires (+, –, × et /) ne carrée est le même que celui de – b. Posons donc :
s’effectuent pas directement dans la mémoire centrale de l’ordina-
teur, mais dans une unité arithmétique dont les mémoires
x 1 =  – b + ε b 2 – 4 ac   2 a
comportent plus de t digits. Une fois le calcul effectué dans cette
unité arithmétique, le résultat est renvoyé dans la mémoire de avec ε = + 1 si b < 0 et ε = – 1 si b  0 . x1 sera toujours bien cal-
l’ordinateur ; celui-ci doit donc le tronquer ou l’arrondir puisqu’il culé. Il faut alors se souvenir que le produit des racines est égal à
possède plus de t digits. Par conséquent, l’erreur commise sur une c /a. On calculera donc la seconde racine par :
opération arithmétique élémentaire est régie par le théorème pré-
cédent, c’est-à-dire que l’on a le théorème 2. x 2 = c /ax1
x 2 sera toujours bien calculé : l’algorithme est numériquement
Théorème 2 stable, nous en avons éliminé les causes possibles d’erreurs de
a  b – f l (a  b)  K a  b 10 –t où  désigne l’une des opé- cancellation.
rations +, –, × ou /. Cette notion de stabilité numérique est liée à un algorithme.

Voyons maintenant les conséquences pratiques fondamentales


qui se déduisent de ce résultat. Soit à calculer 1 + ε . On voit que, 1.3 Conditionnement d’un problème
si l’ordinateur travaille par arrondi et si | ε | < 5 × 10 – t (ou si
| ε | < 101 – t dans le cas de la troncature), alors on aura :
À la notion de stabilité numérique d’un algorithme vient
f l (1 + ε ) = 1
s’adjoindre une notion liée au problème mathématique lui-même :
La même conclusion restera valable dans le calcul de a ± b si les le conditionnement. Avant de résoudre un problème, il faut intro-
ordres de grandeur de a et de b sont très différents puisque : duire les données dans l’ordinateur. Celles-ci sont entachées d’une
erreur d’affectation et le problème que l’on va résoudre diffère donc
a ± b = a (1 ± b/a) un peu de celui que l’on aurait dû résoudre. Il se peut que la solution
On peut penser que l’erreur commise est minime, mais il n’en exacte du problème ainsi perturbé soit très différente de la solution
est rien. En effet, soit à calculer : exacte du problème initial non perturbé : c’est la notion de condi-
tionnement d’un problème. On dit qu’un problème est bien
(y + x ) – x y + (x – x ) conditionné si une petite variation des données n’entraîne qu’une
u = ----------------------------- et v = ----------------------------
y y petite variation des résultats. Inversement, un problème est mal
conditionné si une petite variation des données peut entraîner une
où y ≠ 0 et où les parenthèses indiquent celle des opérations à effec- grande variation des résultats. Naturellement, les notions de petite
tuer en premier. On a u = v = 1. Sur l’ordinateur si l’on prend x = 1 et grande variations dépendent de t , le nombre de digits de la
et y = ε tel que fl (1 + ε ) = 1, alors on obtient fl (v ) = 1 et fl (u) = 0. Par mantisse des mots de l’ordinateur. On voit que la notion de condition-
conséquent, sur ordinateur l’addition n’est pas associative et n’est nement est liée au problème mathématique lui-même et qu’elle est
pas commutative. L’exemple précédent montre également que les indépendante de la stabilité numérique de l’algorithme qui sera
erreurs peuvent être importantes et qu’une formule mathémati- ensuite utilisé pour le résoudre. Ces deux notions sont à prendre
quement exacte peut conduire, sur ordinateur, à des résultats en compte simultanément dans l’analyse des résultats numériques
complètement faux. fournis par l’ordinateur, de même qu’il faudra également tenir
Calculons maintenant sur ordinateur la différence a = b – c lorsque compte de la précision de la méthode de résolution utilisée, puisque
b et c sont très voisins. Par exemple, si b = 0,183 256 et c = 0,183 255 nous avons dit, dans l’introduction, que la majorité des méthodes
et si t = 6, on obtient a = 0,000 001, c’est-à-dire 0,100 000 × 10–5 en d’analyse numérique étaient des méthodes approchées.
virgule flottante normalisée, résultat parfaitement exact. Il faut
cependant bien voir que les cinq 0 qui suivent le 1 dans le résultat
n’ont aucune signification et qu’ils sont complètement arbitraires 1.4 Correction de l’arithmétique
puisque l’on ne connaissait que les 6 premiers chiffres significatifs
de b et de c. Si l’on utilise maintenant la valeur de a dans des calculs
ultérieurs, tout se passera donc comme si l’on ne disposait plus que En face des erreurs dues à l’arithmétique de l’ordinateur, on peut
d’un seul chiffre significatif exact, comme si l’ordinateur ne travaillait avoir plusieurs attitudes. On peut d’abord chercher à estimer ces
plus qu’avec t = 1. On voit donc le risque énorme que l’on prend en erreurs en se basant sur les majorations des théorèmes 1 et 2. On
continuant les calculs. C’est l’erreur de cancellation qui se produit se place alors dans le pire des cas, celui où les erreurs ne se
dans la différence de deux nombres voisins ; elle est la principale compensent jamais, et les bornes obtenues ainsi ne sont pas réa-
source d’erreur sur ordinateur. Donnons-en un exemple ; soit à listes. À de telles majorations, il vaut mieux préférer une estimation
calculer les deux racines de : statistique des erreurs dues à l’arithmétique de l’ordinateur : c’est
ax 2 + bx + c = 0 la méthode de permutation-perturbation due à La Porte et Vignes.
On trouvera le détail de cette méthode ainsi que de nombreux logi-
à l’aide des formules classiques. Pour a = 10– 4, b = 0,8 et c = – 10– 4, ciels dans [1] [2]. Une autre attitude consiste à corriger l’arithmétique
les racines sont – 8 × 103 et – 1,25 × 10– 4. Un ordinateur travaillant de l’ordinateur. Comme c’est dans une somme de termes que les
par arrondi avec t = 6 trouve bien la première racine mais donne erreurs peuvent le plus s’accumuler, nous allons montrer comment
corriger un tel calcul par une méthode due à Pichat [3]. Soit à
5,96 × 10–4 pour la seconde. L’erreur provient de la cancellation dans calculer :
le calcul de – b + b 2 – 4 ac : on dit que l’algorithme utilisé est n
numériquement instable S = ∑ xi
i=1

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
© Techniques de l’Ingénieur, traité Sciences fondamentales A 1 220 − 3
MÉTHODES NUMÉRIQUES DE BASE ________________________________________________________________________________________________________

et soit fl (S ) la valeur obtenue sur ordinateur après calcul. Pour obte- Pour obtenir ce polynôme P, il y a deux possibilités principales.
nir fl (S ), on effectue une boucle. On pose : La première est d’utiliser la formule d’interpolation de Lagrange
qui dit que P est donné par :
S1 = x1
n

∑ Li ( x ) f ( xi )
puis on calcule :
P (x ) =
Si = S i – 1 + x i pour i = 2, ..., n
i=0
On obtient :
n
Sn = fl (S ) avec L i (x) = ∏ ( x – x j )/ ( x i – x j )
Soit ei l’erreur faite sur la i ième somme. Naturellement, on aura : j = 0
j≠i
n–1
Il est facile de voir que L i (x i ) = 1 et que L i (x k ) = 0 pour k ≠ i, donc
S = fl ( S ) + ∑ ei d’après l’unicité du polynôme d’interpolation, cette formule nous
i=1 fournit bien P puisque P (xk ) = f (xk ) pour k = 0, ..., n. Naturellement,
Les e i se calculent à l’aide des formules : les L i dépendent de n et donc, si l’on veut ajouter de nouveaux
points d’interpolation et augmenter n , tous les calculs seront à
Si – 1  xi recommencer.
 – S i + S i – 1 + x i si
ei =  Pour cette raison, on utilise souvent le schéma de Neville-Aitken
 – S i + x i + S i – 1 si Si – 1 < xi
qui est particulièrement bien adapté à l’adjonction de nouveaux
(i )
n–1 points d’interpolation. Appelons T k le polynôme de degré au plus
Tous les chiffres décimaux de T = S n + ∑ e i sont exacts. Soit, égal à k qui interpole f en x i , ..., x i + k , c’est-à-dire que :
i=1
(i )
par exemple, à calculer : T k ( xj ) = f ( xj ) pour j = i, …, i + k
1 000
D’après cette définition, on a donc :
S = 1+ ∑ 10 – 6 = 1,001
(i )
i=1 T 0 (x) = f (x i) pour i = 0, …, n
Sur un ordinateur travaillant en arrondi avec t = 6, on obtient
(i )
fl (S ) = 1,000 95 et T = 1,001 00. On montre que les autres polynômes T k peuvent se calculer
On trouvera dans [4] d’autres exemples numériques ainsi que des récursivement à l’aide du schéma de Neville-Aitken :
conseils pratiques sur l’utilisation de quelques méthodes d’analyse
(i ) (i + 1)
numérique. Signalons que [33] contient des programmes FORTRAN (i ) ( x i + k + 1 – x ) T k (x ) – ( x i – x ) T k (x )
de nombreuses méthodes numériques ainsi que beaucoup T k+1 (x ) = --------------------------------------------------------------------------------------------------------------
-
x i + k + 1 – xi
d’exemples avec des discussions sur les résultats numériques
obtenus. (0 )
pour k = 0, ..., n – 1 et i = 0, ..., n – k – 1. Le polynôme T n ainsi
obtenu est le polynôme d’interpolation de f en x 0 , ..., xn . On place
habituellement ces polynômes dans un tableau à double entrée :
2. Interpolation
2.1 Polynôme d’interpolation et son calcul
Soit f une fonction réelle d’une variable réelle (ou, ce qui ne change
rien, une fonction complexe d’une variable complexe). On suppose
que l’on connaît les valeurs de f (x 0 ), f (x 1), ..., f (xn ) et l’on cherche
un polynôme P tel que :
P (x i ) = f (x i ) pour i = 0, ..., n
On dit que P est le polynôme d’interpolation de f (ou qu’il
interpole f ) en x 0 , x 1 , ..., xn . On a le résultat fondamental du
théorème 3 en supposant qu’au moins l’une des quantités f (x i ) est
différente de zéro.

Théorème 3 On voit que l’on se déplace dans ce tableau à partir de la colonne


de gauche qui est connue, en allant vers la droite et de haut en bas.
Une condition nécessaire et suffisante pour qu’il existe un Les flèches indiquent comment obtenir, à l’aide de la formule pré-
unique polynôme P de degré au plus égal à n qui interpole f en (i )
x 0 , x 1 , ..., xn est que les abscisses d’interpolation x 0 , x 1 , ..., xn cédente, un polynôme T k + 1 de la colonne k + 1 à partir de deux
soient toutes distinctes les unes des autres. (i ) (i + 1)
polynômes T k et T k de la colonne k. Si l’on garde en mémoire
(n ) (n – 1) (0)
la dernière diagonale montante T 0 , T 1 , …, T n , il est alors
facile d’ajouter un nouveau point d’interpolation.

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
A 1 220 − 4 © Techniques de l’Ingénieur, traité Sciences fondamentales
_______________________________________________________________________________________________________ MÉTHODES NUMÉRIQUES DE BASE

2.2 Erreur d’interpolation Le choix optimal des points d’interpolation consiste donc à
prendre les racines x 0 , ..., xn de Tn + 1 qui sont données par :
Dans la pratique, l’interpolation polynomiale sert à remplacer une 2i + 1
fonction f , qui est soit inconnue, soit trop compliquée, par une fonc- x i = cos ------------------- π pour i = 0, …, n
2n + 2
tion plus simple, en l’occurrence un polynôme. On dit que l’on
approxime f par le polynôme d’interpolation P. Quand on utilise une
approximation, comme c’est le cas dans de nombreuses méthodes
d’analyse numérique, il est fondamental d’étudier l’erreur d’approxi- 2.4 Convergence
mation. Naturellement, sauf cas particulier, l’expression de l’erreur
ne permet pas de calculer cette erreur exactement (car, s’il en était Puisque l’on cherche à approximer une fonction f par un polynôme
ainsi, il n’y aurait plus d’erreur) ; elle peut cependant être très utile d’interpolation, il est une seconde question qu’il est naturel de se
pour en calculer une borne supérieure. C’est ainsi que, pour l’inter- poser : celle de la convergence (en un sens à préciser) de ces poly-
polation polynomiale, on démontre le théorème 4. nômes d’interpolation lorsque n augmente indéfiniment.
On se donne n et des abscisses d’interpolation distinctes
Théorème 4 (n) (n) (n)
x 0 , x 1 , …, x n . Soit Pn le polynôme tel que :
Soit I un intervalle contenant x 0 , ..., xn et x. Si f est n + 1 fois
continûment dérivable sur I, alors il existe ξ ∈ I et dépendant (n)
P n x i  = f x i 
(n)
pour i = 0 , …, n
de x tel que :
v (x ) Soit C∞ [– 1, + 1] l’espace des fonctions continues sur [– 1, + 1]
f (x ) – P ( x ) = --------------------- f ( n + 1 ) ( ξ )
(n + 1) ! muni de la norme :
f = max f ( x )
avec v (x ) = (x – x 0)(x – x1) ... (x – xn ) x ∈ [ – 1 , +1 ]

On démontre le résultat négatif du théorème 5.


Cette expression ne permet pas de calculer la valeur exacte de
l’erreur parce que, en général, ξ est inconnu. Elle peut permettre
d’en calculer une majoration ou de choisir les points d’interpola- Théorème 5
tion x 0 , ..., xn de façon optimale lorsque ceux-ci ne sont pas impo- (n)
Quelles que soient les abscisses x i pour i = 0, ..., n et pour
sés. n = 0, 1, ..., il existe au moins une fonction f ∈ C ∞ [– 1, + 1] telle
que la suite des polynômes d’interpolation (Pn ) ne converge pas
vers f dans C ∞ [– 1, + 1], c’est-à-dire telle que :
2.3 Choix des points d’interpolation
max f (x ) – P n (x )
x ∈ [ – 1 , +1 ]
Supposons que x 0 , ..., xn et tous les points x possibles appar-
tiennent à l’intervalle [– 1, + 1] (auquel on pourra toujours se ramener ne tende pas vers zéro lorsque n tend vers l’infini.
par changement de variable). On a alors :
1 On voit donc qu’il faut faire attention : le résultat ne sera pas
max f ( x ) – P (x )  ---------------------- max v (x ) max f ( n + 1 ) (x )
x ∈ [ – 1 , +1 ] ( n + 1 ) ! x ∈ [ –1 , +1 ] x ∈ [ – 1 , +1 ] toujours meilleur en augmentant n. Nous avons obtenu un résultat
négatif parce que nous demandions beaucoup : nous avons seule-
La borne supérieure de l’erreur ainsi obtenue contient deux ment imposé à f d’être continue et nous n’avons imposé aucune
termes : un qui dépend de f (n + 1)et sur lequel on ne peut rien et un (n)
contrainte sur les points d’interpolation x i . Dans la pratique, il
qui dépend uniquement des points d’interpolation, c’est : n’y a pas lieu d’être aussi pessimiste car, dès que l’on demande
max v (x ) moins, en imposant soit des conditions sur f, soit des conditions
x ∈ [ – 1 , +1 ] (n)
sur les x i , on obtient des résultats positifs. C’est ainsi que l’on a
le théorème 6.
On peut alors se poser la question de savoir comment choisir les
points d’interpolation x 0 , ..., xn de façon à rendre ce terme le plus
petit possible. On aura ainsi minimisé une borne supérieure de Théorème 6
l’erreur (et non pas l’erreur elle-même, ce qui est différent). Ce pro- (n)
Quelle que soit f ∈ C ∞ [– 1, + 1], il existe des abscisses x i
blème, très célèbre en mathématiques, a été posé et résolu par
(i = 0, ..., n et n = 0, 1, ...) telles que :
Tchebychev et les polynômes qui répondent à cette question ont reçu
son nom. Les polynômes de Tchebychev vérifient la relation de lim max f (x ) – P n (x ) = 0
récurrence : n → ∞ x ∈ [ – 1 , +1 ]

T0 (x) = 1 T1 (x ) = x
(n)
Tn +1 (x ) = 2x Tn (x ) – Tn –1 (x ) pour n = 1, 2, ... Cependant, il n’existe pas de famille d’abscisses x i  qui
conviennent pour toutes les fonctions continues et il est plus
Tn est de degré n et, sur [– 1, + 1], on a : intéressant d’ajouter des conditions sur f comme le montre le
théorème 7.
Tn (x) = cos(n arccos x ) pour n = 0, 1, ...
On montre que, parmi les polynômes v de degré n + 1, ayant un
coefficient du terme de plus haut degré égal à 1 et leurs racines
toutes réelles, distinctes et dans [– 1, + 1], ceux qui minimisent
max v (x ) sont Tn + 1 (x )/2n.
x ∈ [ – 1 , +1 ]

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
© Techniques de l’Ingénieur, traité Sciences fondamentales A 1 220 − 5
MÉTHODES NUMÉRIQUES DE BASE ________________________________________________________________________________________________________

Théorème 7
2.6 Exemples d’interpolation
Si f ∈ C ∞ [– 1, + 1] a une dérivée k ième continue (pour un non polynomiale
certain k  1 ), alors :
lim max f (x ) – P n (x ) = 0 Jusqu’à présent, nous avons toujours interpolé f par un polynôme
n→∞ x ∈ [ – 1 , +1 ] parce que c’est un cas simple et qui couvre de nombreuses
(n)
applications.
lorsque les x i sont les racines de Tn + 1 . De plus, on a :
Cependant, les polynômes auront du mal à approcher correc-
max f ( x ) – P n ( x ) = o ( lg n /n k ) tement la fonction tan x qui présente des pôles ou la fonction
x ∈ [ – 1 , +1 ] exp (– x) qui tend vers zéro lorsque x tend vers l’infini. Il est donc
utile d’étudier l’interpolation par des familles autres que poly-
nomiales, mais c’est un problème qui devient rapidement difficile
On trouvera les démonstrations des résultats précédents ainsi même dès les conditions d’existence [6]. Nous en donnerons
que de nombreux autres résultats théoriques dans [5]. cependant deux exemples.
■ Le premier exemple concerne l’interpolation par des fractions
rationnelles. On commence par définir les différences réciproques
2.5 Polynôme d’interpolation d’Hermite de f par :
(i ) (i )
ρ –1 = 0 et ρ 0 = f ( xi ) pour i = 0, 1, …
Jusqu’à présent, nous avons imposé à notre polynôme d’inter-
polation P de satisfaire à : (i ) (i + 1) xi + k + 1 – xi
ρk+1 = ρ k – 1 + --------------------------------
(i + 1)
-
(i )
pour k, i = 0 , 1, …
P (x i ) = f (xi ), pour i = 0, ..., n ρk – ρk

Nous allons maintenant lui imposer de satisfaire en plus à : Puis on calcule les polynômes Ak et Bk par :
P’ (xi ) = f ’ (xi ), pour i = 0, ..., n
(0)
A – 1 (x ) = 1 A 0 (x ) = ρ 0
en supposant naturellement connues les valeurs de f ’(x 0 ), ..., f ’(xn ).
On dit alors que P est le polynôme d’interpolation d’Hermite de f B–1 (x ) = 0 B 0 (x ) = 1
en x 0 , ..., x n . Nous avons le théorème 8.
(0) (0)
A k + 1 (x ) =  ρ k + 1 – ρ k – 1  A k ( x ) + ( x – x k ) A k – 1 (x )
Théorème 8 (0) (0)
B k + 1 (x ) =  ρ k + 1 – ρ k – 1  B k (x ) + ( x – x k ) B k – 1 (x ) , pour k = 0, 1, …
Une condition nécessaire et suffisante pour qu’il existe un uni-
que polynôme d’interpolation d’Hermite de f en x 0 , ..., xn de A2k , A2k + 1 et B2k + 1 sont des polynômes de degré k au plus et B2k
degré au plus égal à 2n + 1 est que les abscisses x 0 , ..., xn soient est un polynôme de degré k – 1 au plus sous certaines conditions
toutes distinctes les unes des autres. d’existence que nous ne détaillerons pas ici. On démontre que la
fraction rationnelle :
On montre que ce polynôme est donné par la formule : Rn (x ) = An (x )/Bn (x )

n n interpole f en x 0 , ..., x 2n , c’est-à-dire que :


P (x) = ∑ H i (x ) f ( x i ) + ∑ V i (x ) f ′ ( x i ) R n (xi ) = f (xi ), pour i = 0, ..., 2n
i=0 i=0
2 On trouvera une étude détaillée de cette question dans [7].
avec H i (x ) = 1 – 2 ( x – x i ) L ′i ( x i )L i (x )
■ Voyons maintenant un second exemple. Soit g 0 , ..., g n des fonc-
2
V i (x ) = ( x – x i ) L i (x ) tions données. Nous allons rechercher P de la forme :
n
P (x) = a 0 g 0 (x ) + ... + an gn (x )
et L i (x ) = ∏ ( x – xj )/ ( xi – xj )
j = 0 qui interpole f en x 0 , ..., xn , c’est-à-dire tel que :
j≠i
P (x i ) = f (x i ), pour i = 0, ..., n
Pour l’erreur, on a le théorème 9.
On voit que ce problème généralise l’interpolation polynomiale
que l’on retrouve pour gi (x ) = x i. Il existe, pour calculer P, un algo-
Théorème 9 rithme qui généralise le schéma de Neville-Aitken et qui est dû à
Soit I un intervalle contenant x 0 , ..., xn et x. Si f est 2n + 2 fois (i )
Mühlbach [8]. Soit P tel que :
continûment dérivable sur I, alors il existe ξ ∈ I et dépendant k

de x tel que : (i )
P k (x ) = a 0 g 0 (x ) + … + a k g k (x )
v 2(x )
f (x ) – P (x ) = ------------------------ f ( 2n + 2 ) ( ξ ) (i )
( 2n + 2 )! et P k ( xj ) = f ( xj ) pour j = i, …, i + k
avec v (x ) = (x – x 0 )(x – x 1)...(x – xn )

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
A 1 220 − 6 © Techniques de l’Ingénieur, traité Sciences fondamentales
_______________________________________________________________________________________________________ MÉTHODES NUMÉRIQUES DE BASE

Naturellement, comme dans le schéma de Neville-Aitken pour Par construction même de cette formule et d’après le théorème 9,
l’interpolation polynomiale, les coefficients a 0 , ..., a k dépendent de on a le théorème 10.
(i )
k et de i. On montre que ces P k peuvent être calculés récur-
sivement à l’aide du schéma suivant : Théorème 10
Si f est un polynôme de degré n au plus, alors In = I.
(i ) pour i = 0, 1, …
P 0 (x ) = f ( x i ) g 0 (x ) / g 0 ( x i )
(i ) On dit que In est exact sur  n , l’espace vectoriel des polynômes
g 0, j (x ) = g j ( x i ) g 0 (x ) / g 0 ( x i ) – g j (x ) pour i = 0, 1, … ; j = 1, 2, …
de degré inférieur ou égal à n. Ce résultat est valable quel que soit
(i + 1) (i ) (i ) (i + 1) le choix des abscisses d’interpolation. Nous allons donc, dans un
(i ) g k , k + 1 (x ) P k (x ) – g k , k + 1 (x ) P k (x ) premier temps, nous borner à un choix particulièrement simple
P k+1 (x ) = -------------------------------------------------------------------------------------------------------------------
(i + 1) (i )
-
g k , k + 1 (x ) – g k , k + 1 (x ) des x i . On pose :
pour i , k = 0, 1, … h = (b – a)/n

(i + 1) (i ) (i ) (i + 1)
et l’on prend :
(i ) g k ,k + 1 (x ) g k , j (x ) – g k , k + 1 (x ) g k , j (x ) x i = a + ih pour i = 0, ..., n
g k + 1, j ( x ) = -----------------------------------------------------------------------------------------------------------------
(i + 1) (i )
-
g k , k + 1 (x ) – g k , k + 1 (x ) (n)
Le premier travail est de calculer les coefficients A i de la formule
pour i , k = 0, 1, … ; j = k + 2, … de quadrature. Lorsque ω (x ) = 1 (ce qui est le cas le plus courant
et nous nous placerons dans ce cas jusqu’à nouvel avis), il existe
(0) (n)
On aura P ( x ) = (x ) si aucune division par zéro ne se produit
Pn des tables qui donnent les valeurs numériques des A i . C’est ainsi
dans l’algorithme. On trouvera dans [8] une étude de ces conditions que l’on a :
ainsi que des résultats théoriques concernant cet algorithme. Un
sous-programme FORTRAN est donné dans [9]. (1) (1)
A 0 = A 1 = ( b – a )/ 2
(2) (2) (2)
A 0 = A 2 = ( b – a )/ 6 et A 1 = 4 ( b – a )/6

3. Quadrature numérique Les formules correspondantes s’appellent : formules de quadra-


ture de Newton-Cotes.

3.1 Quadrature de type d’interpolation


Nous allons maintenant nous intéresser à l’obtention d’une valeur
3.2 Convergence et stabilité
numérique approchée de l’intégrale définie :
La première question importante qu’il nous faut résoudre est


b celle de la convergence : la suite (In ) converge-t-elle vers I lorsque
I = f (x ) ω (x ) d x n tend vers l’infini, ∀ f ∈C ∞ [a, b] ?
a
La seconde question à laquelle il nous faut répondre est celle de
ω
b
la stabilité numérique de la formule de quadrature. En effet, dans
où ω (x ) > 0 , ∀ x ∈ ]a, b [ et (x ) d x < + ∞ la pratique, les f (x i ) ne sont pas connus exactement parce qu’ils pro-
a
viennent de mesures ou parce qu’ils sont entachés d’une erreur de
L’idée de base des méthodes numériques pour résoudre ce pro- calcul due à l’arithmétique de l’ordinateur. Donc, au lieu de calculer
blème (que l’on appelle : méthodes de quadrature) est de remplacer In , on calcule :
la fonction f que l’on ne sait pas intégrer par son polynôme d’inter- n
(n)
polation. On a une méthode de quadrature de type interpolation. ∑Ai ( f ( xi ) + εi )
Soit donc a  x 0 < x 1 < … < x n – 1 < x n  b et soit Pn le polynôme i=0

d’interpolation de f (et non pas de f ω ) en ces points. Nous avons, La différence entre ce que l’on calcule réellement et ce que l’on
d’après le théorème 9, f (x ) = Pn (x ) + En (x ) où En (x ) est l’erreur voulait calculer est donc :
d’interpolation en x. Par conséquent : n
(n)
∑Ai εi

b b b
f (x ) ω ( x ) d x = Pn ( x ) ω ( x ) d x + E n (x ) ω (x ) d x i=0
a a a On dira qu’une formule de quadrature est stable s’il existe une
En remplaçant Pn par son expression donnée par la formule de constante M telle que pour tout n et quels que soient ε 0 , ..., εn on ait :
Lagrange (§ 2.1), on obtient : n
(n)
I = In + Rn ∑Ai εi  M max
0in
εi
n i=0
(n)
avec In = ∑ Ai f ( xi )
On démontre les théorèmes 11 et 12.
i=0


b
(n)
Ai = L i (x ) ω (x ) d x Théorème 11
a


b Une condition nécessaire et suffisante pour qu’une méthode
Rn = E n (x ) ω (x ) d x de quadrature soit convergente sur C ∞ [a, b ] est que :
a a ) elle soit convergente lorsque f est un polynôme arbitraire,
In est une valeur approchée de I et Rn est l’erreur de la formule b ) il existe une constante M telle que pour tout n :
de quadrature. n
(n )
∑ A i M
i=0

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
© Techniques de l’Ingénieur, traité Sciences fondamentales A 1 220 − 7
MÉTHODES NUMÉRIQUES DE BASE ________________________________________________________________________________________________________

Par contre, les résultats fournis par cette méthode ne sont souvent
Théorème 12 pas très précis et la suite (Tn ) ne converge pas très vite vers I. Nous
Une condition nécessaire et suffisante pour qu’une méthode allons donc voir comment améliorer la précision de la formule des
de quadrature soit stable est que la condition b du théorème 11 trapèzes ou, ce qui revient ici au même, comment accélérer la conver-
soit satisfaite. gence de (Tn ). L’idée est d’abord d’utiliser la méthode des trapèzes
pour différentes valeurs du pas h . On obtient ainsi différentes valeurs
approchées de I :
On démontre que, pour la méthode de Newton-Cotes, cette
condition n’est pas vérifiée et, par conséquent, on a le théorème 13. T (h 0 ), T (h 1), T (h 2), ...

telles que lim T ( h n ) = I si lim h n = 0 . Puis, on fait passer un


Théorème 13 n→∞ n→∞
La méthode de Newton-Cotes n’est ni stable ni convergente polynôme d’interpolation par ces valeurs de T (h i ) et enfin on calcule
sur C ∞ [a, b]. la valeur en 0 de ce polynôme d’interpolation, ce qui nous fournit,
en général, une valeur approchée de I bien meilleure que les T (h i ).
Pour des raisons de stabilité numérique et de minimisation du
nombre d’évaluations de f à effectuer, on prend hi + 1 = hi /2. Pour
3.3 Méthodes des trapèzes et de Romberg des raisons basées sur la justification théorique de cette procédure
[5], on effectue le changement de variable x = h 2 dans le polynôme
En raison du théorème 13, on ne peut pas utiliser directement la qui interpole les T ( h i ). Enfin, dans la pratique, le schéma de
méthode de Newton-Cotes mais on est obligé de passer par le
Neville-Aitken est particulièrement bien adapté au calcul des valeurs
biais d’une méthode de quadrature composite. On écrit que :
(n)
en 0 de ces polynômes d’interpolation. Appelons T la valeur en

b x1 x2 xn k
0 du polynôme d’interpolation de T (h ) en
f (x ) d x = f (x ) d x + f (x ) d x + … + f (x ) d x
a x0 x1 xn – 1 x n = h n2 , …, x n + k = h n2 + k = h n2 / 2 2k .
et l’on va calculer séparément une valeur numérique approchée de Nous obtenons l’algorithme suivant :
chacune de ces n intégrales en utilisant la plus simple de toutes les
formules de Newton-Cotes, celle à deux points qui est de la forme (n)
T 0 = T ( hn ) = T ( h0 / 2 n ) pour n = 0 , 1, …
(voir fin du paragraphe 3.1) :
k+1 (n + 1) (n)
4 T k –T k

(n)
xi + 1
x –x T = ---------------------------------------------------
- pour k , n = 0, 1, …
≈ -----------------------
k+1
f (x ) d x
i+1 i
- [ f ( xi ) + f ( xi + 1 ) ] 4k + 1 – 1
xi 2
Si l’on suppose f suffisamment dérivable, alors on démontre que :
En prenant les abscisses xi équidistantes, comme nous l’avons fait (n) (n)
dans les méthodes de Newton-Cotes, on obtient une valeur • lim T k = lim T k = I ;
n→∞ k→∞
approchée de I que nous noterons Tn ou T (h ) selon qu’il vaut mieux
(n) 2k + 2
faire ressortir sa dépendance en n ou celle en h [on rappelle que • T k – I = O h n  lorsque n tend vers l’infini ;
h = (b – a )/n ] :
(n) (n)
• la suite ( T k + 1) pour k fixé converge vers I plus vite que ( T k ) ,
n–1
h
T n = ----- f ( a ) + 2
2 ∑ f ( a + ih) + f ( b ) c’est-à-dire que, pour tout k :
i=1 (n) (n)
lim ( T k+1 – I )/ ( T k –I) = 0
n→∞
Cette formule s’appelle méthode des trapèzes et l’on démontre
que : (n)
Les T k ainsi obtenus sont, en général, bien plus précis que les
( b – a )3
- f ″ ( ξ ) avec ξ ∈ [ a, b ]
T n – I = ------------------- (n)
12n 2 T 0 fournis par la méthode des trapèzes. Cette méthode s’appelle
méthode de Romberg. Pour plus de détails sur sa mise en œuvre
La méthode des trapèzes est de la forme : effective, on peut consulter la documentation [4].
n
(n)
Tn = ∑Ai f ( xi )
i=0 3.4 Méthodes de Gauss
avec xi = a + ih et polynômes orthogonaux
(n) (n) (n) Revenons maintenant au cas général avec une fonction ω vérifiant :
A 0 =A n = h/2 et A i =h pour i = 1, …, n – 1

ω
b
On a donc : ∀ x ∈ ]a, b[, ω (x ) > 0 et (x )dx < + ∞
n n a
(n) (n )
∑ Ai = ∑ Ai = b–a
Nous avons vu que, quel que soit le choix de x 0 , x1 , ..., xn , In
i=0 i=0
est exact sur n (théorème 10). Peut-on avoir mieux ou, en d’autres
qui est une constante indépendante de n . Par ailleurs, d’après la for- termes, est-il possible de choisir x 0 , ..., xn de sorte que In soit exact
mule de l’erreur, on voit que la méthode des trapèzes est convergente pour des polynômes de degré le plus élevé possible ? Nous allons
lorsque f est un polynôme ; par conséquent, nous avons démontré maintenant étudier un tel choix. On démontre le théorème 15.
le théorème 14.

Théorème 14
La méthode des trapèzes est stable et convergente sur
C ∞ [a, b].

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
A 1 220 − 8 © Techniques de l’Ingénieur, traité Sciences fondamentales
_______________________________________________________________________________________________________ MÉTHODES NUMÉRIQUES DE BASE

Comme nous venons de le voir, les racines de vk possèdent éga-


Théorème 15 lement certaines propriétés intéressantes. On a ainsi le théorème 18.
Une condition nécessaire et suffisante pour que In soit exact
sur  2n + 1 est que :
Théorème 18


b
Pour tout k , les racines de vk sont réelles, distinctes et appar-
xi v n + 1 (x ) ω (x )dx = 0 , pour i = 0, …, n tiennent à [a , b ] ; vk et vk + 1 n’ont pas de racine commune. Entre
a
deux racines consécutives de vk il y a une et une seule racine de
avec vn +1 (x ) = (x – x0)(x – x1)...(x – xn ) vk + 1 et inversement.

Ce théorème nous permet donc de répondre à la question que Après avoir calculé récursivement le polynôme vn + 1 grâce à la
nous nous étions posée. Il faut d’abord rechercher un polynôme relation de récurrence du théorème 17, il faut calculer ses racines.
vn + 1 , de degré n + 1, qui satisfait aux relations du théorème 15 Nous verrons dans le paragraphe 4 des méthodes numériques qui
(les relations d’orthogonalité). On démontre que, grâce aux permettent de résoudre ce problème (par exemple, la méthode de
conditions imposées sur ω, un tel polynôme existe toujours, que Bairstow). Il nous faut ensuite calculer les coefficients A
(n)
de la
i
ses racines x 0 , x1 , ..., xn sont réelles, distinctes et appartiennent à
formule de quadrature de Gauss. On démontre que ces coefficients
[a, b ]. On construit donc In en prenant pour abscisses d’interpola-
sont tous strictement positifs et que l’on a :
tion x 0 , ..., xn les racines de vn + 1 qui satisfont bien aux conditions
précisées au début de ce paragraphe (x 0 , ..., xn dépendent bien (n) An + 1 hn
Ai = ---------------------------------------------
- pour i = 0, …, n
évidemment de n ). On calcule les coefficients A i par la formule
(n) v n′ + 1 ( x i ) v n ( x i )
donnée au paragraphe 3.1. La méthode de quadrature ainsi obte- où x 0 , ..., xn sont les racines de vn + 1 .
nue s’appelle méthode de Gauss. On démontre qu’elle est opti-
male car on a le théorème 16. Non seulement les méthodes de Gauss sont optimales par rapport
à un choix arbitraire des abscisses d’interpolation puisque In est
exact sur  2n + 1 au lieu de  n mais de plus on a le théorème 19.
Théorème 16
Dans la méthode de quadrature de Gauss, In n’est pas exact
Théorème 19
sur  2n + 2 (c’est-à-dire qu’il existe au moins un f ∈  2n + 2 tel Les formules de quadrature de Gauss sont stables et conver-
que In ≠ I ). gentes sur C ∞ [a , b ].

On dit que la famille de polynômes {v 0 , v1 , v 2 , ...}, qui satisfait On démontre de plus que :
aux conditions d’orthogonalité du théorème 15, forme une famille

b
de polynômes orthogonaux sur l’intervalle [a , b ] par rapport à la f ( 2n + 2 ) ( ξ )
Rn = I – In = v n2 + 1 (x ) ----------------------------- ω (x ) dx
fonction poids ω. Les familles de polynômes orthogonaux ont des a ( 2n + 2 )!
propriétés caractéristiques importantes. D’abord ils vérifient une
relation de récurrence à trois termes qui permet de les calculer où ξ dépend de x.
récursivement. Écrivons vk sous la forme : Pour terminer ce paragraphe, nous allons passer en revue les
familles de polynômes orthogonaux le plus couramment utilisées.
vk (x ) = t k x k + sk x k – 1 + ... Ces polynômes ont des applications dans de nombreux autres pro-
On démontre le théorème 17. blèmes d’analyse numérique. Chaque famille a reçu un nom parti-
culier et est désignée par une lettre souvent normalisée.
■ Polynômes de Legendre Pn
Théorème 17
Toute famille de polynômes orthogonaux {vk } satisfait à une Ils sont définis sur [– 1, + 1] avec ω (x ) = 1. Leur relation de
relation de récurrence de la forme : récurrence est :

vk + 1 (x) = (Ak + 1 x + Bk + 1) vk (x) – Ck + 1 vk – 1 (x), pour k = 0, 1, ... (n + 1) Pn + 1 (x ) = (2n + 1) x Pn (x ) – n Pn – 1 (x ) pour n = 1, 2, ...

avec v–1 (x) = 0, v0 (x) = t 0 avec P0 (x ) = 1 et P1 (x ) = x. On a :


2
Ak + 1 = t k + 1 /t k (n) 2 (1 – x i )
A i - pour i = 0, …, n
= -----------------------------------------
2
sk + 1 sk ( n + 1 )2 P n ( xi )
tk + 1 tk
B k + 1 = A k + 1 -----------
- – -----  2 2n + 3 [ ( n + 1 )! ] 4
et R n = -----------------------------------------------------3- f ( 2n + 2 ) ( ξ ) avec ξ ∈ [– 1, + 1]
tk – 1 tk + 1 hk ( 2n + 3 ) [ ( 2n + 2 )! ]
Ck + 1 = ----------------------
2
- -------------
tk hk – 1
■ Polynômes de Laguerre Ln

Ils sont définis sur [0, + ∞) avec ω (x ) = exp (– x ). Leur relation de


b
2
et hk = v k ω (x ) d x récurrence est :
a
(n + 1) Ln + 1 (x ) = (2n + 1 – x ) Ln (x ) – n Ln – 1 (x ) pour n = 1, 2, ...
Comme les polynômes vk sont déterminés à une constante avec L0 (x ) = 1 et L1 (x) = 1 – x. On a :
multiplicative près (car alors les racines restent inchangées), on
peut toujours prendre, dans les relations précédentes, tk = 1 pour (n) [ ( n + 1 )! ] 2
Ai = ---------------------------------------2- pour i = 0, …, n
tout k. Connaissant vk – 1 et vk on peut alors calculer vk + 1 . x i [ L n′ + 1 ( x i ) ]

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
© Techniques de l’Ingénieur, traité Sciences fondamentales A 1 220 − 9
MÉTHODES NUMÉRIQUES DE BASE ________________________________________________________________________________________________________

[ ( n + 1 )! ] 2
et R n = ---------------------------- f ( 2n + 2 ) ( ξ ) avec ξ ∈ [0, + ∞ ) Étudions d’abord des conditions pour que (xn ) converge vers x
( 2n + 2 )! point fixe de F et commençons par la définition 20.
■ Polynômes d’Hermite Hn
Ils sont définis sur (– ∞, + ∞) avec ω (x ) = exp (– x 2). Leur relation Définition 20
de récurrence est : Soit D une partie de  et F une application de D dans
Hn + 1 (x ) = 2x Hn (x ) – 2n Hn – 1 (x ) pour n = 1, 2, ... lui-même. S’il existe une constante positive K, strictement infé-
rieure à 1, telle que pour tout u et tout v appartenant à D on ait :
avec H0 (x ) = 1 et H1 (x) = 2x. On a :
F (u ) – F (v )  K u – v
(n) 2 n + 2 ( n + 1 )! π
Ai = -------------------------------------------
- pour i = 0, …, n on dit que F est une contraction sur D. K est appelé coefficient
[ H n′ + 1 ( x i ) ] 2 de contraction de F.
( n + 1 )!
et Rn = - f ( 2n + 2 ) ( ξ )
π -------------------------------------- avec ξ ∈ (– ∞, + ∞)
2 n + 1 ( 2n + 2 )! Le premier résultat est donné par le théorème 21.

■ Polynômes de Tchebychev de première espèce Tn


Théorème 21
Ils sont définis sur [– 1, + 1] avec ω (x ) = 1 ⁄ 1 – x 2 . Leur rela-
tion de récurrence est : Soit I = [x 0 – a, x 0 + a ] où a > 0. Supposons que F soit une
contraction sur I (de coefficient de contraction K ) et que
Tn + 1 (x ) = 2x Tn (x ) – Tn – 1 (x ) pour n = 1, 2, ... F ( x 0 ) – x 0  ( 1 – K )a . Alors la suite (xn ), fabriquée par la
méthode des approximations successives avec x 0 comme
avec T0 (x ) = 1 et T1 (x ) = x. Ce sont les polynômes que nous avons valeur initiale, converge. Soit x la limite de (xn ). x est l’unique
déjà rencontrés dans le paragraphe 2.3. On a : point fixe de F dans I. Pour tout n, xn ∈ I et l’on a :
2i + 1
xi = cos ----------------- π pour i = 0, …, n Kn
2n + 2 x n – x  ----------------- x 1 – x 0
(n)
1–K
Ai = π/ ( n + 1 ) pour i = 0, …, n

et Rn - f ( 2n + 2 ) ( ξ )
= ----------------------------------------- avec ξ ∈ [– 1, + 1]
On voit que, si les hypothèses de ce théorème sont très fortes et
2 2n + 2 ( 2n + 2 )! difficiles à vérifier en pratique, les conclusions sont également très
importantes car on démontre, grâce à la méthode des approxi-
Il existe de nombreuses autres familles importantes de polynômes mations successives, l’existence et l’unicité d’un point fixe dans I
orthogonaux. Nous renvoyons le lecteur intéressé aux ouvrages sur pour l’application F. On démontre également la convergence de la
cette question, par exemple [10]. méthode des approximations successives et l’on donne une majo-
ration de l’erreur qui montre que la vitesse de convergence dépend
de la proximité de K par rapport à 1.
Donnons maintenant le théorème 22 dont les hypothèses sont plus
4. Résolution des équations faibles mais dont les conclusions sont également moins fortes.

Soit f une application continue de  dans lui-même. Le problème Théorème 22


auquel nous allons nous intéresser dans ce paragraphe est celui de Soit x un point fixe de F. Si F est dérivable au voisinage de x
la recherche de x tel que f (x) = 0. On dit alors que x est racine de f. et si |F ’(x )| < 1, alors il existe, V ⊂  tel que, pour tout x 0 ∈V, les
Une autre façon, complètement équivalente, de poser le même pro- itérations xn + 1 = F (xn ), n = 0, 1, ... convergent vers x .
blème est de rechercher x tel que x = F (x). On dit alors que x est
point fixe de F. Dans la suite, quand nous utiliserons la lettre f (dans
un théorème ou un algorithme), cela signifiera implicitement que
le problème à résoudre est mis sous la forme f (x) = 0. Quand nous 4.2 Ordre d’une suite
utiliserons la lettre F, cela signifiera que notre problème est écrit sous
la forme x = F (x). Ces deux formulations sont équivalentes car, s’il
est sous la forme f (x) = 0, on a également x = x + af (x ) = F (x) avec Il nous faut maintenant disposer d’un outil mathématique pour
a ≠ 0 quelconque. Inversement, si l’on a x = F (x ), alors on pourra mesurer la vitesse de convergence d’une suite. C’est la notion d’ordre
écrire f (x) = x – F (x) = 0. d’une suite donnée par la définition 23.

Définition 23
4.1 Méthode des approximations Soit (xn ) une suite qui converge vers x . On dit que (xn ) est
successives d’ordre r , où r est un nombre réel supérieur ou égal à 1, s’il
existe une constante C finie et différente de zéro telle que :

Pour résoudre numériquement ce type de problème, on utilise C = lim x n + 1 – x / x n – x r


une méthode itérative dans laquelle on fabrique une suite (xn ) qui n→∞
doit converger vers x. On se donne une valeur initiale x0 puis on C s’appelle constante asymptotique d’erreur.
fabrique (xn ) par la méthode des approximations successives :
xn + 1 = F (xn ) pour n = 0, 1, ... Ces deux notions sont d’une grande importance pratique car elles
nous renseignent sur l’évolution du nombre de chiffres décimaux
exacts obtenus au fur et à mesure des itérations. En effet, posons :
d n = – lg |x n – x |

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
A 1 220 − 10 © Techniques de l’Ingénieur, traité Sciences fondamentales
_______________________________________________________________________________________________________ MÉTHODES NUMÉRIQUES DE BASE

À une constante additive près, indépendante de n , dn est égal au Il existe de nombreuses autres méthodes d’accélération de la
nombre de chiffres décimaux exacts de xn . Si nous posons : convergence. On trouvera leur description, des applications numé-
riques et des sous-programmes FORTRAN dans [11].
R = – lg C
alors on voit, d’après la définition 23, que, lorsque n est suffisamment
grand (c’est-à-dire lorsque xn est suffisamment voisin de x ), on a :
4.4 Méthodes particulières
dn + 1 ≈ rdn + R
Ainsi, en passant de l’itération n à l’itération n + 1, on multiplie Voyons maintenant un certain nombre de méthodes particulières.
environ par r le nombre de chiffres décimaux exacts et l’on en ajoute
environ R . Cela montre l’avantage des méthodes d’ordre supérieur ■ La méthode de Newton pour résoudre f (x) = 0 consiste, partant
à 1. d’un x0 arbitraire, à effectuer les itérations :
Quand la suite (x n ) est obtenue par la méthode des approxima- xn + 1 = xn – f (xn )/f ’(xn ) pour n = 0, 1, ...
tions successives, l’ordre est un nombre entier lorsque F est plusieurs
fois dérivable en x. On montre que c’est l’entier r tel que : ■ Dans la pratique, f ’(xn ) pouvant être difficile à évaluer, on le
remplace souvent par une valeur approchée. C’est ainsi que si l’on
F ’(x ) = ... = F (r – 1) (x ) =0 et F (r ) (x) ≠0 approxime f ’(xn ) par :
On a alors : ((f (xn ) – f (xn – 1))/(xn – xn – 1)
C = |F (r ) (x )|/r !
on obtient une méthode connue sous le nom de regula falsi :
Si l’on sait que F ’(x ) = ... = F (r – 1) (x) = 0, alors l’ordre est au moins
égal à r. x 0 et x 1 arbitraires
■ Remarque : tout ce qui a été vu depuis le début du paragraphe se xn – xn – 1
x n + 1 = x n – ------------------------------------------ f ( x n ) pour n = 1, 2, …
généralise au cas d’un système d’équations non linéaires (ou même f ( xn ) – f ( xn – 1 )
au cas d’un espace de Banach général). Il suffit, dans ce qui précède,
de remplacer la valeur absolue par la norme. ■ Si l’on approxime f ’(x n ) par [f (x n ) – f (x n – f (x n ))] /f (x n ), on
obtient, en posant F (x ) = x – f (x ), la méthode de Steffensen :
x 0 arbitraire
4.3 Accélération de la convergence
( F ( xn ) – xn ) 2
x n + 1 = x n – ----------------------------------------------------------------- pour n = 0, 1, …
F ( F ( x n ) ) – 2F ( x n ) + x n
Lorsque la suite (xn ), obtenue par la méthode des approximations
successives, converge lentement, on peut chercher à accélérer sa Pour ces trois méthodes, on a le théorème 25.
convergence à l’aide du procédé  2 d’Aitken. Pour cela, on construit
une seconde suite, (yn ), à l’aide de la formule suivante :
Théorème 25
( xn + 1 – xn )2 Si f ’(x) ≠ 0 et si f ’’ est continue en x, alors les méthodes de
y n = x n – ------------------------------------------------
- pour n = 0, 1, … Newton et de Steffensen sont d’ordre deux au moins et la
x n + 2 – 2x n + 1 + x n
méthode regula falsi est d’ordre ( 1 + 5 ) ⁄ 2 au moins.
On voit que cette suite se construit au fur et à mesure de la
construction de la suite (xn ) ; il suffit, pour obtenir yn , de conserver
les trois derniers termes de celle-ci. Bien que son ordre soit plus faible (≈ 1,618), la méthode regula
falsi doit être préférée aux deux autres car elle ne nécessite qu’une
■ Remarque : si l’on réduit au même dénominateur la formule seule évaluation de fonction par itération au lieu de deux. Une ité-
précédente, alors on a : ration de cette méthode dure donc deux fois moins longtemps
qu’une itération avec l’une des deux autres.
y n = ( x n x n + 2 – x n2 + 1 ) / ( x n + 2 – 2x n + 1 + x n )

Cette formule est à proscrire car elle est numériquement instable


alors que la première relation donnée était numériquement stable. 4.5 Tests d’arrêt
Pour le procédé ∆2 d’Aitken, on démontre le théorème 24.

Un problème important posé par les méthodes itératives est celui


Théorème 24 des tests d’arrêt. Dans la pratique, on ne fait bien évidemment pas
Si l’on applique le procédé ∆2 d’Aitken à une suite (xn ) qui une infinité d’itérations. Si l’on désire s’arrêter à une certaine ité-
converge vers x et si, pour tout n : ration, il faut pouvoir contrôler la précision atteinte. On se base pour
cela sur l’inégalité du théorème 21. Comme on ne connaît pas la
xn + 1 – x = (a + en )(xn – x) valeur exacte de K, on la remplace par une valeur approchée :
avec a ≠ 1 et lim e n = 0 , alors la suite (yn ) ainsi obtenue Kn = (xn + 1 – xn )/(xn – xn – 1)
n→∞
converge vers x plus vite que (xn ), c’est-à-dire que : et on arrête les itérations lorsque – 1 < Kn < 1 et que
|xn + 1 – xn | / (1 – Kn ) est inférieur à la précision absolue que l’on
lim ( y n – x ) / ( x n – x ) = 0 désire atteindre.
n→∞

Lorsque la suite (xn ) est fabriquée par la méthode des approxi-


mations successives et que |F ’ (x)| < 1, elle vérifie les hypothèses
du théorème 24 et, par conséquent, la convergence est accélérée.

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
© Techniques de l’Ingénieur, traité Sciences fondamentales A 1 220 − 11
MÉTHODES NUMÉRIQUES DE BASE ________________________________________________________________________________________________________

4.6 Méthode de Bairstow 4.7 Systèmes d’équations non linéaires


Un cas particulièrement important de résolution d’équations est Dans ce qui précède (sauf dans le cas de la méthode de Bairstow),
celui du calcul des racines d’un polynôme. Il existe de nombreuses nous n’avons considéré que le cas d’une seule équation non linéaire
méthodes, dont aucune n’est fiable dans toutes les situations à une seule inconnue. Dans le cas d’un système de p équations à p
(comme c’est d’ailleurs le cas avec toutes les méthodes d’analyse inconnues, il est possible de généraliser les méthodes de Newton,
numérique), pour résoudre ce problème. Nous allons en décrire une de Steffensen et regula falsi. Les xn sont maintenant des vecteurs
et renvoyer le lecteur intéressé à [12] qui, bien qu’ancien, est une à p composantes ainsi que les f (xn ) [ou, ce qui revient au même,
source précieuse de renseignements. les F (xn )].
Soit Pn le polynôme, de degré n, dont on veut calculer les racines. Pour ce qui est de la méthode de Newton, les itérations
Soit : deviennent :
Q (x ) = x 2 – sx + p xn + 1 = xn – [f ’(x n )] –1 f (xn ) pour n = 0, 1, ...
où s et p sont des nombres réels arbitraires. Effectuons la division où f ’(xn ) est la matrice jacobienne de f en xn (c’est-à-dire la matrice
euclidienne de Pn par Q. On obtient un quotient Pn – 2 de degré n – 2 dont les éléments sont les dérivées partielles des fonctions f par
et un reste R du premier degré. Il est évident que les coefficients rapport aux différentes variables). On démontre que (xn ) est d’ordre
de Pn – 2 et ceux de R dépendent des valeurs choisies pour s et p. deux au moins si f ’(x ) est inversible.
Nous allons donc rechercher s et p tels que les deux coefficients de
On obtiendra des généralisations de regula falsi et de la méthode
R soient nuls (c’est-à-dire que nous avons un système de deux équa-
de Steffensen en remplaçant, comme dans le cas d’une seule équa-
tions non linéaires à deux inconnues à résoudre). S’il en est ainsi,
tion, la matrice f ’(xn ) par une approximation. Cependant, la diversité
cela signifie que s et p sont respectivement la somme et le produit
des algorithmes obtenus est beaucoup plus grande parce que les
de deux racines de Pn puisqu’alors Q divise Pn . Nous obtenons donc
possibilités d’approximation sont beaucoup plus nombreuses [13].
immédiatement ces deux racines même dans le cas où elles sont
Nous n’en décrirons ici qu’une seule : la méthode d’Henrici [14].
complexes.
Soit à résoudre x = F (x ) avec F :  p →  p . Au début de la
Pour obtenir deux autres racines, on recommence la même pro-
(n + 1)ième itération, on connaît le vecteur xn (x 0 est choisi arbitrai-
cédure à partir du polynôme Pn – 2 et ainsi de suite jusqu’au moment
rement). On passe à xn + 1 de la manière suivante :
où l’on obtient un polynôme du second ou du premier degré dont
les racines sont calculées directement. Pour résoudre le système de — on pose u 0 = xn
deux équations à deux inconnues constitué par les coefficients de — on calcule ui + 1 = F (u i ) pour i = 0, ..., p
R, on utilise la méthode de Newton qui se généralise facilement au
cas d’un système (§ 4.7). L’ensemble de cette procédure s’appelle — soit Ui la matrice carrée dont les colonnes sont les vecteurs
méthode de Bairstow. D’après ce que nous savons de la méthode ui , ui + 1 , ..., ui + p – 1 , on pose :
de Newton, elle sera d’ordre deux au moins si toutes les racines de
Pn sont simples. Décrivons maintenant cette méthode. Nous posons : ∆U 0 = U1 – U 0

Pn (x ) = a 0 x n + a 1 x n – 1 + ... + an ∆U1 = U 2 – U 1 et ∆2U 0 = ∆U 1 – ∆U 0

Pn –2 (x ) = b 0 x n – 2 + b 1 x n – 3 + ... + bn – 2 et l’on a :
xn + 1 = xn – ∆U 0 (∆2U 0 )–1 (u1 – u 0 )
R (x ) = b n – 1 (x – s ) + b n
Il existe des algorithmes récursifs pour calculer xn +1 sans inverser
Connaissant s et p, arbitraires, les b i s’obtiennent par :
la matrice ∆2U 0 . Cette méthode est d’ordre deux au moins sous des
b0 = a0 hypothèses similaires à celles de la méthode de Newton.
b1 = a1 + sb 0 Les méthodes itératives pour les systèmes non linéaires sont, dans
la plupart des cas, des méthodes de projection sur des sous-espaces
bi = ai + sbi – 1 – pb i – 2 pour i = 2, ..., n vectoriels. Une grande attention leur a été récemment portée et une
vaste synthèse est actuellement en cours [15]. On pourra également
Avant la première itération de la méthode de Bairstow, on choisit consulter [16] où de nombreuses autres questions d’analyse numé-
des valeurs arbitraires s 0 et p 0 . Une méthode itérative est complè- rique sont traitées.
tement définie par le passage de l’itéré k à l’itéré k + 1. Au début
de l’itération k + 1, on connaît sk et pk . Voyons comment obtenir sk + 1
et pk + 1 :
— dans les relations précédentes, on prend s = sk et p = pk et
l’on calcule b 0 , b 1, ..., bn ;
5. Intégration des équations
— pour s = sk et p = pk on calcule r 0 , r 1 , ..., rn par : différentielles
r0 = 0
r1 = b0 5.1 Définition du problème
r i = bi – 1 + sr i – 1 – pr i – 2 pour i = 2, ..., n Soit [a, b ] un intervalle fermé de  , soit f une application de
— puis l’on pose :  ×  p dans  p et soit y une application différentiable de
sk + 1 = sk – (bn rn – 2 – bn – 1 rn – 1)/d  dans  p . On appelle système différentiel du premier ordre la
relation :
pk + 1 = pk – (bn rn – 1 – bn – 1 rn )/d y ’(x ) = f (x, y (x ))
2
avec d = r n r n – 2 – r n – 1 . On dit que y est solution de ce système sur [a, b] si y vérifie cette
On arrête les itérations lorsque |sk + 1 – sk | + |pk + 1 – pk | est infé- relation pour tout x de [a, b]. On sait que la solution y d’un tel système
rieur à la précision absolue désirée. On calcule les deux racines dépend de constantes arbitraires. Ces constantes peuvent être
correspondantes et l’on recommence la procédure sur le polynôme
Pn – 2 dont les coefficients sont les derniers b 0 , b1 , ..., bn – 2 obtenus.

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
A 1 220 − 12 © Techniques de l’Ingénieur, traité Sciences fondamentales
_______________________________________________________________________________________________________ MÉTHODES NUMÉRIQUES DE BASE

déterminées par la connaissance de la solution en un point. On


appelle problème de Cauchy le système différentiel précédent auquel Définition 27
on adjoint la condition initiale : On dit qu’une méthode à pas séparés est consistante avec
l’équation différentielle si, pour toute solution y de celle-ci, on a :
y (a ) = y 0
lim max ( y ( x n + 1 ) – y ( x n ) )/h – φ ( x n , y ( x n ), h ) = 0
où y 0 est un vecteur donné de  p . h→0 0nN–1
Le théorème 26 nous donne des conditions qui assurent l’existence
et l’unicité de la solution de ce problème de Cauchy.
On a le résultat suivant qui nous permet de savoir si une méthode
à pas séparés est consistante.
Théorème 26
Si f est définie et continue sur [ a, b ] ×  p et s’il existe une Théorème 28
constante L strictement positive telle que, pour tout x ∈ [a, b ] et Une condition nécessaire et suffisante pour qu’une méthode à
pour tout u et tout v ∈  p , on ait : pas séparés soit consistante est que pour tout x ∈ [a, b] et pour
tout u ∈  on ait : φ (x, u, 0) = f (x, u).
f ( x, u ) – f ( x, v )  L u – v
alors le problème de Cauchy admet une solution unique quel que On voit que cette condition est particulièrement simple à vérifier
soit y 0 ∈  p dans la pratique.
Pour la stabilité, considérons les zn donnés par :
On dit alors que f satisfait à une condition de Lipschitz et L est z0 ∈  arbitraire
sa constante de Lipschitz. Nous nous placerons toujours dans les
conditions de ce théorème. zn + 1 = zn + h [φ (xn , zn , h) + εn ] pour n = 0, ..., N – 1
Si l’on prend un problème de Cauchy très simple [par exemple
y ’ = ay avec y (0) = 1], on sera capable d’obtenir sa solution exacte
par les méthodes de l’analyse mathématique [y (x ) = exp (ax ) dans Définition 29
notre exemple]. On sera alors capable de calculer la valeur numé- On dit qu’une méthode à pas séparés est stable s’il existe
rique exacte de cette solution en tout point de l’intervalle [a, b ] en deux constantes positives M 0 et M1 telles que, quels que soient
remplaçant, dans cette formule, x par sa valeur numérique. Si le pro- h et ε 0 , ..., εN – 1 , on ait :
blème est plus compliqué, on ne sera en général plus capable d’obte-
nir la solution à l’aide des outils de l’analyse mathématique classique max yn – zn  M0 y0 – z0 + M1 max εn
0nN 0nN–1
et il faudra faire appel à des méthodes d’analyse numérique qui nous
fourniront seulement une valeur approchée de la solution en certains
points x 0 , x 1, ..., xN de l’intervalle d’intégration. Nous appellerons
y (xn ) la solution exacte (inconnue en général) en x n et yn la valeur Le théorème 30 nous permet de savoir si une méthode à pas
approchée de la solution en x n fournie par la méthode d’analyse séparés est stable.
numérique considérée. Les méthodes de calcul de y 0 , y1 , ..., yN se
divisent en deux classes selon la façon de calculer ces yn : Théorème 30
— les méthodes à pas séparés (ou à un pas) dans lesquelles le S’il existe une constante positive M telle que, pour tout h suf-
calcul de yn + 1 ne fait intervenir que yn ; fisamment petit, pour tout x ∈ [a, b] et pour tout u et tout v ∈  ,
— les méthodes à pas liés (ou à plusieurs pas) dans lesquelles on ait :
le calcul de yn + 1 fait intervenir yn , yn – 1 , ..., yn – k pour k fixé.
φ ( x, u, h ) – φ ( x, v, h )  M u – v
Soit h = (b – a )/N, le pas d’intégration. Nous allons prendre les
abscisses xn équidistantes dans [a, b ], c’est-à-dire : alors la méthode à pas liés est stable.
xn = a + nh pour n = 0, ..., N
Nous pouvons maintenant passer à l’étude de la convergence en
commençant par la définition 31.
5.2 Méthodes à pas séparés
Définition 31
Dans une méthode à pas séparés, les yn sont calculés par une On dit qu’une méthode à pas séparés est convergente si :
relation de la forme :
lim max yn – y ( xn ) = 0
yn + 1 = yn + h φ (xn , yn , h) pour n = 0, ..., N – 1 h→0 0nN

où y 0 est la condition initiale donnée et où les différentes méthodes


se distinguent les unes des autres par le choix de φ . Les notions intermédiaires de consistance et de stabilité nous
permettent maintenant de répondre à cette question grâce au
théorème 32.
5.2.1 Notions théoriques

Le problème fondamental est celui de la convergence : la solution Théorème 32


approchée yn converge-t-elle vers la solution exacte y (xn ) en tout Si une méthode à pas séparés est consistante et stable, alors
point de [a, b] lorsque le pas h tend vers zéro ? Pour pouvoir répondre elle est convergente.
plus facilement à cette question, on est obligé d’introduire deux
notions intermédiaires : la consistance et la stabilité (à ne pas
confondre avec la stabilité numérique). Nous allons donc étudier La convergence est une notion qualitative. Il est évident que, dans
cette question en nous restreignant au cas d’une seule équation, la pratique, il serait très intéressant de savoir comment la quantité
p = 1. max y n – y ( x n ) tend vers zéro avec h. Naturellement, puisqu’il
0nN

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
© Techniques de l’Ingénieur, traité Sciences fondamentales A 1 220 − 13
MÉTHODES NUMÉRIQUES DE BASE ________________________________________________________________________________________________________

était déjà trop difficile de répondre directement à la question de la La plus utilisée des méthodes de Runge-Kutta est la suivante qui
convergence, il sera encore plus difficile de répondre directement est de rang et d’ordre 4 :
à cette nouvelle question. Pour cela, nous allons retourner à la
k1 = f (x, u)
définition 27 de la consistance où il y a aussi une quantité qui tend
vers zéro avec h et poser la définition 33. k 2 = f (x + h /2, u + hk1 /2)
k 3 = f (x + h /2, u + hk 2 /2)
k 4 = f (x + h, u + hk 3)
Définition 33 φ (x, u, h) = (k1 + 2k 2 + 2k 3 + k 4)/6
On dit qu’une méthode à pas séparés est d’ordre r s’il existe
une constante positive K telle que :

max ( y ( x n + 1 ) – y ( x n ) )/ h – φ ( x n , y ( x n ), h )  Kh r
5.2.3 A-stabilité
0nN–1
On appelle raides (ou stiff) les équations différentielles dont la
solution présente des variations très rapides. Cela pose de très
Grâce au théorème 34, nous allons connaître le comportement sérieux problèmes de stabilité numérique à la plupart des méthodes
de l’erreur. numériques. De telles équations étant très fréquentes dans de
nombreux domaines des mathématiques appliquées, il est important
d’étudier ce phénomène et de savoir lui apporter une solution. Cette
Théorème 34 question a donné lieu à une très abondante littérature (voir, par
Si une méthode à pas séparés est d’ordre r et si elle vérifie la exemple, [17]), mais on peut cependant l’étudier sur un problème
condition de stabilité du théorème 30, alors : test qui, bien que très simple, est suffisant pour analyser les diffi-
cultés. Considérons l’équation différentielle :
max y n – y ( x n )  K ′h r
0nN y ’(x ) = – λy (x ), y (0) = 1
où λ est un nombre complexe dont la partie réelle est strictement
avec K ’ = K (exp[(b – a) M ] – 1)/M positive. La solution de ce problème est :
y (x ) = exp(– λx )
Au cours de la démonstration du théorème 34, on obtient
l’inégalité : et par conséquent lim y (x ) = 0 .
x→∞
e n + 1  ( 1 + hM ) e n + Kh r + 1
Il est naturellement souhaitable que la solution approchée repro-
avec en = yn – y (xn ). Cela montre que l’erreur globale en xn + 1 , en + 1 , duise ce comportement asymptotique, c’est-à-dire tende vers zéro
provient de deux sources : l’erreur locale sur le passage de xn à xn + 1 à l’infini. C’est ce qu’exprime la définition 35.
(Kh r + 1) et les erreurs qui se sont accumulées depuis l’abscisse
initiale a. Ainsi, en cumulant des erreurs locales en h r + 1, on obtient
une erreur globale en h r ce qui est normal puisque : Définition 35
On dit qu’une méthode d’intégration numérique est A-stable
Nh r + 1 = (b – a) h r si, lorsque l’on intègre le problème de Cauchy y ’ = – λy,
lim y n = 0 quel que soit le nombre complexe h λ dont la partie
n→∞
5.2.2 Méthodes de Runge-Kutta réelle est strictement positive.

La plus simple de toutes les méthodes à pas séparés est la Si, par exemple, nous appliquons la méthode d’Euler à ce pro-
méthode d’Euler qui consiste à prendre : blème, nous obtenons :
φ (x, u, h) = f (x, u) yn + 1 = (1 – h λ ) yn

C’est une méthode du premier ordre et les résultats qu’elle fournit c’est-à-dire :
ne sont pas très précis. On appelle méthode de Runge-Kutta une yn = (1 – h λ )n
méthode où la fonction φ est définie par :
Lorsque n tend vers l’infini, yn tend donc vers zéro si et seulement
k1 = f (x, u) si le nombre complexe 1 – h λ est de module strictement inférieur
k 2 = f (x + θ 2h, u + a 21hk1) à 1. Cette condition n’est évidemment pas satisfaite pour tous les
 nombres h λ dont la partie réelle est strictement positive : la méthode

km = f (x + θm h, u + am1hk1 + ... + am,m – 1hkm – 1) d’Euler n’est pas A-stable.
φ (x, u, h) = c1k 1 + c 2k 2 + ... + c m km Par conséquent, si l’on choisit un pas h tel que |1 – h λ | > 1, yn
tendra vers l’infini avec n au lieu de tendre vers zéro comme la
m s’appelle le rang et les constantes θ i , aij et c i sont en général solution exacte. On voit donc que c’est un ennui sérieux auquel il
choisies pour que la méthode soit d’ordre le plus élevé possible. faut absolument remédier. On doit naturellement choisir une
Il n’y a qu’une seule méthode de rang 1 et d’ordre 1, c’est la valeur du pas h telle que la condition |1 – h λ | < 1 soit satisfaite.
méthode d’Euler ; il y a une infinité de méthodes de rang m et d’ordre Si, par exemple, λ = 10 000, il faudra prendre h < 2 × 10– 4 et le
m pour m = 2, 3 et 4 ; il n’y a aucune méthode de rang 5 et d’ordre temps de calcul sera très long alors que, puisque la solution est très
5. Pour atteindre l’ordre 5, il faut aller au rang 6. rapidement presque nulle, on pouvait espérer prendre un pas rela-
tivement grand et avoir un temps de calcul court. On démontre de
même qu’aucune des méthodes de Runge-Kutta vues plus haut n’est

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
A 1 220 − 14 © Techniques de l’Ingénieur, traité Sciences fondamentales
_______________________________________________________________________________________________________ MÉTHODES NUMÉRIQUES DE BASE

A-stable. Il faut donc s’orienter vers un autre type de méthodes. 5.3 Méthodes à pas liés
Toutes les méthodes précédentes étaient explicites car, dès que yn
était connu, la relation : Dans ces méthodes, les yn sont calculés récursivement par une
yn + 1 = yn + h φ (xn , yn , h) relation de la forme :

nous permettait de calculer explicitement la valeur de yn +1 . Lorsque αk yn + k + ... + α 0 yn = h [ β k fn + k + ... + β 0 fn ] pour n = 0, ..., N – k
ce n’est pas le cas, la méthode est dite implicite ; par exemple, on avec f i = f (x i , y i ).
peut avoir :
On voit que lorsque n = 0 il faut, pour calculer yk , connaître
yn + 1 = yn + h φ (xn , yn , xn + 1 , yn + 1 , h) y 0 , y1 , ..., yk – 1 . y0 est notre condition initiale : elle est donc connue.
y1 , ..., yk – 1 sont des valeurs approchées de y (x1), ..., y (xk – 1). Elles
yn + 1 est alors donné implicitement comme solution de cette équa-
devront donc être calculées par une méthode à pas séparés ; une
tion (ou de ce système d’équations) qui peut être non linéaire. Pour
méthode à pas liés ne démarre pas toute seule. Nous reviendrons
calculer yn + 1 il faut utiliser les méthodes itératives étudiées dans
sur ce point plus tard (théorème 44). On voit aussi que, si βk = 0,
le paragraphe 4. La plus simple de toutes ces méthodes est la
on a une méthode à pas liés explicite tandis que si βk ≠ 0 elle est
méthode d’Euler implicite :
implicite. Dans le cas d’une méthode implicite, il faut que la solution
yn + 1 = yn + hf (xn + 1 , yn + 1) yn + k de la relation précédente existe. En utilisant les théorèmes de
points fixes du paragraphe 4.1 on démontre le théorème 36.
Appliquée à notre problème test, elle fournit :
yn + 1 = yn /(1 + h λ )
Théorème 36
c’est-à-dire : Si βk ≠ 0, l’équation implicite précédente a une solution uni-
yn = (1 + h λ )–n que pour tout n si :
1 αk
Par conséquent, yn tend vers zéro quel que soit h λ dont la partie h < ----- -------
L βk
réelle est strictement positive : la méthode d’Euler implicite est
A-stable. où L est la constante de Lipschitz de f (§ 5.1).
Il existe des méthodes de Runge-Kutta implicites définies par :
k1 = f (x + θ1h, u + a 11hk 1 + ... + a 1m hkm ) On voit que, si βk = 0, la condition précédente n’impose aucune
k 2 = f (x + θ 2h, u + a 21hk1 + ... + a 2mhkm) restriction sur h, ce qui est normal puisque la méthode est explicite
et que yn + k existe toujours.

 La supériorité des méthodes à pas liés sur les méthodes à pas
km = f (x + θm h, u + am1hk1 + ... + amm hkm )
séparés réside dans le fait qu’elles ne nécessitent pas d’évaluations
φ (x, u, h) = c1k1 + c 2k 2 + ... + cm km de f en des points intermédiaires (sauf au démarrage). Par rapport
Si aij = 0 pour j > i, on dit que la méthode est semi-implicite ; le à une méthode de Runge-Kutta du même ordre, le temps de calcul
système non linéaire à résoudre à chaque pas est alors plus simple. est donc réduit dans une proportion importante.
Il existe de nombreux livres entièrement consacrés aux méthodes
numériques pour les équations différentielles. Nous avons déjà
5.2.4 Mise en œuvre cité [17] qui est très complet. Sur les méthodes de Runge-Kutta, on
pourra consulter [18]. Les démonstrations des théorèmes de ce para-
Lors de la mise en œuvre effective d’une méthode d’intégration graphe, ainsi que de nombreux autres résultats, se trouvent
numérique, de nombreux autres problèmes pratiques se posent. Le dans [19]. Sur la A-stabilité, on peut se reporter à [20].
premier d’entre eux concerne le choix du pas h pour obtenir la pré-
cision désirée. Ensuite, si la solution varie beaucoup dans l’intervalle
d’intégration, on peut être amené à changer la valeur du pas soit 5.3.1 Notions théoriques
pour le diminuer si la précision atteinte n’est pas suffisante, soit pour
l’augmenter si elle est beaucoup trop petite. Avec les méthodes à Comme pour les méthodes à pas séparés, il nous faut mainte-
pas séparés, cela ne pose aucune difficulté car il suffit de remplacer nant nous occuper de la consistance et de la stabilité. Nous avons
h par hn et de prendre : la définition 37.
x n + 1 = xn + hn
Définition 37
Mais, pour effectuer ces changements de pas à bon escient, il faut
être capable de contrôler l’erreur globale. Cela se fait généralement On dit qu’une méthode à pas liés est consistante avec l’équa-
en programmant simultanément deux méthodes : une d’ordre r et tion différentielle si, pour toute solution y de celle-ci, on a :
une d’ordre r + 1. En chaque point xn la différence entre les deux k k
valeurs approchées ainsi obtenues est une bonne estimation de 1
l’erreur globale sur la méthode d’ordre r. Il faut aussi tenir compte
lim
h→0 0nN–k
max -----
h ∑ αi y ( xn + i ) – ∑ βi f ( xn + i , y ( xn + i ) ) =0
i=0 i=0
de la propagation des erreurs numériques dues à l’arithmétique de
l’ordinateur. Plus le pas h est petit et plus l’erreur de méthode est
faible. Mais plus le pas h est petit et plus il faut faire de calculs pour
Posons
parcourir l’intervalle d’intégration, donc les erreurs dues à l’arith-
métique de l’ordinateur augmentent lorsque h diminue. L’erreur α (t ) = α 0 + α 1t + ... + α k t k
totale, qui est la somme de l’erreur de méthode et de l’erreur due
à l’arithmétique de l’ordinateur, passe donc par un minimum en fonc- β (t ) = β 0 + β 1t + ... + β k t k
tion de h ; il existe une valeur optimale de h car il faut faire un
compromis entre une erreur de méthode petite et une erreur d’arith- On a le théorème 38.
métique importante ou l’inverse. Ces erreurs numériques sont plus
difficiles à contrôler que l’erreur de méthode.
Théorème 38
Une condition nécessaire et suffisante pour qu’une méthode à
pas liés soit consistante est que α (1) = 0 et que α ’(1) = β (1).

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
© Techniques de l’Ingénieur, traité Sciences fondamentales A 1 220 − 15
MÉTHODES NUMÉRIQUES DE BASE ________________________________________________________________________________________________________

Pour la stabilité, on considère les zn donnés par :


Théorème 44
z 0 , z 1 , …, z k – 1 ∈  arbitraires Si une méthode à pas liés est d’ordre r, si elle est stable et si
max y i – y ( x i ) = O (h r ) , alors :
α k zn + k + ... + α 0 zn = h [ βn f (xn + k , zn + k ) + ... + β 0f (xn , zn ) + εn ] 0ik–1
max y n – y ( x n ) = O (h r )
pour n = 0, ..., N – k. 0nN

Définition 39 Nous avons vu au début du paragraphe 5.3 qu’une méthode à pas


On dit qu’une méthode à pas liés est stable s’il existe deux liés ne démarrait pas toute seule, mais qu’il fallait utiliser une
constantes M 0 et M1 telles que, quels que soient h et ε 0 , ..., εN– k , méthode à pas séparés pour calculer y 0 , y1 , ..., yk – 1 . Le
on ait : théorème 44 nous dit que ces valeurs doivent aussi être calculées
avec une méthode d’ordre r, ce qui est parfaitement logique. Si l’on
max yn – zn  M0 max yi – zi + M1 max εn prenait une méthode à pas séparés d’ordre plus faible, y 0 , ..., yk – 1
0nN 0ik–1 0nN–k
ne seraient pas assez précis ; d’un autre côté, il ne sert à rien de
les obtenir avec une trop grande précision qui serait ensuite perdue.
On voit que la différence avec le cas des méthodes à pas séparés On a également le théorème 45.
provient du fait que les méthodes à pas liés ne démarrent pas avec
la seule connaissance de y 0 . On a le théorème 40.
Théorème 45
Une condition nécessaire et suffisante pour qu’une méthode à
Théorème 40 pas liés soit consistante est qu’elle soit au moins d’ordre un.
Une condition nécessaire et suffisante pour qu’une méthode à
pas liés soit stable est que toutes les racines du polynôme α
soient de module inférieur ou égal à 1 et que les racines de 5.3.2 Méthodes d’Adams
module 1 soient des racines simples.
Les plus utilisées des méthodes à pas liés sont les méthodes
On voit que, contrairement au cas des méthodes à pas séparés, d’Adams qui sont de la forme :
on a maintenant une condition nécessaire et suffisante, ce qui nous k
permet d’obtenir les résultats du théorème 42. Auparavant don-
nons la définition 41. yq – yj = h ∑ βi fn + i pour j  q
i=0

Définition 41 Il en existe plusieurs types selon les valeurs de j et de q. Les


coefficients βi dépendent de k. On a ainsi les méthodes suivantes :
On dit qu’une méthode à pas liés est convergente si :
■ méthodes d’Adams-Bashforth :
lim max yn – y ( xn ) = 0
h→0 0nN h
y n + 2 = y n + 1 + ----- ( 3f n + 1 – f n ) ordre 2
2
lorsque lim y i = y 0 pour i = 0, 1, ..., k – 1.
h→0 h
y n + 3 = y n + 2 + --------- ( 23f n + 2 – 16f n + 1 + 5f n ) ordre 3
12
Il est tout à fait normal d’être obligé d’imposer, dans cette défini- h
tion, que les k valeurs approchées y 0 , y1 , ..., yk – 1 convergent vers y n + 4 = y n + 3 + --------- ( 55f n + 3 – 59f n + 2 + 37f n + 1 – 9f n ) ordre 4
24
la valeur exacte y 0 lorsque h tend vers zéro.
■ méthodes d’Adams-Moulton :
Théorème 42 h
y n + 1 = y n + ----- ( f n + 1 + f n ) ordre 2
Une condition nécessaire et suffisante pour qu’une méthode à 2
pas liés soit convergente est qu’elle soit consistante et stable. h
y n + 2 = y n + 1 + --------- ( 5f n + 2 + 8f n + 1 – f n ) ordre 3
12
Nous avons donc maintenant une condition nécessaire et h
suffisante. y n + 3 = y n + 2 + --------- ( 9f n + 3 + 19f n + 2 – 5f n + 1 + f n ) ordre 4
24
Pour l’ordre nous repartons, comme dans le cas des méthodes
à pas séparés (§ 5.2.1), de la définition 37 de la consistance. ■ méthodes de Nyström :
y n + 2 = y n + 2hf n + 1 ordre 2
Définition 43 h
yn + 3 = y n + 1 + ----- ( 7f n + 2 – 2f n + 1 + f n ) ordre 3
On dit qu’une méthode à pas liés est d’ordre r s’il existe une 3
constante positive K telle que : h
yn + 4 = y n + 2 + ----- ( 8f n + 3 – 5f n + 2 + 4f n + 1 – f n ) ordre 4
k k 3
1
max
0nN–k
-----
h ∑ α i y ( xn + i ) – ∑ βi f ( xn + i , y ( xn + i ) )  Kh r
■ méthodes de Milne-Simpson :
i=0 i=0
y n + 2 = y n + 2hf n + 1 ordre 2
h
y n + 3 = y n + 1 + ----- ( 7f n + 3 – 2f n + 2 + f n + 1 ) ordre 3
3
h
y n + 3 = y n + 1 + ----- ( f n + 3 + 4f n + 2 + f n + 1 ) ordre 4
3

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
A 1 220 − 16 © Techniques de l’Ingénieur, traité Sciences fondamentales
_______________________________________________________________________________________________________ MÉTHODES NUMÉRIQUES DE BASE

Il a été démontré qu’aucune méthode à pas liés explicite ne pouvait 5.4 Problèmes aux limites
être A-stable. On est donc, là encore, obligé de s’orienter soit vers
les méthodes implicites, soit vers les méthodes explicites non Considérons le cas d’un système d’équations différentielles.
linéaires. Jusqu’à présent, nous avons considéré le cas d’un problème de
Les questions posées par la mise en œuvre d’une méthode à pas Cauchy, c’est-à-dire le cas où les constantes d’intégration étaient
liés sont similaires à celles évoquées pour les méthodes à pas déterminées par la donnée des conditions initiales y (a) = y 0 . Mais
séparés. Lorsque l’on veut changer de pas en cours d’intégration, la situation peut également se présenter de façon différente : il se
une difficulté supplémentaire se présente du fait que les méthodes peut que l’on connaisse certaines composantes du vecteur y à
à pas liés demandent impérativement un pas constant. Supposons l’abscisse initiale a et les autres composantes de y à l’abscisse b.
que, arrivé à l’abscisse xn , nous désirions changer la valeur du C’est ce que l’on appelle un problème de conditions aux limites. On
pas. Cela est possible en utilisant de nouveau la méthode à pas peut transformer ce problème en un problème de Cauchy en
séparés du démarrage sur k pas pour calculer yn + 1 , ..., yn + k – 1 recherchant les conditions initiales manquantes telles que les condi-
avec la nouvelle valeur du pas. Après, on continuera avec la tions connues en b soient satisfaites. On a donc à résoudre un
méthode à pas liés. Le contrôle de l’erreur s’effectue, comme dans système d’équations non linéaires dont les inconnues sont les
le cas des méthodes à pas séparés, en utilisant simultanément une conditions initiales manquantes. De façon plus générale, il faut
méthode d’ordre r et une méthode d’ordre r + 1. trouver les conditions initiales à prendre de sorte qu’un certain sys-
tème de p équations non linéaires soit satisfait :

5.3.3 Méthodes de prédiction-correction g (y (x 1), y (x 2), ..., y (x q )) = 0


Comme y (x1), y (x 2), ..., y (xq ) dépendent des conditions initiales
Si l’on désire utiliser une méthode à pas liés implicite, il faut inconnues y 0 on a bien à résoudre un système de p équations à p
normalement à chaque pas résoudre l’équation implicite pour inconnues.
obtenir yn + k . Pour cela, il faut mettre en œuvre la méthode des
Pour résoudre un tel système, on utilise une méthode d’intégration
approximations successives comme cela a été expliqué dans le
numérique du système différentiel, couplée à une méthode itérative
paragraphe 4.1 ce qui risque d’être coûteux en temps de calcul.
pour résoudre le système d’équations non linéaires. On part d’une
Cependant, si le point de départ de la méthode des approximations
valeur arbitraire des conditions initiales manquantes et l’on itère sur
successives est suffisamment bon, on peut se contenter de ne faire
cette valeur jusqu’à ce que les équations non linéaires soient satis-
qu’une seule itération : c’est ce que l’on appelle une méthode de
faites à la précision demandée. Naturellement, dans les équations g,
prédiction-correction. On programme simultanément une méthode
les valeurs exactes y (x1), ..., y (xq ) de la solution seront remplacées
à pas liés explicite, qui fournit la valeur de départ (c’est le prédicteur),
par les valeurs approchées y1 , ..., yq obtenues par intégration numé-
et une méthode implicite avec laquelle on ne fait qu’une itération
rique. C’est ce que l’on appelle une méthode de tir. Du point de vue
(c’est le correcteur). On a ainsi le schéma suivant :
pratique, il y aura tout intérêt à choisir une méthode de résolution
α *k y * du système non linéaire qui ne fasse pas intervenir les dérivées des
n + k + α k – 1 yn + k – 1 + … + α 0 yn
* *
fonctions g par rapport aux composantes de y 0 ; on pourra, par
= h[ β*
k – 1 fn + k – 1 + … + β0 fn ] exemple, utiliser la méthode d’Henrici (§ 4.7).
α k yn + k + α k – 1 yn + k – 1 + … + α 0 yn
= h [ βk f ( xn + k , y *
n + k ) + β k – 1 fn + k – 1 + … + β 0 fn ]

La première relation nous sert à calculer la valeur prédite y n* + k


6. Résolution des systèmes
à partir de yn , ..., yn + k – 1 et la seconde relation nous donne yn + k d’équations linéaires
à partir de yn , ..., yn + k – 1 et y n* + k .
Soit A une matrice carrée à n lignes et n colonnes dont les éléments
On a le théorème 46. aij sont connus. Soit b un vecteur dont les n composantes bi sont
connues. On recherche le vecteur x, de composantes x1 , x 2 , ..., xn ,
Théorème 46 qui vérifie le système d’équations linéaires :
Si le prédicteur est d’ordre r – 1 et si le correcteur est d’ordre r, Ax = b
alors :
La solution de ce problème est connue, on la trouve dans tous
max y n – y ( x n ) = O (h r ) les cours d’algèbre linéaire : xi est égal à un rapport de déterminants,
0nN
au dénominateur le déterminant de la matrice A et au numérateur
à condition que max y i – y ( x i ) = O (h r ) le même déterminant dans lequel on a remplacé la i ième colonne
0ik–1 par le vecteur second membre b. Les règles pour calculer un déter-
minant sont également classiques. Cependant, on oublie souvent de
dire qu’un tel calcul demande n · n ! multiplications, c’est-à-dire de
On voit que le correcteur a amélioré le résultat du prédicteur et l’ordre de n 2 · n ! multiplications pour résoudre le système. Pour
qu’il est inutile de prendre un prédicteur d’ordre supérieur car la
précision serait ensuite perdue. n = 10, cela fait 3,6 × 108 multiplications et pour n = 30 cela en fait
2,3 × 1035 (c’est-à-dire 8 × 1012 milliards d’années de travail pour un
L’avantage que possèdent les méthodes de prédiction-correction
ordinateur effectuant un million de multiplications par seconde, ce
est que le contrôle de l’erreur globale est facile à effectuer. En effet,
qui représente une durée plus grande que l’âge de l’univers).
la différence y n* + k – y n + k entre les valeurs prédite et corrigée est C’est-à-dire que cette méthode est totalement inutilisable dans la
une bonne estimation de l’erreur globale. pratique, surtout en sachant qu’il est courant de résoudre actuel-
lement des systèmes d’équations avec plusieurs dizaines de milliers
d’inconnues. C’est pour cette raison que l’on fait appel à des
méthodes d’analyse numérique.

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
© Techniques de l’Ingénieur, traité Sciences fondamentales A 1 220 − 17
MÉTHODES NUMÉRIQUES DE BASE ________________________________________________________________________________________________________

Celles-ci se divisent en deux classes : Ces règles ne sont bien sûr utilisables que si aucun des nombres
— les méthodes directes qui fournissent la solution exacte après (k)
a kk (les pivots) n’est nul. Nous verrons plus loin ce qu’il y a lieu
un nombre fini (et beaucoup plus petit que n 2 · n!) d’opérations de faire si cela se produit.
arithmétiques ;
— les méthodes itératives qui s’apparentent à la méthode des Le système A (n)x = b (n) ainsi obtenu est triangulaire supérieur. Sa
approximations successives et qui donnent la solution comme résolution est simple ; la dernière équation nous fournit directement
limite d’une suite de vecteurs. xn , connaissant xn l’avant-dernière équation nous donne xn – 1 et
ainsi de suite jusqu’à la première équation qui permet de calculer x1 .
On peut donc se demander pourquoi utiliser des méthodes Plus précisément, nous avons (en supprimant les indices
itératives alors que l’on dispose de méthodes directes ; la raison supérieurs n ) :
principale est que les méthodes itératives ne posent pas de pro- xn = bn /ann
blèmes de stockage dans la mémoire de l’ordinateur. Par ailleurs,
chaque itération ne demande que de l’ordre de 2n 2 opérations n
arithmétiques.
Sur l’ensemble des questions traitées dans ce paragraphe (et dans

xi = bi – ∑
j = i+1

a ij x j a ij pour i = n – 1 , n – 2 , …, 1

le suivant), il faut recommander [27] qui contient la théorie des


méthodes les plus récentes et beaucoup de conseils pratiques sur La résolution d’un système linéaire par la méthode de Gauss
leur utilisation [28]. demande de l’ordre de 2n 3/3 opérations arithmétiques.
Si la matrice A est singulière, on rencontrera nécessairement un
pivot nul dans la phase de triangularisation (qui peut d’ailleurs être
(n)
6.1 Méthodes directes le dernier a nn , ce qui n’empêche pas de triangulariser A mais ce
qui, naturellement, empêche de résoudre le système triangulaire).
Mais l’inverse n’est pas vrai : ce n’est pas parce que l’on rencontre
L’idée de ces méthodes est de transformer le système en un un pivot nul que, pour autant, la matrice A est singulière. Il faut alors
système ayant la même solution mais plus facile à résoudre. Le plus pouvoir poursuivre le calcul. Il suffit pour cela d’intervertir deux
simple est donc évidemment d’avoir une matrice diagonale, mais équations du système, ce qui ne change évidemment pas sa solution.
cette stratégie (appelée méthode de Gauss-Jordan) est beaucoup Pour ne pas détruire le travail de triangularisation déjà commencé,
plus onéreuse que la méthode de Gauss que nous allons exposer. on intervertira l’équation concernée avec l’une des suivantes.
Supposons maintenant que le pivot ne soit pas rigoureusement
nul, mais seulement très petit. Nous avons appris, dans le para-
6.1.1 Méthode de Gauss graphe 1.2, à nous méfier des nombres petits ; ils peuvent, en effet,
provenir de la différence de deux nombres voisins et être entachés
Cette méthode consiste à transformer le système en un système d’une erreur de cancellation importante. C’est d’autant plus dange-
équivalent ayant une matrice dont tous les éléments au-dessous de reux ici que le pivot est au dénominateur. Pour éviter une pro-
la diagonale principale sont nuls (c’est ce que l’on appelle une pagation importante des erreurs numériques, il y a donc lieu d’éviter
matrice triangulaire supérieure). Pour aboutir à une telle matrice, on les pivots petits ; il vaut mieux que le pivot soit le plus grand possible
procède en n – 1 étapes de la manière suivante : en valeur absolue. C’est pour cela que, à chaque étape k de la phase
— on pose A (1) = A et b (1) = b ; de triangularisation, nous allons rechercher, dans les n – k + 1
— on construit les systèmes équivalents A(k )x = b (k ) pour dernières équations, le pivot le plus grand en valeur absolue et inter-
(k) vertir l’équation correspondante avec la k ième. Plus précisément, à
k = 2, ..., n où les composantes de b (k ) sont notées b i , où les l’étape k on recherche l’indice p tel que :
(k)
éléments de A (k ) sont notés a ij et où A (k ) est de la forme : (k) (k)
a pk = max a ik
kin

et l’on permute l’équation p et l’équation k. C’est la méthode de


(k) (k)
Gauss avec pivotage partiel. Si a pk = 0 , cela signifie que a ik = 0
pour i = k, ..., n et donc que la matrice A est singulière.
Une autre stratégie, appelée méthode de Gauss avec pivotage
total, consiste à rechercher les indices p et q tels que :
(k) (k)
a pq = max a ij
k  i, j  n
On voit que A (k ) a la forme voulue jusqu’à la k ième colonne. On
passe du k ième système au (k + 1) ième à l’aide des relations et à permuter ensuite les équations p et k et les colonnes q et k. Il
suivantes : faut bien faire attention qu’une permutation de colonnes permute
la numérotation des inconnues correspondantes. Il y aura donc lieu,
(k + 1) (k)
a ij = a ij pour i = 1, …, k et j = 1 , …, n après avoir résolu le système triangulaire, de remettre les inconnues
(k + 1) (k)
dans le bon ordre ; cela peut se faire aisément grâce à un vecteur
bi = bi pour i = 1, … , k d’indices.
(k + 1)
a ij = 0 pour i = k + 1 , … , n et j = 1 , … , k Donnons maintenant l’interprétation matricielle de la méthode
(k)
de Gauss car elle nous sera utile dans le paragraphe 7.4. Cette
(k + 1) (k) a ik (k) méthode consiste en fait à décomposer la matrice A en un produit
a ij = a ij – ------------
(k)
- a kj pour i = k + 1, … , n et j = k + 1, … , n A = LU où U n’est autre que la matrice A (n ) obtenue à la fin de la
a kk

(k)
(k + 1) (k) a ik (k)
b i = b i - b k pour i = k + 1, … , n
– ------------
(k)
a kk

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
A 1 220 − 18 © Techniques de l’Ingénieur, traité Sciences fondamentales
_______________________________________________________________________________________________________ MÉTHODES NUMÉRIQUES DE BASE

phase de triangularisation et où la matrice L est la matrice suivante Soit d un vecteur de composantes di et soit D une matrice d’élé-
(que l’on appelle triangulaire inférieure à diagonale unité) : ments d ij . Nous poserons :
d = max di
1in
n
D = max
1in
∑ d ij
j=1

cond D = D D –1

où cond D s’appelle le conditionnement de D.


( j) (j)
Nous voulions résoudre le système Ax = b . La matrice A a été per-
avec  ij = a ij / a jj . turbée par l’erreur d’affectation : elle est devenue A + E . Le second
membre b a été également perturbé par l’erreur d’affectation : il est
On a donc à résoudre LUx = b . Posons Ux = y ; le système s’écrit devenu b + e . La solution exacte de ce système perturbé n’est plus
alors Ly = b . On résout donc ce système triangulaire inférieur (ce x mais un vecteur x + ε où ε est un vecteur. On a donc :
qui est facile) pour obtenir y, puis le système triangulaire supérieur
Ux = y pour obtenir x . (A + E )(x + ε ) = b + e
Le vecteur y n’est autre que le vecteur b (n ) obtenu à la fin de la On démontre le théorème 47.
phase de triangularisation. Celle-ci consiste donc en fait à
décomposer A sous la forme d’un produit LU et à calculer le vecteur
y. La seconde partie de la méthode de Gauss consiste, nous l’avons Théorème 47
vu, à résoudre le système triangulaire supérieur. Si x ≠ 0 et si ||A –1|| ||E || < 1, alors :
D’après cette interprétation matricielle, on a :
ε cond A
--------  ------------------------------------------------------ ( e / b + E / A )
det A = det L det U x 1 – cond A E / A
L et U étant triangulaires, leurs déterminants sont égaux au produit
de leurs termes diagonaux. On a donc det L = 1 et : La condition ||A –1|| ||E || < 1 assure l’inversibilité de la matrice
n A + E . On voit que cond A est le facteur multiplicatif de l’erreur rela-
(k)
∏ a kk
tive sur A et b. Si ce nombre est grand par rapport à 1, on voit que
det A =
l’erreur relative sur x peut être grande ; on dit alors que la matrice
k=1
A est mal conditionnée et une petite variation dans les données peut
Avec la méthode de Gauss, il est possible de résoudre simul- entraîner une grande variation dans le résultat. Si cond A est voisin
tanément plusieurs systèmes avec la même matrice A mais avec dif- de 1 (on démontre qu’il ne peut pas être inférieur à 1), alors une
férents seconds membres. Il suffit, dans la phase de triangularisation, petite variation dans les données ne pourra induire qu’une petite
de modifier simultanément tous ces seconds membres. On résout variation dans le résultat ; on dit alors que la matrice A est bien
ensuite séparément chacun des systèmes triangulaires supérieurs conditionnée. Naturellement, des expressions telles que grand par
ainsi obtenus. En prenant comme second membre ei , vecteur dont rapport à 1 et voisin de 1 dépendent du nombre de digits t avec lequel
travaille l’ordinateur. Si cond A = 104 et si t = 6, on peut dire que A
toutes les composantes sont nulles sauf la i ième qui est égale à un, est mal conditionnée, mais si t = 16, on peut la considérer comme
on obtient la i ième colonne de la matrice A –1. On obtiendra toutes bien conditionnée.
les colonnes de A –1 en résolvant simultanément le système avec Cette notion, fondamentale, de conditionnement dépend unique-
les seconds membres e1 , e 2, ..., en . Cela nécessite de l’ordre de ment du problème mathématique à résoudre et absolument pas de
8n 3/3 opérations arithmétiques. l’algorithme qui sera utilisé pour sa résolution. Viennent donc
s’ajouter ensuite les erreurs dues à l’arithmétique de l’ordinateur qui
se sont produites pendant l’exécution de l’algorithme : c’est la notion
6.1.2 Étude des erreurs de stabilité numérique d’un algorithme dont nous avons parlé dans
le paragraphe 1.2.
Il nous faut maintenant parler des erreurs introduites par l’arith- Par conséquent, à cause de l’erreur d’affectation sur les données
métique de l’ordinateur. Normalement, si celle-ci était exacte, la et de la stabilité numérique de l’algorithme, on n’obtient pas x exac-
méthode de Gauss devrait fournir la solution exacte du système tement sur ordinateur mais un vecteur que nous appelons x ’. On
linéaire, mais il n’en est rien. En premier lieu, avant de commencer peut donner une majoration de l’erreur. On pose r = Ax ’ – b. On
tout calcul (que ce soit d’ailleurs par la méthode de Gauss ou par calcule ensuite, comme nous l’avons vu, la matrice A –1. À cause des
l’une des méthodes que nous verrons ultérieurement), il faut intro- erreurs, nous n’obtiendrons pas A –1 exactement sur ordinateur, mais
duire les données dans l’ordinateur. Comme nous l’avons vu dans une matrice que nous noterons C . On calcule R = AC – I. On
le premier paragraphe, celles-ci seront donc entachées d’une erreur démontre le théorème 48.
d’affectation . Nous ne résoudrons donc pas le système que nous
voulions résoudre, mais un système perturbé par l’erreur d’affec-
tation. Il se peut très bien que la solution exacte de ce problème per- Théorème 48
turbé soit très éloignée de la solution exacte du système non Si ||R || < 1, alors :
perturbé : c’est la notion de conditionnement d’un problème que r C
nous avons déjà évoquée (§ 1.3). Il est possible de quantifier ce x – x ′  --------------------
1– R
phénomène en introduisant la notion de norme d’un vecteur et de
norme d’une matrice. Nous ne prendrons ici qu’un exemple parti-
culier et renverrons le lecteur à [21] pour plus de détails. Ce théorème est plus intéressant que le théorème 47 car toutes
les quantités, qui apparaissent dans la majoration, sont effective-
ment calculables, ce qui n’est pas le cas dans le théorème 47 (en
effet, pour calculer cond A il faut connaître exactement A –1).

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
© Techniques de l’Ingénieur, traité Sciences fondamentales A 1 220 − 19
MÉTHODES NUMÉRIQUES DE BASE ________________________________________________________________________________________________________

Soit e la solution de Ae = r. Alors x ’ – e est une meilleure approxi- n


(k)
mation de x que x ’. βj = ∑ vi a ij pour j = k + 1 , … , n
Les majorations données dans les théorèmes 47 et 48 sont en i=k
général beaucoup trop fortes. Pour les obtenir, on s’est, en effet, γj = ( βj / ν ) pour j = k + 1 , …, n
placé dans le pire des cas, celui où les erreurs ne se compensent
jamais mais s’accumulent toujours (c’est cependant un cas qui peut (k + 1) (k)
a ij = a ij – γ j vi pour i = k, …, n et j = k + 1 , …, n
se produire). Une estimation beaucoup plus réaliste de la précision
n
obtenue est fournie par la méthode de permutation-perturbation
décrite dans [1] où les logiciels correspondants sont donnés. Pour βn + 1 = ∑ vi bi
une étude des erreurs numériques, on peut se reporter à [22]. i=k
γn + 1 = βn + 1 / ν
Voyons maintenant d’autres méthodes que celle de Gauss.
Naturellement, ce que nous venons de dire sur le conditionnement (k + 1) (k)
bi = bi – γ n + 1 vi pour i = k, …, n
et les erreurs dues à l’arithmétique de l’ordinateur reste valable.
Naturellement ν, les vi , les βi et les γ i dépendent de k. Le système
6.1.3 Méthode de Cholesky A (n)x = b (n) ainsi obtenu est triangulaire supérieur et on le résout
comme dans la méthode de Gauss (§ 6.1.1).
Supposons que la matrice A soit symétrique définie positive. On La résolution d’un système linéaire par cette méthode nécessite
peut, bien entendu, utiliser la méthode de Gauss. Cependant, celle-ci de l’ordre de 4n 3/3 opérations arithmétiques, c’est-à-dire environ
ne prend pas en compte la symétrie de A et elle fait donc trop d’opé- deux fois plus que la méthode de Gauss ; elle est cependant numé-
rations arithmétiques. Dans ce cas, il faut lui préférer la méthode riquement plus stable. On démontre que la matrice Q est donnée
de Cholesky qui consiste à décomposer A sous la forme A = LLT où par Q = H (1) H (2) ... H (n –1) avec :
L est une matrice triangulaire inférieure. On pose ensuite LTx = y et
0 
le système s’écrit alors Ly = b . On peut calculer directement les I 0
H (k) = ~
éléments de la matrice L grâce aux relations suivantes : H (k)
~
 11 = a 11  i1 = a i1 /  11 pour i = 2, …, n où la matrice H ( k ), de dimensions (n – k + 1) × (n – k + 1), est :

Puis pour j = 2, ..., n : ~


H ( k ) = I – v ⋅ vT / ν
j–1 1⁄2

 ∑  jk  où v est le vecteur de composantes vk +1 , ..., vn de la k ième étape


2
 jj = a jj –
k=1
et où ν a la valeur correspondante de cette étape.
j–1
 ij =
a ij – ∑ ik jk  jj pour i = j + 1, …, n
k=1 6.2 Méthodes itératives
On résout ensuite Ly = b , ce qui fournit y, puis LTx = y pour
obtenir x.
6.2.1 Résultats généraux
Si la matrice A est symétrique mais si elle n’est pas définie positive,
2
alors il existera un indice j tel que  jj < 0 . On ne pourra donc pas Pour résoudre le système Ax = b, on pose :
en prendre la racine carrée et il faudra arrêter l’algorithme. A=M–N
La méthode de Cholesky nécessite le calcul de n racines carrées Cette décomposition additive peut naturellement s’effectuer d’une
et de l’ordre de n 3/3 opérations arithmétiques. infinité de façons. Nous supposerons que la matrice M est inversible
et que son inverse est facile à calculer. Le système à résoudre s’écrit :
6.1.4 Méthode de Householder Mx = Nx + b
soit encore :
Elle consiste à décomposer la matrice A en un produit A = QU
x = M –1 Nx + M –1 b
où U est une matrice triangulaire supérieure et où Q est une matrice
orthogonale, c’est-à-dire telle que Q –1 = Q T . Comme dans la Comme dans la méthode des approximations successives décrite
méthode de Gauss, la triangularisation s’effectue peu à peu en n – 1 au paragraphe 4.1, nous allons choisir arbitrairement un vecteur de
étapes. À l’étape k, la matrice A (k ) est de la même forme que la départ x (0) et générer une suite de vecteurs (x (k )) par une méthode
matrice correspondante de la méthode de Gauss. On passe d’une dite de relaxation :
étape à la suivante par les règles :
x (k + 1) = M –1 Nx (k ) + M –1 b pour k = 0, 1, ...
n 1⁄2
(k + 1)
a kk = –  signe de
(k)
a kk  ∑
i=k
(k) 2
a ik  On a le résultat fondamental du théorème 49.

(k + 1) (k + 1) (k)
ν = a kk a kk – a kk  Théorème 49
(k) (k + 1) Soit λ 1 , λ 2 , ...,λ n les valeurs propres de M –1 N. Une condition
vk = a kk – a kk
nécessaire et suffisante pour que la suite (x (k )) converge vers x
(k) est que :
vi = a ik pour i = k + 1 , … , n
max λ i < 1
1in

Si ||M –1 N || < 1, alors (x (k)) converge vers x.

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
A 1 220 − 20 © Techniques de l’Ingénieur, traité Sciences fondamentales
_______________________________________________________________________________________________________ MÉTHODES NUMÉRIQUES DE BASE

6.2.2 Méthodes particulières Pour la méthode de Jacobi, nous avons le théorème 52.

Étudions maintenant les choix les plus courants pour les matrices Théorème 52
M et N . Appelons D la matrice diagonale formée par la diagonale
de A, – E la partie strictement triangulaire inférieure de A et – F la Si A est symétrique et si aii > 0 pour i = 1, ..., n, alors la
partie strictement triangulaire supérieure de A , on a : méthode de Jacobi est convergente si et seulement si N(= E + F )
et 2D – N sont définies positives.
A=D–E–F
■ La méthode de Jacobi consiste à prendre M = D et N = E + F. Ses Enfin, nous donnons le théorème 53.
itérations s’écrivent :

b – ∑ a  a
n Théorème 53
(k + 1) (k)
x i = i ij xj ii pour i = 1, …, n n
j=1
j≠i
Si a ii > ∑ a ij pour i = 1, ..., n, alors les méthodes de
j = 1
j≠i
■ La méthode de Gauss-Seidel consiste à prendre M = D – E et
Jacobi et de Gauss-Seidel sont convergentes.
N = F. Ses itérations s’écrivent :

b – ∑ a  a
i–1 n
(k + 1) (k + 1) (k) On pourra consulter [25] qui contient de nombreux renseigne-
x i = i ij xj – ∑ a ij x j ii pour i = 1, …, n ments sur des matrices particulières.
j=1 j = i+1

■ La méthode de surrelaxation consiste à prendre


M = (D – ωE )/ω et N = [(1 – ωD ) + ωF ]/ω où ω est un paramètre non
6.2.3 Méthodes de projection
nul. Ses itérations s’écrivent :
Soit l’itéré x (k ), on choisit un vecteur z (k ) et l’on considère le plan

b – ∑  a
i–1 n d’équation :
~( k + 1 ) (k + 1) (k )
x i = i a ij x j – ∑ a ij x j ii pour i = 1, …, n (z (k ), Ay – b ) = 0
j=1 j = i+1
(k + 1) (k ) ~( k + 1 ) qui passe par la solution x . On projette ensuite x (k ) orthogonalement
x i = (1 – ω) x i + ωx i pour i = 1, …, n
sur ce plan (c’est-à-dire parallèlement à ATz (k )) pour obtenir x (k + 1).
On a donc :
~
On voit que le vecteur intermédiaire x est celui obtenu par
(k + 1)
( z ( k ) , Ax ( k ) – b ) T ( k )
la méthode de Gauss-Seidel et que le vecteur x (k +1) est une combi- x ( k + 1 ) = x ( k ) – --------------------------------------------- A z
( AT z ( k ) , AT z ( k ) )
~
naison linéaire de x (k ) et de x
(k + 1)
. Naturellement, pour ω = 1, on
où (.,.) désigne le produit scalaire de deux vecteurs.
retrouve exactement la méthode de Gauss-Seidel.
On démontre [ce qui n’implique pas la convergence de (x (k ))
Ces trois méthodes ne vérifient pas la condition du théorème 49
vers x ] que :
quelle que soit la matrice A . Il faut imposer des conditions que l’on
trouve dans [21], dans [23] qui est un grand classique ou dans [24] x (k + 1) – x  x ( k ) – x
qui est plus récent. Nous allons donner les résultats les plus impor-
tants de cette théorie. Commençons par un résultat général. Les différentes méthodes se différencient par le choix de z (k ) à
chaque itération et les conditions de convergence. Nous n’en
parlerons pas ici dans le cas général, mais nous allons maintenant
Théorème 50 étudier plus en détail le cas où la matrice A est symétrique définie
positive. On considère :
Soit A = M – N une décomposition additive quelconque de la
matrice A. Si A est symétrique définie positive et si MT + N est F : n → 
symétrique définie positive, alors la condition du théorème 49 définie par : F (y ) = (y, Ay )/2 – (y, b)
est satisfaite.
où y est un vecteur quelconque.
Le cas où A est symétrique définie positive est important pour L’équation F (y ) = a où a est un nombre positif arbitraire est l’équa-
les applications. Nous avons le théorème 51. tion d’un ellipsoïde dans  n dont x est le centre de symétrie. Soit
l’itéré x (k ). On choisit un vecteur u (k ) arbitraire passant par x (k ) et
Théorème 51 l’on prend pour x (k + 1) le point de u (k ) où F atteint son minimum.
On a donc :
Soit A une matrice symétrique définie positive. Une condition
nécessaire et suffisante pour que la méthode de surrelaxation ( u ( k ) , Ax ( k ) – b ) ( k )
converge est que 0 < ω < 2. x ( k + 1 ) = ( x ) ( k ) – ---------------------------------------------
-u
( u ( k ) , Au ( k ) )

La méthode de Gauss-Seidel converge donc dans ce cas. On démontre que les vecteurs u (k ) et Ax (k + 1) – b sont ortho-
Pour certaines classes de matrices (en particulier certaines gonaux. Ax (k + 1) – b est, par conséquent, dirigé suivant la normale
matrices tridiagonales par blocs), il existe une valeur optimale de à l’ellipsoïde passant par x (k + 1) et tangent à u (k ). La décroissance
ω (c’est-à-dire telle que la convergence soit la plus rapide possible) de F est donc la plus rapide dans la direction de Ax (k ) – b. On peut
qu’il est possible de caractériser.
alors choisir u (k ) = Ax (k ) – b. C’est ce que l’on appelle la méthode
de la plus profonde descente.

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
© Techniques de l’Ingénieur, traité Sciences fondamentales A 1 220 − 21
MÉTHODES NUMÉRIQUES DE BASE ________________________________________________________________________________________________________

Puisque la matrice A est symétrique définie positive, ses valeurs Soit x1 , x 2 , ..., xn les vecteurs propres correspondants. La
propres sont réelles et strictement positives. Soit λm la plus petite méthode de la puissance consiste à choisir un vecteur u0 puis à
d’entre elles et λM la plus grande. On a le théorème 54. construire la suite de vecteurs (uk ) par :
uk + 1 = Auk pour k = 0, 1, ...
Théorème 54
et à calculer la suite de nombres Sk = (y, uk + 1)/(y, uk ), k = 0, 1, ...
La méthode de la plus profonde descente converge, quel que où y est un vecteur arbitraire et où (.,.) désigne le produit scalaire
soit le vecteur initial x (0), si λM / λm < 2. de deux vecteurs. On a le théorème 56.

Nous allons maintenant choisir u (k ) dans le plan des vecteurs Théorème 56


u (k + 1) et Ax (k ) – b et de sorte que : Si x1 , x 2 , ..., xn forment une base, si λ1 = ... = λr , si
| λr | > | λr + 1|, si (u0 , xi ) ≠ 0 et si (y, xi ) ≠ 0 pour i = 1, ..., r, alors la
(u (k ), Au (k – 1)) = 0
suite (Sk ) converge vers λ1 et l’on a :
On montre que :
Sk = λ1 + O [( λ r + 1 /λ1)k ] (k → ∞)
( r ( k ) , Au ( k – 1 ) )
u (k) = – r ( k ) + -----------------------------------------------
- u (k – 1)
( u ( k – 1 ) , Au ( k – 1 ) )
Lorsque les hypothèses de ce théorème ne sont pas satisfaites,
il existe, dans certains cas, des variantes de la méthode de la puis-
avec r (k ) = Ax (k ) – b ou, ce qui revient au même :
sance. Si | λ1| est très voisin de | λ r + 1|, la suite (Sk ) converge lente-
(r ( k ), r ( k )) ment vers λ1 . On peut alors accélérer sa convergence par le
u ( k ) = – r ( k ) + -----------------------------------------
- u (k – 1) procédé ∆ 2 d’Aitken (§ 4.3) ; la suite ainsi obtenue converge vers λ1
( r (k – 1) , r (k – 1) )
avec une vitesse régie par :
Cette méthode s’appelle méthode du gradient conjugué. On a le (λr + 2 / λ1)k
résultat fondamental du théorème 55.
Une fois la valeur propre λ1 obtenue, on peut modifier soit la
matrice, soit la méthode pour calculer λ2 . On voit qu’une telle pro-
Théorème 55 cédure nécessite, pour commencer les itérations qui vont converger
La méthode du gradient conjugué converge en n itérations au vers λ2 , d’attendre que la méthode de la puissance ait convergé
plus. vers λ1 . Elle est donc peu utilisée et il vaut mieux lui préférer d’autres
méthodes.

Cela signifie qu’il existe un indice k, inférieur ou égal à n , tel que


x (k ) = x . La méthode du gradient conjugué est donc une méthode
directe de résolution des systèmes linéaires. À cause des erreurs 7.2 Calcul du polynôme caractéristique
dues à l’arithmétique de l’ordinateur, il se peut qu’il faille plus de
n itérations pour obtenir x . Il existe des techniques particulières [24]
pour remédier à ce problème. La méthode du gradient conjugué est On appelle polynôme caractéristique d’une matrice le polynôme
largement utilisée pour la minimisation de fonctions avec ou sans dont les racines sont ses valeurs propres. Nous allons étudier des
contraintes [26]. Elle s’étend aux matrices non symétriques. méthodes permettant d’obtenir ce polynôme caractéristique. On
Dans les méthodes de projection, x (0) est arbitrairement choisi. calculera ensuite ses racines (les valeurs propres de A) en utilisant,
par exemple, la méthode de Bairstow (§ 4.6). L’idée de ces méthodes
est de transformer la matrice A en une matrice tridiagonale
semblable, c’est-à-dire en une matrice ayant les mêmes valeurs
propres et de la forme :
7. Calcul des valeurs propres
Les méthodes de calcul des valeurs propres d’une matrice se
scindent en deux classes suivant que l’on désire les calculer toutes
ou calculer seulement celle de plus grand module.
On trouvera des développements sur les méthodes de calcul des
valeurs propres dans [21] [24] [27]. Mais il faudra surtout consulter
[29] qui est un ouvrage de référence sur le sujet.

Appelons Bk , la matrice formée par les k premières lignes et les


k premières colonnes de Bn et Pk le polynôme caractéristique de Bk .
7.1 Méthode de la puissance On montre que l’on peut calculer récursivement le polynôme carac-
téristique Pn de Bn (donc de A) par :
Elle entre dans la seconde classe. P0 (t ) = 1, P1 (t ) = a1 – t
Soit A la matrice dont on veut calculer les valeurs propres Pk (t ) = (ak – t ) Pk – 1 (t ) – bk – 1 ck – 1 Pk – 2 (t ) pour k = 2, ..., n
λ1 , ..., λ n . Nous supposerons celles-ci numérotées suivant l’ordre
décroissant de leurs modules : On voit que l’on obtient une relation de récurrence à trois termes
comme dans le cas des polynômes orthogonaux (§ 3.4). Il n’est donc
λ1  λ2  …  λn pas surprenant qu’il y ait des connexions entre ces deux sujets. C’est
ainsi que l’on a le théorème 57.

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
A 1 220 − 22 © Techniques de l’Ingénieur, traité Sciences fondamentales
_______________________________________________________________________________________________________ MÉTHODES NUMÉRIQUES DE BASE

Théorème 57 Théorème 58
Si bi ci ≠ 0 pour i = 1, ..., n – 1, alors Pi et Pi – 1 n’ont pas de Soit A une matrice quelconque. Il existe une matrice ortho-
racine commune pour i = 1, ..., n. Si b i c i > 0 pour i = 1, ..., n – 1, gonale P (c’est-à-dire telle que P –1 = P T ) telle que H = P T AP soit
alors les racines de Pi sont réelles, distinctes et séparées par une matrice de Hessenberg supérieure.
celles de P i + 1 pour tout i.
Les matrices A et H sont donc semblables. Pour obtenir H , la tech-
On pourra comparer ce résultat à celui du théorème 18. nique utilisée est similaire à celle de la méthode de Householder pour
Pour transformer la matrice A en une matrice tridiagonale la résolution d’un système linéaire (§ 6.1.4). On pose A 0 = A puis on
semblable, on utilise la méthode de Lanczos . On choisit deux calcule les matrices A1 , A 2 , ..., An –2 par :
vecteurs arbitraires x et y non nuls, on pose : T
Ak = P k Ak – 1 Pk
x0 = 0 y0 = 0
où Pk est une matrice orthogonale et où Ak – 1 est de la forme de
x1 = x y1 = y Hessenberg supérieure jusqu’à la colonne k – 1, c’est-à-dire de la
puis l’on calcule : forme :

 
x k + 1 = Axk – a k x k – bk – 1 x k – 1 Hk – 1 Ck – 1
Ak – 1 =
y k + 1 = ATy k – a k yk – b k – 1 yk – 1
0 bk – 1 Bk – 1
pour k = 1, ..., n – 1 avec b0 = 0 et :
où Hk – 1 est une matrice de Hessenberg supérieure de dimension
ak = (Ax k , yk )/(xk , yk ) k × k et où bk – 1 est un vecteur de dimension n – k . Pk est de la forme :


b k – 1 = (Ax k , y k – 1 )/(xk – 1 , yk – 1 )


I 0
La matrice : Pk =
0 Qk

où I est la matrice identité k × k et où Q k est une matrice


(k – 1)
(n – k ) × (n – k ). Soit a ij les éléments de A (k – 1). On a :

Pk = I – uuT/ ν
avec ui =0 pour i = 1, ..., k
(k – 1) −
uk + 1 = a k + 1, k + q
est semblable à A . On démontre de plus, que ∀ i ≠ j, (xi , yj ) = 0 ; pour
cette raison, on parle souvent de la méthode de bi-orthogonalisation (k – 1)
ui = a ik pour i = k + 2 , … , n
de Lanczos. Lorsque la matrice A est symétrique, on réduit le volume
n 1⁄2

 
des calculs en prenant x = y ; on a alors xk = yk pour tout k . (k – 1) 2
Dans cette méthode, il faut faire attention à la propagation des
q = ∑ a ik 
i = k+1
erreurs dues à l’arithmétique de l’ordinateur ; on utilise des tech-
(k – 1)
niques particulières pour obvier à cet inconvénient. ν = q2 −
+ a k + 1, k q
La méthode de Lanczos est à la base de la méthode du gradient
conjugué décrite dans le paragraphe 6.2.3. Dans ces expressions, le signe à placer devant q est celui de
(k – 1)
a k + 1, k . Après multiplication, on obtient :

7.3 Forme de Hessenberg


 
Hk – 1 Ck – 1 Qk
Ak =
Nous allons maintenant voir comment transformer une matrice
quelconque A en une matrice de (la forme de) Hessenberg supé- 0 Qk bk – 1 Qk Bk – 1 Qk
rieure. C’est une technique très utile car elle réduit considérablement
le volume des calculs dans les méthodes d’obtention des valeurs On voit que, si A est symétrique, il en est de même des matrices
propres que nous verrons (§ 7.4). A k . Donc A n – 2 est une matrice de Hessenberg supérieure
symétrique : elle est tridiagonale. On peut alors utiliser cette pro-
On dit qu’une matrice H est une matrice de Hessenberg supé-
cédure à la place de celle de Lanczos pour les matrices symétriques.
rieure si elle est de la forme :
Le calcul de An – 2 demande de l’ordre de 5n3/3 multiplications.

7.4 Méthode de décomposition


De nombreuses méthodes de calcul des valeurs propres d’une
matrice A relèvent de la même idée de base : la décomposition de
A en un produit de deux matrices A = BC où B est inversible. On a
donc :
c’est-à-dire que hij = 0 pour i > j + 1. On démontre le théorème 58. CB = B –1 AB

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
© Techniques de l’Ingénieur, traité Sciences fondamentales A 1 220 − 23
MÉTHODES NUMÉRIQUES DE BASE ________________________________________________________________________________________________________

c’est-à-dire que les matrices BC et CB sont semblables. On va alors Si A est symétrique définie positive, on peut utiliser la décomposi-
recommencer la même décomposition sur la matrice CB et ainsi de tion de Cholesky (§ 6.1.3) au lieu de celle de Gauss mais nous verrons
suite ; d’où l’algorithme : plus loin une autre méthode (§ 7.4.3).
A0 = A = B0C0 En général, la convergence de l’algorithme LR est lente : elle
A1 = C 0 B 0 = B 1 C 1 dépend du rapport | λ2 / λ1|. Pour aller plus vite, on peut diminuer le
volume des calculs à effectuer à chaque itération. Pour cela, on
.......................................
commence par transformer la matrice A en une matrice de
Ak = Ck –1Bk –1 = Bk Ck
Hessenberg supérieure, puis on applique l’algorithme LR. On a le
Ak+1 = Ck Bk = Bk+1 Ck+1 théorème 61.
.......................................
–1
On a A k + 1 = B k A k B k et toutes les matrices Ak ainsi obtenues Théorème 61
sont semblables à A. On va donc choisir la décomposition de sorte Si A est une matrice de Hessenberg supérieure, il en est de
que la suite de matrices (Ak ) converge vers une matrice que nous même de toutes les matrices Ak construites par l’algorithme LR.
appellerons A ∞ et dont les valeurs propres sont faciles à calculer.
Posons : De plus, si A est une matrice de Hessenberg supérieure, il est pos-
Pk = B 0 B1 ... Bk sible d’accélérer la convergence de la méthode LR en effectuant des
déplacements d’origine (shift). À l’itération k supposons que nous
On a : ayons obtenu une bonne approximation pk de λn , on effectuera la
–1
A k + 1 = P k AP k décomposition de Ak – pk I au lieu de celle de Ak , c’est-à-dire que :
A k – pk I = L k U k
Pour que (Ak ) converge, il suffit donc que (Pk ) converge. Si nous
appelons P∞ sa limite, on a : A k + 1 = Uk L k + p k I

–1 où Lk est triangulaire inférieure à diagonale unité et Uk triangulaire


lim B k = P ∞ P ∞ = I supérieure. Si les valeurs propres de A sont toutes de modules dis-
k→∞
(k)
puisque Bk = P
–1 tincts (c’est la condition du théorème 59), alors l’élément a nn de
k – 1 Pk
A k tend vers λn lorsque k tend vers l’infini. On prend donc
D’où finalement : (k)
p k = a nn et l’on commence ces déplacements d’origine dès que
A ∞ = lim B k C k = lim C k
k→∞ k→∞ (k) (k)
a n,n – 1 est petit. Lorsque a n,n – 1 est devenu nul (à la précision
La décomposition devra par conséquent être choisie de sorte que (k)
désirée), alors a nnest égal à peu près à λn et l’on peut réduire la
les valeurs propres des matrices Ck soient faciles à calculer ; c’est
taille du problème en travaillant sur la sous-matrice de dimension
le cas lorsque les matrices Ck sont triangulaires supérieures car les
n – 1 qui est, elle aussi, de la forme de Hessenberg supérieure. Dès
valeurs propres sont alors les termes de la diagonale principale. Or
(k)
nous connaissons justement deux décompositions où les matrices que a n – 1 ,n – 2 est petit, on recommence les déplacements d’ori-
C sont triangulaires supérieures : la méthode de Gauss et la méthode (k)
de Householder pour résoudre les systèmes linéaires (§ 6.1). Elles gine avec p k = a n – 1 ,n – 1 qui sera alors une approximation de
conduisent donc à deux algorithmes de calcul des valeurs propres λn – 1 et ainsi de suite.
de A : l’algorithme LR si l’on utilise la décomposition de Gauss et
l’algorithme QR si l’on utilise celle de Householder. Le problème prin-
cipal, dans les deux cas, est celui de la convergence de l’algorithme 7.4.2 Algorithme QR
car cette convergence n’a lieu que sous certaines conditions.
Pour cet algorithme, nous avons le théorème 62.
7.4.1 Algorithme LR
Théorème 62
Pour cet algorithme, nous avons les théorèmes 59 et 60. Si A est non singulière et si ses valeurs propres sont toutes de
modules différents, alors l’algorithme QR converge et la matrice
A∞ est triangulaire supérieure.
Théorème 59
Si A est diagonalisable, si | λ1| > | λ 2| > ... > | λn | et si tous les
On voit que les conditions du théorème 62 sont bien moins
déterminants principaux de la matrice des vecteurs propres de A
fortes que celles du théorème 59, mais c’est surtout le résultat du
et de son inverse sont différents de zéro, alors l’algorithme LR
théorème 63 qui établit la supériorité de l’algorithme QR.
converge et :

 λ 0 
 1  Théorème 63
 λ2  Si l’on applique l’algorithme QR à une matrice de Hessenberg
A∞ =  .. 

 0
.. 

supérieure, toutes les matrices Ak sont des matrices de
Hessenberg supérieures. De plus, si ai + 1,i ≠ 0 pour i = 1, ..., n – 1,
 λn  alors l’algorithme QR converge et la matrice A∞ est triangulaire
par blocs. Les valeurs propres de chaque bloc diagonal (qui sont
des valeurs propres de A) ont toutes le même module.

Théorème 60
On peut également effectuer des déplacements d’origine dans
Si A est symétrique définie positive, l’algorithme LR converge.
l’algorithme QR.

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
A 1 220 − 24 © Techniques de l’Ingénieur, traité Sciences fondamentales
_______________________________________________________________________________________________________ MÉTHODES NUMÉRIQUES DE BASE

7.4.3 Méthode de Jacobi à converger vers une matrice diagonale dont les termes sont les
valeurs propres de A. Posons :
Lorsque la matrice A est symétrique, il existe une méthode intéres- n
(k) 2
sante : celle de Jacobi. Nous avons vu, dans l’introduction du
paragraphe 7.4, que :
Nk = ∑ a ij 
i,j = 1
–1 i≠j
Ak + 1 = B k Ak Bk pour k = 0, 1, …
On a le théorème 64.
avec A 0 = A. La méthode de Jacobi consiste à prendre :

Théorème 64
Pour tout k, 0  N k + 1  N k .

Cela ne veut pas dire que (Nk ) admet zéro pour limite et donc
que la méthode converge. Cela va dépendre du choix de p et q à
chaque itération. On a le théorème 65.

Théorème 65
Si, à chaque itération, on choisit p et q tels que :
(k) (k)
a pq = max a ij
i≠j

alors la méthode de Jacobi converge.

où p, q et θ dépendent de k et où tous les autres éléments sont nuls.


En pratique, on arrête les itérations dès que Nk est petit et les élé-
–1 T ments de la diagonale de Ak sont des valeurs approchées des valeurs
On peut vérifier facilement que B k = B k et que toutes les
matrices Ak sont symétriques. Lorsque l’on passe de Ak à Ak + 1 seuls propres de A. Cependant, comme l’a montré F. Chatelin dans sa
thèse, ce test d’arrêt est loin d’être optimal : en effet, on peut très
sont modifiés les éléments des lignes et des colonnes p et q. En
bien avoir sur la diagonale de Ak de très bonnes approximations des
(k)
notant a ij les éléments de Ak on a : valeurs propres de A sans pour autant que Nk soit très petit. On peut
réduire considérablement le nombre des itérations en effectuant un
(k + 1) (k) test d’arrêt basé sur le théorème 66.
a ij = a ij pour i, j ≠ p, q
(k + 1) (k) (k)
a ip = a ip cos θ + a iq sin θ pour i ≠ p, q
Théorème 66
(k + 1) (k) (k)
a iq = – a ip sin θ + a iq cos θ pour i ≠ p , q Posons, dans la méthode de Jacobi, Ak = Dk + Ek où Dk est la
(k + 1) (k) (k) (k)
matrice diagonale formée par la diagonale de Ak . Supposons
a pp = a pp cos 2 θ + 2 a pq sin θ cos θ + a qq sin 2 θ que toutes les valeurs propres de A soient simples. Posons :
(k + 1) (k) (k) (k)
a qq = a pp sin 2 θ – 2 a pq sin θ cos θ + a qq cos 2 θ di
(k) (k)
= min a ii – a jj
(k)
j≠i
(k + 1) (k) (k)
a pj = a pj cos θ + a qj sin θ pour j ≠ p , q (k) (k)
s i = 2 Ek / d i
(k + 1) (k) (k)
a qj = – a pj sin θ + a qj cos θ pour j ≠ p , q (k) (k)
(k + 1) (k + 1) (k) (k) (k)
ti = 2 Ek ei / d i pour i = 1, … , n
a pq = a qp =  a qq – a pp  sin θ cos θ + a pq  cos 2 θ – sin 2 θ 

On va choisir θ afin que : où le vecteur ei a toutes ses composantes nulles sauf la i ième qui
(k)
(k + 1) (k + 1) vaut 1. Alors pour chaque i tel que s i < 1 , on a :
a pq = a qp = 0
(k) (k)
c’est-à-dire que : λi – a ii  f r i  E k e i

1⁄2
1
2 
1+t2
1
cos θ = -------- 1 + --------------------  avec f ( r ) =  1 + r 2 – 1  r et r i
(k) 2t i
(k)
= -----------------------------------------
(k) (k) 2
-
2 – s i + t i 
(k) (k) (k)
avec t = tan 2 θ = 2a pq / ( a pp – a qq ) .
(k) (k)
Si a pp = a qq , on pendra θ = π/4.
(k + 1) (k + 1)
8. Approximation
p et q varient à chaque itération. Donc a pq et a qp qui avaient
été annulés lors de la k ième itération ne seront plus obligatoirement La théorie de l’approximation constitue une partie fondamentale
nuls après la (k + 1)ième. Cependant, en itérant le procédé pour tous de l’analyse numérique. De nombreuses questions étudiées dans les
les couples (p, q) extra-diagonaux (p ≠ q), on arrive peu à peu à paragraphes précédents peuvent se formuler dans le cadre de cette
annuler tous les termes en dehors de la diagonale principale et donc théorie : approximation d’une fonction par un polynôme d’inter-
polation, d’une intégrale par une somme finie, de la solution d’une
équation différentielle, etc.

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
© Techniques de l’Ingénieur, traité Sciences fondamentales A 1 220 − 25
MÉTHODES NUMÉRIQUES DE BASE ________________________________________________________________________________________________________

Nous allons donner les notions de base de la théorie de l’approxi- Finalement on a le théorème 69.
mation ; elles feront appel à un minimum de connaissances en
analyse fonctionnelle, mais nous n’entrerons pas dans les détails qui
pourront être étudiés dans [5] ; nous nous intéresserons plus à des Théorème 69
exemples pour montrer la richesse de cette théorie et la puissance Sous les hypothèses du théorème 68, la meilleure approxima-
de l’outil que constitue l’analyse fonctionnelle. Le premier mathé- tion g de f dans C est unique.
maticien à attirer l’attention sur l’intérêt que pouvait présenter l’ana-
lyse fonctionnelle dans le développement de l’analyse numérique
fut le Russe L.V. Kantorovich en 1948. Après avoir démontré l’existence et l’unicité de g et l’avoir carac-
térisé, nous allons passer à la question qui intéresse l’analyste
Les idées et les méthodes de l’analyse fonctionnelle jouent un rôle numéricien : la construction effective de g .
important, voire fondamental, en analyse numérique quand les
mathématiques du problème dépendent beaucoup de l’analyse fonc- Soit g1 , g 2 , ..., gn des éléments linéairement indépendants de H
tionnelle (par exemple, dans les équations aux dérivées partielles, et soit C le sous-espace engendré par leurs combinaisons linéaires
[30]), lorsque l’on cherche à traiter d’un seul coup une classe entière finies. On a d’abord le théorème 70.
de méthodes (par exemple, les méthodes de quadrature de type
interpolation) ou encore à démontrer l’existence de méthodes numé- Théorème 70
riques présentant certaines caractéristiques. L’analyse fonctionnelle
apporte alors une simplification importante ; elle joue, par contre, Une condition nécessaire et suffisante pour que g1 , ..., gn
un rôle moins fondamental pour étudier un algorithme précis ou soient linéairement indépendants est que leur déterminant de
pour résoudre un problème spécifique et ne sera d’aucune utilité Gram :
en ce qui concerne l’implémentation d’une méthode sur ordinateur. ( g 1 , g 1 ) ......... ( g 1 , g n )
Actuellement, l’analyse fonctionnelle est un outil essentiel pour D ( g 1 , …, g n ) = ......................................
comprendre bon nombre de méthodes d’analyse numérique, mais
on peut également trouver de nouvelles méthodes numériques sans ( g n , g 1 ) ......... ( g n , g n )
son secours.
soit différent de zéro.
Réciproquement, certains algorithmes découlent directement des
méthodes de l’analyse fonctionnelle. On doit la considérer comme
un outil privilégié pour résoudre certains problèmes d’analyse Puisque g ∈ C et que C est engendré par g1 , ..., gn , g peut
numérique, mais on ne peut pas, inversement, considérer l’analyse s’écrire comme combinaison linéaire des gi avec des coefficients
numérique comme une branche de l’analyse fonctionnelle ; ce sont donnés par le théorème 71.
deux domaines différents mais complémentaires puisque l’analyse
numérique peut suggérer l’étude de nouvelles questions d’analyse
Théorème 71
fonctionnelle et que, inversement, celle-ci est le pivot de certains
sujets d’analyse numérique. Sur ces connexions, on pourra consulter La meilleure approximation g de f (∉C ) dans C s’écrit :
[31] [32] qui font chacun la moitié du chemin en sens inverses.
g = a1 g1 + … + an gn

où les ai sont solution du système :


8.1 Meilleure approximation. Théorie
n

Nous allons maintenant étudier le problème de la recherche de ∑ ai ( gi , gj ) = ( f, gj ) pour j = 1, …, n


la meilleure approximation qui peut se formuler ainsi : soit H un i=1
espace vectoriel normé et C une partie de H ; on dit que g ∈ C est et l’on a :
la meilleure approximation de f ∈ H dans C si, pour tout g ∈ C ,
f – g  f – g . On a le résultat d’existence donné par le f– g 2
= D ( g 1 , …, g n , f ) / D ( g 1 , …, g n )
théorème 67.
On voit que la solution de ce système est immédiate dans le cas
Théorème 67 où (gi , g j ) = 0 pour j ≠ i . Cela montre l’importance des systèmes
Si C est soit une partie compacte de H, soit un sous-espace orthogonaux en approximation, par exemple les polynômes ortho-
vectoriel de dimension finie de H, alors, quel que soit f ∈ H, il gonaux en approximation polynomiale. Si, de plus, le système est
existe au moins une meilleure approximation g de f dans C. normé, c’est-à-dire si (gi , gi ) = 1, alors on a :
n

∑ ai
2
Nous allons maintenant supposer que H est muni d’un produit a i = ( f, g i ) et f– g 2
= f 2 –
scalaire ; on dira que c’est un espace préhilbertien et l’on posera i=1
||.||2 = (.,.). On a le résultat de caractérisation donné par le
théorème 68. On dit alors que les ai sont les coefficients de Fourier de f rela-
tivement au système orthonormé g1 , ..., gn et g est appelé somme
de Fourier.
Théorème 68 Étant donné une base quelconque g 1 , ..., gn de C, il est toujours
Si H est un espace préhilbertien et si C est un sous-espace vec- possible de la transformer en une base orthonormée h1 , ..., hn à
toriel de dimension finie de H, alors une condition nécessaire et l’aide du procédé d’orthonormalisation de Schmidt :
suffisante pour que g ∈ C soit meilleure approximation de f
h1 = g 1 /||g 1||
dans C est que pour tout g ∈ C :
i–1
f – g , g – g   0 ui = gi – ∑ ( gi , hj )hj
j=1

hi = ui /||ui || pour i = 2, ..., n

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
A 1 220 − 26 © Techniques de l’Ingénieur, traité Sciences fondamentales
_______________________________________________________________________________________________________ MÉTHODES NUMÉRIQUES DE BASE

8.2 Meilleure approximation. Exemples Le système précédent s’écrit AT Aa = ATb. La matrice ATA étant
symétrique définie positive, la méthode de Cholesky (§ 6.1.3) est
particulièrement bien adaptée à la résolution de ce système.
8.2.1 Approximation au sens des moindres carrés
Si gi (x) = x i on obtient l’approximation polynomiale discrète. Si
Il faut distinguer le cas continu et le cas discret. N = n on retrouve l’interpolation polynomiale (§ 2.1) et l’on a
f – g = 0.
■ Soit C [a, b] l’espace des fonctions continues sur [a, b] et soit ω
une fonction poids strictement positive sur ]a , b [. Nous suppose-

8.2.2 Approximation trigonométrique discrète


b
rons que f (x ) ω (x ) d x existe pour toute fonction f de C [a, b] et
a
nous définirons le produit scalaire par : Prenons maintenant pour H l’espace vectoriel H q [a, b] ( q  1 ) des
fonctions définies sur [a, b] qui ont une dérivée (q – 1)ième absolu-

b
( f, g ) = f (x) g(x) ω (x) dx ment continue et une dérivée q ième de carré sommable, c’est-à-dire
a que :


b
Soit g 0 , ..., gn des éléments linéairement indépendants de H et
soit C le sous-espace vectoriel qu’ils engendrent. D’après ce qui f ( q ) (x ) 2 dx < +∞
a
précède, on a :
On considère le produit scalaire :
g = a0 g0 + … + an gn


b N
où les ai sont solution du système : ( f, g ) =
a
f (q) ( x ) g(q) ( x ) d x + c ∑ f ( xi ) g ( xi )

n b b i=1

∑ ai a
g i (x ) g j (x ) ω (x ) d x =
a
f (x ) g j (x ) ω (x ) d x où les xi sont distincts les uns des autres et où c est un paramètre
i=0 non négatif. Si C est un sous-espace vectoriel de H q [a, b], les résul-
pour j = 0, … , n
tats théoriques précédents s’appliquent. On dit alors que g est la
i fonction spline d’ajustement de f. On peut également définir des
● Si gi (x ) = x , on retrouve l’approximation polynomiale, ce qui
fonctions spline d’interpolation. Ces sujets sont développés dans [5].
montre l’importance des familles de polynômes orthogonaux
étudiées au paragraphe 3.4.
● Si g0 (x) = 1 : g1 (x ) = sin x 8.2.3 Meilleure approximation uniforme
g 2 (x ) = cos x, ..., g 2n – 1 (x) = sin nx
Soit maintenant C ∞ [a , b ] l’espace vectoriel des fonctions
g 2n (x ) = cos nx, a = – π et b = π continues sur [a, b] muni de la norme :
on est dans le cas de l’approximation trigonométrique. g 0 , ..., g 2n f = max f (x )
forment un système orthonormé et : x ∈ [ a, b ]

n et soit C un sous-espace vectoriel de C ∞ [a, b]. g est meilleure


g (x ) = a 0 + ∑ ( ak cos kx + bk sin kx ) approximation uniforme de f dans C si pour tout g ∈C, on a :
k=1
max f (x ) – g (x )  max f (x ) – g (x )
■ Étudions maintenant l’approximation discrète au sens des x ∈ [ a, b ] x ∈ [ a, b ]
moindres carrés. Définissons le produit scalaire par :
Nous avons rencontré un exemple de meilleure approximation
N
uniforme lorsque nous avons étudié les polynômes de Tchebychev
( f, g ) = ∑ f ( xi ) g ( xi ) ω ( xi ) au paragraphe 2.3.
i=0
C ∞ [a, b] n’est pas un espace préhilbertien et les résultats des
où les xi sont distincts les uns des autres et ω (xi ) > 0. théorèmes 68 à 71 ne sont plus valables. Il nous faut donc donner
une caractérisation de la meilleure approximation uniforme (quel-
Soit C le sous-espace engendré par des éléments g 0 , ..., gn linéai- quefois appelée approximation au sens de Tchebychev), démontrer
rement indépendants. On aura g = a 0 g 0 + … + a n g n avec les ai des résultats d’unicité et en fournir un procédé de construction.
solution du système : Nous prendrons toujours pour C le sous-espace engendré par
des éléments linéairement indépendants g1 , ..., gn de C ∞ [a, b].
n N N

∑ ai ∑ gi ( xk ) gj ( xk ) ω ( xk ) = ∑ f ( xk ) gj ( xk ) ω ( xk ) Nous commencerons par un résultat connu sous le nom de


condition de Haar (théorème 72).
i=0 k=0 k=0
pour j = 0, … , n

Posons : Théorème 72
Une condition nécessaire et suffisante pour que la meilleure
b =  ω ( x 0 ) f ( x 0 ), …, ω ( x N ) f ( x N )  T approximation uniforme g de f dans C soit unique pour tout
f ∈ C ∞ [a , b ] est que tout g ∈ C admette au plus n – 1 racines
a = (a 0 , ..., an )T dans [a , b ].

ω ( x 0 ) g 0 ( x 0 )........ ω ( x 0 ) g n ( x 0 ) On dit alors que les gi forment un système de Tchebychev sur


A = ............................................................. [a, b].
ω ( x N ) g 0 ( x N )........ ω ( x N ) g n ( x N )

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
© Techniques de l’Ingénieur, traité Sciences fondamentales A 1 220 − 27
MÉTHODES NUMÉRIQUES DE BASE ________________________________________________________________________________________________________

On a le théorème de caractérisation suivant. Donnons maintenant le théorème d’alternance de Tchebychev


(théorème 74).

Théorème 73
Si la condition de Haar est vérifiée et s’il existe g ∈ C tel que : Théorème 74
Une condition nécessaire et suffisante pour que g soit
f (xi ) – g (xi ) = c (– 1)i ai pour i = 0, ..., n meilleure approximation uniforme de f dans C est que les
conditions :
avec c = ± 1, ai > 0 et a  x 0 < x 1 < … < x n  b , alors la meilleure
f ( xi ) – g ( xi ) = f – g
approximation uniforme g de f dans C vérifie :
f ( xi ) – g ( xi ) = –  f ( xi + 1 ) – g ( xi + 1 ) 
f – g  min a i
0in
soient satisfaites en au moins n + 1 abscisses [a, b].

La construction effective de g est réalisée grâce à l’algorithme


de Rémès.
Dans le cas gi (x ) = x i, i = 0, ..., n , on voit immédiatement que la
condition du théorème 72 est vérifiée et donc que la meilleure
approximation uniforme par des polynômes est unique. Nous
renvoyons le lecteur intéressé aux ouvrages spécialisés [5].

Références bibliographiques

[1] LA PORTE (M.) et VIGNES (J.). – Algorithmes [11] BREZINSKI (C.). – Algorithmes d’accélération [22] BREZINSKI (C.). – Algorithmique numérique.
numériques, analyse et mise en œuvre. 1 : de la convergence, étude numérique. Technip, Ellipses, Paris (1988).
arithmétique des ordinateurs, systèmes liné- Paris (1978). [23] VARGA (R.S.). – Matrix iterative analysis.
aires. Technip, Paris (1974). [12] DURAND (E.). – Solutions numériques des Englewood Cliff, Prentice Hall (1962).
[2] VIGNES (J.), ALT (R.) et PICHAT (M.). – Algo- équations algébriques. Masson, Paris (1961). [24] GOLUB (G.H.) et VAN LOAN (C.F.). – Matrix
rithmes numériques, analyse et mise en [13] ORTEGA (J.M.) et RHEINBOLDT (W.C.). – Itera- computations. Baltimore, The Johns Hopkins
œuvre. 2 : équations et systèmes non linéaires. tive solution of nonlinear equations in several Univ. Press (1983).
Technip, Paris (1980). variables. Academic Press, New York (1970). [25] FIEDLER (M.). – Special matrices and their
[3] PICHAT (M.). – Correction d’une somme en [14] HENRICI (P.). – Elements of numerical analysis. applications in numerical mathematics. M.
arithmétique à virgule flottante. Numer. Math. Wiley, New York (1964). Nijhoff, Dordrecht (1986).
(RFA) 19 , p. 400-6 (1972).
[15] SMITH (D.A.), FORD (W.F.) et SIDI (A.). – Extra- [26] HESTENES (M.R.). – Conjugate direction
[4] BREZINSKI (C.). – Introduction à la pratique polation methods for vector sequences. SIAM methods in optimization. Springer-Verlag,
du calcul numérique. Dunod, Paris (1988). Review (USA) 29, p. 199-233 (1987). Heidelberg (1980).
[5] LAURENT (P.J.). – Approximation et optimisa- [16] BARANGER (J.) et al. – Analyse numérique. [27] LASCAUX (P.) et THÉODOR (R.). – Analyse
tion. Hermann, Paris (1972). Paris, Hermann (1989). numérique matricielle appliquée à l’art de
[6] KUNTZMANN (J.). – Méthodes numériques, [17] HAIRER (E.), NORSETT (S.P.) et WANNER (G.). l’ingénieur. Masson, Paris (1986).
interpolation, dérivées. Dunod, Paris (1959). – Solving ordinary differential equations. [28] GASTINEL (N.). – Analyse numérique
[7] CUYT (A.) et WUYTACK (L.). – Nonlinear Springer-Verlag, Heidelberg (1987). linéaire. Hermann, Paris (1966).
methods in numerical analysis. Amsterdam, [18] BUTCHER (J.C.). – The numerical analysis of [29] CHATELIN (F.). – Valeurs propres de matrices.
North-Holland (1987). ordinary differential equations. Wiley, New Masson, Paris (1988).
[8] MÜHLBACH (G.). – The general Neville-Aitken York (1987). [30] DAUTRAY (R.) et LIONS (J.L.). – Analyse
algorithm and some applications. Numer. [19] CROUZEIX (M.) et MIGNOT (A.L.). – Analyse mathématique et calcul numérique. Masson,
Math. (RFA) 31, p. 97-110 (1978). numérique des équations différentielles. Paris (1987).
[9] BREZINSKI (C.). – Subroutines for the general Masson, Paris (1984). [31] CRYER (C.W.). – Numerical functional analysis.
interpolation and extrapolation problems. [20] MIRANKER (W.L.). – Numerical methods for Clarendon Press, Oxford (1982).
Trans. on Math. Soft. (USA) 8, p. 290-301 (1982). stiff equations. Reidel, Dordrecht (1981). [32] LINZ (P.). – Theoretical numerical analysis.
[10] SZEGÖ (G.). – Orthogonal polynomials. Provi- [21] CIARLET (P.G.). – Introduction à l’analyse Wiley, New York (1979).
dence, Amer. Math. Soc. (1939). numérique matricielle et à l’optimisation. [33] LÉON (L.). – Traitement d’algorithmes par ordi-
Masson, Paris (1982). nateur. Cepadues éditions, Toulouse (1983).

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
A 1 220 − 28 © Techniques de l’Ingénieur, traité Sciences fondamentales

Vous aimerez peut-être aussi