Vous êtes sur la page 1sur 14

Christophe Bertault — Mathématiques en MPSI

ESPACES PRÉHILBERTIENS RÉELS

Dans ce chapitre, on travaille seulement avec le corps de base R.

1 PRODUIT SCALAIRE ET NORME

Définition (Produit scalaire, espace préhilbertien réel, espace euclidien)


• Soit E un R-espace vectoriel.

On appelle produit scalaire sur E toute forme bilinéaire symétrique définie positive,
i.e. toute application ·, · : E × E −→ R :




— bilinéaire : ∀x, y, z ∈ E, ∀λ, µ ∈ R, λx + µ y, z = λ x, z + µ y, z






et x, λ y + µz = λ x, y + µ x, z ,
— symétrique : ∀x, y ∈ E, y, x = x, y ,


— définie : ∀x ∈ E, x, x = 0 =⇒ x = 0 E (propriété de séparation),


— positive : ∀x ∈ E, x, x ¾ 0.


Le produit scalaire x, y est aussi parfois noté : (x| y) ou x · y.
• Un espace vectoriel réel muni d’un produit scalaire est appelé un espace préhilbertien réel. Un espace préhilbertien
réel DE DIMENSION FINIE est appelé un espace euclidien.

 Explication  Définition déroutante ! Nous n’avons à ce stade encore jamais parlé en algèbre linéaire d’angles et
de normes. Mine de rien, nous → sommes
→ donc− en train
 de définir le concept de produit scalaire indépendamment de toute
relation du type : − →
u ·−

v = − u . −v cos →u ,−
→v . En réalité, dans la théorie que nous nous apprêtons à développer, le
produit scalaire est premier et ce sont les notions de norme et d’angle qui viennent après.

 En pratique  Pour montrer la bilinéarité d’un produit scalaire potentiel, la linéarité par rapport à une variable
seulement est suffisante si on a pris la peine de démontrer la symétrie avant.



Petite remarque au passage : x, 0 E = 0 E , x = 0 pour tout x ∈ E, par bilinéarité du produit scalaire.

X
n
Définition-théorème (Produit scalaire canonique sur Rn ) L’application (X , Y ) 7−→ t X Y = x k yk est un produit
k=1
scalaire sur Rn appelé son produit scalaire canonique.

 Explication  Ouf, nous retrouvons bien ici les produits scalaires auxquels nous sommes habitués dans le plan R2
et l’espace R . Par exemple, pour tous vecteurs −
3 →
u = (x, y) et −

u ′ = (x ′ , y ′ ) de R2 : −

u ·−

u ′ = x x ′ + y y ′.

Démonstration
X
n X
n
t
• Symétrie : Pour tous X , Y ∈ Rn : XY = x k yk = yk x k = t Y X .
k=1 k=1
• Bilinéarité : Par symétrie, la linéarité par rapport à la deuxième
 variable
 suffit. Pour
 tous X , Y, Z ∈ Rn et
t t t
λ, µ ∈ R, par bilinéarité du produit matriciel : X λY + µZ = λ X Y + µ X Z .
¾0
X
n n z}|{
X
t
• Positivité et séparation : Pour tout X ∈ R : n
XX = x k2 ¾ 0, et si : t
XX = x k2 = 0, alors :
k=1 k=1
xk = 0 pour tout k ∈ ¹1, nº, i.e. : X = 0.

1
Christophe Bertault — Mathématiques en MPSI

 ‹
2 1
Exemple Il peut exister beaucoup produits scalaires sur un même espace vectoriel. L’application (X , Y ) 7−→ t X Y
1 2
est par exemple un produit scalaire sur R2 distinct du produit scalaire usuel.
Démonstration Symétrie et bilinéarité évidentes. Ensuite, pour tout X = (x, y) ∈ R2 :
 ‹  2x + y ‹
t 2 1
X X= x y = 2x 2 + 2x y + 2 y 2 = x 2 + y 2 + (x + y)2 ¾ 0,
1 2 x + 2y
 ‹
t 2 1
et si : X X = 0, alors : x = y = x + y = 0, donc : X = (0, 0).
1 2

Z b

Exemple Soient a, b ∈ R avec : a < b. L’application ( f , g) 7−→ f (t)g(t) dt est un produit scalaire sur C [a, b], R .
a
Démonstration
• Symétrie et bilinéarité : Évidentes.
Z b Z b
 2
• Positivité et séparation : Pour tout f ∈ C [a, b], R : f (t) dt ¾ 0 et si : f (t)2 dt = 0,
a a
alors comme f est CONTINUE et POSITIVE OU NULLE : f2=0 sur [a, b] et donc : f = 0.

$ ATTENTION ! $ Muni du produit scalaire défini ci-dessus, C [a, b], R n’est pas un espace euclidien car ce n’est pas
un R-espace vectoriel de dimension finie. C’est seulement un espace préhilbertien réel.

X
n
Exemple Soient x 0 , . . . , x n ∈ R DISTINCTS. L’application (P, Q) 7−→ P(x k )Q(x k ) est un produit scalaire sur Rn [X ].
k=0
Démonstration
• Symétrie et bilinéarité : Symétrie évidente, donc la linéarité par rapport à la première variable suffit.
X
n
 X
n X
n
Pour tous P, Q, R ∈ Rn [X ] et λ, µ ∈ R : λP + µQ (x k )R(x k ) = λ P(x k )R(x k ) + µ Q(x k )R(x k ).
k=0 k=0 k=0
X
n

Xn
• Positivité et séparation : Pour tout P ∈ Rn [X ] : P(x k )2 ¾ 0, et si : P, P = P(x k )2 = 0,
k=0 k=0
alors : P(x k ) = 0 pour tout k ∈ ¹0, nº, autrement dit x 0 , . . . , x n sont des racines de P. Le polynôme P
possède alors au moins n + 1 racines distinctes, or : degP ¶ n, donc : P = 0.
  X
Exemple L’application (A, B) 7−→ tr t AB est un produit scalaire sur Mn (R) — concrètement : tr t AB = a i j bi j .
1¶i, j¶n
2 2
Si on n’oublie pas que : Mn (R) = Rn , ce produit scalaire n’est jamais que le produit scalaire canonique de Rn .
Démonstration
• Symétrie et bilinéarité : Symétrie évidente, donc la linéarité par rapport à la première variable suffit.
Pour tous A, B, C ∈ Mn (R) et λ, µ ∈ R, par bilinéarité du produit matriciel et linéarité de la trace :
€ Š €  Š  
tr t A λB + µC = tr λ t AB + µ t AC = λ tr t AB + µ tr t AC .
 X 
• Positivité et séparation : Pour tout A ∈ Mn (R) : tr t AA = ai2j ¾ 0, et si : tr t AA = 0, alors :
1¶i, j¶n
ai j = 0 pour tous i, j ∈ ¹1, nº, i.e. : A = 0.

Définition (Norme et distance associées à un produit scalaire) Soit E un espace préhilbertien réel.


• On appelle norme (euclidienne) sur E associée au produit scalaire ·, · l’application k · k : E −→ R+ définie pour tout
q

x ∈ E par : kxk = x, x . On dit qu’un vecteur x de E est unitaire si : kxk = 1.


• On appelle distance (euclidienne) sur E associée au produit scalaire ·, · l’application d : E × E −→ R+ définie pour
tous x, y ∈ E par : d(x, y) = kx − yk.

$ ATTENTION ! $ La notion de distance n’est pas forcément celle qu’on croit ! La distance dépend d’un CHOIX de
 ‹
2 1 p
t
produit scalaire. Par exemple, pour le produit scalaire (X , Y ) 7−→ X Y sur R2 : (1, 0) = 2 6= 1.
1 2

2
Christophe Bertault — Mathématiques en MPSI

 Explication  Qui dit « bilinéarité » dit « identités remarquables ». En l’occurrence, pour tous x, y ∈ E :



kx + yk2 = kxk2 + 2 x, y + k yk2 et x + y, x − y = kxk2 − k yk2 .

On peut aussi « inverser » ces relations et récupérer le produit scalaire en fonction de la norme. On obtient alors ce qu’on

1 € Š 1€ Š
appelle des identités de polarisation. Par exemple : x, y = kx + yk2 − kxk2 − k yk2 = kx + yk2 − kx − yk2 .
2 4

Théorème (Inégalité de Cauchy-Schwarz, inégalité triangulaire) Soient E un espace préhilbertien réel et x, y, z ∈ E.





(i) Inégalité de Cauchy-Schwarz : x, y ¶ kxk.k yk, avec égalité si et seulement si x et y sont colinéaires.


(ii) Inégalité triangulaire, version norme : kxk − k yk ¶ kx + yk ¶ kxk + k yk.
L’inégalité de droite est une égalité si et seulement si x et y sont colinéaires DE MÊME SENS.


Inégalité triangulaire, version distance : d(x, y) − d( y, z) ¶ d(x, z) ¶ d(x, y) + d( y, z).

 Explication  Si nous avions une définition propre du produit scalaire en termes de normes et d’angles, l’inégalité
→ − → −  → −
de Cauchy-Schwarz serait une pure trivialité : − u ·→v = −
u . →
v cos −
→u ,−
→v ¶ −u . →
v . Dans notre contexte,
cette inégalité est justement remarquable parce que nous n’avons pas encore de définition propre des angles orientés.

Démonstration



(i) Si y = 0 E : x, y = 0 ¶ 0 = kxk.k yk et dans ce cas d’égalité, x et y sont clairement colinéaires.
2

Supposons à présent y 6= 0 E . La fonction t 7−→ x + t y = kxk2 + 2t x, y + t 2 k yk2 est alors polynomiale
de degré EXACTEMENT 2, et comme elle est positive ou nulle sur tout R, son discriminant est négatif ou

2 2 2

nul : 4 x, y − 4kxk k yk ¶ 0, d’où le résultat : x, y ¶ kxk.k yk.
À quelle condition a-t-on en fait égalité ? L’inégalité est une égalité si et seulement si le discriminant calculé
2
est nul, i.e. si et seulement si la fonction t 7−→ x + t y s’annule. Cela revient à dire que : x + t 0 y = 0 E
pour un certain t 0 ∈ R, i.e. que x et y sont colinéaires.

(i) € Š2
(ii) D’abord : kx + yk2 = kxk2 + 2 x, y + k yk2 ¶ kxk2 + 2kxk.k yk + k yk2 = kxk + k yk , ensuite on
passe à la racine carrée.


À quelle condition a-t-on en fait une égalité ? Si et seulement si : x, y = kxk.k yk. Les vecteurs x
et y sont alors colinéaires d’après (i), et
quitte à les
permuter,
on peut supposer que : y = λx pour
un certain λ ∈ R. Aussitôt : λkxk2 = x, λx = x, y = kxk.k yk = kxk.kλxk = |λ|.kxk2 , donc soit
x est nul, soit : λ = |λ|, i.e. : λ ¾ 0. Dans les deux cas, x et y sont colinéaires DE MÊME SENS.
Réciproque immédiate.

Pour l’inégalité généralisée : kxk = (x + y) + (− y) ¶ kx + yk + k − yk = kx + yk + k yk, donc :
kxk − k yk ¶ kx + yk, et de même : k yk − kxk ¶ kx + yk. „
‚ n Œ2
X X
n
Exemple Pour tous x 1 , . . . , x n ∈ R : xk ¶n x k2 , avec égalité si et seulement si : x1 = . . . = xn.
k=1 k=1

Démonstration Simple application de l’inégalité de Cauchy-Schwarz aux vecteurs (x 1 , . . . , x n ) et (1, . . . , 1) de


Rn pour le produit scalaire canonique.
v v
uZ b uZ b
 2 2
t t
Exemple Soient a, b ∈ R avec : a < b. Pour tout f ∈ C 1 [a, b], R : f (b) − f (a) ¶ 2 f (t)2 dt f ′ (t)2 dt.
a a

Démonstration Appliquons l’inégalité de Cauchy-Schwarz à f et f ′ dans l’espace préhilbertien réel C [a, b], R
Z uZv v
Z b b t b uZ b
′ t
muni du produit scalaire (u, v) 7−→ u(t)v(t) dt : f (t) f (t) dt ¶ f (t)2 dt f ′ (t)2 dt. On
a
a a a
conclut en calculant simplement l’intégrale de gauche.

3
Christophe Bertault — Mathématiques en MPSI

Exemple Soit (Ω, P) un espace probabilisé fini. L’application (X , Y ) 7−→ E(X Y ) est une forme bilinéaire symétrique positive
sur le R-espace vectoriel RΩ des variables aléatoires€ réelles sur Ω, MAIS CE N’EST PAS FORCÉMENT UN PRODUIT SCALAIRE.
 Š
C’en est un si et seulement si pour tout ω ∈ Ω : P ω > 0.
Démonstration L’application (X , Y ) 7−→ E(X Y ) a-t-elle la propriété de séparation ? C’est toute la question.
€ Š 
— Si : P ω > 0 pour tout ω ∈ Ω, alors pour toute variable aléatoire X ∈ RΩ , si : E X 2 = 0, alors :
X € Š
P ω X (ω)2 = 0, donc : ∀ω ∈ Ω, X (ω) = 0, donc : X = 0.
ω∈Ω € Š  
— Si (X , Y ) 7−→ E(X Y ) est un produit scalaire, alors pour tout ω ∈ Ω : P ω = E 1{ω} = E 12{ω} > 0.

Théorème (Inégalité de Cauchy-Schwarz pour les variables aléatoires) Soient (Ω, P) un espace probabilisé fini et
X et Y deux variables aléatoires sur Ω. Alors :
Ç Ç 
E(X Y ) ¶ E X 2 E Y2 . En particulier : cov(X , Y ) ¶ σ(X ) σ(Y ).

Démonstration

• Cas où E Y 2 6= 0 : On peut reprendre ici à l’identique la preuve précédente de l’inégalité de Cauchy-
Schwarz — la propriété de séparation du produit scalaire n’y est pas utilisée.
  
• Cas où E Y 2 = 0 : La fonction t 7−→ E (X + t Y )2 = E X 2 + 2tE(X Y ) est à la fois affine et positive ou
nulle sur tout R, donc
q son coefficient directeur est nul : E(X Y ) = 0, ce qui nous donne comme voulu :
q 
E(X Y ) = 0 ¶ 0 = E X 2 E Y2 .
€  Š r € 2 Š r € 2 Š
Enfin : cov(X , Y ) = E X − E(X ) Y − E(Y ) ¶ E X − E(X ) E Y − E(Y ) = σ(X ) σ(Y ). „

 p
Exemple Pour toute variable aléatoire centrée X : E |X | ¶ V(X ).
  q p
Démonstration D’après l’inégalité de Cauchy-Schwarz : E |X | = E |X | × 1 ¶ E X 2 E(1), et comme
 q  p
X est centrée : E |X | ¶ E X 2 − E(X )2 = V(X ).

2 ORTHOGONALITÉ

2.1 VECTEURS ORTHOGONAUX, FAMILLES ORTHOGONALES / ORTHONORMALES

Définition (Vecteurs orthogonaux, parties orthogonales, familles orthogonales/orthonormales) Soient E un espace


préhilbertien réel, x, y ∈ E, X et Y deux parties de E et (x i )i∈I une famille de vecteurs de E.


• On dit que x et y sont orthogonaux si : x, y = 0, ce qu’on note : x ⊥ y.


• On dit que les parties X et Y sont orthogonales, ce qu’on note : X ⊥ Y , si pour tous x ∈ X et y ∈ Y : x, y = 0.


• On dit que la famille (x i )i∈I est orthogonale si pour tous i, j ∈ I DISTINCTS : x i , x j = 0.
• On dit que la famille (x i )i∈I est orthonormale

(ou orthonormée) si elle est orthogonale et constituée de vecteurs
unitaires, i.e. si pour tous i, j ∈ I : x i , x j = δi j .

 Explication  Notre théorie géométrique a définitivement la tête en bas. Jusqu’ici, pour vous, la notion d’orthogo-
nalité était première et le produit scalaire second. C’est le contraire qui est vrai à présent, la notion d’orthogonalité repose
sur la définition préalable d’un produit scalaire. En particulier, à chaque produit produit scalaire est associée une notion
d’orthogonalité, ce qui fait que les angles droits ne sont pas droits absolument, mais relativement.

Exemple Pour le produit scalaire canonique de Rn , la base canonique (Ei )1¶i¶n de Rn est orthonormale car comme on le
vérifie aisément, pour tous i, j ∈ ¹1, nº : t Ei E j = δi j .

4
Christophe Bertault — Mathématiques en MPSI

Le résultat suivant est à la fois trivial et essentiel.

Théorème (Vecteurs orthogonaux à tout vecteur) Dans un espace préhilbertien réel, le vecteur nul est le seul vecteur
orthogonal à tout vecteur.

Démonstration Soient E un espace préhilbertien et x ∈ E. Si x est orthogonal à tout vecteur de E, alors



réel
x est en particulier orthogonal à. . . lui-même : x, x = 0, et ainsi : x = 0 E par séparation. „
‹ 
2 1 t −

Exemple Pour le produit scalaire (X , Y ) 7−→ X Y sur R2 , la base canonique n’est pas orthonormale, mais 
1 2
 ‹ −

u
(1, 0) (1, −2) b

la famille p , p en est une comme on le vérifie aisément. Cela nous fait apparemment un drôle d’angle −

2 6 −
→ ı
droit mais vous devez considérer que c’en est bel et bien un — c’est simplement votre œil qui n’est pas adapté. v

Exemple La famille des fonctions t 7−→ sin(nt), n décrivant N∗ , est orthonormale dans C [0, 2π], R pour le produit
Z 2π
1
scalaire ( f , g) 7−→ f (t)g(t) dt.
π 0
Z 2π Z 2π • ˜
∗ 1 2 1 1 − cos(2nt) 1 sin(2nt) t=2π
Démonstration Pour tout n ∈ N : sin (nt) dt = dt = 1− = 1,
π 0 π 0 2 π 4n t=0
Z 2π Z 2π
1 1 €  Š
et pour tous m, n ∈ N∗ DISTINCTS : sin(mt) sin(nt) dt = cos (m − n)t − cos (m + n)t dt
π 0 2π 0
–   ™ t=2π
1 sin (m − n)t sin (m + n)t
= − = 0.
2π m−n m+n
t=0


Exemple Dans C [−1, 1], R , l’ensemble des fonctions paires et l’ensemble des fonctions impaires sont deux sous-espaces
Z1
vectoriels orthogonaux pour le produit scalaire ( f , g) 7−→ f (t)g(t) dt.
−1
Z 1
 
Démonstration Pour toutes p ∈ C [−1, 1], R paire et i ∈ C [−1, 1], R impaire : p(t) i(t) dt = 0.
−1
| {z }
impaire

Théorème (Propriétés des familles orthogonales) Soit E un espace préhilbertien réel. b

y
(i) Théorème de Pythagore : Pour tous x, y ∈ E, x et y sont orthogonaux si et seulement x+ y
si : kx + yk2 = kxk2 + k yk2 . 2
X n Xn
b b

x
En outre, pour toute famille orthogonale (x 1 , . . . , x n ) de E : xi = kx i k2 .
i=1 i=1

(ii) Toute famille orthogonale de vecteurs NON NULS de E est libre.


En particulier, si E est de dimension finie n 6= 0, toute famille orthonormale de n vecteurs de E est déjà une BASE
orthonormale de E.

Démonstration 2
X n Xn X
X n

(i) Tout simplement : xi = kx i k2 + 2 xi , x j = kx i k2 .
i=1 i=1 1¶i< j¶n
| {z } i=1
=0

(ii) Soient (x 1 , . . . , x n ) une famille orthogonale de vecteurs


® non nuls de¸E et λ1 , . . . , λn ∈ R pour lesquels :
Xn

Xn X
n


λk x k = 0 E . Pour tout i ∈ ¹1, nº : 0 = 0 E , x i = λk x k , x i = λk x k , x i = λi kx i k2 , donc
k=1 k=1 k=1
comme x i 6= 0 E : kx i k 6= 0, et donc : λi = 0. La famille (x 1 , . . . , x n ) est ainsi libre.
Pour le cas particulier, toute famille orthonormale de E est libre comme on vient de le voir puisque ses
vecteurs — unitaires — sont non nuls, et bien sûr une telle famille est une base de E si elle a pour cardinal
la dimension de E. „

5
Christophe Bertault — Mathématiques en MPSI

2.2 COORDONNÉES DANS UNE BASE ORTHONORMALE


Théorème (Coordonnées dans une base orthonormale) Soient E 6= 0 E un espace euclidien, (e1 , . . . , en ) une base
ORTHONORMALE de E et x ∈ E.
X
n

€

Š
Alors : x = x, ek ek . En d’autres termes, les coordonnées de x dans (e1 , . . . , en ) sont x, e1 , . . . , x, en .
k=1



u
 Explication  Vous connaissez bien ce résultat dans le plan et dans l’espace !

→ −

u ·−
→ 
Démonstration Notons (x 1 , . . . ,®x n ) les coordonnées
¸ de x dans (e1 , . . . , en ). −


X n X
n

Xn
b
ı
Pour tout k ∈ ¹1, nº : x, ek = x i ei , ek = x i ei , ek = x i δki = x k . „


u ·−
→ı
i=1 i=1 i=1


Théorème (Expression du produit scalaire et de la norme dans une base orthonormale) Soient E 6= 0 E un
espace euclidien et x, y ∈ E de coordonnées respectives X = (x 1 , . . . , x n ) et Y = ( y1 , . . . , yn ) dans une certaine base
ORTHONORMALE de E.
v

Xn uXn
p
t t
x, y = x k yk = X Y et kxk = x k2 = t X X .
k=1 k=1

 Explication  Ce résultat montre que finalement, le produit scalaire


n
canonique sur R est un modèle pour tous
les produits scalaires des espaces euclidiens. Calculer le produit scalaire x, y dans un espace euclidien abstrait revient à
calculer le produit scalaire canonique des coordonnées des vecteurs x et y dans une base ORTHONORMALE quelconque.

$ ATTENTION ! $ Ces formules sont fausses en général pour des coordonnées dans une base NON orthonormale.

Démonstration Notons (e1 , . . . , en ) la base orthonormale considérée.


* +

X n X
n X
X X
n
Tout simplement : x, y = x i ei , yjej = x i y j ei , e j = x i y j δi j = x k yk = t X Y . „
i=1 j=1 1¶i, j¶n 1¶i, j¶n k=1

2.3 ALGORITHME D’ORTHONORMALISATION DE GRAM-SCHMIDT

Théorème (Algorithme d’orthonormalisation de Gram-Schmidt) Soient E un espace préhilbertien réel et (e1 , . . . , en )


une famille LIBRE de E. On peut transformer (e1 , . . . , en ) en une famille orthonormale (u1 , . . . , un ) de E telle que :

∀k ∈ ¹1, nº, Vect(e1 , . . . , ek ) = Vect(u1 , . . . , uk ).

Les vecteurs u1 , . . . , un peuvent être construits de proche en proche depuis u1 jusqu’à un , et pour tout k ∈ ¹1, nº, on n’a
X
k−1


ek − e k , ui ui
i=1
que deux choix possibles pour uk , uk est soit le vecteur : , soit son opposé.
X
k−1



ek − e k , ui ui
i=1

6
Christophe Bertault — Mathématiques en MPSI

 Explication  On a tout compris quand on a compris le cas n = 2. On veut


transformer une famille libre quelconque
e1 e 2 − e , u
2 1 1 u
(e1 , e2 ) en une famille orthonormale (u1 , u2 ) avec : u1 = et u2 =
.

e2 − e2 , u1 u1
ke1 k e − e , u u e2


2 2 1 1
u2
• La première formule normalise e1 , c’est-à-dire le rend unitaire.

• La seconde commence par transformer e2 en e2 − e2 , u1 u1 , c’est-à-dire à retrancher à u1



e1 b b

e2 sa composante selon u1 , qui vaut e2 , u1 u1 . Le vecteur ainsi obtenu est orthogonal



b

à u1 , mais il peut ne pas être unitaire, c’est pourquoi on le divise par sa norme. e2 , u1 u1
Plus généralement, l’algorithme de Gram-Schmidt construit uk en ôtant de ek ses composantes selon u1 , . . . , uk−1 , puis en
rendant le tout unitaire.

Démonstration
e1
• La construction commence simplement. La famille (e1 ) est libre, donc : e1 6= 0 E . On pose : u1 = .
ke1 k
Clairement : Vect(e1 ) = Vect(u1 ).
• Soit k ∈ ¹1, nº. Supposons qu’on ait réussi à construire une famille orthonormale (u1 , . . . , uk−1 ) pour la-
quelle : Vect(e1 , . . . , e p ) = Vect(u1 , . . . , u p ) pour tout p ∈ ¹0, k −1º. Nous sommes en quête d’un vecteur
uk pour lequel (u1 , . . . , uk ) est orthonormale et : Vect(e1 , . . . , ek ) = Vect(u1 , . . . , uk ).
• Analyse : Si un tel uk existe, il est combinaison linéaire de e1 , . . . , ek car : Vect(e1 , . . . , ek ) = Vect(u1 , . . . , uk ),
mais comme : Vect(e1 , . . . , ek−1 ) = Vect(u1 , . . . , uk−1 ), uk est aussi combinaison linéaire de u1 , . . . , uk−1 , ek ,
X
k−1
de sorte que pour certains a1k , . . . , akk ∈ R : uk = akk ek + aik ui .
i=1
Dans ces conditions, pour tout i ∈ ¹1, k − 1º, sachant que uk et ui sont orthogonaux :
* +

X
k−1

Xk−1



0 = uk , ui = akk ek + a jk u j , ui = akk ek , ui + a jk u j , ui = akk ek , ui + aik ,
j=1 j=1


X
k−1


ou encore : aik = −akk ek , ui . Conclusion : bk
uk = akk u avec : bk = ek −
u e k , ui ui , mais
i=1
1 ±1 bk
u
par ailleurs kuk k = 1, donc : |akk | = ,
akk = . Conclusion :
i.e. : uk = ± . Le
b
u u bk bk
u
k
vecteur uk , s’il existe, est finalement déterminé AU SIGNE PRÈS par u1 , . . . , uk−1 et ek .
X
k−1


• Synthèse : Réciproquement, posons : u bk = ek − e k , ui ui .
i=1
Se peut-il que u bk soit nul ? La liberté de (e1 , . . . , en ) s’en trouverait contredite car ek serait combinaison
linéaire de u1 , . . . , uk−1 , et donc de e1 , . . . , ek−1 puisque : Vect(e1 , . . . , ek−1 ) = Vect(u1 , . . . , uk−1 ). Nous
bk
u bk
u
pouvons ainsi poser : uk = — on pourrait aussi choisir : uk = − .
u
b b
u
k k
Montrons que la famille (u1 , . . . , uk ) est orthonormale. Comme (u1 , . . . , uk−1 ) l’est par hypothèse de récur-
rence, et comme uk est unitaire, il nous suffit de montrer que uk est orthogonal à u1 , . . . , uk−1 . Le caractère
unitaire de uk est limpide. Or pour tout j ∈ ¹1, k − 1º :
® ¸

1
1 X
k−1

1 €


Š
uk , u j = u bk , u j = ek − e k , ui ui , u j = ek , u j − ek , u j u j , u j = 0.
bk
u bk
u kb
uk k
i=1

Enfin, dans la mesure où : Vect(e1 , . . . , ek−1 ) = Vect(u1 , . . . , uk−1 ), et puisque uk est combinaison linéaire
de u1 , . . . , uk−1 et ek , alors comme voulu : Vect(e1 , . . . , ek ) = Vect(u1 , . . . , uk ). „

Z 1
€ p p Š
2
Exemple La famille 1 , 3 (2X −1) , 5 6X −6X +1 est orthonormale pour le produit scalaire (P, Q) 7−→ P(t)Q(t) dt
0
sur R[X ].
Démonstration Nous allons, grâce à l’algorithme
 de Gram-Schmidt, construire une famille orthonormale
(P0 , P1 , P2 ) à partir de la famille LIBRE 1, X , X 2 .
Z1
1 2
• Construction de P0 : Posons : P0 = . Comme : k1k = dt = 1, en fait : P0 = 1.
k1k 0

7
Christophe Bertault — Mathématiques en MPSI


Z1
X − X , P0 P0
1
• Construction de P1 : Posons : P1 =
. Comme : X , P0 = t dt = , le polynôme
X − X , P P 2
02 0 Z 1  ‹2
0
1 1 1 1 p
au numérateur vaut : X − , mais : X − 2 = t− dt = , donc : P1 = 3 (2X −1).
2 0
2 12
La famille (P0 , P1 ) est orthonormale.


Z1
X 2 − X 2 , P0 P0 − X 2 , P1 P1
2 1
• Construction de P2 : Posons : P2 =

. Comme : X , P0 = t 2 dt =
X 2 − X 2 , P P − X 2 , P P 3
0 0 1 1 0
Z1

2 p 1 1
et X , P1 = t 2 × 3(2t − 1) dt = p , le polynôme au numérateur vaut : X 2 − X + , mais :
2 3 6
2 0 Z 1  ‹2
p 
X 2 − X + 1 = t2 − t +
1
dt =
1
, donc : P2 = 5 6X 2 − 6X + 1 . La famille (P0 , P1 , P2 )
6 6 180
0
est orthonormale.

Essentiel en pratique, l’algorithme d’orthonormalisation de Gram-Schmidt a aussi des conséquences théoriques.


Théorème (Existence de bases orthonormales en dimension finie) Soit E 6= 0 E un espace euclidien. Alors E
possède une base orthonormale.

Démonstration De dimension finie non nulle, E possède une base, donc une base orthonormale grâce à
l’algorithme de Gram-Schmidt. „


Théorème (Théorème de la base orthonormale incomplète en dimension finie) Soit E 6= 0 E un espace euclidien.
Toute famille orthonormale de E peut être complétée en une base orthonormale de E.

Démonstration Soit (e1 , . . . , e p ) une famille orthonormale — donc libre — de E. On peut la compléter en une
base de E car E est de dimension finie non nulle, puis orthonormaliser cette base grâce à l’algorithme de Gram-
Schmidt. L’algorithme n’affecte pas les premiers vecteurs e1 , . . . , e p qui forment déjà une famille orthonormale,
donc au fond nous avons complété notre famille de départ en une base orthonormale de E. „

2.4 SUPPLÉMENTAIRE ORTHOGONAL D’UN SOUS -ESPACE VECTORIEL

Définition-théorème (Orthogonal d’une partie)


¦ Soient E un espace préhilbertien
© réel et X une partie de E. On appelle



orthogonal de X dans E l’ensemble : X = t ∈ E/ ∀x ∈ X , t, x = 0 .
(i) X ⊥ est un sous-espace vectoriel de E orthogonal à X .
(ii) Si X est un sous-espace vectoriel de E, X et X ⊥ sont en somme directe.
(iii) X ⊥ = Vect(X )⊥ et X ⊂ X ⊥⊥ .

 En pratique  L’égalité : X ⊥ = Vect(X )⊥ signifie que pour déterminer l’orthogonal d’un sous-espace vectoriel
engendré par un ensemble X de vecteurs, il est suffisant d’exiger l’orthogonalité à ces vecteurs.

$ ATTENTION ! $ Si F un sous-espace vectoriel de E, ce théorème montre en particulier que F et F ⊥ sont en somme


directe. Il n’est pas vrai en général, en revanche, que F et F ⊥ sont supplémentaires dans E, ils sont seulement en somme
directe. De même, il n’est pas vrai en général que : F ⊥⊥ = F . Nous verrons tout de même que ces résultats sont vrais si
F est de dimension finie, donc en particulier si E est euclidien.

Démonstration


(i) D’abord : 0 E ∈ X ⊥ car pour tout x ∈ X : 0 , x = 0. Ensuite, soient t, t ′ ∈ X ⊥ et λ, λ′ ∈ R. Pour



E
tout x ∈ X : λt + λ′ t ′ , x = λ x, t + λ′ t ′ , x = λ.0 + λ′ .0 = 0, donc : λt + λ′ t ′ ∈ X ⊥ .

8
Christophe Bertault — Mathématiques en MPSI


(i) Si X est un sous-espace vectoriel de E : 0 E ∈ X ∩ X ⊥ . Montrons inversement que : X ∩ X ⊥ ⊂ 0 E .


Or pour tout x ∈ X ∩ X ⊥ : x ⊥ x donc : x, x = 0, donc : x = 0 E par séparation.
(iii) Par linéarité à droite du produit scalaire, il est équivalent pour un vecteur d’être orthogonal à X ou à
ses combinaisons linéaires, autrement à Vect(X ), donc en effet : X ⊥ = Vect(X )⊥ . Enfin, l’inclusion :
X ⊂ X ⊥⊥ signifie juste que tout vecteur de X est orthogonal à tout vecteur de X ⊥ — ce qui est évident
par définition de X ⊥ . „
 ⊥ 
Exemple Pour tout espace préhilbertien réel E : 0E =E et E ⊥ = 0E .
Pour la seconde égalité, rappelons que 0 E EST LE SEUL VECTEUR DE E ORTHOGONAL À TOUT VECTEUR — et pourquoi ?

Exemple Pour le produit scalaire (P, Q) 7−→ P(−1)Q(−1) + P(0)Q(0) + P(1)Q(1) sur R2 [X ] : R1 [X ]⊥ = Vect 3X 2 − 2 .
R1 [X ]=Vect(1,X )


Démonstration Pour tout P = aX 2 + bX +c ∈ R2 [X ] : P ∈ R1 [X ]⊥ ⇐⇒ P, 1 = 0 et P, X = 0
§
(a − b + c) × 1 + c × 1 + (a + b + c) × 1 = 0
⇐⇒ ⇐⇒ 2a + 3c = 0 et 2b = 0.
(a − b + c) × (−1) + c × 0 + (a + b + c) × 1 = 0

Définition-théorème (Supplémentaire orthogonal d’un sous-espace vectoriel de dimension finie) Soient E un


espace préhilbertien réel et F un sous-espace vectoriel DE DIMENSION FINIE de E.
(i) F ⊥ est un supplémentaire de F dans E orthogonal à F et c’est même le seul. On l’appelle par conséquent LE
supplémentaire orthogonal de F dans E.
(ii) F ⊥⊥ = F .

$ ATTENTION ! $
• Il est ici essentiel que F soit DE DIMENSION FINIE .

• Il existe UN unique supplémentaire orthogonal mais tout plein de supplémentaires « généraux », ne l’oubliez pas.

Démonstration

(i) Nous savons déjà que : F ∩ F ⊥ = 0E .

• Montrons que : E = F + F ⊥ , i.e. que : E ⊂ F + F ⊥ . Nous pouvons supposer : F 6= 0 E car :
 ⊥
0E = E, et comme F est de dimension finie, nous donner une base orthonormale ( f1 , . . . , f n ) de
F . Soit x ∈ E. Pour tout i ∈ ¹1, nº :
® ¸
X n


Xn



Xn




x− x, f k f k , f i = x, f i − x, f k f k , f i = x, f i − x, f k δki = x, f i − x, f i = 0,
k=1 k=1 k=1
X n


donc x − x, f k f k est orthogonal à f1 , . . . , f n , donc élément de F ⊥ . Comme voulu : x ∈ F + F ⊥.
k=1
• Montrons que F ⊥ est le seul supplémentaire de F dans E orthogonal à F . Soit F ′ un tel supplémentaire.
Aussitôt : F ′ ⊂ F ⊥ car : F ⊥ F ′ . Inversement,
soit


x ∈ F ′ . Comme


: E = F + F , alors :
′ ′ ′
x = f +f pour certains f ∈ F et f ∈ F , donc : f , f = f + f , f = x, f = 0, puis : f = 0 E ,
et enfin : x = f ′ ∈ F ′ .
(ii)
Pour l’inclusion

: F ⊥⊥
⊂ F , soit x ∈ F ⊥⊥ , disons : x = f + f ′ avec f ∈ F et f ′ ∈ F ⊥ . Aussitôt :
f , f = f + f , f ′ = x, f ′ = 0, donc : f ′ = 0 E
′ ′ ′
par séparation, i.e. : x = f ∈ F . „

2.5 VECTEURS NORMAUX À UN HYPERPLAN ET ORIENTATION


Définition-théorème (Vecteurs normaux à un hyperplan) Soient E 6= 0 E un espace euclidien de dimension n et H
un hyperplan de E. Le sous-espace H ⊥ est une droite dont tout vecteur non nul est appelé un vecteur normal à H.
Par extension, pour tout hyperplan affine H de E de direction H, les vecteurs normaux à H sont aussi qualifiés de vecteurs
normaux à H .

9
Christophe Bertault — Mathématiques en MPSI

Démonstration Comme E est de dimension finie : E = H ⊕ H ⊥, et par conséquent, comme H est un


hyperplan : dim H ⊥ = dim E − dim H = 1. „

 Explication  Rappelons qu’un hyperplan H est par définition le noyau H⊥


a
d’une forme linéaire non nulle, autrement dit un ensemble décrit par une unique
équation linéaire scalaire non nulle. Comment les notions de forme linéaire et de
vecteur normal sont-elles alors liées ? Le plus simplement du monde à vrai dire, car : H 0E b

¦
©
H = Vect(a)⊥ = x ∈ E/ x, a = 0 ,


H est le noyau de la forme linéaire non nulle x 7−→ x, a . En outre, si nous nous donnons une base orthornormale (e1 , . . . , en )


de E et si a a pour coordonnées (a1 , . . . , an ) dans cette base, l’équation : x, a = 0 qui peut servir à définir H s’écrit
aussi : a1 x 1 + . . . + an x n = 0 sous forme analytique. Nous retrouvons là l’équation typique d’un hyperplan et le fait que
les coefficients a1 , . . . , an d’une telle équation définissent naturellement un vecteur normal.

Exemple
• Dans l’espace euclidien canonique R2 , l’hyperplan AFFINE H d’équation : 3x + 2 y = 1 admet pour direction
l’hyperplan VECTORIEL H d’équation : 3x + 2 y = 0, équation qu’on peut réécrire comme un produit scalaire :
(x, y)·(3, 2) = 0. A fortiori, H est l’ensemble des vecteurs de R2 orthogonaux à (3, 2) : H = (3, 2)⊥ . On qualifie
le vecteur (3, 2) de vecteur normal à H (ou à H ).
• De même, dans l’espace euclidien canonique R3 , l’hyperplan AFFINE H d’équation : x − y + 2z = 3 admet pour
direction l’hyperplan VECTORIEL H d’équation : x − y + 2z = 0, équation qu’on peut réécrire comme un produit
scalaire : (x, y, z) · (1, −1, 2) = 0. A fortiori, H est l’ensemble des vecteurs de R3 orthogonaux à (1, −1, 2) :
H = (1, −1, 2)⊥ . On qualifie le vecteur (1, −1, 2) de vecteur normal à H (ou à H ).


Définition-théorème (Orientation d’un hyperplan par un vecteur normal) Soient E 6= 0 E un espace euclidien
ORIENTÉ de dimension n et H un hyperplan de E.

L’espace vectoriel E a beau être orienté, son sous-espace vectoriel H ne l’est pas a priori. Le choix supplémentaire d’un
vecteur normal a à H donne en revanche à H une orientation de la manière suivante :

Une base (h1 , . . . , hn−1 ) de H est tenue pour directe si et seulement si la base (h1 , . . . , hn−1 , a) de E l’est.

Démonstration On a défini au chapitre « Déterminants » une relation « avoir la même orientation » sur
l’ensemble des bases d’un R-espace vectoriel quelconque de dimension finie. L’orientation de cet espace consistait
alors en le choix arbitraire de l’une des deux classes d’équivalence de cette relation, considérée comme la classe
des bases directes. Notre orientation de H à partir de l’orientation de E et d’un vecteur normal a à H respecte-t-elle
cette définition ?
Donnons-nous deux bases B = (h1 , . . . , hn−1 ) et B ′ = (h′1 , . . . , h′n−1 ) de H. Les familles Ba = (h1 , . . . , hn−1 , a)
‚ Œ
MatB (B ′ ) 0
′ ′ ′ ′
et Ba = (h1 , . . . , hn−1 , a) sont alors deux bases de E et : MatBa (Ba ) = . En particulier :
0 1
detBa (Ba′ ) = detB (B ′ ), donc ces deux déterminants ont le même signe. En termes d’orientation, cela signifie
que B ′ a la même orientation que B si et seulement si Ba′ a la même orientation que Ba . Via le choix d’un
vecteur normal a, cette équivalence justifie l’idée que l’orientation de E se transmet à H. „

 Explication  Les hyperplans H⊥ H⊥


d’un R-espace vectoriel orienté ne sont pas a
naturellement orientés, car par exemple en
dimension 3, on ne perçoit pas l’orientation
d’un plan de la même manière selon le demi- H 0E b H 0E b

espace depuis lequel on observe ce plan. Se


donner un vecteur normal d’un hyperplan,
cela revient justement à choisir un demi- Les deux orientations
possibles d’un hyperplan a
espace parmi les deux que l’hyperplan déli-
mite, donc à choisir un point de vue à partir par la donnée
duquel on peut envisager une orientation de d’un vecteur normal
l’hyperplan.

10
Christophe Bertault — Mathématiques en MPSI

3 PROJECTION ORTHOGONALE SUR UN SOUS-ESPACE VECTORIEL


DE DIMENSION FINIE

3.1 PROJECTIONS ET SYMÉTRIES ORTHOGONALES

Définition (Projection orthogonale, symétrie orthogonale, réflexion) Soient E un espace préhilbertien réel et F un
sous-espace vectoriel DE DIMENSION FINIE de E.
• On appelle projection orthogonale sur F ou projecteur orthogonal sur F la projection sur F de direction F ⊥ .
• On appelle symétrie orthogonale par rapport à F la symétrie par rapport à F parallèlement à F ⊥ .
On parle plutôt de réflexion par rapport à F lorsque F est un hyperplan de E.

 Explication  Comme F est de dimension finie : E = F ⊕ F ⊥. F⊥



f x = f + f′
F⊥

f x = f + f′
F b
0E
f
F Symétrie
0E b

f = p(x) orthogonale
Projection −f ′
orthogonale
s(x)

Théorème (Expression d’une projection orthogonale dans une base orthonormale) Soient E un espace préhilbertien
réel, F un sous-espace vectoriel DE DIMENSION FINIE non nulle de E et ( f1 , . . . , f n ) une base orthonormale de F .
X n


Si on note p la projection orthogonale sur F , alors pour tout x ∈ E : p(x) = x, f k f k .
k=1



 Explication  Dans ce résultat, « x, f k f k » représente la composante de x selon le vecteur f k .

X
n


Démonstration Soit x ∈ E. Le vecteur x − x, f k f k est orthogonal à f1 , . . . , f n , donc est élément de F ⊥ .
 k=1

X
n

X
n

X
n


Ainsi : x= x, f k f k + x − x, f k f k , et donc : p(x) = x, f k f k . „
k=1 k=1 k=1
| {z } | {z }
∈F ∈F ⊥

 En pratique  On peut calculer essentiellement de deux manières un projeté orthogonal. Donnons-nous E un es-
pace préhilbertien réel, F un sous-espace vectoriel de dimension finie non nulle de E, ( f1 , . . . , f n ) une base PAS FORCÉMENT
ORTHONORMALE de F et x ∈ E. Comment calculer le projeté orthogonal p(x) de x sur F ? Si la base ( f1 , . . . , f n ) est ortho-
normale, on peut bien sûr utiliser le théorème précédent, mais sinon ?
• Première stratégie : On orthonormalise ( f1 , . . . , f n ) grâce à l’algorithme de Gram-Schmidt et du coup on peut utiliser
le théorème précédent.
Xn
• Deuxième stratégie : On introduit les coordonnées (λ1 , . . . , λn ) de p(x) dans ( f1 , . . . , f n ) : p(x) = λi f i , puis

i=1
on les calcule grâce aux relations : x − p(x), f j = 0 pour tout j ∈ ¹1, nº. Ces relations expriment l’appartenance

de x − p(x) à F et fournissent un système de n équations à n inconnues que l’on n’a plus qu’à résoudre.

11
Christophe Bertault — Mathématiques en MPSI


Exemple On note F le sous-espace vectoriel Vect(sin, cos) de C [0, 2π], R . Le projeté orthogonal de l’identité Id sur F
Z 2π
pour le produit scalaire ( f , g) 7−→ f (t)g(t) dt est la fonction t 7−→ −2 sin t.
0

Démonstration Nous aurons besoin d’un certain nombre de produits scalaires, calculons-les de prime abord
pour que l’essentiel des stratégies adoptées soit bien lisible ensuite.
Z 2π Z 2π • ˜
2 2 1 − cos(2t) t sin(2t) t=2π
k sin k = sin t dt = dt = − = π, et de même : k cos k2 = π.
0 0
2 2 4 t=0

Z 2π   t=2π

sin2 t
En outre : sin, cos = sin t cos t dt = = 0, donc la famille (sin, cos) est orthogonale.
0 t=0
2
Z 2π Z 2π
” — t=2π   t=2π
Enfin : teit dt = t × (−i)eit − (−i)eit dt = −2iπ + i (−i)eit t=0 = −2iπ + 0 = −2iπ, donc :
t=0
0 0
Z 2π
‚Z 2π
Œ



Id, sin = t sin t dt = Im teit dt = Im(−2iπ) = −2π et de même : Id, cos = 0.
0 0

• Première stratégie : On commence par orthonormaliser la famille LIBRE (sin, cos) de F grâce à l’algo-
rithme de Gram-Schmidt.
 Cette
‹ famille
 étant
‹ déjà orthogonale, on n’a par chance qu’à la normaliser, et en
sin cos sin cos
l’occurrence , = p ,p est une base orthonormale de F . Le projeté orthogonal de Id
k sin k k cos k π π
sur F est finalement la fonction :
­ · ­ ·


sin sin cos cos Id, sin Id, cos
Id, p p + Id, p p = sin + cos = −2 sin .
π π π π π π

• Deuxième stratégie : Notons p(Id) le projeté orthogonal de Id sur F et (λ, µ) ses coordonnées dans la
base (sin, cos) de F : p(Id) = λ sin +µ cos. Appuyons-nous sur le fait que : Id − p(Id) ∈ F ⊥ .





0 = Id − p(Id), sin = Id − λ sin −µ cos, sin = Id, sin − λk sin k2 − µ cos, sin = −2π − λπ





et 0 = Id − p(Id), cos = Id − λ sin −µ cos, cos = Id, cos − λ sin, cos − µk cos k2 = −µπ.
Conclusion : λ = −2 et µ = 0, donc : p(Id) = −2 sin.
H⊥
 a x
Exemple Soient E 6= 0E un espace euclidien et H un hyperplan de E de ­ ·
kak a a
vecteur normal a. On note x,

p la projection orthogonale sur H. Alors pour tout kak kak
x, a a
x ∈ E : p(x) = x − 2
. Si de plus a est unitaire, cette expression de-

kak H 0E
b

vient : p(x) = x − x, a a. Tout simplement, PROJETER x SUR H REVIENT À


⊥ p(x)
LUI ÔTER SA COMPOSANTE SELON H .

Démonstration Notons p′ la projection orthogonale sur Vect(a) = H ⊥ .



 ‹ ­ ·
a a a x, a a
Comme est une base orthonormale de Vect(a) : p′ (x) = x, = pour tout x ∈ E,
kak kak kak kak2
d’où l’expression de p puisque : p + p′ = Id E .

3.2 DISTANCE À UN SOUS -ESPACE VECTORIEL DE DIMENSION FINIE

Définition-théorème (Distance à une partie) Soient E un espace préhilbertien réel, A une partie non vide de E et
x ∈ E. On appelle distance de x à A, notée d(x, A), le réel : d(x, A) = inf d(x, a).
a∈A

 Explication  Intuitivement, la distance d’un vecteur x à une partie A est la plus petite distance séparant x d’un
élément de A. Mais comment savoir si une telle « plus petite distance » existe ? En fait, elle n’existe pas nécessairement et
c’est pourquoi on n’a surtout pas posé : d(x, A) = min d(x, a), on a utilisé une borne inférieure.
a∈A

12
Christophe Bertault — Mathématiques en MPSI

b
x b
x
d(x, A) d(x, A)
La distance de x à A
La distance de x à A
est ici un minimum A A est ici seulement une borne inférieure.
(i.e. elle est atteinte).

Démonstration
 Le réel d(x, A) est bien défini d’après la propriété de la borne inférieure, car l’ensemble
d(x, a) a∈A est une partie de R non vide car : A 6= ∅, et minorée par 0. „

Théorème (Distance à un sous-espace vectoriel de dimension finie) F⊥


Soient E un espace préhilbertien réel, F un sous-espace vectoriel x
x − p(x)
DE DIMENSION FINIE de E et x ∈ E. On note p la projection
orthogonale sur F .
 d(x, F ) = x − p(x)
• Tout d’abord : d(x, F ) = x − p(x) = d x, p(x) .
La distance de x à F est donc un minimum. Ce minimum F 0E
b

n’est atteint qu’en le projeté orthogonal de x sur F . p(x)


2
• Par ailleurs : d(x, F )2 = kxk2 − p(x) .

Démonstration ∈Ker p = F ⊥ ∈Im p = F


}| { z }| {
z
• Pour tout f ∈ F : x − f = x − p(x) + p(x) − f , donc aussitôt d’après le théorème de Pythagore :
2 2
kx − f k2 = x − p(x) + p(x) − f .
 
• Montrons à présent l’égalité : d(x, F ) = x − p(x) = d x, p(x) . Posons : D = d(x, f ) f ∈F .

— Pour commencer : x − p(x) = d x, p(x) ∈ D car : p(x) ∈ F .
Ç
— Ensuite, pour tout f ∈ F : d(x, f ) = kx − f k = x − p(x) 2 + p(x) − f 2 ¾ x − p(x) , donc

x − p(x) minore D.
 
Conclusion : d x, p(x) = min D, donc a fortiori : d x, p(x) = inf D = d(x, F ).

• Enfin, pour tout f ∈ F \ p(x) : p(x) − f > 0, donc :
r 2 2
d(x, f ) = x − p(x) + p(x) − f > x − p(x) .
Comme voulu, la distance d(x, F ) n’est atteinte qu’en p(x). „

Théorème (Distance à un hyperplan affine) Soient E un espace euclidien, H un hyperplan affine passant par A et de
−→
vecteur normal UNITAIRE a. Pour tout M ∈ E : d(M , H ) = AM · a .

Démonstration Notons H la direction de H et p la projection M


a b

orthogonale sur H. Nous avons


vu dans −→
un exemple précédent que AM · a
pour tout x ∈ E : p(x) = x − x, a a. Du coup :

d(M , H ) = d(M , A + H) = inf M − (A + h) H A
b

h∈H
€−→ Š −→

−→ ¬−→ ¶

= d AM , H = AM − p AM = AM , a a , H


−→
donc comme voulu : d(M , H ) = AM , a . „

Exemple Dans l’espace euclidien canonique R3 , le point (4, 3, 2) est à distance 4 du plan d’équation : 2x + y + 2z = 3.
3
Démonstration Le plan P d’équation : 2x + y+2z = 3 est un hyperplan affine de R passant par A = (1, 1, 0)
(2, 1, 2) −→
et de vecteur normal unitaire a = . Comme voulu, si on pose M = (4, 3, 2) : AM = (3, 2, 2), donc :
−→ 3
d(M , P ) = AM · a = 4.

13
Christophe Bertault — Mathématiques en MPSI

Exemple
y
• Il est courant qu’on ait à expliquer — en physique, en économie ou dans n’im- b b
b
b
b

porte quelle discipline expérimentale — une certaine quantité y par une autre
b b b
b b
b b b b
b b b
b

quantité x. En vue de cette explication, supposons qu’on ait fait n mesures ex- b
b

b
b
b
b

b b
b

b b b b b

périmentales (x 1 , y1 ), . . . , (x n , yn ) du couple (x, y). Le monde étant bien fait, b


b
b
b
b
b
b b
b

il arrive souvent que la variable y, dite expliquée, soit une fonction affine de la b
b

variable x, dite explicative. Le nuage des couples (x 1 , y1 ), . . . , (x n , yn ) est alors


assez proche d’une droite. x

Cela dit, comment déduit-on proprement d’un nuage de points l’équation d’une droite de meilleure approximation
comme celle que nous avons représentée ci-dessus ? Nous cherchons deux réels m et p pour lesquels la droite d’équa-
tion : y = mx + p est la plus proche possible du nuage de points. Ce problème est appelé un problème de
régression linéaire simple — linéaire en raison de la forme : y = mx + p cherchée, simple parce que y est supposée
ne dépendre que d’une seule variable explicative x.
• Pour tout i ∈ ¹1, nº, notre mesure de y pour x = x i nous a fourni la valeur yi , mais la valeur « sans erreur » que
nous aurions dû trouver est mx i + p. L’écart entre les deux vaut yi − mx i − p , mais ce n’est pas cet écart ponctuel
qui nous intéresse, nous nous intéressons plutôt à un écart global entre le nuage de points et la droite d’équation :
y = mx + p. Or comment définir cet écart ? Plusieurs définitions sont possibles, par exemple : max yi − mx i − p ,
v 1¶i¶n
Xn
uX n
ou : y −mx −p , ou : t ( y − mx − p)2 . Nous travaillerons désormais dans le cadre de cette troisième
i i i i
i=1 i=1
possibilité. La méthode de régression linéaire correspondante est appelée la méthode
v des moindres carrés.
uX n
t
• Nous cherchons donc des réels m et p — s’il en existe — pour lesquels la quantité ( yi − mx i − p)2 est minimale,
i=1
n
et c’est précisément maintenant que les produits scalaires  entrent ‹ en scène. Dans l’espace euclidien canonique R ,
1 1
posons : X = (x 1 , . . . , x n ), Y = ( y1 , . . . , yn ), U = ,..., et F = Vect(X , U).
n n
v
uX n

t
inf ( yi − mx i − p)2 = inf Y − mX − npU = inf d(Y, mX + npU) = inf d(Y, Z) = d(Y, F ).
m,p∈R m,p∈R m,p∈R Z∈F
i=1

Or d’après le théorème précédent, si nous notons p la projection orthogonale de Rn sur F , la distance d(Y, F ) est
atteinte en un et un seul point, à savoir : p(Y ) = mX + npU où m et p sont les deux réels que nous cherchons.



• Par définition de p(Y ) : Y − p(Y ) ∈ F ⊥ , donc : X , Y − p(Y ) = 0 et U, Y − p(Y ) = 0, ce qu’on peut aussi
1




écrire ainsi, sachant que kUk2 = : mkX k2 + np X , U = X , Y et m X , U + p = Y, U — deux équations,
n



X , Y − n X , U Y, U


deux inconnues. En particulier : m =
2 et p = Y, U − m X , U . Posons alors :
kX k2 − n X , U

1X 1X
n n



E(x) = X , U = xi (moyenne empirique des x i ), E( y) = Y, U = yi (moyenne empirique des yi ),
n i=1 n i=1
1 Xn
2
V(x) = X − nE(x)U 2 = 1 x i − E(x) (variance empirique des x i )
n n i=1
1
1X n
 
et cov(x, y) = X − nE(x)U, Y − nE( y)U = x i − E(x) yi − E( y) (covariance empirique des x i et des yi ).
n n i=1


2



Il n’est alors pas dur de vérifier que : nV(x) = kX k2 − n X , U et n cov(x, y) = X , Y − n X , U Y, U .

cov(x, y) y
Conclusion : m= et p = E( y) − mE(x).
V(x) b

• Le problème de ce qui précède, c’est que toute variable expliquée y ne dépend pas de ma-
b

nière affine de sa variable explicative x. La méthode des moindres carrés est-elle caduque b

au-delà ? Heureusement non, et nous allons nous en convaincre sur un exemple. bb


b
b

Sur la figure ci-contre, on peut émettre l’hypothèse d’une relation de la forme : y = λx α b


b

entre x et y où λ et α sont deux réels à déterminer. On peut se ramener ici au cas affine
b

en réécrivant les choses ainsi : ln y = α ln x + ln λ. Dans ce cas simple, ce sont les b


b

réels α et ln λ qu’on calculera par régression linéaire simple.


b
b
b

x
14