Vous êtes sur la page 1sur 30

Physique quantique :

Bases mathématiques et postulats

Jean Orloff
Version 5

20 novembre 2019
Table des matières
1 Vecteurs et opérateurs linéaires 3
1.1 Espace vectoriel (H, +, .) sur le corps des complexes (C, +, ×) . . . . . . . . . . . . . . . . . . 3
1.1.1 Corps commutatif (K, +, ×) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1.1 Structure de groupe commutatif (K, +) . . . . . . . . . . . . . . . . . . . . . 3
1.1.1.2 Groupe commutatif (K\{0}, ×) . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1.3 Distributivité de × sur + . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1.4 Exemples et notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.2 Groupe des vecteurs (H, +) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.3 Multiplication par un scalaire du corps C . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Base dans H . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Espace vectoriel dual He . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Base duale dans H e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5 Produit hermitien ou scalaire sur H et norme ||ψ|| . . . . . . . . . . . . . . . . . . . . . . . . 7
1.6 Adjoint † : conjugaison complexe généralisée aux vecteurs . . . . . . . . . . . . . . . . . . . . 9
1.7 Bases orthonormées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.8 Opérateurs linéaires du H . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.8.1 Définition d’un opérateur A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.8.2 Somme, produit et commutateur d’opérateurs . . . . . . . . . . . . . . . . . . . . . . . 11
1.8.3 Opérateur adjoint A† et auto-adjoint H = H † . . . . . . . . . . . . . . . . . . . . . . . 12
1.8.4 Opérateur unitaire U † = U −1 et changement de base orthonormée . . . . . . . . . . . 12
1.8.5 Projecteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.8.6 Trace d’un opérateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.9 Résumé : notation matricielle et adjoint . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.10 Valeurs propres, vecteurs propres et décomposition spectrale . . . . . . . . . . . . . . . . . . . 16
1.10.1 Propriétés des valeurs et vecteurs propres d’un opérateur hermitien . . . . . . . . . . . 16
1.10.2 Décomposition spectrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.10.3 Ensemble complet d’opérateurs qui commutent (E.C.O.C.) . . . . . . . . . . . . . . . . 18
1.10.4 Fonction, dérivée et intégrale d’un opérateur . . . . . . . . . . . . . . . . . . . . . . . . 19
1.10.4.1 Lien entre opérateurs unitaires et hermitiens . . . . . . . . . . . . . . . . . . 19
1.10.5 Diagonalisation d’une matrice hermitienne et matrice unitaire à 2 dimensions . . . . . 20

2 Notions de probabilités 25
2.1 Définitions et concepts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.1.1 Physique classique, quantique et probabilités : . . . . . . . . . . . . . . . . . . . . . . . 26
2.2 Axiomes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3 Variables aléatoires et distribution de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . 27

2
1 Vecteurs et opérateurs linéaires
Les interférences constatées expérimentalement, et le principe de superposition qui permet de les obtenir en
physique quantique, confèrent un rôle central aux “vecteurs”, notés |ψi, qui caractérisent l’état d’un système,
et pour lesquels l’addition joue un rôle fondamental.

1.1 Espace vectoriel (H, +, .) sur le corps des complexes (C, +, ×)


Pour qu’un ensemble d’objets H = {|ψi} forme un espace vectoriel, il faut
1. pouvoir additionner ces objets, p.ex. |ψi + |ψi ;
2. pouvoir les multiplier par un nombre dit « scalaire », p. ex. 2.|ψi = |ψi + |ψi, et cette multiplication
doit posséder certaines propriétés ;
3. une structure de groupe pour l’addition des vecteurs, et de corps commutatif pour l’addition et la
multiplication des nombres.
Commençons par rappeler la définition de ce dernier.

1.1.1 Corps commutatif (K, +, ×)


Un corps commutatif est un ensemble K, muni de deux lois de composition (+ et ×) formant chacune un
groupe commutatif, et ayant une propriété de distribution.

1.1.1.1 Structure de groupe commutatif (K, +)


Pour former un groupe commutatif, l’addition dans K doit vérifier les propriétés suivantes.
1. Loi interne : ∀a, b ∈ K : ∃ a + b = c ∈ K
2. Élément neutre : ∃ 0 ∈ K | ∀a ∈ K : a + 0 = 0 + a = a
3. Éléments symétriques : ∀a ∈ K : ∃ a− ∈ K | a + a− = a− + a = 0
4. Associativité : ∀a, b, c ∈ K : (a + b) + c = a + (b + c) = a + b + c
5. Commutativité : ∀a, b ∈ K : a + b = b + a
La dernière propriété est nécessaire pour avoir un groupe commutatif (ou abélien). Sans elle, on a un groupe
non-abélien.

1.1.1.2 Groupe commutatif (K\{0}, ×)


1. Loi interne : ∀a, b ∈ K : ∃ a × b = d ∈ K
2. Élément neutre : ∃1 ∈ K | ∀a ∈ K : a × 1 = 1 × a = a
3. Éléments symétriques : ∀a ∈ K\{0} : ∃ a/ ∈ K | a × a/ = a/ × a = 1
4. Associativité : ∀a, b, c ∈ K : (a × b) × c = a × (b × c) = a × b × c
5. Commutativité : ∀a, b ∈ K : a × b = b × a

1.1.1.3 Distributivité de × sur +

∀a, b, c ∈ K : a × (b + c) = (a × b) + (a × c)
a(b + c) = ab + ac

3
1 Vecteurs et opérateurs linéaires

.
Remarque 1. pour alléger, on laissera souvent tomber le symbole × : ab = a × b .
Dans cette dernière notation, il est sous-entendu que les produits doivent être faits en premier, avant les
additions.

Exercice 2. montrer (en justifiant chaque étape par une des propriétés ci-dessus) que le neutre de l’addition
0 est absorbant pour la multiplication :
∀a ∈ K : 0 × a = 0
Il ne peut donc avoir d’inverse et doit être soustrait de K pour que K\{0} puisse former un groupe.
Montrer de même que si a = b + c, alors b = a + c− .

1.1.1.4 Exemples et notations


Les corps les plus utilisés sont celui des nombres réels (R, +, ×), et celui des nombres nombres complexes
(C, +, ×), qui va tout spécialement nous intéresser par la suite. Mais les rationnels (Q, +, ×) ou les entiers
modulo 2 (Z2 , +, ×) sont d’autres exemples. Les entiers (Z, +, ×) ne forment pas un corps, faute d’éléments
symétriques pour la multiplication. Dans tous ces exemples arithmétiques, on introduit les définitions et
notations suivantes.
.
— Définition de la soustraction - : ∀a, b ∈ C : b − a = b + a− ⇒ a− = −a (opposé de a)
b=0
.
— Définition de la division - : ∀a, b ∈ C : b/a = b × a/ ⇒ a/ = 1/a (inverse de a)
b=1
— Définition d’un scalaire : dans le contexte d’un espace vectoriel, les « nombres » du corps (ici C)
sont appelés scalaires, par opposition aux vecteurs.

1.1.2 Groupe des vecteurs (H, +)


Pour que l’ensemble H = {|ψi} forme un espace vectoriel, il faut une loi d’addition des vecteurs qui
satisfait aux conditions pour avoir un groupe commutatif, à savoir :
1. Loi interne : ∀|ψ1 i, |ψ2 i ∈ H : ∃ |ψ1 i + |ψ2 i = |ψ3 i ∈ H
2. Élément neutre : ∃|ψ0 i ∈ H | ∀|ψi ∈ H : |ψi + |ψ0 i = |ψ0 i + |ψi = |ψi
3. Éléments symétriques : ∀|ψi ∈ H : ∃ |ψ− i ∈ H | |ψi + |ψ− i = |ψ− i + |ψi = |ψ0 i
4. Associativité : ∀|ψ1 i, |ψ2 i, |ψ3 i ∈ H : (|ψ1 i + |ψ2 i) + |ψ3 i = |ψ1 i + (|ψ2 i + |ψ3 i) = |ψ1 i + |ψ2 i + |ψ3 i
5. Commutativité : ∀|ψ1 i, |ψ2 i ∈ H : |ψ1 i + |ψ2 i = |ψ2 i + |ψ1 i
Remarque 3. Si l’addition des vecteurs est notée + comme l’addition des scalaires, c’est quand même une loi
différente puisqu’elle somme des objets différents.

1.1.3 Multiplication par un scalaire du corps C


Enfin, pour que H soit un espace vectoriel, il doit exister une loi de multiplication d’un vecteur par un
scalaire, donnant pour résultat un vecteur :

∀a ∈ C, ∀|ψi ∈ H : (a, |ψi) → a.|ψi ∈ H.


.

Cette loi doit jouir des propriétés suivantes :


1. Distributivité par rapport à l’addition des vecteurs et des scalaires :

a.(|ψ1 i + |ψ2 i) = a.|ψ1 i + a.|ψ2 i


(a + b).|ψi = a.|ψi + b.|ψi

2. L’élément neutre : 1.|ψi = |ψi est le même que pour la multiplication entre nombres dans C.
3. Associativité mixte : (a × b).|ψi = a.(b.|ψi)
Ces propriétés entraînent plusieurs conséquences qui permettent des simplification de notation :
— a.|ψi = a.(|ψi + |ψ0 i) = a.|ψi + a.|ψ0 i ⇒ a.|ψ0 i = |ψ0 i

4
1 Vecteurs et opérateurs linéaires

.
— a.|ψi = (a + 0).|ψi = a.|ψi + 0.|ψi ⇒ 0.|ψi = |ψ0 i = 0
Donc 0 peut désigner soit le scalaire nul, soit le vecteur nul, selon le contexte : c’est comme +, qui peut
désigner l’addition de 2 scalaires ou de 2 vecteurs (mais jamais d’un scalaire et d’un vecteur).
— 0 = (1 − 1).|ψi = 1.|ψi + (−1).|ψi = |ψi − |ψi ⇒ |ψ− i = (−1).|ψi = −|ψi
— On laissera par la suite tomber le signe multiplication . entre le scalaire et le vecteur, ainsi que l’obli-
gation d’écrire le scalaire à gauche du vecteur :

a.|ψi = a|ψi = |ψia

Remarque 4. Il ne faut pas confondre la multiplication par un scalaire, produit d’un scalaire par un vecteur
donnant un vecteur, avec le produit scalaire, produit d’un vecteur par un vecteur donnant un scalaire (voir
section 1.5).

Exercice 5. Montrer que les vecteurs usuels de l’espace euclidien E3 = {~v = x~ex + y~ey + z~ez } forment bien
un espace vectoriel sur le corps des nombres réels, en vérifiant que toutes ces propriétés sont vérifiées pour
la loi d’addition usuelle (qui somme séparément chaque composante de 2 vecteurs), et pour la multiplication
scalaire qui multiplie les composantes x, y et z d’un vecteur par un même nombre a.

1.2 Base dans H


Un ensemble de N vecteurs {|φ1 i, . . . |φn i, . . . |φN i} forment une partie libre si et seulement si la seule
combinaison linéaire nulle est identiquement nulle :

|φ1 ic1 + . . . |φn icn + . . . |φN icN = 0


1 2 N
⇒ c = c = ···c = 0

Ceci revient à dire qu’aucun vecteur ne peut s’écrire comme une combinaison linéaire des autres : on dit
aussi que ces vecteurs sont linéairement indépendants.
Si de plus n’importe quel vecteur peut s’écrire comme une combinaison linéaire de cet ensemble :
N
X
∀|ψi ∈ H, ∃(c1 , . . . cN ) : |φn icn = |ψi
n=1

alors l’ensemble {|φ1 i, . . . |φN i} forme une base de l’espace H, dont N est la dimension. L’intérêt est que
l’on peut représenter n’importe quel vecteur par une collection de coefficients :
 1
c
 .. 
|ψi ⇐⇒  . 
|φn i
cN

Attention : ces coefficients dépendent implicitement du choix de base. Dans une autre base {|φ0m i}, dans
laquelle on peut exprimer chaque vecteur
X
|φn i = |φ0m iBnm (1.2.1)
m

, le même vecteur aura des coefficients c0 m différents


N
X
|ψi = |φn icn
n=1
XN
= |φ0m iBnm cn
| {z }
m,n=1
=c0 m
N
X
= |φ0m ic0 m
m=1

5
1 Vecteurs et opérateurs linéaires

En notation matricielle, on écrirait

c01
   1 1
  1
B1 ··· BN c
 ..   .. .. ..  .  .. 
 . = . . .   . 
c0N B1N ··· N
BN cN

où le produit matriciel correspond à la sommation sur n dans


N
X
c0 m = Bnm cn
n=1
.
= Bnm cn (convention d’Einstein)

La dernière expression est simplifiée en utilisant la convention d’Einstein, qui est d’omettre le signe somme sur
un indice qui est à la fois répété (i.e. qui apparaît exactement 2 fois), et muet (c’est-à-dire qu’il n’apparait
pas dans l’autre membre d’une équation).
Il faut distinguer les indices supérieurs, comme celui des composantes cn , qui sont appelés contravariants,
et les indices inférieurs, comme celui des vecteurs de base |φn i, qui sont appelés covariants. En effet, sous un
changement de base, les coefficients « varient au contraire » des vecteurs de base :

cm → c0m = Bnm cn
0 n
|φm i → |φm i = |φn iCm avec C = B −1 : Cm
n m
Bl = (BC)nl = (I)nl = δln
0
|φm icm → |φm ic0m = |φn iCm
n m l
Bl c = |φn icn

Dans la dernière ligne, remarquez qu’on doit transformer l’indice muet n de la première ligne c0m = Bnm cn en
c0m = Blm cl avant de pouvoir l’utiliser : sans cela, l’indice n apparaîtrait
P4 fois et il n’y aurait pas la double
sommation voulue, même si l’on écrivait explicitement le signe somme n .

1.3 Espace vectoriel dual H


e
Partant d’un espace vectoriel H, on peut toujours construire un espace vectoriel dual H
e contenant toutes
les applications linéaires qui envoient un vecteur de H sur un scalaire :
.
hα| ∈ H
e : |ψi ∈ H −→ α(ψ) = hα|ψi ∈ C
α

L’application hα| est linéaire, ce qui veut dire que si

|ψi = |φ1 ic1 + |φ2 ic2

est un combinaison linéaire quelconque, alors l’image de |ψi est la combinaison linéaire des images :

hα|ψi = c1 hα|φ1 i + c2 hα|φ2 i

Dans la notation de Dirac ci-dessus, hα| est appelé « bra », |ψi est un « ket » et l’image du second par
le premier est le « bracket » hα|ψi, que l’on peut manipuler et déplacer comme un nombre. Il faut voir les
barres verticales comme des aimants qui s’attirent, se collent et se confondent :

hα|(a|ψi) = hα|a|ψi = hα||ψia = hα|ψia = ahα|ψi

Ce « collage », aussi appelée produit intérieur, est prioritaire sur les multiplications (. et ×), elles-mêmes
prioritaires sur les additions (de vecteurs ou de scalaires) : si dans l’exemple ci-dessus, le nombre a = hβ|φi,

hα|hβ|φi|ψi = hα|ψihβ|φi
= hβ|φihα|ψi
= hβ|hα|ψi|φi
6= hβ|ψihα|φi

6
1 Vecteurs et opérateurs linéaires

Une application étant entièrement définie dès que l’image de n’importe quel vecteur est connue, on peut
définir la somme de deux bras en sommant les images :

hγ| = hα| + hβ| : |ψi → hγ|ψi = hα|ψi + hβ|ψi (1.3.1)

et on définit de même la multiplication d’un bra par un scalaire :

hδ| = a.hα| : |ψi → hδ|ψi = ahα|ψi

Exercice 6. Vérifier que (H, e +, .) satisfait toutes les conditions pour former un espace vectoriel sur C.
Montrer que le bra hα| est entièrement déterminé par l’ensemble des images des vecteurs de base am = hα|φm i.

1.4 Base duale dans H


e
L’application qui associe à tout vecteur |ψi = n |φn icn le coefficient cm est un bra bien défini, noté
P

X .
hφ̃m | : |ψi = |φn icn ∈ H → hφ̃m |ψi = cm
n

En particulier, pour les vecteurs de base de H, on a


(
1 si m = n
hφ̃m |φn i = δnm =
0 si m 6= n

où l’on a introduit le symbole de Kronecker δ, qui n’est rien qu’une expression de la matrice identité sous
forme d’indices.
Ces vecteurs hφ̃mP | sont linéairement indépendants : en effet, l’image d’un vecteur quelconque |ψi par une
combinaison hα| = m am hφ̃m |
X
hα|ψi = am hφ̃m |ψi
m
X
= am hφ̃m |φn icn
m,n
X
= am δnm cn
m,n
X
= am 1 cm
m
= 0

ne peut s’annuler pour n’importe quel cm que si tous les am = 0. Lorsque la dimension dim(H) = N est
finie, il en résulte que dim(H̃) = Ñ = N également. Si l’on prend alors le dual de H̃, on retombe sur l’espace
de départ : H̃ ˜ = H.
Lorsque N → ∞ , il apparaît des ambiguïtés dans la définition des sommes infinies, et on est amené à
les fixer en restreignant les coefficients admissibles dans H. Si on demande par exemple que seul un nombre
fini de coefficients cm soient non nuls, rien n’empêche les am de H̃ de violer cette condition. On a alors en
général H ⊆ H̃ ˜ et en quelque sorte « N ≤ Ñ ≤ Ñ ˜ », les guillemets rappelant que ces nombres tendent en
fait vers l’infini.

1.5 Produit hermitien ou scalaire sur H et norme ||ψ||


On appelle produit hermitien ou plus simplement produit scalaire sur H une application envoyant une paire
de vecteurs (|ψi, |χi) de H sur un nombre scalaire c :
.
∀|χi, |ψi ∈ H −→ c = hχ, ψi ∈ C
h,i

7
1 Vecteurs et opérateurs linéaires

avec les propriétés :

hχ, ψi = hψ, χi∗ (symétrie)


hψ, ψi ≥ 0 ; = 0 si et seulement si |ψi = 0 (positivité)
(1.5.1)
hχ, ψi = c1 hχ, ψ1 i + c2 hχ, ψ2 i, si |ψi = |ψ1 ic1 + |ψ2 ic2 (linéarité)
→ hψ, χi = c∗1 hψ1 , χi + c∗2 hψ2 , χi (anti-linéarité)

Un produit scalaire est entièrement fixé lorsqu’on se donne les produits scalaires des vecteurs de base, que
l’on peut regrouper en une matrice carrée appelée métrique

Gmn = hφm , φn i = G∗nm

En effet, si |ψi = n et |χi = m |φm id ,


m leur produit scalaire est bien défini grâce à la linéarité et
P P
n |φn ic
l’anti-linéarité :
X
hχ, ψi = dm∗ hφm , φn icn
m,n
N
X
= dm∗ Gmn cn
m,n=1

c1
   
G11 · · · G1N
= (d · · · d ).  ...
1∗ N∗  ..
.
..  . 
.  
.. 
. 
GN 1 · · · GN N cN

On appelle norme sur H une application envoyant un vecteur quelconque |ψi de H sur un nombre réel
positif, noté || |ψi|| ou plus simplement ||ψ|| :
.
|ψi ∈ H → || |ψi|| = ||ψ|| ≥ 0

avec les propriétés suivantes :

||c|ψi|| = |c| . || |ψi|| (linéarité)


(1.5.2)
|| |ψi|| > 0 sauf si |ψi = 0 (positivité et unicité du vecteur de norme nulle)

Exercice 7. Montrer que tout produit scalaire permet d’obtenir une norme, définie par la racine du carré
. p
scalaire : ||ψ|| = hψ, ψi, et démontrer l’inégalité de Cauchy-Schwartz

hφ, ψi| ≤ ||φ||.||ψ|| (1.5.3)


( = si et seulement si les vecteurs sont "alignés" : |ψi = c|φi)

L’existence d’une norme permet de définir une distance entre deux vecteurs de H par
.
d(|ψ1 i, |ψ2 i) = || |ψ1 i − |ψ2 i||
= 0 si et seulement si |ψ1 i = |ψ2 i

Cette distance permet d’appliquer le critère de Cauchy pour tester la convergence d’une suite de vecteurs
{|ψn i} de H :
∀ > 0, ∃N () | ∀n, n0 > N (), || |ψn i − |ψn0 i|| < 
Un espace vectoriel muni d’un produit scalaire s’appelle espace pré-hilbertien. On parle d’espace de Hilbert
lorsqu’il est de plus complet, c’est-à-dire lorsque toute suite de Cauchy de vecteurs de H converge vers un
vecteur de H. C’est toujours le cas pour des espaces de dimension finie N .

8
1 Vecteurs et opérateurs linéaires


1.6 Adjoint : conjugaison complexe généralisée aux vecteurs
Tout produit scalaire Gmn permet d’associer à chaque ket |χi de H un unique bra hχ| de H̃ :

† hχ| .
|χi ∈H −→ hχ| ∈H̃ : |ψi ∈H −→ hχ|ψi=χ(ψ)= hχ,ψi ∈C

Ce vecteur hχ| est appelé vecteur adjoint de |χi, et est parfois noté hχ| = (|χi)† . On peut le voir comme un
produit scalaire dont la 2e place est laissée vide, prête à recevoir un vecteur : hχ| ≈ hχ, ?i

Exercice 8. Montrer que l’adjoint du vecteur de base |φm i est


X
hφm | = Gmn hφ̃n |
n

En déduire que les coefficients d’un vecteur quelconque |ψi = m peuvent s’exprimer
P
m |φm ic

cm = mn hφ
P
nG n |ψi

où la matrice Gmn = (G−1 )mn , appelée métrique inverse, est simplement la matrice inverse de Gmn :
X X
Glm Gmn = Gnm Gml = δln
m m
−1 −1
⇔ G.G = G .G = I

En composantes,

d1
 

⇐⇒  ...  ,
X
si |χi = |φm idm
 
m dN
X
alors hχ| = d˜m hφ̃m | ⇐⇒ d˜1 · · · d˜N

m
 
G11 · · · G1N
  . .. .. 
= d1∗ · · · dN ∗ .  .. . . 
GN 1 · · · GN N

de sorte que

c1
   
G11 · · · G1N
hχ, ψi = (d · · · d ).  ...
1∗ N∗  ..
.
..  . 
.  
.. 
. 
GN 1 · · · GN N c N

c1
 
  . 
= d˜1 · · · d˜N .  .. 
cN
= hχ|ψi

1.7 Bases orthonormées


On appelle base orthonormée une base {|φn i} dont les vecteurs sont orthogonaux entre eux (c’est à dire
dont les produits scalaires sont nuls deux à deux) et normés (ou de norme unité). On peut écrire ces N 2
équations en une fois en laissant varier m et n dans l’équation
(
. 0, si m 6= n (vecteurs orthogonaux)
hφm , φn i = Gmn = δmn =
1, si m = n (vecteurs normés)

9
1 Vecteurs et opérateurs linéaires

Dans ce cas particulier, les matrices G et G−1 sont égales à l’identité : Gmn = (G−1 )mn = (I)mn et on
peut laisser tomberP la différence entre les coefficients « contravariants » cm d’un vecteur et les coefficients
covariants cm = n Gmn cn , ainsi que la différence entre le bra hφm | (associé au vecteur de base |φm i par le
produit scalaire) et le vecteur de la base duale hφ̃m |. Il est alors commode de noter les vecteurs (de base) et
les coefficients :
|φm i → |mi
hφm | = hφ̃m | → hm|
X X
|φm icm → |micm
m m

Pour simplifier, on travaillera le plus souvent dans des bases orthonormées par la suite. Ceci n’est pas une
restriction puisqu’à partir de n’importe quelle base {|ψn i}, on peut obtenir une base orthonormée par la
méthode Gram-Schmidt :
|φ1 i = |ψ1 i/N1
|φ2 i = (|ψ2 i − |φ1 ihφ1 , ψ2 i)/N2
..
.
|φn i = (|ψn i − |φ1 ihφ1 , ψn i − . . . − |φn−1 ihφn−1 , ψn i)/Nn
où les facteurs Nn sont égaux à la norme du vecteur qu’ils divisent.

1.8 Opérateurs linéaires du H


1.8.1 Définition d’un opérateur A
On appelle opérateur linéaire une application A de H vers H
A
A : |ψi ∈ H −→ |ψ 0 i = |Aψi = A|ψi ∈ H
satisfaisant la condition de linéarité : si |ψi = |φ1 ic1 + |φ2 ic2 , alors |Aψi = c1 |Aφ1 i + c2 |Aφ2 i. On parle
d’opérateur antilinéaire si |Aψi = c∗1 |Aφ1 i + c∗2 |Aφ2 i.
Dans une base orthonormée {|φn i}, un opérateur A est équivalent à une matrice, dont les éléments de
matrice
Amn = hφm |Aφn i = hφm |A|φn i (1.8.1)
sont obtenus 1 en projetant l’image du vecteur n par A sur le vecteur m. Grâce à la linéarité, l’action de
l’opérateur A revient alors à la multiplication matricielle :
X
|Aψi = |φm idm (1.8.2)
m
avec dm = hφm |Aψi
= hφm |Aφ1 ic1 + · · · hφm |AφN icN
= Am1 c1 + · · · AmN cN (1.8.3)
 
   
d1 A11 · · · A1N c1
⇔  ...  =  ... ..
.
..  .  .. 
.   . 
  

dN AN 1 · · · AN N cN
Remarque 9. En insérant (1.8.3) dans (1.8.2), on a pour n’importe quel vecteur |ψi
X X
A|ψi = |φm i Amn hφn |ψi
m n
!
X X
= |φm i Amn hφn | |ψi
m n

1. On remarque ici que la formule mathématique se lit de droite à gauche lorsqu’on l’énonce en français. Cela correspond à
une suite causale : on part du vecteur |φn i, puis on y applique l’opérateur A, puis on projette sur hφm |.

10
1 Vecteurs et opérateurs linéaires

Deux opérateurs étant égaux lorsqu’ils donnent la même image de n’importe quel vecteur, on peut donc
écrire
X
A = |φm iAmn hφn | (1.8.4)
m,n
X
= Amn |φm ihφn |
m,n

L’opérateur A est donc une combinaison linéaire, somme de coefficients Amn multipliant des opérateurs
particuliers |φm ihφn |. Comme tout opérateur peut s’écrire comme une telle combinaison linéaire, on peut voir
l’ensemble des opérateurs sur H comme un nouvel espace vectoriel et l’ensemble des opérateurs {|φm ihφn |}
comme une base de cet espace, appelé H ⊗ H̃, ou produit tensoriel de H par son dual H̃. Attention :
contrairement hφn |φm i qui est un nombre, |φm ihφn | est bien un opérateur : il envoie un vecteur |ψi sur le
vecteur |φm ihφn |ψi = |φm icn , proportionnel à |φm i. La matrice associée est remplie de 0, sauf 1 en ligne
m et colonne n. On peut clairement construire n’importe quelle matrice en multipliant ce 1 par Amn , et en
sommant sur toutes les lignes m et colonnes n.

1.8.2 Somme, produit et commutateur d’opérateurs


La somme de deux opérateurs C = A + B est l’opérateur qui envoie un vecteur quelconque |ψi sur la
somme de ses images par A et par B :
.
C|ψi = (A + B)|ψi = A|ψi + B|ψi

La linéarité des opérateurs permet d’étendre l’addition des vecteurs (deuxième signe +) à une addition des
opérateurs (premier signe +), de la même façon qui permet de définir la somme de deux bras dans (1.3.1)
à partir de la somme de nombres. Dans une base orthonormée, les éléments de matrice de la somme sont
simplement Cmn = Amn + Bmn . La somme est commutative : A + B = B + A. On peut de même multiplier
un opérateur par un nombre : (cA)|ψi = (Ac)|ψi = c(A|ψi)
Le produit de deux opérateurs D = BA est l’opérateur qui envoie un vecteur quelconque |ψisur son
image successivement par A puis par B :
.
D|ψi = (BA)|ψi = B(A|ψi)

Ses éléments de matrice sont obtenus par produit matriciel de ceux de B et de A :

Dln = hφl |B(A|φn i)


X
= hφl |B( |φm iAmn )
m
X
= Blm Amn
m

Il est clair qu’en général BA 6= AB : tout comme le produit matriciel, le produit d’opérateurs n’est pas
commutatif. On définit le commutateur de deux opérateurs comme la différence entre les deux

[A, B] = AB − BA = −[B, A]

Le commutateur est linéaire en chaque de ses arguments : [A, c1 B1 + c2 B2 ] = c1 [A, B1 ] + c2 [A, B2 ].


Le commutateur d’un produit

[A, B1 B2 ] = [A, B1 ]B2 + B1 [A, B2 ]

permet de voir le commutateur avec A comme une sorte de différentiation [A, B] ≈ dB, avec la règle de
Leibniz pour la dérivée d’un produit d(B1 B2 ) = dB1 B2 + B1 dB2 , où il faut bien garder l’ordre des termes.
Pour faire commuter A avec un produit de plus de 2 termes, ou pour faire sauter A au-dessus du produit,
on a
[A, B1 B2 . . . Bn ] = [A, B1 ]B2 . . . Bn + B1 [A, B2 ]B3 . . . Bn + · · · + B1 B2 . . . [A, Bn ]
où chaque terme de la somme fait sauter A au-dessus d’un des termes du produit.

11
1 Vecteurs et opérateurs linéaires

1.8.3 Opérateur adjoint A† et auto-adjoint H = H †


On appelle opérateur adjoint, ou opérateur conjugué hermitien de l’opérateur A, l’opérateur qui satisfait
à la relation suivante :
.
∀|ψi, |χi ∈ H : hψ|Aχi = hA† ψ|χi = hχ|A† ψi∗

A† est donc l’opérateur à appliquer au premier vecteur d’un produit scalaire pour obtenir le même effet qu’en
appliquant A sur le second vecteur.

Exercice 10. Montrer que les éléments de matrice de A† sont A† mn = A∗nm : la matrice de A† est donc


la matrice hermitienne conjuguée de A, c’est-à-dire complexe conjuguée et transposée. Montrer que l’adjoint
d’un produit est le produit des adjoints dans l’ordre inverse : (AB)† = B † A†

Si H = H † , l’opérateur H est dit hermitien, tout comme sa matrice dans n’importe quelle base ortho-

normée : Hmn = Hnm .
On appelle domaine d’un opérateur A l’ensemble des vecteurs dont l’image est un vecteur bien défini
de H :
dom(A) = {|ψi ∈ H tels que A|ψi ∈ H}
Lorsque l’opérateur A est défini par une matrice dans une base de dimension N finie, on a toujours dom(A) =
H. Mais si N → ∞, ou si on cherche à définir un opérateur autrement, il faut se poser la question de son
domaine.

Exemple. Soit P l’opérateur qui annule la composante c1 d’un vecteur quelconque : il est bien défini pour
n’importe quel vecteur, et donc dom(P ) = H. Mais c’est un projecteur (P P = P ) et son inverse P −1 ne
peut être défini que pour des vecteurs dont la composante c1 est nulle. Ces vecteurs forment un sous-espace
vectoriel de dimension N −1, égal à l’image de H par P : dom(P −1 ) = Im(P ) ; dans ce sous-espace, P = IN −1
n’est autre que l’opérateur identité.
Si un opérateur est hermitien H = H † et que dom(H) = dom(H † ), alors cet opérateur est auto-adjoint.

1.8.4 Opérateur unitaire U † = U −1 et changement de base orthonormée


Un opérateur unitaire U est un opérateur qui satisfait à

U U † = U †U = I (1.8.5)

où I est l’opérateur identité, qui envoie n’importe quel vecteur sur lui-même, et est donc neutre pour le
produit d’opérateurs : ∀A, AI = IA = A.

Exercice 11. Montrer que l’opérateur I est auto-adjoint.

Comme (1.8.5) est exactement la définition de l’élément symétrique dans un groupe, U † = U −1 est l’in-
verse de U pour le produit d’opérateurs.

Exercice 12. Montrer que le produit d’opérateurs unitaires sur H de dimension N satisfait à toutes les
propriétés d’un groupe non-commutatif. Ce groupe des matrices unitaires N × N est appelé U (N ).

On vérifie facilement que l’action d’un opérateur unitaire sur les vecteurs |ψi → |ψ 0 i = |U ψi conserve les
produits scalaires (et donc les normes) des vecteurs :

∀|ψi, |χi : hχ0 |ψ 0 i = hU χ|U ψi


= hU † U χ|ψi
= hχ|ψi

La réciproque est plus longue à démontrer, c’est le théorème de Wigner : tout opérateur linéaire (ou
anti-linéaire) A sur H qui conserve la norme de tous les vecteurs, est nécessairement unitaire.

12
1 Vecteurs et opérateurs linéaires

En particulier, un changement d’une base orthonormée |φn i à une autre base orthonormée |φ0n i = U |φn i
conserve les produits scalaires, puisque Gmn = G0mn = δmn . La matrice de changement de base (1.2.1) Bmn
est donc unitaire. Les coefficients d’un vecteur se transforment comme
.
c0m = hφ0m |ψi
= hφm |U † |ψi (U |φm i)† = hφm |U †
= (U † )mn cn
.
= Bmn cn ⇒ Bmn = (U † )mn

et les éléments de matrice d’un opérateur se transforment comme


.
A0mn = hφ0m |A|φ0n i
= hφm |U † AU |φn i
= (BAB † )mn
X

= Bmk Akl Bnl
k,l

1.8.5 Projecteurs
Soit H1 un sous-espace vectoriel de H, c’est-à-dire un sous-ensemble de vecteurs satisfaisant les propriétés
d’un espace vetoriel, en particulier celle que toute combinaison linéaire reste dans H1 . On peut définir le
sous-espace orthogonal à H1 comme
.
H2 = {|ψ2 i tels que ∀|ψ1 i ∈ H1 , hψ1 |ψ2 i = 0} = H1⊥

Exercice 13. Montrer que c’est bien un espace vectoriel, et que tout vecteur de H peut se décomposer de
manière unique en un vecteur de H1 et un vecteur de H2 :

∀|ψi ∈ H, ∃! |ψ1 i ∈ H1 & |ψ2 i ∈ H2 tels que |ψi = |ψ1 i + |ψ2 i (1.8.6)

Solution. La linéarité du produit scalaire garantit que toute combinaison linéaire de vecteurs de H2 est dans
H2 ; c’est en particulier vrai pour l’opposé −|ψ2 i de n’importe quel vecteur |ψ2 i. Le vecteur nul en fait aussi
partie, puisque son produit scalaire avec n’importe quel vecteur est nul. (H2 , +) forme donc bien un groupe
pour l’addition des vecteurs. Les nécessaires propriétés de la multiplication par un scalaire sont héritées de
celles dans H.
Pour l’unicité de la décomposition, supposons que |ψi = |ψ10 i + |ψ20 i ; alors on peut écrire le vecteur nul

0 = |ψi − |ψi
= |ψ10 i + |ψ20 i − |ψ1 i − |ψ2 i
= (|ψ10 i − |ψ1 i) + (|ψ20 i − |ψ2 i)
= |ψ100 i + |ψ200 i

Le carré scalaire du vecteur nul vaut :

0 = (hψ100 | + hψ200 |)(|ψ100 i + |ψ200 i)


= hψ100 |ψ100 i + hψ200 |ψ200 i + hψ100 |ψ200 i + hψ200 |ψ100 i
= hψ100 |ψ100 i + hψ200 |ψ200 i + 0 + 0

Puisque les carrés scalaires des vecteurs hψ100 |ψ100 i et hψ200 |ψ200 i ne peuvent être négatifs, ils doivent être tous
deux nuls, ce qui implique que les deux vecteurs sont nuls. Donc |ψ10 i = |ψ1 i et |ψ20 i = |ψ2 i.

Puisque cette décomposition est unique, on peut définir le projecteur P1 comme l’opérateur qui envoie
un vecteur quelconque |ψi sur sa composante |ψ1 i dans H1 :
P1 .
P1 : |ψi −→ |ψ1 i = |P1 ψi = P1 |ψi

13
1 Vecteurs et opérateurs linéaires

Popriétés des projecteurs :


— Tout projecteur P1 est un opérateur linéaire (ceci découle de la linéarité du produit scalaire) et
hermitien P1† = P1 . En effet, ∀|ψi, |φi ∈ H,

:= 0
hψ|P1 φi = hψ|φ1 i = hψ1 |φ1 i + 
hψ
2 |φ1 i
 

:= 0
hψ|P1† φi = hP1 ψ|φi = hψ1 |φi = hψ1 |φ1 i + 
hψ
1 |φ2 i
 

Cette égalité pour tout |ψi garantit l’égalité des vecteurs |P1 φi = |P1† φi, qui pour tout |φi garantit
l’égalité des opérateurs P1† = P1 .
— L’opérateur P2 = I − P1 , qui envoie est un vecteur |ψi quelconque sur |ψ2 i = |ψi − |ψ1 i = (I − P1 )|ψi,
est un autre projecteur sur le sous-espace H2 . Comme l’intersection des deux sous-espaces est le vecteur
nul, on a : P1 P2 = P1 (I − P1 ) = 0, opérateur qui envoie n’importe quel vecteur sur le vecteur nul.
— Tout projecteur est égal à son carré P1 P1 = P1 .
— À l’inverse, tout opérateur A satisfaisant l’équation A† A = A est un projecteur sur le sous-espace
vectoriel Im(A) = {|ψ 0 i = A|ψi, ∀|ψi ∈ H}, image de H par A. En effet, on peut décomposer n’importe
quel vecteur en
|ψi = A|ψi + (|ψi − A|ψi)
= |ψ 0 i + |ψ⊥ i
et la première composante |ψ 0 i est perpendiculaire à la deuxième composante |φ⊥ i d’un deuxième
vecteur arbitraire :
hφ⊥ |ψ 0 i = hφ − Aφ|Aψi
= hφ|Aψi − hAφ|Aψi
= hφ|Aψi − hφ|A† Aψi
=0

La dernière égalité résulte de A − A† A = (I − A† )A = 0. Remarque : si A = A† A, alors A† = (A† A)† =


A† A = A est hermitien. On a donc Im(A) ⊥ Im(I − A).
— Si P1 et P2 projettent sur deux sous-espaces quelconques H1 et H2 , alors
— P3 = P1 P2 est un projecteur si et seulement si P1 P2 = P2 P1 ; dans ce cas,
— P3 projette sur l’intersection des deux sous-espaces H3 = H1 ∩ H2 , et
— P4 = P1 + P2 − P1 P2 est un autre projecteur sur l’union des deux sous-espaces H4 = H1 ∪ H2
— Pour tout vecteur |φi, il existe le projecteur Pφ qui envoie un vecteur |ψi sur le vecteur proportionnel
à |φi :
1
Pφ : |ψi → Pφ |ψi = |φihφ|ψi
hφ|φi
 
1
= |φihφ| |ψi
hφ|φi
Dans la dernière ligne, on a « ouvert » le produit hφ|ψi pour mettre en évidence l’égalité entre les
opérateurs
1
Pφ = |φihφ| .
hφ|φi
En effet, pour que deux opérateurs soient égaux, il suffit que les deux images d’un vecteur quelconque
coïncident.
— Les projecteurs Pn sur les différents vecteurs |φn i d’une base orthonormée vérifient Pm Pn = Pn Pm = 0
si m 6= n. La somme des M < N premiers projecteurs est donc un projecteur
M
X M
X
PM = Pn = |φn ihφn |
n=1 n=1

sur le sous-espace HM à M dimensions sous-tendu par les M premiers vecteurs de base.

14
1 Vecteurs et opérateurs linéaires

— La somme des projecteurs sur tous les vecteurs de base (M = N ) donne un projecteur particulier qui
est l’identité :
XN
I= |φn ihφn |
n=1

Cette relation de fermeture, qui exprime la complétude de la base, est très utile car on peut toujours
insérer l’identité quelque part. Appliquée à un vecteur |ψi quelconque, elle donne par exemple :

|ψi = I|ψi (définition de l’identité)


N
X
= |φn ihφn |ψi (relation de fermeture)
n=1

qui montre que n’importe quel vecteur peut s’écrire comme combinaison linéaire des vecteurs de base,
avec des coefficients cn = hφn |ψi.

1.8.6 Trace d’un opérateur


Dans une base orthonormée, on définit la trace d’un opérateur comme la trace de la matrice associée :

N
X N
X
Tr(A) = hφn |A|φn i = Ann
n=1 n=1

Propriétés de la trace :
— Tr(AB) = Tr(BA), même si AB 6= BA.
— Tr(ABC) = Tr(BCA) = Tr(CAB)
— Si P1 projette sur le sous-espace H1 , alors Tr(P1 ) = dim(H1 ). En particulier, Tr(I) = N .

1.9 Résumé : notation matricielle et adjoint


Dans une base orthonormée, un ket peut s’écrire à l’aide de ses coefficients cn = hφn |ψi
   
N c1 c1
|φn icn = |φ1 i · · · |φN i .  ...  ” = ”  .. 
X  
|ψi = . 
 
|φn i
n=1 cN cN

où les guillemets autour de l’égalité insistent sur le fait que cette représentation dépend du choix de base ;
on utilisera souvent la dernière expression (vecteur colonne), mais en cas de doute, il vaut toujours mieux
utiliser l’expression intermédiaire comprenant les vecteurs de base.
De même, un bra peut en général s’écrire :
 
N hφ1 |
am hφm | = a1 · · · aN .  ...  ” = ” a1 · · · aN
X   
hα| =

|φn i
m=1 hφN |

où am = hα|φm i. Dans le cas particulier du bra hψ| = (|ψi)† , on a


 
hφ1 |
(|ψi) = hψ| = c∗1 · · · c∗N .  ...

c∗1 · · · c∗N
 
” = ”
 
|φn i
hφN |

de sorte que hψ|φ1 i = c∗1 = hφ1 |ψi∗ par exemple. L’adjoint d’un vecteur colonne est donc le complexe conjugué
du vecteur ligne transposé.

15
1 Vecteurs et opérateurs linéaires

De même pour le ket |αi = (hα|)† , l’adjoint du vecteur ligne est le complexe conjugué du vecteur colonne
transposé :  ∗ 
a∗1
 
a1
(hα|)† = |αi = |φ1 i · · · |φN i .  ...  ” = ”  .. 
 
. 
 
|φn i
a∗N a∗N
de sorte que
X
hψ|αi = c∗m hφm |φn ia∗n
m,n
X
= c∗m a∗m
m
a∗1
 

= c∗1 · · · c∗N .  ... 


  

a∗N
  ∗
c1
=  a1 · · · aN .  ... 
   

cN

= hα|ψi

Si on définit l’adjoint d’un nombre comme son complexe conjugué, on a donc

hα|ψi† = (|ψi)† (hα|)† = hψ|αi

et l’adjoint du produit est le produit des adjoints pris dans l’ordre inverse.

1.10 Valeurs propres, vecteurs propres et décomposition spectrale


Si pour un vecteur particulier |ψi i, l’action de l’opérateur A se résume à la multiplication par une constante
ai
A|ψi i = ai |ψi i
on dit que |ψi i est un vecteur propre de A associé à la valeur propre ai .

1.10.1 Propriétés des valeurs et vecteurs propres d’un opérateur hermitien


Théorème 14. Si A = A† est un opérateur hermitien, alors ses valeurs propres ai = a∗i sont réelles, et
les vecteurs propres |ψ1 i et |ψ2 i correspondant à des valeurs propres distinctes a1 6= a2 sont des vecteurs
orthogonaux (hψ1 |ψ2 i = 0).

Démonstration. Utilisant les définitions des valeurs propres et de l’adjoint, on a pour n’importe quels i, j :

aj hψi |ψj i = hψi |aj |ψj i


= hψi |(A|ψj i)
= (hψi |A† )|ψj i
= (hψi |a∗i )|ψj i
= a∗i hψi |ψj i ,

donc (aj − a∗i )hψi |ψj i = 0. Pour j = i, hψi |ψi i > 0, et on en déduit que ai = a∗i est réel, quelque soit i. Pour
aj 6= ai , on en déduit que hψi |ψj i = 0.

Théorème 15. L’ensemble des vecteurs propres de A associés à une valeur propre ai forme un sous-espace
vectoriel Hi . Si A = A† , ces différents sous-espaces propres sont orthogonaux et il existe des projecteurs Pi
sur chacun de ces sous-espaces.

16
1 Vecteurs et opérateurs linéaires

Démonstration. Si |ψi,1 i et |ψi,2 i sont deux vecteurs associés à une même valeur propre ai , alors la linéarité
de l’opérateur garantit que n’importe quelle combinaison linéaire |ψi,3 i = c1 |ψi,1 i + c2 |ψ i,2 i satsifait aussi la
condition A|ψi,3 i = ai |ψi,3 i.
.
On appelle g(ai ) = gi = dim(Hi ) ≥ 1 la dégénérescence de la valeur propre ai : si g(ai ) > 1, on dit que
la valeur propre est dégénérée. Sinon g(ai ) = 1 pour une valeur propre non-dégénérée : le vecteur propre
est alors défini à une constante près, dont on peut fixer le module par choix de normalisation (hψi |ψi i = 1) ;
reste une phase arbitraire, mais la « direction » du vecteur propre est unique. Plus précisément, on appelle
rayon la classe d’équivalence ou l’ensemble de vecteurs obtenus en multipliant l’un d’eux par une constante
arbitraire : c’est un sous-espace de dimension 1, qui est unique comme ensemble de vecteurs, mais qui peut
être représenté par n’importe quel vecteur de l’ensemble.
Le spectre de l’opérateur A est ensemble de toutes les valeurs propres possibles spectre(A) = {ai }.

1.10.2 Décomposition spectrale


Théorème 16. Si A = A† est un opérateur hermitien dans un espace de dimension finie N , il existe une
base de vecteurs propres orthonormés.
Démonstration. Dans chaque sous-espace propre Hi , on peut trouver une base orthonormée :
.
si gi = 1, on prend |φi i = |ψi i/ hψi |ψi i = |ai i(= |ai , 1i). Dans la dernière notation, on a omis le nom φ
p

du vecteur, puisqu’à une phase près, ce vecteur est entièrement caractérisé par la connaissance de la valeur
propre ai ;
si gi > 1, on prend gi vecteurs propres linéairement indépendants, que l’on peut orthonormaliser par
Gram-Schmidt, et que l’on notera {|ai , 1i, |ai , 2i, . . . |ai , ri, . . . |ai , gi i} ;
dans les deux cas, le projecteur Pi sur le sous-espace propre Hi s’écrit
gi
X
Pi = |ai , rihai , r|
r=1

et on a Pi A = APi = ai Pi .
On peut montrer que pour un opérateur hermitien, la dégénérescenceQ
gi est égale à la multiplicité algébrique
de la racine ai du polynome caractéristiquePde degré N : det(A−λI) = i (ai −λ)gi . Les vecteurs orthonormés
qu’on a obtenus sont au nombre de N = i gi , et ils forment donc bien une base :

X gi
X
I= |ai , rihai , r|
ai ∈spectre(A) r=1

On obtient alors la décomposition spectrale de A :

X gi
X
A = AI = |ai , riai hai , r|
ai ∈spectre(A) r=1

Dit autrement, dans cette base propre les éléments de matrice de A forment une matrice diagonale :

hai , r|A|aj , si = A(i,r)(j,s) = ai δij δrs


Cette remarque permet une formulation équivalente du théorème précédent :
Théorème 17. Pour tout opérateur hermitien A = A† , il existe un opérateur unitaire U qui diagonalise la
matrice de A :  
a1 0 0 0
. .. 
 0 . . . ..

† . 
U AU = Adiag =   
 0 · · · a2 0 

..
0 ··· 0 .

17
1 Vecteurs et opérateurs linéaires

Démonstration. Partant de la matrice Amn = hφm |A|φn i dans une base quelconque, les éléments de matrice
de U sont Unp = hφn |U |φp i = hφn |aj , si (si par définition |aj , si = U |φp i est le pe vecteur de la nouvelle base
propre). On a bien alors

hφl |U † AU |φp i = hφl |U † IAIU |φp i


= hφl |U † |φm ihφm |A|φn ihφn |U |φp i
= hai , r|φm ihφm |A|φn ihφn |aj , si
= hai , r|A|aj , si
= ai δij δrs

= Uml Amn Unp
= ai(l) δlp

où la valeur propre ai(l) dépend du numéro d’ordre l du vecteur propre considéré. La matrice U n’est donc
pas unique puisque cet ordre est arbitraire. De plus, la phase des vecteurs |aj , si étant arbitraire, celle des
éléments hφn |aj , si l’est aussi.

1.10.3 Ensemble complet d’opérateurs qui commutent (E.C.O.C.)


Théorème 18. Si deux opérateurs hermitiens A et B commutent ([A, B] = 0), alors il existe un base de
vecteurs propres communs.
Démonstration. Soit |ai , ri un vecteur propre de A. B|ai , ri est également vecteur propre avec la même valeur
propre ai , puisque A(B|ai , ri) = BA|ai , ri = Bai |ai , ri = ai (B|ai , ri). B|ai , ri est donc dans le sous-espace
propre Hi de A et orthogonal aux autres sous-espaces propres Hj6=i de A. Les éléments de matrice de B ont
donc une structure diagonale par bloc
 (1) 
B 0 0
(i)
hai , r|B|aj , si = δij Brs = 0
 B (2) 0 
..

0 0 .
(i)
Dans chaque bloc (ou sous-espace Hi ), on peut diagonaliser Brs par un changement de base unitaire U (i) ,
tout en gardant le bloc A(i) diagonal, puisque U (i)† A(i) U (i) = U (i)† (ai I (i) )U (i) = ai U (i)† U (i) = ai I (i) par
définition d’une matrice unitaire gi × gi . et on obtient une base de vecteurs propres |(ai , bj ), ri, communs
aux opérateurs A et B : (
A|(ai , bj ), ri = ai |(ai , bj ), ri
B|(ai , bj ), ri = bj |(ai , bj ), ri

Si pourPun même ai , il y a différentes valeurs propres bj , la dégénérescence combinée gij = g(ai , bj ) diminue,
puisque j g(ai , bj ) = g(ai ) = dim(Hi ) , et donc 1 ≤ g(ai , bj ) ≤ g(ai ). L’ajout de l’opérateur B lève donc
certaines dégénérescences, et il se pourrait que g(ai , bj ) = 1, ∀i, j. Dans ce cas, l’ensemble de 2 opérateurs
qui commutent {A, B} formerait un ensemble complet. L’intérêt est que chaque vecteur de base est défini
(à une phase près), par la donnée des deux valeurs propres |a, bi : il n’y a plus d’ambiguïté d’ordre.
Si par contre il subsistait des dégénérescences (g(a, b) > 1), on pourrait rajouter un troisième opérateur
hermitien C commutant avec les précédents ([A, C] = [B, C] = 0), que l’on pourrait diagonaliser avec les
précédents et qui permettrait de lever d’autres dégénérescences par la donnée de la valeur propre c. S’il restait
encore des dégénérescences (g(a, b, c) > 1), on ajouterait encore un opérateur hermitien D commutant avec
les précédents, que l’on peut donc diagonaliser... et ainsi de suite jusqu’à obtenir un E.C.O.C.
Définition 19. Un Ensemble Complet d’Opérateurs qui Commutent ou E.C.O.C. est un ensemble
d’opérateurs hermitiens {A1 , A2 , . . . AM } commutant deux à deux ([Ai , Aj ] = 0) dont les vecteurs propres
communs orthonormés |a1 , . . . aM i peuvent être définis à une phase près par la connaissance des valeurs
propres respectives, et qui perd cette propriété dès qu’on enlève un opérateur quelconque de l’ensemble.
Exercice 20. Montrer que le nombre d’opérateurs M d’un E.C.O.C. ne peut dépasser la dimension de
l’espace M ≤ N = dim(H).

18
1 Vecteurs et opérateurs linéaires

1.10.4 Fonction, dérivée et intégrale d’un opérateur


Si A est un opérateur hermitien (et donc diagonalisable avec une représentation
P∞ spectrale A = ai ai Pi ),
P
et si f (z) est une fonction possédant un développement en série f (z) = p=0 fp z qui converge pour
p

|z| < R = limp→∞ |fp /fp+1 | (rayon de convergence de la série), alors on peut définir la fonction f (A)
de l’opérateur A comme l’opérateur

. X
f (A) = fp Ap = f0 I + f1 A + f2 AA + · · ·
p=0
X
= f (ai )Pi
ai ∈spectre(A)

qui est un opérateur diagonal dans la même base que A, et qui est bien défini si les valeurs propres de A sont à
l’intérieur du rayon de convergence : |ai | < R. Dans le cas contraire,
P p on peut souvent étendre cette définition
par le prolongement analytique de f (ai ), comme pour f (z) = p z = (1 − z) , qui en z = 2 > R = 1 vaut
−1

f (2) = −1.

Exemples :
P∞
— ln(I + A) = p=1 A/p a une ambiguïté pour les valeurs propres ai < −1.

X
— exp(cA) = p p
c A /p! a un rayon de convergence infini quelque soit la constante c, et est donc toujours
p=0
bien défini.
Plus précisément, ce dermier exemple est en fait construit sur une fonction de 2 variables f (c, z) = exp(cz) et
donne une famille d’opérateurs dépendant continûment d’un paramètre complexe c, en plus de la dépendance
en l’opérateur A : f (c, A) = exp(cA). On peut alors définir la dérivée d’un opérateur par rapport à c
comme la limite d’une différence entre opérateurs :
d . 1
f (c, A) = lim (f (c + , A) − f (c, A))
dc →0 

Exercice 21. Montrer que


d
exp(cA) = A exp(cA) .
dc
On peut de même intégrer f (c, PA) le long d’un contour dans le plan complexe de la variable c. Par
exemple, R(c, A) = (cI − A)−1 = ai Pi /(c − ai ) est la résolvante de l’opérateur A, qui possède un pôle pour
chaque
¸ valeur propre ai . L’intégrale sur un contour fermé ne contenant que ai donne donc le projecteur :
Pi = ai dc R(c, A).

1.10.4.1 Lien entre opérateurs unitaires et hermitiens


Les remarques précédentes permettent de démontrer le théorème suivant.

Théorème 22. Tout opérateur unitaire U peut s’écrire

U = exp(iH) ,

où H est un certain opérateur hermitien.

Exercice 23. Montrer les propriétés suivantes :

1. U † U = I = U U † ;
2. U est diagonalisable, et ses valeurs propres ui sont unimodulaires (|ui | = 1) ;
3. à deux valeurs propres ui 6= uj correspondent des vecteurs propres |ψi i ⊥ |ψj i.

19
1 Vecteurs et opérateurs linéaires

1.10.5 Diagonalisation d’une matrice hermitienne et matrice unitaire à 2 dimensions


Soit un opérateur hermitien A, dont les éléments de matrice dans une base orthonormée {|φ1 i, |φ2 i} sont
 
A11 A12
A =
|φ1,2 i A∗12 A22

Ses valeurs propres a± sont racines du polynôme caractéristique


 
A11 − a A12
det(A − aI) = det
A∗12 A22 − a
= a2 − (A11 + A22 )a + A11 A22 − |A12 |2
= (a − a+ )(a − a− )

avec
A11 + A22 1 p
a± = ± (A11 − A22 )2 + 4|A12 |2 (1.10.1)
2 2
Pour trouver les vecteurs propres, on remarque que dans une base dont on a changé la phase des vecteurs
par une matrice unitaire diagonale Uα :
 iα 
0 0 iα iα e 1 0
( |φ1 i |φ2 i ) = ( |φ1 ie 1 |φ2 ie 2 ) = ( |φ1 i |φ2 i ). ,
0 eiα2
| {z }
=Uα

les éléments de matrice


A0mn = hφ0m |A|φ0n i = ei(αn −αm ) Amn = (U−α AUα )mn (1.10.2)
deviennent tous réels si on choisit α1 − α2 = arg(A12 ) = δ, et de plus A012 = e−iδ A12 = |A12 | ≥ 0. La matrice
A0 doit alors pouvoir être diagonalisée avec une matrice unitaire réelle, c’est-à-dire orthogonale :
 
cos θ − sin θ
O= = (O−1 )t
sin θ cos θ

dépendant d’un angle θ appelé angle de mélange entre les vecteurs de base initiaux et les vecteurs propres.
Chaque vecteur colonne est un vecteur propre :
 
cos θ − sin θ
0 0 0 0
( |a+ i |a− i ) = ( |φ1 i |φ 2 i ). (1.10.3)
sin θ cos θ
qui satisfait une équation aux vecteurs propres, et l’on peut regrouper ces 2 équations vectorielles en une
équation matricielle :  
0 a+ 0
AO=O = OAdiag (1.10.4)
0 a−
Utilisant (1.10.1) et (1.10.2), on en déduit l’angle de mélange :
p
−(A11 − A22 ) + (A11 − A22 )2 + 4|A12 |2
tan θ = (1.10.5)
2|A12 |

Exercice 24. L’équation entre les matrices (1.10.4) est équivalente à 4 équations entre les 4 différents
éléments de matrice : montrer que ces 4 équations donnent bien la même expression pour tan θ. Tracer le
graphe de tan θ en fonction de
x = (A11 − A22 )/(2|A12 |)
(rapport entre la différence des éléments diagonaux et l’élément hors diagonal) et vérifier que θ varie entre 0
(pour x → ∞) et π/2 (pour x → −∞), en passant par π/4 (pour x = 0).
Montrer comment on peut choisir la numérotation des états |φ1,2 i de sorte que x ≥ 0, et qu’alors θ varie de
0 (pas de mélange) à π/4 (mélange maximal).
Montrer enfin que tan(2θ) = 1/x, et obtenir cette relation directement à partir de l’équation O† A0 O = Adiag ,
équivalente à (1.10.4).

20
1 Vecteurs et opérateurs linéaires

Les états propres étant définis à une phase β± près, on a donc en général
 −iβ 
0 0 e + 0
( |a+ i |a− i ) = ( |a+ i |a− i ).
0 e−iβ−
| {z }
=U−β

=( |φ01 i |φ0 2i
).O.U−β
 i(α −β )
e 1 + cos θ −ei(α2 −β+ ) sin θ

= ( |φ1 i |φ2 i ).
ei(α1 −β− ) sin θ ei(α2 −β− ) cos θ
| {z }
=U

Il est usuel de séparer U = Uα OU−β = (Uα OU−α )Uα−β en une matrice unitaire diagonale,

ei(α1 −β+ )
 
0
Uα−β = ,
0 e −β− )
i(α 2

et une matrice unitaire dont les éléments diagonaux sont réels

−e−iδ sin θ
 
cos θ
U (θ, δ) = Uα OU−α = ,
eiδ sin θ cos θ

où δ = α1 − α2 . Ceci qui montre qu’il n’y a que 3 des 4 phases (α1,2 , β± ) qui sont indépendantes : (α1 − β+ ,
α2 − β− , α1 − α2 ), la dernière perdant tout effet si l’angle de mélange θ s’annule.
Une autre manière d’arriver à ce décompte de 4 paramètres réels est d’utiliser le théorème 22 pour écrire
une matrice unitaire 2 × 2 quelconque U ∈ U (2) comme

U = eiH

où H ∈ H(2) est une matrice hermitienne 2 × 2, dépendant de 4 paramètres : 2 réels (H11 , H22 ) et un
complexe (H12 = H21 ∗ ). Les matrices de H(2) forment espace vectoriel réel à 4 dimensions, sous-espace

de l’espace des opérateurs sur un espace complexe à 2 dimensions H2 . Pour le montrer, on passe de la
décomposition H = |φm ihφn |Hmn 1.8.4 dans la base {|φm ihφn |} de H2 ⊗ H̃2 , à la décomposition suivante :
   
H11 H12 b0 + b3 b1 − ib2
∗ =
H12 H22 b1 + ib2 b0 − b3
= b0 σ0 + b1 σ1 + b2 σ2 + b3 σ3
= b0 σ0 + ~b.~σ

où les matrices
        
1 0 0 1 0 −i 1 0
σ0 = I = , σ1 = , σ2 = , σ3 =
0 1 1 0 i 0 0 −1

forment une base des matrices hermitiennes 2 × 2 . Elles sont orthonormées par rapport au produit scalaire
entre 2 matrices défini par
. 1
hH, H 0 i = Tr(H † H 0 ) ,
2
de sorte que ba = hσa , Hi pour a = 0, 1, 2, 3. Les matrices σ1,2,3 portent le nom de matrices de Pauli.

Exercice 25. Vérifier que les matrices de Pauli σi ont les propriétés :

[σ1 , σ2 ] = iσ3 (et 3 permutations circulaires), (1.10.6)


Tr(σi ) = 0 ,
.
{σi , σj } = σi σj + σj σi = 2δij I ; (1.10.7)

21
1 Vecteurs et opérateurs linéaires

des objets satisfaisant ces dernières relations d’anti-commutation forment une algèbre de Clifford. En
déduire que les σa forment bien une base orthonormée hσa , σb i = δab I, et que (~b.~σ )2 = (~b.~b)I = b2 I. En
utilisant ce résultat et en développant l’exponentielle en série, montrer que
~
U (b0 , ~b) = ei(b0 I+b.~σ)
!
~σ .~b
= eib0 cos(b)I + sin(b)
b

et exprimer ba en fonction des paramètres (θ, α1,2 , β± ) vus plus haut. Montrer que det(U (b0 = 0, ~b)) = 1, et
que l’ensemble des matrices de ce type forme un groupe appelé SU (2), des matrices spéciales unitaires
à 2 dimensions.

22
Index

A fréquence relative, 25
absorbant, 4
algèbre de Clifford, 22 G
angle de mélange, 20 groupe, 3
anti-commutation, 22
H
antilinéaire, opérateur, 10
hermitienne, matrice, 12
anti-linéarité du produit scalaire, 8
Hilbert, espace de, 8
associativité, 3
auto-adjoint, opérateur, 12 I
identité, opérateur, 12
B
indépendance statistique, 27
base, 5
indépendants, événements, 27
base orthonormée, 9
inégalité de Cauchy-Schwartz, 8
bra, 6
inverse, 4
bracket, 6
K
C
ket, 6
commutateur, 11
Kronecker δ, symbole de, 7
complet, espace vectoriel, 8
contravariant, 6 L
convention d’Einstein, 6 linéairement indépendants, 5
corps, 3
covariant, 6 M
matrices de Pauli, 21
D métrique, 8
décomposition spectrale, 17 métrique inverse, 9
dégénérée, valeur propre, 17
dégénérescence, 17 N
δ, symbole de Kronecker, 7 non-dégénérée, valeur propre, 17
dérivée d’un opérateur, 19 normalisable, 29
dimension, 5 normalisation d’une distribution, 29
division, 4 norme, 8
domaine d’un opérateur, 12 normés, 9
notation de Dirac, 6
E
E.C.O.C., 18 O
éléments de matrice, 10 opérateur adjoint, 12
ensemble complet d’opérateurs qui commutent, 18 opérateur conjugué hermitien, 12
événement aléatoire, 25 opérateur hermitien, 12
événement certain Ω, 25 opérateur linéaire, 10
événement combiné, 25 opposé, 4
événement élémentaire, 25 orthogonaux, 9
événement impossible ∅, 25
expérience aléatoire, 25 P
partie libre, 5
F probabilité, 26
fonction d’un opérateur f (A), 19 produit hermitien, 7

23
Index

produit intérieur, 6
produit scalaire, 7
produit tensoriel, 11
projecteur, 13

R
rayon, 17
rayon de convergence, 19
relation de fermeture, 15

S
scalaire, 4
sous-espace orthogonal, 13
sous-espace propres, 16
soustraction, 4
spéciale unitaire, matrice, 22
spectre d’un opérateur, 17
SU (2), 22

T
trace d’un opérateur, 15

U
U (N ), 12
unitaire, opérateur, 12

V
valeur propre, 16
variable aléatoire X, 27
vecteur adjoint, 9
vecteur propre, 16

W
Wigner, théorème de, 12

24
2 Notions de probabilités
2.1 Définitions et concepts
Kolmogorov a formulé en 1933 une axiomatique rigoureuse de la théorie des probabilités dans le cadre de
la théorie de la mesure. Commençons par donner ici une formulation intuitive, basée sur le concept de jeu
aléatoire qui en est l’origine historique remontant à Blaise Pascal, et introduisons quelques définitions.

Expérience aléatoire (E) : expérience dont on ne peut prédire exactement le résultat, par exemple par
manque de contrôle ou d’information sur les causes influençant le résultat. Exemple sponsorisant la recherche
scientifique : le tirage du loto.

Événement aléatoire (A) : résultat possible d’une expérience aléatoire. Ex : le 23 sort au tirage du loto.

Événements combinés : Par extension, on peut aussi appeler événement tout sous-ensemble des résultats
possibles. Ex : “le tirage du loto contient le 23 ou le 24” est un événement aléatoire qui peut s’être réalisé,
ou non. Si A, B sont des événements quelconques, l’événement !A désigne la non-réalisation de l’événement
A, l’événement A ∪ B la réalisation de A ou de B et l’événement A ∩ B la réalisation de A et de B à la fois.
La notation souligne un lien avec la théorie des ensembles : un événement A est bien un sous-ensemble des
résultats possibles. On considère que A s’est réalisé si le résultat de l’expérience appartient à ce sous-ensemble
A.

Événement impossible et événement certain : Pour des raisons de cohérence (structure de groupe pour
la réunion et l’intersection de sous-ensembles), on est amené à introduire deux événements particuliers :
l’événement impossible ∅ qui correspond à l’ensemble vide (qui est bien un sous-ensemble de tout ensemble de
résultats) ; et l’événement certain Ω qui correspond à l’ensemble de tous les résultats possibles. L’événement
impossible peut parfois prendre des formes différentes : obtenir 7 ou 8 en lançant un dé à 6 faces sont
deux événements impossibles. Néanmoins, on ne peut les différencier qu’en considérant un sur-ensemble des
résultats possibles de départ.

Événements élémentaires : événements mutuellement exclusifs (i.e. ne pouvant se réaliser simultanément :


A ∩ B = ∅) dont la réunion permet de construire n’importe quel événement. Ex : les 6 faces d’un dé
A1 , A2 . . . A6 forment un ensemble d’événements élémentaires ; l’événement “obtenir un nombre pair” est par
exemple la réunion des événements A2 ∪ A4 ∪ A6 .

Fréquence relative d’un événement A : si on répète un grand nombre N de fois une même 1 expérience
aléatoire E (répétition que l’on notera E N ), on définit la fréquence relative de A comme le rapport du
nombre de fois n(A|E N ) où cet événement s’est réalisé par le nombre d’expériences : ν(A|E N ) = n(A|E N )/N .
On constate que plus N augmente, moins les dernières expériences influent sur la fréquence ν, qui devient
quasi indépendante de N . Cette stabilisation de la fréquence peut être prise comme une définition de ce qu’on
entend par “expérience réellement aléatoire”. 2

1. C’est évidemment ici que la compréhension/modélisation physique entre en jeu : on ne refait jamais exactement la même
expérience. Au loto, on change les boules à chaque tirage !
2. Ex : on peut concevoir que la fréquence relative des faces d’un dé dépende de la température. Si la température s’élève,
on aura une augmentation systématique de la fréquence du 6 par exemple. Cette fréquence ne se stabilisera alors pas, ou d’une
façon dictée, non par le nombre de répétitions N , mais en fait par l’évolution de la température.

25
2 Notions de probabilités

Probabilité P (A|E) d’obtenir l’événement aléatoire A dans les conditions dictée par l’expérience E : c’est
la limite de la fréquence relative pour une répétition infinie de cette expérience, si cette limite existe. On
peut aussi laisser tomber la distinction entre expérience et événement, et parler de la probabilité de réaliser
l’événement A dans les conditions dictées par la réalisation avec certitude de l’événement E : on parle alors de
probabilité conditionnelle. La probabilité est donc un concept purement abstrait, que l’on ne peut tenter
d’approcher par la notion expérimentale de fréquence relative qu’au prix d’une modélisation, éventuellement
biaisée. Si l’événement impossible ∅ a par définition une probabilité nulle P (∅|E) = 0, le contraire n’est
pas nécessairement vrai : un événement de probabilité nulle peut se produire. De même un événement de
probabilité 1 peut ne pas se réaliser à chaque fois.

2.1.1 Physique classique, quantique et probabilités :


Les lois d’évolution de la mécanique classique sont entièrement déterministes : connaissant les coordonnées
et vitesses d’une pièce de monnaie avec une précision infinie, on peut toujours prédire avec certitude si
le résultat sera pile ou face. Le caractère aléatoire provient de 2 effets : 1) notre ignorance en pratique
des conditions initiales exactes et 2) le fait que les problèmes de ce type (lancement d’une pièce ou d’un
dé) sont mal posés, au sens où il y a instabilité par rapport aux conditions initiales : dans tout voisinage,
aussi petit que l’on veut, d’une condition initiale, il existera des trajectoires menant à tous les résultats
possibles (système chaotique rendant vaine une meilleure connaissance des conditions initiales). Dans ce cas,
la description aléatoire des résultats est moins une caractéristique du système étudié qu’un paramétrage de
l’ignorance de l’observateur. On peut prendre l’analogie avec le tirage d’une carte “au hasard” : la pile de
cartes est dans un état bien défini, mais le joueur ne le connaît pas et c’est de cette ignorance que résulte le
caractère aléatoire du tirage. Une information partielle (si p.ex. certaines cartes sont cornées) modifiera les
probabilités du tirage, pour une pile de cartes exactement dans le même ordre.
Il en est tout autrement en mécanique quantique, où l’état du système est entièrement connu si l’on se
donne une fonction d’onde, mais cette fonction d’onde ne permet pas de prédire plus que la probabilité de
trouver la particule en un point. Bien que père fondateur de la physique quantique, Einstein ne pouvait
se résoudre à accepter cette introduction fondamentale de la probabilité dans la description quantique du
monde : “Dieu ne joue pas aux dés”. Dit autrement, il doit exister une réalité non-probabiliste objective, même
si cette réalité n’est pas directement accessible. C’est pourquoi certains ont tenté d’introduire des variables
cachées qui jouent le même rôle que la face cachée des cartes dans l’exemple plus haut. Les modèles les plus
simples de ce type prédisent dans certains cas des résultats différents de la description quantique standard
que l’on va voir : dans ces cas, ces modèles ont été contredits par des expériences récentes (Aspect, Grangier,
et al.). A l’inverse, si l’on croit à la description standard, seule la mécanique quantique est capable de donner
de vrais nombres aléatoires purs, non-biaisés par l’ignorance éventuelle de l’observateur. Il existe même un
site internet 3 (http ://www.fourmilab.ch/hotbits/) qui offre de tels nombres aléatoires purs, générés à partir
de la désintégration quantique de particules instables.

2.2 Axiomes
Pour s’abstraire de l’arbitraire des fréquences relatives, les mathématiciens ont défini les axiomes néces-
saires à une théorie cohérente des probabilités. Ces axiomes découlent des propriétés des fréquences relatives
lorsqu’on veut bien les utiliser, et les remplacent autrement. Si A, B, C sont des événements quelconques :

Axiome 1 : 0 ≤ P (A|B) ≤ 1 (évident pour des fréquences relatives)

Axiome 2 : P (A|A) = 1 (événement certain)

Axiome 3 : P (!A|B) = 1 − P (A|B)

3. Ce site créé par le fondateur du logiciel AutoCAD est un joyau : je vous recommande vivement la lecture des pages de
physique http ://www.fourmilab.ch/nav/topics/physics.html

26
2 Notions de probabilités

Axiome 4 : P (A ∩ B|C) = P (B|A ∩ C)P (A|C)


Seul ce dernier axiome demande des explications : il précise que la probabilité d’obtenir A et B à la
fois comme résultat de l’expérience C est donnée par la probabilité d’obtenir A tout seul, multiplié par la
probabilité d’obtenir B dans une expérience où C et A se sont tous deux réalisés. Utilisant A ∪ B =!(!A∩!B),
il est peut-être plus intuitif de vérifier une conséquence des axiomes 3 et 4, que l’on peut prendre en lieu et
place de l’axiome 3 :

Axiome 3’ : P (A ∪ B|C) = P (A|C) + P (B|C) − P (A ∩ B|C)


Si A et B sont des événements mutuellement exclusifs, on a P (A ∩ B|C) = 0 et il en découle l’addition des
probabilités, évidente pour les fréquences relatives. Sinon, on a un double comptage quand A et B se réalisent
simultanément, et il faut retrancher le dernier terme. Si on a un ensemble d’événements élémentaires, il suffit
donc de connaître la probabilité de chacun pour connaître la probabilité de tout événement : c’est la somme
des probabilités des événements élémentaires qui le constituent. Les événements élémentaires forment donc
une sorte de base des résultats possibles et de leur probabilités.

Événements indépendants : Si P (B|A ∩ C) = P (B|C), la probabilité de B est indépendante de la réalisa-


tion de A : A et B sont dits statistiquement indépendants. Par l’axiome 4, on a le critère d’indépendance
statistique :
P (A ∩ B|C) = P (A|C)P (B|C) (2.2.1)

2.3 Variables aléatoires et distribution de probabilité


Variable aléatoire X : résultat numérique associé un événement aléatoire. Ex : montant d’un gain au loto.
On peut rassembler n variables aléatoires en un vecteur aléatoire. Si n est infini dénombrable, on parlera
de suite aléatoire, et de fonction aléatoire au-delà.
Mathématiquement, une variable aléatoire est une application de l’ensemble des résultats possibles Ω vers
les réels, telle qu’à tout intervalle réel corresponde un événement. Ceci est moins contraignant qu’il n’y
parait : à des valeurs impossibles de la variable aléatoire (ex : une perte supérieure au prix du billet de loto),
on peut toujours attacher l’événement impossible ∅. Cette contrainte permet d’associer à chaque intervalle
en x un événement, et donc la probabilité de cet événement. On peut aussi directement parler de l’événement
“obtenir pour la variable aléatoire 4 X un résultat compris dans l’intervalle [x, x + ∆x[” comme résultat d’une
expérience E, et de sa probabilité P (x ≤ X < x + ∆x|E). On parlera de variable aléatoire discrète si X
ne peut prendre des valeurs que dans un ensemble discret {x1 , x2 , . . . xi . . .}. Ex : résultat d’un dé {1, 2, . . . 6}.

Distribution de probabilité f (x|E) d’une variable aléatoire X : c’est une fonction (ou plus généralement
une distribution) donnant la probabilité de n’importe quel intervalle par intégration sur cet intervalle :
ˆ x+∆x
P (x ≤ X < x + ∆X|E) = dx0 f (x0 |E) (2.3.1)
x

On peut voir ceci comme la somme des probabilités infinitésimales P (x ≤ X < x + dx|E) = f (x|E)dx des
événements élémentaires x ≤ X < x + dx, qui sont bien mutuellement exclusifs. f (x) est le poids 5 ou la
mesure par lequel il faut multiplier l’intervalle dx pour obtenir sa probabilité.
Pour qu’une fonction f (x) puisse s’interpréter comme une distribution de probabilité, il faut que la pro-
babilité de tout intervalle satisfasse aux axiomes donnés plus haut. Pour cela, il suffit que
1. f (x) ≥ 0 (positivité)
´
2. I dx f (x) ≤ 1 (sommabilité sur tout intervalle I)
´ +∞
3. −∞ dx f (x) = 1 (normalisation)

4. Attention à la distinction entre X, variable aléatoire pouvant prendre n’importe quelle valeur, et x, valeur particulière
que X a pu prendre suite à une expérience aléatoire.
5. Pour alléger les formules, on notera dans ce qui suit f (x) au lieu de f (x|E) quand il n’y a pas de confusion possible sur
les conditions de l’expérience E.

27
2 Notions de probabilités

Les variables discrètes peuvent être décrites de la sorte, au prix d’une extension de la notion de fonction. Si
X peut prendre les valeurs {x1 , x2 , . . . xi . . .} avec les probabilités {p1 , p2 , . . . pi . . .}, on aura la distribution
X
f (x) = pi δ(x − xi ) (2.3.2)
i

qui correspond à une densité infinie concentré sur les valeurs discrètes xi . Cet objet est mal défini si on le voit
comme une fonction, qui vaudrait 0 partout sauf en x = xi où elle vaudrait pi × ∞ (= ∞ ? ? ?). Par contre,
il est bien défini comme une distribution qui a vocation à être intégrée sur un intervalle, et qui apporte une
contribution pi si l’intervalle comprend xi .
On peut avoir une fonction de distribution pour plusieurs variables aléatoires : par exemple si on jette un
dé, on peut à la fois enregistrer la face du dé obtenue et son orientation finale dans le plan (angle entre 0 et
2π). La distribution sera donc une fonction de 2 variables. Deux variables X1 et X2 sont indépendantes si
leur distribution se factorise :

f (x1 , x2 )dx1 dx2 = [f1 (x1 )dx1 ].[f2 (x2 )dx2 ] (2.3.3)

Exercice 26. justifier cette affirmation à partir de la définition d’événements indépendants (Eq. 2.2.1). Ceci
se généralise : n variables seront statistiquement indépendantes si leur fonction de distribution f (~x)dn ~x est
un produit de fonctions de chaque variable.

Fonction de distribution cumulée F (x) : donne directement la probabilité d’obtenir n’importe quelle
valeur inférieure à un x donné : ˆ x
F (x) = P (X < x) = dx0 f (x0 ) (2.3.4)
−∞

C’est une fonction croissante et comprise entre 0 et 1. La probabilité d’un intervalle [x, x+∆x[ est donnée par
la simple différence F (x+∆x)−F (x). À plusieurs dimensions, F (~x) sera la probabilité de X1 < x1 ; X2 < x2 . . .
ce qui correspond à la probabilité d’un domaine en forme de “coin” de sommet ~x dans l’espace des vecteurs
aléatoires.

Moyenne ou espérance mathématique x̄ = hXi : connaissant la probabilité de chaque intervalle infinité-


simal, on peut sommer le produit de cette probabilité par la valeur de X dans cet intervalle :
ˆ +∞
x̄ = hXi = dxf (x) x (variable continue) (2.3.5)
−∞
X
= pi xi (variable discrete) (2.3.6)
i

Chaque valeur possible x de la variable X est pondérée par sa probabilité : x̄ est donc le centre de masse de
la distribution f (x) interprétée comme une distribution linéaire de masse. Si on revient à l’interprétation en
termes de fréquence relative, ceci sera bien la moyenne x̄ de la variable sur un grand nombre d’expériences.

Exemple. si X est le gain associé à un jeu de hasard, hXi est le gain moyen que l’on peut espérer en jouant
un grand nombre de fois. Pour un casino sans frais ni bénéfices, hXi serait nul : on n’aurait à la longue pas
plus de chances de perdre que de gagner 6 . En pratique, pour payer les frais, hXi est négatif (le joueur perd
en moyenne). Pour le loto de la française des jeux, le pourcentage du prix de vente des billets redistribué aux
gagnants est faible (53%) : −hXi est à peine au-dessus de la moitié du prix du billet. Le reste (47%) fournit
à l’état une source importante de revenus. Les joueurs de loto ne considèrent cependant pas ce jeu comme
un impôt volontaire. La raison tient à la psychologie du risque. Certains ont intuitivement tendance, pour
prendre une décision, à peser les événements très rares avec un poids plus important que leur probabilité : en
assurance on dit qu’ils ont peur du risque. Pour forcer le trait, ces même personnes ont donc l’impression
qu’acheter 1 euro un billet donnant une chance sur 106 de gagner 10,000€ est une bonne affaire. Comme
individuellement, ils n’achèteront pas 106 billets, on ne peut pas dire qu’ils ont nécessairement tort.

6. Même dans ce cas idéaliste, le casino est en fait gagnant à cause de ce qu’il sera moins facilement “à sec” qu’un joueur
venant avec une somme limitée, et devant s’arrêter lorsque cette somme est épuisée.

28
2 Notions de probabilités

Si X est un variable aléatoire, toute fonction g(X) en est une autre. On peut donc de la même façon
calculer son espérance mathématique :

ˆ +∞
hg(X)i = dxf (x) g(x) (variable continue) (2.3.7)
−∞
X
= pi g(xi ) (variable discrete) (2.3.8)
i

La fonction de distribution µ(g) pour la variable aléatoire G = g(X) obéit à la relation µ(g)dg = f (x)dx,
ce qui dicte comment la fonction de distribution se transforme lors d’un changement de variable aléatoire :
µ(g(x))g 0 (x) = f (x) ou encore : µ(g) = f (x(g))x0 (g) où x(g) est la fonction inverse de g(x).
L’opération “espérance mathématique” hi possède les propriétés suivantes :
1. hg(X) + h(X)i = hg(X)i + hh(X)i (linéarité)
2. hcg(X)i = chg(X)i (distributivité sur les constantes)
3. h1i = 1 (distribution normalisée)
Si cette dernière condition n’est pas satisfaite pour une certaine distribution f (x) mais qu’on a à la place
h1i = N , on peut toujours prendre f (x)/N comme nouvelle distribution : ce procédé porte le nom de
normalisation de la distribution. Ceci n’est évidemment possible que si la constante N est finie. Dans
le cas contraire, on dit que la distribution n’est pas normalisable : l’exemple typique est f (x) = 1 pour
x ∈ [−∞, ∞] (cas des ondes planes en mécanique quantique).

Écart-type σ et variance C2 : parmi les différentes fonctions dont on peut prendre l’espérance mathéma-
tique, la variance (ou écart quadratique moyen) et sa racince, l’écart-type, jouent un rôle essentiel :
C2 = σ 2 = h(X − x̄)2 i (2.3.9)
En effet, ces quantités positives résument par un seul nombre la dispersion de la distribution de probabilité
autour de la valeur moyenne x̄. Si C2 = 0, X = x̄ a une probabilité 1. Plus C2 augmente, moins la distribution
f (x) est “piquée” autour de x = x̄. Si X porte une unité dimensionnelle (p.ex un gain en francs), x̄ et σ
portent cette même unité : σ donne donc une définition objective de la largeur en x de la distribution f (x)
autour de sa moyenne.
Si on connaît x̄ = hXi, il suffit de calculer hX 2 i pour avoir σ et C2 :
h(X − x̄)2 i = hX 2 − 2X x̄ + x̄2 i = hX 2 i − 2x̄hXi + x̄2 = hX 2 i − x̄2 = hX 2 i − hXi2 (2.3.10)
Cette dernière forme est donc toujours positive, ce qui résulte en fait de la positivité de f (x).
Exercice 27. Calculer la moyenne et l’écart-type (des 2 façons) de la distribution de probabilité associée à
un dé non-pipé 7 p1 = p2 . . . = p6 = 1/6. Même question pour une distribution continue f (1 < x < 6) = 1/5
et donc nulle ailleurs 8 .

Moments Mn et fonction génératrice Z(j) : on a vu que hXi et hX 2 i donnaient des informations sur
la distribution de probabilité. On peut aussi calculer les moyennes de puissances arbitraires hX n i, appelées
moments d’ordre n : ˆ ∞
.
Mn = hX n i = dxf (x)xn (2.3.11)
−∞
Ces moments donnent de plus en plus d’information sur f (x), et forment la série de Taylor de la fonction
génératrice :
∞ ∞
X jn X jn
Z(j) = hejX i = hX n i = Mn (2.3.12)
n! n!
n=0 n=0

Prenant j = ik, on retrouve la transformée de Fourier f˜(k) = Z(ik)/ 2π de la distribution f (x). La
connaissance de Z est donc équivalente à celle de f , excepté d’éventuels problèmes pour l’inversion de la
transformée de Fourier.
p
7. Réponse : x̄ = 7/2; ∆ = p35/12 ∼ 1.7
8. Réponse : x̄ = 7/2; ∆ = 25/12 ∼ 1.4

29
2 Notions de probabilités

Cumulants Cn et fonction génératrice F(j) : on définit



X jn
F(j) = ln Z(j) = Cn (2.3.13)
n!
n=0

où Cn est le cumulant d’ordre n. On a C0 = ln(M0 ) = 0 ; C1 = M1 = x̄ ; C2 = M2 − M12 (variance définie


plus haut) et des formules similaires au-delà. Les cumulants Cn sont plus intéressants que les moments Mn .
Tout d’abord, ils donnent une information qui pour n > 1, est indépendante de la position de la moyenne
M1 : on le voit bien pour la variance C2 , et ceci reste vrai pour les n > 2. Ainsi, C3 est proportionnelle
à l’asymétrie de la distribution autour la moyenne, alors que M3 > 0 pour une distribution symétrique 9
autour de x̄ > 0. Mais surtout, l’intérêt principal pour les cumulants vient de ce qu’ils s’additionnent pour
des variables indépendantes. En effet, grâce à (2.3.3),
ˆ
F(j1 , j2 ) = ln( dx1 dx2 f (x1 , x2 )ej1 x1 +j2 x2 ) (2.3.14)
ˆ ˆ
= ln( dx1 f1 (x1 )ej1 x1 × dx2 f2 (x2 )ej2 x2 ) (2.3.15)
= F1 (j1 ) + F2 (j2 ) (2.3.16)

Puisque les fonctions génératrices sont additives, les cumulants le seront aussi. On a donc que la variance
d’une variable aléatoire Y = X1 + X2 + . . . XN , somme de N variables aléatoires indépendantes, est la somme
des variances de chaque variable Xi :

ln(hejY i) = F1 (j) + F2 (j) + . . . FN (j) (2.3.17)


2
= (C1 [X1 ] + . . . C1 [XN ])j + (C2 [X1 ] + . . . C2 [XN ])j /2 + . . . (2.3.18)
2
= C1 [Y ]j + C2 [Y ]j /2 + . . . (2.3.19)

Exercice 28. vérifier cette affirmation explicitement à partir de la définition de la variance (2.3.9).

Distribution de probabilité gaussienne de moyenne x̄ et d’écart-type σ :

1 (x−x̄)2
f (x) = √ e− 2σ2 (2.3.20)
σ 2π
La distribution cumulée associée est une fonction spéciale, liée à la fonction d’erreur, dont on trouve des
tables, ou des codes informatiques.

Exercice 29. montrer que les cumulants de cette distribution sont C1 = x̄, C2 = σ 2 , et Cn>2 = 0.

Théorème central limite : la distribution gaussienne prend une importance particulière, à cause du théo-
rème suivant : si une variable aléatoire X possède une distribution f (x) quelconque ( !) possédant une
moyenne et une variance finie, la somme de N telles variables indépendantes Y = X1 + X2 + . . . XN devient
gaussienne si N → ∞.
Ceci vient de ce que chaque cumulant Cn va croître comme N , et non comme N n (additivité des cumu-
lants !), et donc l’importance relative des cumulants supérieurs décroît avec N . Si par exemple
√ hXi =6 0,
on aura
√ hY i = N hXi, et la dispersion autour de cette moyenne sera donnée par σ Y = N σX (puisque
σ = C2 ), de sorte que l’erreur relative sur cette moyenne décroît comme hY i/σY ∼ N −1/2 . Ceci permet
une explication mathématique du phénomène de stabilisation de la fréquence relative mentionnée dans l’in-
troduction. Si hXi = 0, la variable Z = N −1/2 Y tendra pour grand N vers une gaussienne de moyenne nulle
et de même variance que X. En effet, les cumulants de Z Cn [Z] = N −n/2 Cn [Y ] = N 1−n/2 Cn [X] deviennent
négligeables pour n > 2.

9. cette symétrie se traduit par f (x) = f (2x̄ − x).

30