Vous êtes sur la page 1sur 662

Mécanique Quantique

Tome I. Histoires, bases et anciennes théories


I. Introduction
II. Histoire
III. Bases physiques
IV. La théorie de Bohr
V. L'expérience de Young
VI. Principes de base
Tome II. L'équation de Schrödinger
I. Hamiltonien
II. Equation de Schrödinger
III. Applications
IV. Etats liés
V. Théorie des collisions
VI. Formulation matricielle
Annexes
Tome III. Symétries et spin
I. Théorie des groupes
II. Symétries
III. Spin
IV. Particules identiques et spin
V. Physique statistique
VI. Formulation matricielle
Annexes
Tome IV. L'atome d'hydrogène, les atomes et la matière
I. Atomes et molécules
II. Rayonnement
III. Structure hyperfine
IV. Maser et Laser
V. Matière
VI. Le magnétisme
VII. Supraconductivité
Tome V. Mécanique quantique relativiste
I. Vers une équation d'onde relativiste
II. Equation de Dirac
III. Solutions
IV. Hydrogénoïdes
V. Théorie des trous
VI. Propagation et diffusion
Tome VI. Théories à variables cachées, théorèmes et décohérence
I. L'intrication quantique
II. Contextualité
III. Autres théorèmes
IV. Logique quantique
V. Applications
VI. Décohérence
VII. Théorie de Bohm
Tome VII. Interprétation de la mécanique quantique et classicalité
I. Introduction
II. Position du problème
III. Interprétations
IV. Expériences
V. Du quantique au classique
VI. Références

Tome III. Symétries et spin


I. Théorie des groupes
I.1. Groupes
I.1.1. Définition d'un groupe et propriétés de base
I.1.2. Quelques exemples de groupes
I.1.2.1. Le groupe trivial
I.1.2.2. Les entiers
n
I.1.2.3 Les réels et R
I.1.2.4. Nombres réels non nuls sous la multiplication
I.1.2.5. Nombres complexes non nuls sous la multiplication
I.1.2.6. Nombres complexes de valeur absolue égale à un sous la multiplication
I.1.2.7. Matrices inversibles
I.1.2.8. Groupe symétrique (groupe des permutations)
I.1.2.9. Entiers modulo n
I.1.3. Sous-groupes, centres et produits directs
I.1.3.1. Exemples
I.1.4. Homomorphismes et isomorphismes
I.1.4.1. Exemples
I.2. Groupes de Lie matriciels
I.2.1. Définition d'un groupe de Lie matriciel
I.2.1.1. Contre-exemples
I.2.2. Exemples de groupes de Lie matriciels
I.2.2.1. Les groupes linéaires généraux GL(n,R) et GL(n,C)
I.2.2.2. Les groupes linéaires spéciaux SL(n,R) et SL(n,C)
I.2.2.3. Le groupe orthonormal et le groupe orthonormal spécial O(n) et SO(n)
I.2.2.4. Le groupe unitaire et le groupe unitaire spécial U(n) et SU(n)
I.2.2.5. Les groupes orthogonaux complexes O(n,C) et SO(n,C)
I.2.2.6. Le groupe orthogonal généralisé et le groupe de Lorentz
I.2.2.7. Les groupes symplectiques Sp(n,R), Sp(n,C) et Sp(n)
I.2.2.8. Le groupe de Heisenberg H
∗ ∗ 1 n
I.2.2.9. Les groupes R , C , S , R et R
I.2.2.10. Le groupe euclidien et le groupe de Poincaré
I.2.3. Groupes compacts
I.2.3.1. Exemples de groupes compacts
I.2.3.2. Exemples de groupes non compacts
I.2.4. Groupes connexes
I.2.5. Groupes simplement connexes
I.2.6. Homomorphismes et isomorphismes
I.2.6.1. Exemples : SU(2) et SO(3)
I.2.7. Groupes de Lie
I.3. Algèbres de Lie et l'application exponentielle
I.3.1. L'exponentielle matricielle
I.3.2. Calcul de l'exponentielle d'une matrice
I.3.2.1. Cas 1 : X peut être diagonalisée
I.3.2.2. Cas 2 : X est nilpotente
I.3.2.3. Cas 3 : X arbitraire
I.3.2. Le logarithme matriciel
I.3.3. Propriétés supplémentaires de l'exponentielle matricielle
I.3.4. L'algèbre de Lie d'un groupe de Lie matriciel
I.3.4.1. Convention des physiciens
I.3.4.2. Les groupes linéaires généraux
I.3.4.3. Les groupes linéaires spéciaux
I.3.4.4. Les groupes unitaires
I.3.4.5. Les groupes orthogonaux
I.3.4.6. Les groupes orthogonaux généralisés
I.3.4.7. Les groupes symplectiques
I.3.4.8. Le groupe de Heisenberg
I.3.4.9. Le groupe euclidien et le groupe de Poincaré
I.3.5. Propriétés de l'algèbre de Lie
I.3.6. L'application exponentielle
I.3.7. Algèbres de Lie
I.3.7.1. Constantes de structure
I.3.8. La complexification d'une algèbre de Lie réelle
I.4. La formule de Baker-Campbell-Hausdorff
I.4.1. La formule de Baker-Campbell-Hausdorff pour le groupe de Heisenberg
I.4.2. La formule générale de Baker-Campbell-Hausdorff
I.4.2.1. Démonstration de la formule de Baker-Campbell-Hausdorff
I.4.3. La forme série de la formule de Baker-Campbell-Hausdorff
I.4.4. Sous-groupes et sous-algèbres
I.5. Théorie de base des représentations
I.5.1. Représentations
I.5.2. Pourquoi étudier les représentations ?
I.5.3. Exemples de représentations
I.5.3.1. La représentation standard
I.5.3.2. La représentation triviale
I.5.3.3. La représentation adjointe
I.5.3.4. Quelques représentations de SU(2)
I.5.3.5. Deux représentations unitaires de SO(3)
I.5.3.6. Une représentation unitaire des réels
I.5.3.7. Les représentations unitaires du groupe de Heisenberg réel
I.5.4. Les représentations irréductibles de su(2)
I.5.5. Sommes directes de représentations et réductibilité complète
I.5.6. Produits tensoriels de représentations
I.5.7. Lemme de Schur
I.5.8. Représentations des groupes contre représentations des algèbres de Lie
I.5.8.1. Proposition 5.31
I.5.8.2. Lemme 5.32
I.5.8.3. Théorème 5.33
I.5.8.4. Démonstration du théorème 5.33
I.5.9. Groupes de recouvrement
I.5.9.1. Exemples
I.6. Les représentations de SU(3) et au-delà
I.6.1. Préliminaires
I.6.2. Poids et racines
I.6.3. Poids les plus hauts et le théorème de classification
I.6.4. Démonstration du théorème de classification
I.6.4.1. Proposition 6.12
I.6.4.2. Proposition 6.14
I.6.4.3. Proposition 6.15
I.6.4.4. Proposition 6.16
I.6.4.5. Proposition 6.17
I.6.4.6. Proposition 6.18
I.6.4.7. Proposition 6.19
I.6.5. Un exemple : le poids le plus haut (1,1)
I.6.6. Le groupe de Weyl
I.6.6.1. Conclusions
I.6.7. Algèbres de Lie semi-simples complexes
I.6.7.1. Théorème 6.25
I.6.7.2. Théorème 6.31
I.6.7.3. Théorème 6.32
I.6.7.4. Théorème 6.33
II. Symétries
II.1. Différentes symétries
II.2. Symétries discrètes
II.3. Symétries et lois de conservation
II.3.1. Symétrie et conservation
II.3.2. Les lois de conservation
III. Spin
III.1. Spin un
III.1.1. Filtrage des atomes avec un appareil de Stern-Gerlach
III.1.2. Expériences avec des atomes filtrés
III.1.3. Filtres de Stern-Gerlach en série
III.1.4. Etats de base
III.1.5. Amplitudes en interférences
III.1.6. La machinerie de la mécanique quantique
III.1.7. Transformation dans une base différente
III.1.8. Autres situations
III.2. Spin un demi
III.2.1. Transformation des amplitudes
III.2.2. Transformation dans un système de coordonnées ayant subi une rotation
III.2.3. Rotations autour de l'axe z
III.2.4. Rotations de 180° et de 90° autour de y
III.2.5. Rotations autour de x
III.2.6. Rotations quelconques
III.3. Traitement général
III.3.1. Rotations, moment angulaire et groupes unitaires
III.3.2. Composition des états de moment angulaire et opérateurs tensoriels
III.4. Applications
III.4.1. La précession d'une particule de spin un demi
III.4.2. Les états de polarisation du photon
III.4.3. La lumière polarisée
III.4.4. La désintégration du lambda 0
III.4.5. Le rayonnement du dipôle électrique
III.4.6. Diffusion de la lumière
III.4.7. L'annihilation du positronium
III.4.8. La mesure du spin nucléaire
III.5. Symétries dynamiques
IV. Particules identiques et spin
IV.1. Particules identiques
IV.1.1. Collision entre particules identiques
IV.1.2. Particules de Bose et particules de Fermi
IV.1.3. Etats à deux particules de Bose
IV.1.4. Etats à n particules de Bose
IV.2. Description des particules identiques
IV.3. Moment angulaire de spin
IV.4. Opérateur densité et matrice densité
V. Physique statistique
V.1. Emission et absorption de photons
V.2. Le principe d'exclusion
V.3. Les diverses statistiques
V.3.1. Détermination des répartitions à l'équilibre
V.3.2. Probabilité thermodynamique : méthode d'évaluation
V.3.3. Statistique de Maxwell-Boltzmann
V.3.4. Statistiques quantiques
V.4. Statistique de Bose-Einstein
V.4.1. Modèle de Bose du rayonnement thermique
V.4.2. Loi de Planck. Rayonnement du corps noir
V.4.3. Aspects expérimentaux
V.4.4. Interaction entre matière et rayonnement
V.4.5. Gaz moléculaires parfaits de bosons
V.4.6. Condensation d'Einstein
V.5. L'hélium
V.5.1. Propriétés de l'hélium
V.5.2. Modèle de London et modèle de Tisza
V.5.3. Théorie de Landau
V.5.4. Superfluidité dans la théorie de Landau
V.5.5. Rotation de l'hélium. Tourbillons quantiques
V.5.6. Réfrigérateur à dilution
V.6. Statistique de Fermi-Dirac
V.6.1. Loi de répartition. Fonction de Fermi
V.6.2. Gaz parfaits de fermions
V.6.3. Propriétés des gaz de fermions en champ magnétique
V.6.4. Théorie élémentaire de la conduction dans les métaux

Tome III Symétries et spin


Nous allons nous attaquer maintenant à une partir fort importante de la mécanique quantique : les
symétries et le spin.

Les symétries ont un rôle majeur en physique. Elles ne permettent pas seulement de simplifier la
résolution des équations en permettant la présence de constantes du mouvement et en classant les
solutions (par exemple, la possibilité de séparer l'équation de Schrödinger en présence de la
symétrie sphérique). Elles ont aussi un rôle beaucoup plus profond. Elles ont un lien avec les lois
de conservation, jouent sur les grandes propriétés qualitatives des comportements quantiques et
permettent même de classer les particules en physique des particules.

Le spin est une des conséquences liées aux symétries. Le spin est une propriété typiquement
quantique reliée aux rotations et au moment angulaire. C'est une propriété pour lequel il est difficile
de trouver des équivalents classiques. Elle a pourtant un rôle déterminant en physique car le
comportement statistique des particules est relié à leur spin. De plus, chaque particule portant un
spin, il est totalement incontournable.

Nous allons commencer par une étude approfondie de la théorie des groupes. Cette théorie
mathématique est la reine de l'étude des symétries. Nous avons préféré une étude complète à une
simple introduction car de nombreux aspects de la théorie des groupes interviennent en physique et
son usage, extrêmement important, dépasse même largement ce cours.

Ensuite, nous attaquerons l'étude des symétries proprement dites. Cette étude nous mènera
directement au spin que nous aborderons progressivement par une analyse expérimentale avant de
généraliser et de donner l'ensemble des outils mathématiques se rapportant au spin.
L'étude des particules identiques permettra de mettre en lumière les propriétés statistiques de
particules et le lien avec le spin. Nous serons alors outillés pour aborder quelques applications.

I. Théorie des groupes


Ceci est une introduction à la théorie des groupes et plus spécifiquement à la théorie des groupes de
Lie et de leurs représentations. La théorie des groupes inclut aussi les groupes finis et d'autres
groupes que nous n'aborderons pas ici.

L'étude des groupes de Lie nécessite en principe la connaissance des variétés différentiables, qui est
un domaine mathématique déjà assez pointu. C'est pourquoi une approche utilisant uniquement les
représentations matricielles et préférable ici. Elle est aussi suffisante pour nos besoins.

Un groupe de Lie matriciel est simplement un sous-groupe fermé de GL(n,C) (que nous aurons
l'occasion de voir). Bien qu'ils soient souvent appelés simplement "groupes matriciels", cette
terminologie insiste sur le fait que tout groupe matriciel est un groupe de Lie.

Cette approche du sujet permet de commencer rapidement sur la théorie des groupes de Lie
proprement dite, avec un minimum de connaissances préalables. Puisque la plus part des exemples
intéressant des groupes de Lie sont des groupes de Lie matriciels, il n'y a pas trop de perte de
généralité. De plus, les preuves des principaux résultats sont ultimement similaires aux preuves
standards de la situation générale, mais avec moins de préparation.

Bien sûr, il y a un prix à payer et certaines constructions (par exemple les groupes de
recouvrement) qui sont faciles dans le cas des groupes de Lie sont problématiques dans le cas des
groupes matriciels (en effet, le recouvrement universel d'un groupe de Lie matriciel n'est pas
nécessairement un groupe de Lie matriciel). D'un autre coté, l'approche matricielle suffit pour un
premier cours. Quelqu'un projetant de faire des recherches dans la théorie des groupes de Lie à
certainement besoin d'apprendre l'approche des variétés, mais même pour de telles personnes, il
peut être utile de commencer avec une approche plus concrète. Et pour ceux dans les autres champs
qui désirent seulement apprendre les bases de la théorie des groupes de Lie, cette approche leur
permet de le faire rapidement.
Cette étude utilise aussi une approche atypique de la théorie des algèbres de Lie semi-simples, c'est
à dire que l'on commence avec un calcul détaillé des représentations de SL(3,C). La théorie des
sous algèbres de Cartan, les racines, les groupes de Weyl, etc. est assez difficiles à absorber en une
fois. Il est donc utile d'essayer de motiver ces constructions en montrant comment elles sont
utilisées dans la théorie des représentations de l'algèbre de Lie représentative la plus simple.

Dans le but de rendre cette étude accessible à la plus large audience possible, on a inclut une très
brève introduction des groupes abstraits. En fait, très peu de la théorie des groupes abstraits est
nécessaire, ainsi le rapide traitement qui est donné sera suffisant pour ceux qui n'ont jamais vu cette
matière avant.

I.1. Groupes

I.1.1. Définition d'un groupe et propriétés de base

DEFINITION 1.1.
Un groupe est un ensemble G avec une application de G × G dans G (notée g1 ∗ g 2 ) avec les
propriétés suivantes :
- Premièrement, associativité : pour tout g1 , g 2 , g 3 ∈ G ,
(1) g1 ∗ ( g 2 ∗ g 3 ) = ( g1 ∗ g 2 ) ∗ g 3
- Deuxièmement, il existe un élément e dans G tel que pour tout g ∈ G ,
(2) g ∗ e = e ∗ g = g
- Pour tout g ∈ G , il existe h ∈ G avec
(3) g ∗ h = h ∗ g = e

Si g ∗ h = h ∗ g pour tout g , h ∈ G , alors le groupe est dit être commutatif (ou abélien).

L'élément e est (comme nous le verrons dans un moment) unique et est appelé élément identité du
groupe ou simplement l'identité ou parfois élément neutre. Une partie de la définition d'un groupe
est que multiplier un élément g du groupe par l'identité ou bien à droite ou bien à gauche doit
redonner g.

L'application de G × G dans G est appelée l'opération produit pour le groupe ou multiplication (qui
peut être différente de la multiplication ordinaire) ou loi de composition interne. Une partie de la
définition d'un groupe G est que l'opération produit fait correspondre G × G sur G, c'est à dire que
le produit de deux éléments de G est également un élément de G. Cette propriété est appelée la
fermeture.

Etant donné un élément g du groupe, un élément h du groupe tel que g ∗ h = h ∗ g = e est appelé un
inverse de g. Nous verrons dans un moment que chaque élément du groupe a un inverse unique.

Etant donné un ensemble et une opération, il y a quatre choses qui doivent être contrôlées pour
montrer que c'est un groupe : fermeture, associativité, existence d'une identité et existence des
inverses.

PROPOSITION 1.2. (unicité de l'identité)


Soit un groupe G et soit e, f ∈ G tel que pour tout g ∈ G
e∗ g = g ∗e = g
(4)
f ∗g = g∗ f = g
Alors e = f.

DEMONSTRATION
Puisque e est une identité, nous avons
(5) e ∗ f = f
D'un autre coté, puisque f est une identité, nous avons
(6) e ∗ f = e
Donc e = e ∗ f = f .

PROPOSITION 1.3. (unicité des inverses)


Soit G un groupe, e l'identité (unique) de G et g, h, k des éléments arbitraires de G. Supposons que
g ∗h = h∗ g = e
(7)
g ∗k = k ∗ g = e
Alors h = k.

DEMONSTRATION
Nous savons que g ∗ j = g ∗ k (= e ) . En multipliant sur la gauche par j, cela donne
(8) h ∗ (g ∗ h ) = h ∗ ( g ∗ k )
Par associativité, cela donne
(9) (h ∗ g ) ∗ h = (h ∗ g ) ∗ k
et ainsi
e∗h = e∗k
(10)
h=k
C'est ce que nous voulions démontrer.

PROPOSITION 1.4.
Soit G un groupe, e l'élément identité de G et g un élément arbitraire de G. Supposons que h ∈ G
satisfait ou bien h ∗ g = e ou bien g ∗ h = e . Alors, h est l'inverse (unique) de g.

DEMONSTRATION
Pour montrer que h est l'inverse de g, nous devons montrer que h ∗ g = e et g ∗ h = e . Supposons
que nous sachions que, disons, h ∗ g = e . Alors notre but est de montrer que cela implique que
g ∗h = e.

Puisque h ∗ g = e ,
(11) g ∗ (h ∗ g ) = g ∗ e = g
Par associativité, nous avons
(12) ( g ∗ h ) ∗ g = g
Maintenant, suivant la définition d'un groupe, g a un inverse. Soit k cet inverse (bien sûr, à la fin,
nous conclurons que k = h, mais nous ne pouvons pas supposer cela maintenant).
En multipliant sur la droite par k et en utilisant l'associativité à nouveau, cela donne
((g ∗ h ) ∗ g ) ∗ k = g ∗ k = e
(g ∗ h ) ∗ (g ∗ k ) = e
(13)
(g ∗ h ) ∗ e = e
g ∗h = e

Un argument similaire montre que si g ∗ h = e , alors h ∗ g = e .

Notez qu'afin de montrer que h ∗ g = e implique g ∗ h = e , nous avons utilisé le fait que g a un
inverse, puisque c'est un élément du groupe. Dans un contexte plus général (c'est à dire dans un
certain système qui n'est pas un groupe), on peut avoir h ∗ g = e sans avoir g ∗ h = e .

NOTATION 1.5.
Pour tout élément g du groupe, son unique inverse sera noté g −1 .

PROPOSITION 1.6. (propriétés des inverses)


Soit G un groupe, e son identité et g, h des éléments arbitraires de G. Alors
(g )
−1 −1
=g
(14) ( gh ) = h −1 g −1
−1

e −1 = e

Exercices
1. Démontrez la relation (14) de la section I.1.1.
I.1.2. Quelques exemples de groupes
A partir de maintenant, nous noterons le produit de deux éléments g1 et g 2 du groupe simplement
par g1 g 2 , au lieu de la notation plus encombrante g1 ∗ g 2 . De plus, puisque nous avons
l'associativité, nous écrirons simplement g 1 g 2 g 3 au lieu de ( g 1 g 2 )g 3 ou g1 ( g 2 g 3 ) .

I.1.2.1. Le groupe trivial


L'ensemble avec un seul élément, e, est un groupe, avec l'opération de groupe définie comme
ee = e . Ce groupe est commutatif.

L'associativité est automatique puisque e(ee) = ee = (ee)e . Bien sûr, e lui-même est l'identité et son
propre inverse. La commutativité est aussi automatique.

I.1.2.2. Les entiers


L'ensemble Z des entiers forme un groupe avec l'addition comme opération produit. Ce groupe est
commutatif.

Premièrement, nous contrôlons la fermeture, c'est à dire que l'addition fait correspondre Z × Z sur
Z, c'est à dire que la somme de deux entiers est un entier. Puisque c'est évident, il reste seulement à
contrôler l'associativité, l'identité et les inverses. L'addition est associative. Le zéro est l'identité
additive (c'est à dire que 0 + n = n + 0 = n pour tout n ∈ Z ). Chaque entier n a un inverse additif,
c'est à dire − n . Puisque l'addition est commutative, Z est un groupe commutatif.

I.1.2.3. Les réels et R n


L'ensemble R des nombres réels forme aussi un groupe sous l'opération d'addition. Ce groupe est
commutatif. De même, l'espace euclidien à n dimensions R n forme un groupe sous l'opération
d'addition vectorielle. Ce groupe est aussi commutatif.

La vérification est la même que pour les entiers.


I.1.2.4. Nombres réels non nuls sous la multiplication
L'ensemble des nombres réels non nuls forme un groupe par rapport à l'opération de multiplication.
Ce groupe est commutatif.

A nouveau nous contrôlons la fermeture : le produit de deux nombres réels non nuls est un nombre
réel non nul. La multiplication est associative. Un est l'identité multiplicative. Chaque nombre réel
non nul x a un inverse multiplicatif, c'est à dire 1 / x . Puisque la multiplication des réels est
commutative, c'est un groupe commutatif.

Ce groupe est noté R ∗ .

I.1.2.5. Nombres complexes non nuls sous la multiplication


L'ensemble des nombres complexes non nuls forme un groupe par rapport à l'opération de
multiplication complexe. Ce groupe est commutatif.

Ce groupe est noté C ∗ .

I.1.2.6. Nombres complexes de valeur absolue égale à un sous la


multiplication
L'ensemble des nombres complexes avec la valeur absolue égale à un (c'est à dire de la forme e iθ )
forme un groupe sous la multiplication complexe. Ce groupe est commutatif.

Ce groupe est le cercle unité, noté S 1 .

I.1.2.7. Matrices inversibles


Pour chaque entier positif n, l'ensemble de toutes les matrices inversibles n × n avec des éléments
réels forme un groupe par rapport à l'opération de multiplication matricielle. Ce groupe est non
commutatif pour n ≥ 2 .
Nous contrôlons la fermeture : le produit de deux matrices inversibles est inversible, puisque
( AB )−1 = B −1 A −1 . La multiplication matricielle est associative. La matrice identité (avec des uns sur
la diagonale, zéro partout ailleurs) est l'élément identité. Par définition, une matrice inversible a un
inverse. Des exemples simples montrent que le groupe est non commutatif, excepté dans le cas
trivial n = 1.

Ce groupe est appelé le groupe linéaire général (sur les réels) et est noté GL(n,R).

I.1.2.8. Groupe symétrique (groupe des permutations)


L'ensemble des applications bijectives de l'ensemble {1,2,K, n} sur lui-même forme un groupe sous
l'opération de composition. Ce groupe est non commutatif pour n ≥ 3 .

Nous contrôlons la fermeture : la composition de deux applications bijectives est à nouveau une
application bijective. La composition des fonctions est associative. L'application identité (qui
envoie 1 sur 1, 2 sur 2, etc.) est l'élément identité. Une application bijective a un inverse. Des
exemples simples montrent que le groupe est non commutatif aussi longtemps que n vaut au moins
3.

Ce groupe est appelé le groupe symétrique et est noté S n . Une application bijective de {1,2,K, n}
est une permutation et ainsi S n est aussi appelé le groupe des permutations. Le groupe S n a n!
éléments.

I.1.2.9. Entiers modulo n


L'ensemble {0,1,K, n − 1} forme un groupe sous l'opération d'addition mod n . Ce groupe est
commutatif.

Explicitement, l'opération de groupe est la suivante Considérons a, b ∈ {0,1,K, n − 1} . Si a + b < n ,


alors a + b mod n = a + b , si a + b ≥ n , alors a + b mod n = a + b − n (puisque a et b sont inférieur à
n, donc nous avons la fermeture). Pour montrer l'associativité, notons que (a + b mod n ) + c mod n
et a + (b + c mod n) mod n sont tous les deux égal à a + b + c moins un certain multiple de n et donc
différents par un multiple de n. Puisque les deux sont dans l'ensemble {0,1,K, n − 1} , le seul
multiple possible de n est zéro. Zéro est encore l'identité pour l'addition mod n . L'inverse d'un
élément a ∈ {0,1,K, n − 1} est n − a . Le groupe est commutatif car l'addition ordinaire est
commutative.

Ce groupe est appelé " Z mod n " et est noté Z n .

Exercices
1. Contrôlez que n − a est dans {0,1,K, n − 1} et que a + (n − a ) mod n = 0 .

I.1.3. Sous-groupes, centres et produits directs

DEFINITION 1.7.
Un sous-groupe d'un groupe G est un sous-ensemble H de G avec les propriétés suivantes :
1. L'identité est un élément de H.
2. Si h ∈ H , alors h −1 ∈ H .
3. Si h1 , h2 ∈ H , alors h1 h2 ∈ H .

Les conditions sur H garantissent que H est un groupe avec la même opération produit que G (mais
restreinte à H). La fermeture est assurée par (3), l'associativité suit de l'associativité de G, et
l'existence de l'identité et des inverses est assurée par (1) et (2).

I.1.3.1. Exemples
Tout groupe G a au moins deux sous groupes : G lui-même et le sous-groupe à un élément {e} (si G
lui-même est le groupe trivial, alors ces deux sous-groupes coïncident). Ils sont appelés les sous-
groupes triviaux de G.

L'ensemble des entiers pairs est un sous groupe de Z : zéro est pair, le négatif d'un entier pair est
pair et la somme de deux entiers pairs est paire.
L'ensemble H des matrices réelles n × n avec un déterminant unité est un sous-groupe de GL(n,R).
L'ensemble H est un sous-ensemble de GL(n,R) car toute matrice avec un déterminant unité est
inversible. La matrice identité a un déterminant unité, ainsi la première condition est satisfaite. Le
déterminant de l'inverse est l'inverse du déterminant, ainsi la deuxième condition est satisfaite. Et le
déterminant d'un produit est le produit des déterminants, ainsi la troisième condition est satisfaite.
Ce groupe est appelé groupe linéaire spécial (sur les réels) et est noté SL(n,R).

DEFINITION 1.8.
Le centre d'un groupe G est l'ensemble de tous les g ∈ G tel que gh = hg pour tout h ∈ G .

Il n'est pas difficile de voir que le centre de tout groupe G est un sous-groupe de G.

DEFINITION 1.9.
Soit G et H des groupes, et considérons le produit cartésien de G et H, c'est à dire l'ensemble des
paires ordonnées ( g , h ) avec g ∈ G et h ∈ H . Définissons une opération produit sur cet ensemble
comme suit :
(1) ( g1 , h1 )( g 2 , h2 ) = ( g1 g 2 , h1h2 )

Cette opération fait du produit Cartésien de G et H un groupe, appelé le produit direct de G et H et


noté G × H .

Il est assez simple de contrôler que cette opération fait réellement de G × H un groupe. Par
exemple, l'élément identité de G × H est la paire (e1 , e2 ) où e1 est l'identité pour G et e2 est
l'identité pour H.

I.1.4. Homomorphismes et isomorphismes

DEFINITION 1.10.
Soit G et H des groupes. Une application φ : G → H est appelée un homomorphisme si
φ (g1 g 2 ) = φ (g1 )φ (g 2 ) pour tout g1 , g 2 ∈ G . Si en plus, φ est une application bijective, alors φ est
appelée un isomorphisme. Un isomorphisme d'un groupe avec lui-même est appelé un
automorphisme.

PROPOSITION 1.11.
Soit G et H des groupes, e1 l'élément identité de G et e2 l'élément identité de H. Si φ : G → H est
( )
un homomorphisme, alors φ (e1 ) = e2 et φ g −1 = φ ( g ) pour tout g ∈ G .
−1

DEMONSTRATION.
Soit g un élément de G. Alors φ ( g ) = φ ( ge1 ) = φ ( g )φ (e1 ) . En multipliant sur la gauche par φ (g ) ,
−1

( )
cela donne e2 = φ (e1 ) . Considérons maintenant φ g −1 . Puisque φ (e1 ) = e2 , nous avons
(
e2 = φ (e1 ) = φ gg −1
) = φ (g )φ (g ) . Selon la proposition 1.4, nous en concluons que φ (g ) est
−1 −1

l'inverse de φ ( g ) .

DEFINITION 1.12.
Soit G et H des groupes, φ : G → H un homomorphisme et e2 l'élément identité de H. Le noyau de
φ est l'ensemble de tous les g ∈ G pour lesquels φ (g ) = e2 .

PROPOSITION 1.13.
Soit G et H des groupes et φ : G → H un homomorphisme. Alors le noyau de φ est un sous-
groupe de G.

La démonstration est facile.

I.1.4.1. Exemples
Etant donné deux groupes G et H, nous avons l'homomorphisme trivial de G vers H : φ ( g ) = e pour
tout g ∈ G . Le noyau de cet homomorphisme est la totalité de G.
Dans tout groupe G, l'application identité ( id ( g ) = g ) est un automorphisme de G dont le noyau est
{e}.
Soit G = H = Z , et définissons φ (n ) = 2n . C'est un homomorphisme de Z sur lui-même mais pas
un automorphisme (car l'image de Z est seulement un sous-ensemble de Z). Le noyau de cet
homomorphisme est {0} .

Le déterminant est un homomorphisme de GL(n,R) vers R ∗ . Le noyau de cette application est


SL(n,R).

S'il existe un isomorphisme de G vers H, alors G et H sont dit être isomorphe et cette relation est
notée G ≅ H . Deux groupes qui sont isomorphes devraient être vus comme étant (pour tout usage
pratique) le même groupe.

Exercices
Rappelez les définitions des groupes GL(n, R), S n , R ∗ , Z n et SL(n,R).

1. Montrez que le centre de tout groupe G est un sous-groupe de G.


2. Dans (a)-(f), vous avez un groupe G et un sous-ensemble H de G. Dans chaque cas, déterminez
si est H un sous-groupe de G.
(a) G = Z, H = {entiers impairs}
(b) G = Z, H = {multiples de 3}
(c) G = GL(n,R), H = {A ∈ GL(n, R ) | det A est un entier}
(d) G = SL(n, R), H = {A ∈ SL(n, R ) | tous les éléments de A sont des entiers}
Suggestion : rappelez les règles de Kramer pour trouver l'inverse d'une matrice.
(e) G = GL(n,R), H = {A ∈ GL(n, R ) | tous les éléments de A sont rationnels}
(f) G = Z 9 , H = {0, 2, 4, 6, 8}
3. Vérifiez les propriétés des inverses de la proposition 1.6.
4. Soit G et H des groupes. Supposons qu'il existe un isomorphisme φ de G vers H. Montrez qu'il
existe un isomorphisme de H vers G.
5. Montrez que l'ensemble des nombres réels positifs est un sous-groupe de R ∗ . Montrez que ce
groupe est isomorphe au groupe R.
6. Montrez que l'ensemble des automorphismes de tout groupe G est lui-même un groupe sous
l'opération de composition. Ce groupe est le groupe d'automorphismes de G, Aut(G).
7. Etant donné tout groupe G et tout élément g de G, définissons φ g : G → G par φ g (h ) = ghg −1 .
Montrez que φ g est un automorphisme de G. Montrez que l'application g → φ g est un
homomorphisme de G vers Aut(G) et que le noyau de cette application est le centre de G.
Note : Un automorphisme qui peut être exprimé comme φ g pour certains g ∈ G est appelé un
automorphisme intérieur. Tout automorphisme de G qui n'est égal à aucun φ g est appelé un
automorphisme extérieur.
8. Donnez un exemple de deux matrices réelles inversibles 2x2 qui ne commutent pas (cela
montre que GL(2,R) est non commutatif).
9. Montrez que dans tout groupe G, le centre de G est un sous-groupe.
10. Un élément σ du groupe des permutations S n peut être écrit sous une forme à deux lignes,
1 2 L n
σ =  
σ 1 σ 2 L σ n 
où σ i dénote σ (i ) . Donc
 1 2 3
σ =  
 2 3 1
est l'élément de S 3 qui envoie 1 vers 2, 2 vers 3 et 3 vers 1. Quand on multiplie (c'est-à-dire
quand on compose) deux permutations, on effectue celle sur la droite d'abord et ensuite celle sur
la gauche (c'est la convention usuelle pour la composition de fonctions).

Calculez
 1 2 3 1 2 3 
  
 2 1 3 1 3 2 
et
1 2 3  1 2 3 
  
 1 3 2  2 1 3 

Concluez-en que S 3 n'est pas commutatif.


11. Considérez l'ensemble N = {0, 1, 2, …} des nombres naturels et l'ensemble F de toutes les
fonctions de N sur lui-même. La composition des fonctions définit une application de F × F
vers F qui est associative. L'identité (id(n) = n) a la propriété que id o f = f o id = f pour tout
f dans F . Cependant, puisque nous ne nous restreignons pas aux fonctions qui sont des
applications bijectives, tous les éléments de F n'ont pas un inverse. Donc F n'est pas un
groupe.

Donnez un exemple de deux fonctions f, g dans F tel que f o g = id mais g o f ≠ id


(comparez avec la proposition 1.4).
12. Considérez les groupes Z et Z n . Pour chaque a dans Z, définissons a mod n comme l'élément
unique b de {0, 1, …, n - 1} tel que a peut être écrit comme a = kn + b avec k un entier.
Montrez que l'application a → a mod n est un homomorphisme de Z vers Z n .
13. Soit G un groupe et H un sous-groupe de G. H est appelé un sous-groupe normal de G si pour
tout g ∈ G et h ∈ H donnés, ghg −1 est dans H.

Montrez que tout sous-groupe d'un groupe commutatif est normal. Montrez que dans tout
groupe G, les sous-groupes triviaux G et {e} sont normaux. Montrez que le centre de tout
groupe est un sous-groupe normal. Montrez que si φ est un homomorphisme de G vers H, alors
le noyau de φ est un sous-groupe normal de G.

Montrez que SL(n,R) est un sous-groupe normal de GL(n,R).

Note : un groupe G sans sous-groupe normal autre que G et {e} est appelé simple.
I.2. Groupes de Lie matriciels

I.2.1. Définition d'un groupe de Lie matriciel


Rappelons que le groupe linéaire général sur les réels, noté GL(n,R), est le groupe de toutes les
matrices inversibles n × n avec des éléments réels. Nous pouvons de même définir GL(n,C) comme
le groupe de toutes les matrices inversibles n × n avec des éléments complexes. Bien sûr, GL(n,R)
est contenu dans GL(n,C).

DEFINITION 2.1.
Un groupe de Lie matriciel est un sous-groupe H de GL(n,C) avec la propriété suivante : si An est
toute suite de matrice dans H et que An converge vers une certaine matrice A, alors ou bien A ∈ H
ou bien A n'est pas inversible.

La condition sur H revient à dire que H est un sous-ensemble fermé de GL(n,C) (ce n'est pas la
même chose que de dire que H est fermé dans l'espace de toutes les matrices). Donc la définition
2.1. est équivalente à dire qu'un groupe de Lie matriciel est un sous-groupe fermé de GL(n,C).

La condition que H est un sous-groupe fermé, par opposition à simplement un sous-groupe, peut
être vue comme technique, car la plus par des sous-groupes intéressant de GL(n,C) ont cette
propriété (la plus part des groupes de Lie matriciels H que nous considérerons ont la propriété plus
forte que si An est une suite de matrice dans H, et que An converge vers une certaine matrice A,
alors A ∈ H ).

Il y a une structure topologique sur l'ensemble des matrices complexes n × n qui a avoir avec la
notion de convergence ci-dessus. Cette structure topologique est définie en identifiant l'espace des
matrices n × n avec C n d'une manière évidente et en utilisant la structure topologique usuelle sur
2

2
Cn .
I.2.1.1. Contre-exemples
Un exemple de sous-groupe de GL(n,C) qui n'est pas fermé (et donc n'est pas un groupe de Lie
matriciel) est l'ensemble de toutes les matrices n × n inversibles dont les éléments sont réels et
rationnels. C'est en fait un sous-groupe de GL(n,C) mais pas un sous-groupe fermé. C'est à dire que
l'on peut avoir (facilement) une suite de matrices inversibles avec des éléments rationnels
convergeant vers une matrice inversible avec certains éléments irrationnels (en fait, toute matrice
inversible réelle est la limite d'une certaine suite de matrices inversibles avec des éléments
rationnels).

Un autre exemple d'un groupe de matrices qui n'est pas un groupe de Lie matriciel est le sous-
groupe suivant de GL(2,C). Soit a un nombre réel irrationnel et posons
 e it 0  
(1) H =   | t ∈ R 
ita 
 0 e  

Clairement, H est un sous-groupe de GL(2,C). Comme a est irrationnel, la matrice -I n'est pas dans
H, puisque pour rendre e it égal à -1, nous devons prendre t comme un multiple entier impair de π .
D'un autre coté, en prenant t = (2n + 1)π pour un entier n convenablement choisi, nous pouvons
rendre ta arbitrairement proche d'un multiple entier impair de π (la vérification est laissée au
lecteur). Donc, nous pouvons trouver dans une suite de matrices qui converge vers -I et ainsi H
n'est pas un groupe de Lie matriciel.

I.2.2. Exemples de groupes de Lie matriciels


Maîtriser le sujet des groupes de Lie implique non seulement d'apprendre la théorie générale, mais
aussi de se familiariser avec les exemples. Dans cette section, nous introduisons quelque uns des
plus importants exemples de groupes de Lie (matriciels).

I.2.2.1 Les groupes linéaires généraux GL(n,R) et GL(n,C)


Les groupes linéaires généraux (sur R ou C) sont eux-mêmes des groupes de Lie matriciels. Bien
sûr, GL(n,C) est un sous-groupe de lui-même. De plus, si An est une suite de matrices dans
GL(n,C) et que An converge vers A, alors par la définition de GL(n,C), ou bien A est dans
GL(n,C), ou bien A n'est pas inversible.

De plus, GL(n,R) est un sous-groupe de GL(n,C), et si An ∈ GL(n, R ) , et que An converge vers A,


alors les éléments de A sont réels. Donc A est non inversible ou bien A ∈ GL(n, R ) .

I.2.2.2. Les groupes linéaires spéciaux SL(n,R) et SL(n,C)


Le groupe linéaire spécial (sur R ou C) est le groupe des matrices inversibles n × n (avec des
éléments réels ou complexes) ayant un déterminant égal à l'unité. Les deux sont des sous-groupes
de GL(n,C). De plus, si An et une suite de matrices avec un déterminant égal à l'unité et que An
converge vers A, alors A a aussi un déterminant égal à l'unité. Car le déterminant est une fonction
continue. Donc, SL(n,R) et SL(n,C) sont des groupes de Lie matriciels.

I.2.2.3. Le groupe orthogonal et le groupe orthogonal spécial O(n) et


SO(n)
Une matrice A réelle n × n est dite être orthogonale si les vecteurs colonnes qui constituent A sont
orthonormaux, c'est à dire si
n
(1) ∑A
i =1
ij Aik = δ jk

De manière équivalente, A est orthogonal si elle préserve le produit scalaire, c'est à dire si
x, y = Ax, Ay pour tous vecteurs x, y dans R n (les crochets dénotent le produit scalaire usuel
sur R n , x, y = ∑i xi y i ). Encore une autre définition équivalente est que A est orthogonal si
( )
A tr A = I , c'est à dire si A tr = A −1 ( A tr est la transposée de A, A tr ij = A ji ).

Puisque det A tr = det A , nous voyons que si A est orthogonal, alors det (A tr A) = (det A) = det I = 1 .
2

Donc, det A = ±1 pour toutes les matrices orthogonales A.


Cette formule nous dit, en particulier, que toute matrice orthogonale doit être inversible. Mais si A
est une matrice orthogonale, alors
( ) ( )
(2) A −1 x, A −1 y = A A −1 x , A A −1 y = x, y

Donc l'inverse d'une matrice orthogonale est orthogonale. De plus, le produit de deux matrices
orthogonales est orthogonal, puisque si A et B préservent tous les deux le produit scalaire, alors
aussi AB. Donc, l'ensemble des matrices orthogonales forme un groupe.

L'ensemble de toutes les matrices orthogonales réelles n × n est le groupe orthogonal O(n) et est un
sous-groupe de GL(n,C). La limite d'une suite de matrices orthogonales est orthogonale, car la
relation A tr A = I est préservée sous les limites. Donc O(n) est un groupe de Lie matriciel.

L'ensemble des matrices orthogonales n × n avec un déterminant unité est le groupe orthogonal
spécial SO(n). Clairement, c'est un sous-groupe de O(n) et donc de GL(n,C). De plus, à la fois
l'orthogonalité et la propriété d'avoir un déterminant unité sont préservés sous les limites, et ainsi
SO(n) est un groupe de Lie matriciel. Puisque les éléments de O(n) ont déjà un déterminant égal à
± 1 , SO(n) est "la moitié" de O(n).

Géométriquement, les éléments de O(n) sont ou bien des rotations, ou bien des combinaisons de
rotations et de réflexions. Les éléments de SO(n) sont seulement les rotations.

I.2.2.4. Le groupe unitaire et le groupe unitaire spécial U(n) et SU(n)


Une matrice complexe A est dite unitaire si les vecteurs colonnes de A sont orthonormaux, c'est à
dire si
n
(1) ∑A
i =1

ij Aik = δ jk

De manière équivalente, A est unitaire si elle préserve le produit scalaire, c'est à dire si
x, y = Ax, Ay pour tous vecteurs x, y dans C n (les crochets dénotent ici le produit scalaire sur
C n , x, y = ∑i xi∗ y i . Nous adopterons la convention de mettre le conjugué complexe sur la
gauche). Encore une autre définition équivalente est que A est unitaire si A + A = I , c'est-à-dire si
A + = A −1 , ce que nous avions déjà rencontré.

( )
Puisque det A + = (det A) , nous voyons que si A est unitaire, alors det A + A = det A = det I = 1 .
∗ 2

Donc det A = 1 pour toutes les matrices unitaires A.

Cela montre en particulier que toute matrice unitaire est inversible. Le même argument que pour le
groupe orthogonal montre que l'ensemble des matrices unitaires forme un groupe.

L'ensemble de toutes les matrices unitaires n × n est le groupe unitaire U(n) et est un sous-groupe
de GL(n,C). La limite de matrices unitaires est unitaire, ainsi U(n) est un groupe de Lie matriciel.
L'ensemble des matrices unitaires avec un déterminant unité est le groupe unitaire spécial SU(n). Il
est facile de contrôler que SU(n) est un groupe de Lie matriciel. Notez qu'une matrice unitaire peut
avoir un déterminant égal à e iθ pour tout θ , et ainsi SU(n) est un plus petit sous-ensemble de U(n)
que SO(n) l'est de O(n) (spécifiquement, SO(n) a la même dimension que O(n), tandis que SU(n) a
une dimension de moins que U(n)).

I.2.2.5. Les groupes orthogonaux complexes O(n,C) et SO(n,C)


Considérons la forme bilinéaire ( ) sur C n définie par ( x, y ) = ∑ xi yi . Cette forme n'est pas un
produit scalaire à cause de l'absence d'un complexe conjugué dans la définition. L'ensemble de
toutes les matrices complexes n × n A qui préserve cette forme (c'est à dire tel que ( Ax, Ay ) = ( x, y )
pour tous x, y ∈ C n ), est le groupe orthogonal complexe O(n,C) et est un sous-groupe de GL(n,C)
(la démonstration est la même que pour O(n)). Une matrice complexe n × n est dans O(n,C) si et
seulement si A tr A = I . Il est facile de montrer que O(n,C) est un groupe de Lie matriciel et que
det A = ±1 pour tout A dans O(n,C). Notons que O(n,C) n'est pas le même que le groupe unitaire
U(n). Le groupe SO(n,C) est définit par l'ensemble de tout A dans O(n,C) avec det A = 1 . Alors
SO(n,C) est aussi un groupe de Lie matriciel.
I.2.2.6. Le groupe orthogonal généralisé et le groupe de Lorentz
Soit n et k des entiers positifs et considérons R n + k . Définissons une forme bilinéaire symétrique
[ n,k ] sur R n+k par la formule
(1) [x, y ]n ,k = x1 y1 + L + x n y n − x n +1 y n +1 − L − x n + k y n + k

L'ensemble des matrices réelles (n + k ) × (n + k ) A qui préserve cette forme (c'est à dire telles que
[Ax, Ay ]n,k = [x, y ]n,k
pour tout x, y ∈ R n + k ) est le groupe orthogonal généralisé O(n;k) et est un
sous-groupe de GL(n+k,R). Puisque O(n;k) et O(k;n) sont essentiellement le même groupe, nous
restreindrons notre attention aux cas n ≥ k . Il n'est pas difficile de contrôler que O(n;k) est un
groupe de Lie matriciel.

Si A est une matrice réelle (n + k ) × (n + k ) , soit A (i ) le vecteur colonne i de A, c'est à dire


 A1,i 
(i )
 
(2) A = M 
A 
 n + k ,i 

Alors A est dans O(n;k) si et seulement si les conditions suivantes sont satisfaites :
[ ]
A (i ) , A ( j ) n , k = 0 i≠ j
(3) [A ( ) , A ( ) ]
i i
n ,k =1 1≤ i ≤ n
[A( ) , A( ) ]
i i
n ,k = −1 n +1 ≤ i ≤ n + k

Soit g la matrice diagonale (n + k ) × (n + k ) avec les n premiers éléments diagonaux égaux à un, et
les k derniers éléments diagonaux égaux à moins un. Alors A est dans O(n;k) si et seulement si
Atr gA = g . En prenant le déterminant de cette équation, cela donne (det A) det g = det g ou
2

(det A)2 = 1 . Donc pour tout A dans O(n;k), det A = ±1 .


Le groupe SO(n;k) est définit comme l'ensemble des matrices dans O(n;k) avec det A = 1 . C'est un
sous-groupe de GL(n+k,R) et c'est un groupe de Lie matriciel.

Particulièrement intéressant en physique est le groupe de Lorentz O(3;1) (quelque fois, la phrase
groupe de Lorentz est utilisée plus généralement pour se référer au groupe O(n,1) pour tout n ≥ 1 ).

I.2.2.7. Les groupes symplectiques Sp(n,R), Sp(n,C) et Sp(n)


Les groupes linéaires spéciaux et généraux, les groupes orthogonaux et unitaires et les groupes
symplectiques (que nous définirons dans un instant) forment les groupes classiques. Parmi les
groupes classiques, les groupes symplectiques ont la définition la plus confuse, partiellement parce
qu'il y a trois ensembles d'entre eux (Sp(n;R), Sp(n;C) et Sp(n)) et partiellement parce qu'ils
impliquent des formes bilinéaires antisymétriques plutôt que des formes bilinéaires symétriques
plus familières. Pour ajouter à la confusion, les notations pour indiquer ces groupes ne sont pas
consistantes d'un auteur à l'autre.

Considérons la forme bilinéaire antisymétrique B sur R 2 n définie comme suit :


n
(1) B[x, y ] = ∑ xi y n +i − x n + i yi
i =1

L'ensemble de toutes les matrices 2n × 2n A qui préserve B (c'est à dire tel que B[Ax, Ay ] = B[x, y ]
pour tout x, y ∈ R 2 n ) est le groupe symplectique réel Sp(n,R) et est un sous-groupe de GL(2n,R). Il
n'est pas difficile de contrôler que c'est un groupe de Lie matriciel. Ce groupe apparaît
naturellement dans l'étude de la mécanique classique. Si J est la matrice 2n × 2n
 0 I
(2) J =  
 − I 0

alors B[x, y ] = x, Jy et il est possible de contrôler qu'une matrice réelle 2n × 2n A est dans
Sp(n;R) si et seulement si Atr JA = J . En prenant le déterminant de cette identité, cela donne
(det A)2 det J = det Jou (det A) = 1 . Cela montre que det A = ±1 pour tout A ∈ Sp(n; R ) . En fait,
2

det A = 1 pour tout A ∈ Sp(n; R ) , bien que ce ne soit pas évident.

On peut définir une forme bilinéaire sur C 2 n avec la même formule (1) (cette forme est bilinéaire,
non hermitique et n'implique pas de complexe conjugué). L'ensemble des matrices complexes
2n × 2n qui préserve cette forme est le groupe symplectique complexe Sp(n,C). Une matrice
complexe 2n × 2n A est dans Sp(n,C) si et seulement si Atr JA = J (notons que cette condition
implique A tr , pas A + ). Cette relation montre que det A = ±1 pour tout A ∈ Sp(n, C ) . En fait,
det A = 1 pour tout A ∈ Sp(n, C ) .

Finalement, nous avons le groupe symplectique compact Sp(n) définit comme


(3) Sp(n ) = Sp(n; C ) ∩ U (2n )

I.2.2.8. Le groupe de Heisenberg H


L'ensemble de toutes les matrices réelles 3 × 3 A de la forme
1 a b
 
(1) A =  0 1 c 
 0 0 1
 
où a, b et c sont des nombres réels arbitraires, est le groupe de Heisenberg. Il est facile de contrôler
que le produit de deux matrices de la forme (1) est encore de cette forme et, clairement, la matrice
identité est de la forme (1). De plus, un calcul direct montre que si A est comme (1), alors
 1 − a ac − b 
 
(2) A −1 =  0 1 −c 
0 0 1 

Donc, H est un sous-groupe de GL(3,R). Clairement, la limite de matrices de la forme (1) est
encore de cette forme et ainsi H est un groupe de Lie matriciel.
Il n'est pas évident pour le moment de voir pourquoi ce groupe est appelé le groupe de Heisenberg.
Nous verrons plus tard que l'algèbre de Lie de H donne une réalisation des relations de
commutation de Heisenberg de la mécanique quantique.

I.2.2.9. Les groupes R ∗ , C ∗ , S 1 , R et R n


Plusieurs groupes importants qui ne sont pas naturellement des groupes de matrices peuvent (et le
seront ici) être vu comme tels.

Le groupe R ∗ des nombres réels non nuls sous la multiplication est isomorphe à GL(1,R). Donc,
nous regarderons R ∗ comme un groupe de Lie matriciel. De même, le groupe C ∗ des nombres
complexes non nuls sous la multiplication est isomorphe à GL(1,C) et le groupe S 1 des nombres
complexes avec une valeur absolue égale à un est isomorphe à U(1).

Le groupe R sous l'addition est isomorphe à GL(1, R ) (les matrices réelles 1 × 1 avec un
+

[ ]
déterminant positif) via l'application x → e x . Le groupe R n (avec l'addition vectorielle) est
isomorphe aux groupes des matrices réelles diagonales avec les éléments diagonaux positifs, via
l'application
 e x1 0 
 
(1) ( x1 , K , x n ) →  O 
 xn 
 0 e 

I.2.2.10. Le groupe euclidien et le groupe de Poincaré


Le groupe euclidien E(n) est par définition le groupe de toutes les applications bijectives préservant
les distances de R n vers lui-même, c'est à dire les applications f : R n → R n telles que
d ( f ( x ), f ( y )) = d ( x, y ) pour tout x, y ∈ R n . Ici d est la distance usuelle sur R n , d ( x, y ) = x − y .
Notez que nous ne supposons rien sur la structure de f en dehors de la propriété ci-dessus. En
particulier, f n'a pas besoin d'être linéaire. Le groupe orthogonal O(n) est un sous-groupe de E(n) et
est le groupe de toutes les applications linéaires préservant les distances de R n vers lui-même.
L'ensemble des translations de R n (c'est à dire l'ensemble des applications de la forme
Tx ( y ) = x + y ) est aussi un sous-groupe de E(n).

PROPOSITION 2.3.
Tout élément T de E(n) peut être écrit de manière unique comme une transformation linéaire
orthogonale suivie par une translation. C'est à dire, sous la forme
(1) T = Tx R
avec x ∈ R n et R ∈ O(n ) .

Nous ne démontrerons pas cela ici. L'étape clé est de démontrer que toute application bijective
préservant les distances de R n vers lui-même qui fixe l'origine doit être linéaire.

Nous écrirons un élément T = Tx R de E(n) comme une paire {x, R} .

Notons que pour y ∈ R n ,


(2) {x, R}y = Ry + x
et que
(3) {x1 , R1 }{x 2 , R2 }y = R1 (R2 y + x 2 ) + x1 = R1 R2 y + ( x1 + R1 x 2 )

Donc, l'opération produit pour E(n) est la suivante :


(4) {x1 , R1 }{x 2 , R2 } = {x1 + R1 x 2 , R1 R2 }

L'inverse d'un élément de E(n) est donné par


(5) {x, R} = {− R −1 x, R −1 }
−1

Maintenant, comme déjà noté, E(n) n'est pas un sous-groupe de GL(n,R), puisque les translations
ne sont pas des applications linéaires. Cependant, E(n) est isomorphe à un sous-groupe de
GL(n+1,R) via l'application qui associe {x, R}∈ E (n ) la matrice suivante
 x1 
 
 R M
(6) 
xn 
 
0 L 0 1 
 

Cette application est clairement injective et un simple calcul montre que c'est un homomorphisme.
Donc E(n) est isomorphe au groupe de toutes les matrices de la forme (6) avec R ∈ O(n ) . La limite
de matrices de la forme (6) est encore de cette forme, et ainsi nous avons exprimé le groupe
euclidien E(n) comme un groupe de Lie matriciel.

Nous définissons de même le groupe de Poincaré P(n,1) comme le groupe de toutes les
transformations de R n+1 de la forme
(7) T = Tx A
avec x ∈ R n +1 , A ∈ O(n,1) . C'est le groupe des transformations affines de R n+1 qui préserve la
"distance" de Lorentz d L ( x, y ) = ( x1 − y1 ) + L + ( x n − y n ) − ( x n +1 − y n +1 ) (une transformation
2 2 2

affine est de la forme x → Ax + b où A est une transformation linéaire et b une constante). Le


produit du groupe est l'analogue évident du produit (4) pour le groupe euclidien.

Le groupe de Poincaré P(n,1) est isomorphe au groupe (n + 2 ) × (n + 2) des matrices de la forme


 x1 
 
 A M 
(8) 
x n+1 
 
0 L 0 1 
 
avec A ∈ O(n,1) . L'ensemble des matrices de la forme (8) est un groupe de Lie matriciel.
I.2.3. Groupes compacts

DEFINITION 2.4.
Un groupe de Lie matriciel G est dit être compact si les deux conditions suivantes sont satisfaites.
1. Si An est toute suite de matrice dans G, et que An converge vers la matrice A, alors A est dans
G.
2. Il existe une constante C tel que pour tout A ∈ G , Aij < C pour tout 1 ≤ i, j ≤ n .

Ce n'est pas la définition topologique habituelle des compacts. Cependant, l'ensemble de toutes les
2
matrices complexes n × n peut être vu comme C n . La définition ci-dessus dit que G est compact
2
s'il est un sous-ensemble fermé, borné de C n . C'est un théorème standard de l'analyse élémentaire
qu'un sous-ensemble de C m est compact (dans le sens habituel que tout recouvrement ouvert a une
sous recouvrement fini) si et seulement s'il est fermé et borné.

Tous nos exemples de groupes de Lies matriciels, excepté GL(n,R) et GL(n,C), ont la propriété (1).
Donc, c'est la condition de borne (2) qui est la plus importante.

La propriété de compact a de très importantes implications. Par exemple, si G est compact, alors
toute représentation unitaire irréductible de G est de dimension finie.

I.2.3.1. Exemples de groupes compacts


Les groupes O(n) et SO(n) sont compacts. La première propriété est satisfaite, la limite de matrices
orthogonales est orthogonale et la limite de matrices de déterminant égal à un est une matrice de
déterminant égal à un. La deuxième propriété est satisfaite car si A est orthogonale, alors les
vecteurs colonnes de A ont une norme égale à un et donc Aij ≤ 1 pour tout 1 ≤ i, j ≤ n . Un
argument similaire montre que U(n), SU(n) et Sp(n) sont compacts (cela inclut le cercle unité,
S 1 ≅ U (1) ).
I.2.3.2. Exemples de groupes non compacts
Tous les autres exemples donnés de groupes de Lie matriciels sont non compacts. GL(n,R) et
GL(n,C) violent la première propriété, puisqu'une limite de matrices inversibles peut être non
inversible. SL(n,R) et SL(n,C) violent la deuxième propriété, excepté dans le cas trivial n = 1,
puisque
n 
 

1
n 
(1) An =  1 
 
 O 
 
 1
a un déterminant égal à un, aussi grand que n puisse être.

Les groupes suivants violent aussi la deuxième propriété et, donc, sont non compacts : O(n,C) et
SO(n,C), O(n,k) et SO(n,k) ( n ≥ 1 , k ≥ 1 ), le groupe de Heisenberg H, Sp(n,R) et Sp(n,C), E(n) et
P(n,1), R et R n , R ∗ et C ∗ .

Exercices
1. Donnez des exemples pour montrer que ces derniers groupes sont non compacts

I.2.4. Groupes connexes

DEFINITION 2.5.
Un groupe de Lie matriciel G est dit être connexe si pour toute paire de matrices données A et B, il
existe un chemin continu A(t ) , a ≤ t ≤ b , contenu dans G avec A(a ) = A et A(b ) = b .

Cette propriété est ce qui est appelé bien enchaîné en topologie, qui n'est pas (en général) le même
que connexe. Cependant, c'est un fait (pas particulièrement évident pour le moment) qu'un groupe
de Lie matriciel est connexe si et seulement s'il est bien enchaîné. Ainsi, avec un léger abus de
terminologie, nous continuerons à nous référer à la propriété ci-dessus comme à la connexité.
Un groupe de Lie matriciel G qui n'est pas connexe peut être décomposé (de manière unique) en
unions de plusieurs parties, appelées composantes, tel que deux éléments d'une même composante
peuvent être joints par un chemin continu, mais deux éléments de composantes différentes ne le
peuvent pas.

PROPOSITION 2.6.
Si G est un groupe de Lie matriciel, alors la composante de G contenant l'identité est un sous-
groupe de G.

DEMONSTRATION.
En disant que A et B sont tous les deux dans la composante contenant l'identité, cela signifie qu'il
existe des chemins continus A(t ) et B(t ) avec A(0) = B(0) = I , A(1) = A et B(1) = B . Mais alors
A(t )B(t ) est un chemin continu commençant en I et se terminant en AB . Donc le produit de deux
éléments de la composante de l'identité est encore dans la composante de l'identité. De plus, A(t )
−1

est un chemin continu commençant en I et se terminant en A −1 et ainsi l'inverse de tout élément de


la composante de l'identité est encore dans la composante de l'identité. Donc la composante de
l'identité est un sous-groupe.

PROPOSITION 2.7.
Le groupe GL(n,C) est connexe pour tout n ≥ 1 .

DEMONSTRATION.
Considérons d'abord le cas n = 1. Une matrice complexe inversible 1 × 1 est de la forme A = [λ ]
avec λ ∈ C ∗ , l'ensemble des nombres complexes non nuls. Mais étant donné deux nombres
complexes non nuls, nous pouvons facilement trouver un chemin continu qui les relie et ne passe
pas par zéro.

Pour le cas n ≥ 1 , nous utilisons la forme canonique de Jordan. Toute matrice complexe n × n A
peut être écrite comme
(1) A = CBC −1
où B est la forme canonique de Jordan. La seule propriété de B dont nous aurons besoin est que B
est un triangle supérieur :
 λ1 ∗
 
(2) B =  O 
0 λn 

Si A est inversible, alors tous les λi doivent être non nuls puisque det A = det B = λ1 L λ n .

Soit B(t ) obtenu en multipliant la partie de B au-dessus de la diagonale par (1 − t ) , pour 0 ≤ t < 1 et
soit A(t ) = CB (t )C −1 . Alors, A(t ) est un chemin continu qui commence en A et se termine en
CDC −1 où D est la matrice diagonale
 λ1 0
 
(3) D =  O 
0 λn 

Ce chemin est dans GL(n,C) puisque det A(t ) = λ1 L λ n pour tout t.

Mais maintenant, comme dans le cas n = 1, nous pouvons définir λi (t ) qui connecte chaque λi à 1
dans C ∗ , lorsque t va de 1 à 2. Alors, nous pouvons définir
 λ1 (t ) 0 
 
(4) A(t ) = C  O 
 0
 λn (t )

C'est un chemin continu qui commence en CDC −1 quand t = 1 et se termine en I (= CIC −1 ) quand t
= 2. Puisque les λi (t ) sont toujours non nuls, A(t ) est dans GL(n,C).
Nous voyons alors que toute matrice A dans GL(n,C) peut être connectée à l'identité par un chemin
continu dans GL(n,C). Donc si A et B sont deux matrices dans GL(n,C), elles peuvent être
connectées en les connectant chacune à l'identité.

PROPOSITION 2.8.
Le groupe SL(n,C) est connexe pour tout n ≥ 1 .

DEMONSTRATION.
La démonstration est pratiquement la même que pour GL(n,C), excepté que nous devons faire
attention à préserver la condition det A = 1 . Soit un élément arbitraire de SL(n,C). Le cas n = 1 est
trivial, ainsi nous supposons n ≥ 2 . Nous pouvons définir A(t ) comme ci-dessus pour 0 ≤ t ≤ 1 ,
avec A(0) = A et A(1) = CDC −1 , puisque det A(t ) = det A = 1 . Maintenant nous définissons λi (t )
comme avant pour 1 ≤ n ≤ n − 1 et nous définissons λ n (t ) comme [λ1 (t )L λ n −1 (t )] (notez que
−1

puisque λ1 L λ n = 1 , λ n (0 ) = λ n ). Cela nous permet de relier A à l'identité tout en restant dans


SL(n,C).

PROPOSITION 2.9.
Les groupes U(n) et SU(n) sont connexes pour tout n ≥ 1 .

DEMONSTRATION.
Par un résultat standard de l'algèbre linéaire, toute matrice unitaire a une base orthonormale de
vecteurs propres, avec les valeurs propres de la forme e iθ . Il s'ensuit que toute matrice unitaire U
peut être écrite comme
 e iθ1 0 

(5) U = U 1  O U 1−1
 iθ 
 0 e n
 
avec U 1 unitaire et θ 1 ∈ R . Inversement, comme c'est facilement contrôlé, toute matrice de la
forme (5) est unitaire. Définissons maintenant
 e i (1−t )θ1 0 
 
(6) U (t ) = U 1  O U 1−1
 i (1− t )θ n 
 0 e 
 

Lorsque t parcourt 0 à 1, cela définit un chemin continu dans U(n) joignant U à I. Cela montre que
U(n) est connexe.

Une légère modification de cet argument, comme dans la démonstration de la proposition 2.8,
montre que SU(n) est connexe.

PROPOSITION 2.10.
Le groupe GL(n,R) n'est pas connexe mais a deux composantes. Ce sont GL(n, R) + , l'ensemble des
matrices réelles n × n avec un déterminant positif et GL(n, R ) , l'ensemble des matrices réelles

n × n avec un déterminant négatif.

DEMONSTRATION.
GL(n,R) ne peut pas être connexe, car si det A > 0 et det B < 0 , alors tout chemin continu
connectant A à B inclurait une matrice avec un déterminant zéro et donc passe en dehors de
GL(n,R).

Une fois que GL(n, R) + est reconnu comme connexe, il n'est pas difficile de voir que GL(n, R ) est

aussi connexe. Soit C toute matrice avec un déterminant négatif et prenons A, B dans GL(n, R ) .

Alors C −1 A et C −1 B sont dans GL(n, R) + et peuvent être joint par un chemin continu D(t ) dans
GL(n, R) + . Mais alors CD (t ) est un chemin continu joignant A et B dans GL(n, R ) .

La table suivante liste quelques groupes de Lie matriciels, en indiquant si le groupe est connexe et
en donnant le nombre de composants.
Groupe Connexe ? Composants
GL(n,C) Oui 1
SL(n,C) Oui 1
GL(n,R) Non 2
SL(n,R) Oui 1
O(n) Non 2
SO(n) Oui 1
U(n) Oui 1
SU(n) Oui 1
O(n,1) Non 4
SO(n,1) Non 2
Heisenberg Oui 1
E(n) Non 2
P(n,1) Non 4

Exercices
1. Montrez que GL(n, R) + est connexe.
2. Démontrez les résultats repris dans le tableau (il est immédiat que le groupe de Heisenberg est
connexe).

I.2.5. Groupes simplement connexes

DEFINITION 2.11.
Un groupe de Lie matriciel connexe G est dit être simplement connexe si toute boucle dans G peut
être déformée continûment en un point dans G.

Plus précisément, G est simplement connexe si pour tout chemin continu donné A(t ) , 0 ≤ t ≤ 1 ,
dans G avec A(0) = A(1) , il existe une fonction continue A(s, t ) , 0 ≤ s, t ≤ 1 , prenant ses valeurs
dans G avec les propriétés suivantes : (1) A(s,0) = A(s,1) pour tout s, (2) A(0, t ) = A(t ) et (3)
A(1, t ) = A(1,0) pour tout t.
Nous penserons à A(t ) comme une boucle et A(s, t ) comme une famille paramétrisée de boucles
qui déforment A(t ) en un point. La condition (1) dit que pour chaque valeur du paramètre s, nous
avons une boucle, la condition (2) dit que quand s = 0, la boucle est la boucle spécifiée et la
condition (3) dit que quand s = 1, notre boucle est un point.

Il est coutumier de parler de simple connexité seulement pour les groupes de Lie matriciels
connexes, même si la définition a un sens pour les groupes non connexes.

PROPOSITION 2.12.
Le groupe SU(2) est simplement connexe.

La condition de simple connexité est extrêmement importante. Un de nos plus important théorème
sera que si G est simplement connexe, alors il y a une application naturelle injective entre les
représentations de G et les représentations de son algèbre de Lie.

Sans démonstration, nous donnons la table suivante.


Groupe Simplement connexe ?
GL(n,C) Non
SL(n,C) Oui
GL(n,R) Non
SL(n,R) Non
SO(n) Non
U(n) Non
SU(n) Oui
SO(1,1) Oui
SO(n,1) ( n ≥ 2 ) Non
Heisenberg Oui
Exercices
1. Démontrez la proposition 2.12. Montrez le fait que SU(2) peut être vu (topologiquement)
comme la sphère à trois dimensions S 3 placée dans R 4 . Il est bien connu que S 3 est
simplement connexe.

I.2.6. Homomorphismes et isomorphismes

DEFINITION 2.13.
Soit G et H des groupes de Lie matriciels. Une application φ de G vers H est appelée un
homomorphisme de groupe de Lie si (1) φ est un homomorphisme de groupe et (2) φ est continue.
Si en plus, φ est une application bijective et si l'application inverse φ −1 est continue, alors φ est
appelé un isomorphisme de groupe de Lie.

La condition que φ soit continue sera vue comme technique, car il est très difficile de donner un
exemple d'homomorphisme de groupe entre deux groupes de Lie matriciels qui n'est pas continu.
En fait, si G = R et H = C ∗ , alors tout homomorphisme de groupe de G vers H qui est mesurable
(une condition très faible) doit être continu.

Si G et H sont des groupes de Lie matriciels et s'il existe un isomorphisme de groupe de Lie de G
vers H, alors G et H sont dit être isomorphes, et nous écrivons G ≅ H . Deux groupes de Lie
matriciels qui sont isomorphes seront vus comme étant essentiellement le même groupe (notez que,
par définition, l'inverse d'un isomorphisme de groupe de Lie est continu et ainsi est aussi un
isomorphisme de groupe de Lie).

I.2.6.1. Exemples : SU(2) et SO(3)


Un sujet très important pour nous sera la relation entre les groupes SU(2) et SO(3). Cet exemple est
choisi pour montrer que SU(2) et SO(3) sont presque (mais pas assez !) isomorphes.
Spécifiquement, il existe un homomorphisme de groupe de Lie φ qui fait correspondre SU(2) sur
SU(3) et qui est une correspondance deux vers un.
Considérons l'espace V de toutes les matrices complexes 2 × 2 qui sont hermitiques et qui ont la
trace zéro. C'est un espace vectoriel réel à trois dimensions avec la base suivante
 0 1
A1 =  
 1 0
 0 i
(1) A2 =  
 − i 0
1 0 
A3 =  
 0 − 1

Nous pouvons définir un produit scalaire sur V avec la formule


(2) A, B = tr ( AB )
1
2

Le calcul direct montre que {A1 , A2 , A3 } est une base orthonormale de V. Ayant choisi une base
orthonormale de V, nous pouvons identifier V avec R 3 .

Maintenant, si U est un élément de SU(2) et A un élément de V, alors il est facile de voir que
UAU −1 est dans V. Donc pour chaque U ∈ SU (2 ) , nous pouvons définir une application linéaire
φU de V sur lui-même par la formule
(3) φU ( A) = UAU −1
(cette définition fonctionnerait pour U ∈ U (2) mais nous choisissons de restreindre notre attention
à SU(2)). De plus, étant donné U ∈ SU (2 ) et A, B ∈ V , notons que
1
2
( )
(4) φU ( A), φU (B ) = tr UAU −1UBU −1 = tr ( AB ) = A, B
1
2

Donc φU est une transformation orthogonale de V ≅ R 3 que nous pouvons voir comme un élément
de O(3).
Nous voyons alors que l'application U → φU est une application de SU(2) vers O(3). Il est très
facile de contrôler que cette application est un homomorphisme (c'est-à-dire que φU1U 2 = φU1 φU 2 ) et
qu'elle est continue. Donc, U → φU est un homomorphisme de groupe de Lie de SU(2) vers O(3).

Rappelons que tout élément de O(3) a un déterminant ± 1 . Puisque SU(2) est connexe et que
l'application U → φU est continue, φU doit réellement faire correspondre vers SO(3). Donc
U → φU est un homomorphisme de groupe de Lie de SU(2) vers SO(3).

L'application U → φU n'est pas injective, puisque pour tout U ∈ SU (2 ) , φU = φ −U (observons que


si U est dans SU(2), alors aussi -U). Il est possible de montrer que φU est une application deux vers
un de SU(2) vers SO(3).

Exercices
1. Contrôlez que (2) dans la section I.2.6.1 est un produit scalaire.

I.2.7. Groupes de Lie


Un groupe de Lie est quelque chose qui est simultanément un groupe et une variété différentiable.
Comme la terminologie le suggère, tout groupe de Lie matriciel est un groupe de Lie, bien que cela
nécessite une démonstration. Ici, nous avons décidé de restreindre l'attention aux groupes de Lie
matriciels, excepté dans les cas d'urgence, pour trois raisons. Premièrement, cela rend le cours
accessible aux étudiants qui ne sont pas familiers avec la théorie des variétés différentiables.
Deuxièmement, cela rend la définition de l'algèbre de Lie et de l'application exponentielle
beaucoup plus compréhensible. Troisièmement, tous les exemples importants de groupes de Lie
sont (ou peuvent facilement être représentés comme) des groupes de Lie matriciels.

Hélas, il y a un prix à payer pour cette simplification. Certains sujets importants (notamment le
recouvrement universel) sont considérablement compliqués par la restriction au cas matriciel.
Néanmoins, les avantages surpassent les désavantages dans un cours d'introduction tel que celui-ci.
DEFINITION 2.14.
Un groupe de Lie est une variété différentiable G qui est aussi un groupe, et tel que le produit du
groupe
(1) G × G → G
et l'application inverse g → g −1 sont différentiables.

Pour le lecteur qui n'est pas familier avec la notion de variété différentiable, voici un bref
récapitulatif (nous considérerons seulement les variétés plongées dans un certain R n , ce qui est une
supposition inoffensive). Un sous-ensemble M de R n est appelé une variété différentiable de
dimension k si étant donné m0 ∈ M , il existe un système de coordonnées régulier (non linéaire)
(x ,K, x ) définit dans un voisinage U de m tel que
1 n
0

(2) M ∩ U = {m ∈ U | x (m ) = c , K , x (m ) = c }
k +1
1
n
n−k

C'est à dire que localement, après un changement de variable adéquat, M ressemble à l'hyperplan à
k dimensions dans R n obtenu en posant toutes les coordonnées, sauf les premières, égales à des
constantes.

Par exemple, S 1 ⊂ R 2 est une variété différentiable à une dimension car dans les coordonnées
polaires usuelles (θ , r ) , S 1 est l'ensemble r = 1. Bien sûr, les coordonnées polaires ne sont pas
définies globalement car θ est indéfini à l'origine et parce que θ n'est pas "à valeur unique". Mais
étant donné un point m0 de S 1 , nous pouvons définir les coordonnées polaires dans un voisinage U
de m0 et ensuite S 1 ∩ U sera l'ensemble r = 1.

Notez que bien que nous supposons que nos variétés différentiables sont plongées dans un certain
R n (une supposition inoffensive), nous ne disons pas qu'un groupe de Lie doit être plongé dans
2
R n ou que l'opération du groupe a quelque chose à voir avec la multiplication matricielle. Un
groupe de Lie est simplement un sous-ensemble G d'un certain R n qui est une variété différentiable
avec toute application G × G vers G qui fait de G un groupe (et tel que les opérations du groupe
sont régulières). Il est remarquable que la plus part (mais pas tous !) des groupes de Lie soient
isomorphes à un groupe de Lie matriciel.

Notez aussi qu'il est loin d'être évident qu'un groupe de Lie matriciel doit être un groupe de Lie,
puisque notre définition d'un groupe de Lie matriciel G ne dit rien au sujet de G comme étant une
variété. Il n'est pas trop difficile de vérifier que tous nos exemples de groupes de Lie matriciels sont
des groupes de Lie, mais en fait nous allons suivre le résultat qui rend de telles vérifications non
nécessaires :

THEOREME 2.15.
Tout groupe de Lie matriciel est un groupe de Lie.

Bien que nous ne démontrerons pas ce résultat, nous désirons discuter de ce que cela impliquerait.
Considérons d'abord le groupe GL(n,R). L'espace de toutes les matrices réelles n × n peut être vu
2
comme R n . Puisque GL(n,R) est l'ensemble de toutes les matrices A avec det A ≠ 0 , GL(n,R) est
2
un sous-ensemble ouvert de R n (c'est à dire qu'étant donné une matrice inversible A, il y a un
voisinage U de A tel que toute matrice B ∈ U est aussi inversible). Donc GL(n,R) est une variété
régulière à n 2 dimensions. De plus, le produit matriciel AB est clairement une fonction régulière
(et même polynomiale) des éléments de A et B. Donc GL(n,R) est un groupe de Lie.

2 2
De même, si nous voyons l'espace des matrices complexes n × n comme C n ≅ R 2 n , alors le
même argument montre que GL(n,C) est un groupe de Lie.

Donc, pour démontrer que tout groupe de Lie matriciel est un groupe de Lie, il suffit de montrer
qu'un sous-ensemble fermé d'un groupe de Lie est un groupe de Lie. La démonstration n'est pas
trop difficile mais elle nécessite l'application exponentielle que nous n'avons pas encore introduite.

Il est coutumier d'appeler une application φ entre des groupes de Lie, un homomorphisme de
groupe de Lie si φ est un homomorphisme de groupe et si φ est régulier, tandis que nous avons
(dans la définition 2.13) requit seulement que φ soit continu. Cependant, la proposition suivante
montre que notre définition est équivalente à la définition standard.
PROPOSITION 2.16.
Soit G et H des groupes de Lie et φ un homomorphisme de groupe de G vers H. Alors si φ est
continu, φ est aussi régulier.

Donc les homomorphismes de groupe de G vers H se classent seulement en deux variétés : les très
mauvaises (discontinues) et les très bonnes (régulières). Il n'y a tout simplement pas
d'intermédiaire.

Au vu du théorème 2.15, tout groupe de Lie matriciel est une variété (régulière). Comme tel, un
groupe de Lie matriciel est automatiquement localement bien enchaîné. Il s'ensuit qu'un groupe de
Lie matriciel est bien enchaîné si et seulement s'il est connexe (voir la remarque suivant la
définition 2.5).

Exercices
1. Soit a un nombre réel irrationnel. Montrez que l'ensemble des nombres de la forme e 2π ina ,
n ∈ Z , est dense dans S 1 . Maintenant, soit G le sous-groupe suivant de GL(2,C) :
 e it 0  
G =   | t ∈ R 
 0 e iat  

Montrez que
 e it 0  
G =   | s , t ∈ R 
 0 e is  
où G dénote la fermeture de l'ensemble G dans l'espace des matrices 2x2.

Note : le groupe G peut être vu comme le tore S 1 × S 1 , qui en retour peut être vu comme
[0,2π ]× [0,2π ] avec les extrémités des intervalles identifiées. L'ensemble G ⊂ [0,2π ]× [0,2π ]
est appelé une ligne irrationnelle. Dessinez une image de cet ensemble et vous verrez pourquoi
G est dense dans [0,2π ] × [0,2π ] .
2. Groupes orthogonaux. Soit le produit scalaire standard sur R n , x, y = ∑i xi y i . Montrez
qu'une matrice A préserve le produit scalaire si et seulement si les vecteurs colonnes de A sont
orthonormaux.

Montrez que pour toute matrice réelle n x n B ,


Bx, y = x, B T y
( )
où B T ij = B ji . En utilisant ce fait, montrez qu'une matrice A préserve le produit scalaire si et
seulement si AT A = I .

Note : une analyse similaire s'applique aux groupes orthogonaux complexes O(n,C) et SO(n,C).
3. Groupes unitaires. Soit le produit scalaire standard sur C n , x, y = ∑i xi∗ y i . En suivant
l'exercice 2, montrez que A + A = I si et seulement si Ax, Ay = x, y pour tout x, y ∈ C n
( )
( A+ ij = A∗ji ).
4. Groupes orthogonaux généralisés. Soit [x, y ]n ,k la forme bilinéaire symétrique sur R n + k définie
plus haut. Soit g la matrice diagonale (n + k) x (n + k) avec les n premiers éléments diagonaux
égaux à un et les k derniers éléments diagonaux égaux à moins un :
I 0 
g =  n 
 0 − Ik 

Montrez que pour tout x, y ∈ R n + k ,


[x, y ]n,k = x, gy

Montrez qu'une matrice réelle (n + k) x (n + k) A est dans O(n,k) si et seulement si AT gA = g .


Montrez que O(n,k) et SO(n,k) sont des sous-groupes de GL(n+k,R) et sont des groupes de Lie
matriciels.
5. Groupes symplectiques. Soit B[x, y ] la forme bilinéaire antisymétrique sur R 2 n donnée par
B[x, y ] = ∑i =1 xi y n +i − x n+i y i . Soit J la matrice 2n x 2n
n

 0 I
J =  
− I 0 

Montrez que pour tout x, y ∈ R 2 n


B[x, y ] = x, Jy

Montrez qu'une matrice 2n x 2n A est dans Sp(n,R) si et seulement si AT JA = J . Montrez que


Sp(n,R) est un sous-groupe de GL(2n,R) et est un groupe de Lie matriciel.

Note : une analyse similaire s'applique à Sp(n,C).


6. Les groupes O(2) et SO(2). Montrez que la matrice
 cosθ − sin θ 
A =  
 sin θ cosθ 
est dans SO(2) et que
 cosθ − sin θ  cos φ − sin φ   cos(θ + φ ) − sin (θ + φ )
   =  
 sin θ cosθ  sin φ cos φ   sin (θ + φ ) cos(θ + φ ) 

Montrez que tout élément A de O(2) est une des deux formes
 cosθ − sin θ 
A =  
 sin θ cosθ 
 cosθ sin θ 
A =  
 sin θ − cosθ 
(si A est de la première forme, alors det A = 1, si A est de la seconde forme, alors det A = -1).
a b a
Suggestion : rappelez que pour que A =   soit dans O(2), les vecteurs colonnes   et
 c d  c
 
b
  doivent être des vecteurs unités et doivent être orthogonaux.
d 
7. Les groupes O(1,1) et SO(1,1). Montrez que
 cosh t sinh t 
A =  
 sinh t cosh t 
est dans SO(1,1) et que
 cosh t sinh t  cosh s sinh s   cosh (t + s ) sinh (t + s ) 
   =  
 sinh t cosh t  sinh s cosh s   sinh (t + s ) cosh (t + s )

Montrez que tout élément de O(1,1) peut être écrit sous une des quatre formes
 cosh t sinh t 
 
 sinh t cosh t 
 − cosh t sinh t 
 
 sinh t − cosh t 
 cosh t − sinh t 
 
 sinh t − cosh t 
 − cosh t − sinh t 
 
 sinh t cosh t 
(puisque cosh t est toujours positif, il n'y a pas de recouvrement des quatre cas. Les matrices des
deux premières formes ont un déterminant égal à un, les matrices des deux dernières formes ont
un déterminant égal à moins un).

a b
Suggestion : pour que   soit dans O(1,1), nous devons avoir a 2 − c 2 = 1 , b 2 − d 2 = −1 et
c d
ab − cd = 0 . L'ensemble des points (a, c) dans le plan avec a 2 − c 2 = 1 (c'est-à-dire
a = ± 1 + c 2 ) est une hyperbole.
8. Le groupe SU(2). Montrez que si α , β sont des nombres complexes arbitraires satisfaisant
α + β = 1 , alors la matrice
2 2

α − β ∗ 
(1) A =  
∗ 
 β α 
est dans SU(2). Montrez que toute A ∈ SU (2) peut être exprimée sous la forme (1) pour une
paire unique ( α , β ) satisfaisant α + β
2 2
= 1 (donc SU(2) peut être vu comme la sphère à
trois dimensions S 3 située à l'intérieure de C 2 = R 4 . En particulier, cela montre que SU(2) est
connexe et simplement connexe).
9. Les groupes Sp(1,R), Sp(1,C) et Sp(1). Montrez que Sp(1,R) = SL(2,R), Sp(1,C) = SL(2,C) et
Sp(1) = SU(2).
10. Le groupe de Heisenberg. Déterminez le centre Z(H) du groupe de Heisenberg H. Montrez que
le groupe quotient H / Z(H) est abélien.
11. Connexité de SO(n). Montrez que SO(n) est connexe, en suivant le profil ci-dessous.

Pour le cas n = 1, il n'y a pas grand chose à montrer puisqu'une matrice 1x1 avec un
déterminant égal à un doit être [1] . Supposons alors que n ≥ 2 . Soit e1 le vecteur
1
 
 0
e1 =  
M
 
 0
 
dans R n . Etant donné un vecteur unité v ∈ R n , montrez qu'il existe un chemin continu R(t) dans
SO(n) avec R(0) = I et R(1)v = e1 (donc tout vecteur unité peut être "continûment tourné" vers
e1 ).
Montrez maintenant que tout élément R de SO(n) peut être connecté à un élément de SO(n-1) et
procédez par induction.
12. La décomposition polaire de SL(n,R). Montrez que tout élément A de SL(n,R) peut être écrit de
manière unique sous la forme A = RH où R est dans SO(n) et H est une matrice symétrique,
définie positive, avec un déterminant égal à un (c'est-à-dire H T = H et x, Hx ≥ 0 pour tout
x ∈ Rn .

Suggestion : Si A pouvait être écrit sous cette forme, alors nous aurions
AT A = H T R T RH = HR −1 RH = H 2

Donc H devrait être la racine carrée unique définie positive de AT A .

Note : Un argument similaire donne les décompositions polaires pour SL(n,R), SL(n,C) et
GL(n,C). Par exemple, tout élément A de SL(n,C) peut être écrit de manière unique comme A =
RH avec R dans SO(n) et H est une matrice hermitique, définie positive, avec un déterminant
égal à un.
13. La connexité de SL(n,R). En utilisant la décomposition polaire de SL(n,R) (exercice 12) et la
connexité de SO(n) (exercice 11), montrez que SL(n,R) est connexe.

Suggestion : rappelez que si H est une matrice réelle et symétrique, alors il existe une matrice
réelle orthogonale R1 tel que H = R1 DR1−1 où D est diagonal.
14. La connexité de GL(n, R ) . Montrez que GL(n, R ) est connexe.
+ +

15. Montrez que l'ensemble des translations est un sous-groupe normal du groupe euclidien et aussi
du groupe de Poincaré. Montrez que E(n) / translations ≅ O(n).
16. Plus dur. Montrez que tout homomorphisme de groupe de Lie φ de R vers S 1 est de la forme
φ (x ) = e iax pour un certain a ∈ R . En particulier, tout homomorphisme de ce type est régulier.
I.3. Algèbres de Lie et l'application exponentielle

I.3.1. L'exponentielle matricielle


L'exponentielle d'une matrice joue un rôle crucial dans la théorie des groupes de Lie.
L'exponentielle entre dans la définition de l'algèbre de Lie d'un groupe de Lie matriciel et est le
mécanisme pour passer l'information de l'algèbre de Lie au groupe de Lie. Puisque plusieurs calculs
sont faits plus facilement au niveau de l'algèbre de Lie, l'exponentielle est indispensable.

Soit X une matrice réelle ou complexe n × n . Nous voulons définir l'exponentielle de X, e X ou


exp X , par le développement en série usuel

Xm
(1) e X = ∑
m = 0 m!

Nous suivrons la convention d'utiliser des lettres tel que X et Y pour la variable dans l'exponentielle
matricielle.

PROPOSITION 3.1.
Pour toute matrice X réelle ou complexe n × n , les séries (1) convergent. L'exponentielle
matricielle e X est une fonction continue de X.

Avant de démontrer cela, révisons un peu d'analyse élémentaire. Rappelons que la norme d'un
vecteur x dans C n est définie par
(2) x = x, x = ∑x
2
i

Cette norme satisfait l'inégalité triangulaire


(3) x + y ≤ x + y

La norme d'une matrice est définie par


Ax
(4) A = sup
x≠0 x

De manière équivalente, A est le plus petit nombre λ tel que Ax ≤ λ x pour tout x ∈ C n .

Il n'est pas difficile de voir que pour toute matrice n × n A, A est fini. De plus, il est facile de voir
que pour toutes matrices A, B
(5) AB ≤ A B
(6) A + B ≤ A + B

Il est aussi facile de voir qu'une suite de matrice Am converge vers la matrice A si et seulement si
Am − A → 0 (comparez cela avec la définition 2.1).

Une suite de matrice Am est dite être une suite de Cauchy si λ ∈ C ∗ lorsque m, l → ∞ . En voyant
2 2
l'espace des matrices comme R n ou C n et en utilisant un résultat standard de l'analyse, nous
avons ce qui suit :

PROPOSITION 3.2.
Si Am est une suite de matrices réelles ou complexes n × n et que Am est une suite de Cauchy,
alors il existe une matrice unique A tel que Am converge vers A.

C'est à dire que toute suite de Cauchy converge.

Maintenant, considérons une série infinie dont les termes sont les matrices :
(7) A0 + A1 + A2 + L

Si

(8) ∑
m=0
Am < ∞

alors la série (7) est dite à convergence absolue. Si une série est absolument convergente, alors il
n'est pas difficile de montrer que les sommes partielles de la série forment une suite de Cauchy et
donc, suivant la proposition 3.2, la série converge. C'est à dire que toute série qui est absolument
convergente est aussi convergente (l'inverse n'est pas vrai; une série de matrices peut converger
sans être absolument convergente).

DEMONTRATION
Selon (5), nous voyons que
(9) X m ≤ X
m

et donc

Xm ∞ Xm
(10) ∑
m=0 m!
≤∑
m = 0 m!
=e
X
<∞

Donc la série (1) est absolument convergente et ainsi elle converge.

Pour montrer la continuité, notez que puisque X m est une fonction continue de X, les sommes
partielles de (1) sont continues. Mais il est facile de voir que (1) converge uniformément sur chaque
ensemble de la forme { X < R} et ainsi la somme est encore continue.

PROPOSITION 3.3.
Soit X,Y des matrices n × n arbitraires. Alors
1. e 0 = I
( )
2. e X est inversible et e X
−1
= e−X
3. e (α + β ) X = eαX e βX pour tous nombres réels ou complexes α , β
4. Si XY = YX , alors e X +Y = e X e Y = e Y e X
−1
5. Si C est inversible, alors e CXC = Ce X C −1
eX ≤ e
X
6.

Il n'est pas vrai en général que e X +Y = e X e Y , bien que, selon le point 4 ci-dessus, c'est vrai si X et Y
commutent. C'est un point crucial que nous considérerons en détail plus tard.

DEMONSTRATION
Le point 1 est évident. Les points 2 et 3 sont des cas particuliers du point 4. Pour vérifier le point 4,
nous multiplions simplement les développements en série terme à terme. Donc
 X2  Y2 
(11) e e =  I + X +
X Y
 + L I + Y +
 + L
 2!  2! 

En multipliant et en rassemblant les termes où l'exposant de X plus l'exposant de Y égal m, nous


avons
∞ m
X k Y m− k ∞
1 m m!
(12) e X e Y = ∑∑ =∑ ∑ X k Y m− k
m = 0 k =0 k ! (m − k )! m =0 m! k =0 k ! (m − k )!

Maintenant comme (et seulement pour cette raison) X et Y commutent,


m
(13) ( X + Y ) = ∑
m!
X k Y m− k
m

k = 0 k!(m − k )!
et ainsi (12) devient

(13) e X e Y = ∑ ( X + Y ) = e X +Y
1 m

m = 0 m!

Pour prouver 5, notons simplement que


( )
m
(14) CXC −1 = CX m C −1
et ainsi les deux cotés de 5 sont les mêmes terme à terme.

Le point 6 est évident suite à la démonstration de la proposition 3.1.


PROPOSITION 3.4.
Soit X une matrice complexe n × n et en voyant l'espace de toutes les matrices complexes n × n
2 2
comme C n . Alors e tX est une courbe régulière dans C n et
d tX
(15) e = Xe tX = e tX X
dt

En particulier,
d tX
(16) e =X
dt t =0

DEMONSTRATION
En différentiant le développement en série de e tX terme à terme (vous pourriez vous inquiéter si
( )
cela est valide, mais vous ne devriez pas. Pour chaque i, j, e tX ij est donné par un développement
en série convergent en t et c'est un théorème standard que vous pouvez différentier les
développements en série terme à terme).

Exercices
1. Justifiez la légalité de la multiplication terme à terme des développements dans (11).

I.3.2. Calcul de l'exponentielle d'une matrice

I.3.2.1. Cas 1 : X peut être diagonalisée


Supposons que X soit une matrice réelle ou complexe n × n et que X peut être diagonalisé sur C,
c'est-à-dire qu'il existe une matrice complexe inversible C telle que X = CDC −1 , avec
 λ1 0
 
(1) D =  O 
0 λn 

Observons que e D est la matrice diagonale avec les valeurs propres e λ1 ,…, e λn et ainsi, suite à la
proposition 3.3, nous avons
 e λ1 0 
  −1
(2) e = C 
X
O C
 λn 
 0 e 

Donc, si nous pouvons explicitement diagonaliser X, nous pouvons explicitement calculer e X .


Notons que si X est réelle, alors, bien que C puisse être complexe ainsi que les λi , e X doit être
réelle, puisque chaque terme dans la série est réel.

Par exemple, prenons


0 − a
(2) X =  
a 0 

1 i
Alors, les vecteurs propres de X sont   et   , avec les valeurs propres -ia et ia, respectivement.
i 1
Donc la matrice inversible
1 i 
(3) C =  
 i 1
 1  0
fait correspondre les vecteurs   et   aux vecteurs propres de X et ainsi (contrôlez) C −1 XC est
 0  1
une matrice diagonale D. Donc X = CDC −1 :
1 i  e − ia 0  1 / 2 − i / 2 
e X =   
−i 

 i 1 0 e  − i / 2 1 / 2 
(4)
 cos a − sin a 
=  
 sin a cos a 
Notons qu'explicitement si X (et donc a) est réel, alors e X est réelle.

I.3.2.2. Cas 2 : X est nilpotente


Une matrice n × n X est dite être nilpotente si X m = 0 pour un certain entier positif m. Bien sûr, si
X m = 0 , alors X l = 0 pour tout l > m. Dans ce cas, la série qui définit e X se termine après les m
premiers termes et peut être ainsi calculée explicitement.

Par exemple, calculons e tX , où


 0 a b
 
(1) X =  0 0 c 
 0 0 0
 

Notons que
 0 0 ac 
 
(2) X 2 =  0 0 0 
0 0 0 
 
et que X = 0 . Donc
3

 1 ta tb + 12 t 2 ac 
 
(3) e tX =  0 1 tc 
0 0 1 
 

I.3.2.3. Cas 3 : X arbitraire


Une matrice générale X peut ne pas être nilpotente ni diagonalisable. Cependant, il suit de la forme
canonique de Jordan que X peut être écrite sous la forme X = S + N où S est diagonalisable, N
nilpotente et SN = NS . Alors, puisque N et S commutent,
(1) e X = e S + e N
et e S et e N peuvent être calculés comme précédemment.

Par exemple, prenons


a b
(1) X =  
0 a

Alors
 a 0 0 b
(2) X =   +  
 0 a   0 0

Les deux termes commutent clairement (puisque la première est un multiple de l'identité), et ainsi
 e a 0  1 b   e a e a b 
(3) e X =  
a 
 =  
a 
 0 e  0 1   0 e 

I.3.3. Le logarithme matriciel


Nous voulons définir un logarithme matriciel, qui serait une fonction inverse de l'exponentielle
matricielle. Définir un logarithme pour les matrices sera au moins aussi difficile que définir un
logarithme pour les nombres complexes et, ainsi, nous n'espérons pas définir le logarithme
matriciel pour toutes les matrices ou même pour toutes les matrices inversibles. Nous nous
contenterons de définir le logarithme dans un voisinage de la matrice identité.

La manière la plus simple de définir le logarithme matriciel est par un développement en série.
Nous rappelons la situation pour les nombres complexes :

LEMME 3.5.
La fonction

(1) ln z = ∑ (− 1)
m +1 (z − 1)m
m =1 m
est définie et analytique dans un cercle de rayon un autour de z = 1.
Pour tout z avec z − 1 < 1 ,
(2) e ln z = z

Pour tout u avec u < ln 2 , e u − 1 < 1 et ln e u = u

DEMONSTRATION
Le logarithme habituel pour les nombres réels positifs satisfait
−1
ln (1 − x ) = = −(1 + x + x 2 + L)
d
(3)
dx 1− x
pour x < 1 . En intégrant terme par terme et en notant que ln 1 = 0 , on a
 x2 x3 
(4) ln (1 − x ) = − x +
 + + L
 2 3 

En prenant z = 1 - x (ainsi x = 1 - z), nous avons



(5) ln z = − (1 − z ) +
(1 − z )2 + (1 − z )3 + L = ∞ (− 1)m+1 (z − 1)m
2 3  ∑ m
  m =1

Cette série a un rayon de convergence égal à un et définit une fonction analytique complexe sur
l'ensemble { z − 1 < 1} qui coïncide avec le logarithme usuel pour z réel dans l'intervalle (0,2) .
Maintenant, exp(ln ( z )) = z pour z ∈ (0,2) et par analycité cette identité continue à être valable dans
l'ensemble complet { z − 1 < 1}.

D'un autre coté, si u < ln 2 , alors


2
u2 u
(6) e − 1 = u +
u
+L ≤ u + +L
2! 2!
tel que
(7) e u − 1 ≤ e − 1 < 1
u

Donc, ln(exp(u )) a un sens pour de tels u. Puisque ln(exp(u )) = u pour u réel avec u < ln 2 , il suit
par analycité que ln(exp(u )) = u pour tout nombre complexe avec u < ln 2 .

THEOREME 3.6.
La fonction

(8) ln A = ∑ (− 1)
m +1 ( A − I )m
m =1 m
est définie et continue sur l'ensemble de toutes les matrices complexes n × n A avec A − I < 1 et
ln A est réel si A est réel.

Pour tout A avec A − I < 1 ,


(9) e ln A = A

Pour tout X avec X < ln 2 , e X − 1 < 1 et ln e X = X .

DEMONSTRATION
Il est facile de voir que la série (8) est absolument convergente si A − I < 1 . La démonstration de
la continuité est essentiellement la même que pour l'exponentielle. Si A est réelle, alors tout terme
dans la série (8) est réel et ainsi ln A est réel.

Nous allons maintenant montrer que exp(ln A) = A pour tout A avec A − I < 1 . Nous le faisons en
considérant deux cas.
Cas 1. A est diagonalisable
Supposons que A = CDC −1 avec D diagonal. Alors A − I = CDC −1 − I = C (D − I )C −1 . Il s'ensuit
que ( A − I ) est de la forme
m

 ( z1 − 1)m 0 
 
(10) ( A − I ) = C  C −1
m
O

 0 (z n − 1)m 
où z1 ,…, z m sont les valeurs propres de A.

Maintenant, si A − I < 1 , alors certainement z i − 1 < 1 pour tout i = 1,… n (gardons le en tête).
Donc
 ln z1 0 
m +1 ( A − I )   −1
∞ m
(11) ∑ (− 1) = C O C
m  0 ln z n 
m =1

et ainsi, suivant le Lemme,
 e ln z1 0 

(12) e ln A = C  O C −1 = A
 ln z 
 0 e n
 

Cas 2. A est non diagonalisable


Si A n'est pas diagonalisable, alors, en utilisant la forme canonique de Jordan, il n'est pas difficile
de construire une suite Am de matrices diagonalisables avec Am → A . Si A − I < 1 , alors
Am − I < 1 pour tout m suffisamment grand. Selon le cas 1, exp(ln Am ) = Am et ainsi par la
continuité de l'exponentielle et du logarithme, exp(ln A) = A .
Donc nous avons montré que exp(ln A) = A pour tout A avec A − I < 1 . Maintenant, le même
argument que dans le cas complexe montre que si X < ln 2 , alors e X − 1 < 1 . Mais alors le même
argument à deux cas que ci-dessus montre que ln(exp X ) = X pour tout X tel que ceux-là.

PROPOSITION 3.7
Il existe une constante c telle que pour toute matrice n × n B avec B < 1
2

(13) ln(I + B ) − B ≤ c B
2

DEMONSTRATION
Notons que
∞ ∞ m− 2
Bm
(14) ln (I + B ) − B = ∑ (− 1) = B ∑ (− 1)
m 2 m B

m =2 m m= 2 m
tel que

( 12 )m
(15) ln (I − B ) − B ≤ B 2 ∑
m =2 m

C'est ce que nous désirions.

PROPOSITION 3.8.
const
Soit X une matrice complexe n × n et soit C m une suite de matrices telle que C m < . Alors
m2
m
 X 
(16) lim  I + + C m  = e X
m→∞
 m 

DEMONSTRATION
L'expression à l'intérieur des crochets tend clairement vers I lorsque m → ∞ et ainsi est dans le
domaine du logarithme pour tout m suffisamment grand. Maintenant
 X  X
(17) ln I + + C m  = + C m + E m
 m  m
2 const
où E m est un terme d'erreur qui, suite à la proposition 3.7, satisfait E m ≤ c X
m + Cm ≤ .
m2
Mais alors
X X 
(18) I + + C m = exp + C m + E m 
m m 
et ainsi
m
 
(19)  I + + C m  = exp( X + mC m + mE m )
X
 m 

Puisque C m et E m sont tous les deux d'ordre m −2 , nous obtenons le résultat désiré en faisant
m → ∞ et en utilisant la continuité de l'exponentielle.

I.3.4. Propriétés supplémentaires de l'exponentielle matricielle


Dans cette section nous donnons trois résultats supplémentaires, impliquant l'exponentielle d'une
matrice, qui seront importants dans notre étude des algèbres de Lie.

THEOREME 3.9. (Formule du produit de Lie)


Soit X et Y des matrices complexes n × n . Alors
m
 Xm Ym 
(1) e X +Y
= lim  e e 
m→∞
 

Ce théorème a un grand frère, appelée formule du produit de Trotter qui donne le même résultat
dans le cas où X et Y sont des opérateurs adéquats non bornés sur un espace de Hilbert de
dimension infinie.

DEMONSTRATION
En utilisant le développement en série de l'exponentielle et en multipliant, nous avons
X Y
X Y
(2) e e = I +
m m
+ + Cm
m m
X Y X Y
const
où (contrôlez !) C m ≤ . Puisque e m m
e → I lorsque m → ∞ , e m m
e est dans le domaine du
m2
logarithme pour tout m suffisamment grand. Mais
 X Y X Y 
ln e m e m  = ln + + C m 
(3)   m m 
X Y
= + + Cm + Em
m m
2
X Y const
où, suite à la proposition 3.7, C m ≤ const + + Cm ≤ . En prenant l'exponentielle du
m m m2
logarithme, on a
X Y
X Y 
(4) e e = exp + + C m + E m 
m m

m m 
et
m
 X Y
(5)  e m e m  = exp( X + Y + mC m + mE m )
 

Puisque C m et E m sont tous les deux de l'ordre de m −2 , nous avons (en utilisant la continuité de
l'exponentielle)
m
 X Y
(6) lim  e m e m  = exp( X + Y )
m→∞
 
qui est la formule du produit de Lie.

THEOREME 3.10.
Soit X une matrice réelle ou complexe n × n . Alors
( )
(7) det e X = e tr ( X )

DEMONSTRATION
Il y a trois cas.

Cas 1. X est diagonalisable.


Supposons qu'il y a une matrice complexe inversible C telle que
 λ1 0
 
(8) X = C  O 
0 λ n 

Alors
 e λ1 0 
 
(9) e X = C  O 
 λn 
 0 e 

( )
Donc tr ( X ) = ∑ λi et det e X = ∏ e λi = e ∑
λi
( )
(rappelons que tr CDC −1 = tr (D ) ).

Cas 2. X est nilpotent.


Si X est nilpotent, il ne peut pas y avoir de valeur propre non nulle (contrôlez !) et ainsi toutes les
racines du polynôme caractéristique doivent être zéro. Donc la forme canonique de Jordan de X
sera strictement un triangle supérieur. C'est à dire que X peut être écrit comme
0 ∗
 
(10) X = C  O C −1
0 0 

Dans ce cas, (il est facile de voir que) e X sera un triangle supérieur avec des uns sur sa diagonale :
1 ∗
 
(11) e X = C  O C −1
0 1 

( )
Donc, si X est nilpotent, tr ( X ) = 0 et det e X = 1 .

Cas 3. X arbitraire.
Toute matrice X peut être écrite comme la somme de deux matrices commutante S et N avec S
diagonalisable (sur C) et N nilpotente. Puisque S et N commutent, e X = e S e N . Ainsi, suite aux
deux cas précédents,
( ) ( ) ( )
(12) det e X = det e S det e N = e tr (S )e tr ( N ) = e tr ( X )
qui est ce que nous désirions.

DEFINITION 3.11.
Une fonction A : R → GL(n, C ) est appelée groupe à un paramètre si
1. A est continue.
2. A(0) = I .
3. A(t + s ) = A(t )A(s ) pour tout t , s ∈ R

THEOREME 3.12. (Sous-groupes à un paramètre).


Si A est un groupe à un paramètre dans GL(n,C), alors il existe une matrice complexe n × n unique
X telle que
(13) A(t ) = e tX

DEMONSTRATION

A(t ) . Ainsi nous devons


d
L'unicité est immédiate puisque s'il existe un tel X, alors X =
dt t =0
seulement nous inquiéter de l'existence.
La première étape est de montrer que A(t ) doit être régulière. Cela suit de la proposition 2.16 (que
nous n'avons pas démontré), mais nous donnons une démonstration d'un seul tenant.

Soit f (s ) une fonction régulière à valeur réelle supportée dans un petit voisinage de zéro, avec
f (s ) ≥ 0 et ∫ f (s )ds = 1 . Maintenant considérons
(14) B (t ) = ∫ A(t + s ) f (s )ds

En faisant le changement de variable u = t + s, on a


(15) B (t ) = ∫ A(u ) f (u − t )du

Il suit que B(t ) est différentiable puisque dériver en la variable t donne f qui est régulière.

D'un autre coté, si nous utilisons l'identité A(t + s ) = A(t )A(s ) dans (14), nous avons
(16) B (t ) = A(t )∫ A(s ) f (s )ds

Maintenant, la condition sur la fonction f avec la continuité de A garantit que ∫ A(s ) f (s )ds est
proche de A(0) = I et donc est inversible. Donc nous pouvons écrire
(
(17) A(t ) = B (t ) ∫ A(s ) f (s )ds )
−1

Puisque B(t ) est régulière et ∫ A(s ) f (s )ds est juste une matrice constante, cela montre que A(t ) est
régulière.

Maintenant que l'on sait que A(t ) est différentiable, nous pouvons définir

(18) X = A(t )
d
dt t =0
Notre but est de montrer que A(t ) = e tX . Puisque A(t ) est régulière, un résultat standard du calcul
(étendu de manière triviale aux fonctions évaluées sur des matrices) dit que
(19) A(t ) − (I + tX ) ≤ const ⋅ t 2

Il suit que pour chaque t fixé,


t  t  1 
(20) A  = I + X + O 2 
m m m 

Donc, puisque A est un groupe à un paramètre


m m
  t    1 
(21) A(t ) =  A  =  I + X + O 2 
t
  m   m  m 

En faisant m → ∞ et en utilisant la proposition 3.8 de la section 3, nous trouvons que A(t ) = e tX .

I.3.5. L'algèbre de Lie d'un groupe de Lie matriciel


L'algèbre de Lie est un outil indispensable dans l'étude des groupes de Lie matriciel. D'un coté, les
algèbres de Lie sont plus simples que les groupes de Lie matriciels car (comme nous le verrons)
l'algèbre de Lie est un espace linéaire. Donc nous pouvons comprendre beaucoup sur les algèbres
de Lie en faisant seulement de l'algèbre linéaire. D'un autre coté, l'algèbre de Lie d'un groupe de
Lie matriciel contient beaucoup d'information sur ce groupe (voir par exemple la proposition 3.23
et la formule de Baker-Campbell-Hausdorff). Donc, plusieurs questions sur les groupes de Lie
matriciels peuvent être résolues en considérant un problème similaire mais plus facile pour l'algèbre
de Lie.

DEFINITION 3.13.
Soit G un groupe de Lie matriciel. Alors l'algèbre de Lie de G, notée g, est l'ensemble de toutes les
matrices X tel que e tX est dans G pour tout nombre réel t.
Notons que même si G est un sous-groupe de GL(n,C) nous ne nécessitons pas que e tX soit dans G
pour tout complexe t, mais seulement pour tout réel t. Aussi, il n'est définitivement pas suffisant
d'avoir seulement e X dans G. C'est à dire qu'il est facile de donner un exemple d'un X et d'un G tel
que e X ∈ G mais e tX ∉ G pour certaines valeurs de t. Un tel X n'est pas dans l'algèbre de Lie de G.

Il est coutumier d'utiliser des caractères Gothiques minuscules pour se référer aux algèbres de Lie,
ici par simplicité nous emploierons seulement des lettres en gras comme g et h. Il n'y a pas de
risque de confusion avec des vecteurs puisque ici ces caractères désignent des algèbres ce qui se
constate sans ambiguïté par le contexte.

I.3.5.1. Convention des physiciens


Les physiciens sont accoutumés à considérer l'application X → e iX au lieu de X → e X . Donc un
physicien pensera à l'algèbre de Lie de G comme l'ensemble des matrices X telle que e itX ∈ G pour
tout réel t. Cette convention ne pose pas de réelle difficulté. Dans la littérature de la physique,
l'algèbre de Lie est fréquemment appelée l'espace des "éléments infinitésimaux du groupe". Il
convient toutefois de faire attention car la littérature de la physique ne distingue pas toujours
clairement un groupe de Lie matriciel et son algèbre de Lie.

Avant d'examiner les propriétés générales de l'algèbre de Lie, calculons l'algèbre de Lie des
groupes de Lie matriciels introduits précédemment.

I.3.5.2. Les groupes linéaires généraux


Si X est une matrice complexe n × n , alors suivant la proposition 3.3, e tX est inversible. Donc
l'algèbre de Lie de GL(n,C) est l'espace de toutes les matrices complexes n × n . Cette algèbre de
Lie est notée gl(n,C).

Si X est une matrice réelle n × n , alors e tX sera inversible et réelle. D'un autre coté, si e tX est réel
d
pour tout t réel, alors X = e tX sera aussi réel. Donc l'algèbre de Lie de GL(n,R) est l'espace
dt t =0
de toutes les matrices réelles n × n , notée gl(n,R).
Notons que l'argument précédent montre que si G est un sous-groupe de GL(n,R), alors l'algèbre de
Lie de G doit être constituée entièrement de matrices réelles. Nous utiliserons ce fait lorsque ce sera
approprié dans ce qui suit.

I.3.5.3. Les groupes linéaires spéciaux


( ) ( )
Rappelons le théorème 3.10 : det e X = e tr X . Donc si tr X = 0 , alors det e tX = 1 pour tout réel t.
( )
D'un autre coté, si X est une matrice n × n telle que det e = 1 pour tout t, alors e t tr X = 1 pour
tX

tout t. Cela signifie que t tr X est un multiple entier de 2πi pour tout t, ce qui est seulement
possible si tr X = 0 . Donc l'algèbre de Lie de SL(n,C) est l'espace de toutes les matrices complexes
n × n avec la trace égale à zéro, notée sl(n,C).

De même, l'algèbre de Lie de SL(n,R) est l'espace de toutes les matrices réelles X avec la trace
égale à zéro, notée sl(n,R).

I.3.5.4. Les groupes unitaires


Rappelons qu'une matrice U est unitaire si et seulement si U + = U −1 . Donc e tX est unitaire si et
seulement si
( ) = (e )
(1) e tX
+ tX −1
= e − tX

Mais en prenant les adjoints terme par terme, nous voyons que e tX ( ) + +
= e tX et ainsi (1) devient
+
(2) e tX = e − tX

Clairement, une condition suffisante pour que (1) soit valable est que X + = − X . D'un autre coté, si
(2) est valable pour tout t, alors en différentiant à t = 0, nous voyons que X + = − X est nécessaire.

Donc l'algèbre de Lie de U(n) est l'espace de toutes les matrices complexes n × n X tel que
X + = − X , notée u(n).
En combinant les deux calculs précédents, nous voyons que l'algèbre de Lie de SU(n) est l'espace
de toutes les matrices complexes X tel que X + = − X et tr X = 0 , notée su(n).

I.3.5.5. Les groupes orthogonaux


La composante identité de O(n) est juste SO(n). Puisque (proposition 3.14) l'exponentielle d'une
matrice dans l'algèbre de Lie est automatiquement dans la composante identité, l'algèbre de Lie de
O(n) est la même que l'algèbre de Lie de SO(n).

Maintenant, une matrice réelle n × n R est orthogonale si et seulement si R tr = R −1 . Ainsi, en


( ) = (e )
donnant une matrice réelle n × n X, e tX sera orthogonal si et seulement si e tX
tr tX −1
ou
(1) e tX = e − tX
tr

Clairement, une condition suffisante pour que cela soit valable est que X tr = − X . Si (1) est valable
pour tout t, alors en différentiant à t = 0, nous devons avoir X tr = − X .

Donc l'algèbre de Lie de O(n), aussi bien que l'algèbre de Lie de SO(n), est l'espace de toutes les
matrices réelles n × n X avec X tr = − X , notée so(n). Notons que la condition X tr = − X force les
éléments diagonaux de X à être zéro et ainsi explicitement la trace de X est égale à zéro.

Le même argument montre que l'algèbre de Lie de SO(n,C) est l'espace des matrices complexes
n × n satisfaisant X tr = − X , notée so(n,C). Ce n'est pas la même que su(n).

I.3.5.6. Les groupes orthogonaux généralisés


Une matrice A est dans O(n,k) si et seulement si A tr gA = g , où g est la matrice diagonale
(n + k ) × (n + k ) avec les n premiers éléments diagonaux égaux à un et les k derniers éléments
diagonaux égaux à moins un. Cette condition est équivalente à la condition g −1 A tr g = A −1 ou,
puisque explicitement g −1 = g , gA tr g = A −1 . Maintenant, si X est une matrice réelle
(n + k ) × (n + k ) , alors e tX est dans O(n,k) si et seulement si
(1) ge X g = e tgX g = e − tX
tr tr

Cette condition est valable pour tout t si et seulement si gX tr g = − X . Donc l'algèbre de Lie de
O(n,k), qui est la même que l'algèbre de Lie de SO(n,k), consiste en toutes les matrices réelles
(n + k ) × (n + k ) X avec gX tr g = − X . Cette algèbre de Lie est notée so(n,k).
(En général, le groupe SO(n,k) ne sera pas connexe, par contraste avec le groupe SO(n). La
composante identité de SO(n,k), qui est aussi la composante identité de O(n,k), est notée SO (n, k )I .
L'algèbre de Lie de SO (n, k )I est la même que l'algèbre de Lie de SO(n,k)).

I.3.5.7. Les groupes symplectiques


Elles sont notées sp(n,R), sp(n,C) et sp(n). Le calcul de ces algèbres de Lie est similaire à celui des
groupes orthogonaux généralisés et ici nous noterons juste le résultat. Soit J la matrice dans la
définition des groupes symplectiques. Alors sp(n,R) est l'espace des matrices réelles 2n × 2n X
telles que JX tr J = X , sp(n,C) est l'espace des matrices complexes 2n × 2n avec la même condition
et sp (n ) = sp (n, C ) ∩ u (2n ) .

I.3.5.8. Le groupe de Heisenberg


Rappelons que le groupe de Heisenberg H est le groupe de toutes les matrices réelles 3 × 3 A de la
forme
1 a b
 
(1) A =  0 1 c 
 0 0 1
 

Rappelons aussi que nous avons calculé l'exponentielle d'une matrice de la forme
0 α β 
 
(2) X =  0 0 γ 
0 0 0 
 
et vu que e X était dans H. D'un autre coté, si X est toute matrice tel que e tX est de la forme (1),
d
alors tous les éléments de X = e tX qui sont sur ou sous la diagonale doivent être égaux à zéro,
dt t =0
ainsi X est de la forme (2).

Donc l'algèbre de Lie du groupe de Heisenberg est l'espace de toutes les matrices réelles 3 × 3 qui
sont des triangles strictement supérieurs.

I.3.5.9. Le groupe euclidien et le groupe de Poincaré


Rappelons que le groupe euclidien E(n) est (ou peut être vu comme) le groupe des matrices réelles
(n + 1) × (n + 1) de la forme
 y1 
 
 R M 
(1) 
yn 
 
0 L 0 1 
 
avec R ∈ O(n ) . Maintenant si X est une matrice réelle (n + 1) × (n + 1) telle que e tX est dans E(n)
d
pour tout t, alors X = e tX doit être zéro le long de la ligne inférieure :
dt t =0

 y1 
 
 Y M 
(2) X = 
yn 
 
0 L 0 0 
 

Notre but, alors, est de déterminer quelles matrices de la forme (2) sont réellement dans l'algèbre de
Lie du groupe euclidien. Un simple calcul montre que pour n ≥ 1
n
 y1 
 
 Y M   Y n Y n −1 y 
(3)  =  
yn   0 L 0 

 
0 L 0 0 
 
où y est le vecteur colonne avec les éléments y1 ,…, y n . Il s'ensuit que si X est comme (2), alors
e tX est de la forme
 ∗
 
 e tY M
(4) e = 
tX

∗
 
0 L 0 1 

Maintenant, nous avons déjà établit que e tY est dans O(n) pour tout t si et seulement si Y tr = −Y .
Donc, nous voyons que l'algèbre de Lie de E(n) est l'espace de toutes les matrices réelles
(n + 1) × (n + 1) de la forme (2) avec Y satisfaisant Y tr = −Y .
Un argument similaire montre que l'algèbre de Lie de P(n,1) est l'espace de toutes les matrices
réelles (n + 2 ) × (n + 2) de la forme
 y1 
 
 Y M 
(5) 
y n+1 
 
0 L 0 0 
 
avec Y ∈ si (n,1) .

I.3.6. Propriétés de l'algèbre de Lie


Nous voulons maintenant établir différentes propriétés de base de l'algèbre de Lie d'un groupe de
Lie matriciel.
PROPOSITION 3.14.
Soit G un groupe de Lie matriciel et X un élément de son algèbre de Lie. Alors e X est un élément
de la composante identité de G.

DEMONSTRATION
Par définition de l'algèbre de Lie, e tX est dans G pour tout réel . Mais lorsque t varie de 0 à 1, est
un chemin continu connectant l'identité à e X .

PROPOSITION 3.15.
Soit G un groupe de Lie matriciel et X un élément de g et A un élément de G. Alors AXA −1 est
dans g.

DEMONSTRATION
Cela est immédiat, puisque suivant la proposition 3.3,
t  AXA−1 
(1) e 
= Ae tX A −1

et . Ae tX A −1 ∈ G

THEOREME 3.16.
Soit G un groupe de Lie matriciel, g son algèbre de Lie et X, Y des éléments de g. Alors
1. sX ∈ g pour tout nombre réel s,
2. X + Y ∈ g
3. XY − YX ∈ g

Si vous suivez les conventions de la physique pour la définition des algèbres de Lie, alors la
condition (3) doit être remplacée par la condition − i ( XY − YX ) ∈ g .
DEMONSTRATION
Le premier point est immédiat puisque e t (sX ) = e (ts ) X qui doit être dans G si X est dans g. Le second
point est facile à vérifier si X et Y commutent puisque alors e t ( X +Y ) = e tX e tY . Si X et Y ne
commutent pas, cet argument de marche pas. Cependant, la formule du produit de Lie dit que
(
(2) e t ( X +Y ) = lim e tX / m e tY / m
m→∞
)m

(
Comme X et Y sont dans l'algèbre de Lie, e tX / m et e tY / m sont dans G, ainsi que e tX / m e tY / m )
puisque G est un groupe. Mais maintenant, comme G est un groupe de Lie matriciel, la limite de
choses dans G doit encore être dans G pourvu que la limite soit inversible. Puisque e t ( X +Y ) est
automatiquement inversible, nous en concluons qu'il doit être dans G. Cela montre que X + Y est
dans g.

Maintenant pour le troisième point. Rappelons (proposition 3.4) que d


dt e tX = X . Il s'ensuit que
t =0
d
dt e tX Y = XY et donc par la règle produit
t =0

d tX −tX
(3) dt
e Ye ( ) ( )
= ( XY )e 0 + e 0Y (− X )
t =0

= XY − YX

Mais maintenant, suivant la proposition 3.15, e tX Ye − tX est dans g pour tout t. Donc XY − YX est
dans g.
DEFINITION 3.17.
Etant donné deux matrices n × n A et B, le commutateur de A et B est défini par simplement
(4) [ A, B ] = AB − BA

Selon le théorème 3.16, l'algèbre de Lie de tout groupe de Lie matriciel est fermée sous les
commutateurs.
Le théorème suivant très important nous dit qu'un homomorphisme de groupe de Lie entre deux
groupes de Lie conduit d'une manière naturelle à une application entre les algèbres de Lie
correspondantes. En particulier, cela nous dit que deux groupes de Lie isomorphes ont "la même"
algèbre de Lie (c'est à dire que les algèbres de Lie sont isomorphes).

THEOREME 3.18.
Soit G et H des groupes de Lie matriciels avec les algèbres de Lie g et h respectivement. Supposons
que φ : G → H soit un homomorphisme de groupe de Lie. Alors il existe une unique application
~
réelle linéaire φ : g → h tel que
( )
(5) φ e X = e φ ( X )
~

~
pour tout X ∈ g . L'application φ a les propriétés supplémentaires suivantes
1. φ (AXA −1 ) = φ ( A)φ ( X )φ ( A) pour tout X ∈ g , A ∈ G .
~ ~ −1

~ ~
[ ~
]
2. φ ([X , Y ]) = φ ( X ), φ (Y ) pour tout X , Y ∈ g .

3. φ ( X ) = φ e tX
~ d
dt
( ) pour tout X ∈ g .
t =0

Si G, H et K sont des groupes de Lie matriciels et φ : H → K et ψ : G → H sont des


homomorphismes de groupe de Lie, alors
~
(6) (φ o ψ ) = φ o ψ~
~

~
En pratique, étant donné un homomorphisme de groupe de Lie φ , la manière dont on va calculer φ
~ ~
est en utilisant la troisième propriété. Bien sûr, puisque φ est linéaire (réel), il suffit de calculer φ
~
sur une base de g. Dans le langage des variétés différentiables, la troisième propriété dit que φ est
la dérivée (ou la différentielle) de φ en l'identité, ce qui est la définition standard de φ .

Une application linéaire avec la deuxième propriété est appelée un homomorphisme d'algèbre de
Lie. Ce théorème dit que tout homomorphisme de groupe de Lie conduit à un homomorphisme
d'algèbre de Lie. Nous verrons éventuellement que l'inverse est vrai sous certaines circonstances.
~
Spécifiquement, supposons que G et H sont des groupes de Lie et φ : g → h est un
homomorphisme d'algèbre de Lie. Si G est connexe et simplement connexe, alors il existe un
~
unique homomorphisme de groupe de Lie φ : G → H tel que φ et φ sont reliés comme dans le
théorème 3.18.

DEMONSTRATION
La démonstration est similaire à la démonstration du théorème 3.16. Puisque φ est un
( )
homomorphisme de groupe continu, φ e tX sera un sous-groupe à un paramètre de H, pour chaque
X ∈ g . Donc suivant le théorème 3.12, il y a un unique Z tel que
( )
(7) φ e tX = e tZ
pour tout t ∈ R . Ce Z doit être dans h puisque e tZ = φ e tX ∈ H .( )
Nous définissons maintenant φ ( X ) = Z et contrôlons en plusieurs étapes que φ a les propriétés
~ ~
requises.

( )
Etape 1 : φ e X = e φ ( X ) .
~

~
Cela suit de (3.15) et de notre définition de φ en posant t = 1.

Etape 2 : φ (sX ) = sφ ( X ) pour tout s ∈ R .


~ ~

( ) ( )
Cela est immédiat puisque si φ e tX = e tZ , alors φ e tsX e tsZ .

Etape 3 : φ ( X + Y ) = φ ( X ) + φ (Y ) .
~ ~ ~

Suivant les étapes 1 et 2,


(
(8) e tφ ( X +Y ) = eφ [t ( X +Y )] = φ e t ( X +Y ) )
~ ~

Suivant la formule du produit de Lie et le fait que φ est un homomorphisme continu :


( (
(9) φ lim e tX / m e tY / m
m →∞
)
m
) = lim (φ (e
m →∞
tX / m
)φ (e tY / m
)) m

Mais alors, nous avons


~
( ~ ~
(10) e tφ ( X +Y ) = lim e tφ ( X ) / m e tφ (Y ) / m
m →∞
)m
= e t (φ ( X )+φ (Y ))
~ ~

En différentiant ce résultat en t = 0, nous avons le résultat désiré.

Etape 4 : φ (AXA −1 ) = φ ( A)φ ( X )φ ( A) .


~ ~ −1

Suivant les étapes 1 et 2,


(11) exp tφ (AXA −1 ) = exp φ (tAXA −1 ) = φ (exp tAXA −1 )
~ ~

En utilisant une propriété de l'exponentielle et l'étape 1, cela devient


(12) exp tφ (AXA −1 ) = φ (Ae tX A −1 ) = φ ( A)φ (e tX )φ ( A)
~ −1

En différentiant ce résultat en t = 0, nous avons le résultat désiré.

Etape 5 : φ ([X , Y ]) = φ ( X ), φ (Y ) .
~ ~ ~
[ ]
Rappelons suite à la démonstration du théorème 3.16 que
(13) [ X , Y ] = e tX Ye −tX
d
dt t =0

Donc
~ d
(14) φ ([X , Y ]) = φ  e tX Ye −tX
~
dt
 d ~ tX −tX
 = φ e Ye
dt
( )
 t =0  t =0

où nous avons utilisé le fait qu'une dérivée commute avec une transformation linéaire.

Mais alors, suivant l'étape 4,


φ ([X , Y ]) =
~ d
dt
( )
φ e tX φ (Y )φ e −tX
~
( )
t =0

φ (Y )e −tφ ( X )
d tφ~ ( X ) ~ ~
(15) = e
dt t =0

[
= φ ( X ), φ (Y )
~ ~
]
Etape 6 : φ ( X ) = φ e tX
~ d
dt
( ) .
t =0
~
Cela suit de (3.15) et de notre définition de φ .

~
Etape 7 : φ est l'application réelle linéaire unique tel que φ e X = e φ ( X ) . ( )
~

Supposons que ψ est une autre application de ce type. Alors


( )
(16) e tψ ( X ) = eψ (tX ) = φ e tX
tel que
(17) ψ ( X ) = φ e tX
d
dt
( )
t =0

~
Donc, suivant l'étape 6, ψ coïncide avec φ .

~ ~
Etape 8 : φ o ψ = φ o ψ~ .
Pour tout X ∈ g ,
( ) ( ( )) = φ (e tψ~ ( X )
)= e tφ (ψ~ ( X ))
~
(18) φ o ψ e tX = φ ψ e tX

~ ~
Donc φ o ψ = φ o ψ~ .
DEFINITION 3.19. (L'application Adjointe)
Soit G un groupe de Lie matriciel. Alors pour chaque A ∈ G , définissons une application linéaire
AdA : g → g par la formule
(19) AdA( X ) = AXA −1

Nous noterons l'application A → AdA par Ad.

PROPOSITION 3.20.
Soit G un groupe de Lie matriciel avec l'algèbre de Lie g. Alors pour chaque A ∈ G , AdA est une
transformation linéaire inversible de g avec l'inverse AdA −1 et Ad : G → GL(g ) est un
homomorphisme de groupe.

DEMONSTRATION
Facile. Notons que la proposition 3.15 garantit que AdA( X ) est réellement dans g pour tout X ∈ g .

Puisque g est un espace vectoriel réel avec une certaine dimension k, GL(g) est essentiellement le
même que GL(k,R). Donc nous regarderons GL(g) comme un groupe de Lie matriciel. Il est facile
de montrer que Ad : G → GL(g ) est continu et est ainsi un homomorphisme de groupe de Lie.
Suivant le théorème 3.18, il y a une application linéaire réelle associée Ad de l'algèbre de Lie de G
vers l'algèbre de Lie de GL(g), c'est à dire de g vers gl(g), avec la propriété que
( )
(20) e AdX = Ad e X

PROPOSITION 3.21.
Soit G un groupe de Lie matriciel, soit g son algèbre de Lie et soit Ad : G → GL(g )
l'homomorphisme de groupe de Lie définit ci-dessus. Soit Ad : g → gl (g ) l'application de l'algèbre
de Lie associée. Alors pour tout X , Y ∈ g
(21) Ad X (Y ) = [X , Y ]
DEMONSTRATION
Rappelons que par le théorème 3.18, Ad peut être calculé comme suit :
d
(22) Ad X = Ad e tX
dt
( )
t =0

Donc
(23) Ad X (Y ) =
d
dt
( )
Ad e tX (Y ) = e tX Ye −tX
d
dt
= [X , Y ]
t =0 t =0
qui est ce que nous désirions démontrer.

Exercices
1. Vérifiez par calcul direct les propriétés générales de l'algèbre de Lie d'un groupe de Lie
matriciel pour les exemples calculés dans les sections précédentes.

I.3.7. L'application exponentielle

DEFINITION 3.22.
Si G est un groupe de Lie matriciel avec l'algèbre de Lie g, alors l'application exponentielle pour G
est l'application
(1) exp : g → G

En général, l'application exponentielle n'est ni injective, ni surjective. Néanmoins, elle fournit un


mécanisme crucial pour passer de l'information entre le groupe et l'algèbre de Lie. Le résultat
suivant dit que l'application exponentielle est localement bijective, un résultat qui sera essentiel
plus tard.

THEOREME 3.23.
Soit G un groupe de Lie matriciel avec l'algèbre de Lie g. Alors il existe un voisinage U de zéro
dans g et un voisinage V de I dans G tel que l'application exponentielle applique U de manière
homéomorphique et surjective sur V.
DEMONSTRATION
En fonction de ce que nous avons démontré sur le logarithme matriciel, nous connaissons ce
résultat dans le cas de GL(n,C). Pour prouver le cas général, nous considérons un groupe de Lie
matriciel G < GL(n, C ) avec l'algèbre de Lie g.

LEMME 3.24.
Supposons que g n sont des éléments de G et que g n → I . Soit Yn = ln g n qui est définit pour tout
n suffisamment grand. Supposons que Yn / Yn → Y ∈ gl (n, C ) . Alors Y ∈ g .

DEMONSTRATION
Pour montrer que Y ∈ g , nous devons montrer que exp tY ∈ G pour tout t ∈ R . Lorsque n → ∞ ,
(t / Y )Y
n n → tY . Notons que puisque g n → I , Yn → 0 et ainsi Yn → 0 . Donc nous pouvons
trouver des entiers mn tels que (mn Yn ) → t . Alors exp(mnYn ) = exp[(mn Yn )(Yn / Yn )] → exp(tY ) .
Mais exp(mnYn ) = exp(Yn ) = (g n ) ∈ G et G est fermé, ainsi exp(tY ) ∈ G .
mn mn

2 2 2
Nous voyons gl(n,C) comme C n ≅ R 2 n . Alors g est un sous-espace de R 2n . Soit D le
2
complément orthogonal de g par rapport au produit scalaire habituel sur R 2n . Considérons
l'application Φ : g ⊗ D → GL(n, C ) donnée par
(1) Φ( X , Y ) = e X e Y

2
Bien sûr, nous pouvons identifier g ⊗ D avec R 2n . De plus, GL(n,C) est un sous-ensemble ouvert
de gl (n, C ) ≅ R 2 n . Donc nous pouvons voir Φ comme une application de R 2n sur lui-même.
2 2

Maintenant, en utilisant les propriétés de l'exponentielle matricielle, nous voyons que


Φ (tX ,0 ) = X
d
dt t =0
(2)
Φ (0, tY ) = Y
d
dt t =0

2
Cela montre que la dérivée de Φ au point 0 ∈ R 2 n est l'identité (rappelons que la dérivée en un
2 2
point d'une fonction de R 2n sur lui-même est une application linéaire de R 2n sur lui-même, dans
ce cas l'application identité). En particulier, la dérivée de Φ en 0 est inversible. Donc, le théorème
de la fonction inverse dit que Φ a un inverse local continu définit dans un voisinage de I.

Maintenant, soit U un voisinage de 0 dans g. Nous désirons montrer que exp(U ) contient un
voisinage de I dans G. Supposons que non. Alors nous pouvons trouver une suite g n ∈ G avec
g n → I tel qu'aucun g n n'est dans exp(U ) . Puisque Φ est localement inversible, nous pouvons
écrire g n (pour n grand) ne manière unique comme g n exp( X n ) exp(Yn ) avec X n ∈ g et Yn ∈ D .
Puisque g n → I et que Φ −1 est continu, X n et Yn tendent vers zéro. Donc (pour n grand),
X n ∈ U . Ainsi nous devons avoir (pour n grand) Yn ≠ 0 , autrement g n serait dans exp(U ) .

Soit g~n = exp(Yn ) = exp(− X n )g n . Notons que g~n ∈ G et que g~n I . Puisque la boule unité dans D
est compacte, nous pouvons choisir une sous suite de {Yn } (encore appelée {Yn }) telle que Yn / Yn
converge vers un certain Y ∈ D , avec Y = 1 . Mais alors, suite au Lemme, Y ∈ G ! C'est une
contradiction car D est le complément orthogonal de g.

Ainsi pour tout voisinage U de zéro dans g, exp(U ) contient un voisinage de l'identité dans G. Si
nous rendons U suffisamment petit, alors l'exponentielle sera injective sur U (l'existence du
logarithme matriciel implique que l'exponentielle est injective près de zéro). Soit ln l'application
inverse, définie sur exp(U ) . Puisque U est compact et que exp est injective et continue sur U , ln
sera continue (c'est un résultat standard de la topologie). Ainsi en prenant un voisinage V de I
contenu dans exp(U ) , et en prenant U ′ = exp −1 (V ) ∩ U , alors U ′ est ouvert et l'exponentielle
applique U ′ de manière homéomorphique et surjective sur V.

DEFINITION 3.25.
Si U et V sont comme dans la proposition 3.23, alors l'application inverse exp −1 : V → g est
appelée le logarithme pour G.

COROLLAIRE 3.26.
Si G est un groupe de Lie matriciel connexe, alors tout élément A de G peut être écrit sous la forme
(3) A = e X1 e X 2 L e X n
pour certains X 1 , X 2 ,…, X n dans g.

DEMONSTRATION
Rappelons que pour nous qu'en disant que G est connexe, cela signifie que G est bien enchaîné.
Cela signifie certainement que G est connexe dans le sens usuel de la topologie, c'est à dire que le
seul sous-ensemble non vide de G qui est à la fois ouvert et fermé est G lui-même. Ainsi soit E
l'ensemble de tous les A ∈ G qui peuvent être écrit sous la forme (3). En fonction de la proposition,
E contient un voisinage V de l'identité. En particulier, E est non vide.

Nous affirmons d'abord que E est ouvert. Pour voir cela, considérons A ∈ E . Puis regardons
l'ensemble des matrices de la forme AB , avec B ∈ V . Ce sera un voisinage de A. Mais tout B de ce
type peut être écrit comme B = e X et A peut être écrit comme A = e X1 e X 2 L e X n , ainsi
AB = e 1 e
X X2 X
Le n e X .

Maintenant, nous affirmons que E est fermé (dans G). Soit A ∈ G et une séquence An ∈ E avec
An → E . Alors AAn−1 → I . Donc nous pouvons choisir un certain n0 tel que AAn−1 ∈ V . Alors
0
−1
=e et A = An e . Mais, par supposition An = e e , ainsi A = e e
X X X1 X2 Xn X1 X2 X
AA n0 Le Le n e X .
0 0
Donc A ∈ E et E est fermé.
Donc E est à la fois ouvert et fermé, ainsi E = G .

I.3.7. Algèbres de Lie

DEFINITION 3.27.
Une algèbre de Lie réelle ou complexe de dimension finie est un espace vectoriel réel ou complexe
de dimension finie g avec une application [ ] de g × g dans g avec les propriétés suivantes :
1. [ ] est bilinéaire.
2. [ X , Y ] = −[Y , X ] pour tout X , Y ∈ g .
3. [ X , [Y , Z ]] + [Y , [Z , X ]] + [Z , [ X , Y ]] = 0 pour tout X , Y , Z ∈ g
.
La troisième condition est appelée l'identité de Jacobi. Notons aussi que la deuxième condition
implique que [ X , X ] = 0 pour tout X ∈ g . Les mêmes conditions définissent une algèbre de Lie sur
un champ arbitraire F excepté que si F a la caractéristique deux, alors on devra ajouter la condition
[X , X ] = 0 qui ne suit pas d'une antisymétrie de caractéristique deux. Nous traiterons seulement
avec les algèbres de Lie de dimension finie et à partir de maintenant, on interprétera "algèbre de
Lie" comme "algèbre de Lie de dimension finie".

Une algèbre de Lie est en fait une algèbre au sens usuel, mais l'opération produit [ ] pour cette
algèbre n'est ni commutative, ni associative. L'identité de Jacobi sera vue comme un substitut de
l'associativité.

PROPOSITION 3.28.
L'espace gl(n,R) de toutes les matrices réelles n × n est une algèbre de Lie réelle par rapport à
l'opération de commutation [ A, B ] = AB − BA . L'espace gl(n,C) de toutes les matrices complexes
n × n est une algèbre de Lie complexe par rapport à l'opération de commutation analogue.

Soit V un espace vectoriel réel ou complexe de dimension finie et soit gl(V) l'espace des
applications linéaires de V sur lui-même. Alors gl(V) devient une algèbre de Lie réelle ou
complexe avec l'opération de commutation [ A, B ] = AB − BA .
DEFINITION 3.29.
Une sous algèbre d'une algèbre de Lie réelle ou complexe g est un sous-espace h de g tel que
[H 1 , H 2 ] ∈ h pour tout H 1 , H 2 ∈ g . Si g est une algèbre de Lie complexe et que h est un sous-
espace réel de g qui est fermé sous les commutateurs, alors h est dit être une sous algèbre réelle de
g.

Si g et h sont des algèbres de Lie, alors une application linéaire φ : g → h est appelée un
homomorphisme d'algèbre de Lie si φ ([X , Y ]) = [φ ( X ), φ (Y )] pour tout X , Y ∈ g . Un isomorphisme
d'une algèbre de Lie sur elle-même est appelé un automorphisme d'algèbre de Lie.

Une sous algèbre d'une algèbre de Lie est encore une algèbre de Lie. Une sous algèbre réelle d'une
algèbre de Lie complexe est une algèbre de Lie réelle. L'inverse d'un isomorphisme d'algèbre de
Lie est encore un isomorphisme d'algèbre de Lie.

PROPOSITION 3.30.
L'algèbre de Lie g d'un groupe matriciel G est une algèbre de Lie réelle.

DEMONSTRATION
Suivant le théorème 3.16, g est une sous algèbre réelle de gl(n,C) et est donc une algèbre de Lie
réelle.

THEOREME 3.31.
Toute algèbre de Lie réelle de dimension finie est isomorphe à une sous algèbre de gl(n,R). Toute
algèbre de Lie complexe de dimension finie est isomorphe à une sous algèbre (complexe) de
gl(n,C).

La démonstration de ce remarquable théorème va bien au-delà du domaine de ce cours (qui est


après tout un cours de mécanique quantique et accessoirement un cours sur les groupes de Lie) et
nécessite une compréhension profonde de la structure des algèbres de Lie complexes. Le théorème
nous dit que toute algèbre de Lie est (isomorphe à) une algèbre de Lie de matrices (c'est à mettre en
contraste avec la situation pour les groupes de Lie où la plus part des groupes de Lie, mais pas tous,
sont des groupes de Lie matriciels).

DEFINITION 3.32.
Soit g une algèbre de Lie. Pour X ∈ g , définissons une application linéaire adX : g → g par
(1) adX (Y ) = [ X , Y ]

Donc "ad" (c'est à dire l'application X → adX ) peut être vu comme une application linéaire de g
dans gl(g) où gl(g) dénote l'espace des opérateurs linéaires de g vers g.

Puisque adX (Y ) est juste [ X , Y ] , il peut sembler fou d'introduire la notation supplémentaire "ad".
Cependant, voir [ X , Y ] comme une application linéaire de Y pour chaque X fixé nous donne une
perspective quelque peu différente. En tout cas, la notation "ad" est extrêmement utile dans
certaines situations. Par exemple, au lieu d'écrire
(2) [ X , [X , [ X , [X , Y ]]]]
nous pouvons maintenant écrire
(3) (adX ) (Y )
4

Cette sorte de notation sera essentielle plus loin.

PROPOSITION 3.33.
Si g est une algèbre de Lie, alors
(4) ad[ X , Y ] = adXadY − adYadX = [adX , adY ]

C'est à dire que ad : g → gl (g ) est un homomorphisme d'algèbre de Lie.

DEMONSTRATION
Observons que
(5) ad[ X , Y ](Z ) = [[ X , Y ], Z ]
tandis que
(6) [adX , adY ](Z ) = [ X , [Y , Z ]] − [Y , [ X , Z ]]

Ainsi, nous exigeons que


(7) [[X , Y ], Z ] = [ X , [Y , Z ]] − [Y , [X , Z ]]
ou de manière équivalente
(8) 0 = [X , [Y , Z ]] + [Y , [Z , X ]] + [Z , [ X , Y ]]
qui est exactement l'identité de Jacobi.

Rappelons que pour tout X ∈ g et tout A ∈ G , nous définissons


(9) AdA( X ) = AXA −1
et que Ad : G → GL(g ) est un homomorphisme de groupe de Lie. Nous avons montré (proposition
3.21) que l'homomorphisme d'algèbre de Lie associé Ad : g → gl (g ) est donné par
(10) Ad X (Y ) = [X , Y ]

Avec notre nouvelle notation, nous pouvons dire


(11) Ad = ad

En suivant la propriété définie de Ad , nous avons l'identité suivante : pour tout X ∈ g ,


( )
(12) Ad e X = e adX

Notons que les deux cotés de (12) sont des opérateurs linéaires sur l'algèbre de Lie g. C'est une
relation importante qui peut aussi être vérifiée directement en développant les deux cotés.

Exercices
1. Démontrez la proposition 3.28.

Le seul point non trivial est l'identité de Jacobi. La seule manière de la démontrer est d'écrire le
tout et de vérifier. Notons que chaque triple commutateur génère quatre termes pour un total de
douze. Chacune des six permutations de {X , Y , Z } apparaissant deux fois, une fois avec le signe
plus et une fois avec le signe moins.

I.3.8.1. Constantes de structure


Soit g une algèbre de Lie réelle ou complexe de dimension finie, et soit X 1 ,…, X n une base de g
[ ]
(comme espace vectoriel). Alors pour chaque i, j, X i , X j peut être écrit de manière unique sous la
forme
[ ]
n
(1) X i , X j = ∑ cijk X k
k =1

Les constantes cijk sont appelées les constantes de structure de g (par rapport à la base choisie).
Clairement, les constantes de structure déterminent l'opération de commutation sur g. Dans une
partie de la littérature, les constantes de structure jouent un rôle important (dans la littérature de la
[ ]
physique, les constantes de structure sont définies comme X i , X j = i ∑ cijk X k , reflétant le facteur
k
i de différence entre la définition de la physique de l'algèbre de Lie et la notre).

Les constantes de structure satisfont les deux conditions suivantes


cijk + c jik = 0
∑ (cijm cmkl + c jkm cmil + c kim + cmjl ) = 0
(2)
m

Pour tout i, j, k, l. La première de ces conditions vient de l'antisymétrie du commutateur et la


seconde vient de l'identité de Jacobi

Exercices
1. Vérifiez ces conditions.
I.3.9. La complexification d'une algèbre de Lie réelle

DEFINITION 3.34.
Si V est un espace vectoriel réel de dimension finie, alors la complexification de V, notée VC , est
l'espace des combinaisons linéaires formelles
(1) v1 + iv 2
avec v1 , v 2 ∈ V . Cela devient un espace vectoriel réel de la manière évidente et devient un espace
vectoriel complexe si nous définissons
(2) i (v1 + iv 2 ) = −v 2 + iv1

Nous pourrions définir de manière plus pédante VC comme l'espace des paires ordonnées (v1 , v 2 )
mais c'est une notation encombrante. Il est immédiat de vérifier que la définition ci-dessus fait
réellement de VC un espace vectoriel complexe. Nous regarderons V comme un sous espace réel de
VC de manière évidente.

PROPOSITION 3.35.
Soit g une algèbre réelle de dimension finie et g C sa complexification (comme espace vectoriel
réel). Alors l'opération de commutation sur g a une extension unique à g C qui fait de g C une
algèbre de Lie complexe. L'algèbre de Lie complexe est appelée la complexification de l'algèbre de
Lie réelle .

DEMONSTRATION
L'unicité de l'extension est évidente puisque si l'opération de commutation sur g C doit être
bilinéaire alors elle doit être donnée par
(3) [ X 1 + iX 2 , Y1 + iY2 ] = ([ X 1 , Y1 ] − [ X 2 , Y2 ]) + i ([ X 1 , Y2 ] + [ X 2 , Y1 ])

Pour montrer l'existence, nous devons contrôler que (3) est réellement bilinéaire et antisymétrique
et qu'elle satisfait l'identité de Jacobi. Il est clair que (3) est bilinéaire réelle et antisymétrique.
L'antisymétrie signifie que si (3) est linéaire complexe dans le premier facteur, elle est aussi linéaire
complexe dans le second facteur. Donc nous avons seulement besoin de montrer que
(4) [i ( X 1 + iX 2 ), Y1 + iY2 ] = i[ X 1 + iX 2 , Y1 + iY2 ]

Le coté gauche de (4) est


i{([X 1 , Y1 ] − [X 2 , Y2 ]) + i ([X 2 , Y1 ] + [ X 1 , Y2 ])}
(5)
= (− [X 2 , Y1 ] − [X 1 , Y2 ]) + i ([X 1 , Y1 ] − [ X 2 , Y2 ])
et en effet ils sont égaux.

Il reste à montrer l'identité de Jacobi. Bien sur, l'identité de Jacobi est valable si X, Y et Z sont dans
g. Mais maintenant, observons que l'expression sur le coté gauche de l'identité de Jacobi est linéaire
(complexe !) en X pour Y et Z fixé. Il s'ensuit que l'identité de Jacobi est valable si X est dans g C
et Y, Z dans g. Le même argument montre alors que nous pouvons l'étendre à Y dans g C puis à Z
dans g C . Donc l'identité de Jacobi est valable dans g C .

PROPOSITION 3.36.
Les algèbres de Lie gl(n,C), sl(n,C), so(n,C) et sp(n,C) sont des algèbres de Lie complexes, tout
comme l'algèbre de Lie du groupe de Heisenberg complexe. En plus, nous avons les isomorphismes
suivant des algèbres de Lie complexes
gl (n, R )c ≅ gl (n, C )
u (n )C ≅ gl (n, C )
sl (n, R )C ≅ sl (n, C )
(6)
so(n )C ≅ so(n, C )
sp (n, R )C ≅ sp (n, C )
sp (n )C ≅ sp (n, C )
DEMONSTRATION
Du calcul de la section précédente, nous voyons facilement que les algèbres de Lie modifiées sont
en fait des sous algèbres complexes de gl(n,C) et sont donc des algèbres de Lie complexes.

Maintenant, gl(n,C) est l'espace de toutes les matrices complexes n × n , tandis que gl(n,R) est
l'espace de toutes les matrices réelles n × n . Clairement, alors, tout X ∈ gl (n, C ) peut être écrit de
manière unique sous la forme X 1 + iX 2 avec X 1 , X 2 ∈ gl (n, R ) . Cela nous donne un espace
vectoriel complexe gl (n, R )C isomorphe avec gl(n,C) et on contrôle trivialement que c'est un
isomorphisme d'algèbre de Lie.

D'un autre coté, u(n) est l'espace de toutes les matrices n × n antisymétrique hermitiques. Mais si X
est une matrice n × n complexe, alors
X −X+ X +X+
X = +
2 2
(7)
=
X−X +
+i
(− iX ) − (− iX )+
2 2

Donc X peut être écrit comme une matrice antisymétrique plus i fois une matrice antisymétrique.
Donc tout X dans gl(n,C) peut être écrit de manière unique comme X 1 + iX 2 avec X 1 et X 2 dans
u(n). Il s'ensuit que u (n )C ≅ gl (n, C ) .

Notons que u (n )C ≅ gl (n, R )C ≅ gl (n, C ) . Cependant u(n) n'est pas isomorphe à gl(n,R), excepté
quand n = 1. Les algèbres de Lie réelles u(n) et gl(n,R) sont appelées formes réelles de l'algèbre de
Lie complexe gl(n,C). Une algèbre de Lie complexe donnée peut avoir plusieurs formes réelles non
isomorphes.

Les physiciens ne distinguent pas toujours clairement un groupe de Lie matriciel et son algèbre de
Lie (réelle) ou une algèbre de Lie réelle et sa complexification. Donc, par exemple, dans la
littérature de la physique, certaines références à SU(2) se réfèrent réellement à l'algèbre de Lie
complexifiée sl(2,C).
Exercices
1. La règle produit. Rappelons qu'une fonction matricielle A(t) est régulière si chaque Aij (t ) est
régulier. La dérivée d'une telle fonction est définie comme
 dA  dAij
  =
 dr  ij dt
ou de manière équivalente,
A(t + h ) − A(t )
A(t ) = lim
d
dt h →0 h

Soit A(t) et B(t) deux fonctions de ce type. Prouvez que A(t)B(t) est encore régulier et que
d
[A(t )B(t )] = dA B(t ) + A(t ) dB
dt dt dt
2. En utilisant la forme canonique de Jordan, montrez que toute matrice n x n A peut être écrite
comme A = S + N avec S diagonalisable (sur C), N nilpotent et SN = NS. Rappelez que la
forme canonique de Jordan est diagonale par bloc avec chaque bloc de la forme
λ ∗
 
 O 
0 λ 

3. Soit X et Y des matrices n x n. Montrez qu'il existe une constante C telle que
C
e ( X +Y ) / m − e X / m e Y / m ≤ 2
m
pour tout entier m ≥ 1 .
4. En utilisant la forme canonique de Jordan, montrez que toute matrice complexe n x n A est la
limite d'une suite de matrices diagonalisables.

Suggestion : si le polynôme caractéristique de A a n racines distinctes, alors A est


diagonalisable.
5. Donnez un exemple de groupe de Lie matriciel G et une matrice X tel que e X ∈ G mais X ∉ g .
6. Montrez que deux groupes de Lie matriciels isomorphes ont des algèbres de Lie isomorphes.
7. L'algèbre de Lie so(3,1). Ecrivez explicitement la forme générale d'une matrice réelle 4x4 dans
so(3,1).
8. Vérifiez directement que la proposition 3.15 et que le théorème 3.16 sont valables pour l'algèbre
de Lie de SU(n).
9. L'algèbre de Lie su(2). Montrez que les matrices suivantes forment une base pour l'algèbre de
Lie réelle :
i 0   0 1 0 i 
E1 = 12   E 2 = 12   E3 =  
o − i  − 1 0  i 0

Calculez [E1 , E 2 ] , [E 2 , E3 ] et [E3 , E1 ] . Montrez qu'il y a une application linéaire inversible


φ : su (2) → R 3 telle que φ ([X , Y ]) = φ ( X ) × φ (Y ) pour tout X , Y ∈ su (2) où × dénote le produit
vectoriel sur R 3 .
10. Les algèbres de Lie su(2) et so(3). Montrez que les algèbres de Lie réelles de su(2) et su(3) sont
isomorphes.

Note : néanmoins, les groupes correspondant SU(2) et SO(3) ne sont pas isomorphes (bien que
SO(3) soit isomorphe à SU(2)/{I,-I}).
11. Les algèbres de Lie su(2) et sl(2,R). Montrez que su(2) et sl(2,R) ne sont pas des algèbres de
Lie isomorphes même si su (2 )C ≅ sl (3, R )C .

Suggestion : en utilisant l'exercice 9, montrez que su(2) n'a pas de sous-algèbre a deux
dimensions.
12. Soit G un groupe de Lie matriciel et g son algèbre de Lie. Pour chaque A ∈ G , montrez que
Ad A est un automorphisme d'algèbre de Lie de g.
13. Ad et ad. Soit X et Y des matrices. Montrez par induction que

(ad X )n (Y ) = ∑   X k Y (− X )n− k


n n
k =0  k 

Maintenant, montrez par calcul direct que


( )
e ad X (Y ) = Ad e X Y = e X Ye − X
Vous pouvez supposer qu'il est légal de multiplier des développements en série terme à terme
(ce résultat fut obtenu indirectement dans l'équation (12) de la section I.3.7).

Suggestion : rappelez que le triangle de Pascal donne une relation entre des choses de la forme
 n + 1  n
  et des choses de la forme   .
 k  k
14. La complexification d'une algèbre de Lie réelle. Soit g une algèbre de Lie réelle, g C sa
complexification et h une algèbre de Lie complexe arbitraire. Montrez que tout
homomorphisme d'algèbre de Lie réelle de g vers h s'étend de manière unique à un
homomorphisme d'algèbre de Lie complexe de g C vers h (c'est la propriété universelle de la
complexification d'une algèbre de Lie réelle. Cette propriété peut être utilisée comme une
définition alternative de la complexification).
15. L'application exponentielle pour SL(2,R). Montrez que l'image de l'application exponentielle
pour SL(2,R) consiste précisément en les matrices A ∈ SL(2, R ) telles que tr ( A) > −2 avec la
matrice -I (qui a la trace -2). Vous avez besoin de considérer les possibilités pour les valeurs
propres d'une matrice dans l'algèbre de lie sl(2,R) et dans le groupe SL(2,R). Dans l'algèbre de
Lie, montrez que les valeurs propres sont de la forme (a, 1/a) ou (-a, -1/a) avec a réel et positif
( )
ou bien de la forme e iθ , e − iθ avec θ réel. Le cas d'une valeur propre double ((0,0) dans
l'algèbre de Lie et (1,1) ou (-1,-1) dans le groupe) sera traité séparément.
16. En utilisant l'exercice 4, montrez que l'application exponentielle pour GL(n,C) est bijective sur
un sous-ensemble dense de GL(n,C).
17. L'application exponentielle pour le groupe de Heisenberg. Montrez que l'application
exponentielle pour l'algèbre de Lie du groupe de Heisenberg vers le groupe de Heisenberg est
bijective.
18. L'application exponentielle pour U(n). Montrez que l'application exponentielle de u(n) vers
U(n) est surjective mais pas injective (notez que cela montre que U(n) est connexe).

Suggestion : toute matrice unitaire a une base orthonormale de vecteurs propres.


19. Soit G un groupe de Lie matriciel et g son algèbre de Lie. Soit A(t) une courbe régulière dans
G, avec A(0) = I. Soit X = dtd t =0 A(t ) . Montrez que X ∈ g .

Suggestion : utilisez la proposition 3.8.

Note : cela montre que l'algèbre de Lie g coïncide avec ce qui serait appelé l'espace tangent à
l'identité dans le langage des variétés différentiables.
20. Considérez l'espace gl(n,C) de toutes les matrices complexes n x n. Comme d'habitude, pour
X ∈ gl (n, C ) définissons ad X : gl (n, C ) → gl (n, C ) par ad X (Y ) = [ X , Y ] . Supposons que X est
une matrice diagonalisable. Montrez alors que ad X est diagonalisable comme un opérateur sur
gl(n,C).

Suggestion : considérez d'abord le cas où X est réellement diagonal.

Note : le problème de la diagonalisation de ad X est un problème important que nous


rencontrerons à nouveau plus loin lorsque nous considérerons les algèbres de Lie semi-simples.
21. Démontrez les relations (6) de la section I.3.9.

I.4. La formule de Baker-Campbell-Hausdorff

I.4.1. La formule de Baker-Campbell-Hausdorff pour le groupe de


Heisenberg
Un résultat crucial du chapitre sur les représentations sera le suivant : soit G et H des groupes de
Lie matriciels avec les algèbres de Lie g et h et supposons que G est connexe et simplement
~
connexe. Alors si φ : g → h est un homomorphisme d'algèbre de Lie, il existe un homomorphisme
~
de groupe de Lie unique φ : G → H tel que φ et φ sont reliés comme dans le théorème 3.18. Ce
résultat est extrêmement important car il implique que si G est connexe et simplement connexe,
alors il y a une correspondance naturelle injective entre les représentations de g et les
représentations de son algèbre de Lie (comme expliqué dans la partie sur les représentations). En
pratique, il est beaucoup plus facile de déterminer les représentations de l'algèbre de Lie que de
déterminer directement les représentations du groupe correspondant.

Ce résultat (reliant homomorphismes d'algèbre de Lie et homomorphismes de groupe de Lie) est


profond. La démonstration "moderne" utilise le théorème de Frobenius qui est à la fois dur à
comprendre et dur à démontrer. Notre démonstration utilise plutôt la formule de Baker-Campbell-
Hausdorff qui est plus facile à établir et plus facilement motivée que le théorème de Frobenius,
mais est encore profonde.

L'idée est la suivante. L'homomorphisme de groupe désiré φ : G → H doit satisfaire


( )
(1) φ e X = e φ ( X )
~

Nous aimerions alors définir φ par cette relation. Cette approche a deux sérieuses difficultés.
Premièrement, un élément donné de G peut ne pas être exprimable comme e X et même si c'est le
cas, le X peut ne pas être unique. Deuxièmement, il est loin d'être clair que le φ dans (1) (même si
son extension est bien définie) doit être un homomorphisme de groupe.

C'est à la seconde question que la formule de Baker-Campbell-Hausdorff s'adresse (la première


question sera examinée dans la partie sur les représentations. C'est là que la simple connexité de G
joue un rôle). Spécifiquement, (une forme de) la formule de Baker-Campbell-Hausdorff dit que si
X et Y sont suffisamment petits, alors
( )
(2) ln e X e Y = X + Y + [ X , Y ] + [ X , [ X , Y ]] − [Y , [ X , Y ]] + L
1
2
1
12
1
12

Il n'est pas supposé évident pour le moment ce à quoi "…" se réfère. Le seul point important est que
tous les termes dans (2) sont donnés en fonction de X et Y, des commutateurs de X et Y, des
~
commutateurs de commutateurs impliquant X et Y, etc. Alors comme φ est un homomorphisme
d'algèbre de Lie
φ (ln (e X e Y )) = φ ( X ) + φ (Y ) +
~ ~ ~ 1 ~
2
[ ~
]
φ ( X ), φ (Y ) +
(3)
1 ~
12
[ ~
[
φ ( X ), φ ( X ), φ (Y )
~
]] − [
1 ~
12
[
~ ~
]]
φ (Y ), φ ( X ), φ (Y ) + L

La relation (3) est extrêmement significative. Pour bien sûr


ln  e X eY 
(4) e X e Y = e  

et aussi selon (1),


φ  ln  e X eY  
( )
~

(5) φ e X e Y = e   

Donc, (3) nous dit que


( )= e φ ( X ) φ (Y )
( )( )
~ ~
(6) φ e e X Y ln e e
= e φ ( X )e φ (Y ) = φ e X φ e Y

Donc, la formule de Baker-Campbell-Hausdorff montre que sur les éléments de la forme e X , avec
X petit, φ est un homomorphisme de groupe (voir corollaire 4.4 ci-dessous).

La formule de Baker-Campbell-Hausdorff montre que toute l'information sur le produit du groupe,


~
au moins près de l'identité, est "encodée" dans l'algèbre de Lie. Donc, si φ est un homomorphisme
d'algèbre de Lie (qui par définition préserve la structure de l'algèbre de Lie) et si nous définissons
φ près de l'identité par (1), alors nous pouvons nous attendre à ce que φ préserve la structure du
groupe, c'est-à-dire à ce qu'il soit un homomorphisme de groupe.

Dans cette section, nous regarderons comment cela fonctionne dans le cas très spécial du groupe de
Heisenberg. Dans la prochaine section, nous considérerons la situation générale.

THEOREME 4.1.
Supposons que X et Y sont des matrices complexes n × n et que X et Y commutent avec leur
commutateur. C'est à dire, supposons que
(7) [ X , [X , Y ]] = [Y , [ X , Y ]] = 0

Alors
X +Y +
1
[ X ,Y ]
(8) e e = e
X Y 2

C'est le cas spécial de (2) dans lequel la série se termine après le terme [ X , Y ] .

DEMONSTRATION
Soit X et Y comme décrit dans le théorème. Nous prouverons qu'en fait
 t2 
(9) e tX e tY = exp tX + tY + [ X , Y ]
 2 
qui se réduit au résultat désiré dans le cas t = 1. Puisque par supposition [ X , Y ] commute avec tout
le contenu entre parenthèse, la relation ci-dessus est équivalente à
t2
− [ X ,Y ]
(10) e e e tX tY 2
= e t ( X +Y )

Appelons le coté gauche de (10) A(t ) et le coté droit B(t ) . Notre stratégie sera de montrer que A(t )
et B(t ) satisfont la même équation différentielle avec les mêmes conditions initiales. Nous pouvons
voir directement que
= B (t )( X + Y )
dB
(11)
dt

D'autre part, en différentiant A(t ) avec la règle du produit, on a


2 2 2
− [ X ,Y ] − [ X ,Y ] − [ X ,Y ]
t t t
(12)
dA
= e Xe e
tX tY 2
+ e e Ye
tX tY 2
+e e e 2
tX tY
(− t[X , Y ])
dt
(vous pouvez vérifier que le dernier terme sur le coté droit est correct en différentiant terme à
terme).
t2
[ X ,Y ]
Maintenant, puisque X et Y commutent avec [ X , Y ] , ils commutent aussi avec e

2
. Donc le
second terme sur le coté droit de (12) peut être réécrit comme
t2
tX tY
− [ X ,Y ]
2
(13) e e e Y

Le premier terme sur le coté droit de (12) est plus compliqué puisque X ne commute pas
nécessairement avec e tY . Cependant,
Xe tY = e tY e − tY Xe tY
( )
(14) = e tY Ad e −tY ( X )
= e tY e −tadY ( X )

Mais puisque [Y , [Y , X ]] = −[Y , [ X , Y ]] = 0 ,


(15) e − tadY ( X ) = X − t [Y , X ] = X + t [ X , Y ]
t2
− [ X ,Y ]
2
avec tous les termes plus élevés étant zéro. En utilisant que tout commute avec e , cela donne
t2 t2
− [ X ,Y ] − [ X ,Y ]
(16) etX XetY e 2
= e tX e tY e 2
( X + t [X , Y ])
En substituant dans (12) on a
t2 t2 t2
− [ X ,Y ] − [ X ,Y ] − [ X ,Y ]
dA
= e tX e tY e 2 ( X + t [X , Y ]) + e tX e tY e 2 Y + e tX e tY e 2 (− t[X , Y ])
dt
t2
− [ X ,Y ]
(17) = e e e tX tY 2
(X + Y )
= A(t )( X + Y )

Donc A(t ) et B(t ) satisfont la même équation différentielle. De plus, A(0) = B(0) = I . Donc par
l'unicité standard du résultat pour les équations différentielles ordinaires, A(t ) = B(t ) pour tout t.
THEOREME 4.2.
Soit H le groupe de Heisenberg et h son algèbre de Lie. Soit G un groupe de Lie matriciel avec
~
l'algèbre de Lie g et soit φ : h → g un homomorphisme d'algèbre de Lie. Alors il existe un unique
homomorphisme de groupe de Lie φ : H → G tel que
( )
(18) φ e X = e φ ( X )
~

pour tout X ∈ h .

DEMONSTRATION
Rappelons que le groupe de Heisenberg a la propriété très spéciale que son application
exponentielle est bijective. Soit "ln" l'inverse de cette application. Définissons φ : H → G par la
formule
(19) φ ( A) = eφ (log A )
~

Nous allons montrer que φ est un homomorphisme de groupe de Lie.

Si X et Y sont dans l'algèbre de Lie du groupe de Heisenberg (des matrices 3× 3 strictement


triangulaires supérieures), alors [ X , Y ] est de la forme
0 0 a
 
(20)  0 0 0 
0 0 0
 

Une telle matrice commute avec X et Y. C'est à dire que X et Y commutent avec leur commutateur.
Puisque φ est un homomorphisme d'algèbre de Lie, φ ( X ) et φ (Y ) commutent aussi avec leur
~ ~ ~
commutateur :
~
[ ~
[ ~
]]
φ ( X ), φ ( X ), φ (Y ) = φ ([ X , [X , Y ]]) = 0
~

[ [ ]]
(21) ~
φ (Y ), φ ( X ), φ (Y ) = φ ([Y , [ X , Y ]]) = 0
~ ~ ~
Nous désirons montrer que φ est un homomorphisme, c'est à dire que φ ( AB ) = φ ( A)φ (B ) .

A peut être écrit comme e X pour un unique X ∈ h et B peut être écrit comme e Y pour un unique
Y ∈ h . Donc, suivant le théorème 4.1
~
[ 
(22) φ ( AB ) = exp φ ( X ) + φ (Y ) + φ ( X ), φ (Y ) 
~ 1 ~ ~
]
 2 

Finalement, en utilisant le théorème 4.1 à nouveau, nous avons


(23) φ ( AB ) = e φ ( X )e φ (Y ) = φ ( A)φ (B )
~ ~

Donc φ est un homomorphisme. Il est facile de contrôler que φ est continu (en contrôlant que ln,
~
exp et φ sont tous continus) et ainsi φ est un homomorphisme de groupe de Lie. De plus, par
~
définition φ a la bonne relation avec φ . De plus, puisque l'application exponentielle est bijective,
( )
il peut y avoir au plus un φ avec φ e X = e φ ( X ) . Ainsi nous avons l'unicité.
~

I.4.2. La formule générale de Baker-Campbell-Hausdorff


L'importance de la formule de Baker-Campbell-Hausdorff ne tient pas aux détails de la formule,
( )
mais au fait qu'il y en a une et le fait qu'elle donne ln e X e Y en fonction des commutateurs de X et
Y, des commutateurs de commutateurs, etc. Cela nous dit quelque chose de très important, c'est-à-
dire que (au moins pour les éléments de la forme e X , X petit) le produit de groupe pour un groupe
de Lie matriciel G est entièrement exprimable en fonction de l'algèbre de Lie (c'est parce que
( )
ln e X e Y , et donc aussi e X e Y lui-même, peut être calculé à l'aide de l'algèbre de Lie par la formule
au début de la section précédente).

Nous voulons réellement établir et démontrer une forme intégrale de la formule de Baker-
Campbell-Hausdorff plutôt que le développement en série que nous avons vu. Cependant, la forme
intégrale est suffisante pour obtenir le résultat désiré (voir corollaire 4.4).

Considérons la fonction
(1) g ( z ) =
ln z
1
1−
z

Cette fonction est définie et analytique dans le disque {Z − 1 < 1} et donc, pour z dans cet
ensemble, g(z) peut être exprimé comme

(2) g ( z ) = ∑ a m ( z − 1)
m

m =0

Cette série a un rayon de convergence égal à un.

Maintenant, supposons que V est un espace vectoriel complexe de dimension finie. Choisissons une
base arbitraire de V telle que V peut être identifié avec C n et donc la norme d'un opérateur linéaire
sur V peut être définie. Alors pour tout opérateur A sur V avec A − I < 1 , nous pouvons définir

(3) g ( A) = ∑ a m ( A − 1)
m

m =0

Nous sommes maintenant prêts à établir la forme intégrale de la formule de Baker-Campbell-


Hausdorff.

THEOREME 4.3. (Baker-Campbell-Hausdorff)


Pour toutes matrices complexes n × n X et Y avec X et Y suffisamment petits,

( ) 1

0
( )
(4) ln e X e Y = X + ∫ g e adX e tadY (Y )dt

COROLLAIRE 4.4.
Soit G un groupe de Lie matriciel et g son algèbre de Lie. Supposons que φ : g → gl (n, C ) est un
~

(
homomorphisme d'algèbre de Lie. Alors pour tous X, Y suffisamment petits dans g, ln e X e Y est)
dans g et
~
[ ( )] (
(5) φ ln e X e Y = ln eφ ( X )eφ (Y )
~ ~
)
( )
Notons que e adX e tadY , et donc aussi g e adX e tadY , est un opérateur linéaire sur l'espace gl(n,C) de
toutes les matrices complexes n × n . Dans (4), cet opérateur étant appliqué à la matrice Y. Le fait
que X et Y sont supposés petits garantit que e adX e tadY est proche de l'opérateur identité sur gl(n,C)
( )
pour tout 0 ≤ t ≤ 1 . Cela assure que g e adX e tadY est bien défini.

( ) (
Si X et Y commutent, alors nous nous attendons à avoir ln e X e Y = ln e X +Y = X + Y . )
La formule (4) est de toute évidence d'apparence horrible. Cependant, nous ne sommes pas
( )
intéressés par les détails de la formule, mais par le fait qu'elle exprime ln e X e Y (et donc e X e Y ) en
fonction des quantités de l'algèbre de Lie adX et adY .

( )
Le but du théorème de Baker-Campbell-Hausdorff est de calculer ln e X e Y . Vous pouvez vous
demander, "Pourquoi ne pas développer simplement les exponentielles et le logarithme en séries et
en les multipliant ?". Bien, vous pouvez faire cela, et si vous le faite pour plusieurs des premiers
termes, vous aurez la même réponse. Cependant, il y a un sérieux problème avec cette approche,
c'est à dire : comment savoir que les termes dans un tel développement peuvent être exprimés en
fonction des commutateurs ? Considérons, par exemple, le terme quadratique. Il est clair qu'il sera
une combinaison linéaire de X 2 , Y 2 , XY et YX . Mais pour l'exprimer en fonction des
commutateurs, il doit réellement être une constante fois ( XY − YX ) . Bien sûr, pour le terme
quadratique, vous pouvez juste le multiplier et voir, et en effet vous avez 12 ( XY − YX ) = 12 [X , Y ] .
Mais il est loin d'être clair de voir comment prouver qu'un résultat similaire se produit pour tous les
termes d'ordre plus élevé.

DEMONSTRATION
Nous commençons par prouver que le corollaire suit de la forme intégrale de la formule de Baker-
Campbell-Hausdorff. La démonstration est conceptuellement similaire au raisonnement dans
l'équation (3) de la section précédente. Notez que si X et Y sont dans une certaine algèbre de Lie g,
~
alors adX et adY préserveront g. Il reste seulement à vérifier (5). L'idée est que si φ est un
homomorphisme d'algèbre de Lie, alors il aura une grande et horrible expression impliquant 'ad' et
X et Y et donnera la même expression avec X et Y remplacés par φ ( X ) et φ (Y ) .
~ ~

~
Plus précisément, puisque φ est un homomorphisme d'algèbre de Lie,
~ ~
[
(6) φ [Y , X ] = φ (Y ), φ ( X )
~
]
ou
~ ~ ~
(
(7) φ (adY ( X )) = adφ (Y ) φ ( X ) )
Plus généralement,
( ) (
(8) φ (adY ) ( X ) = adφ (Y ) φ ( X )
~ n ~ n ~
)( )
Cela étant le cas,

( ) ( )

tm ~
φ e ( X ) = ∑ φ (adY )m ( X )
~ adY
m = 0 m!

( )( )

tm
adφ (Y ) φ ( X )
~ m ~
(9) = ∑
m = 0 m!

(
= e tadφ (Y ) φ ( X )
~ ~
)
De même,
( ) ( )
(10) φ e adX e tadY ( X ) = e adφ ( X )e tadφ (Y ) φ ( X )
~ ~ ~ ~

Supposons maintenant que X et Y sont suffisamment petit pour que B-C-H s'applique à X et Y et à
φ ( X ) et φ (Y ) . Alors, en utilisant la linéarité de l'intégrale et un raisonnement similaire à ci-dessus,
~ ~
nous avons :
φ (ln (e X e Y )) = φ ( X ) + ∫ ∑ a φ [(e ) ( X )]dt
~ ~ 1 ∞ ~ m
m
adX
e tadY − I
0
m =0

(11) = φ ( X ) + ∫
~
0
1 ∞
∑a m (e ~ ~
adφ ( X ) tadφ (Y )
e −I ) (φ~( X ))dt
m

m=0

(
= ln e φ ( X ) φ (Y )
~
e
~
)
C'est ce que nous désirions montrer.

Avant de venir à la démonstration de la formule de Baker-Campbell-Hausdorff elle-même, nous


voulons obtenir un résultat concernant les dérivées d'applications exponentielles. Ce résultat est
précieux et jouera un rôle central dans notre démonstration de la formule de Baker-Campbell-
Hausdorff.

Observons que si X et Y commutent, alors


(12) e X +tY = e X e tY
et ainsi
d X +tY d
(13) e = e X e tY = eXY
dt t =0 dt t =0

En général X et Y ne commutent pas et


d X +tY
(14) e ≠ eXY
dt t =0

C'est, en fait, un résultat important. En particulier, notons que dans le langage du calcul des
multivariations
d X +tY
(15) e = dérivée directionnelle de exp en X en direction de Y
dt t =0
Donc calculer le coté gauche de (15) est le même que calculer toutes les dérivées directionnelles de
la fonction exp (matricielle). Nous nous attendons à ce que la dérivée directionnelle soit une
fonction linéaire de Y pour chaque X fixé.

Maintenant, la fonction
 z2 
1 − 
 1 − z + − L
1− e z
 2! 
(16) =
z z
est une fonction entièrement analytique de z, même en z = 0 et est donnée par le développement en
série
n −1
1− ez ∞
z z2
= ∑ (− 1)
n −1 z
(17) = 1− + −L
z n =1 n! 2! 3!

Cette série (qui a un rayon de convergence infini) prend un sens quand z est remplacé par un
opérateur linéaire A sur un certain espace vectoriel de dimension finie.

THEOREME 4.5. (Dérivée de L'exponentielle)


Soit X et Y des matrices complexes n × n . Alors
 I − e −adX 
d X +tY
e = eX  (Y )
dt t =0  adX 
(18)

= e X Y −
[X , Y ] + [X , [X , Y ]] − L

 2! 3! 

Plus généralement, si X (t ) est une fonction matricielle régulière, alors


d X (t )  I − e −adX (0 )  dX 
(19) e = e X (0 )   
dt t =0  ad X (0 )  dt t =0  
Notons que la dérivée directionnelle dans (18) est en effet linéaire en Y pour chaque X fixé. Notons
aussi que (18) est juste un cas particulier de (19) en prenant X (t ) = X + tY et en l'évaluant en t = 0.

De plus, observons que si X et Y commutent, alors seul le premier terme dans la série (18) survit.
d X +tY
Dans ce cas, nous obtenons e ≠ e X Y comme attendu.
dt t =0

DEMONSTRATION
Il est possible de prouver ce théorème en développant tout en série et en différentiant terme à terme.
Nous ne prendrons pas cette approche. Nous prouverons seulement la forme (18) de la formule
dérivée, mais la forme (19) s'ensuit par la règle d'enchaînement.

Utilisons la formule du produit de Lie et supposons pour le moment qu'il est légal d'échanger limite
et dérivée (nous considérerons cette question à la fin). Alors nous avons
d
(20) e − X e X +tY
dt
d
= e − X lim e X / n e tY / n
n → ∞ dt
n
( )
t =0 t =0

Nous appliquons maintenant la règle du produit (généralisée à n facteurs) pour obtenir


d
e − X e X +tY
dt t =0
n −1
= e − X lim ∑ e X / n e tY / n
n →∞
k =0
n − k −1
[( ) ( )( )] k
e X / n e tY / nY / n e X / n e tY / n t =0

( ) (e )( )
n −1
n − k −1
(21) = e − X lim ∑ e X / n X /n k
Y / n eX /n
n →∞
k =0

( ) Y (e )
n −1
1 −k
= lim
n →∞ n

k =0
eX /n X /n k

Mais

(22)
(e ) Y (e )
X / n −k X /n k
[
= Ad e − X / n ( ) ](Y )
k

= (e ) (Y )
−adX / n k
(où nous avons utilisé la relation entre Ad et ad). Ainsi nous avons
d
(23) e − X e X +tY
dt n → ∞
1 n −1
= lim ∑ e −adX / n (Y )
n k =0
k
( )
t =0

∑ (e )
n −1 −adX / n k
Observons maintenant que k =0
est une série géométrique. Raisonnons maintenant pour
un moment à un niveau purement formel. En utilisant la formule usuelle pour les séries
géométriques, nous avons

e −X d X + tY
e = lim
(
1 I − e − adX / n ) (Y )
n

dt n →∞ n I − e −adX / n
t =0

I − e −adX
= lim (Y )
n →∞   adX (adX ) 
2

I −  I − + 2 − L
(24)   n n 2! 
I − e −adX
= lim (Y )
n →∞
adX −
(adX )2 +L
n 2 2!
I − e −adX
= (Y )
adX

C'est ce que nous désirions montrer !

Cet argument a-t-il un sens à un niveau plus rigoureux ? En fait oui. Comme d'habitude,
considérons d'abord le cas diagonalisable. C'est à dire, supposons que adX est diagonalisable
comme opérateur sur gl(n,C) et supposons que Y est un vecteur propre de adX . Cela signifie que
adX (Y ) = [ X , Y ] = λY pour un certain λ ∈ C . Maintenant, il y a deux cas, λ = 0 et λ ≠ 0 . Le cas
λ = 0 correspond au cas dans lequel X et Y commutent et nous avons déjà observé que le théorème
était valable de manière triviale dans ce cas.
Le cas intéressant, alors, est le cas λ ≠ 0 . Notons que (adX ) (Y ) = λnY , et ainsi
n

(
(25) e − adX / n ) = (e
k
) (Y )
−λ / n k

Donc la série géométrique dans (23) devient une série complexe ordinaire avec le rapport e − λ / n .
Puisque λ ≠ 0 , ce rapport sera différent de un pour tout n suffisamment grand. Donc, nous avons

(26) e −X d
e X + ty

=  lim
1 I − e( )
−λ / n n 
Y
dt  n→∞ n I − e − λ / n 
t =0  

Il n'y a maintenant pas de problème pour prendre la limite comme nous l'avons fait formellement
ci-dessus pour avoir
d 1 − e −λ
e − X e X + tY = Y
dt t =0 λ
(27)
I − e −adX
= Y
adX

Nous voyons alors que le théorème est valable dans le cas où adX est diagonalisable et Y est un
vecteur propre de adX . Si adX est diagonalisable mais que Y n'est pas un vecteur propre, alors
adX est une combinaison linéaire de vecteurs propres et en appliquant le calcul ci-dessus pour
chacun de ces vecteurs propres, on obtient le résultat désiré.

Nous avons besoin, alors, de considérer le cas où adX n'est pas diagonalisable. Mais, si X est une
matrice diagonalisable, alors adX sera diagonalisable comme opérateur sur gl(n,C). Puisque nous
avons déjà observé que toute matrice est la limite de matrices diagonalisables, nous avons fait
l'essentiel. Il est facile de voir en différentiant le développement en série terme à terme que
e − X dtd e X + tY existe et varie continûment avec X. Donc, une fois que nous avons le théorème pour
t =0
tous les X diagonalisables, nous l'avons pour tous les X en passant à la limite.
La seule question non résolue, alors, est l'échange de limite et dérivée que nous avons effectué au
début de l'argumentation. Nous ne désirons pas en parler en détail, mais voyons ce qui serait
impliqué dans sa justification. Un théorème standard de l'analyse élémentaire dit que si
f n (t ) → f (t ) (convergence simple) et qu'en plus df n / dt converge uniformément vers une certaine
fonction g(t), alors f(t) est différentiable et df / dt = g (t ) . Le besoin clé est que les dérivées
convergent uniformément. La convergence uniforme des f n eux-mêmes n'est définitivement pas
suffisante.

Dans notre cas, f n (t ) = e − X (e X / n e tY / n ) . La formule du produit de Lie dit que cela converge
n

simplement vers e − X e X + tY . Nous avons besoin, alors, de montrer que


(28)
dt
e e e (
d − X X / n tY / n n
)
converge uniformément vers un certain g(t), disons dans l'intervalle − 1 ≤ t ≤ 1 . Ce calcul est
similaire à ce que nous avons fait ci-dessus avec les modifications relativement mineures pour
prendre en compte le fait que nous ne prenons pas t = 0 et pour s'assurer que la convergence est
uniforme.

Exercices
1. Démontrez le résultat demandé pour l'équation (28).

I.4.2.1. Démonstration de la formule de Baker-Campbell-Hausdorff


Nous passons maintenant à la démonstration de la formule de Baker-Campbell-Hausdorff elle-
même. Définissons
(
(1) Z (t ) = ln e X e tY )
Si X et Y sont suffisamment petits, alors Z(t) est définit pour 0 ≤ t ≤ 1 . Notre but est de calculer
Z(1).

Par définition
(2) e Z (t ) = e X e tY
tel que
= (e X e tY ) e X e tY Y = Y
d Z (t ) −1
(3) e − Z (t ) e
dt

D'autre part, suivant le théorème 4.5,


d  I − e − adZ (t )  dZ 
(4) e − Z (t ) e Z (t ) =   
dt  adZ (t )  dt 

Donc
 I − e − adZ (t )  dZ 
(5)   =Y
 adZ (t )  dt 

( )
Si X et Y sont suffisamment petits, alors Z(t) sera aussi petit, tel que I − e − adZ (t ) / adZ (t ) sera
proche de l'identité et donc inversible. Ainsi
−adZ (t ) −1
 dZ   I − e 
(6)  =  (Y )
 dt   adZ (t ) 

Rappelons que e Z (t ) = e X e tY . En appliquant l'homomorphisme 'Ad', on a


( ) ( ) ( )
(7) Ad e Z (t ) = Ad e X Ad e tY

Suite à la relation entre 'Ad' et 'ad', cela devient


(8) e adZ (t ) = e adX e tadY
ou
(
(9) adZ (t ) = ln e adX e tadY )
En mettant cela dans (6), on a
( )
−1 −1
 dZ   I − e e 
adX tadY
(10)  = (Y )
(
adX tadY
 dt   ln e e ) 


Mais maintenant, observons que


−1
1 − z −1 
(11) g ( z ) =  
 ln z 
ainsi, formellement, (10) est le même que
= g (e adX e tadY )(Y )
dZ
(12)
dt

En raisonnant comme dans la démonstration du théorème 4.5, on montre facilement que cet
argument formel est réellement correct.

Maintenant, nous avons fait l'essentiel, nous notons que Z(0) = X et nous intégrons (12), nous
avons
(
(13) Z (1) = X + ∫ g e adX e tadY (Y )dt
1

0
)
qui est la formule de Baker-Campbell-Hausdorff.

Exercices
1. Vérifiez que Z(t) dans (1) de la section I.4.2.1 est régulier.

I.4.3. La forme série de la formule de Baker-Campbell-Hausdorff


Voyons comment obtenir les premiers termes de la forme série de B-C-H à partir de la forme
intégrale. Rappelons la fonction
g (z ) =
z ln z
z −1

[1 + (z − 1)](z − 1) − (z − 1) (z − 1)3
 2

+ − L
 2 3 
(1) =
(z − 1)
 z − 1 ( z − 1)2 
= [1 + ( z − 1)]1 − + − L
 2 3 

En multipliant et en regroupant les termes, on a


(2) g ( z ) = 1 + ( z − 1) − (z − 1) + L
1 1 2

2 6

La forme complète pour g est

(3) g ( z ) = 1 + ∑

(− 1)
n +1
(z − 1)n
n =1 n(n + 1)

Mais,

e adX
e tadY


− I =  I + adX +
(adX )
2


+ L I + tadY +
t 2 (adY )
2

+ L − I
 2  2 
(4)
= adX + tadY + tadXadY +
(adX )2 +
t 2 (adY )
2
+L
2 2

L'observation cruciale ici est que e adX e tadY − I n'a pas de terme d'ordre zéro, juste le premier ordre
et des plus élevés en adX / adY . Donc e adX e tadY − I ( )
n
contribuera seulement à des termes de degré
n ou plus élevés en adX / adY .

Nous avons, alors, jusqu'au degré deux en adX / adY


(5)

( )
g e adX e tadY = I +
1
+ + +
(adX )2 + t 2 (adY )2 + L − 1 [adX + tadY + L]2
ad X t ad Y t ad Xad Y 
2 2 2  6
1 t t
= I + adX + adY + adXadY +
(adX ) + t 2 (adY ) − 1 (adX )2 + t 2 (adY )2 + tadXadY + tadYadX
2 2
[ ]
2 2 2 4 4 6
plus des termes d'ordre plus élevé.

( )
Nous appliquons maintenant g e adX e tadY à Y et nous intégrons. Ainsi (en négligeant les termes
d'ordre plus élevé) selon B-H-C et en notant que tout terme avec adY agissant d'abord est zéro :
( ) 1 
ln e X e Y = X + ∫ Y + [ X , Y ] + [ X , [X , Y ]] − [ X , [ X , Y ]] − [Y , [ X , Y ]] dt
1 1 1 t
0
 2 4 6 6 
(6)
1 1
= X + Y + [ X , Y ] +  − [ X , [ X , Y ]] − ∫ tdt [Y , [ X , Y ]]
1 1 1
2  4 6 6 0

Donc, si nous effectuons le calcul, nous terminons avec


( )
(7) ln e X e Y = X + Y + [ X , Y ] + [ X , [ X , Y ]] − [Y , [ X , Y ]]
1
2
1
12
1
12
plus des termes d'ordre plus élevés.

I.4.4. Sous-groupes et sous-algèbres


Supposons que G est un groupe de Lie matriciel, H un autre groupe de Lie matriciel et supposons
que H ⊂ G . Alors certainement, l'algèbre de Lie h de H sera une sous-algèbre de l'algèbre de Lie g
de G. Est-ce que ceci marche dans l'autre sens ? C'est-à-dire étant donné un groupe de Lie G avec
l'algèbre de Lie g, et une sous-algèbre h de g, y a-t-il un groupe de Lie H dont l'algèbre de Lie est h
?

Dans le cas du groupe de Heisenberg, la réponse est oui. C'est facile à voir en utilisant le fait que
l'application exponentielle est bijective et avec la forme particulière de la formule de Baker-
Campbell-Hausdorff.
Malheureusement, la réponse en général est non. Par exemple, soit G = GL(2,C) et soit
 it 0  
(1) h =   t ∈ R 
 0 ita  
où a est irrationnel. S'il devait y avoir un groupe de Lie matriciel H avec l'algèbre de Lie h, alors H
contiendrait l'ensemble
 e it 0  
(2) H 0 =  
ita 
t ∈ R 
 0 e  

Pour être un groupe de Lie matriciel, H devrait être fermé dans GL(2,C) et ainsi il devrait contenir
la fermeture de H 0 , qui est (vérifiez) l'ensemble
 e it 0 
(3) H 1 =   s , t ∈ R 
 0 e iz  

Mais alors l'algèbre de Lie de H devrait contenir l'algèbre de Lie de H 1 qui est à deux dimensions !

Heureusement, tout n'est pas perdu. Nous pouvons encore avoir un sous-groupe H pour chaque sous
algèbre h si nous affaiblissons la condition que H soit un groupe de Lie matriciel. Dans l'exemple
ci-dessus, le sous-groupe que nous désirons est H 0 , en dépit du fait que H 0 n'est pas un groupe de
Lie matriciel.

DEFINITION 4.6.
Si H est n'importe quel sous-groupe de GL(2,C), définissons l'algèbre de Lie h de H par l'ensemble
de toutes les matrices X tel que
(4) e tX ∈ H
pour tout réel t.
DEFINITION 4.7.
Si G est un groupe de Lie matriciel avec l'algèbre de Lie g, alors H est un sous-groupe de Lie
connexe de G si
i. H est un sous-groupe de G
ii. H est connexe
iii. l'algèbre de Lie h de H est un sous-espace de g
Tout élément de H peut être écrit sous la forme e 1 e 2 L e n , avec X 1 , K , X n ∈ h
X X X
iv.

THEOREME 4.8.
Si G est un groupe de Lie matriciel avec l'algèbre de Lie g et H est un sous-groupe de Lie connexe
de G, alors l'algèbre de Lie h de H est une sous-algèbre de g.

DEMONSTRATION
Puisque par définition h est un sous-espace de g, il reste seulement à montrer que h est fermé sous
les commutateurs. Ainsi supposons X , Y ∈ h . Alors e tX et e sY sont dans H et aussi (puisque H est
un sous-groupe) l'élément
[( )]
(5) e tX e sY e − tX = exp s e tX Ye − tX

Cela montre que e tX Ye − tX est dans h pour tout t. Mais h est un sous-espace de g, donc est
nécessairement un sous-ensemble fermé de g. Donc

(6) [ X , Y ] = e tX Ye −tX
d (
= lim
)
e hX Ye − hX − Y
dt h→ 0 h
t =0
est dans h (cet argument est précisément celui utilisé pour montrer que l'algèbre de Lie d'un groupe
de Lie matriciel est fermée sous les commutateurs, une fois que nous avons établit que c'est un
sous-espace).

Nous sommes maintenant prêts à établir le principal théorème de cette section, qui est notre
seconde application majeure de la formule de Baker-Campbell-Hausdorff.
THEOREME 4.9.
Soit G un groupe de Lie matriciel avec l'algèbre de Lie g. Soit h une sous-algèbre de Lie de g.
Alors il existe un unique sous-groupe de Lie connexe H de G tel que l'algèbre de Lie de H est h.

Nous laissons de coté la démonstration.

Etant donné un groupe de Lie matriciel G et une sous algèbre h de g, le sous-groupe de Lie connexe
associé H peut être un groupe de Lie matriciel. Cela se passera précisément si H est un sous-
ensemble fermé de G. Il y a différentes conditions sous laquelle on peut démontrer que H est fermé.
Par exemple, si G = GL(n,C) et h est semi-simple, alors H est automatiquement fermé et donc un
groupe de Lie matriciel.

Si seulement la formule de Baker-Campbell-Hausdorff marchait globalement au lieu de seulement


localement, la démonstration de ce théorème serait facile. Si la formule B-H-C convergeait pour
tout X, Y, nous pourrions juste définir H comme l'image de h sous l'application exponentielle. Dans
ce cas B-C-H montrerait que cette image est un sous-groupe puisque alors nous aurions
e 1 e 2 = e Z avec Z = H 1 + H 2 + 12 H 1 H 2 + L ∈ h pourvu que H 1 , H 2 ∈ h . Malheureusement, la
H H

formule B-C-H n'est pas convergente en général et en général l'image de h sous l'application
exponentielle n'est pas un sous-groupe.

Exercices
1. Vérifiez que (3) dans la section I.4.4 est bien la fermeture de H 0 défini en (2).

Exercices
1. Le centre d'une algèbre de Lie g est définie comme l'ensemble de tout X ∈ g tel que [ X , Y ] = 0
pour tout Y ∈ g . Maintenant, considérons le groupe de Heisenberg
 1 a b  
  
H =  0 1 c  | a, b, c ∈ R 
 0 0 1  
  
avec l'algèbre de Lie
 0 α β 
  
h =  0 0 γ  | α , β , γ ∈ R
 0 0 0  
 

Déterminez le centre Z(h) de h. Pour tout X , Y ∈ h , montrez que [ X , Y ] ∈ Z (h ) . Cela implique


en particulier que X et Y commutent avec leur commutateur [ X , Y ] .

Montrez par calcul direct que pour tout X , Y ∈ h ,


X +Y +
1
[ X ,Y ]
(1) e e = e
X Y 2

2. Soit X une matrice complexe de taille quelconque. Montrez que


I − e−X
X
est inversible si et seulement si X n'a pas de valeur propre de la forme λ = 2π in avec n un
entier non nul.

( )
Suggestion : Quand 1 − e − z / z est-il égal à zéro ?

Remarque : Cet exercice, combiné avec la formule dans le théorème 4.5, donne le résultat
suivant (dans le langage des variétés différentiables) : l'application exponentielle exp : g → G
est un difféomorphisme local près de X ∈ g si et seulement si ad X n'a pas de valeur propre de
la forme λ = 2π in avec n un entier non nul.
3. Vérifiez que le coté droit de la formule de Baker-Campbell-Hausdorff donnée dans le théorème
4.3 se réduit à X + Y dans le cas où X et Y commutent.

( )
Suggestion : calculez d'abord e ad X e t ad Y (Y ) et e ad X e t ad Y − I (Y ) .
( X Y
)
4. Calculez ln e e jusqu'au troisième ordre en X / Y en utilisant les développements en série de
l'exponentielle et du logarithme. Montrez que vous avez la même réponse que la formule de
Baker-Campbell-Hausdorff.
5. En utilisant les techniques de la section I.4.3, calculez la forme série de la formule de Baker-
Campbell-Hausdorff jusqu'aux commutateurs du quatrième ordre (nous avons déjà calculé
jusqu'aux commutateurs du troisième ordre).
6. Soit a une sous algèbre de Lie d'une algèbre de Lie du groupe de Heisenberg. Montrez que
exp(a) est un sous-groupe de Lie connexe du groupe de Heisenberg. Montrez qu'en fait, exp(a)
est un groupe de Lie matriciel.
7. Montrez que tout sous-groupe de Lie connexe de SU(2) est fermé. Montrez que ce n'est pas le
cas pour SU(3).

I.5. Théorie de base des représentations

I.5.1. Représentations

DEFINITION 5.1.
Soit G un groupe de Lie matriciel. Alors une représentation complexe de dimension finie de G est
un homomorphisme de groupe de Lie
(1) Π : G → GL(n, C )
( n ≥ 1 ) ou plus généralement un homomorphisme de groupe de Lie
(2) Π → GL(V )
où V est un espace vectoriel complexe de dimension finie (avec dim(V ) ≥ 1 ). Une représentation
réelle de dimension finie de G est un homomorphisme de groupe de Lie Π de G vers GL(n,R) ou
vers GL(V) où V est un espace vectoriel réel de dimension finie.

Si g est une algèbre de Lie réelle ou complexe, alors une représentation complexe de dimension
finie de g est un homomorphisme d'algèbre de Lie π de g dans gl(n,C) ou dans gl(V) où V est un
espace vectoriel complexe de dimension finie. Si g est une algèbre de Lie réelle, alors une
représentation réelle de dimension finie de g est un homomorphisme d'algèbre de Lie π de g dans
gl(n,R) ou dans gl(V).

Si Π ou π est un homomorphisme surjectif, alors la représentation est dite fidèle.


Nous penserons à une représentation comme une action (linéaire) d'un groupe ou une algèbre de
Lie sur un espace vectoriel (puisque, disons, à tout g ∈ G il y a un opérateur associé Π ( g ) qui agit
sur l'espace vectoriel V). En fait, nous utiliserons une terminologie tel que, "Soit Π une
représentation de G agissant sur l'espace V". Même si g est une algèbre de Lie réelle, nous
considérerons principalement des représentations complexes de g. Après quelques définitions de
plus, nous discuterons de la question de pourquoi on s'intéressera à l'étude des représentations.

DEFINITION 5.2.
Soit Π une représentation réelle ou complexe d'un groupe de Lie matriciel G, agissant sur un
espace V. Un sous espace W de V est dit invariant si Π ( A)w ∈ W pour tout w ∈ W et tout A ∈ G .
Un espace invariant W est dit non trivial si W ≠ {0} et W ≠ V . Une représentation sans sous espace
invariant non trivial est dite irréductible.

Les termes invariant, non trivial, et irréductible sont définis de manière analogue pour les
représentations des algèbres de Lie.

DEFINITION 5.3.
Soit G un groupe de Lie matriciel, soit Π une représentation de G agissant sur l'espace V et soit Σ
une représentation de G agissant sur l'espace W. Une application linéaire φ : V → W est appelée un
morphisme (ou application jumelle) des représentations si
(3) φ (Π (a )v ) = Σ( A)φ (v )
pour tout A ∈ G et tout v ∈ V . La propriété analogue définit des morphismes des représentations
d'algèbre de Lie.

Si φ est un morphisme de représentations et en plus φ est inversible, alors φ est dit être un
isomorphisme de représentations. S'il existe un isomorphisme entre V et W, alors les
représentations sont dites être isomorphes (ou équivalentes).

Deux représentations isomorphes seront regardées comme étant "la même" représentation. Un
problème typique dans la théorie des représentations est de déterminer, à un isomorphisme près,
toutes les représentations irréductibles d'un groupe particulier ou d'une algèbre de Lie particulière.
Plus loin nous déterminerons toutes les représentations complexes irréductibles de dimension finie
de l'algèbre de Lie su(2).

PROPOSITION 5.4.
Soit G un groupe de Lie matriciel avec l'algèbre de Lie g et soit Π une représentation (réelle ou
complexe de dimension finie) de G agissant sur l'espace V. Alors il y a une représentation unique
π de g agissant sur le même espace tel que
( )
(4) Π e X = eπ ( X )
pour tout X ∈ g . La représentation π peut être calculée comme

(5) π ( X ) = Π (e tX )t =0
d
dt
et satisfait
(6) π (AXA −1 ) = Π ( A)π ( X )Π ( A)
−1

pour tout X ∈ g et tout A ∈ G .

DEMONSTRATION
Le théorème 3.18 dit que pour chaque homomorphisme de Groupe de Lie φ : G → H il y a un
~
homomorphisme d'algèbre de Lie associé φ : g → h . Prenons H = GL(V) et φ = Π . Puisque
l'algèbre de Lie de GL(V) est gl(V) (puisque l'exponentielle de tout opérateur est inversible),
~
l'homomorphisme d'algèbre de Lie associé φ = π applique g vers gl(V) et constitue ainsi une
représentation de g.
~
Les propriétés de π suivent des propriétés de φ données dans le théorème 6.
PROPOSITION 5.5.
Soit g une algèbre de Lie réelle et g C sa complexification. Alors toute représentation complexe de
dimension finie π de g a une extension unique à une représentation (linéaire, complexe) de g C ,
aussi notée π . La représentation de g C satisfait
(7) π ( X + iY ) = π ( X ) + iπ (Y )
pour tout X , Y ∈ g .

DEFINITION 5.6.
Soit G un groupe de Lie matriciel, soit H un espace de Hilbert et soit U ( H ) le groupe des
opérateurs unitaires sur H . Alors un homomorphisme Π : G → U ( H ) est appelé une
représentation unitaire de G si Π satisfait l'équation de continuité suivante : si An , A ∈ G et
An → A , alors
(8) Π ( An )v → Π ( A)v
pour tout v ∈ H . Une représentation unitaire sans sous-espace invariant fermé non trivial est dite
irréductible.

La condition de continuité est appelée continuité forte. On pourrait même demander la condition
plus forte que Π ( An ) − Π ( A) → 0 mais cela s'avère être une nécessité trop rigoureuse (c'est-à-dire
que la plus part des représentations intéressantes de G ne satisferont pas cette condition de
continuité plus forte). En pratique, tout homomorphisme de G dans U ( H ) qui peut être écrit
explicitement sera fortement continu.

On pourrait essayer un certain analogue des représentations unitaires pour les algèbres de Lie, mais
il y a de sérieuses difficultés techniques associées avec l'obtention de la "bonne" définition.

Exercice
1. Démontrez la proposition 5.5.
I.5.2. Pourquoi étudier les représentations ?
Si une représentation Π est une représentation fidèle d'un groupe de Lie matriciel G, alors
{Π( A) A ∈ G} est un groupe de matrices qui est isomorphe au groupe original G. Donc Π nous
permet de représenter G comme un groupe de matrices. C'est la motivation pour le terme
représentation (bien sûr, nous appellerons encore Π une représentation même si elle n'est pas
fidèle).

En dépit de l'origine du terme, le propos de la théorie des représentations n'est pas (au moins dans
ce cours) de représenter un groupe comme un groupe de matrices. Après tout, tous nos groupes sont
déjà des groupes de matrices ! Bien qu'il puisse sembler redondant d'étudier les représentations d'un
groupe qui est déjà représenté comme un groupe de matrices, c'est précisément ce que nous allons
faire.

La raison pour cela est qu'une représentation peut être vue (comme nous l'avons déjà noté) comme
une action de notre groupe sur un certain espace vectoriel. De telles actions (représentations)
viennent naturellement dans plusieurs branches des mathématiques et de la physique et il est
important de les comprendre.

Un exemple typique serait une équation différentielle dans un espace à trois dimensions qui a une
symétrie à la rotation. Si l'équation a une symétrie a la rotation, alors l'espace des solutions sera
invariant sous les rotations. Donc l'espace des solutions constituera une représentation du groupe
des rotations SO(3). Si nous savons ce que sont toutes les représentations de SO(3), cela peut aider
énormément dans la recherche de quel espace les solutions font parties (comme nous le verrons,
SO(3) a un tas d'autres représentations à coté de l'évidente dans laquelle SO(3) agit sur R 3 ).

En fait, une des applications principales de la théorie des représentations est d'exploiter les
symétries. Si un système a des symétries, alors l'ensemble des symétries formera un groupe et
comprendre les représentations du groupe de symétrie nous permettra d'utiliser ces symétries pour
simplifier le problème.
En plus, étudier les représentations d'un groupe G (ou d'une algèbre de Lie g) peut donner des
informations sur le groupe (ou l'algèbre de Lie) lui-même. Par exemple si G est un groupe fini,
alors associé à G est quelque chose appelé l'algèbre du groupe. La structure de cette algèbre du
groupe peut être décrite très joliment en fonction des représentations irréductibles de G.

Dans ce cours, nous serons intéressés en priorité par le calcul des représentations complexes
irréductibles de dimension finie des groupes de Lie matriciels. Comme nous verrons, ce problème
peut être réduit presque complètement au problème de calculer les représentations complexes
irréductibles de dimension finie de l'algèbre de Lie associée. Tout d'abord, nous discuterons de la
théorie à un niveau élémentaire et nous considérerons en détail l'exemple de SO(3) et SU(2).
Ensuite nous étudierons les représentations de SU(3) qui sont substantiellement plus embrouillées
que celles de SU(2) et donnent un aperçu de la théorie des représentations d'une classe très
importantes des groupes de Lie, c'est à dire les semi-simples.

I.5.3. Exemples de représentations

I.5.3.1. La représentation standard


Un groupe de Lie matriciel G est par définition un sous-ensemble de GL(n,R) ou GL(n,C).
L'application d'inclusion de G dans GL(n) (c'est à dire Π ( A) = A ) est une représentation de G
appelée la représentation standard de G. Donc par exemple, la représentation standard de SO(3) est
celle dans laquelle SO(3) agit de la manière habituelle sur R 3 . Si G est un sous-groupe de GL(n,R)
ou GL(n,C), alors son algèbre de Lie g sera une sous-algèbre de gl(n,R) ou gl(n,C). L'inclusion de g
dans gl(n,R) ou gl(n,C) est une représentation de g appelée la représentation standard.

I.5.3.2. La représentation triviale


Considérons l'espace vectoriel complexe à une dimension C. Etant donné un groupe de Lie
matriciel G, nous pouvons définir la représentation triviale de G, Π : G → GL(1, C ) , par la formule
(1) Π ( A) = I
pour tout A ∈ G . Bien sûr, c'est une représentation irréductible, puisque C n'a pas de sous-espace
non trivial. Si g est une algèbre de Lie, nous pouvons aussi définir la représentation triviale de g,
π : g → gl (1, C ) , par
(2) π ( X ) = 0
pour tout X ∈ g . C'est une représentation irréductible.

I.5.3.3. La représentation adjointe


Soit G un groupe de Lie matriciel avec l'algèbre de Lie g. Nous avons déjà définit l'application
adjointe
(1) Ad : G → GL(g )
par la formule
(2) AdA( X ) = AXA −1

Rappelons que Ad est un homomorphisme de groupe de Lie. Puisque Ad est un homomorphisme


de groupe de Lie dans un groupe d'opérateurs inversibles, nous voyons qu'en fait Ad est une
représentation de G agissant sur l'espace g. Donc nous pouvons donner à Ad son nom propre : la
représentation adjointe de G. La représentation adjointe est une représentation réelle de G.

De même, si g est l'algèbre de Lie, nous avons


(3) ad : g → gl (g )
définit par la formule
(4) agX (Y = [ X , Y ])

Nous savons que ad est un homomorphisme d'algèbre de Lie (proposition 3.33) et est donc une
représentation de g appelée la représentation adjointe. Dans le cas où g est l'algèbre de Lie d'un
certain groupe de Lie matriciel G, nous avons déjà établit (proposition 3.21) que Ad et ad sont
reliés comme dans la proposition 5.4.

Notons que dans le cas de SO(3), la représentation standard et la représentation adjointe sont toutes
les deux des représentations réelles à trois dimensions. En fait ces deux représentations sont
équivalentes.
I.5.3.4. Quelques représentations de SU(2)
Considérons l'espace Vm des polynômes homogènes en deux variables complexes avec le degré
total m ( m ≥ 0 ). C'est-à-dire que Vm est l'espace des fonctions de la forme
(1) f ( z1 , z 2 ) = a 0 z1m + a1 z1m−1 z 2 + a 2 z1m− 2 z 22 + L + a m z 2m
avec z1 , z 2 ∈ C et les a i des constantes complexes arbitraires. L'espace Vm est un espace vectoriel
complexe de dimension m + 1.

Maintenant, par définition, un élément U de SU(2) est une transformation linéaire de C 2 . Soit z la
paire z = ( z1 , z 2 ) dans C 2 . Alors nous pouvons définir une transformation linéaire Π m (U ) sur
l'espace Vm par la formule
(2) [Π m (U ) f ]( z ) = f (U −1 z )

Explicitement, si f est comme dans (1), alors


( ) (U )
m
(3) [Π m (U ) f ]( z1 , z 2 ) = ∑ a k U 11−1 z1 + U 12−1 z 2
m− k −1 k
21 1z + U 22−1 z 2
k =0

En développant le coté droit de cette formule, nous voyons que Π m (U ) f est encore un polynôme
homogène de degré m. Donc Π m (U ) applique réellement Vm sur Vm .

Calculons maintenant,
( ) ( )
(4) Π m (U 1 )[Π m (U 2 ) f ]( z ) = [Π m (U 2 ) f ] U 1−1 z = f U 2−1U 1−1 z = Π m (U 1U 2 ) f ( z )

Donc Π m est une représentation (complexe de dimension finie) de SU(2) (il est très facile de faire
le calcul ci-dessus incorrectement). L'inverse dans la définition (2) est nécessaire afin de faire de
Π m une représentation. Il s'avère que chaque représentation Π m de SU(2) est irréductible et que
toute représentation irréductible de dimension finie de SU(2) est équivalente à une (et une seule)
des représentations Π m (bien sûr, deux Π m ne sont pas équivalents puisqu'ils n'ont pas la même
dimension).

Calculons maintenant la représentation de l'algèbre de Lie correspondante π m . Selon la proposition


5.4, π m peut être calculé comme

(5) π m ( X ) =
d
dt
( )
Π m e tX
t =0

Ainsi
(6) (π m ( X ) f )( z ) =
d
dt
(
f e −tX z )
t =0

Maintenant, soit z(t) la courbe dans C 2 définie comme z (t ) = e − tX z , telle que z (0) = z . Bien sûr,
z(t) peut être écrit comme z (t ) = ( z1 (t ), z 2 (t )) avec z i (t ) ∈ C . Par la règle d'enchaînement,
∂f dz1 ∂f dz 2
(7) π m ( X ) f = +
∂z1 dt t =0 ∂z 2 dt t =0

Mais dz / dt t =0 = − Xz , ainsi nous obtenons la formule suivante pour π m ( X )


∂f
(8) π m ( X ) f = − ( X 11 z1 + X 12 z 2 ) − ∂f ( X 21 z1 + X 22 z 2 )
∂z1 ∂z 2

Maintenant, selon la proposition 5.5, toute représentation complexe de dimension finie de l'algèbre
de Lie su(2) s'étend de manière unique à une représentation complexe linéaire de la
complexification de su(2). Mais la complexification de su(2) est (isomorphe à) sl(2,C) (proposition
3.36). Pour voir qu'il en est ainsi, notons que sl(2,C) est l'espace de toutes les matrices complexes
2 × 2 avec la trace égale à zéro. Mais si X est dans sl(2,C), alors
X −X+ X +X+ X −X+ X +X+
(9) X = + = +i
2 2 2 2i
( ) ( )
où à la fois X − X + / 2 et X + X + / 2i sont dans su(2) (contrôlez !). Il est facile de voir que cette
décomposition est unique, donc tout peut être écrit de manière unique comme X = X 1 + iY1 avec
X 1 , Y1 ∈ su (2) . Donc sl(2,C) est isomorphe comme espace vectoriel à su (2 )C . Mais c'est en fait un
isomorphisme d'algèbre de Lie puisque dans les deux cas
(10) [ X 1 + iY1 , X 2 + iY2 ] = [X 1 , X 2 ] − [Y1 , Y2 ] + i ([ X 1 , Y2 ] + [ X 2 , Y1 ])

Ainsi, la représentation π m de su(2) donnée par (8) s'étend à une représentation de sl(2,C) que nous
appellerons aussi (8). Nous affirmons qu'en fait la formule (8) est encore valable pour X ∈ sl (2, C ) .
Pourquoi cela ? Bien, (8) est indubitablement linéaire (complexe), et elle est en accord avec le π m
original pour X ∈ su (2) . Mais il y a seulement une extension linéaire complexe de π m de su(2) à
sl(2,C), ainsi il doit en être ainsi !

Ainsi, par exemple, considérons l'élément


1 0 
(11) H =  
 0 − 1
dans l'algèbre de Lie sl(2,C). En appliquant la formule (8), on a
∂f ∂f
(12) (π m (H ) f )(z ) = − z1 + z2
∂z1 ∂z 2

Donc, nous voyons que


∂ ∂
(13) π m (H ) = − z1 + z2
∂z1 ∂z 2

En appliquant π m (H ) à un élément de base z1k z 2m − k , nous avons


(14) π m (H )z1k z 2m− k = − kz1k z 2m − k + (m − k )z1k z 2m − k = (m − 2k )z1k z 2m − k
Donc z1k z 2m − k est un vecteur propre de π m (H ) avec la valeur propre m - 2k. En particulier π m (H )
est diagonalisable.

Soit X et Y les éléments


 0 1  0 0
(15) X =   Y =  
 0 0  1 0
dans sl(2,C). Alors (8) nous dit que
∂ ∂
(16) π m ( X ) = − z 2 π m (Y ) = − z1
∂z1 ∂z 2
tel que
π m ( X )z1m z 2m− k = −kz1k −1 z 2m −k +1
(17)
π m (Y )z1m z 2m −k = (k − m )z1k +1 z 2m −k −1

PROPOSITION 5.7.
La représentation π m est une représentation irréductible de sl(2,C).

DEMONSTRATION
Il suffit de montrer que tout sous-espace invariant différent de {0} de Vm est en fait égal à Vm .
Ainsi, soit W un tel espace. Puisque W est supposé différent de {0} , il y a au moins un élément non
nul w dans W. Alors w peut être écrit de manière unique sous la forme
(18) w = a 0 z1m + a1 z1m −1 z 2 + a 2 z1m − 2 z 22 + L + a m z 2m
avec au moins un des a k non nul. Soit k 0 la plus grande valeur de k pour laquelle a k ≠ 0 et
considérons
(19) π m ( X ) 0 w
k
Puisque (suivant (17)) chaque application de π m ( X ) abaisse la puissance de z1 d'une unité,
π m ( X )0 détruira tous les termes dans w dont la puissance de z1 est inférieure à k 0 , c'est à dire tous,
excepté le terme a k0 z1k0 z 2m− k0 . D'autre part, nous calculons facilement que
(20) π m ( X ) 0 a k0 z1k0 z 2m − k0 = k 0 !(− 1) 0 a k0 z 2m
k k

Nous voyons alors que π m ( X ) 0 w est un multiple non nul de z 2m . Puisque W est supposé invariant,
k

W doit contenir ce multiple de z 2m et ainsi z 2m lui-même aussi.

Mais maintenant, il suit de (17) que π m (Y ) z 2m est un multiple non nul de z1k z 2m − k . Donc W doit
k

aussi contenir z1k z 2m − k pour tout 0 ≤ k ≤ m . Puisque ces éléments forment une base de Vm , nous
voyons que W = Vm comme désiré.

I.5.3.5. Deux représentations unitaires de SO(3)


( )
Soit H = L2 R 3 , dx . Pour chaque R ∈ SO(3) , définissons un opérateur Π 1 (R ) sur H par la
formule
(
(1) [π 1 (R ) f ]( x ) = f R −1 x )
Puisque la mesure de Lebesgue dx est invariante par rotation, Π 1 (R ) est un opérateur unitaire pour
chaque R ∈ SO(3) . Le calcul de la section précédente montre que l'application R → Π 1 (R ) est un
homomorphisme de SO(3) dans U ( H ) . Cette application est fortement continue et donc constitue
une représentation unitaire de SO(3).

De même, nous pouvons considérer la sphère unité S 2 ⊂ R 3 , avec la mesure de surface usuelle Ω .
Bien sûr, tout R ∈ SO(3) applique S 2 sur S 2 . Pour chaque R nous pouvons définir Π 2 (R )
(
agissant sur L2 S 2 , dΩ par )
(
(2) [Π 2 (R ) f ]( x ) = f R −1 x )
Donc Π 2 est une représentation unitaire de SO(3).

(
Aucune des représentations unitaires Π 1 ou Π 2 n'est irréductible. Dans le cas de Π 2 , L2 S 2 , dΩ )
a une très jolie décomposition comme somme directe orthogonale de sous-espaces invariants de
dimension finie. Cette décomposition est la théorie des "harmoniques sphériques" qui sont bien
connue dans la littérature de la physique (et mathématique) et que nous avons déjà rencontrées.

I.5.3.6. Une représentation unitaire des réels


Soit H = L2 (R, dx ) . Pour chaque a ∈ R , définissons Ta : H → H par
(1) (Ta f )( x ) = f ( x − a )

Clairement Ta est un opérateur unitaire pour chaque a ∈ R et clairement TaTb = Ta + b . L'application


a → Ta est fortement continue ainsi T est une représentation unitaire de R. Cette représentation
n'est pas irréductible. La théorie des transformées de Fourier nous permet de déterminer tous les
sous espaces invariants, fermés de H .

I.5.3.7. Les représentations unitaires du groupe de Heisenberg réel


Considérons le groupe de Heisenberg
 1 a b  
  
(1) H =  0 1 c  a, b, c ∈ R 
 0 0 1  
  

Maintenant, considérons une constante réelle, non nulle que, pour des raisons de convention
historique, nous appellerons h (un choix qui n'a rien d'innocent). Maintenant, pour chaque
h ∈ R /{0}, définissons un opérateur unitaire Π h sur L2 (R, dx ) par
1 a b
 
(2) Π h  0 1 c  f = e −ihb e ihcx f ( x − a )
 0 0 1
 

Il est clair que le coté droit de (2) a la même norme que f, ainsi Π h est en effet unitaire.

Maintenant, calculons
~
 1 a~ b   1 a b 
   
Π h  0 1 c~ Π h  0 1 c  f
   
 0 0 1   0 0 1
(3) = e −ihb e ihc x e −ihb e ihc ( x − a ) f ( x − a~ − a )
~ ~ ~

= e −ih (b + b + ca )e ih (c + c )x f (x − (a~ + a ))
~ ~ ~

Cela montre que l'application A → Π h ( A) est un homomorphisme du groupe de Heisenberg dans


( )
U L2 (R ) . Cette application est fortement continue et ainsi Π h est une représentation unitaire de H.

Notons qu'un opérateur unitaire typique Π h ( A) consiste en d'abord translater f, puis multiplier f par
la fonction e ihcx et puis multiplier f par la constante e − ihb . Multiplier f par la fonction e ihcx a l'effet
de translater la transformée de Fourier de f ou, en langage physique, "de translater f dans l'espace
des impulsions". Maintenant, si U 1 est une translation ordinaire et U 2 une translation de la
transformée de Fourier (c'est à dire, U 2 = multiplication par un certain e ihcx ), alors U 1 et U 2 ne
commutent pas mais U 1U 2U 1−1U 2−1 sera simplement la multiplication par une constante de valeur
absolue égale à un. Donc {Π h ( A) A ∈ H } est le groupe des opérateurs sur L2 (R ) généré par les
translations ordinaires et les translations dans l'espace de Fourier. C'est cette représentation du
groupe de Heisenberg qui motive son nom.
Il suit assez facilement de la théorie standard des transformées de Fourier que pour chaque
h ∈ R /{0} la représentation Π h est irréductible. De plus, ce sont (à une équivalence près) presque
toutes les représentations unitaires irréductibles de H. Les seules restantes sont les représentations à
une dimension Π α , β
1 a b
 
(4) Π α , β  0 1 c  = e i (αa + βc ) I
 0 0 1
 
avec α , β ∈ R (les Π α , β sont les représentations unitaires irréductibles dans lesquelles le centre de
H agit trivialement). Le fait que les Π h et les Π α , β sont toutes les représentations unitaires
irréductibles (fortement continues) de H est fortement relié au célèbre théorème de Stone-Von
Neumann en physique mathématique.

I.5.4. Les représentations irréductibles de su(2)


Dans cette section, nous allons calculer (à une équivalence près) toutes les représentations
complexes irréductibles de dimension finie de l'algèbre de Lie su(2). Ce calcul est important pour
plusieurs raisons. En premier lieu, su (2) ≅ so(3) , et les représentations de so(3) ont une
signification physique. Le calcul que nous allons faire ici est trouvé dans tous les livres standards
sur la mécanique quantique, sous le titre "moment angulaire". Nous aurons l'occasion de revenir sur
ces représentations pour déterminer le spin des particules. En second lieu, la théorie des
représentations de su(2) est un exemple lumineux de comment on utilise les relations de
commutation pour déterminer les représentations d'une algèbre de Lie. En troisième lieu, en
déterminant les représentations des algèbres de Lie semi-simples générales (plus loin), nous
utiliserons explicitement la théorie des représentations de su(2).

Maintenant, toute représentation complexe de dimension finie π de su(2) s'étend, suivant la


proposition 5.5, à une représentation linéaire complexe (appelée aussi π ) de la complexification de
su(2), c'est à dire sl(2,C).
PROPOSITION 5.8.
Soit π une représentation complexe de su(2), étendue à une représentation linéaire complexe de
sl(2,C). Alors π est irréductible comme représentation de su(2) si et seulement si elle est
irréductible comme représentation de sl(2,C).

DEMONSTRATION
Soyons sûr que nous sommes clair sur ce que cela signifie. Supposons que π est une représentation
complexe de l'algèbre de Lie (réelle) su(2), agissant sur l'espace complexe V. Alors dire que π est
irréductible signifie qu'il n'y a pas de sous-espace complexe invariant non trivial W ⊂ V . C'est à
dire que, même si su(2) est une algèbre de Lie réelle, quand on considère les représentations
complexes, nous sommes seulement intéressés par les sous-espaces invariants complexes.

Maintenant, supposons que π est irréductible comme représentation de su(2). Si W est un sous-
espace complexe de V qui est invariant sous sl(2,C), alors certainement W est invariant sous
su (2 ) ⊂ sl (2, C ) . Donc W = {0} ou W = V . Donc π est une représentation irréductible de sl(2,C).

D'autre part, supposons que π est irréductible comme représentation de sl(2,C) et supposons que
W est un sous-espace (complexe) de V qui est invariant sous su(2). Alors W sera aussi invariant
sous π ( X + iY ) = π ( X ) + iπ (Y ) , pour tout X , Y ∈ su (2) . Puisque tout élément de sl(2,C) peut être
écrit comme X + iY , nous en concluons qu'en fait W est invariant sous sl(2,C). Donc W = {0} ou
W = V , ainsi π est irréductible comme représentation de su(2).

Nous voyons alors qu'étudier les représentations irréductibles de su(2) est équivalent à étudier les
représentations irréductibles de sl(2,C). Passer à l'algèbre de Lie complexifiée rend nos calculs plus
faciles.

Nous utiliserons la base suivante pour sl(2,C) :


1 0   0 1  0 0
(1) H =   X =   Y =  
 0 − 1  0 0  1 0
qui a les relations de commutation
(2) [H , X ] = 2 X [H , Y ] = −2Y [X , Y ] = H
Si V est un espace vectoriel (complexe de dimension finie) et A, B et C des opérateurs sur V
satisfaisant
(3) [ A, B ] = 2 B [A, C ] = −2C [B, C ] = A
alors, à cause de l'antisymétrie et de la bilinéarité du commutateur, l'application linéaire
gp : sl (2, C ) → gl (V ) satisfaisant
(4) π (H ) = A π ( X ) = B π (Y ) = C
sera une représentation de sl(2,C).

THEOREME 5.9.
Pour chaque entier m ≥ 0 , il y a une représentation irréductible de sl(2,C) avec la dimension m + 1.
Deux représentations irréductibles de sl(2,C) avec la même dimension sont équivalentes. Si π est
une représentation irréductible de sl(2,C) avec la dimension m + 1, alors π est équivalent à la
représentation π m décrite précédemment.

DEMONSTRATION
Soit π une représentation irréductible de sl(2,C) agissant sur un espace V (complexe de dimension
finie). Notre stratégie est de diagonaliser l'opérateur π (H ) . Bien sûr, à priori, nous ne savons pas si
π (H ) est diagonalisable. Cependant, comme nous travaillons sur le champ (algébrique fermé) des
nombres complexes, π (H ) doit avoir au moins un vecteur propre.

Le Lemme suivant est la clé de la démonstration entière.

LEMME 5.10.
Soit u un vecteur propre de π (H ) avec la valeur propre α ∈ C . Alors
(5) π ( X )π ( X )u = (α + 2)π ( X )u
Donc, ou bien π ( X )u = 0 , ou bien π ( X )u est un vecteur propre pour π (H ) avec la valeur propre
α + 2 . De même,
(6) π (H )π (Y ) = (α − 2)π (Y )u

tel que, ou bien π (Y )u = 0 , ou bien π (Y )u est un vecteur propre de π (H ) avec la valeur propre
α −2.

DEMONSTRATION
Nous appelons π ( X ) "opérateur de création" car il a l'effet d'augmenter la valeur propre de π (H )
de 2 et nous appelons π (Y ) "opérateur de destruction". Nous savons que
[π (H ),π ( X )] = π ([H , X ]) = 2π ( X ) . Donc
(7) π (H )π ( X ) − π ( X )π (H ) = 2π ( X )
ou
(8) π (H )π ( X ) = π ( X )π (H ) + 2π ( X )

Donc
π ( X )π ( X )u = π ( X )π (H )u + 2π ( X )u
(9) = π ( X )(αu ) + 2π ( X )u
= (α + 2)π ( X )u

De même, [π (H ), π (Y )] = −2π (Y ) , et ainsi


(10) π (H )π (Y ) = π (Y )π (H ) − 2π (Y )
tel que
π (H )π (Y )u = π (Y )π (H )u − 2π (Y )u
(11) = π (Y )(2u ) − 2π (Y )u
= (α − 2)π (Y )u

C'est ce que nous désirions montrer.


Comme nous l'avons observé, π (H ) doit avoir au moins un vecteur propre u ( u ≠ 0 ) avec une
certaine valeur propre α ∈ C . Suivant le Lemme,
(12) π ( X )π ( X )u = (α + 2)π ( X )u
et plus généralement
(13) π (H )π ( X ) u = (α + 2n )π ( X ) u
n n

Ce qui signifie que, ou bien π ( X ) u = 0 ou bien π ( X ) u est un vecteur propre pour π (H ) avec la
n n

valeur propre α + 2n .

Maintenant, un opérateur sur un espace de dimension finie peut avoir seulement un nombre fini de
valeurs propres distinctes. Donc les π ( X ) u ne peuvent pas être tous différents de zéro. Donc, il y
n

a un certain N ≥ 0 tel que


(14) π ( X ) u ≠ 0
N

mais
(15) π ( X ) u = 0
N +1

Définissons u 0 = π ( X ) u et λ = α + 2 N . Alors
N

(16) π (H )u 0 = λu 0
(17) π ( X )u 0 = 0

Alors définissons
(18) u k = π (Y ) u 0
k

pour k ≥ 0 . Suivant la seconde partie du Lemme, nous avons


(19) π (H )u k = (λ − 2k )u k
Puisque, à nouveau, π (H ) peut seulement avoir un nombre fini de valeurs propres, les u k ne
peuvent pas être tous non nuls.

LEMME 5.11.
Avec les notations ci-dessus,
π ( X )u k = [kλ − k (k − 1)]u k −1 (k > 0)
(20)
π ( X )u 0 = 0

DEMONSTRATION
Nous procédons par induction sur k. Dans le cas k = 1, nous notons que u1 = π (Y )u 0 . En utilisant la
relation de commutation [π ( X ), π (Y )] = π (H ) , nous avons
(21) π ( X )u1 = π ( X )π (Y )u 0 = (π (Y )π ( X ) + π (H ))u 0

Mais π ( X )u 0 = 0 , ainsi nous avons


(22) π ( X )u1 = λu 0
qui est le Lemme dans le cas k = 1.

Maintenant, par définition u k +1 = π (Y )u k . En utilisant (19) et l'induction, nous avons


π ( X )u k +1 = π ( X )π (Y )u k
= (π (Y )π ( X ) + π (H ))u k
(23)
= π (Y )[kλ − k (k − 1)]u k −1 + (λ − 2k )u k
= [kλ − k (k − 1) + (λ − 2k )]u k

Simplifier la dernière expression donne le Lemme.

Puisque π (H ) peut seulement avoir un nombre fini de valeurs propres, les u k ne peuvent pas être
tous non nuls. Donc il doit y avoir un entier m ≥ 0 tel que
(24) u k = π (Y ) u 0 ≠ 0
k
pour tout k ≤ m , mais
(25) u m+1 = π (Y ) u 0 = 0
m +1

Maintenant, si u m +1 = 0 , alors certainement π ( X )u m +1 = 0 . Alors, suivant le lemme 5.11,


(26) 0 = π ( X )u m +1 = [(m + 1)λ − m(m + 1)]u m = (m + 1)(λ − m )u m

Mais u m ≠ 0 et m + 1 ≠ 0 (puisque m ≥ 0 ). Donc afin d'avoir (m + 1)(λ − m )u m égal à zéro, nous


devons avoir λ = m .

Nous avons fait un progrès considérable. Etant donné une représentation irréductible de dimension
finie π de sl(2,C), agissant sur un espace V, il existe un entier m ≥ 0 et des vecteurs non nuls
u 0 , K , u m tel que (en posant λ égal à m)
π (H )u k = (m − 2k )u k
π (Y )u k = u k +1 (k < m )
(26) π (Y )u m = 0
π ( X )u k = [km − k (k − 1)]u k −1 (k > 0)
u ( X )u 0 = 0

Les vecteurs u 0 , K , u m doivent être linéairement indépendants puisque ce sont des vecteurs propres
de π (H ) avec des valeurs propres distinctes. De plus, l'espace à m + 1 dimensions généré par
π (H ) est explicitement invariant sous π (H ) , π ( X ) et π (Y ) et donc sous π (Z ) pour tout
Z ∈ sl (2, C ) . Puisque π est irréductible, cet espace doit être tout V.

Nous avons maintenant montré que toute représentation irréductible de sl(2,C) est de la forme (26).
Il reste à montrer que tout ce qui est de la forme (26) est une représentation et qu'elle est
irréductible. C'est à dire, si nous définissons π (H ) , π ( X ) et π (Y ) par (26) (où les u k sont les
éléments de base d'un certain espace vectoriel à m + 1 dimensions), alors nous désirons montrer
qu'ils ont les bonnes relations de commutation pour former une représentation de sl(2,C) et que
cette représentation est irréductible.

Le calcul des relations de commutation de π (H ) , π ( X ) et π (Y ) est immédiat et laissé comme


exercice. Notons qu'en traitant avec π (Y ) , vous devrez traiter séparément les vecteurs u k , k < m et
u m . L'irréductibilité est aussi facile à contrôler, en imitant la démonstration de la proposition 5.7.

Nous avons maintenant montré qu'il y a une représentation irréductible de sl(2,C) pour chaque
dimension m + 1, en écrivant explicitement comment H, X et Y agiraient (équation (26)) sur une
base. Mais nous avons montré plus que cela. Nous avons aussi montré que toute représentation
irréductible de dimension m+1 de sl(2,C) doit être de la forme (26). Il s'ensuit que deux
représentations irréductibles de sl(2,C) de dimension m + 1 doivent être équivalentes. Si π 1 et π 2
sont deux représentations irréductibles de dimension m+1 agissant sur des espaces V1 et V2 , alors
V1 a une base u 0 , K , u m comme dans (26) et V2 a une base similaire u~0 , K , u~m . Mais alors
l'application φ : V → V qui envoie u sur u~ sera un isomorphisme des représentations (pensez-
1 2 k k
y).

En particulier, la représentation π m à m+1 dimensions décrite précédemment doit être équivalente


à (26). Cela peut être vu explicitement en introduisant la base suivante pour Vm :
k
( )
(27) u k = [π m (Y )] z 2m = (− 1)
k m!
(m − k )!
z1k z 2m − k (k ≤ m )

Alors par définition π m (Y )u k = u k +1 , et il est clair que π m (Y )u m = 0 . Il est facile de voir que
π m (H )u k = (m − 2k )u k . La seule chose restant à contrôler est le comportement de π m ( X ) . Mais un
calcul direct montre que
(28) π m ( X )u k = k (m − k + 1)u k +1 = [km − k (k − 1)]u k −1
comme requit.

Cela complète la démonstration du théorème 5.9.


I.5.5. Sommes directes de représentations et réductibilité complète
Une manière de générer les représentations est de prendre certaines représentations que vous
connaissez et de les combiner d'une certaine façon. Nous allons considérer deux méthodes de
génération de nouvelles représentations à partir d'anciennes, c'est à dire les sommes directes et le
produit tensoriel des représentations. Dans cette section nous allons considérer les sommes directes;
dans la prochaine section nous regarderons le produit tensoriel (il y a une autre construction
standard de cette sorte, c'est à dire le dual d'une représentation).

DEFINITION 5.12.
Soit G un groupe de Lie matriciel et soit Π 1 , Π 2 , K , Π n des représentations de G agissant sur des
espaces vectoriels V1 , V2 , K , Vn . Alors la somme directe de Π 1 , Π 2 , K , Π n est une représentation
Π 1 ⊕ L ⊕ Π n de G agissant sur l'espace V1 ⊕ L ⊕ Vn définie par
(1) [Π 1 ⊕ L ⊕ Π n ( A)](v1 , K , v n ) = (Π 1 ( A)v1 , K , Π n ( A)v n )
pour tout A ∈ G .

De même, si g est une algèbre de Lie et π 1 , π 2 , K , π n des représentations de g agissant sur


V1 , V2 , K , Vn , alors nous définissons la somme directe de π 1 , π 2 , K , π n agissant sur V1 ⊕ L ⊕ Vn
par
(2) [π 1 ⊕ L ⊕ π n ( X )](v1 , K , v n ) = (π 1 ( X )v1 , K , π n ( X )v n )
pour tout X ∈ g .

Il est trivial de contrôler que, disons, Π 1 ⊕ L ⊕ Π n est réellement une représentation de G.

DEFINITION 5.13.
Une représentation de dimension finie d'un groupe ou d'une algèbre de Lie agissant sur un espace V
est dite être complètement réductible si la propriété suivante est satisfaite : étant donné un sous-
espace invariant W ⊂ V et un second sous-espace invariant U ⊂ W ⊂ V , il existe un troisième
sous-espace invariant U ⊂ W tel que U ∩U = {0} et U ∪ U = W .
~ ~ ~
La proposition suivante montre que la réductibilité complète est une jolie propriété qu'une
représentation peut avoir.

PROPOSITION 5.14.
Une représentation complètement réductible de dimension finie d'un groupe ou d'une algèbre de Lie
est équivalente à une somme directe de une ou plusieurs représentations irréductibles.

DEMONSTRATION
La démonstration se fait par induction sur la dimension de l'espace V. Si dim V = 1 , alors
automatiquement la représentation est irréductible puisque alors V n'a pas de sous-espace non
trivial, ne laissant aucun sous-espace invariant non trivial. Donc V est une somme directe de
représentations irréductibles, avec juste un seul terme, c'est à dire V lui-même.

Supposons, alors, que la proposition est valable pour toutes les représentations avec une dimension
strictement inférieure à n et que dim V = n . Si V est irréductible, alors à nouveau nous avons une
somme directe avec seulement un terme. Si V n'est pas irréductible, alors il existe un sous-espace
invariant non trivial U ⊂ V . En prenant W = V dans la définition de la réductibilité complète, nous
voyons qu'il y a un autre sous-espace invariant U avec U ∩U = {0} et U ∪ U = V . C'est à dire que
~ ~ ~
~
V ≅ U ⊕ U comme espace vectoriel.
~
Mais puisque U et U sont invariants, ils peuvent être vus eux-mêmes comme des représentations
~
(c'est à dire que l'action de notre groupe ou algèbre de Lie sur U ou U est une représentation). Il est
~
facile de voir qu'en fait V est isomorphe à U ⊕ U comme représentation. De plus, il est facile de
~
voir qu'à la fois U et U sont des représentations complètement réductibles puisque tout sous-
espace invariant W de, disons, U est aussi un sous-espace invariant de V. Mais puisque U est non
trivial (c'est-à-dire U ≠ {0} et U ≠ V ), nous avons dim U < dim V et dim U < dim V . Donc par
~

induction, U ≅ U 1 ⊕ L ⊕ U n (comme représentations) avec les U i irréductibles et


~ ~ ~ ~ ~ ~
U ≅ U 1 ⊕ L ⊕ U n avec les U i irréductibles, et V ≅ U 1 ⊕ L ⊕ U n ⊕ U 1 ⊕ L ⊕ U n .
Certains groupes et algèbres de Lie ont la propriété que toute représentation (de dimension finie)
est complètement réductible. C'est une très jolie propriété car elle implique (suite à la proposition
ci-dessus) que toute représentation est équivalente à une somme directe de représentations
irréductibles (et qu'en retour cette décomposition est essentiellement unique). Donc pour de tels
groupes et algèbres de Lie, si nous connaissons (à une équivalence près) toutes les représentations
irréductibles, alors nous connaissons (à une équivalence près) toutes les représentations.

Malheureusement, toutes les représentations ne sont pas complètement réductibles. Par exemple, la
représentation standard du groupe de Heisenberg n'est pas complètement réductible.

PROPOSITION 5.15.
Soit G un groupe de Lie matriciel. Soit Π une représentation unitaire de dimension finie de G
agissant sur un espace de Hilbert réel ou complexe de dimension finie V. Alors Π est
complètement réductible.

DEMONSTRATION
Ainsi, nous supposons que notre espace V est équipé avec un produit scalaire et que Π ( A) est
unitaire pour chaque A ∈ G . Supposons que W ⊂ V est invariant et que U ⊂ W ⊂ V est aussi
invariant. Définissons
~
(3) U = U ⊥ ∩ W

Alors, bien sûr, U ∩U = {0} et la théorie des espaces de Hilbert standard implique que
~
~
U ∪U = W .
~
Il reste seulement à montrer que U est invariant. Ainsi, supposons que v ∈ U ⊥ ∩ W . Puisque W
est supposé invariant, Π ( A)w sera dans W pour tout A ∈ G . Nous avons besoin de montrer que
( )
Π ( A)v est perpendiculaire à U. Bien, puisque Π A −1 est unitaire, alors pour tout u ∈ U
(4) u , Π ( A)v = Π (A −1 )u , Π (A −1 )Π ( A)v = Π (A )u , v
−1
( )
Mais U est supposé invariant et ainsi Π A −1 u ∈ U . Mais puisque v ∈U ⊥ , Π (A −1 )u , v = 0 . Cela
signifie que
(5) u, Π ( A)v = 0
pour tout u ∈ U , c'est-à-dire Π ( A)v ∈ U ⊥ .

~
Donc U est invariant, c.q.f.d.

PROPOSITION 5.16.
Si G est un groupe fini, alors toute représentation réelle ou complexe de dimension finie de G est
complètement réductible.

DEMONSTRATION
Supposons que Π est une représentation de G agissant sur un espace V. Choisissons un produit
scalaire arbitraire sur V. Alors définissons un nouveau produit scalaire G
sur V par
(6) v1 , v 2 G
= ∑ Π(g )v , Π(g )v
g∈G
1 2

Il est très facile de contrôler qu'en effet G


est un produit scalaire. De plus, si h ∈ G , alors
Π (h )v1 , Π (h )v 2 G
= ∑ Π(g )Π(h )v , Π(g )Π(h )v
1 2
g∈G
(7)
= ∑ Π(gh )v , Π(gh )v
g∈G
1 2

Mais lorsque g parcourt G, alors aussi gh. Donc en fait


(8) Π (h )v1 , Π (h )v 2 G = v1 , v 2 G

C'est-à-dire que Π est une représentation unitaire par rapport au produit scalaire . Donc Π est
complètement réductible suivant la proposition 5.15.
Il y a une variante de l'argumentation ci-dessus qui peut être utilisée pour démontrer le résultat
suivant :

PROPOSITION 5.17.
Si G est un groupe de Lie matriciel compact, alors toute représentation réelle ou complexe de
dimension finie de G est complètement réductible.

DEMONSTRATION
Cette démonstration nécessite la notion de mesure de Haar. Une mesure de Haar gauche sur un
groupe de Lie matriciel G est une mesure non nulle µ sur l'algèbre σ de Borel dans G avec les
deux propriétés suivantes : 1) elle est localement finie, c'est-à-dire que tout point dans G a un
voisinage avec une mesure finie et 2) elle est invariante par translation à gauche. L'invariance par
translation à gauche signifie que µ (gE ) = µ (E ) pour tout g ∈ G et pour tout ensemble de Borel
E ⊂ G où
(9) gE = {ge e ∈ E}

C'est un fait que nous ne pouvons pas démontrer ici que tout groupe de Lie matriciel a une mesure
de Haar gauche et que cette mesure est unique à une multiplication près par une constante (on peut
de manière analogue définir une mesure de Haar droite et un théorème similaire est valable pour
elle. La mesure de Haar gauche et la mesure de Haar droite peuvent ou non coïncider; un groupe
pour lequel il en est ainsi est appelé unimodulaire).

Maintenant, le fait clé pour notre but est que la mesure de Haar gauche est finie si et seulement si le
groupe G est compact. Ainsi si Π est une représentation de dimension finie de G agissant sur un
espace V, alors soit un produit scalaire arbitraire sur V et définissons un nouveau produit
scalaire G
sur V par
(10) v1 , v 2 G
= ∫ Π ( g )v1 , Π ( g )v 2 dµ ( g )
G

où µ est la mesure de Haar gauche. A nouveau, il est facile de contrôler que G


est un produit
scalaire. De plus, si h ∈ G , alors par l'invariance gauche de µ
Π (h )v1 , Π (h )v 2 G
= ∫ Π ( g )Π (h )v1 , Π ( g )Π (h )v 2 dµ ( g )
G

(11) = ∫ Π ( gh )v1 , Π ( gh )v 2 dµ ( g )
G

= v1 , v 2 G

Ainsi, Π est une représentation unitaire par rapport à G


et est donc complètement réductible.
Notons que G
est bien défini uniquement à cause du fait que µ est fini.

I.5.6. Produits tensoriels de représentations


Soit U et V des espaces vectoriels réels ou complexes de dimension finie. Nous voulons définir le
produit tensoriel de U et V qui sera un nouvel espace vectoriel "construit" avec U et V. Nous
voulons discuter d'abord de cette idée puis donner la définition précise.

Nous voulons considérer un "produit" formel d'un élément u de U avec un élément v de V, noté
u ⊗ v . L'espace U ⊗ V est alors l'espace des combinaisons linéaires de tels produits, c'est à dire
l'espace des éléments de la forme
(1) a1u1 ⊗ v1 + a 2 u 2 ⊗ v 2 + L + a n u n ⊗ v n

Bien sûr, si " ⊗ " doit être interprété comme un produit, alors il sera bilinéaire. C'est à dire que nous
aurons
(u1 + au 2 ) ⊗ v = u1 ⊗ v + au 2 ⊗ v
(2)
u ⊗ (v1 + av 2 ) = u ⊗ v1 + au ⊗ v 2

Nous ne supposons pas que le produit est commutatif (en fait, le produit dans l'autre ordre, v ⊗ u
est dans un espace différent, c'est à dire V ⊗ U ).

Maintenant, si e1 , e2 , K , en est une base de U et f 1 , f 2 , K , f m est une base de V, alors en utilisant la


bilinéarité, il est facile de voir que tout élément de la forme (1) peut être écrit comme une
combinaison linéaire des éléments ei ⊗ f j . En fait, il semble raisonnable de s'attendre à ce que
{e ⊗ f
i j }
0 ≤ i ≤ n,0 ≤ j ≤ m soit une base de U ⊗ V . Cela s'avère en fait le cas.

DEFINITION 5.18.
Si U et V sont des espaces vectoriels réels ou complexes de dimensions finies, alors un produit
tensoriel de U avec V est un espace vectoriel W avec une application linéaire φ : U × V → W avec
la propriété suivante : Si ψ est toute application linéaire de U × V dans un espace X, alors il existe
une unique application linéaire ψ~ de W dans X tel que le diagramme suivant s'applique :

Notons que l'application bilinéaire ψ de U × V dans X devient l'application linéaire ψ~ de W dans


X. C'est un des points du produit tensoriel : les applications bilinéaires sur U × V deviennent des
applications linéaires sur W.

THEOREME 5.19.
Si U et V sont des espaces vectoriels réels ou complexes de dimensions finies, alors un produit
tensoriel (W , φ ) existe. De plus, (W , φ ) est unique à un isomorphisme canonique près. C'est-à-dire
que si (W1 , φ1 ) et (W2 , φ 2 ) sont deux produits tensoriels, alors il existe un unique isomorphisme
d'espace vectoriel Φ : W1 → W2 tel que le diagramme suivant s'applique :

Supposons que (W , φ ) est un produit tensoriel et que e1 , e2 , K , en est une base de U et f 1 , f 2 , K , f m


une base de V. Alors {φ (ei , φ i ) 0 ≤ i ≤ n,0 ≤ j ≤ m} est une base pour W.
NOTATION 5.20.
Puisque le produit tensoriel de U et V est essentiellement unique, nous noterons U ⊗ V un espace
de produit tensoriel arbitraire et nous écrirons u ⊗ v au lieu de φ (u, v ) . Dans cette notation, le
{ }
théorème dit que ei ⊗ f j 0 ≤ i ≤ n,0 ≤ j ≤ m est une base pour U ⊗ V , comme attendu. Notons en
particulier que
(3) dim(U ⊗ V ) = (dim U )(dim V )
(et pas dim U + dim V comme dans une somme directe d'espaces vectoriels).

La propriété définie de U ⊗ V est appelée la propriété universelle des produits tensoriels. Bien
qu'il puisse sembler que nous prenions une simple idée et que nous la rendons confuse, en fait, il y
a un point important à cette propriété universelle. Supposons que nous désirions définir une
application linéaire T de U ⊗ V dans un certain autre espace. La manière la plus sensible de définir
cela est de définir T sur les éléments de la forme u ⊗ v (vous pouvez essayer de le définir sur une
base, mais cela vous force à vous demander si les choses dépendent du choix de la base).
Maintenant, tout élément de U ⊗ V est une combinaison linéaire de choses de la forme u ⊗ v .
Cependant, cette représentation est loin d'être unique (puisque, disons, si u = u1 + u 2 , alors vous
pouvez écrire u ⊗ v comme u1 ⊗ v + u 2 ⊗ v ).

Donc si vous essayez de définir T par ce qu'elle fait aux éléments de la forme u ⊗ v , vous devrez
vous demander si T est bien définit. C'est ici que la propriété universelle se manifeste. Supposons
que ψ (u, v ) est une certaine expression bilinéaire en u, v. Alors la propriété universelle dit
précisément qu'il y a une unique application linéaire T ( = ψ~ ) telle que
(4) T (u ⊗ v ) = ψ (u, v )
(pensez y et assurez-vous que c'est réellement ce que la propriété universelle dit).

La conclusion est donc : vous pouvez définir une application linéaire T sur U ⊗ V en la définissant
sur les éléments de la forme u ⊗ v et elle sera bien définie pourvu que T (u ⊗ v ) soit bilinéaire en
(u, v). La proposition suivante montre comme utiliser cette idée.
PROPOSITION 5.21.
Soit U et V des espaces vectoriels réels ou complexes de dimension finie. Soit A : U → U et
B : V → V des opérateurs linéaires. Alors il existe un unique opérateur linéaire de U ⊗ V vers
U ⊗ V , noté A ⊗ B tel que
(5) A ⊗ B(u ⊗ v ) = ( Au ) ⊗ B(v )
pour tout u ∈ U , v ∈ V .

Si A1 , A2 sont des opérateurs linéaires de U et B1 , B2 des opérateurs linéaires de V, alors


(6) ( A1 ⊗ B1 )( A2 ⊗ B2 ) = ( A1 A2 ) ⊗ (B1 B2 )

DEMONSTRATION
Définissons une application ψ de U × V dans U ⊗ V par
(7) ψ (u, v ) = ( Au ) ⊗ (Bv )

Puisque A et B sont linéaires et que ⊗ est bilinéaire, ψ sera une application bilinéaire de U × V
dans U ⊗ V . Mais alors la propriété universelle dit qu'il y a une application linéaire associée
ψ~ : U ⊗ V → U ⊗ V telle que
(8) ψ~(u ⊗ v ) = ψ (u, v ) = ( Au ) ⊗ (Bv )

Alors ψ~ est l'application A ⊗ B désirée.

Maintenant, si A1 , A2 sont des opérateurs linéaires sur U et B1 , B2 des opérateurs linéaires sur V,
calculons alors que
( A1 ⊗ B1 )( A2 ⊗ B2 )(u ⊗ v ) = ( A1 ⊗ B1 )( A2 u ⊗ B2 v )
(9)
= A1 A2 u ⊗ B1 B2 v

Cela montre que ( A1 ⊗ B1 )( A2 ⊗ B2 ) = ( A1 A2 ) ⊗ (B1 B2 ) sont égaux sur des éléments de la forme
u ⊗ v . Puisque tout élément de U ⊗ V peut être écrit comme une combinaison linéaire de u ⊗ v
(en fait de ei ⊗ f j ), ( A1 ⊗ B1 )( A2 ⊗ B2 ) et ( A1 A2 ) ⊗ (B1 B2 ) doivent être égaux sur l'espace entier.
Nous sommes maintenant prêts à définir le produit tensoriel de représentations. Il y a deux
approches différentes qui sont toutes les deux importantes. La première approche commence avec
une représentation d'un groupe G agissant sur un espace V et une représentation d'un autre groupe
H agissant sur un espace U et produit une représentation du groupe produit G × H agissant sur
l'espace U ⊗ V . La seconde approche commence avec deux représentations différentes du même
groupe G, agissant sur les espaces U et V et produit une représentation de G agissant sur U ⊗ V .
Ces deux approches peuvent être adaptées pour s'appliquer aux algèbres de Lie.

DEFINITION 5.22.
Soit G et H des groupes de Lie matriciels. Soit Π 1 une représentation de G agissant sur un espace
U et Π 2 une représentation de H agissant sur un espace V. Alors le produit tensoriel de Π 1 et Π 2
est une représentation Π 1 ⊗ Π 2 de G × H agissant sur U ⊗ V définie par
(10) Π 1 ⊗ Π 2 ( A, B ) = Π 1 ( A) ⊗ Π 2 (B )
pour tout A ∈ B et G ∈ H .

En utilisant la proposition ci-dessus, il est très facile de vérifier qu'en effet Π 1 ⊗ Π 2 est une
représentation de G × H .

Maintenant, si G et H sont des groupes de Lie matriciels, c'est à dire que G est un sous-groupe
fermé de GL(n,C) et H un sous-groupe fermé de GL(m,C), alors G × H peut être regardé d'une
manière évidente comme un sous-groupe fermé de GL(n+m,C). Donc le produit direct des groupes
de Lie matriciels peut être regardé comme un groupe de Lie matriciel. Il est facile de contrôler que
l'algèbre de Lie de G × H est isomorphe à la somme directe de l'algèbre de Lie de G et de l'algèbre
de Lie de H.

A la vue de la proposition 5.4, la représentation Π 1 ⊗ Π 2 de G × H conduit à une représentation


de l'algèbre de Lie de G × H , c'est à dire g ⊗ h . La proposition suivante montre que cette
représentation de g ⊗ h n'est pas ce à quoi vous pourriez vous attendre au premier abord.
PROPOSITION 5.23.
Soit G et H des groupes de Lie matriciels, soit Π 1 , Π 2 des représentations de G et H,
respectivement et considérons la représentation Π 1 ⊗ Π 2 de G × H . Soit π 1 ⊗ π 2 la représentation
associée de l'algèbre de Lie de G × H , c'est à dire g ⊗ h . Alors pour tout X ∈ g et Y ∈ h
(11) π 1 ⊗ π 2 ( X , Y ) = π 1 ( X ) ⊗ I + I ⊗ π 2 (Y )

DEMONSTRATION
Supposons que u(t) est une courbe régulière dans U et v(t) une courbe régulière dans V. Alors nous
vérifions la règle du produit de la manière usuelle :
u (t + h ) ⊗ v(t + h ) − u (t ) ⊗ v(t )
lim
h →0 h
u (t + h ) ⊗ v(t + h ) − u (t + h ) ⊗ v(t ) u (t + h ) ⊗ v(t ) − u (t ) ⊗ v(t )
(12) = lim +
h →0 h h
 v(t + h ) − v(t )  u (t + h ) ⊗ v(t ) − u (t ) 
= lim u (t + h ) ⊗  + lim  + v(t )
h →0
 h  h → 0
 h 

Donc
(13)
d
(u (t ) ⊗ v(t )) = du ⊗ v(t ) + u (t ) ⊗ dv
dt dt dt

Cela étant le cas, nous pouvons calculer π 1 ⊗ π 2 ( X , Y ) :

π 1 ⊗ π 2 ( X , Y )(u ⊗ v ) =
d
dt
( )
Π 1 ⊗ Π 2 e tX , e tY (u ⊗ v )

(14) =
d
dt
( ) ( )
Π 1 e tX u ⊗ Π 2 e tY v
t =0

d
( )  d
=  Π 1 e tX u  ⊗ v + u ⊗  Π 2 e tY v 

( )
 dt t =0   dt t =0 
Cela montre que π 1 ⊗ π 2 ( X , Y ) = π 1 ( X ) ⊗ I + I ⊗ π 2 (Y ) sur des éléments de la forme u ⊗ v et
donc sur l'espace entiers U ⊗ V .

DEFINITION 5.24.
Soit g et h des algèbres de Lie et soit π 1 et π 2 des représentations de g et h agissant sur les espaces
U et V. Alors le produit tensoriel de π 1 et π 2 , noté π 1 ⊗ π 2 , est une représentation de g ⊗ h
agissant sur U ⊗ V , donnée par
(15) π 1 ⊗ π 2 ( X , Y ) = π 1 ( X ) ⊗ I + I ⊗ π 2 (Y )
pour tout X ∈ g et Y ∈ h .

Il est facile de contrôler que cela définit en effet une représentation de g ⊗ h . Notons que si nous
définissions π 1 ⊗ π 2 ( X , Y ) = π 1 ( X )π 2 (Y ) , ce ne serait pas une représentation de g ⊗ h , car elle
n'est même pas une application linéaire (par exemple, nous aurions alors
π 1 ⊗ π 2 (2 X ,2Y ) = 4π 1 ( X ) ⊗ π 2 (Y ) ) ! Notons aussi que la définition ci-dessus s'applique même si
π 1 et π 2 ne viennent pas d'une représentation d'un quelconque groupe matriciel.

DEFINITION 5.25.
Soit G un groupe de Lie matriciel et Π 1 , Π 2 des représentations de G agissant sur les espaces V1
et V2 . Alors le produit tensoriel de Π 1 et Π 2 est une représentation de G agissant sur V1 ⊗ V2
définie par
(16) Π 1 ⊗ Π 2 ( A) = Π 1 ( A) ⊗ Π 2 ( A)
pour tout A ∈ G .

PROPOSITION 5.26.
Avec la notation ci-dessus, la représentation associée de l'algèbre de Lie g satisfait
(17) π 1 ⊗ π 2 ( X ) = π 1 ( X ) ⊗ I + I ⊗ π 2 ( X )
pour tout X ∈ g .
DEMONSTRATION
En utilisant la règle du produit,

(18)
d
dt
( ) ( )
π 1 ⊗ π 2 ( X )(u ⊗ v ) = Π 1 e tX u ⊗ Π 2 e tY v
t =0

= π 1 ( X )u ⊗ v + u ⊗ π 2 ( X )v

Ce que nous désirions montrer.

DEFINITION 5.27.
Si g est une algèbre de Lie et π 1 et π 2 des représentations de g agissant sur les espaces V1 et V2 ,
alors le produit tensoriel de π 1 et π 2 est une représentation de g agissant sur l'espace V1 ⊗ V2
définie par
(19) π 1 ⊗ π 2 ( X ) = π 1 ( X ) ⊗ I + I ⊗ π 2 ( X )
pour tout X ∈ g .

Il est facile de contrôler que Π 1 ⊗ Π 2 et π 1 ⊗ π 2 sont réellement des représentations de G et g,


respectivement. Il y a une certaine ambiguïté dans la représentation de, disons, Π 1 ⊗ Π 2 . Même si
Π 1 et Π 2 sont des représentations du même groupe G, nous pourrions encore voir Π 1 ⊗ Π 2
comme une représentation de G × G , en prenant H = G dans la définition 5.22. C'est le contexte qui
rendra clair si on pense à Π 1 ⊗ Π 2 comme une représentation de G × G ou comme une
représentation de G.

1. Supposons que Π 1 et Π 2 sont des représentations irréductibles d'un groupe G. Si nous


regardons Π 1 ⊗ Π 2 comme une représentation de G, il n'est peut-être plus irréductible. S'il n'est
pas irréductible, on peut tenter de le décomposer comme une somme directe de représentations
irréductibles. Ce processus est appelé la théorie de Clebsch-Gordan. Dans le cas de SU(2), cette
théorie est relativement simple. Dans la littérature de la physique, le problème de l'analyse des
produits tensoriels de représentations de G est appelé "additions de moments angulaires". Nous
y reviendrons.
I.5.7. Lemme de Schur
Soit Π et Σ des représentations d'un groupe de Lie matriciel G, agissant sur des espaces V et W.
Rappelons qu'un morphisme de représentations est une application linéaire φ : V → W avec la
propriété que
(1) φ (Π ( A)v ) = Σ( A)(φ (v ))
pour tout v ∈ V et tout A ∈ G . Le lemme de Schur est un résultat extrêmement important qui nous
parle des morphismes de représentations irréductibles. Une partie du lemme de Schur s'applique à
la fois aux représentations réelles et complexes, mais une partie s'applique seulement aux
représentations complexes.

Il est désirable d'être capable d'établir le lemme de Schur simultanément pour les groupes et les
algèbres de Lie. Afin d'y arriver, nous avons besoin d'être indulgent à propos d'un abus commun de
notation. Si, disons, Π est une représentation de G agissant sur un espace V, nous nous référerons à
V comme la représentation sans référence explicite à Π .

THEOREME 5.28. (Lemme de Schur)


1. Soit V et W des représentations réelles ou complexes irréductibles d'un groupe ou d'une algèbre
de Lie, et soit φ : V → W un morphisme. Alors ou bien φ = 0 , ou bien φ est un isomorphisme.
2. Soit V une représentation complexe irréductible d'un groupe ou d'une algèbre de Lie, et soit
φ : V → V un morphisme de V dans lui-même. Alors φ = λI pour un certain λ ∈ C .
3. Soit V et W des représentations complexes irréductibles d'un groupe ou une algèbre de Lie, et
soit φ1 , φ 2 : V → W des morphismes non nuls. Alors φ1 = λφ 2 pour un certain λ ∈ C .

CORRLAIRE 5.29.
Soit Π une représentation complexe irréductible d'un groupe de Lie matriciel G. Si A est dans le
centre de G, alors Π ( A) = λI . De même, si π est une représentation complexe irréductible d'une
algèbre de Lie g et si X est dans le centre de g (c'est-à-dire [ X , Y ] = 0 pour tout Y ∈ g ), alors
π ( X ) = λI .
DEMONSTRATION
Nous démontrons le cas des groupes; la démonstration du cas des algèbres de Lie est la même.

Si A est dans le centre de G, alors pour tout B ∈ G ,


(2) AB = BA

Mais cela dit exactement que Π ( A) est un morphisme de Π dans lui-même. Ainsi, par le point 2
du lemme de Schur, Π ( A) est un multiple de l'identité.

COROLLAIRE 5.30.
Une représentation complexe irréductible d'un groupe ou d'une algèbre de Lie commutatif est à une
dimension.

DEMONSTRATION
A nouveau, nous démontrons seulement le cas des groupes. Si G est commutatif, alors le centre de
G est la totalité de G, ainsi par le précédent corollaire, Π ( A) est un multiple de l'identité pour
chaque A ∈ G . Mais cela signifie que tout sous-espace de V est invariant ! Donc la seule manière
pour que V échoue à avoir un sous-espace invariant et qu'il n'ait aucun sous-espace non trivial. Cela
signifie que V doit être à une dimension (rappelons que nous ne permettons pas à V d'être à zéro
dimension).

DEMONSTRATION (Lemme de Schur)


Comme d'habitude, nous démontrerons seulement le cas des groupes; la démonstration du cas des
algèbres de Lie nécessite seulement des changements évidents de notation.

Démonstration de 1.
Dire que φ est un morphisme signifie que φ (Π ( A)v ) = Σ( A)(φ (v )) pour tout v ∈ V et tout A ∈ G .
Supposons maintenant que v ∈ noyau(φ ) . Alors
(3) φ (Π ( A)v ) = Σ( A)(φ (v )) = 0
Cela montre que le noyau(φ ) est un sous-espace invariant de V. Puisque V est irréductible, nous
devons avoir noyau(φ ) = 0 ou noyau(φ ) = V . Donc φ est ou bien injectif ou zéro.

Supposons que φ est injectif. Alors l'image de φ est un sous-espace non nul de W. D'autre part,
l'image de φ est invariante, pour w ∈ W s'il est de la forme φ (v ) pour un quelconque v ∈ V , alors
(4) Σ( A)w = Σ( A)φ (v ) = φ (Π ( A)v )

Puisque W est irréductible et image(V ) est non nul et invariant, nous devons avoir image(V ) = W .
Donc φ est, ou bien zéro, ou bien bijectif.

Démonstration de 2.
Supposons maintenant que V est une représentation complexe irréductible et que φ : V → V est un
morphisme de V dans lui-même. Cela signifie que φ (Π ( A)) = Π ( A)φ pour tout A ∈ G , c'est-à-dire
que φ commute avec tous les Π ( A) . Maintenant, puisque nous sommes sur un champ algébrique
complet, φ doit avoir au moins une valeur propre λ ∈ C . Soit U l'espace propre de φ associé à la
valeur propre λ et soit u ∈ U . Alors pour chaque A ∈ G
(5) φ (Π ( A)u ) = Π ( A)φ (u ) = λΠ ( A)u

Donc, appliquer Π ( A) à un vecteur propre de φ avec la valeur propre λ conduit à un autre vecteur
propre de φ avec la valeur propre λ . C'est à dire que U est invariant.

Puisque λ est une valeur propre, U ≠ 0 , et ainsi nous devons avoir U = V. Mais cela signifie que
φ (v ) = λv pour tout v ∈ V , c'est à dire que φ = λI .

Démonstration de 3.
Si φ 2 ≠ 0 , alors suivant le point 1, φ 2 est un isomorphisme. Maintenant regardons φ1 o φ 2−1 . Comme
on le contrôle facilement, la composition de deux morphismes est un morphisme, ainsi φ1 o φ 2−1 est
un morphisme de W avec lui-même. Donc, suivant le point 2, φ1 o φ 2−1 = λI , et par conséquent
φ1 = λφ 2 .

I.5.8. Représentations des groupes contre représentations des algèbres


de Lie
Nous savons du théorème 3.18 que tout homomorphisme de groupe de Lie conduit à un
homomorphisme d'algèbre de Lie. En particulier, cela montre (proposition 5.4) que toute
représentation d'un groupe de Lie matriciel conduit à une représentation de l'algèbre de Lie
associée. Le but de cette section est d'analyser le processus inverse. C'est à dire, qu'étant donné une
représentation de l'algèbre de Lie, sous quelles circonstances y a-t-il une représentation associée du
groupe de Lie ?

Le point culminant de cette section est le théorème 5.33 qui dit que si G est un groupe de Lie
matriciel connexe et simplement connexe avec l'algèbre de Lie g, et si π est une représentation de
g, alors il y a une unique représentation Π de G telle que Π et π sont reliés comme dans la
proposition 5.4. Notre démonstration de ce théorème utilisera la formule de Baker-Campbell-
Hausdorff. Avant de passer à ce théorème général, nous examinerons deux cas particuliers, c'est à
dire SO(3) et SU(2), pour lesquels nous pouvons travailler manuellement.

Nous avons montré (théorème 5.9) que toute représentation complexe irréductible de su(2) est
équivalente à une des représentations π m décrites précédemment (rappelons que les représentations
complexes irréductibles de su(2) sont en correspondance injective avec les représentations
irréductibles de sl(2,C)). Chacune des ces représentations π m de su(2) fut construite à partir de la
représentation correspondante Π m du groupe SU(2). Donc nous voyons, en employant la force
brute, que toute représentation complexe irréductible de su(2) vient réellement d'une représentation
du groupe SU(2) ! Cela est consistant avec le fait que SU(2) est simplement connexe.

Considérons maintenant la situation pour SO(3) (qui n'est pas simplement connexe). Nous savons
que les algèbres de Lie su(2) et so(3) sont isomorphes. En particulier, si nous prenons la base
1i 0  1  0 1 0 i 
(1) E1 =   E 2 =   E3 =  
2 0 − i 2  − 1 0  i 0 
pour su(2) et la base
0 0 0   0 0 1  0 − 1 0
     
(2) F1 =  0 0 − 1 F2 =  0 0 0  F3 =  1 0 0 
0 1 0   − 1 0 0  0 0 0
     
pour so(3), alors le calcul direct montre que [E1 , E 2 ] = E3 , [E 2 , E3 ] = E1 , [E3 , E1 ] = E 2 et de même
avec les E remplacés par les F. Donc l'application φ : so(3) → su (2) qui applique Fi sur Ei sera un
isomorphisme d'algèbre de Lie.

Puisque su(2) et so(3) sont des algèbres de Lie isomorphes, elles doivent avoir les "mêmes"
représentations. Spécifiquement, si π est une représentation de su(2), alors π o φ sera une
représentation de so(3) et toute représentation de so(3) est de cette forme. En particulier, les
représentations irréductibles de so(3) sont précisément de la forme σ m = π m o φ . Nous voulons
déterminer, pour un m particulier, s'il y a une représentation Σ m du groupe SO(3) telle que σ m et
Σ m sont reliés comme dans la proposition 5.4.

I.5.8.1. Proposition 5.31


Soit σ m = π m o φ les représentations complexes irréductibles de l'algèbre de Lie so(3) ( m ≥ 0 ). Si
m est pair, alors il y a une représentation Σ m du groupe SO(3) tel que σ m et Σ m sont reliés comme
dans la proposition 5.4. Si m est impair, alors il n'y a pas de telle représentation de SO(3).

Notons que la condition que m est pair est équivalente à la condition que dim Vm = m + 1 est impair.
Donc c'est les représentations de dimension impaire de l'algèbre de Lie so(3) qui viennent des
représentations du groupe.

Dans la littérature de la physique, les représentations de su(2) / so(3) sont indicées par le paramètre
l = m / 2 . En fonction de cette notation, une représentation de so(3) vient d'une représentation de
SO(3) si et seulement si l est un entier. Les représentations avec l entier sont appelées "spin entier";
les autres sont appelées "spin demi-entier". Nous y reviendrons.

DEMONSTRATION

Cas 1 : m impair.
Dans ce cas, nous désirons démontrer qu'il n'y a pas de représentation Σ m telle que σ m et Σ m sont
reliés comme dans la représentation 5.4. Supposons, au contraire, qu'il y a un tel Σ m . Alors la
proposition 5.4. dit que
( )
(1) Σ m e X = e
σm (X )

pour tout X ∈ so(3) . En particulier, prenons X = 2πF1 . Puis, en calculant comme dans le calcul de
l'exponentielle matricielle, nous voyons que
1 0 0 
2πF1  
(2) e =  0 cos 2π − sin 2π  = I
 0 sin 2π cos 2π 
 

Donc, d'un coté Σ m e ( )= Σ


2πF1
m (I ) = I , tandis que d'un autre coté Σ m (e 2πF1 ) = e 2π σ m (F1 ) .
2π σ (F )
Calculons e m 1 . Par définition, σ m (F1 ) = π m (φ (F1 )) = π m (E1 ) . Mais E1 = 12 H , où comme
d'habitude
1 0 
(3) H =  
 0 − 1

Nous savons qu'il y a une base u 0 , u1 , , u m pour Vm telle que u k est un vecteur propre de π m (H )
avec la valeur propre m − 2k . Cela signifie que u k est aussi un vecteur propre de
σ m (F1 ) = 2i π m (H ) , avec la valeur propre i
2 (m − 2k ) . Donc dans la base {u k } , nous avons
 2i m 
 
 i
(m − 2) 
(4) σ m (F1 ) =  2

O
 


i
2 (− m )

Mais nous supposons que m est impair ! Cela signifie que m - 2k est un entier impair. Donc
i
2π (m− 2 k )
e 2
= −1 et dans la base {u k }
 2π 2i m 
e 
 2π
i
(m − 2 )

2π σ m (F1 )  2 
(5) e = e
 = −I
 O 
 2π ( − m ) 
i

 e 2 

( ) ( )
Don d'un coté Σ m e 2πF1 = Σ m (I ) = I , tandis que de l'autre Σ m e 2πF1 = e 2πσ m ( F1 ) = − I . C'est une
contradiction, ainsi il ne peut pas y avoir une telle représentation du groupe Σ m .

Cas 2 : pair.
Nous utiliserons le lemme suivant.

I.5.8.2. Lemme 5.32


Il existe un homomorphisme de groupe de Lie Φ : SU (2) → SO(3) tel que
1. Φ est une bijection de SU(2) vers SO(3).
2. noyau(Φ ) = {I ,− I }.
3. L'homomorphisme d'algèbre de lie associé Φ : su (2 ) → so(3) est un isomorphisme qui applique
~
~
Ei sur Fi . C'est-à-dire que Φ = φ −1 .
Maintenant considérons les représentations Π m de SU(2). Nous affirmons que si m est pair,
Π m (− I ) = I . Pour voir cela, notons que
2πF1  πi 0 
(1) e = exp  = − I
 0 − π i 

Donc Π m (− I ) = Π m e ( )= e
2πF1 (
π m 2πE1 )
. Mais comme dans le Cas 1,
 2π 2i m 
e 
 2π
i
(m − 2 )

π m (2πE1 )  2 
(2) e = e

 O 
 2π ( − m ) 
i

 e 2 

Seulement, cette fois m est pair et ainsi


i
(m − 2k ) est un entier, tel que Π m (− I ) = eπ m (2πE1 ) = I ..
2

Puisque Π m (− I ) = I , Π m (− U ) = Π m (U ) pour tout U ∈ SU (2 ) . Selon le lemme 5.32, pour chaque


R ∈ SO(3) , il y a une unique paire d'éléments {U ,−U } telle que Φ(U ) = Φ(− U ) = R . Puisque
Π m (− U ) = Π m (U ) , il y a un sens à définir
(3) Σ m (R ) = Π m (U )

Il est facile de voir que Σ m est un homomorphisme de groupe de Lie (et donc, une représentation).
Par construction, nous avons
(4) Π m = Σ m o Φ

~
Maintenant, si Σ m est la représentation d'algèbre de Lie associée à Σ m , alors il suit de (4) que
~
(5) π m = Σ m o Φ
~ ~
Mais l'homomorphisme d'algèbre de Lie Φ applique Ei sur Fi , c'est-à-dire Φ = φ −1 . Ainsi
~ ~ ~
π m = Σ m o φ −1 ou Σ m = π m o φ . Donc Σ m = σ m , qui est ce que nous désirions montrer.

1. Il est maintenant temps d'établir le théorème principal.

I.5.8.3. Théorème 5.33


1. Soit G, H des groupes de Lie matriciels, φ1 , φ 2 : G → H des homomorphismes de groupe de Lie
~ ~ ~
et φˆ , φ : gh les homomorphismes d'algèbre de Lie associés. Si G est connexe et φ = φ , alors
1 2 1 2

φ1 = φ 2 .
~
2. Soit G, H des groupes de Lie matriciels avec les algèbres de Lie g et h. Soit φ : g → h un
homomorphisme d'algèbre de Lie. Si G est connexe et simplement connexe, alors il existe un
~
unique homomorphisme de groupe de Lie φ : G → H tel que φ et φ sont reliés comme dans le
théorème 3.18.

Il a les corollaires suivants.

COROLLAIRE 5.34.
Supposons que G et H sont des groupes de Lie matriciels connexes et simplement connexes avec
les algèbres de Lie g et h. Si g ≅ h alors G ≅ H .

DEMONSTRATION
~
Soit φ : g → h un isomorphisme d'algèbre de Lie. Suite au théorème 5.33, il existe un
~
homomorphisme de groupe de Lie associé φ : G → H . Puisque φ −1 : h → g est aussi un
homomorphisme d'algèbre de Lie, il y a un homomorphisme de groupe de Lie correspondant
ψ : H → G . Nous désirons montrer que φ et ψ sont inverses l'un de l'autre.

~ ~
Bien, φ o ψ = φ o ψ~ = I h , ainsi par le point 1 du théorème, φ o ψ = I H . De même ψ o φ = I G .
COROLLAIRE 5.35.
1. Soit G un groupe de Lie matriciel connexe, Π 1 et Π 2 des représentations de G et π 1 et π 2 les
représentations d'algèbre de Lie associée. Si π 1 et π 2 sont équivalentes, alors Π 1 et Π 2 sont
équivalentes.
2. Soit G connexe et simplement connexe. Si π est une représentation de g, alors il existe une
représentation Π de G, agissant sur le même espace, telle que Π et π sont reliés comme dans
la proposition 5.4.

DEMONSTRATION
Pour le point 1, soit Π 1 agissant sur V et Π 2 sur W. Nous supposons que les représentations
d'algèbre de Lie associées sont équivalentes, c'est-à-dire qu'il existe une application linéaire
inversible φ : V → W telle que
(1) φ (π 1 ( X )v ) = π 2 ( X )φ (v )
pour tout X ∈ g et tout v ∈ V . C'est la même chose que dire que φπ 1 ( X ) = π 2 ( X )φ ou de manière
équivalente que φπ 1 ( X )φ −1 = π 2 ( X ) (pour tout X ∈ g ).

Maintenant, définissons une application Σ 2 : G → GL(W ) par la formule


(2) Σ 2 ( A) = φΠ 1 ( A)φ −1

Il est trivial de contrôler que Σ 2 est un homomorphisme. De plus, la différentiation montre que
l'homomorphisme d'algèbre de Lie associé est
(3) σ 2 ( X ) = φπ 1 ( X )φ −1 = π 2 ( X )
pour tout X. Alors suivant le point 1 dans le théorème, nous devons aussi avoir Σ 2 = Π 2 , c'est-à-
dire
(4) φΠ 1 ( A)φ −1 = Π 2 ( A)
pour tout A ∈ G . Mais cela montre que Π 1 et Π 2 sont équivalents.

Le point 2 du corollaire suit immédiatement du point 2 du théorème en prenant H=GL(V).


Nous allons maintenant procéder à la démonstration du théorème 5.33.

1I.5.8.4. Démonstration du théorème 5.33

Etape 1 : vérification du point 1 du théorème


Puisque G est connexe, le corollaire 3.26 nous dit que tout élément A de G est un produit fini de la
~ ~
forme A = exp X 1 exp X 2 L exp X n avec X i ∈ g . Mais alors si φ1 = φ 2 , nous avons
( ) φ (X )
~
φ (X )
~
φ (X )
~
φ (X )
~
(
(1) φ1 e 1 L e n = e 1 1 L e 1 n = e 2 1 L e 2 n = φ 2 e 1 L e n
X X X X
)
Ainsi nous avons maintenant seulement besoin de démontrer le point 2.

Etape 2 : Définition de φ dans un voisinage de l'identité


( )
La proposition 3.23 dit que l'application exponentielle pour φ1 e 1 L e n G a un inverse local qui
X X

applique un voisinage V de l'identité dans l'algèbre de Lie g. Sur ce voisinage V, nous pouvons
définir φ : V → H par
{ }
(2) φ ( A) = exp φ (ln A)
~

C'est à dire
~
(3) φ = expo φ o ln
(notons que s'il y a un homomorphisme φ comme dans le théorème 3.18, alors sur V, φ doit être
~
expo φ o ln ).

Il suit du corollaire 4.4 de la formule de Baker-Campbell-Hausdorff que ce φ est un


"homomorphisme local". C'est à dire que si A et B sont dans V et si AB est également dans V, alors
φ ( AB ) = φ ( A)φ (B ) .
Etape 3 : Définition de φ le long d'un chemin
Rappelons que quand nous disons que G est connexe, nous voulons dire en réalité que G est bien
enchaîné. Donc, pour tout A ∈ G , il existe un chemin A(t ) ∈ G avec A(0) = I et A(1) = A . Un
argument de compacité montre alors qu'il existe des nombres 0 = t 0 < t1 < t 2 < K < t n tels que
(4) A(s ) A(t i ) ∈ V
−1

pour tout s entre t i et t i +1 .

En particulier, pour t = 0, nous avons A(s ) ∈ V pour 0 ≤ s ≤ t1 . Donc nous pouvons définir φ ( A(s ))
par l'étape 2 pour s ∈ [0, t1 ] . Maintenant, pour s ∈ [t1 ,t 2 ] nous avons, suivant (4), A(s ) A(t1 ) ∈ V .
−1

En déplaçant A(t1 ) de l'autre coté, cela signifie que pour s ∈ [t1 ,t 2 ] nous pouvons écrire
[
(5) A(s ) = A(s ) A(t1 )
−1
]A(t )
1

avec A(s ) A(t1 ) ∈ V . Si φ est un homomorphisme, nous devons avoir


−1

([
(6) φ ( A(s )) = φ A(s ) A(t1 )
−1
]A(t )) = φ (A(s )A(t ) )φ ( A(t ))
1 1
−1
1

( )
Mais φ ( A(t1 )) a déjà été définit et nous pouvons définir φ A(s ) A(t1 ) suivant l'étape 2. De cette
−1

manière, nous pouvons utiliser (6) pour définir φ ( A(s )) pour s ∈ [t1 ,t 2 ] .

En procédant de la même manière, nous pouvons définir φ ( A(s )) successivement sur chaque
intervalle [t i , t i +1 ] jusqu'à ce qu'éventuellement nous ayons définit φ ( A(s )) sur l'intervalle complet
[0,1] . Cela sert en particulier à définir φ ( A(1)) = φ ( A) .
Etape 4 : démonstration de l'indépendance au chemin
Dans l'étape 3, nous avons "définit" φ ( A) en définissant φ le long d'un chemin joignant l'identité à
A. Pour que cette définition de φ ( A) ait un sens, nous devons démontrer que la réponse est
indépendante du choix du chemin et, aussi, pour un chemin particulier, indépendante du choix de la
partition (t 0 , t1 , K , t n ) .
Pour établir l'indépendance à la partition, nous montrons d'abord que passer d'une partition
particulière à un raffinement de cette partition ne change pas la réponse (un raffinement de la
partition est une partition qui continent tous les points de la partition originale plus quelques
autres). Cela est démontré par la formule de Baker-Campbell-Hausdorff. Par exemple, supposons
que nous insérions un point supplémentaire s dans la partition entre t 0 et t1 . Sous l'ancienne
partition, nous avons
(7) φ ( A(t1 )) = expo φ o ln ( A(t1 ))
~

Sous la nouvelle partition, nous écrivons


[ ]
(8) A(t1 ) = A(t1 ) A(s ) A(s )
−1

tel que
~
( )
(9) φ ( A(t1 )) = exp o φ o log A(t1 ) A(s ) exp o φ o log ( A(s ))
−1 ~

Mais (comme noté dans l'étape 2), le corollaire 4.4 de la formule de Baker-Campbell-Hausdorff
implique que pour A et B suffisamment près de l'identité
[ ][
(10) expo φ o ln ( AB ) = expo φ o ln ( A) expo φ o ln (B )
~ ~ ~
]
Donc les cotés droits de (7) et (9) sont égaux. Une fois que nous savons que passer à un raffinement
ne change pas la réponse, nous avons l'indépendance à la partition. Pour deux partitions de [0,1]
nous avons un raffinement commun, c'est à dire l'union des deux.

Une fois que nous connaissons l'indépendance à la partition, nous avons besoin de démontrer
l'indépendance au chemin. C'est à ce point que nous utiliserons le fait que G est simplement
connexe. En particulier, à cause de la simple connexité, deux chemins A1 (t1 ) et A2 (t 2 ) joignant
l'identité à A seront homotopes avec les points finaux fixés (c'est un fait topologique standard). En
utilisant cela, nous désirons prouver que l'étape 3 donne la même réponse pour A1 et A2 .
Notre stratégie est de déformer A1 en A2 en une série d'étapes où durant chaque étape nous
changeons seulement le chemin dans un petit intervalle (t, t + ε ) en gardant tout fixé sur [0, t ] et
[t + ε ,1] . Puisque nous avons l'indépendance à la partition, nous pouvons prendre t et t + ε comme
des points de la partition. Puisque l'intervalle est petit, nous pouvons supposer qu'il n'y a pas de
points de partition entre t et t + ε . Alors, nous avons
( )
(11) φ ( A(t + ε )) = φ A(t + ε ) A(t ) φ ( A(t ))
−1

(
où φ A(t + ε )A(t )
−1
) est définit comme dans l'étape 2.
Mais notons que notre valeur pour φ ( A(t + ε )) dépend seulement de A(t) et A(t + ε ) , non de
comment nous allons de A(t) à A(t + ε ) ! Donc la valeur de φ ( A(t + ε )) ne change pas lorsque nous
déformons le chemin. Mais si φ ( A(t + ε )) ne change pas lorsque nous déformons le chemin, alors
φ ( A(1)) non plus puisque le chemin ne change pas sur [t + ε ,1] .

Puisque A1 et A2 sont homotopes avec les points finaux fixés, il est possible (par un argument
topologique standard) de déformer A1 en A2 par une série de petites étapes comme ci-dessus.
~
Etape 5 : Démontrer que φ est un homomorphisme et est proprement relié à φ
Maintenant que nous avons l'indépendance au chemin (et à la partition), une description plus simple
de comment calculer φ peut être donnée. Etant donné tout élément A du groupe, A peut être écrit
sous la forme
(11) A = C n C n −1 L C1
avec chaque C i dans V (cela suit du fait que G est bien enchaîné). Nous pouvons alors choisir un
chemin A(t) qui commence à l'identité puis va en C1 , puis en C 2 C1 et ainsi de suite jusque
C n C n −1 L C1 = A . Nous pouvons choisir une partition telle que A(t i ) = C i C i −1 L C1 . De cette
manière nous avons définit
( )( )
(12) φ ( A) = φ A(1) A(t n −1 ) φ A(t n −1 )A(t n −2 ) Lφ ( A(t1 ) A(0))
−1 −1
Mais
(13) A(t i ) A(t i −1 ) = (C i C i −1 L C1 )(C i −1 LC1 ) = C i
−1 −1

ainsi
(14) φ ( A) = φ (C n )φ (C n −1 )Lφ (C1 )

Maintenant, supposons que A et B sont deux éléments de G et que nous voulions calculer φ ( AB ) .
Bien, écrivons
A = C n C n −1 L C1
(15)
B = Dn Dn −1 L D1

Alors
φ ( AB ) = φ (C n C n−1 LC1 Dn Dn −1 L D1 )
(16) = [φ (C n )Lφ (C1 )][φ (Dn )Lφ (D1 )]
= φ ( A)φ (B )

Nous voyons que φ est un homomorphisme. Il reste seulement à vérifier que φ a la relation propre
~ ~
avec φ . Mais puisque φ est définit près de l'identité par φ = expo φ o ln , nous voyons que
d
( )
(17) φ e tX
dt
d ~
= e tφ ( X )
dt
= φ (X )
~
t =0 t =0

~
Donc φ est l'homomorphisme d'algèbre de Lie associé à l'homomorphisme de groupe de Lie φ .

Cela complète la démonstration du théorème 5.33.

I.5.9. Groupes de recouvrement


C'est maintenant que nous allons payer le prix de notre décision de considérer seulement les
groupes de Lie matriciels. Le groupe de recouvrement universel d'un groupe de Lie matriciel
(définit ci-dessous) est toujours un groupe de Lie mais pas toujours un groupe de Lie matriciel. Par
exemple le groupe de recouvrement de SL(n,R) ( n ≥ 2 ) est un groupe de Lie mais pas un groupe de
Lie matriciel.

La notion de recouvrement universel nous permettra de déterminer, dans le cas d'un groupe qui
n'est pas simplement connexe, quelles représentations de l'algèbre de Lie correspondent à des
représentations du groupe. Voir le théorème 5.41 ci-dessous.

DEFINITION 5.36.
Soit G un groupe de Lie matriciel. Un groupe de recouvrement universel de G (ou juste
~
recouvrement universel) est un groupe de Lie G connexe, simplement connexe avec un
~
homomorphisme de groupe de Lie φ : G → G (appelée application de projection) avec les
propriétés suivantes :
~
1. φ est une bijection de G vers G.
~
2. Il y a un voisinage U de I dans G qui s'applique de manière homéomorphique sous φ dans un
voisinage V de I dans G.

PROPOSITION 5.37.
~
Si G est un groupe de Lie matriciel connexe, alors un groupe de recouvrement universel G de G
existe et est unique à un isomorphisme canonique près.

Nous ne démontrerons pas ce théorème, mais l'idée de la démonstration est comme suit. Nous
supposons que G est un groupe de Lie matriciel, donc un groupe de Lie (c'est-à-dire une variété).
~
Comme variété, G a un recouvrement topologique universel G qui est une variété connexe et
simplement connexe. Le recouvrement universel vient avec une "application de projection"
~
φ : G → G qui est un homéomorphisme local. Maintenant, puisque G n'est pas seulement une
~
variété mais aussi un groupe, G devient aussi un groupe et l'application de projection φ devient un
homéomorphisme.
PROPOSITION 5.38.
~
Soit G un groupe de Lie matriciel connexe, G sont recouvrement universel et φ l'application de
~ ~
projection de G vers G. Supposons que G est un groupe de Lie matriciel avec l'algèbre de Lie ~g.
Alors l'application d'algèbre de Lie associée
~
(1) φ : ~
g →g
est un isomorphisme.
~
Vu cette proposition, nous dirons souvent que G et G ont la même algèbre de Lie.
~
1. La proposition ci-dessus est vraie même si G n'est pas un groupe de Lie matriciel. Mais pour
donner un sens à la proposition dans ce cas, nous avons besoin de la définition d'une algèbre de
Lie d'un groupe de Lie général, que nous n'avons pas définit.

I.5.9.1. Exemples
Le recouvrement universel de S 1 est R et l'application de projection est l'application x → e ix . Le
recouvrement universel de SO(3) est SU(2) et l'application de projection est l'homomorphisme
décrit dans le lemme 5.32.

Plus généralement nous pouvons considérer SO(n) pour n ≥ 3 . Il s'avère que pour n ≥ 3 , le
recouvrement universel de SO(n) est un recouvrement double (c'est à dire que l'application de
projection φ est deux vers un). Le recouvrement universel de SO(n) est appelé Spin(n) et peut être
construit comme un certain groupe d'éléments inversibles dans l'algèbre de Clifford sur R n . En
particulier, Spin(n) est un groupe de Lie matriciel.

Le cas n = 4 est assez spécial. Il s'avère que le recouvrement universel de SO(4) (c'est à dire
Spin(4)) est isomorphe à SU (2) × SU (2) . Cela est mieux visible en regardant R 4 comme l'algèbre
des quaternions.
THEOREME 5.39.
~
Soit G un groupe de Lie matriciel et supposons que G est aussi un groupe de Lie matriciel.
~
Identifions l'algèbre de Lie de G avec l'algèbre de Lie g de G comme dans la proposition 5.38.
~
Supposons que H est un groupe de Lie matriciel avec l'algèbre de Lie h et que φ : g → h est un
~
homomorphisme. Alors il existe un unique homomorphisme de groupe de Lie φ : G → H tel que φ
~
et φ sont reliés comme dans le théorème 3.18.

DEMONSTRATION
~
G est simplement connexe.

COROLLAIRE 5.40.
~
Soit G et G comme dans le théorème 5.39 et soit π une représentation de g. Alors il existe une
~ ~
unique représentation Π de G tel que
d ~
dt
( )
(1) π ( X ) = Π e tX
t =0
pour tout X ∈ g .

THEOREME 5.41.
~ ~
Soit G et G comme dans le théorème 5.39 et soit π une représentation de g et Π la représentation
~
associée de G , comme dans le corollaire. Alors il existe une représentation Π de G correspondant
à π si et seulement si
( )
(2) noyau Π ⊃ noyau(φ )
~

Exercices
1. Soit G un groupe de Lie matriciel et g sont algèbre de Lie. Soit Π 1 et Π 2 des représentations
de G et soit π 1 et π 2 les représentations associées de g (proposition 5.4). Montrez que si Π 1 et
Π 2 sont des représentations équivalentes de G, alors π 1 et π 2 sont des représentations
équivalentes de g. Montrez que si G est connexe et si π 1 et π 2 sont des représentations
équivalentes de g, alors Π 1 et Π 2 sont des représentations équivalentes de G.

Suggestion : utilisez le corollaire 3.26.


2. Soit G un groupe de Lie matriciel connexe avec l'algèbre de Lie g. Soit Π une représentation
de G agissant sur l'espace V et soit π la représentation de l'algèbre de Lie associée. Montrez
qu'un sous espace W ⊂ V est invariant pour Π si et seulement s'il est invariant pour π .
Montrez que Π est irréductible si et seulement si π est irréductible.
3. Supposons que Π est une représentation unitaire de dimension finie d'un groupe de Lie
matriciel G (c'est-à-dire que V est un espace de Hilbert de dimension finie et Π est un
homomorphisme continu de G dans U (V ) ). Soit π la représentation associée de l'algèbre de
Lie . Montrez que pour chaque X ∈ g , π ( X ) = −π ( X ) .
+

4. Montrez explicitement que la représentation adjointe et la représentation standard sont des


représentations équivalentes de l'algèbre de Lie so(3). Montrez que les représentations adjointe
et standard du groupe SO(3) sont équivalentes.
5. Considérez les éléments E1 , E 2 et E3 de su(2) définis dans l'exercice 9 à la fin de la section
I.3.8. Ces éléments forment une base pour l'espace vectoriel réel su(2). Montrez directement
que E1 , E 2 et E3 forment une base pour l'espace vectoriel complexe sl(2,C).
6. Définissez un espace vectoriel avec la base u 0 , u1 , K , u m . Définissez maintenant les opérateurs
π (H ) , π ( X ) et π (Y ) par la formule (26) de la section I.5.4. Vérifiez par un calcul direct que
les opérateurs définis par cette formule satisfont les relations de commutation
[π (H ), π ( X )] = 2π ( X ) , [π (H ),π (Y )] = −2π (Y ) et [π ( X ), π (Y )] = π (H ) (donc π (H ) , π ( X ) et
π (Y ) définissent une représentation de sl(2,C)). Montrez que cette représentation est
irréductible.

Suggestion : il suffit de montrer, par exemple, que [π (H ), π ( X )] = 2π ( X ) sur chaque élément


de base. Quand vous traitez avec π (Y ) n'oubliez pas de traiter séparément le cas u k , k < m et le
cas u m .
7. Nous pouvons définir une représentation à deux dimensions de so(3) comme suit :
 0 0 0
  1i 0 
π  0 0 1  =  
 0 − 1 0 2  0 − i 
 
 0 0 1
  1  0 1
π  0 0 0  =  
 − 1 0 0 2  − 1 0 
 
 0 1 0
  1 0 i 
π  − 1 0 0  =  
 0 0 0 2  i 0 
 
(vous pouvez supposer que cela donne réellement une représentation). Montrez qu'il n'y a pas
de représentation de groupe Π de SO(3) tel que Π et π sont reliés comme dans la proposition
5.4.

Suggestion : Si X ∈ so(3) est tel que e X = I et si Π est une représentation de SO(3), alors
( )
Π e X = Π (I ) = I .

Remarque : Dans la littérature de la physique, cette non-représentation de SO(3) est appelée


"spin 1/2".
8. Considérez la représentation standard du groupe de Heisenberg, agissant sur C 3 . Déterminez
tous les sous espaces de C 3 qui sont invariants sous l'action du groupe de Heisenberg. Cette
représentation est-elle complètement réductible ?
9. Donnez un exemple d'une représentation du groupe commutatif R qui n'est pas complètement
réductible.
10. Considérons les représentations unitaires Π h du groupe de Heisenberg réel. Supposons qu'il y a
une certaine sorte de représentation associée π h de l'algèbre de Lie qui serait donnée par
π h (X ) f =
d
dt t =0
Π h e tX f( )
(nous n'avons pas prouvé de théorème de cette sorte pour les représentations unitaires de
dimension infinie).

Calculez d'une manière purement formelle (c'est-à-dire en ignorant toutes les questions
techniques)
 0 1 0  0 0 0  0 0 1
     
π h  0 0 0 π h  0 0 1 π h  0 0 0
 0 0 0  0 0 0  0 0 0
     

Vérifiez (encore formellement) que ces opérateurs ont les bonnes relations de commutation
pour générer une représentation de l'algèbre de Lie du groupe réel de Heisenberg (c'est-à-dire,
vérifiez que sur cette base, π h [X , Y ] = [π h ( X ), π h (Y )] ).

Pourquoi ce calcul n'est-il pas rigoureux ?


11. Considérez le groupe de Heisenberg sur le champ Z p des entiers modulo p avec p premier,
c'est-à-dire
 1 a b  
  
H p =  0 1 c  | a, b, c ∈ Z p 
 0 0 1  
  

C'est un sous-groupe du groupe GL(3, Z p ) et il a p 3 éléments.

Soit V p l'espace des fonctions complexes sur Z p qui est une espace vectoriel complexe à p
dimensions. Pour chaque n ∈ Z p non nul, définissons une représentation de H p par la formule
(Π n f )(x ) = e −i 2π nb / p e i 2π ncx / p f (x − a ) x∈Zp
(ces représentations sont analogues aux représentations unitaires du groupe réel de Heisenberg
avec la quantité 2πn / p jouant de rôle de h ).

a. Montrez que pour chaque n, Π n est réellement une représentation de H p et qu'elle est
irréductible.
b. Déterminez (à une équivalence près) toutes les représentations à une dimension de H p .
c. Montrez que toute représentation irréductible de H p est ou bien à une dimension, ou bien
équivalente à une des Π n .
12. Démontrez le théorème 5.19.

Suggestion : Pour l'existence, choisissez des bases {ei } et { f i } pour U et V. Puis définissez un
espace W qui a une base {wij | 0 ≤ i ≤ n,0 ≤ j ≤ m}. Définissez φ (ei , f j ) = wij et étendez par
bilinéarité. Pour l'unicité, utilisez la propriété universelle.
13. Soit g et h des algèbres de Lie et considérez l'espace vectoriel g ⊗ h . Montrez que l'opération
suivante fait de g ⊗ h une algèbre de Lie
[( X 1 , Y1 ), ( X 2 , Y2 )] = ([X 1 , X 2 ], [Y1 , Y2 ])
Maintenant, soit G et H des groupes de Lie matriciels avec les algèbres de Lie g et h. Montrez
que G × H peut être vu comme un groupe de Lie matriciel d'une manière évidente et que
l'algèbre de Lie de G × H est isomorphe à g ⊗ h .
14. Supposons que π est une représentation d'une algèbre de Lie g agissant sur un espace vectoriel
de dimension finie V. Soit V ∗ comme d'habitude l'espace dual de V, c'est-à-dire l'espace des
fonctionnelles linéaires sur V. Si A est un opérateur linéaire sur V, soit AT l'opérateur dual ou
transposé sur V ∗ .
( )
AT φ (v ) = φ ( Av )
pour φ ∈V ∗ , v ∈ V . Définissons une représentation π ∗ de g sur V ∗ par la formule
π ∗ ( X ) = −π (X T )
a. Montrez que π ∗ est réellement une représentation de g.
b. Montrez que π ∗( ) ∗
est isomorphe à π .
c. Montrez que π est irréductible si et seulement si π l'est.

d. Quelle est la construction analogue de la représentation duale pour les représentations des
groupes ?
15. Rappelons les espaces Vm introduit plus haut, vus comme des représentations de l'algèbre de
Lie sl(2,C). En particulier, considérons l'espace V1 (qui a la dimension 2).

a. Considérez V1 ⊗ V1 comme une représentation de sl(2,C), comme dans la définition 5.27.


Montrez que cette représentation n'est pas irréductible.
b. Maintenant, considérez V1 ⊗ V1 comme une représentation de sl (2, C ) ⊗ sl (2, C ) , comme
dans la définition 5.24. Montrez que cette représentation est irréductible.
c. Plus généralement, montrez que Vm ⊗ Vn est irréductible comme représentation de
sl (2, C ) ⊗ sl (2, C ) mais réductible (excepté si n ou m est zéro) comme représentation de sl(2,C).
16. Montrez explicitement que exp : so(3) → SO(3) est surjective.

Suggestion : utilisez le fait que SO(3) ⊂ SU (3) , montrez que les valeurs propres de R ∈ SO(3)
( )
doivent être une des trois formes suivantes : (1, 1, 1), (1, -1, -1) ou 1, e iθ , e −iθ . En particulier,
R doit avoir une valeur propre égale à un. Maintenant montrez que dans une base orthonormale
correctement choisie, R est de la forme
1 0 0 
 
R =  0 cosθ sin θ 
 0 − sin θ cosθ 
 
17. Démonstration du lemme 5.32.

Soit {E1 , E 2 , E3 } la base usuelle de su(2) et {F1 , F2 , F3 } la base pour so(3) introduite dans la
section I.5.8. Identifiez su(2) avec R 3 en identifiant la base {E1 , E 2 , E3 } avec la base standard
de R 3 . Considérez ad E1 , ad E 2 et ad E3 comme opérateurs sur su(2), donc sur R 3 . Montrez
que ad Ei = Fi pour Σ = Π o φ . En particulier, ad est un isomorphisme d'algèbre de Lie de su(2)
vers so(3).

Maintenant considérez Ad : SU (2) → GL(SU (2)) = GL(3, R ) . Montrez que l'image de Ad est
précisément SO(3). Montrez que le noyau de Ad est {I ,− I } .

Montrez que Ad : SU (2) → SO(3) est l'homomorphisme requit par le lemme 5.32.
18. Démonstration de la proposition 5.38.
~ ~
Supposons que G et G sont des groupes de Lie matriciels. Supposons que φ : G → G est un
~
homomorphisme de groupe de Lie tel que φ applique un certain voisinage U de I dans G de
manière homéomorphique vers un voisinage V de I dans G. Démontrez que l'application
~
d'algèbre de Lie associée φ : ~
g → g est un isomorphisme.

~
Suggestion : Supposez que φ n'est pas injectif. Montrez, alors, qu'il existe une suite de point
~
An dans G avec An ≠ I , An → I et donnant une contradiction.

~
Pour montrer que φ est surjectif, utilisez l'étape 1 de la démonstration du théorème 5.33 pour
montrer que dans un voisinage suffisamment petit de zéro dans ~ g,
~
φ = lno φ o exp
~
Utilisez cela pour montrer que l'image de φ contient un voisinage de zéro dans g. Utilisez
~
maintenant la linéarité pour montrer que l'image de φ est la totalité de g.
19. Démonstration du théorème 5.41.

( )
Supposez d'abord que noyau Π ⊃ noyau (φ ) . Construisez alors Π comme dans la
~
démonstration de la proposition 5.31.
Maintenant supposez qu'il y a une représentation Π de G pour laquelle la représentation
( )
d'algèbre de Lie associée est π . Nous désirons ensuite montrer que noyau Π ⊃ noyau (φ ) .
~
~
Définissons une nouvelle représentation Σ de G par
Σ = Π oφ

Montrez que l'homomorphisme d'algèbre de Lie associé σ est égal à π , tel que, suivant le
~
point (1) du théorème 5.33, Π = Σ . Que pouvez-vous dire à propos du noyau de Σ ?
20. Soit un entier n ≥ 2 .

a. Montrez que toute représentation (complexe de dimension finie) de l'algèbre de Lie sl(n,R)
conduit à une représentation du groupe SL(n,R), même si SL(n,R) n'est pas simplement
connexe (vous pouvez utiliser le fait que SL(n,C) est simplement connexe).
b. Montrez que le recouvrement universel de sl(n,R) n'est isomorphe à aucun groupe de Lie
matriciel (vous pouvez utiliser le fait que sl(n,R) n'est pas simplement connexe).
21. Soit G un groupe de Lie matriciel avec l'algèbre de Lie g, h une sous algèbre de g et H l'unique
sous-groupe de Lie connexe de G avec l'algèbre de Lie h. Supposons qu'il existe un groupe de
Lie simplement connexe, compact K tel que l'algèbre de Lie de K est isomorphe à h. Montrez
que H est fermé. H est-il nécessairement isomorphe à K ?

I.6. Les représentations de SU(3) et au-delà

I.6.1. Préliminaires
Il y a une théorie des représentations des groupes et algèbres de Lie semi-simples qui inclut comme
cas particulier la théorie des représentations de SU(3). Cependant, il vaut la peine d'examiner le cas
de SU(3) séparément. Partiellement parce que SU(3) est un groupe important en physique mais
surtout parce que la théorie semi-simple générale est difficile à digérer. En considérant un exemple
non trivial qui en dérive, il éclairera la suite. En fait, tous les éléments de la théorie générale sont
déjà présents dans le cas de SU(3), ainsi nous ne perdrons pas beaucoup en considérant d'abord
juste ce cas.
Le résultat principal de cette partie est le théorème 6.10 qui dit qu'une représentation irréductible de
dimension finie de SU(3) peut être classée en fonction des ses "poids les plus élevés". C'est
l'analogue de la classification des représentations irréductibles Vm de su(2) / sl(2,C) avec la plus
grande valeur propre de π m (H ) (la plus grande valeur propre de π m (H ) dans Vm est précisément
m). Nous discuterons alors, sans démonstration, des résultats correspondants pour les algèbres de
Lie semi-simples générales.

Le groupe SU(3) est connexe et simplement connexe, ainsi par le corollaire 5.35, les
représentations de dimension finie de SU(3) sont en correspondance injective avec les
représentations de dimension finie de l'algèbre de Lie su(3). En même temps, les représentations
complexes de su(3) sont en correspondance injective avec les représentations linéaires complexes
de l'algèbre de Lie complexifiée su (3)C . Mais su (3)C ≅ sl (3, C ) , comme on le vérifie facilement.
De plus, puisque SU(3) est connexe, il s'ensuit qu'un sous-espace W ⊂ V est invariant sous l'action
de SU(3) si et seulement s'il est invariant sous l'action de sl(3,C). Donc nous avons la suite :

PROPOSITION 6.1.
Il y a une correspondance injective entre les représentations complexes de dimension finie Π de
SU(3) et les représentations linéaires complexes de dimension finie π de sl(3,C). Cette
correspondance est déterminée par la propriété que
( )
(1) Π e X = eπ ( X )
pour tout X ∈ su (3) ⊂ sl (3, C ) .

La représentation Π est irréductible si et seulement si la représentation π est irréductible. De plus,


un sous espace W ⊂ V est invariant pour Π si et seulement s'il est invariant pour π .

Puisque SU(3) est compact, la proposition 5.17 nous dit que toutes les représentations de dimension
finie de SU(3) sont complètement réductibles. La proposition ci-dessus implique alors que toutes
les représentations de dimension finie de sl(3,C) sont complètement réductibles.

De plus, nous pouvons appliquer le même raisonnement au groupe SU(2), son algèbre de Lie su(2)
et son algèbre de Lie complexifiée sl(2,C). Puisque SU(2) est simplement connexe, il y a une
correspondance injective entre les représentations complexes de SU(2) et les représentations de
l'algèbre complexifiée sl(2,C). Puisque SU(2) est compact, toutes les représentations de SU(2), et
donc aussi de sl(2,C), sont complètement réductibles. Donc nous avons établit la suite :

PROPOSITION 6.2.
Toute représentation (linéaire complexe) de dimension finie de sl(2,C) ou sl(3,C) est complètement
réductible. En particulier, toute représentation de dimension finie de sl(2,C) ou sl(3,C) se
décompose comme une somme directe de sous espaces invariants irréductibles.

Nous utiliserons la base suivante pour sl(3,C) :


 1 0 0 0 0 0 
   
H1 =  0 − 1 0 H 2 =  0 1 0 
 0 0 0  0 0 − 1
   
 0 1 0  0 0 0 0 0 1
     
(1) X 1 =  0 0 0  X 2 =  0 0 1  X 3 =  0 0 0
 0 0 0  0 0 0 0 0 0 
    
 0 0 0  0 0 0 0 0 0
     
Y1 =  1 0 0  Y2 =  0 0 0  Y3 =  0 0 0
 0 0 0  0 1 0 1 0 0 
    

Notons que l'espace engendré par {H 1 , X 1 , Y1 } est une sous-algèbre de sl(3,C) qui est isomorphe à
sl(2,C) en ignorant la troisième ligne et la troisième colonne. De même, l'espace engendré par
{H 2 , X 2 , Y2 } est une sous algèbre isomorphe à sl(2,C) en ignorant la première ligne et la première
colonne. Donc, nous avons les relations de commutation suivantes
[H 1 , X 1 ] = 2 X 1 [H 2 , X 2 ] = 2 X 2
(2) [H 1 , Y1 ] = −2Y1 [H 2 , Y2 ] = −2Y2
[X 1 , Y1 ] = H 1 [X 2 , Y2 ] = H 2
Nous listons maintenant toutes les relations de commutation sur les éléments de base qui implique
au moins H 1 ou H 2 (cela inclut quelques répétitions des relations de commutation ci-dessus).
[H 1 , H 2 ] = 0
[H 1 , X 1 ] = 2 X 1 [H 1 , Y1 ] = −2Y1
[H 2 , X 1 ] = − X 1 [H 2 , Y1 ] = Y1
(3) [H 1 , X 2 ] = − X 2 [H 1 , Y2 ] = Y2
[H 2 , X 2 ] = 2 X 2 [H 2 , Y2 ] = −2Y2
[H 1 , X 3 ] = X 3 [H 1 , Y3 ] = −Y3
[H 2 , X 3 ] = X 3 [H 2 , Y3 ] = −Y3
Nous listons maintenant, toutes les relations de commutation restantes
[X 1 , Y1 ] = H 1
[X 2 , Y2 ] = H 2
[X 3 , Y3 ] = H 1 + H 2
[X 1 , X 2 ] = X 3 [Y1 , Y2 ] = −Y3
(4) [ X 1 , Y2 ] = 0 [ X 2 , Y1 ] = 0
[X 1 , X 3 ] = 0 [Y1 , Y3 ] = 0
[X 2 , X 3 ] = 0 [Y2 , Y3 ] = 0
[X 2 , Y3 ] = Y1 [X 3 , Y2 ] = X 1
[X 1 , Y3 ] = −Y2 [X 3 , Y1 ] = − X 2
Notons qu'il y a une sorte de symétrie entre les X i et les Yi . Si une relation dans la première
colonne est un X i et/ou un Y j , la relation correspondante dans la seconde colonne impliquera un
Yi et/ou un X j (par exemple, nous avons la relation [H 1 , X 2 ] = − X 2 dans la première colonne et la
relation [H 2 , Y2 ] = Y2 dans la seconde colonne).
Toutes les analyses que nous ferons pour les représentations de sl(3,C) seront en fonction de la base
ci-dessus. A partir de maintenant, toutes les représentations de sl(3,C) seront supposées être de
dimension finie, linéaires et complexes.

I.6.2. Poids et racines


Notre stratégie de base dans la classification des représentations de sl(3,C) est de simultanément
diagonaliser π (H 1 ) et π (H 2 ) . Puisque H 1 et H 2 commutent, π (H 1 ) et π (H 2 ) commuteront aussi
et il y a au moins une chance que π (H 1 ) et π (H 2 ) puissent être diagonalisés simultanément.

DEFINITION 6.3.
Si (π , V ) est une représentation de sl(3,C), alors une paire ordonnée µ = (µ1 , µ 2 ) ∈ C 2 est appelée
un poids pour π s'il existe v ≠ 0 dans V tel que
π (H 1 )v = µ 1v
(1)
π (H 2 )v = µ 2 v

Le vecteur v est appelé un vecteur poids correspondant au poids µ . Si µ = (µ1 , µ 2 ) est un poids,
alors l'espace de tous les vecteurs v satisfaisant (1) est l'espace poids correspondant au poids µ .

Donc un poids est simplement une paire de valeurs propres simultanées pour π (H 1 ) et π (H 2 ) .

PROPOSITION 6.4.
Toute représentation de sl(3,C) a au moins un poids.

DEMONSTRATION
Puisque nous travaillons sur des nombres complexes, π (H 1 ) a au moins une valeur propre µ1 . Soit
W ⊂ V l'espace propre pour π (H 1 ) avec la valeur propre µ1 . Nous affirmons que W est invariant
sous π (H 2 ) . Pour voir cela, considérons w ∈ W et calculons
π (H 1 )(π (H 2 )w) = π (H 2 )π (H 1 )w
(2)
= π (H 2 )(µ1 w) = µ1π (H 2 )w
Cela montre que π (H 2 )w est ou bien zéro, ou bien un vecteur propre pour π (H 1 ) avec la valeur
propre µ1 . Donc W est invariant.

Donc π (H 2 ) peut être vu comme un opérateur sur W. A nouveau, puisque nous sommes sur C, la
restriction de π (H 2 ) à W doit avoir au moins un vecteur propre w avec la valeur propre µ 2 . Mais
alors w est un vecteur propre simultané pour π (H 1 ) et π (H 2 ) avec les valeurs propres µ1 et µ 2 .

Maintenant, toute représentation π de sl(3,C) peut être vue, par restriction, comme une
représentation de la sous algèbre {H 1 , X 1 , Y1 } ≅ sl (2, C ) . Notons que même si π est irréductible
comme représentation de sl(3,C), il n'y a pas de raison à s'attendre qu'elle soit encore irréductible
comme une représentation de la sous-algèbre {H 1 , X 1 , Y1 } . Néanmoins, π restreinte à {H 1 , X 1 , Y1 }
doit être une certaine représentation de dimension finie de sl(3,C). Le même raisonnement
s'applique à la restriction de π à la sous-algèbre {H 2 , X 2 , Y2 } qui est aussi isomorphe à sl(2,C).

PROPOSITION 6.5.
Soit (π , V ) une représentation linéaire complexe de dimension finie de sl (2, C ) ≅ {H , X , Y }. Alors,
toutes les valeurs propres de π (H ) sont des entiers.

DEMONSTRATION
Suite à la proposition 6.2, V se décompose en une somme directe de sous-espaces invariants
irréductibles Vi . Chaque Vi doit être une des représentations irréductibles de sl(2,C) que nous
avons classées. En particulier, dans chaque Vi , π (H ) peut être diagonalisé et les valeurs propres de
π (H ) sont des entiers. Donc π (H ) peut être diagonalisé sur l'espace complet V et toutes les
valeurs propres sont des entiers.

COROLLAIRE 6.6.
Si π est une représentation de sl(3,C), alors tous les poids de π sont de la forme
(3) µ = (m1 , m2 )
avec m1 et m2 entiers.

DEMONSTRATION
En appliquant la proposition 6.5. à la restriction de π à {H 1 , X 1 , Y1 } et à la restriction de π à
{H 2 , X 2 , Y2 } .
Notre stratégie maintenant est de commencer avec un vecteur propre simultané de π (H 1 ) et π (H 2 )
et puis d'appliquer π ( X i ) ou π (Yi ) et de voir quels effets ils ont. La définition suivante est
pertinente dans ce contexte (voir le lemme 6.8 ci-dessous).

DEFINITION 6.7.
Une paire ordonnée α = (α 1 , α 2 ) ∈ C 2 est appelée une racine si
1. α 1 et α 2 ne sont pas tous les deux zéros.
2. Il existe Z ∈ sl (3, C ) tel que [H 1 , Z ] = α 1 Z et [H 2 , Z ] = α 2 Z .

L'élément Z est appelé un vecteur racine correspondant à la racine α .

C'est-à-dire qu'une racine est un poids non nul pour la représentation adjointe. Les relations de
commutation nous disent ce que sont les racines de sl(3,C). Il y a six racines
(4)
α Z
(2,-1) X1
(-1,2) X2
(1,1) X3
(-2,1) Y1
(1,-2) Y2
(-1,-1) Y3
Il est pratique d'extraire les deux racines correspondant à X 1 et X 2 et de leur donner des noms
spéciaux
α (1) = (2,−1)
(5) (2 )
α = (− 1,2)

Les racines α (1) et α (2 ) sont appelées les racines simples. Elles ont la propriété que toutes les
racines peuvent être exprimées comme des combinaisons linéaires de α (1) et α (2 ) avec des
coefficients entiers et ces coefficients sont ou bien tous supérieurs ou égaux à zéro ou bien tous
inférieurs ou égaux à zéro. Cela est vérifié par calcul direct
(2,−1) = α (1)
(− 1,2) = α (2 )
(1,1) = α (1) + α (2 )
(6)
(− 2,1) = −α (1)
(1,−2) = −α (2 )
(− 1,−1) = −α (1) − α (2 )
La signification des racines pour la théorie des représentations de sl(3,C) est contenue dans le
lemme suivant. Bien que sa démonstration soit très facile, ce lemme joue un rôle crucial dans la
classification des représentations de sl(3,C). Notons que ce lemme est l'analogue du lemme 5.10 qui
fut la clé pour la classification des représentations de sl(2,C).

LEMME 6.8.
Soit α = (α 1 , α 2 ) une racine et Z α ≠ 0 un vecteur racine correspondant dans sl(3,C). Soit π une
représentation de sl(3,C), µ = (µ1 , µ 2 ) un poids de π et ν 0 un vecteur poids correspondant. Alors
π (H 1 )π (Z α )v = (m1 + α 1 )π (Z α )v
(7)
π (H 2 )π (Z α )v = (m2 + α 2 )π (Z α )v
Donc ou bien π (Z α )v = 0 ou bien π (Z α )v est un nouveau vecteur poids avec le poids
(8) π + α = (m1 + α 1 , m2 + α 2 )

DEMONSTRATION
La définition d'une racine nous dit que nous avons la relation de commutation [H 1 , Z α ] = α 1 Z α .
Donc
π (H 1 )π (Z α )v = (π (Z α )π (H 1 ) + α 1π (Z α ))v
(9) = π (Z α )(m1v ) + α 1π (Z α )v
= (m1 + α 1 )π (Z α )v

Un argument similaire nous permet de calculer π (H 2 )π (Z α )v .

I.6.3. Poids les plus hauts et le théorème de classification


Nous voyons que si nous avons une représentation avec un poids µ = (m1 , m2 ) , alors en appliquant
les vecteurs racines X 1 , X 2 , X 3 , Y1 , Y2 , Y3 nous avons un certain nombre de poids nouveaux de la
forme µ + α où α est la racine. Bien sûr, certains des vecteurs poids peuvent simplement donner
zéro. En fait, puisque notre représentation est de dimension finie, il peut y avoir seulement un
nombre fini de poids, ainsi nous devons avoir zéro assez souvent. Par analogie avec la classification
des représentations de sl(2,C), nous aimerions extraire dans chaque représentation un "plus haut"
poids et alors partir de là. La définition suivante donne la "bonne" notion de plus haut.

DEFINITION 6.9.
Soit α (1) = (2,−1) et α (2 ) = (− 1,2 ) les racines introduites précédemment. Soit µ1 et µ 2 deux poids.
Alors µ1 est plus haut que µ 2 (ou de manière équivalente µ 2 est plus bas que µ1 ) si µ1 − µ 2 peut
être écrit sous la forme
(1) µ1 − µ 2 = aα (1) + bα (2 )
avec a ≥ 0 et b ≥ 0 . Cette relation est écrite µ1 f µ 2 ou µ 2 p µ1 .
Si π est une représentation de sl(3,C), alors un poids µ 0 pour π est dit être le plus haut poids si
pour tous les poids µ de π , µ p µ 0 .

Notons que la relation de "plus haut" est seulement un ordre partiel. C'est à dire qu'on peut
facilement avoir µ1 et µ 2 tel que µ1 n'est ni plus haut, ni plus bas que µ 2 . Par exemple, α (1) − α (2 )
n'est ni plus haut, ni plus bas que 0. Cela signifie en particulier qu'un ensemble fini de poids n'a pas
{ }
besoin d'avoir un plus haut élément (par exemple, l'ensemble 0, α (1) − α (2 ) n'a pas de plus haut
élément).

Nous sommes maintenant prêts à établir le principal théorème sur les représentations irréductibles
de sl(3,C).

THEOREME 6.10.
1. Toute représentation irréductible π de sl(3,C) est la somme directe de ses espaces poids. C'est-
à-dire que π (H 1 ) et π (H 2 ) sont simultanément diagonalisables.
2. Toute représentation irréductible de sl(3,C) a un unique poids le plus haut µ 0 et deux
représentations irréductibles équivalentes ont le même poids le plus haut.
3. Deux représentations irréductibles de sl(3,C) avec le même poids le plus haut sont équivalentes.
4. Si π est une représentation irréductible de sl(3,C), alors le poids le plus haut de π est de la
forme µ 0 = (m1 , m2 ) avec m1 et m2 des entiers non négatifs.
5. Inversement, si m1 et m2 sont des entiers non négatifs, alors il existe une représentation
irréductible unique π de sl(3,C) avec le poids le plus haut µ 0 = (m1 , m2 ) .

Notons le parallèle entre ces résultats et la classification des représentations irréductibles de sl(2,C)
: dans chaque représentation irréductible de sl(2,C), π (H ) est diagonalisable et il y a une plus
grande valeur propre de π (H ) . Deux représentations irréductibles de sl(2,C) avec la même plus
grande valeur propre sont équivalentes. La plus haute valeur propre est toujours un entier non
négatif et inversement, pour tout entier non négatif m, il y a une représentation irréductible avec la
plus haute valeur propre m.
Cependant, notons que dans la classification des représentations de sl(3,C), la notion de "le plus
haut" ne signifie pas que nous pourrions avoir imaginé ce qu'il devrait signifier. Par exemple, le
poids (1,1) est plus haut que les poids (-1,2) et (2,-1) (en fait, (1,1) est le plus haut poids pour la
représentation adjointe qui est irréductible).

Il est possible d'obtenir beaucoup plus d'information sur les représentations irréductibles en dehors
des poids les plus hauts. Par exemple, nous avons la formule suivante pour la dimension de la
représentation avec le poids le plus haut (m1 , m2 ) .

THEOREME 6.11.
La dimension de la représentation irréductible avec le poids le plus haut est
(2) (m1 + 1)(m2 + 1)(m1 + m2 + 2 )
1
2

Nous ne démontrerons pas cette formule. Elle est une conséquence de la "formule de la
caractéristique de Weyl".

I.6.4. Démonstration du théorème de classification


Nous allons prendre maintenant quelque temps pour démontrer le théorème 6.10. La preuve
consistera en une série de propositions.

I.6.4.1. Proposition 6.12


Dans toute représentation irréductible (π , V ) de sl(3,C), π (H 1 ) et π (H 2 ) peuvent être
simultanément diagonalisés. C'est-à-dire que V est la somme directe de ses espaces poids.

DEMONSTRATION
Soit W la somme directe des espaces poids dans V. De manière équivalente, W est l'espace de tous
les vecteurs w ∈ V tels que w peut être écrit comme une combinaison linéaire des vecteurs propres
simultanés de π (H 1 ) et π (H 2 ) . Puisque (proposition 6.4) π a toujours au moins un poids,
W ≠ {0}.

D'autre part, le lemme 6.8 nous dit que si Z α est un vecteur racine correspondant à la racine α ,
alors π (Z α ) applique l'espace poids correspondant à µ sur l'espace poids correspondant à µ + α .
Donc W est invariant sous l'action de tous les vecteurs racines, c'est-à-dire sous l'action de
X 1 , X 2 , X 3 , Y1 , Y2 , Y3 . Puisque W est certainement invariant sous l'action de H 1 et H 2 , alors W est
invariant. Donc, selon l'irréductibilité, W = V.

DEFINITION 6.13.
Une représentation (π , V ) de sl(3,C) est dite représentation cyclique de poids le plus haut avec le
poids µ 0 = (m1 , m2 ) s'il existe v ≠ 0 dans V tel que
1. v est un vecteur poids avec le poids µ 0 .
2. π ( X 1 )v = π ( X 2 )v = 0 .
3. Le plus petit sous-espace invariant de V contenant v est la totalité de V.

Le vecteur v est appelé un vecteur cyclique de π .

I.6.4.2. Proposition 6.14


Soit (π , V ) une représentation cyclique de poids le plus haut de sl(3,C) avec le poids µ 0 . Alors
1. π a le plus haut poids µ 0 .
2. L'espace poids correspondant au plus haut poids µ 0 est à une dimension.

DEMONSTRATION
Soit v comme dans la définition 6.13. Considérons le sous-espace W de V généré par les éléments
de la forme
( )( ) ( )
(1) w = π Yi π Yi Lπ Yi v
1 2 n
avec chaque i I = 1,2 et n ≥ 0 (si n = 0, il est sous-entendu que w dans (1) est égal à v). Nous
affirmons que W est invariant. Pour le voir, il suffit de contrôler que W est invariant sous chacun
des éléments de base.

Par définition, W est invariant sous π (Y1 ) et π (Y2 ) . Il est donc aussi invariant sous
π (Y3 ) = −[π (Y1 ), π (Y2 )] .

Maintenant, le lemme 6.8 nous dit qu'en appliquant un vecteur racine Z α ∈ sl (3, C ) à un vecteur
poids v avec le poids µ , on a soit zéro, soit un nouveau vecteur poids avec le poids µ + α .
Maintenant, par supposition, v est un vecteur poids avec le poids µ 0 . De plus, Y1 et Y2 sont des
vecteurs racines avec les racines − α (1) = (− 2,1) et − α (2 ) = (1,−2 ) , respectivement. Donc chaque
application de π (Y1 ) ou π (Y2 ) soustrait α (1) ou α (2 ) au poids. En particulier, chaque élément non
nul de la forme (1) est un vecteur propre simultanément de π (H 1 ) et π (H 2 ) . Donc W est invariant
sous π (H 1 ) et π (H 2 ) .

Pour montrer que W est invariant sous π ( X 1 ) et π ( X 2 ) , nous travaillerons par induction sur n.
Pour n = 0, nous avons π ( X 1 )v = π ( X 2 )v = 0 ∈ W . Considérons maintenant l'application de π ( X 1 )
ou π ( X 2 ) à un vecteur de la forme (1). Rappelons les relations de commutation impliquant X 1 ou
X 2 et Y1 ou Y2 :
[X 1 , Y1 ] = H 1 [X 1 , Y2 ] = 0
(2)
[X 2 , Y1 ] = 0 [X 2 , Y2 ] = H 2
Donc (pour i et j égaux à 1 ou 2) π ( X i )π (Y j ) = π (Y j )π ( X i ) + π (H ij ), où H ij est H 1 ou H 2 ou zéro.

( )( ) ( )
Donc (pour i égal à 1 ou 2)
π ( X i )π Yi1 π Yi2 Lπ Yin v
(3)
( )1
( ) ( ) 2 n
( ) ( )
= π Yi π ( X i )π Yi Lπ Yi v + π (H ij )π Yi Lπ Yi v
2 n
( ) ( )
2 n
( ) ( )
Mais π ( X i )π Yi Lπ Yi v est dans W par induction et π (H ij )π Yi Lπ Yi v est dans W puisque
2 n

W est invariant sous π (H 1 ) et π (H 2 ) .

Finalement, W est invariant sous π ( X 3 ) puisque π ( X 3 ) = [π ( X 1 ), π ( X 2 )] . Donc W est invariant.


Puisque par définition W contient v, nous devons avoir W = V.

Puisque Y1 est un vecteur racine avec la racine − α (1) et Y2 un vecteur racine avec la racine − α (2 ) ,
le lemme 6.8 nous dit que chaque élément de la forme (1) est ou bien zéro ou bien un vecteur poids
avec le poids µ 0 − α (i1 ) − L − α (in ) . Donc V = W est généré par v et des vecteurs poids avec des
poids plus bas que µ 0 . Donc µ 0 est le poids le plus haut pour V.

De plus, tout élément de W peut être écrit comme un multiple de v plus une combinaison linéaire
de vecteurs poids avec des poids plus bas que µ 0 . Donc l'espace poids correspondant à µ 0 est
généré par v. C'est-à-dire que l'espace poids correspondant à µ 0 est à une dimension.

I.6.4.3. Proposition 6.15


Toute représentation irréductible de sl(3,C) est une représentation cyclique de poids le plus haut
avec un poids le plus haut unique µ 0 .

DEMONSTRATION
L'unicité est immédiate puisque par la proposition précédente, µ 0 est le poids le plus haut et deux
poids distincts ne peuvent pas être tous les deux les plus hauts.

Nous avons déjà montré que toute représentation irréductible est la somme directe de ses espaces
poids. Puisque la représentation est de dimension finie, il peut seulement y avoir un nombre fini de
poids. Il s'ensuit qu'il doit exister un poids µ 0 tel qu'il n'y a pas de poids µ ≠ µ 0 avec µ f µ 0 .
C'est-à-dire qu'il n'y a pas de poids plus haut que µ 0 (ce qui n'est pas le même que dire que µ 0 est
le plus haut). Mais s'il n'y a pas de poids plus haut que µ 0 , alors pour tout vecteur poids non nul v
avec le poids µ 0 , nous devons avoir
(1) π ( X 1 )v = π ( X 2 )v = 0
(autrement, disons, π ( X 1 )v serait un vecteur poids avec le poids µ 0 + α (1) f µ 0 ).

Puisque π est supposé irréductible, le plus petit sous-espace invariant contenant v doit être l'espace
entier; donc la représentation est cyclique de poids le plus haut.

I.6.4.4. Proposition 6.16


Toute représentation cyclique de poids le plus haut de sl(3,C) est irréductible.

DEMONSTRATION
Soit (π , V ) une représentation cyclique de poids le plus haut avec le poids le plus haut µ 0 et le
vecteur cyclique v. Suivant la réductibilité complète (proposition 6.2), V se décompose comme une
somme directe de représentations irréductibles
(1) V ≅ ⊕V
i
i

Suivant la proposition 6.12, chaque Vi est la somme directe de ses espaces poids. Donc puisque le
poids µ 0 est dans V, il doit être dans un des Vi . D'un autre coté, la proposition 6.14 dit que l'espace
poids correspondant à µ 0 est à une dimension, c'est-à-dire que v est (à une constante près) le seul
vecteur dans V avec le poids µ 0 . Donc Vi doit contenir v. Mais alors Vi est un sous-espace
invariant contenant v, ainsi Vi = V . Donc, il y a un seul terme dans la somme (1) et V est
irréductible.

I.6.4.5. Proposition 6.17


Deux représentations irréductibles de sl(3,C) avec le même poids le plus haut sont équivalentes.
DEMONSTRATION
Nous savons maintenant qu'une représentation est irréductible si et seulement si elle est cyclique de
poids le plus haut. Supposons que (π , V ) et (σ , W ) sont deux représentations de ce type avec le
même poids le plus haut µ 0 . Soit v et w les vecteurs cycliques de V et W, respectivement.
Considérons maintenant la représentation V ⊕ W et soit U le plus petit sous-espace invariant de
V ⊕ W qui contient les vecteurs (v, w) .

Par définition, U est une représentation cyclique de poids le plus haut µ 0 , donc irréductible suivant
la proposition 6.16. Considérons les deux applications de "projection" P1 : V ⊕ W → V ,
P1 (v, w) = v et P2 : V ⊕ W → W , P2 (v, w) = w . Il est facile de contrôler que P1 et P2 sont des
morphismes de représentation. Donc la restriction de P1 et P2 à U ⊂ V ⊕ W sera aussi un
morphisme.

Clairement ni P1 U ni P2 U
n'est l'application zéro (puisque les deux sont non nuls sur (v, w) ). De
plus, U, V et W sont tous irréductibles. Donc, suivant le lemme de Schur, P1 U est un isomorphisme
de U avec W et P2 U
un isomorphisme de U avec W. Donc V ≅ U ≅ W .

I.6.4.6. Proposition 6.18


Si π est une représentation irréductible de sl(3,C), alors le plus haut poids de π est de la forme
(1) µ = (m1 , m2 )
avec m1 et m2 des entiers non négatifs.

DEMONSTRATION
Nous savons déjà que tous les poids de π sont de la forme (m1 , m2 ) avec m1 et m2 entiers. Nous
devons montrer que si µ 0 = (m1 , m2 ) est le poids le plus haut, alors m1 et m2 sont tous les deux
non négatifs. Pour cela, nous devons à nouveau utiliser ce que nous savons à propos des
représentations de sl(2,C). Le résultat suivant peut être obtenu à partir de la démonstration de la
classification des représentations irréductibles de sl(2,C).
Soit (π , V ) une représentation de dimension finie de sl(2,C). Soit v un vecteur propre de π (H )
avec la valeur propre λ . Si π ( X )v = 0 , alors λ est un entier non négatif.

Maintenant, si π est une représentation irréductible de sl(3,C) avec le poids le plus haut
µ 0 = (m1 , m2 ) et si v est un vecteur de poids avec le poids µ 0 , alors nous devons avoir
π ( X 1 )v = π ( X 2 )v = 0 (autrement µ 0 ne serait pas le plus haut). Donc en appliquant le résultat ci-
dessus aux restrictions de π à {H 1 , X 1 , Y1 } et à {H 2 , X 2 , Y2 } , cela montre que m1 et m2 doivent
être non négatif.

I.6.4.7. Proposition 6.19


Si m1 et m2 sont des entiers non négatifs, alors il existe une représentation irréductible de sl(3,C)
avec le poids le plus haut µ = (m1 , m2 ) .

DEMONSTRATION
Notons que la représentation triviale est une représentation irréductible avec le poids le plus haut
(0,0). Ainsi nous avons seulement besoin de construire des représentations avec au moins un des
m1 et m2 positifs.

D'abord, nous construisons deux représentations irréductibles avec les poids les plus hauts (1,0) et
(0,1) (elles sont aussi appelées les représentations fondamentales). La représentation standard de
sl(3,C) est une représentation irréductible avec le poids (1,0), comme on le contrôle facilement.
Pour construire une représentation irréductible avec le poids (0,1), nous modifions la représentation
standard. Spécifiquement, nous définissons
(1) π (Z ) = − Z tr
pour tout Z ∈ sl (3, C ) . En utilisant le fait que ( AB ) = B tr A tr , il est facile de contrôler que
tr

[
(2) − [Z 1 , Z 2 ] = − Z 1tr ,− Z 2tr
tr
]
tel que π est réellement une représentation (elle est isomorphe au dual de la représentation
standard). Il est facile de voir que π est une représentation irréductible avec le poids le plus haut
(0,1).

Soit (π 1 , V1 ) la représentation standard agissant sur C 3 et soit v1 un vecteur poids correspondant au


plus haut poids (1,0) (ainsi v1 = (1,0,0) ). Soit (π 2 , V2 ) la représentation (1) agissant sur C 3 et v 2 un
vecteur poids pour le poids le plus haut (0,1) (ainsi v 2 = (0,0,1) ). Considérons maintenant la
représentation
(3) V1 ⊗ V1 ⊗ L ⊗ V1 ⊗ V2 ⊗ V2 ⊗ L ⊗ V2
où V1 apparaît m1 fois et V2 m2 fois. Notons que l'action de sl(3,C) sur cet espace est
(4) Z → (π 1 (Z ) ⊗ I ⊗ L ⊗ I ) + (I ⊗ π 1 (Z ) ⊗ I ⊗ L ⊗ I ) + L + (I ⊗ L ⊗ I ⊗ π 2 (Z ))

Soit π m m cette représentation.


1 2

Considérons le vecteur
(5) v m ,m = v1 ⊗ v1 ⊗ L ⊗ v1 ⊗ v 2 ⊗ v 2 ⊗ L ⊗ v 2
1 2

Alors l'application de (4) montre que


π m ,m (H 1 )v m ,m = m1v m ,m
1 2 1 2 1 2

π m1 ,m2 (H 2 )v m1 ,m2 = m2 v m1 ,m2


(6)
π m1 ,m2 ( X 1 )v m1 ,m2 = 0
π m ,m ( X 2 )v m ,m = 0
1 2 1 2

Maintenant, la représentation π m m n'est pas irréductible (à moins que (m1 , m2 ) = (1,0) ou (0,1)).
1 2

Cependant, si W est le plus petit sous-espace invariant contenant le vecteur v m ,m , alors vu (6), W
1 2
sera cyclique de poids le plus haut avec le poids (m1 , m2 ) . Donc, suivant la proposition 6.16, W est
irréductible avec le poids le plus haut (m1 , m2 ) .

Donc W est la représentation que nous désirions.

Nous avons maintenant terminé la démonstration du théorème 6.10.

I.6.5. Un exemple : le poids le plus haut (1,1)


Pour obtenir la représentation irréductible avec le poids le plus haut (1,1) nous sommes supposés
prendre le produit tensoriel des représentations irréductibles avec les poids les plus hauts (1,0) et
(0,1) puis d'extraire un certain sous-espace invariant. Etablissons une certaine notation pour les
représentations (1,0) et (0,1). Dans la représentation standard, les vecteurs poids pour
 1 0 0 0 0 0 
   
(1) H 1 =  0 − 1 0  H 2 =  0 1 0 
 0 0 0  0 0 − 1
   
sont les éléments de base standards de C 3 , c'est à dire e1 , e2 et e3 . Les poids correspondants sont
(1,0), (-1,1) et (0,-1). Le poids le plus haut est (1,0).

Rappelons que
 0 0 0  0 0 0
   
(2) Y1 =  1 0 0  Y2 =  0 0 0 
 0 0 0  0 1 0
   

Donc
Y1 (e1 ) = e2 Y2 (e1 ) = 0
(3) Y1 (e1 ) = 0 Y2 (e2 ) = e3
Y1 (e3 ) = 0 Y2 (e3 ) = 0
Maintenant, la représentation avec le poids le plus haut (0,1) est la représentation π (Z ) = − Z tr ,
pour Z ∈ sl (3, C ) . Définissons
(4) Z = − Z tr
pour tout Z ∈ sl (3, C ) . Donc π (Z ) = Z . Notons que
 − 1 0 0  0 0 0
   
(5) H 1 =  0 1 0  H 2 =  0 − 1 0 
 0 0 0  0 0 1
   

Les vecteurs poids sont à nouveau e1 , e2 et e3 avec les poids (-1,0), (1,-1) et (0,1). Le poids le plus
haut est (0,1).

Définissons les nouveaux éléments de base


f 1 = e3
(6) f 2 = −e2
f 3 = e1

Alors, puisque
 0 − 1 0 0 0 0 
   
(7) Y1 =  0 0 0  Y2 =  0 0 − 1
 0 0 0 0 0 0 
   
nous avons
Y1 ( f 1 ) = 0 Y2 ( f 1 ) = f 2
(8) Y1 ( f 2 ) = f 3 Y2 ( f 2 ) = 0
Y1 ( f 3 ) = 0 Y2 ( f 3 ) = 0

Notons que le vecteur poids le plus haut est f 1 = e3 .


Ainsi, pour obtenir une représentation irréductible avec le poids le plus haut (1,1), nous sommes
supposés prendre le produit tensoriel des représentations avec les poids les plus hauts (1,0) et (0,1)
et puis prendre le plus petit sous-espace invariant contenant le vecteur e1 ⊗ f 1 . Au vu de la
démonstration de la proposition 6.14, ce plus petit sous-espace invariant est obtenu en partant de
e1 ⊗ f 1 et en appliquant toutes les combinaisons possibles de Y1 et Y2 .

Rappelons que si π 1 et π 2 sont deux représentations de l'algèbre de Lie sl(3,C), alors


(π 1 ⊗ π 2 )(Y1 ) = π 1 (Y1 ) ⊗ I + I ⊗ π 2 (Y1 )
(9)
(π 1 ⊗ π 2 )(Y2 ) = π 1 (Y2 ) ⊗ I + I ⊗ π 2 (Y2 )

Dans notre cas, nous désirons π 1 (Yi ) = Yi et π 2 (Yi ) = Yi . Donc


(π 1 ⊗ π 2 )(Y1 ) = Y1 ⊗ I + I ⊗ Y1
(10)
(π 1 ⊗ π 2 )(Y2 ) = Y2 ⊗ I + I ⊗ Y2

Les actions de Yi et Yi sont décrites dans (3) et (8).

Notons que π 1 ⊗ π 2 n'est pas une représentation irréductible. La représentation π 1 ⊗ π 2 a la


dimension 9, tandis que le plus petit sous-espace invariant contenant e1 ⊗ f 1 a, comme il s'avère, la
dimension 8.

Ainsi, il reste seulement à commencer avec e1 ⊗ f 1 , appliquer Y1 et Y2 répétitivement jusqu'à ce


que nous obtenions zéro puis extraire quelles relations de dépendances existent parmi les vecteurs
que nous avons. Notons qu'en partant de e1 ⊗ f 1 et en appliquant Y1 puis Y2 donne quelque chose
de différent que d'appliquer Y2 puis Y1 .
I.6.6. Le groupe de Weyl
L'ensemble des poids d'une représentation irréductible de sl(3,C) a une certaine symétrie qui lui est
associée. Cette symétrie est en fonction de quelque chose appelé le "groupe de Weyl". Nous
considérons le sous-groupe suivant de SU(3) :
  1 0 0  0 0 1  0 1 0 
      
 w0 =  0 1 0  w 1 =  1 0 0  w 2 =  0 0 1 
  0 0 1  0 1 0  1 0 0  
(1) W =       

  0 1 0   0 0 1   1 0 0 
     
w3 = − 1 0 0  w4 = − 0 1 0  w5 = − 0 0 1 
  0 0 1  1 0 0  0 1 0 
      

Ce sont simplement les matrices qui permutent les éléments de base de C 3 avec un ajustement du
signe quand c'est nécessaire pour rendre le déterminant égal à un.

Maintenant, pour tout A ∈ SU (3) , nous avons l'application associée AdA : su (3) → su (3) , où
(2) AdA( X ) = AXA −1

Maintenant, puisque chaque élément de sl(3,C) est de la forme Z = X + iY avec X , Y ∈ su (3) , il

s'ensuit que sl(3,C) est invariant sous l'application Z → AZA −1 . C'est-à-dire que nous pouvons voir
AdA comme une application de sl(3,C) sur lui-même.

La raison pour sélectionner le groupe ci-dessus est la suivante : si w ∈ W , alors Adw(H 1 ) et


Adw(H 2 ) sont des combinaisons linéaires de H 1 et H 2 . C'est-à-dire que chaque Adw préserve
l'espace généré par H 1 et H 2 (il y a d'autres éléments de SU(3) avec cette propriété, notablement
les éléments diagonaux. Cependant, ceux là commutent réellement avec H 1 et H 2 . Donc l'action
adjointe de ces éléments sur l'espace généré par H 1 et H 2 est trivial et donc sans intérêt).
Maintenant, pour chaque w ∈ W et chaque représentation irréductible π de sl(3,C), définissons
une nouvelle représentation π w par la formule
( ) (
(3) π w ( X ) = π Adw −1 ( X ) = π w −1 Xw )
Puisque Adw −1 est un automorphisme d'algèbre de Lie, π w sera en fait une représentation de
sl(3,C).

Rappelons que puisque SU(3) est simplement connexe, alors pour chaque représentation π de
sl(3,C) il y a une représentation associée Π de SU(3) (agissant sur le même espace) telle que
( )
(4) Π e X = eπ ( X )
pour tout X ∈ su (3) ⊂ sl (3, C ) . La représentation Π a la propriété que
( )
(5) π AXA −1 = Π ( A)π ( X )Π ( A)
−1

pour tout X ∈ su (3) . A nouveau, puisque tout élément de sl(3,C) est de la forme X + iY avec
X , Y ∈ su (3) , il s'ensuit que (5) est valable aussi pour X ∈ sl (3, C ) .

En particulier, en prenant A = w −1 ∈ W , nous avons


( )
(6) π w ( X ) = π w −1 Xw = Π (w) π ( X )Π (w)
−1

pour tout X ∈ sl (3, C ) .

PROPOSITION 6.20.
Pour chaque représentation π de sl(3,C) et pour chaque w ∈ W , la représentation π w est
équivalente à la représentation π .

DEMONSTRATION
Nous avons besoin d'une application φ : V → V avec la propriété que
(7) φ (π ω ( X )v ) = π ( X )φ (v )
pour tout v ∈ V . C'est le même que de dire que φπ w ( X ) = π ( X )φ ou de manière équivalente que
π w ( X ) = φ −1π ( X )φ . Mais vu (6), nous pouvons prendre φ = Π(w) .

Bien que π et π w soient équivalents, ils ne sont pas égaux. C'est-à-dire qu'en général
π ( X ) ≠ π w ( X ) . Vous pourriez penser à π et π w comme différant par un changement de base sur
V, où la matrice de changement de base est Π (w) . Deux représentations qui diffèrent seulement par
un changement de base sont automatiquement équivalentes.

COROLLAIRE 6.21
Soit π une représentation de sl(3,C) et w ∈ W . Alors une paire µ = (m1 , m2 ) est un poids pour π
si et seulement si elle est un poids pour π w . La multiplicité de µ comme poids de π est la même
que la multiplicité de µ comme poids de π w .

DEMONSTRATION
Des représentations équivalentes doivent avoir les mêmes poids et les mêmes multiplicités.

Calculons maintenant explicitement l'action de Adw −1 sur l'espace généré par H 1 et H 2 , pour
chaque w ∈ W . C'est un calcul immédiat
w0−1 H 1 w0 = H 1 w3−1 H 1 w3 = H 1
w0−1 H 2 w0 = H 2 w3−1 H 2 w3 = H 1 + H 2
w1−1 H 1 w1 = − H 1 − H 2 w4−1 H 1 w4 = H 2
(8)
w1−1 H 2 w1 = H 1 w4−1 H 2 w4 = − H 1
w2−1 H 1 w2 = H 2 w5−1 H 1 w5 = H 1 + H 2
w2−1 H 2 w2 = − H 1 − H 2 w5−1 H 2 w5 = − H 2

Nous pouvons maintenant voir la signification du groupe de Weyl. Soit π une représentation de
sl(3,C), µ = (m1 , m2 ) un poids et v ≠ 0 un vecteur poids avec le poids µ . Alors, par exemple
π w (H 1 )v = π (w1−1 H 1 w1 )v = π (− H 1 − H 2 )v = (− m1 − m2 )v
1

π w (H 2 )v = π (w1−1 H 2 w1 )v = π (H 1 )v = m1v
(9)
1

Donc v est un vecteur poids pour π w avec le poids (− m1 − m2 , m1 ) . Mais selon le corollaire 6.21,
les poids de π et π w sont les mêmes !

I.6.6.1. Conclusions
Si µ = (m1 , m2 ) est un poids de π , également (− m1 − m2 , m1 ) .

Les multiplicités de (m1 , m2 ) et (− m1 − m2 , m1 ) sont les mêmes.

Bien sûr, un argument similaire s'applique à chacun des autres éléments du groupe de Weyl.
Spécifiquement, si µ est un poids pour une certaine représentation π et si w est un élément de W,
alors il y aura quelques nouveaux poids qui doivent aussi être des poids de π . Nous dénoterons ces
nouveaux poids w ⋅ µ . Par exemple, si π , alors w1 ⋅ µ = (− m1 − m2 , m1 ) (nous définissons w ⋅ µ tel
que si v est un vecteur poids de π avec le poids µ , alors v sera un vecteur poids de π w avec le
poids w ⋅ µ ). A partir des relations de la section précédente, nous pouvons directement lire la
valeur de w ⋅ µ pour chaque w.
w0 ⋅ (m1 , m2 ) = (m1 , m2 ) w3 ⋅ (m1 , m2 ) = (− m1 , m1 + m2 )
(1) w1 ⋅ (m1 , m2 ) = (− m1 − m2 , m1 ) w4 ⋅ (m1 , m2 ) = (− m2 ,− m1 )
w2 ⋅ (m1 , m2 ) = (m2 ,− m1 − m2 ) w5 ⋅ (m1 , m2 ) = (m1 + m2 ,− m2 )

Il est immédiat de contrôler que


(2) wi ⋅ (w j ⋅ µ ) = (wi w j ) ⋅ µ

Nous allons maintenant prouver le théorème suivant.


THEOREME 6.22.
Si µ = (m1 , m2 ) est un poids et w un élément du groupe de Weyl, soit w ⋅ µ définit par (1). Si π est
une représentation de dimension finie de sl(3,C), alors µ est un poids pour π si et seulement si
w ⋅ µ est un poids pour π . La multiplicité de µ est la même que la multiplicité de w ⋅ µ .

Si nous pensons aux poids µ = (m1 , m2 ) comme étant dans R 2 , alors nous pouvons penser à (1)
comme un groupe fini de transformations linéaires de R 2 (le fait que ce soit un groupe de
transformations est une conséquence de (2)). Puisque c'est un groupe fini de transformations, il est
possible de choisir un produit scalaire sur R 2 tel que l'action de W est orthogonale (comme dans la
démonstration de la proposition 5.16). En fait, il y a (à une constante près) exactement un seul
produit scalaire de ce type. Dans ce produit scalaire, l'action (1) du groupe de Weyl est générée par
une rotation à 120° et une réflexion autour de l'axe y. De manière équivalente, le groupe de Weyl
est le groupe de symétrie d'un triangle équilatéral centré à l'origine avec un nœud sur l'axe y.

I.6.7. Algèbres de Lie semi-simples complexes


Cette section donne un bref synopsis de la théorie des structures et de la théorie des représentations
des algèbres de Lie semi-simples complexes. La morale de l'histoire est que toutes les algèbres de
ce type ressemblent beaucoup à sl(3,C). Cette partie ne contiendra pas de démonstration (non
triviale).

Si g est une algèbre de Lie, un sous-espace I ⊂ g est dit être un idéal si [ X , Y ] ∈ I pour tout X ∈ g
et tout Y ∈ I . Une algèbre de Lie g est dite être simple si dim g ≥ 2 et si g n'a pas d'idéaux autre
que {0} et g. Une algèbre de Lie g est dite semi-simple si g peut être écrite comme la somme directe
d'algèbres de Lie simples.

Dans cette section nous considérons les algèbres de Lie semi-simples sur les nombres complexes.
Des exemples d'algèbres de Lie semi-simples complexes incluent sl(n,C), so(n,C) ( n ≥ 3 ) et
sp(n,C). Toutes sont en réalité simples sauf so(4,C) qui est isomorphe à sl (2, C ) ⊕ sl (2, C ) .
DEFINITION 6.23.
Soit g une algèbre de Lie semi-simple complexe. Un sous-espace h de g est dit être une algèbre de
Cartan si
1. h est abélien. C'est-à-dire [H 1 , H 2 ] = 0 pour tout H 1 , H 2 ∈ h .
2. h est abélien maximal. C'est-à-dire que si X ∈ g satisfait [H , X ] = 0 pour tout H ∈ h , alors
X ∈h .
3. Pour tout H ∈ h , adH : g → g est diagonalisable.

Puisque tous les H commutent, alors aussi les adH (c'est-à-dire [adH 1 , adH 2 ] = ad[H 1 , H 2 ] = 0 ).
Par hypothèse, chaque adH est diagonalisable et ils commutent, par conséquent les adH sont
simultanément diagonalisables (en utilisant une algèbre linéaire standard).

Soit h ∗ le dual de h, c'est à dire l'espace des fonctionnelles linéaires sur h.

DEFINITION 6.24.
Si g est une algèbre de Lie semi-simple complexe et h une sous-algèbre de Cartan, alors un élément
α de h ∗ est dit être une racine (pour g par rapport à h) si α est différent de zéro et s'il existe
Z ≠ 0 dans g tel que
(1) [H , Z ] = α (H )Z
pour tout H ∈ h (donc une racine est un ensemble différent de zéro de valeurs propres simultanées
pour les adH ).

Le vecteur Z est appelé un vecteur racine correspondant à la racine α et l'espace de tous les Z ∈ g
satisfaisant (1) est l'espace racine correspondant à α . Cet espace est noté g α .

L'ensemble de toutes les racines sera noté ∆ .

Notons que si g = sl (3, C ) , alors une sous-algèbre de Cartan est l'espace généré par H 1 et H 2 .
I.6.7.1. Théorème 6.25
Si g est une algèbre semi-simple complexe, alors une sous-algèbre de Cartan h existe. Si h1 et h 2
sont deux sous-algèbres de Cartan, alors il y a un automorphisme de g qui applique h1 sur h 2 . En
particulier, deux algèbres de Cartan ont la même dimension.

A partir de maintenant, g sera une algèbre semi-simple complexe et h une sous-algèbre de Cartan
dans g.

DEFINITION 6.26.
Le rang d'une algèbre de Lie semi-simple complexe est la dimension d'une sous-algèbre de Cartan.

Par exemple, le rang de sl(n,C) est n - 1. Une sous-algèbre de Cartan dans sl(n,C) est l'espace des
matrices diagonales avec la trace égale à zéro (notons que dans le cas , l'espace des matrices
diagonales avec la trace égale à zéro est précisément l'espace généré par H 1 et H 2 ). so(2n,C) et
so(2n+1,C) ont tous les deux le rang n.

DEFINITION 6.27.
Soit (π , V ) une représentation linéaire complexe de dimension finie de g. Alors µ ∈ h ∗ est appelé
un poids pour π s'il existe v ≠ 0 dans V tel que
(1) π (H )v = µ (H )v
pour tout H ∈ h . Le vecteur v est appelé un vecteur poids avec le poids µ .

Notons que les racines sont précisément les poids non nuls de la représentation adjointe.

LEMME 6.28.
Soit α une racine et Z un vecteur racine correspondant. Soit µ un poids pour une représentation
π et v un vecteur poids correspondant. Alors, ou bien π (Z )v = 0 ou bien π (Z )v est un vecteur
poids avec le poids µ + α .
DEMONSTRATION
La même que pour sl(3,C).

DEFINITION 6.29.
Un ensemble de racines {α 1 , K , α l } est appelé un système simple (ou base) si
1. {α 1 ,K,α l } est une base d'espace vectoriel pour h ∗ .
2. Toute racine α ∈ ∆ peut être écrite sous la forme α = n1α 1 + n 2α 2 + L + nlα l avec chaque ni
un entier et tel que les ni sont tous non négatifs ou tous non positifs.

Une racine α est dite être positive (par rapport au système simple donné) si les ni sont non
négatifs; autrement α est négative.

{ }
Si g = sl (3, C ) et h = {H 1 , H 2 } , alors un système simple de racines est α (1) , α (2 ) = {(2,−1), (− 1,2 )}
(avec les vecteurs racines correspondant X 1 et X 2 ). Les racines positives sont {(2,−1), (− 1,2 ), (1,1)} .
Les racines négatives sont {(− 2,1), (1,−2), (− 1,−1)}.

DEFINITION 6.30.
Soit {α 1 , K , α l } un système simple de racines et µ1 et µ 2 deux poids. Alors µ1 est plus haut que
µ 2 (ou µ 2 est plus bas que µ1 ) si µ1 − µ 2 peut être écrit comme
(2) µ1 − µ 2 = a1α 1 + a 2α 2 + L + a lα l
avec a i ≥ 0 . Cette relation est notée µ1 f µ 2 ou µ 2 p µ1 .

Un poids µ 0 pour une représentation π est le plus haut si tous les poids µ de π satisfont µ p µ 0 .

Le théorème suivant, très profond, cerne beaucoup la théorie des structures des algèbres de Lie
semi-simples.
I.6.7.2. Théorème 6.31
Soit g une algèbre de Lie semi-simple complexe, h une sous-algèbre de Cartan et ∆ l'ensemble des
racines. Alors
1. Pour chaque racine α ∈ ∆ , l'espace racine correspondant g α est à une dimension.
2. Si α est une racine, alors aussi − α .
3. Un système simple de racines {α 1 , K , α l } existe.

Nous savons maintenant identifier l'ensemble correct des poids les plus hauts des représentations
irréductibles.

I.6.7.3. Théorème 6.32


Soit {α 1 , K , α l } un système simple de racines, X i un élément de l'espace racine g α i et Yi un
élément de l'espace racine g −α i . Définissons
(1) H i = [ X i , Yi ]

Alors il est possible de choisir X i et Yi tels que


1. Chaque H i est non nul et contenu dans h.
2. L'espace généré par {H i , X i , Yi } est une sous-algèbre de g isomorphe (d'une manière évidente)
à sl(2,C).
3. L'ensemble {H 1 , K , H l } est une base pour h.

Notons que (dans la plus part des cas) l'ensemble de tous les H i , X i et Yi (i = 1, 2,… l) ne génère
pas g. Dans le cas g = sl (3, C ) , l = 2 et l'espace généré par H 1 , X 1 , Y1 , H 2 , X 2 , Y2 représente
seulement six des huit dimensions de sl(3,C). Néanmoins, les sous-algèbres {H i , X i , Yi } jouent un
rôle important.

Nous sommes maintenant prêts à établir le théorème principal.


I.6.7.4. Théorème 6.33
Soit g une algèbre de Lie semi-simple complexe, h une sous-algèbre de Cartan et {α 1 , K , α l } un
système simple de racines. Soit [H 1 , K , H l ] comme dans le théorème 6.32. Alors
1. Dans chaque représentation irréductible π de g, les π (H ) sont simultanément diagonalisables.
2. Chaque représentation irréductible π de g a un poids le plus haut unique.
3. Deux représentations irréductibles de g avec le même poids le plus haut sont équivalentes.
4. Si µ 0 est le poids le plus haut d'une représentation irréductible de g, alors pour i= 1, 2,…, l,
µ 0 (H i ) est un entier non négatif.
5. Inversement, si µ 0 ∈ h ∗ est tel que µ 0 (H i ) est un entier non négatif pour tout i=1, 2,… l, alors
il y a une représentation irréductible de g avec le poids le plus haut µ 0 .

Les poids µ 0 comme dans les points 4 et 5 sont appelés poids intégraux dominants.

Exercices
1. Montrez que pour toute paire de matrices n x n X et Y,
[ ]
X T , Y T = −[ X , Y ]
T

En utilisant ce fait et le fait que X iT = Yi pour i = 1, 2, 3, expliquez la symétrie entre les X et les
Y dans les relations de commutation pour sl(3,C). Par exemple, montrez que la relation
[Y1 , Y2 = −Y3 ] peut être obtenue de la relation [X 1 , X 2 ] = X 3 en prenant la transposée. Montrez
que la relation [H 1 , Y2 ] = Y2 suit de la relation [H 1 , X 2 ] = − X 2 .
2. Rappelez la définition du dual π ∗ d'une représentation π de l'exercice 14 suivant la section
I.5.9.1. Considérez cela pour le cas des représentations de sl(3,C).
a. Montrez que les poids de π ∗ sont les négatifs des poids de π .
b. Montrez que si π est la représentation irréductible de sl(3,C) avec le poids le plus haut
(m1 , m2 ) alors π ∗ est la représentation irréductible avec le poids le plus haut (m2 , m1 ) .
Suggestion : si vous identifiez V et V ∗ en choisissant une base de V, alors AT est juste la
matrice usuelle transposée.
3. Soit h le sous-espace de sl(3,C) généré par H 1 et H 2 . Soit G le groupe de toutes les matrices
A ∈ SU (3) tel que AdA préserve h. Maintenant soit G0 le groupe de toutes les matrices
A ∈ SU (3) tel que AdA est l'identité sur h, c'est-à-dire tel que AdA(H 1 ) = H 1 et
AdA(H 2 ) = H 2 . Montrez que G0 est un sous-groupe normal de G. Calculez G et G0 . Montrez
que G / G0 est isomorphe au groupe de Weyl W.
4. a. Vérifiez les théorèmes 6.31 et 6.32 explicitement pour le cas g = sl(n,C)

b. Considérez la tâche d'essayer de démontrer le théorème 6.33 pour le cas de sl(n,C).


Maintenant que vous avez fait le point (a), quelle partie de la démonstration se fait de la même
manière que pour sl(3,C) ? A quel point dans la démonstration du théorème correspondant pour
sl(3,C) utilisons-nous les propriétés particulières de sl(3,C) ?

Suggestion : presque tout est le même mais il y a un point critique où nous faisons quelque
chose qui ne se généralise pas à sl(n,C).

Exercices cumulatifs
1. Soit G un groupe de Lie matriciel connexe et Ad : G → GL(g ) la représentation adjointe de G.
Montrez que
noyau(Ad) = Z(G)
où Z(G) est le centre de G. Si G = O(2), calculez noyau(Ad) et Z(G) et montrez qu'ils ne sont
pas égaux.

Suggestion : vous utiliserez le fait que si G est connexe, alors tout A ∈ G peut être écrit sous la
forme A = e 1 e 2 L e X n avec X i ∈ g .
X X

2. Soit G un groupe commutatif fini. Montrez que le nombre de classes d'équivalence des
représentations complexes irréductibles de G est égal au nombre d'éléments dans G.

Suggestion : utilisez le fait que tout groupe commutatif fini est un produit de groupes cycliques.
3. a. Montrez que si R ∈ O(2) et que det R = −1 , alors R a deux vecteurs propres réels
orthogonaux avec les valeurs propres 1 et -1.
b. Soit R dans O(n). Montrez qu'il existe un sous-espace W de R n qui est invariant sous R et
R −1 et tel que dim W = 1 ou 2. Montrez que W ⊥ (le complément orthogonal de W) est aussi
invariant sous R et R −1 . Montrez que les restrictions de R et R −1 à W et à W ⊥ sont
orthogonales (c'est-à-dire que ces restrictions préservent le produit scalaire).
c. Soit R dans O(n). Montrez que R n peut être écrit comme la somme directe orthogonale des
sous-espaces Wi tels que
1) Chaque Wi est invariant sous R et R −1 .
2) Chaque Wi a la dimension 1 ou 2.
3) Si dim Wi = 2 , alors la restriction de R à Wi a un déterminant égal à un.
d. Montrez que l'application exponentielle pour SO(n) est surjective. Assurez-vous que vous
utilisez le fait que les éléments de SO(n) ont un déterminant égal à un.

Note : cela fournit une démonstration alternative que le groupe SO(n) est connexe.
4. Déterminez, à une équivalence près, toutes les représentations (linéaires, complexes)
irréductibles de dimension finie de l'algèbre de Lie sl (2, C ) ⊕ sl (2, C ) . Votre réponse peut-elle
être exprimée en fonction d'une sorte de "poids le plus haut" ?

Suggestion : imitez la démonstration de la classification des représentations irréductibles de


sl(2,C).
5. Considérez la représentation irréductible (π , V ) de sl(3,C) avec le poids le plus haut (0,2). En
suivant la procédure de la section I.6.5, déterminez
1) La dimension de V.
2) Tous les poids de π .
3) La multiplicité de chaque poids (c'est-à-dire, la dimension de chaque espace poids
correspondant).
II. Symétries
Les symétries sont un attribut fondamental de la nature qui permet d'étudier des aspects particuliers
des systèmes physiques. Par exemple, l'hypothèse que l'espace est homogène ou possède une
symétrie à la translation conduit à la conclusion que l'impulsion d'un système fermé isolé ne change
pas durant l'évolution du système. Cela rend possible d'étudier séparément le mouvement du centre
de masse et le mouvement interne du système. De même, l'hypothèse que l'espace est isotrope ou
possède une symétrie à la rotation signifie que le moment angulaire total d'un tel système est
constant.

En mécanique quantique, et c'est ce qu'elle a de plus séduisant, les théorèmes de conservation sont,
en un certain sens, déduits de quelque chose d'autre, tandis qu'en mécanique classique ils
constituent pratiquement le fondement des lois.

Les relations de ce type entre les propriétés de symétrie et les lois de conservation ont déjà été
utilisées dans ce cours, sans développer un formalisme élaboré, comme la séparation des variables
dans l'équation de Schrödinger. Cependant, un traitement systématique est utile pour résoudre des
problèmes plus compliqués. Les symétries permettent ainsi de simplifier grandement la résolution
des équations. Plus important encore, la vue unifiée des symétries qui en résulte fournit une vision
plus approfondie sur la structure de la physique.

Nous traiterons essentiellement des symétries géométriques qui peuvent être associées aux
déplacements d'un système physique dans l'espace et dans le temps, avec ses rotations et l'inversion
dans l'espace et avec le renversement du sens de progression du temps. Nous discuterons aussi des
symétries dynamiques qui conduisent à des dégénérescences inattendues des niveaux d'énergie de,
par exemple, l'oscillateur harmonique. Nous toucherons aussi un mot des symétries internes et qui
agissent sur des paramètres internes, non géométriques (comme la phase de la fonction d'onde, par
exemple). Plusieurs autres symétries intéressantes en physique sont omises, en particulier celles qui
s'appliquent aux molécules, aux cristaux et à la relativité. Bien que nous considérerons
principalement une seule particule ou une paire de particules dans le centre de masse, plusieurs des
résultats peuvent être étendus à plusieurs particules en interaction pourvu que la symétrie s'applique
à toutes les coordonnées de toutes les particules. Pour les particules identiques, il y a aussi une
symétrie à la permutation dont nous discuterons.
II.1. Différentes symétries
Nous travaillerons entièrement dans le point de vue de Schrödinger.

Qu'est-ce que les symétries ?


Les symétries ont un sens commun : c'est, par exemple, la symétrie gauche - droite. Le fait que
l'être humain est (extérieurement) identique vu dans un miroir (à quelques petites différences prêt).
On appelle cela aussi la symétrie miroir.

Quand, dans la vie commune, on parle de symétrie c'est presque toujours dans ce sens là. Ou dans
le sens "deux situations identiques à, éventuellement, une inversion gauche - droite près".

On pourrait parler aussi de "symétrie naïve". Mais en fait, elle n'est pas si naïve que cela car, pour
le mathématicien comme pour le physicien, il s'agit bel et bien d'une symétrie.

Mais, en physique ou en mathématique, le terme de symétrie a un sens beaucoup plus large. On


parle de symétrie pour tout type de transformation des grandeurs décrivant le système. Soit un
système décrit par une fonction d'onde ψ ( x ) . On peut effectuer une transformation quelconque U
sur cette fonction d'onde, elle devient alors une autre fonction d'onde φ (x ) .

Rappelons-nous l'équation de Schrödinger :


∂ψ
(1) ih = Hψ
∂t

Elle décrit comment la fonction d'onde évolue au cours du temps. Soit la fonction d'onde au temps
t = 0 : ψ ( x,0) et, grâce à cette équation, on calcule sa valeur au temps t . On trouve alors ψ ( x, t ) .

Appliquons maintenant notre transformation : ψ ( x,0 ) → φ ( x,0 ) .


U

On peut aussi étudier comment évolue cette fonction d'onde avec le temps, grâce à l'équation de
Schrödinger
∂φ
(2) ih = Hφ
∂t

On peut alors calculer ce que devient cette fonction d'onde au cours du temps : φ ( x, t ) .

La question qui se pose est : est-ce que la transformation U relie les deux résultats ? C'est-à-dire,
est-ce que ψ ( x, t ) → φ ( x, t ) ?
U

Si oui, alors le fait de transformer la fonction d'onde ne change rien : elle continue à évoluer de la
même manière, avec la même équation de Schrödinger. On dira aussi qu'on a une transformation
"physique" ou qu'elle donne une fonction d'onde "physique".

Si c'est le cas, alors cela veut dire que le phénomène physique, décrit par l'hamiltonien, est
"invariant" sous cette transformation. Transformer une solution ne fait que donner une autre
solution du même phénomène physique. On dira aussi que U constitue une "symétrie" pour ce
phénomène physique.
Le phénomène physique considéré peut être très variable : par exemple l'interaction
électromagnétique entre des particules chargées électriquement.

Ceci n'est bien entendu pas limité à la physique quantique et toute autre théorie physique avec ses
propres équations peut être utilisée.

Voyons maintenant un de transformation.

Les symétries géométriques sont des transformations qui agissent sur la position dans l'espace et le
temps.

La plus simple de ces transformations est la translation spatiale. Elle consiste à déplacer le système
tout entier (y compris tout ce qui l'entoure si cela intervient dans l'évolution du système).
Il existe deux points de vue :
 Le point de vue actif.
Il consiste à considérer réellement un déplacement de l'objet et de tout ce qui l'entoure. L'objet
passe de la position x à x ′ .
 Le point de vue passif.
On ne déplace pas l'objet mais on change simplement le système de coordonnées, on change x
en x ′ en laissant l'objet au même endroit.

Ces deux points de vue sont équivalent car tout ce qui décrit l'objet change de la même manière
dans les deux cas. Par exemple, si le système contient un petit engrenage à la position xe il se
retrouvera à la position xe′ dans les deux cas, et de même pour tout le reste. De plus, le principe de
relativité nous dit que le repère utilisé est arbitraire et que son choix importe peu pour le
déroulement des phénomènes. Il n'y a pas d'espace absolu. Donc, le choix de deux repères reliés par
une translation ne doit pas modifier la physique.

Le choix du point de vue est donc affaire de convenance. On adopte plus facilement le point de vue
actif lorsqu'on veut se représenter mentalement ce qui se passe, mais il est souvent plus facile
d'utiliser le point de vue passif pour les calculs et les notations.

Notons que ceci n'est vrai que si l'on déplace tout. S'il y a dans l'environnement un phénomène
quelconque qui reste fixe dans l'espace, par exemple un champ magnétique, tandis que l'on déplace
seulement le système physique analysé, alors, dans ce cas, l'environnement du système n'est plus le
même après la translation et l'évolution dans le temps peut être modifiée. La présence du champ
magnétique brise la symétrie sauf si on déplace ce champ en même temps que le système physique.
Tout dépend donc de ce que l'on considère comme étant le système physique.

Déplacements dans l'espace et le temps


Considérons le déplacement dans l'espace d'un système physique représenté par le ket α ou la
fonction d'onde ψ α (r ) . Le déplacement est décrit par un vecteur ρ et change le ket α en le ket
α ′ ou change la fonction d'onde ψ α (r ) en la fonction d'onde ψ α ′ (r ) . Cela signifie que
(3) ψ α ′ (r + ρ ) = ψ α (r )

Comme exemple de (1), notons que, si ψ α (r ) est un paquet d'ondes qui a sa valeur maximale quand
on argument r vaut r0 , alors ψ α ′ (r ) est un paquet d'ondes de la même forme qui a sa valeur
maximale quand son argument r est égal à r0 + ρ . Donc, ψ α ′ a son maximum déplacé de ρ par
rapport au maximum de ψ α .

A noter que le point de vue passif consisterait à changer le système de coordonnées en le déplaçant
du vecteur − ρ , ce qui revient exactement au même.

Opérateur déplacement unitaire


Deux sortes de transformation furent discutées dans la théorie des transformations. Le premier type,
dont U, V et W sont des exemples, sont des transformations unitaires d'une représentation à une
autre qui tournent les axes dans l'espace de Hilbert sans changer les vecteurs d'états. Le second
type, dont Ω et e − iHt / h sont des exemples, sont des variables dynamiques qui produisent des
rotations généralisées des vecteurs d'états dans l'espace de Hilbert sans changer les axes. Nous
voulons maintenant trouver une transformation du second type qui change le ket α en le ket α ′ .
Puisque la norme du ket ne devrait pas être affectée par le déplacement, l'opérateur correspondant
dont être unitaire et cela sera obtenu par construction explicite. Nous appellerons cet opérateur
U r ( ρ ) , où l'indice indique une translation dans l'espace et l'argument est le vecteur intervalle de
déplacement (par contraste avec U t (τ ) considéré plus loin qui est l'opérateur pour les translations
dans le temps de l'intervalle τ ).

Nous avons donc


(4) U r ( ρ ) α = α ′ ou U r ( ρ )ψ α (r ) = ψ α ′ (r )

La deuxième équation dans (4) utilise la représentation coordonnées du vecteur d'état. Avec (3),
cela devient
(5) U r ( ρ )ψ α (r ) = ψ α (r − ρ )

Pour évaluer ψ α (r − ρ ) , il est pratique de choisir les axes de coordonnées afin que l'axe x soit dans
la direction du vecteur ρ . Alors, un développement en série de Taylor donne
∂ ρ 2 ∂2
(6) ψ α (r − ρ ) = ψ α ( x − gr , y, z ) = ψ α ( x, y, z ) − ρ ψ α ( x, y, z ) + ψ α ( x, y , z ) − L
∂x 2! ∂x 2

Le coté droit peut être écrit sous la forme


(7) e − ρ (∂ / ∂x )ψ α ( x, y, z )

Pour un choix général des axes de coordonnées, ρ (∂ / ∂x ) peut être remplacé par ρ ⋅ ∇ , ainsi nous
obtenons
 − iρ ⋅ p 
(8) ψ α (r − ρ ) = exp(− ρ ⋅ ∇ )ψ α (r ) = exp ψ α (r )
 h 
où l'opérateur impulsion p = −ih∇ a été introduit. Donc, si nous choisissons
− iρ ⋅ p
(9) U r ( ρ ) = exp
h
l'équation (5) est valide pour tout vecteur d'état. De plus, puisque l'opérateur ∇ , qui est définit
seulement dans la représentation coordonnées, a été remplacé par ip / h , l'équation (9) est valide
dans toutes les représentations. On vérifie facilement que U r ( ρ ) est unitaire puisque ρ est réel et
p est hermitique.

Equation du mouvement
Un système physique dans un état représenté par tout ket α (t ) à un instant particulier t peut
toujours est déplacé dans l'espace par le vecteur ρ en utilisant les équations (4) et (9). Cependant,
il n'est pas nécessairement vrai que les kets α ′(t ) obtenu de cette manière à des moments
différents représentent un mouvement possible du système. En d'autres mots, si α (t ) obéit à
l'équation de Schrödinger du mouvement, il peut être vrai ou pas que α ′(t = U r ( ρ ) α (t obéisse
aussi à cette équation. Afin de voir si c'est le cas ou pas, nous calculons la dérivée par rapport au
temps de α ′(t ) :

α ′(t ) = ihU r ( ρ ) α (t ) = U r ( ρ )H α (t )
d d
ih
(10) dt dt
= U r ( ρ )HU r ( ρ ) α ′(t )
+

Elle est en accord avec l'équation de Schrödinger si et seulement si


(11) U r ( ρ )HU r+ ( ρ ) = H ou [U r ( ρ ), H ] = 0

Si ρ peut être n'importe quel vecteur, (11) est seulement valide si p commute avec H. Alors, selon,
ce que nous avons vu, l'opérateur impulsion est une constante du mouvement. Il suit aussi que p et
H peuvent être diagonalisés simultanément et ainsi un état peut avoir des valeurs propres bien
définies à la fois pour l'impulsion et l'énergie.

Donc, nous avons montré qu'un système physique qui peut être déplacé dans l'espace et être encore
un système physique peut être caractérisé par une constante et une valeur bien définie de
l'impulsion autant que de l'énergie. Un tel système est dit posséder une symétrie ou une invariance
aux translations spatiales. Le résultat est raisonnable puisqu'une particule peut être symétrique ou
invariante par rapport aux translations seulement si aucune force extérieure n'agit sur elle, auquel
cas son impulsion est constante. Un électron libre possède cette symétrie tandis qu'un électron dans
un atome d'hydrogène non. Dans ce dernier cas, le déplacement de la fonction d'onde conduit à un
paquet d'ondes qui garde sa forme seulement momentanément. Par contre, un atome isolé,
considéré comme un tout, est également dans cette situation.

Symétrie et dégénérescence
Un aspect important des symétries concerne leurs relations avec la dégénérescence des valeurs
propres. Supposons que le ket α représente un état propre de l'énergie d'un système, tel que
H α = Eα α et qu'il existe un certain opérateur Ω qui commute avec H. Alors, on voit
facilement que Ω α est aussi un état propre de H avec la même valeur propre de l'énergie Eα .
Donc, si Ω α est linéairement indépendant de α , cette valeur propre de l'énergie est dégénérée.
Puisqu'un état déplacé dans l'espace est généralement linéairement indépendant de l'état original, la
symétrie à la translation (pour laquelle Ω = p ) conduit à une dégénérescence en énergie des
fonctions propres de l'impulsion. Ce n'est pas un résultat nouveau puisque nous savons déjà que
l'énergie d'une particule libre dépend seulement de la grandeur de son impulsion et non de sa
direction. Un cas exceptionnel se produit quand l'état est constant dans l'espace puisque alors les
états déplacés ne sont pas linéairement indépendants. De tels états ont une impulsion nulle et ne
sont pas dégénérés.

La dégénérescence en énergie associée à une symétrie géométrique telle que les translations est
habituellement facile à identifier. Nous considérerons plus loin des exemples moins évidents de
symétries dynamiques où il y a aussi dégénérescence. Le problème est alors de trouver l'opérateur
Ω analogue à p ci-dessus qui commute avec l'hamiltonien et donc définit la symétrie.

Eléments de matrice pour les états déplacés


Un élément de matrice d'une variable dynamique Ω peut être calculé pour toute paire d'états et
comparé avec l'élément de matrice du même opérateur quand les états sont déplacés. Le premier
élément de matrice est α Ω β et le second est
(12) α ′ Ω β ′ = α U r+ ( ρ )ΩU r ( ρ ) β
Il est évident que les éléments de matrice de toute fonction de l'opérateur impulsion sont inchangés
quand l'état est déplacé. D'autre part, si Ω est l'opérateur coordonnées, on peut montrer que
(13) U r+ ( ρ )rU r ( ρ ) = r + ρ

Donc, les éléments de matrice de r pour les états déplacés sont égaux aux éléments de matrice
correspondant à r + ρ pour les états originaux, comme attendu.

Le groupe des translations


La branche des mathématiques qui est appropriée pour un traitement complet des symétries est la
théorie des groupes.

On établit facilement que tous les vecteurs déplacement ρ forment un groupe non compact,
abélien, bien enchaîné à trois paramètres. Ce groupe est isomorphe au groupe U (1) × U (1) × U (1) . De
même, les opérateurs U r ( ρ ) forment un groupe qui est isomorphe au groupe des vecteurs de
translation. Dans ce cas, l'opération de multiplication du groupe est constituée des translations
successives données par l'addition vectorielle.

Déplacements dans le temps


Nous considérons ensuite le déplacement d'un état représenté par le ket α (t ) dans le temps d'un
intervalle de temps τ ce qui le change en le ket α ′(t ) . En analogie avec l'équation (3), cela
signifie que
(14) α ′(t + τ ) = α (t )

Comme dans la première des équations (4), nous définissons un opérateur U t (τ ) qui produit une
rotation généralisée du ket α (t ) en α ′(t ) :
(15) U t (τ ) α (t ) = α ′(t )

La combinaison des équations (14) et (15) donne


(16) U t (τ ) α (t ) = α (t − τ )

Le coté droit de (16) peut être réduit, en analogie avec (5) pour donner
(17) α (t − τ ) = r −τd / dt α (t )

Puisque nos ket sont vus dans le point de vue de Schrödinger, on peut remplacer (d / dt ) α (t ) par
(ih )−1 H α (t ) . Cependant (d )
/ dt 2 α (t ) peut être remplacé par (ih ) H 2 α (t ) seulement si H est
2 −2

indépendant du temps et une remarque similaire s'applique aux dérivées plus élevées par rapport au
temps qui apparaissent dans (17). Nous supposerons donc que H est une constante et nous obtenons
(18) U t (τ ) = e iτH / h

L'équation (18) est une expression valide pour l'opérateur translation dans le temps s'il est appliqué
à tout ket qui représente un état physique, c'est-à-dire, tout ket qui satisfait l'équation de
Schrödinger. Puisque U t (τ ) commute avec H, on voit facilement que le ket déplacé dans le temps
α ′(t ) donné par (15) obéit aussi à l'équation de Schrödinger. Donc, l'hypothèse que l'hamiltonien
ou opérateur énergie est constant conduit à la conclusion qu'un système physique peut être déplacé
dans le temps et être encore un système physique. Un tel système est dit posséder une symétrie ou
invariance à la translation dans le temps.

Bien que ce soit intuitivement évident, il est légèrement plus difficile de montrer que si H dépend
du temps, le système ne possède pas de symétrie par translation dans le temps. Dans ce cas,
l'expression pour U t (τ ) est un peu plus compliquée que dans (18). Cependant, il est suffisant de
considérer le cas où τ est infinitésimal et de ne garder que les termes au premier ordre en τ . Alors
U t (τ ) est donné approximativement par 1 + iτH (t ) / h et dépend évidemment de t aussi bien que de
τ . Alors, pour voir si α ′(t ) satisfait l'équation de Schrödinger, nous calculons sa dérivée par
rapport au temps à partir de (15) :
(19) ih α ′(t ) ≈ −τ α (t ) + U t (τ )H (t ) α (t )
d dH
dt dt
Au premier ordre en τ , le coté droit est égal à
α ′(t ) + H (t ) α ′(t )
dH
(20) − τ
dt
et ainsi α ′(t ) n'obéit pas à l'équation de Schrödinger. En d'autres mots, si l'hamiltonien change au
cours du temps, le système déplacé dans le temps se trouve dans un environnement altéré et donc
ne se développera pas correctement dans le temps.

Dans le cas où H est constant, on peut d'abord penser qu'il y a une contradiction avec la relation
connue
(21) α (t ) = e − iHt / h α (0)
et la relation (15) qui s'écrit avec (18)
(22) α ′(t ) = e iτH / h α (t )

Le fait qu'elles sont en accord peut être vu en posant t = −τ dans la première équation et t = 0 dans
la seconde, auquel cas, elles deviennent
(23) α (− τ ) = e iτH / h α (0) et α (0) = e iτH / h α (0)
respectivement. L'équation (14) avec t = −τ montre alors que les deux cotés gauches sont égaux.
Cela peut être mis en mots en disant que α ′(t ) a en t = −τ la structure de α (t ) en t = 0 et donc
peut être obtenue à partir de α (τ ) en la laissant évoluer à rebours dans le temps de τ à 0.

II.2 Symétries discrètes


Une symétrie discrète correspond à la transformation d'une quantité (ou plusieurs) prenant
seulement des grandeurs discrètes, tel que -1 et +1, par exemple. On a déjà parlé de la symétrie
miroir correspondant à une inversion gauche - droite.

La parité a déjà été rencontrée plus tôt avec les équations de Schrödinger à une ou trois dimensions.
Aussi longtemps que l'énergie potentielle est inchangée lorsque la coordonnée r est remplacée par -
r, les fonctions propres de l'énergie peuvent être choisies comme restant inchangées ou changeant
de signe lorsque r change de signe, c'est-à-dire qu'elles ont la parité paire ou impaire. Nous allons
commencer par un exemple simple de symétrie par inversion puis nous généraliserons en
appliquant la méthode de la section précédente à la relation entre parité et opération de symétrie
d'inversion de l'espace (r → −r ) .

Notons en passant que la symétrie miroir n'est pas tout à fait la même que la symétrie d'inversion de
l'espace puisque dans la symétrie miroir, une seule des coordonnées (celle perpendiculaire au
miroir) est renversée. La distinction n'est importante que si les trois directions de l'espace jouent un
rôle dans le problème étudié.

Nous considérerons ensuite la symétrie par renversement du temps. Les équations classiques du
mouvement pour des particules qui se déplacent sous l'influence de forces conservatives sont
symétriques quand le sens de la progression du temps est renversée puisqu'elles impliquent des
dérivées secondes en le temps. Cependant, le fait que l'équation de Schrödinger est du premier
ordre en la dérivée du temps tandis que les équations newtoniennes sont du second ordre introduit
de nouvelles propriétés physiques intéressantes dans le traitement des situations quantiques.

Nous terminerons en parlant brièvement de la symétrie par inversion des charges et ses
conséquences.

La molécule d'hydrogène
Un exemple très simple est fourni par l'ion de la molécule d'hydrogène, nous aurions pu aussi bien
considérer la molécule d'ammoniac, pour lequel il existe deux états. Nous prenons pour états de
base, d'une part celui pour lequel l'électron est voisin du proton numéro 1 et d'autre part celui pour
lequel l'électron est voisin du proton numéro 2. Ces deux états, désignés par 1 et 2 , sont
représentés ci-dessous (a).
Pour autant que les deux noyaux soient absolument identiques, ce système physique présente une
certaine symétrie. En effet, si nous faisions une réflexion du système par rapport au plan médian
des protons, tout ce qui se trouve d'un côté du plan étant transporté dans la position symétrie, nous
aboutirions à la figure (b) ci-dessus. Comme les protons sont identiques, l'opération de réflexion
change 1 en 2 et 2 en 1 . Nous désignerons cette opération de réflexion par P̂ et nous
écrirons
(1) Pˆ 1 = 2 Pˆ 2 = 1

P̂ a des éléments de matrice que l'on peut définir à l'aide de la notation usuelle. Plus précisément
(2) P = 1 Pˆ 1 et P = 1 Pˆ 2
11 12
sont les éléments de matrice obtenus en multipliant P̂ 1 et P̂ 2 à gauche par 1 . Du fait de (1),
ils ont pour valeur
1 Pˆ 1 = P11 = 1 2 = 0
(3)
1 Pˆ 2 = P12 = 1 1 = 1

On détermine de la même manière P21 et P22 . Par rapport au système de base 1 et 2 , la matrice
P s'écrit
 0 1
(4) P =  
 1 0

Inversion de l'espace
Revenons maintenant à l'inversion des coordonnées (r → −r ) dans le cas général. La matrice
appliquée aux coordonnées qui produit l'inversion est :
− 1 0 0 
(5) I =  0 − 1 0 
 0 0 − 1
ainsi Ir = −r . Il est évident que I est réel et orthonormal, mais son déterminant est égal à -1, ainsi
ce n'est pas une rotation propre. Toute matrice orthonormale 3 × 3 avec un déterminant peut être
écrite comme un produit de I et d'une rotation propre. La matrice unité et I en eux-mêmes forment
un groupe discret avec deux éléments et tel que I 2 = 1 .

L'inversion d'un système physique dans un état représenté par le ket α ou la fonction d'onde
ψ α (r ) le change en l'état représenté par α ′ ou ψ α ′ (r ) . La relation entre les deux états est
supposée être
(6) ψ α ′ (Ir ) = ωψ α (r )
où ω est un nombre dont nous discuterons plus loin. L'introduction de ce nombre dans (1) et son
absence dans l'approche précédente est la conséquence de la nature discrète du groupe d'inversion
contrairement à la nature continue des translations. Un tel nombre introduit dans les équations
précédentes aurait dépendu de manière continue de ρ ou τ et approché l'unité lorsque ces
paramètres approchent de zéro puisque alors α ′ = α à la limite. On peut alors montrer qu'il n'a
pas de conséquence physique.

Opérateur inversion unitaire


L'opérateur inversion unitaire U I est défini par
(7) U I α = α ′ ou U Iψ α (r ) = ψ α ′ (r )

La substitution de (6) dans la deuxième équation de (7), suivi par une deuxième opération avec U I
donne
(8) U Iψ α (r ) = ωψ α (− r ) U I2ψ α (r ) = ω 2ψ α (r )

Deux inversions remettent les coordonnées de l'espace dans leur état d'origine, et ainsi U I2
transforme un état en lui-même. Dans une telle situation, l'état ne peut pas changer sa norme, bien
qu'il puisse être multiplié par un facteur de phase de grandeur unité. Donc ω 2 est un nombre de
grandeur unité d'où il suit que ω aussi. Il est aussi vrai que ω doit être le même pour tous les états
qui peuvent être superposés les uns avec les autres, c'est-à-dire pour tous les états qui peuvent être
utilisés pour décrire le même système de particules. Par exemple, si
(9) ψ (r ) = ∑ aαψ α (r )
α
où les aα sont un ensemble de coefficients numériques. Alors
(10) U I2ψ (r ) = ∑ ω α2 aαψ α (r )
α

qui sera en général un état différent de ψ (r ) sauf si les ω α2 sont tous les mêmes.
Nous supposerons que ω a une valeur définie pour chaque type de particule. On verra avec les
rotations qu'une rotation de 2π d'une particule de spin entier laisse sa fonction d'onde inchangée
(ce qui semble intuitivement logique, mais nous verrons que pour les particules de spin demi-entier,
l'intuition est trompeuse) et nous nous attendons à ce que ce soit vrai aussi pour deux inversions de
l'espace. Donc, ω 2 = 1 et ω = ±1 . Nous verrons que pour les particules de spin demi-entier, le
produit de paires d'entre elles peut être superposé pour obtenir des états de spin entier. Donc, on
s'attend à ce que ω 2 pour une particule de spin demi-entier puisse être égal aux valeurs possibles
de ω pour une particule de spin entier. Ces valeurs sont ± 1 , tel qu'une particule de spin demi-
entier peut avoir ω = ±1,±i .

Parité intrinsèque
La détermination expérimentale de ω pour différentes particules implique leurs interactions
mutuelles. En particulier, on a trouvé qu'un méson π 0 (pion neutre), qui a un spin zéro, se
désintègre en deux photons, ainsi sa parité intrinsèque peut être trouvée relativement à celle du
champ électromagnétique et correspond à ω = −1 . Cela suppose que la parité du système est
conservée durant le processus de désintégration, ce qui est confirmé par l'étude de nombreuses
interactions (sauf dans certains cas, voir plus bas). Le pion neutre est donc dit avoir une parité
intrinsèque impaire ou être une particule pseudoscalaire. C'est à mettre en contraste avec une
particule de spin zéro avec ω = +1 qui serait appelée une particule scalaire. La parité intrinsèque
des mésons π ±1 (pions chargés), qui ont aussi un spin 0, ne peut pas être trouvée relativement à
celle du champ électromagnétique puisque la conservation de la charge électrique empêche leur
désintégration en photons. Cependant, les pions chargés peuvent être créés ou détruits à travers des
interactions de nucléons (protons et neutrons) et ainsi leur parité intrinsèque peut être trouvée
relativement à celle des nucléons, à nouveau la conservation de la parité durant l'interaction est
supposée. L'usage habituel assigne la parité paire aux nucléons et la parité impaire aux pions.

Etats inversés et opérateurs


L'équation du mouvement d'un état inversé peut être trouvée de la même manière que pour les états
déplacés. Comme attendu, on trouve que si un ket particulier obéit à l'équation de Schrödinger,
alors le ket inversé aussi pourvu que [U I , H ] = 0 . Dans ce cas, H et U I peuvent être diagonalisés
simultanément tel que les états propres de l'énergie peuvent être choisis pour avoir des parités bien
définies. De plus, si α et U I α sont linéairement indépendants, il doit y avoir une
dégénérescence de l'énergie.

Les éléments de matrice d'une variable dynamique Ω pour les états inversés sont égaux aux
éléments de matrice correspondants de U I+ ΩU I pour les états originaux. Puisque U I est définit
unitaire, la multiplication de la première équation (8) à gauche par U I+ donne
(11) ψ α (r ) = ωU I+ψ α (− r ) ou U I+ψ α (r ) = ω −1ψ α (− r )

Nous pouvons alors évaluer U I+ rU I en le laissant opérer sur un état arbitraire ψ α (r ) :


(12) U I+ rU Iψ α (r ) = U I+ rωψ α (− r ) = ω −1ω (− r )ψ α (r )
et ainsi
(13) U I+ rU I = −r

De même, puisque p = −ih∇ , il est facile de voir que


(14) U I+ pU I = −p

Les équations (13) et (14) sont accord avec ce qu'on s'attendrait classiquement des propriétés de
l'inversion de l'espace pour les coordonnées et impulsions.

Renversement du temps
Le renversement du temps d'un état représenté par le ket α ou la fonction d'onde ψ α les changent
en le ket α ′ ou la fonction d'onde ψ α ′ qui se développent dans le sens opposé de la progression
du temps. Pour ces états, le signe de l'impulsion est renversé mais les autres quantités comme les
coordonnées restent inchangées. Le renversement du temps est effectué par un opérateur
indépendant du temps T tel que
(15) T α = α ′ ou Tψ α = ψ α ′
Nous supposerons dans ce qui suit que T est une opération de symétrie pour les systèmes physiques
fermés isolés. Jusqu'à présent toutes les expériences sont consistantes avec cette hypothèse (à
l'exception notable de la désintégration des mésons K et B). Cela signifie que si k ou u k
représente un état propre de l'hamiltonien (qui est constant dans le temps) avec la valeur propre de
l'énergie E k , alors T k ou Tu k représente aussi un état propre avec la même valeur propre.

A un moment particulier, disons t = 0, la fonction d'onde ψ α peut être développée en terme des
fonctions propre de l'énergie u k comme
(16) ψ α = Sa l αk uk

Nous considérons maintenant deux paires d'opérations qui peuvent être effectuées sur ψ α dont on
s'attend à ce qu'elles conduisent au même état physique. Dans le premier cas, nous laissons l'état de
propager jusqu'au temps t puis nous le renversons. Dans le second cas, nous le renversons en t = 0
et ensuite nous laissons l'état renversé se propager avec le sens opposé de la progression du temps
jusqu'au temps -t. On s'attend au même résultat dans la mesure où T est une symétrie et doit donc
commuter avec H. Avec la première paire d'opérations, la propagation au temps t transforme (16)
en
(17) Sa
k αk e − iEk t / h u k

Si nous tentons maintenant que T est un opérateur linéaire (et nous allons voir que cela nous
conduit immédiatement à une contradiction), le renversement du temps donne
(18) Sa
k αk e − iEk t Tu k

Avec la seconde paire d'opérations, le renversement du temps en t = 0 transforme (16) en


(19) Sa
k αk Tu k

Puisque la valeur propre de l'énergie de Tu k est E k , la propagation jusqu'au temps -t donne alors
(20) Sa k αk e iEk t / h Tu k

Il est évident qu'en général les fonctions d'onde (18) et (20) ne sont pas des multiples l'une de
l'autre comme cela aurait dû être si elles représentaient le même état physique. Donc, T ne peut pas
être un opérateur linéaire.

Opérateurs antilinéaires
La contradiction précédente est clairement reliée d'une certaine manière à l'opération de
conjugaison complexe. Ce n'est pas surprenant puisqu'un changement de signe de t dans l'équation
de Schrödinger de ψ α la change en l'équation pour ψ α∗ pourvu que H soit réel et indépendant du
temps. Donc, au lieu de supposer que T est un opérateur linéaire avec la propriété
(21) T (a1ψ 1 + a 2ψ 2 ) = a1Tψ 1 + a 2Tψ 2
nous essayons l'hypothèse que T a la propriété
(22) T (a1ψ 1 + a 2ψ 2 ) = a1∗Tψ 1 + a 2∗Tψ 2

Un tel opérateur est dit antilinéaire. Avec l'hypothèse (22) pour T, les deux états (18) et (20)
deviennent tous les deux
S
(23) k aα∗k e iEk t / h Tu k
et la contradiction disparaît.

L'application de T des deux cotés de l'équation de Schrödinger


∂ψ α
(24) ih = Hψ α
∂t
donne
∂ (Tψ α )
(25) − ih = THψ α
∂t

Donc, si T commute avec l'hamiltonien, tel que


(26) [T , H ] = 0
alors Tψ α satisfait l'équation de Schrödinger avec T remplacé par -t, comme attendu. Il suit aussi
de (26) que Tu k est une fonction propre de l'énergie avec la valeur propre E k comme supposé ci-
dessus. Donc, la condition que T est une opération de symétrie est que l'équation (25) soit satisfaite.
La situation ici n'est pas différente de celle avec les opérations de symétrie unitaires discutées
précédemment.

Opérateurs antiunitaires
Un opérateur antilinéaire peut être exprimé comme le produit d'un opérateur linéaire et l'opérateur
conjugaison complexe K qui est définit par
(27) Kψ = ψ ∗
pour une fonction arbitraire ψ . Nous notons que K 2 = 1 . Une classe particulièrement utile
d'opérateurs antilinéaires consiste en ceux pour lequel l'opérateur linéaire qui multiplie K est
unitaire. De tels opérateurs sont dits antiunitaires. Il est évident que K lui-même est antilinéaire et
antiunitaire. On montre facilement que le produit scalaire de deux fonctions d'état est changé en son
complexe conjugué quand on opère sur les états avec le même opérateur antiunitaire. Le même
argument montre que la norme d'un état est inchangée puisqu'elle est réelle. Il est plausible de
s'attendre à ce que les normes des états et les grandeurs absolues des produits scalaires des paires
d'états soient inchangées par renversement du temps. Nous supposons donc que T est antiunitaire et
nous l'écrivons sous la forme
(28) T = UK
où U est unitaire.

Si H est complexe, comme avec le potentiel du modèle optique, la condition (27) nécessite que U
transforme H ∗ en H : UH ∗U + = H . Il n'y a en général pas d'opérateur unitaire qui a cette propriété
et donc ces systèmes physiques représentés par un hamiltonien complexe ne sont pas invariants par
renversement du temps (notez qu'en dépit de cela, le théorème de réciprocité est valide dans cette
situation). Ce résultat n'est pas surprenant puisque l'absorption de particules par un potentiel
complexe spécifie un sens particulier de progression du temps. La situation est ici
approximativement analogue à la friction dans le mouvement d'une particule classique ou à la
viscosité en hydrodynamique classique qui introduisent des forces qui changent de signe quand la
vitesse change de signe détruisant ainsi l'invariance par renversement du temps. Le potentiel
complexe en mécanique quantique tout comme la friction ou la viscosité en mécanique classique
fournissent une simple description phénoménologique de situations beaucoup plus compliquées et
n'impliquent pas en eux-mêmes une perte de l'invariance par renversement du temps à un niveau
plus élémentaire.

Symétrie C et théorème CPT


En dehors de la symétrie P (symétrie par inversion de l'espace) et de la symétrie T (symétrie par
renversement du temps), il existe aussi une autre symétrie discrète appelée symétrie C. Cette
symétrie dite de conjugaison de charge consiste à changer le signe de toutes les charges des
particules (charges électriques ou d'autres natures). Typiquement, l'application de cette symétrie
consiste à remplacer les particules par les antiparticules. Ainsi, un électron, portant une charge
négative, est transformé en positron, porteur d'une charge électrique positive.

On a longtemps cru que ces symétries étaient exactes. Mais ce n'est pas le cas. Si l'interaction
électromagnétique ainsi que l'interaction forte (interaction nucléaire) respectent ces symétries, ce
n'est pas le cas de l'interaction faible. Ainsi, les neutrinos n'existent que dans un seul état de
chiralité. La chiralité étant la valeur du spin dans la direction du mouvement ou, pour un système
classique, le mouvement en tire-bouchon d'un objet qui avance en tournant. Les neutrinos ont
uniquement une chiralité gauche (le mouvement de rotation, vu par l'arrière, est dans le sens inverse
des aiguilles d'une montre), tandis que les antineutrinos sont uniquement de chiralité droite. La
symétrie P change le sens de la chiralité.

Par conséquent, lorsque l'on applique la symétrie P dans une situation où il y a un neutrino, on
obtient un neutrino de chiralité droite, ce qui est physiquement impossible. La symétrie P n'est ainsi
pas respectée. Un exemple typique est la désintégration bêta de certains noyaux atomiques où un
des neutrons se désintègre en un proton, un électron et un antineutrino, l'électron étant éjecté du
noyau à grande vitesse (radioactivité bêta). Ce type de désintégration, dû à l'interaction faible, viole
la symétrie P. Cela a des conséquences sur les sections efficaces et peut être mesuré.

Il en est de même de la symétrie C. Puisqu'elle change le neutrino en antineutrino, mais sans


modifier la chiralité, on a une violation maximale de cette symétrie dans la désintégration bêta.
On comprend tout de suite que la combinaison CP, elle, ne pose pas ce problème car si on applique
une inversion de l'espace et un changement de signe des charges, le neutrino gauche est remplacé
par un antineutrino droit, ce qui est valide. La désintégration bêta respecte la symétrie CP.

On a alors pensé que cette symétrie, CP, ainsi que T étaient tout le temps respectés.

Il reste aussi à envisager la combinaison des trois symétries, notée CPT, où on inverse à la fois
l'espace, le temps et les charges électriques.

Des considérations très générales et très peu contraignantes, que nous ne détaillerons pas ici,
utilisant les postulats de la mécanique quantique et de la relativité restreinte impliquent que la
symétrie CPT doit être respectée par tout phénomène physique. C'est une véritable symétrie de la
nature.

Une des conséquences de ce théorème est qu'il implique l'existence de l'antimatière ou, plus
précisément, il implique que les particules de l'antimatière sont les mêmes que celles de la matière
(même masse, même spin,…) mais avec des charges opposées.

Mais ce théorème ne dit rien de la combinaison CP seule. Et, en effet, on a découvert que cette
symétrie n'était pas respectée par la désintégration du méson K neutre (ainsi que celle du méson B).
Cette violation est très faible, contrairement à la violation précédente.

A noter qu'on montre que cela implique un léger avantage, dans les réactions, à la matière ou à
l'antimatière selon la violation. Rappelez-vous dans l'étude de la désintégration du méson K que
l'on avait une transformation progressive des K 0 en K 0 (l'antiparticule du K 0 ).

Enfin, puisque la combinaison CPT est toujours respectée, si la combinaison CP est violée, alors la
symétrie T doit aussi être légèrement violée par la désintégration du méson K (pour que la violation
compense celle de CP et permette à la symétrie CPT d'être respectée, comme dans la combinaison
CP dans le cas de la désintégration bêta). Ce qui a pu être expérimentalement mis en évidence.
C'est le seul phénomène physique connu (avec le méson B), à un niveau fondamental, qui viole la
symétrie par renversement du temps.

II.3. Symétries et lois de conservation

II.3.1. Symétrie et conservation


Nous avons déjà vu avec les symétries des translations spatiales et temporelles que l'existence de
ces symétries était liée au fait que l'opérateur des translations commutait avec l'hamiltonien. Par
conséquent, cet opérateur devient une quantité conservée et, en particulier, la symétrie sous les
translations spatiales implique la conservation de l'impulsion et la symétrie sous les translations
dans le temps implique la conservation de l'énergie.

Cette relation entre symétries et conservation est en fait une généralité et nous allons examiner cela
de plus prêt.

Parlons maintenant d'une situation générale. Supposons que l'on ait au départ un état ψ 1 et qu'à
tel ou tel moment dans les conditions physiques données, il soit passé à l'état ψ 2 . On peut écrire
(1) ψ = Uˆ ψ
2 1

où Û est l'opérateur d'évolution. Supposez que nous fassions subir à l'ensemble du système
l'opération Q̂ (une transformation unitaire). L'état ψ 1 est transformé en l'état ψ 1′ , que nous
pouvons aussi écrire Qˆ ψ . De même, l'état ψ est changé en ψ ′ = Qˆ ψ . Si la physique est
1 2 2 2

symétrique pour Q̂ (n'oubliez pas le si car il ne s'agit pas nécessairement d'une propriété générale
de tous les systèmes), alors, après le même laps de temps et dans les mêmes conditions, nous
devrions avoir
(2) ψ 2′ = Uˆ ψ 1′

Mais nous pouvons écrire Qˆ ψ 1 à la place de ψ 1′ et Qˆ ψ 2 à la place de ψ 2′ et l'équation (2)


peut se récrire
(3) Qˆ ψ 2 = UˆQˆ ψ 1

En remplaçant maintenant ψ 2 par Uˆ ψ 1 , d'après (1), nous obtenons


(4) Qˆ Uˆ ψ = UˆQˆ ψ
1 1

Il n'est pas difficile de comprendre ce que cela signifie. Par exemple, en reprenant un exemple
précédent, cela veut dire "faire une réflexion et attendre un moment", c'est le terme de droite,
équivaut à "attendre un moment puis faire une réflexion", c'est le terme de gauche. Ceci doit être
vrai pour autant que U ne change pas sous la réflexion.

Puisque (4) est vrai quel que soit l'état de départ ψ 1 , on doit avoir la relation entre les opérateurs
(5) Qˆ Uˆ = UˆQˆ

C'est là où nous voulions en venir. Nous avons une expression mathématique de symétrie. Lorsque
[ ]
la relation (5) est vraie, alors Û et Q̂ commutent : Qˆ , Uˆ = 0 . Nous pouvons maintenant définir la
symétrie de la manière suivante : un système physique est symétrique par rapport à l'opération Q̂ si
Q̂ commute avec Û , l'opérateur d'évolution dans le temps.

Incidemment, puisque pour un temps infiniment petit, nous avons Uˆ = 1 − iHε / h , vous voyez que
si (5) est vrai, l'équation suivante est également vraie
[ ]
(6) H , Qˆ = 0

Ainsi (6) constitue l'expression mathématique de la symétrie d'une situation physique sous
l'opération Q̂ . (6) définit une symétrie.

Supposez que nous ayons affaire à une situation très particulière, telle que si nous faisons agit
l'opérateur Q̂ sur un état, nous obtenons le même état. C'est un cas très particulier, mais admettons
que, pour un état ψ 0 , ψ ′ = Qˆ ψ 0 soit physiquement le même état que ψ 0 . Autrement dit,
ψ ′ est le même état que ψ 0 à quelque facteur de phase près.

Incidemment, vous pouvez montrer que Q̂ est un opérateur unitaire. Autrement dit, s'il agit sur ψ
pour donner un certain nombre que multiplie ψ , ce nombre doit être de la forme e iδ , où δ est
réel. C'est un point mineur dont la preuve repose sur la remarque suivante. Aucune opération du
type réflexion, translation ou rotation ne donne lieu à la perte d'une particule. La normalisation de
ψ et ψ ′ doit donc être la même, elles ne peuvent différer que par un facteur de phase purement
imaginaire.

Comment cela peut-il se produire ? Prenons l'exemple de l'ion hydrogène avec ses deux états, avec
l'électron localisé autour de chaque proton, 1 et 2 . Définissons deux nouveaux états de base :
1 + 2
I =
2
(7)
1 − 2
II =
2

Dans l'état I , l'électron a une amplitude égale d'être dans les états de base 1 et 2 .
Les probabilités sont représentées par les zones hachurées dans la figure (a) ci-dessus. Si nous
opérons sur I avec l'opérateur de réflexion P̂ , nous aboutissons à un état inversé, 1 étant
changé en 2 et 2 en 1 . Or, c'est à nouveau très exactement l'état I . Si nous avons au départ
l'état II , les probabilités avant et après réflexion se révèlent identiques. Pourtant, si l'on considère
les amplitudes, il y a une différence. Pour l'état I , les amplitudes sont les mêmes après réflexion,
mais pour l'état II elles ont des signes opposés. En d'autres termes
1 + 2  2 + 1
Pˆ I = Pˆ  = = I
 2  2
(8)
1 − 2  2 − 1
Pˆ II = Pˆ  = = − II
 2  2

Si on écrit Pˆ ψ 0 = e iδ ψ 0 , on doit avoir e iδ = 1 pour l'état I et e iδ = −1 pour l'état II .

Bien évidemment, s'il arrive qu'il soit vrai qu'à un moment donné, disons t = 0, un opérateur Q̂
change seulement la phase, ceci reste vrai à n'importe quel autre moment. Autrement dit, si l'état
ψ 1 se transforme en l'état ψ 2 après un temps t
(9) Uˆ (t ,0 ) ψ 1 = ψ 2
et si la symétrie de la situation est telle que
(10) Qˆ ψ 1 = e iδ ψ 1
alors l'équation ci-dessous est aussi vraie
(11) Qˆ ψ 2 = e iδ ψ 2

Ceci se comprend aisément puisque


(12) Qˆ ψ 2 = Qˆ Uˆ ψ 1 = UˆQˆ ψ 1
(selon (5)) et si Qˆ ψ = e iδ ψ , alors
1 1

(13) Qˆ ψ 2 = Uˆe ψ 1 = e Uˆ ψ 1 = e iδ ψ 2
iδ iδ

(puisque qu'un nombre commute avec un opérateur).

Ainsi, sous certaines symétries, quelque chose qui est vrai à l'instant initial reste toujours vrai. Mais
n'est-ce pas là précisément une loi de conservation ? Eh oui ! Car cela veut dire que si, en faisant un
petit calcul, vous découvrez qu'une opération qui est une opération de symétrie pour le système n'a
d'autre effet que de multiplier l'état initial par un certain facteur de phase, alors vous savez que la
même propriété sera vraie pour l'état final, la même opération multipliera l'état final par le même
facteur de phase. Cette proposition est toujours vraie, même lorsque l'on ne sait rien quant au
mécanisme interne de l'univers responsable de l'évolution de son état initial à son état final. Même
si nous ne nous soucions pas des rouages de la mécanique qui fait passer le système d'un état à un
autre, nous pouvons affirmer que, si une certaine chose est initialement dans un état ayant une
certaine symétrie et si l'hamiltonien concernant cette chose est lui-même symétrique sous la même
opération de symétrie, alors cet état gardera continuellement cette symétrie. C'est le fondement de
toutes les lois de symétrie de mécanique quantique.

Un exemple typique est l'opération d'inversion de l'espace qui, si elle est une symétrie, implique la
conservation de la parité.
La relation (12) montre d'ailleurs que si ψ 2 est un vecteur propre de Q̂ avec une valeur propre u,
alors après l'action de l'opérateur d'évolution, le résultat sera toujours un état propre avec la valeur
propre u. Ceci est bien normal puisque cet opérateur revient à multiplier l'état par une simple phase.

La valeur propre correspondant à une grandeur mesurable (tel que la parité ou l'impulsion ou
l'énergie), dans ce cas, cette grandeur est conservée.

Ce résultat est général et est une formulation particulière d'un théorème très général appelé
théorème de Noether (plus général car il s'applique à tout système, quantique ou classique, de
particules ou de champs) qui associe une symétrie à une grandeur conservée.

Cette relation entre symétrie et lois de conservation n'est pas nécessairement intuitive et est une
relation très profonde de la physique.

II.3.2. Les lois de conservation


Nous allons récapituler les symétries et les lois de conservation. Mais avant cela, nous allons
anticiper un peu en regardant les rotations (nous les étudierons spécifiquement et en détail plus
loin).

Considérons le cas d'un opérateur qui impose à un système atomique une rotation d'un angle φ
autour de l'axe z. Nous désignerons cet opérateur par R̂ z (φ ) . Très précisément, nous définirons
R̂ z (φ ) comme la rotation du système physique de l'angle − φ autour de l'axe z, ce qui revient au
même que la rotation du référentiel de l'angle + φ . Nous supposerons que, le long des axes x et y,
aucune influence extérieure ne s'exerce sur le système physique considéré. S'il y a un champ
électrique ou magnétique, nous le supposerons parallèle à l'axe z. On peut toujours choisir z le long
de la direction du champ, si du moins il n'y a qu'un champ à la fois et si sa direction de varie pas.
Ainsi, si nous avons un atome dans l'espace vide et si nous le faisons tourner d'un angle φ autour
de l'axe z, nous obtenons le même système physique.
Or il existe certains états particuliers tels que l'opération considérée produise un nouvel état
identique à l'état original multiplié par un certain facteur de phase. Faisons une rapide digression
pour vous montrer que, dans ce cas, la variation de phase doit toujours être proportionnelle à l'angle
φ . Supposez que vous fassiez deux fois la rotation d'angle φ , ce qui revient au même que de faire
une seule rotation d'angle 2φ . Si la rotation par φ a pour effet de multiplier l'état ψ 0 par une
phase e iδ , de sorte que
(1) Rˆ z (φ ) ψ 0 = e iδ ψ 0
( )
alors deux rotations successives doivent multiplier l'état par e iδ
2
= e i 2δ car
(2) Rˆ (φ )Rˆ (φ ) ψ = Rˆ (φ )e iδ ψ = e iδ Rˆ (φ ) ψ = e iδ e iδ ψ
z z 0 z 0 z 0 0

La variation de phase doit donc être proportionnelle à φ . Pour faire une démonstration plus
raffinée, il faudrait reprendre ce raisonnement en utilisant des petites rotations ε . Etant donné que
z [
tout angle φ est la somme d'un certain nombre n de ces rotations φ = nε , on a Rˆ (φ ) = Rˆ (ε ) . La
n
z ]
variation totale de la phase est donc n fois la variation pour le petit angle ε , elle est donc
proportionnelle à φ .

Nous allons donc considérer les états particuliers pour lesquels


(3) Rˆ z (φ ) ψ 0 = e imφ ψ 0
où m est un nombre réel.

Nous connaissons aussi le fait remarquable suivant : si le système est symétrique pour une rotation
autour de z et si l'état initial répond à la propriété (3), alors il continuera à vérifier cette propriété
par la suite. Ce nombre m a donc une très grande importance. Si nous connaissons sa valeur au
début du jeu, nous connaissons sa valeur à la fin du jeu. C'est un nombre qui est conservé, m est
une constante du mouvement. Si nous avons pris soin d'isoler ce facteur m, c'est qu'il n'a rien à faire
avec quelque valeur particulière de φ , c'est aussi parce qu'il correspond à quelque chose en
mécanique classique. En mécanique quantique, nous décidons que mh , pour des états tels que
ψ 0 , définit le moment cinétique par rapport à l'axe z. Si nous faisons cela, nous trouvons que
cette même quantité, dans le cas limite des systèmes de grandes dimensions, est égale à la
composante z du moment cinétique de la mécanique classique. Donc, si une rotation autour de z
n'introduit qu'un facteur de phase e imφ , c'est que l'on a affaire à un état de moment cinétique défini
par rapport à cet axe. Le moment cinétique est alors conservé. C'est mh maintenant et pour
toujours. Bien entendu, vous pouvez prendre n'importe quel axe pour la rotation et établir
éventuellement la conservation du moment cinétique par rapport à cet axe. Comme vous venez de
le voir, la conservation du moment cinétique est reliée au fait que le système redonne le même état
après rotation, au seul facteur de phase près.

Une autre classe importante des symétries est celle des symétries internes. Dans ce cas ci, on ne
modifie pas une grandeur géométrique telle que la position mais on modifie un paramètre interne
du système. Un cas typique est celui des champs (champ électromagnétique, par exemple). Dans ce
cas, le système être décrit par une quantité plus complexe que la fonction d'onde d'une particule. Ce
peut être un champ représentant un grand nombre de particules (par exemple des photons pour le
champ électromagnétique) et prenant une valeur plus ou moins complexe en tout point (scalaire,
vectorielle, tensorielle,...). Nous n'insisterons pas trop sur cette situation qui fait partie du domaine
de la théorie des champs. Mais on peut dire ceci. Le champ peut être doté d'une phase, tout comme
notre fonction d'onde. En fait, dans le cas où le champ est scalaire complexe, il prend
mathématiquement la même forme (même si son interprétation physique est totalement différente
puisqu'il s'agit ici d'un système à plusieurs particules et même un nombre de particules pouvant
varier). On peut effectuer un changement global de phase en multipliant la valeur du champ par un
facteur de phase identique en tout point. Dans ce cas, si les équations d'évolutions sont invariantes
sous ce changement, c'est-à-dire si le système possède une symétrie interne par rapport à ce
changement, alors il y a là aussi une quantité conservée, une charge. Dans le cas du champ
électromagnétique et des électrons, on montre même que cette quantité s'identifie à la charge
électrique. Nous n'en dirons pas plus, mais ce point remarquable méritait d'être signalé.

Faisons un récapitulatif.

Symétrie Loi de conservation


Symétrie P (inversion spatiale) Parité
Translations spatiales Impulsion
Translations temporelles Energie
En relativité, les translations spatio- Tenseur énergie-impulsion
temporelles
Rotations Moment cinétique
Changement de phase d'un champ Charge (électrique ou autre)

III. Spin
Nous allons maintenant attaquer plus en détail tout ce qui concerne les rotations et le spin. C'est un
sujet très intéressant mais aussi assez difficile car le spin est un concept assez éloigné des
comportements classiques. Nous allons donc faire une analyse progressive spin par spin avant de
voir un traitement plus général et rigoureux. Le sujet étant assez délicat et difficile à comprendre,
une approche très progressive à partir d'un raisonnement particulièrement élémentaire s'avère utile.

En ce qui concerne le spin, les rotations dont il s'agit ici sont les rotations sur soi-même, comme
une toupie (on parle de rotation propre), et pas les rotations autour de quelque chose, comme une
planète autour du Soleil, bien que dans ce dernier cas on puisse aussi définir une notion semblable :
le moment angulaire de rotation et nous en reparlerons.

A l'échelle des particules, le principe d'indétermination interdit d'avoir une position précise et une
vitesse précise en même temps. Or, ces deux quantités sont indispensables pour définir une
trajectoire (il faut pouvoir dire en quel point passe la particule et la direction qu'elle prend). La
notion de trajectoire à l'échelle des particules est donc particulièrement floue voire trompeuse. Les
particules ne sont pas non plus de petits corpuscules dur de taille bien déterminée.

Donc, dans ce cadre, parler de la rotation d'une particule comme une toupie est assez abusif.
Comment définir la rotation d'un objet dont la taille, la position et le mouvement sont eux-mêmes
mal définis ?

Toutefois, on peut parler de la rotation "autour" de la particule. C'est-à-dire considérer que c'est non
pas la particule qui tourne mais l'observateur qui tourne autour de la particule. Cette conception là
ne pose pas de problème.
On adopte ainsi le point de vue passif des rotations, que nous avons déjà vu : la particule est
inchangée mais on fait tourner le système de coordonnées.

Puisque adopter le point de vue passif ou actif est équivalent, il devient ainsi possible de parler des
rotations propres.

Toutefois, le point de vue passif est parfois difficile à se représenter mentalement. Donc, par abus
de langage mais aussi par facilité et parce que cela aide à visualiser, nous parlerons de la rotation de
la particule comme si il s'agissait d'un petit corpuscule dur et de taille bien déterminée. Mais il faut
toujours bien garder à l'esprit que cette façon de voir est abusive. Elle peut d'ailleurs expliquer bien
des aspects déroutants du spin !

III.1. Spin un

III.1.1. Filtrage des atomes avec un appareil de Stern-Gerlach


Nous allons maintenant aborder un phénomène quantique tout à fait particulier et que nous allons
décrire de façon complètement quantique. Nous ne nous en excuserons pas et nous n'essaierons pas
de trouver des connexions avec la mécanique classique pour la bonne raison qu'elles n'existent pas
toujours. Nous voulons parler de quelque chose de nouveau avec un langage nouveau. La situation
particulière que nous allons décrire concerne ce qu'on appelle la quantification du moment
cinétique, pour une particule de spin un. Mais nous n'allons pas pour l'instant utiliser des mots
comme "moment cinétique" ou autres concepts de la mécanique classique. Nous avons choisi cet
exemple particulier parce qu'il est relativement simple, quoique ce ne soit pas l'exemple le plus
simple. Il est suffisamment compliqué pour pouvoir être considéré comme un prototype que l'on
peut généraliser à la description de tout phénomène quantique. Ainsi, bien que nous traitions un
exemple particulier, toutes les lois que nous mentionnerons seront immédiatement généralisables et
nous donnerons la généralisation, si bien que vous pourrez voir les caractéristiques générales d'une
description selon la mécanique quantique. Nous commençons avec le phénomène de la séparation
d'un faisceau d'atomes en trois faisceaux différents dans une expérience de Stern-Gerlach.
Si nous prenons un champ magnétique non homogène, créé par un aimant dont une des pièces
polaires a une forme pointue, et si nous envoyons un faisceau à travers cet appareil, le faisceau de
particules peut être divisé en un certain nombre de faisceaux, ce nombre dépendant de la nature
particulière des atomes et de leur état. Nous allons prendre le cas d'un atome qui donne trois
faisceaux et nous appellerons cela une particule de spin un.

Vous pouvez traiter vous-mêmes les cas à cinq faisceaux, sept faisceaux, deus faisceaux, etc. Vous
n'avez qu'à recopier ce que nous allons faire et là où nous avons trois termes, vous aurez cinq
termes, sept termes, et ainsi de suite.

Imaginez l'appareil dessiné schématiquement ci-dessus. Un faisceau d'atomes (ou de particules de


n'importe quelle sorte) est défini par des fentes formant collimateur et passe à travers un champ non
uniforme. Disons que le faisceau se déplace dans la direction y et que le champ magnétique et son
gradient vont tous les deux dans la direction z. Alors, en regardant de coté, nous verrons le faisceau
séparé verticalement en trois faisceaux, comme le montre la figure. A la sortie de l'aimant, nous
pourrions placer des petits compteurs qui compteraient le taux d'arrivée des particules dans chacun
des trois faisceaux. Nous pouvons aussi stopper deux des faisceaux et laisser le troisième continuer.
Supposez que nous arrêtions les deux faisceaux inférieurs et que nous laissions le faisceau
supérieur continuer et enter dans un deuxième appareil de Stern-Gerlach du même genre, ainsi que
le montre la figure ci-dessus. Que se passe-t-il ? Il n'y a pas trois faisceaux dans le deuxième
appareil, il n'y a que le faisceau supérieur. Nous supposons que les angles de déflexion sont très
petits (pour que la direction des particules reste approximativement la même par rapport au gradient
du champ magnétique), ces déflexions son exagérées (par rapport à une vraie expérience) sur la
figure pour plus de lisibilité. C'est ce que vous attendez si vous considérez le deuxième appareil
comme une simple extension du premier. Les atomes qui ont été déviés vers le haut continuent à
être déviés vers le haut dans le deuxième aimant.

Vous pouvez voir que le premier appareil a produit un faisceau "purifié" d'objets, les atomes qui
sont déviés vers le haut dans ce champ non homogène particulier. Les atomes, lorsqu'ils entrent
dans l'appareil de Stern-Gerlach initial appartiennent à trois "variétés" et les trois espèces
empruntent des trajectoires différentes. En filtrant toutes les variétés sauf une, nous pouvons faire
un faisceau dont le comportement futur dans le même genre d'appareil est déterminé et prévisible.
Nous appellerons cela un faisceau filtré ou un faisceau polarisé, ou un faisceau dans lequel on sait
que les atomes sont dans un état défini.
Pour le reste de notre discussion, il sera commode de considérer un appareil de Stern-Gerlach
quelque peu modifié. L'appareil semble plus compliqué tout d'abord, mais il rendra tous les
arguments plus simples. De toute façon, comme il ne s'agit que "d'expériences de pensée", cela ne
coûte rien de compliquer l'équipement (incidemment, personne n'a jamais fait les expériences que
nous allons décrire exactement de cette façon, mais savons ce qui arriverait, grâce aux lois de la
mécanique quantique, qui sont, bien sûr, basées sur d'autres expériences similaires. Ces autres
expériences sont plus difficiles à comprendre, si bien que nous commencerons par décrire des
expériences idéalisées, mais possibles).
La figure (a) ci-dessus montre un dessin de "l'appareil de Stern-Gerlach" modifié que nous
voudrions utiliser. Il consiste en une séquence de trois aimants à forts gradients. Le premier (sur la
gauche) est simplement l'aimant de Stern-Gerlach habituel et il sépare le faisceau incident de
particules de spin un en trois faisceaux séparés. Le second aimant a la même forme, en coupe, que
le premier, mais il est deux fois plus long et la polarité de son champ magnétique est l'opposé de
l'aimant 1. Le deuxième aimant pousse les aimants atomiques dans la direction opposée et recourbe
leurs trajectoires vers l'axe, comme indiqué sur la partie inférieure de la figure. Le troisième aimant
est juste comme le premier et ramène les trois faisceaux ensembles, si bien que le trou de sortie est
le long de l'axe. Finalement, nous voudrions imaginer qu'il y a en face du trou A quelque
mécanisme qui peut mettre les atomes en mouvement et que, après le trou de sortie B, il y a
quelque mécanisme de freinage qui ramène les atomes au repos en B. Cela n'est pas essentiel, mais
cela voudra dire que dans notre analyse nous n'aurons pas à nous inquiéter des effets du mouvement
des atomes et que nous pourrons nous concentrer sur ce qui n'a de rapport qu'avec le spin. Tout
l'intérêt de la version "améliorée" est justement que l'appareil ramène toutes les particules à la
même place et avec une vitesse nulle.

Maintenant, si nous voulons faire une expérience comme la précédente, nous pouvons d'abord faire
un faisceau filtré en mettant au milieu de l'appareil une plaque qui stoppe deux des faisceaux, ainsi
qu'on le voit ci-dessus. Si nous envoyons maintenant les atomes polarisés dans un second appareil
du même type, tous les atomes prendront le chemin supérieur, comme on peut le vérifier en mettant
des plaques similaires dans le chemin des différents faisceaux du deuxième filtre S et en regardant
si les particules passent au travers.
Supposons que nous appelions le premier appareil S (nous allons considérer toutes sortes de
combinaisons et nous aurons besoin de symboles pour que les choses restent claires). Nous dirons
que les atomes qui prennent le chemin supérieur de S sont dans "l'état plus par rapport à S", ceux
qui prennent le chemin du milieu sont dans "l'état zéro par rapport à S" et ceux qui prennent le
chemin inférieur sont dans "l'état moins par rapport à S" (dans un langage plus courant, nous
dirions que la composante du moment cinétique est + 1h , 0 et − 1h , mais nous n'utilisons pas ce
langage pour le moment). Maintenant, dans la figure précédente, le deuxième appareil est orienté
exactement comme le premier, si bien que tous les atomes filtrés passent par le chemin supérieur.
Par contre, si nous avions bloqué tous les faisceaux supérieurs et inférieurs du premier appareil et
laissé seulement l'état zéro passer à travers, tous les atomes filtrés emprunteraient le chemin du
milieu dans le deuxième appareil. Et si nous avions arrêté tous les faisceaux sauf le faisceau
inférieur du premier appareil, nous obtiendrions seulement un faisceau inférieur dans le second
appareil. Nous pouvons dire que dans chaque cas notre premier appareil a produit un faisceau filtré
dans un état pur par rapport à S (+, 0 ou -) et nous pouvons vérifier quel état est présent en
envoyant les atomes à travers un deuxième appareil identique.

Nous pouvons construire notre deuxième appareil de façon à ce qu'il transmette seulement les
atomes d'un état particulier, en plaçant des masques à l'intérieur comme nous l'avons fait pour le
premier, et nous pouvons ensuite vérifier l'état du faisceau incident simplement en regardant si
quelque chose sort de l'extrémité de l'appareil. Par exemple, si nous arrêtons les deux faisceaux
inférieurs du second appareil, 100% des atomes passeront encore au travers, mais si nous arrêtons
le faisceau supérieur, rien ne passera plus.

Pour rendre ce genre de discussion plus facile, nous allons inventer une notation abrégée pour
représenter nos appareils de Stern-Gerlach améliorés. Nous définirons le symbole
+ 
 
(1)  
0
− 
 
S
pour un appareil complet (ceci n'est pas un symbole que vous trouverez employé dans la littérature,
nous l'avons inventé tout exprès pour cette explication. C'est simplement une image abrégée de
l'appareil). Comme nous allons vouloir utiliser plusieurs appareils en même temps, et avec diverses
orientations, nous identifierons chacun d'eux par une lettre placée sous le symbole. Ainsi, le
symbole (1) indique l'appareil S. Si nous arrêtons un ou plusieurs faisceaux à l'intérieur de
l'appareil, nous l'indiquerons par une barre verticale montrant quels sont les faisceaux arrêtés,
comme ceci :
+ 
0 
(2)  
− 
S

Les différentes combinaisons que nous utiliserons sont indiquées ci-dessous.


Si nous avons deux filtres l'un après l'autre, comme dans l'expérience précédente, nous placerons
les deux symboles l'un près de l'autre comme ceci :
 +  + 
0   
(3)    
0
−  − 
 
S S
Avec cette disposition, tout ce qui passe à travers le premier appareil passe à travers le deuxième.
En fait, même si nous arrêtons les canaux "zéro" et "moins" du deuxième appareil, c'est-à-dire si
nous avons
+  + 
0  0 
(4)    
−  − 
S S
nous obtenons encore 100% de transmission par le deuxième appareil. Par ailleurs, si nous avons
 +  + 
0   
(5)    0 
−   − 
 
S S
rien ne sortira. De même,
+   + 
  0 
(6)  0   
 −  − 
 
S S
ne donnera rien à la sortie. Par ailleurs,
+  + 
  
(7)  0   0 
− −
  
S S
serait exactement équivalent à
+ 
 
(8)  0 
−
 
S

Nous voulons maintenant décrire ces expériences de façon quantique. Nous dirons qu'un atome est
dans un état (+S) s'il est passé à travers l'appareil de type (b), nous dirons qu'il est dans un état (0S)
s'il est passé à travers (c) et qu'il est dans un état (-S) s'il est passé à travers (d). Soit alors b a
l'amplitude pour qu'un atome dans un état a passe dans l'état b en traversant l'appareil. Nous
pouvons dire que b a est l'amplitude pour qu'un atome dans l'état a passe dans l'état b.
L'expérience précédente nous donne
(9) + S + S = 1
comme il se doit, alors que (5) nous donne
(10) − S + S = 0
comme attendu.

De même, le résultat de (6) est


(11) + S − S = 0
et celui de (7) est
(12) − S − S = 1

Tant que nous n'avons affaire qu'à des états "purs", c'est-à-dire tant que nous n'avons qu'un seul
canal ouvert, il y a neuf de ces amplitudes et nous pouvons les écrire sous la forme d'une matrice
qui résume les phénomènes que nous avons décrits.
de
+ S 0S − S
(13) +S 1 0 0 
à
0S 0 1 0 
 
−S 0 0 0 

III.1.2. Expériences avec des atomes filtrés


C'est maintenant que se pose la grande question : que se passe-t-il si le deuxième appareil est
basculé à un angle différent de façon que l'axe de son champ ne soit plus parallèle au premier ? Il
pourrait être non seulement basculé, mais aussi pointé dans une direction différente, il pourrait, par
exemple, prendre le faisceau à 90° de la direction originale. Pour nous rendre les choses plus aisées,
pensons d'abord à un arrangement dans lequel le deuxième appareil de Stern-Gerlach est tourné
d'un angle α autour de l'axe y, comme montré ci-dessus.

Supposons que nous préparions l'expérience suivante :


+  + 
0  0 
(1)    
−  − 
S T
ou bien l'expérience
 +  + 
0   
(2)    
0
−  − 
 
S T
Que sort-il de l'extrémité du montage dans ces deux cas ?

La réponse est la suivante : si les atomes sont dans un état défini par rapport à S, ils ne sont pas
dans le même état par rapport à T, un état (+S) n'est pas aussi un état (+T). Il y a cependant une
certaine amplitude pour trouver l'atome dans un état (+T) ou dans un état (0T) ou dans un état (-T).

En d'autres termes, quel que soit le soin que nous avons pris pour nous assurer que les atomes
étaient dans un état défini, le fait est que, si les atomes passent à travers un appareil orienté à un
angle différent, ils ont, pour ainsi dire, à se réorienter, ce qu'ils font, ne l'oubliez pas, au hasard.
Nous ne pouvons envoyer qu'une particule à la fois et nous ne pouvons donc que poser la question :
quelle est la probabilité pour qu'elle traverse l'appareil ? Quelques-uns des atomes qui sont passés à
travers S finiront dans un état (+T), quelques-uns dans un état (0T) et quelques autres dans un état
(-T), chacun avec différentes chances. Ce que nous voulons c'est une méthode mathématique ou
une description quantique pour ces amplitudes. Ce qu'il nous faut connaître ce sont des quantités
comme
(3) − T + S
ce par quoi nous entendons : l'amplitude pour qu'un atome initialement dans un état (+S) aille dans
un état (-T) (ce qui n'est pas zéro sauf si T et S sont parallèles). Il y a d'autres amplitudes telles que
(4) + T 0S ou 0T − S , etc.

Il y a en fait neuf de ces amplitudes, formant une autre matrice, qu'une théorie des particules devrait
nous permettre de calculer. Exactement comme F = ma nous dit comment calculer ce qui arrive à
une particule classique dans n'importe quelles circonstances, de même les lois de la mécanique
quantique nous permettent de calculer l'amplitude pour qu'une particule passe à travers un appareil
particulier. Le problème central est alors d'être capable de calculer, pour tout angle de rotation α ,
ou en fait pour n'importe quelle orientation, les neufs amplitudes
+T + S + T 0S +T − S
(5) 0T + S 0T 0S 0T − S
−T + S − T 0S −T − S

Nous pouvons déjà calculer quelques relations parmi ces amplitudes. Tout d'abord, suivant nos
définitions, le carré
2
(6) + T + S
est la probabilité pour qu'un atome dans l'état (+S) aille dans un état (+T). Il sera souvent plus
commode d'écrire de tels carrés sous la forme équivalente

(7) + T + S + T + S

Avec les mêmes notations, le nombre



(8) 0T + S 0T + S
est la probabilité pour qu'un atome de l'état (+S) aille dans l'état (0T) et

(9) − T + S − T + S
est la probabilité pour qu'elle aille dans l'état (-T). Mais les appareils sont faits de telle façon que
tout atome qui entre dans l'appareil doit être trouvé dans l'un des trois états de l'appareil T, il n'y a
pas d'autres places où aller, quel que soit l'atome considéré. Par conséquent, la somme des trois
probabilités que nous venons juste d'écrire doit être égale à 100%. Nous avons la relation
∗ ∗ ∗
(10) + T + S + T + S + 0T + S 0T + S + −T + S −T + S =1

Il y a, bien sûr, deux autres équations similaires que nous obtenons si nous partons avec un état (0S)
ou un état (-S). Mais c'est là tout ce que nous pouvons obtenir facilement si bien que nous devons
maintenant passer à quelques autres questions générales.
III.1.3. Filtres de Stern-Gerlach en série
Voici une intéressante question : supposons que nous ayons des atomes filtrés dans l'état (+S), nous
pouvons alors les envoyer à travers un deuxième filtre, dans un état (0T) par exemple, et ensuite à
travers encore un autre filtre (+S) (nous appellerons le dernier filtre S' simplement pour pouvoir le
distinguer du premier filtre S). Les atomes se rappellent-ils qu'ils ont été dans un état (+S) ? En
d'autres termes, prenons l'expérience suivante :
 +  +   + 
0    0 
(1)      
0
−  −  − 
 
S T S′

Nous voulons savoir si tous ceux qui sont passé à travers T passent aussi à travers S'. Ils ne passent
pas. Dès qu'ils ont été filtrés par T, ils ne se rappellent plus du tout qu'ils étaient dans un état (+S)
lorsqu'ils entrèrent dans T. Notez que le deuxième appareil S dans (1) est orienté exactement de la
même façon que le premier, si bien que c'est encore un filtre du type S. Les états filtrés par S' sont,
bien entendu, encore (+S), (0S) et (-S).

Le point important est celui-ci : si le filtre T laisse passer seulement un faisceau, la fraction qui
passe à travers le deuxième filtre S ne dépend que du montage du filtre T et est complètement
indépendante de ce qui précède celui-ci. Le fait que les mêmes atomes aient tout d'abord été triés
par un filtre S n'a aucune influence sur ce qu'ils peuvent faire une fois qu'ils ont été triés en un
faisceau pur par l'appareil T. Par conséquent, la probabilité pour obtenir différents états est la même
quoi qu'il se soit passé avant que les atomes entrent dans l'appareil T.

A titre d'exemple, comparons l'expérience (1) avec l'expérience suivante :


+  +   + 
    0 
(2)      
0 0
−  −  − 
  
S T S′
dans laquelle seul le premier S est changé. Disons que l'angle α (entre S et T) est tel que, dans
l'expérience (1), un tiers des atomes qui passent à travers T passent aussi à travers S'. Dans
l'expérience (2), quoi qu'il y ait en général un nombre différent d'atomes passant à travers T, la
même fraction de ceux-ci, un tiers, passe aussi à travers S'.

Nous pouvons montrer, en fait, en partant de ce que vous avez appris auparavant, que la fraction
d'atomes qui sort de T et qui passe à travers un S' particulier dépend seulement de T et de S' et de
rien de ce qui s'est passé auparavant. Comparons l'expérience (2) avec
+  +  + 
   
(3)      
0 0 0
−  −  − 
   
S T S′

L'amplitude pour qu'un atome qui est sorti de S passe aussi, à la fois à travers T et à travers S' est,
pour les expériences de (2),
(4) + S 0T 0T 0S

La probabilité correspondante est


2 2 2
(5) + S 0T 0T 0 S = + S 0T 0T 0 S

La probabilité pour l'expérience (3) est


2 2 2
(6) 0 S 0T 0T 0 S = 0 S 0T 0T 0 S

Le rapport des deux est


2
0 S 0T
(7) 2
+ S 0T
et ne dépend que de T et de S' et non pas du faisceau (+S), (0S) ou (-S) sélectionné par S (les deux
nombres peuvent croître ou décroître ensemble, selon ce qui se passe à travers T). Bien entendu,
nous trouverions le même résultat si nous comparions les probabilités pour que les atomes aillent
dans les états plus ou moins par rapport à S' ou encore les probabilités par aller dans les états zéro
ou moins.

En fait, comme ces rapports ne dépendent que du faisceau que laisse passer T et pas de la sélection
faite par le filtre S, il est clair que nous obtiendrions un résultat semblable même si le dernier
appareil n'était pas un filtre S. Si nous utilisons comme troisième appareil, nous l'appellerons
maintenant R, un appareil tourné d'un angle arbitraire par rapport à T, nous trouverons qu'un
2 2
rapport tel que 0 R 0T / + R 0T est indépendant du faisceau qui est passé par le premier filtre
S.

III.1.4. Etats de base


Ces résultats illustrent un des principes de base de la mécanique quantique que nous avons vus :
tout système atomique peut être séparé par une méthode de filtrage en un certain ensemble appelé
états de base et le comportement futur des atomes de tout état de base donné ne dépend que de la
nature de l'état de base, il est indépendant de toute l'histoire des atomes. Les états de base
dépendent bien entendu du filtre utilisé, tout comme les différentes représentations de la fonction
d'onde dépendent de la grandeur qui est mesurée (impulsion, énergie,…). Par exemple, les trois
états (+T), (0T) et (-T) forment un ensemble d'états de base. Les trois états (+S), (0S) et (-S) en
forment un autre. Il y a un grand nombre de possibilités, toutes aussi bonnes les unes que les autres.

Il nous faut faire attention et dire que nous considérons de bons filtres qui produisent naturellement
des faisceaux "purs". Si par exemple, notre appareil de Stern-Gerlach ne produisait pas une bonne
séparation des trois faisceaux et que nous ne puissions pas les séparer proprement en utilisant nos
masques, nous ne pourrions pas alors faire une séparation complète en états de base. Nous pouvons
dire si nous avons des états de base en regardant si les faisceaux peuvent être de nouveau séparés
par un autre filtre du même genre. Si nous avons un état (+T) pur, par exemple, tous les atomes
passeront à travers
+ 
0 
(1)  
− 
T
et aucun ne passera à travers
+ 
 
(2)  
0
− 
 
T
ou à travers
+ 
 
(3)  0 
−
 
T

Ce que nous avons dit sur les états de base signifie qu'il est possible de filtrer un état pur de façon
qu'aucun filtrage ultérieur par un appareil identique ne soit possible.

Nous devons aussi insister sur le fait que ce que nous disons n'est exact que dans des situations très
idéalisées. Dans tout appareil de Stern-Gerlach réel, il nous faudrait nous inquiéter de la diffraction
par les fentes qui pourraient envoyer quelques atomes dans des états différents ou encore de la
possibilité que les faisceaux contiennent des atomes avec différents états d'excitation internes, etc.
Nous avons idéalisé la situation de telle façon que nous ne puissions parler que des états qui sont
séparés par le champ magnétique. Nous ignorons tout ce qui a affaire avec la position, la quantité
de mouvement, les excitations internes, etc. En général on devrait considérer aussi des états de base
triés par rapport à toutes ces choses. Mais pour garder des concepts simples, nous ne considérons
que notre ensemble de trois états, ce qui est suffisant pour un traitement exact de la situation
idéalisée où les atomes ne sont pas brisés ou de façon générale maltraités et où ils reviennent à
l'arrêt en sortant de l'appareil.
Vous remarquerez que nous commençons toujours nos expériences de pensée en prenant un filtre
avec un seul canal ouvert de façon à commencer avec un état de base défini. Nous faisons cela
parce que les atomes sortent de la source dans différents états distribués au hasard selon ce qui se
passe à l'intérieur de la source (par exemple, un four ou des atomes sont vaporisés puis conduits
vers l'appareil). Elle donne un faisceau "non polarisé". Ce hasard implique des probabilités d'un
genre "classique", comme dans le jeu de pile ou face, qui sont différentes des probabilités
quantiques dont nous nous occupons maintenant. Traiter un faisceau non polarisé nous entraînerait
dans des complications supplémentaires qu'il vaut mieux éviter jusqu'à ce que nous comprenions le
comportement des faisceaux polarisés. N'essayez donc pas à ce point de considérer ce qui se passe
si le premier appareil laisse passer plus d'un faisceau (nous vous dirons comment vous pouvez
traiter de tels cas plus loin).

Revenons maintenant en arrière et voyons ce qui se passe lorsque nous passons de l'état de base
d'un filtre à l'état de base d'un autre. Supposons que nous partions à nouveau avec
 +  + 
0   
(4)    
0
−  − 
 
S T

Les atomes qui sortent de T sont dans l'état de base (0T) et ne se souviennent pas qu'ils furent
auparavant dans l'état (+S). Certains diraient que dans le filtrage par T nous avons "perdu
l'information" sur l'état précédent (+S) parce que nous avons "perturbé" les atomes lorsque nous les
avons séparés en trois faisceaux dans l'appareil T. Mais cela n'est pas vrai. L'information antérieure
n'est pas perdue par la séparation en trois faisceaux mais par les masques d'arrêts que nous avons
mis dans l'appareil, comme nous pouvons le voir dans l'ensemble d'expériences suivant.

Nous partons avec un filtre +S et nous appellerons N le nombre d'atomes qui passent au travers. Si
nous plaçons ensuite un filtre 0T, le nombre d'atomes qui sort est une fraction du nombre original,
disons αN . Si nous plaçons un autre filtre +S, seule une fraction des atomes atteindra l'extrémité de
l'appareil. Nous pouvons indiquer cela de la façon suivante :
 +  +   + 
 0  N   αN  0  βαN
(5)   →   →   →
0
−  −  − 
 
S T S′

Si notre troisième appareil S' sélectionnait un état différent, disons l'état (0S), une fraction
différente, disons γ , passerait à travers. Nous aurions
 +  +  + 
0  N   αN   γαN
(6)   →   →   →
0 0
−  −  − 
   
S T S′

2 2 2
Avec notre notation précédente α = 0T + S , β = + S 0T et γ = 0 S 0T .

Supposons maintenant que nous répétions ces deux expériences, mais en ôtant tous les masques de
T. Nous trouverions alors les résultats remarquables suivants :
 +  +   + 
0  N   N 0  N
(7)   →   →   →
0
−  −  − 
 
S T S′

 +  +  + 
0  N   N   0
(8)   →   →   →
0 0
−  −  − 
   
S T S′

Tous les atomes passent à travers S' dans le premier cas, mais aucun dans le deuxième cas ! C'est là
une des grandes lois de la mécanique quantique. Que la nature travaille de cette façon n'est pas
évident en soi, mais les résultats que nous avons donnés correspondent, pour notre situation
idéalisée, au comportement quantique observé dans d'innombrables expériences.

III.1.5. Amplitudes en interférences


Reprenons la dernière expérience. Comment peut-il se faire qu'en ouvrant de nouveaux canaux
nous obtenions moins d'atomes ? C'est là le vieux mystère, le grand mystère de la mécanique
quantique, l'interférence des amplitudes. C'est le même genre de phénomène que nous avons vu
pour la première fois avec l'expérience d'interférence d'électrons à travers deux fentes. Nous avons
vu que nous pouvions obtenir moins d'électrons en certains points avec les deux fentes ouvertes que
nous n'en obtenions avec une seule fente ouverte. Quantitativement les choses se passent de la
façon suivante. Nous pouvons écrire l'amplitude pour qu'un atome passe par T et S' dans l'appareil
comme la somme des trois amplitudes, une pour chacun des trois faisceaux de T. Leur somme est
égale à zéro :
(1) 0 S + T + T + S + 0S 0T 0T + S + 0S − T − T + S = 0

Aucune de ces trois amplitudes n'est zéro, par exemple, le carré du module de la deuxième
amplitude est γα , mais la somme est zéro. Nous aurions encore la même réponse si S' était arrangé
de façon à sélectionner l'état (-S). Cependant, avec l'expérience qui précédait, la réponse est
différente. Si nous appelons a l'amplitude pour passer à travers T et S', nous obtenons pour ce cas
(2) a = + S + T + T + S + + S 0T 0T + S + + S − T − T + S = 1

2
Nous ne pouvons pas vraiment conclure de l'expérience que a = 1, mais seulement que a = 1 , si
bien que a pourrait être e iδ , mais on peut montrer que le choix δ = 0 ne représente aucune perte
réelle de généralité.

Dans cette expérience, le faisceau a été divisé et recombiné. Humpty-Dumpty s'est enfin retrouvé.
L'information sur l'état (+S) original est conservée. Tout se passe comme si l'appareil T n'était pas
là du tout. Ceci reste vrai quel que soit ce que nous plaçons derrière l'appareil T qui est "grand
ouvert". Nous pourrions le faire suivre d'un filtre R, un filtre disposé à n'importe quel angle bizarre,
ou de tout ce que nous voulons. La réponse sera toujours la même que si les atomes étaient
directement pris à la sortie du premier filtre S.

C'est donc ceci le principe important : un filtre T, ou n'importe quel filtre, ayant ses masques grands
ouverts ne produit aucun changement du tout. Nous pourrions ajouter une condition
supplémentaire. Le filtre grand ouvert doit non seulement transmettre les trois faisceaux mais il doit
aussi n'introduire aucune perturbation qui ne soit identique pour les trois faisceaux. Par exemple, il
ne doit pas avoir un fort champ électrique pour un faisceau et pas pour les autres. La raison en est
que, même si une perturbation supplémentaire laissait passer tous les atomes à travers le filtre, elle
pourrait changer la phase de l'une des amplitudes. L'interférence serait alors modifiée et les
amplitudes des équations (1) et (2) seraient différentes. Nous ferons toujours l'hypothèse qu'il n'y a
pas de telles perturbations supplémentaires.

Ecrivons à nouveau les équations (1) et (2) avec une notation plus compacte. Nous indiquerons par
i l'un des trois états (+T), (0T) ou (-T). Les équations peuvent alors être écrites :
(3) ∑ 0 S i i + S = 0
i
et
(4) ∑
i
+ S i i + S =1

De même, pour une expérience où S' est remplacé par un filtre complètement arbitraire R, nous
avons
 +  +   + 
0    0 
(5)      
0
−  −  − 
 
S T R

Les résultats seraient toujours les mêmes si l'appareil T était supprimé et si nous avions seulement
+  + 
0  0 
(6)    
−  − 
S R

Ou bien en termes mathématiques,


(7) ∑ + R i i + S = + R + S
i

Ceci est notre loi fondamentale et elle est vraie de façon générale, tant que i indique les trois états
de base d'un filtre quelconque.

Vous remarquerez que dans l'expérience (5), il n'y a aucune relation spéciale entre T, S ou R. De
plus, les arguments seraient les mêmes quels que soient les états sélectionnés. Pour écrire l'équation
de façon générale, sans avoir à nous rapporter aux états spécifiques sélectionnés par S et R,
appelons φ ("phi") l'état préparé par le premier filtre (dans notre exemple, +S) et χ ("khi") l'état
vérifié par le filtre final (dans notre exemple, +R). Nous pouvons alors énoncer la loi fondamentale
de (7) sous la forme
(8) χ φ = ∑ χ i i φ
i
où i décrit successivement les trois états de base d'un filtre particulier.

Nous voulons insister à nouveau sur ce que nous entendons par états de base. Ce sont des états
comme les trois états qui peuvent être sélectionnés par l'un de nos appareils de Stern-Gerlach. Une
des conditions est que, si nous avons un état de base, alors le futur est indépendant du passé. Une
autre manière de le dire est que toute la physique décrivant l'état est inscrite dans cet état de base, il
ne possède pas de "mémoire". Une autre condition est que, si nous avons un ensemble complet
d'états de base, l'équation (8) est vraie pour tout ensemble d'états initial et final φ et χ . Il n'y a pas,
cependant, d'ensemble unique d'états de base. Nous avons commencé en considérant des états de
base par rapport à un appareil particulier T. Nous pourrions aussi bien considérer un ensemble
différent d'états de base par rapport à l'appareil S ou par rapport à R, etc.
En fait, pour des systèmes avec trois ou plus de trois états de base, il existe d'autres genres de
filtres, complètement différents de l'appareil de Stern-Gerlach, et qui peuvent être utilisés pour
obtenir un plus grand choix pour l'ensemble d'états de base (chaque ensemble ayant le même
nombre d'états).

Nous avons souvent parlé d'états de base dans une certaine "représentation".

Quelque que soit la représentation choisie, on peut également imposer à un ensemble d'états de base
d'être tous différents. Nous voulons dire par là que si nous avons un état (+T), il n'y a aucune
amplitude qui lui permettre de passer dans un état (0T) ou (-T). Si nous indiquons par i et j deux
états de base d'un ensemble particulier, les règles générales que nous avons vues sont
(9) j i = 0
pour tout i et j qui ne sont pas égaux. Bien sûr, nous savons que
(10) i i = 1

Ces deux équations sont écrites d'habitude comme


(11) j i = δ ji

L'équation (11) n'est pas indépendante des autres lois que nous avons indiquées. Il se trouve que
nous ne nous intéressons pas particulièrement au problème mathématique de la recherche de
l'ensemble minimum d'axiomes indépendants qui donne toutes les lois comme conséquences. Une
vérité redondante ne nous gêne pas. Nous sommes satisfaits si nous avons un ensemble qui est
complet et qui n'est pas apparemment incohérent. Nous pouvons cependant montrer que les
équations (11) et (8) ne sont pas indépendantes. Supposons que φ dans (8) représente l'un des états
de base du même ensemble que i, disons le jème état, nous avons alors
(12) χ j = ∑ χ i i j
i
Mais l'équation (11) dit que i j vaut zéro sauf si i = j et la somme devient alors juste χ j , si
bien que nous obtenons une identité, ce qui montre que les deux lois ne sont pas indépendantes.

Nous pouvons voir qu'il doit y avoir une autre relation entre les amplitudes. L'équation sur la
somme des probabilités est
∗ ∗ ∗
(13) + T + S + T + S + 0T + S 0T + S + −T + S −T + S =1

Si nous écrivons l'équation (8) avec l'état (+S) pour φ et pour φ , le coté gauche devient + S + S
ce qui vaut clairement 2. Si bien que nous obtenons une fois de plus l'équation (2),
(14) + S + T + T + S + + S 0T 0T + S + + S − T − T + S = 1

Ces deux équations ne sont compatibles (pour toutes les orientations relatives des appareils T et S)
que si

+ S +T = +T + S

(15) + S 0T = 0T + S

+ S −T = −T + S

Et de là, il s'ensuit que pour toute paire d'états φ et χ , nous retrouvons la relation

(16) φ χ = χ φ

Si ceci n'était pas vrai, la probabilité ne serait pas "conservée" et des particules seraient "perdues".
Un résultat que nous avons déjà illustré dans le tome II.

Avant de continuer, résumons les trois lois importantes qui concernent les amplitudes et que nous
avions déjà obtenues par une autre voie, ce sont les équations (8), (11) et (16) :
I. j i = δ ji
(5.27) II. χ φ = ∑ χ i i φ
i

III. φ χ = χ φ

Dans ces équations, les indices i et j indiquent tous les états de base d'une certaine représentation,
tandis que φ et χ représentent tout état possible de l'atome. Il est important de remarquer que II
n'est valable que si la somme est faite sur tous les états de base du système (dans notre cas, trois :
+T, 0T, -T). Ces lois ne disent rien sur la façon de choisir une base pour notre ensemble d'états de
base. Nous avons commencé en utilisant un appareil T, c'est-à-dire une expérience de Stern-
Gerlach avec une orientation arbitraire, mais toute autre orientation disons W aurait été tout aussi
bonne. Nous aurions alors un ensemble d'états différents décrits par i et j mais toutes les lois
seraient encore correctes, il n'y a pas d'ensemble unique. Un des grands jeux de la mécanique
quantique est de se servir du fait que les choses peuvent être calculées de plus d'une façon.

III.1.6. La machinerie de la mécanique quantique


Nous allons vous montrer pourquoi ces lois sont utiles. Supposez que nous ayons un atome dans
une condition donnée (nous entendons par là qu'il a été préparé d'une certaine façon) et nous
voulons savoir ce qui va lui arriver au cours d'une certaine expérience. En d'autres termes, nous
partons avec un atome dans l'état φ et nous voulons savoir quelles sont les chances pour qu'il passe
à travers quelque appareil qui n'accepte les atomes que dans la condition χ . Les lois précédentes
disent que nous pouvons décrire l'appareil complètement en fonction de trois nombres complexes
χ i , les amplitudes que chaque état de base a d'être dans la condition χ . Elles disent aussi que
nous pouvons prédire ce qui arrivera si un atome est placé dans l'appareil et si nous décrivons l'état
de l'atome en donnant les trois nombres i φ qui sont les amplitudes pour que l'atome dans son
état originel puisse être trouvé dans chacun des états de base. C'est là une idée importante.

Considérez un autre exemple. Réfléchissez au problème suivant : nous partons avec un appareil S,
nous avons ensuite tout un fatras d'engins que nous pouvons appeler A, et ensuite un appareil R,
comme ceci :
 +    + 
0     
(1)      
A 0
−    − 
  
S R
Par A, nous entendons n'importe quel arrangement compliqué d'appareils de Stern-Gerlach avec des
masques ou des demi-masques, orientés selon des angles bizarres, avec des champs électriques et
magnétiques étranges… à peu près tout ce que nous pouvons imaginer de mettre (c'est bien
agréable de faire des expériences de pensée, vous n'avez pas à passer par tous les soucis de la
construction de l'appareil !) Le problème est alors : avec quelle amplitude une particule qui est
entrée dans la section A dans l'état (+S) sort-elle dans l'état (0R) et passe donc à travers le dernier
filtre R ? Il y a une notation usuelle pour une telle amplitude que nous avons déjà vue et qui est
(2) 0 R A + S

Comme d'habitude, il faut la lire de la droite vers la gauche (comme l'hébreu) :


(3) <arrivée | intermédiaire | départ>

Si par hasard A ne fait rien, si c'est seulement un canal ouvert, nous pouvons alors écrire
(4) 0 R 1 + S = 0 R + S
les deux symboles sont équivalents. Pour un problème plus général nous pourrions remplacer (+S)
par un état de départ φ et (0R) par un état d'arrivée χ et nous voudrions connaître l'amplitude
(5) χ A φ

Une analyse complète de l'appareil A devrait donner l'amplitude χ A φ pour toute paire possible
d'états φ et χ , donc un nombre infini de combinaisons ! Comment pouvons nous alors donner une
description concise du comportement de l'appareil A ? Nous pouvons faire cela de la façon
suivante. Imaginez que l'appareil de (1) soit modifié ainsi
+ 
 +      +  + 
0   0       
(6)   −       
A 0 0
−      −  − 
   
S T T R

Ceci n'est pas vraiment une modification puisque les appareils T sont grands ouverts et ne font rien
du tout. Mais cela suggère comment nous pouvons analyser le problème. Il y a un certain ensemble
d'amplitudes i + S pour que les atomes aillent de S dans l'état i de T. Il y a alors un autre
ensemble d'amplitudes pour qu'un état i (par rapport à T) entrant dans A sorte dans un état j (par
rapport à T). Et finalement il y a une amplitude pour que chaque état j passe à travers le filtre
comme un état (0R). Pour chaque chemin possible il y a une amplitude de la forme
(7) 0 R j j A i i + S
et l'amplitude totale est la somme des termes que nous pouvons obtenir avec toutes les
combinaisons possibles de i et de j. L'amplitude que nous voulons est
(8) ∑ 0 R j j A i i + S
i, j

Si (0R) et (+S) étaient remplacés par des états quelconques χ et φ , nous aurions le même genre
d'expressions. Si bien que nous avons le résultat général
(9) χ A φ = ∑ χ j j A i i φ
i, j

Remarquez maintenant que le coté droit de (9) est réellement "plus simple" que le coté gauche.
L'appareil A est complètement décrit par neuf nombres j A i qui décrivent la réponse de A par
rapport aux trois états de base de l'appareil T. Une fois que nous connaissons ces neufs nombres,
nous pouvons manipuler n'importe quelle paire d'états incidents et sortants φ et χ si nous
définissons chacun d'eux en fonction des trois amplitudes pour aller dans chacun des trois états de
base ou pour en sortir. L'équation (9) prédit le résultat de toute expérience.
Voici donc la machinerie de la mécanique quantique pour une particule de spin un. Chaque état est
décrit par trois nombres qui sont ses amplitudes pour être dans chacun des états d'un ensemble
d'états de base donné. Chaque appareil est décrit par neuf nombres qui sont les amplitudes pour
aller d'un état de base à un autre en traversant l'appareil. Tout peut être calculé à partir de ces
nombres.

Les neufs amplitudes qui décrivent l'appareil sont souvent écrites sous forme d'une matrice carrée,
appelée matrice j A i :
de
+ 0 −
(10) + + A+ + A0 + A−
à
0 0A + 0 A0 0A−
− − A+ − A0 − A−

Les mathématiques de la mécanique quantique sont simplement une extension de cette idée. Nous
allons vous en donner une simple illustration. Supposons que nous ayons un appareil C que nous
voulons analyser. C'est-à-dire dont nous voulons calculer les différents j C i . Par exemple nous
pourrions vouloir savoir ce qui se passe dans une expérience comme
 +    + 
0     
(11)      
C 0
−    − 
  
S R

Mais nous remarquons alors que C n'est fait que de deux appareils A et B en série. Les particules
passent à travers A puis à travers B, si bien que nous pouvons écrire symboliquement
     
     
(12) C  =  A ⋅  B 
     
     

Nous pouvons appeler l'appareil C le "produit" de A et de B. Supposons aussi que nous sachions
déjà comment analyser les deux parties, si bien que nous pouvons obtenir les matrices (par rapport
à T) de A et de B. Notre problème est alors résolu. Nous pouvons facilement trouver
(13) χ C φ
pour tout état d'entrée et de sortie. Nous écrivons tout d'abord que
(14) χ C φ = ∑ χ B k k A φ
k

Voyez-vous pourquoi ? (imaginez que l'on met un appareil T entre A et B). Si nous considérons
alors le cas particulier dans lequel φ et χ sont aussi des états de base (de T), disons i et j, nous
avons
(15) j C i = ∑ j B k k A i
k

Cette équation donne la matrice pour l'appareil "produit" C en fonction des deux matrices des
appareils A et B. Nous sommes donc ainsi revenu à la formulation matricielle de la mécanique
quantique et nous voyons qu'elle s'applique pleinement à ce phénomène nouveau qu'est le spin des
particules.

III.1.7. Transformation dans une base différente


Nous voulons faire un dernier commentaire sur les états de base utilisés dans le calcul. Supposons
que nous ayons choisi une certaine base pour travailler, disons la base S, et que quelqu'un d'autre
décide de faire le même calcul avec une base différente, disons une base T. Pour que les choses
soient claires, appelons nos états de base les états (iS), où i = +, 0 et -. De même, nous pouvons
appeler les états de base de l'autre personne (jT). Comment pouvons nous comparer notre calcul
avec le sien ? Les réponses finales quant au résultat d'une mesure doivent en fin de compte être les
mêmes, quoique les diverses amplitudes et matrices employées dans le calcul soient différentes.
Comment sont-elles reliées ? Par exemple, si lui et nous partons avec le même φ , nous l'écrirons en
fonction de trois amplitudes iS φ pour que φ aille dans nos états de base de la représentation S,
tandis qu'il décrira le même état par les amplitudes jT φ pour qu'il aille dans les états de base de
la représentation T. Comment pouvons-nous vérifier que nous sommes vraiment tous les deux en
train de décrire le même état φ ? Nous pouvons le faire avec la règle générale II. En remplaçant χ
par n'importe lequel de ses états jT, nous avons
(1) jT φ = ∑ jT iS iS φ
i

Pour relier les deux représentations, il nous suffit de donner les neufs nombres complexes de la
matrice jT iS . Cette matrice peut être utilisée pour convertir toutes ses équations dans notre
forme. Elle nous dit comment faire la transformation d'un état de base à un autre (c'est pour cette
raison que jT iS est quelque fois appelé la "matrice de transformation de la représentation S
dans la représentation T'. Grands mots ! Cette matrice est tout à fait ce que nous avons vu lorsque
nous avons étudié la théorie des transformations de la formulation matricielle).

Dans le cas des particules de spin un pour lesquelles nous avons seulement trois états de base (pour
des spins plus élevés il y en a un plus grand nombre) la situation mathématique est analogue à celle
de l'algèbre des vecteurs. Chaque vecteur peut être représenté en donnant trois nombres, les
composantes le long des axes x, y, z. C'est-à-dire que chaque vecteur peut être décomposé en trois
vecteurs "de base" qui sont les vecteurs le long des trois axes. Mais supposons que quelqu'un
d'autre décide d'utiliser un ensemble d'axes différents x', y' et z'. Il utilisera des nombres différents
pour représenter un vecteur particulier. Ses calculs sembleront différents, mais les résultats finaux
seront les mêmes. Inutile de rappeler ici les règles de changement de base des vecteurs.

Vous avez peut-être envie de voir comment fonctionnent ces transformations en mécanique
quantique, en essayant d'en faire quelques-unes. C'est pourquoi nous allons vous donner, sans
aucune preuve, les matrices de transformation pour convertir les amplitudes de spin un d'une
représentation S dans une autre représentation t, pour diverses orientations relatives des filtres S et
T. Nous verrons plus loin comment calculer exactement ces résultats.

Premier cas : l'appareil T a le même axe y (le long duquel les particules se déplacent) que l'appareil
S, mais il est tourné autour de l'axe commun y d'un angle α (comme dans les exemples que nous
avons vus). Pour être précis, nous pouvons définir un système de coordonnées x', y', z' par rapport à
l'appareil T qui est relié aux coordonnées de l'appareil S par : z ′ = z cos α + x sin α ,
x ′ = x cos α − z sin α , y' = y. Les amplitudes de transformation sont alors :
+ T + S = (1 + cos α )
1
2
1
0T + S = − sin α
2
− T + S = (1 − cos α )
1
2
1
+ T 0S = sin α
2
0T 0 S = cos α
1
− T 0S = − sin α
2
+T − S =
1
(1 − cosα )
2
1
0T − S = sin α
2

(2) − T − S = (1 + cos α )
1
2
Deuxième cas : l'appareil T a le même axe z que S mais il est tourné autour de l'axe z d'un angle β
(la transformation des coordonnées est z' = z, x ′ = x cos β + y sin β , y ′ = y cos β − x sin β ). Les
amplitudes de transformation sont alors :
+ T + S = e iβ
(3) 0T 0S = 1
− T − S = e − iβ
toutes les autres étant égales à zéro.

Remarques que n'importe quelle rotation de T peut être construite à partir des deux rotations que
nous venons de décrire.

Si un état φ est défini par les trois nombres


(4) C + = + S φ C 0 = 0 S φ C − = − S φ
et si le même état est décrit du point de vue de T par les trois nombres
(5) C +′ = + T φ C 0′ = 0T φ C −′ = − T φ
alors les coefficients jT iS de (2) ou (3) donnent la transformation qui relie C i et C i′ . En
d'autres termes, les C i sont tout à fait comme les composantes d'un vecteur qui apparaîtraient
comme différentes selon les points de vue de S ou de T.

Pour une particule de spin un, et seulement dans ce cas, parce qu'elle ne requiert que trois
amplitudes, la correspondance avec un vecteur est très claire. Dans chaque cas, il y a trois nombres
qui se transforment de façon bien définie dans tout changement de coordonnées. En fait, il y a un
ensemble d'états de base qui se transforment exactement comme les trois composantes d'un vecteur.
Les trois combinaisons
(6) C x = −
1
(C + − C − ) C y = − i (C + + C − ) C z = C 0
2 2
se transforment en C x′ , C ′y et C z′ exactement de la même façon que x, y, z se transforment en x', y',
z' (vous pouvez vérifier qu'il en est bien ainsi en employant les lois de transformation (2) et (3)).
Vous voyez maintenant pourquoi une particule de spin un est souvent appelée une "particule
vectorielle".

III.1.8. Autres situations


Nous avons commencé en remarquant que notre discussion des particules de spin un serait un
prototype de tout problème de mécanique quantique. La généralisation n'est qu'une question de
nombre d'états. Au lieu de trois états seulement, une situation quelconque peut impliquer n états de
base. Le nombre d'états de base n peut être et est le plus souvent infini. Nous lois fondamentales ont
exactement la même forme, les indices i et j décrivant alors successivement les n états de base.
Tout phénomène peut être analysé en donnant les amplitudes qu'il a de commencer et de se
terminer dans chacun des états de base et ensuite en sommant sur l'ensemble complet des états de
base. Tout ensemble d'états de base peut être utilisé et si quelqu'un souhaite en utiliser un différent,
c'est tout à fait possible. Les deux ensembles peuvent être reliés en utilisant une matrice de
transformation n par n.

Nous rejoignons ainsi le formalisme matriciel général que nous avons étudié.

Finalement, nous avons promis de dire ce qu'il faut faire si les atomes proviennent directement
d'une source, passent à travers quelque appareil disons A et sont ensuite analysés par un filtre que
sélectionne les états χ . Vous ne savez pas ce qu'est l'état des atomes lors de leur départ. Il vaut
peut-être mieux que vous ne vous souciez pas encore de ce problème maintenant et que vous vous
concentriez plutôt sur des problèmes dans lesquels on part avec des états purs. Mais si vous
insistez, voici comment on peut résoudre le problème.

Tout d'abord, il vous faut deviner de façon raisonnable comment les atomes sortant de la source
sont répartis dans les différents états. Par exemple, si la source n'a rien de "spécial", vous pouvez
raisonnablement penser que les atomes quitteront le four avec des orientations aléatoires. De façon
quantique, cela revient à dire que vous ne savez rien sur les états, sauf qu'un tiers des atomes sont
dans l'état (+S), un tiers dans l'état (0S) et un tiers dans l'état (-S). Pour ceux qui sont dans l'état
2
(+S) l'amplitude pour passer à travers l'appareil est χ A + S et la probabilité est χ A + S et de
même pour les autres. La probabilité totale est alors
1 2 1 2 1 2
(1) χ A+S + χ A 0S + χ A −S
3 3 3

Pourquoi avons-nous utilisé S plutôt que T par exemple ? Choses surprenant, la réponse est la
même quelle que soit la façon dont nous choisissons notre décomposition initiale, tant que nous
n'avons affaire qu'à des orientations complètement aléatoires. On trouve de la même façon que
∑ = ∑ χ jT
2 2
(2) χ iS
i j

pour tout χ (nous vous laissons le prouver).

Notez qu'il n'est pas correct de dire que l'état d'entrée à l'amplitude 1 / 3 d'être en (+S), 1 / 3
d'être en (0S) et 1 / 3 d'être en (-S). Cela impliquerait que certains interférences sont possibles. Le
fait est, simplement, que vous ne savez pas ce qu'est l'état initial. Vous devez raisonner en termes
de probabilité pour que le système parte dans les différents états initiaux possibles et ensuite vous
devez prendre une moyenne pondérée des différentes possibilités. Il ne s'agit pas ici d'une particule
dont l'état serait inconnu ou indéterminé mais d'un ensemble de particules, chacune dans un état
donné. Les statistiques classiques habituelles sur les probabilités doivent donc s'appliquer.

On peut également prendre en compte des situations plus compliquées où l'état initial n'est pas
strictement aléatoire. Dans ce cas, selon la représentation les états de chaque atome ne seront pas
répartis statistiquement de la même manière dans les états de base. On peut aussi considérer une
représentation particulière et avoir des atomes qui se trouvent soit dans des états de base précis soit
dans des états plus compliqués (combinaison d'états de base). On peut gérer ce mélange de
caractères statistiques et quantiques avec un formalisme appelé matrice densité (qui donne la
répartition statistique des atomes dans les différents états possibles) et que nous étudierons plus
tard.
III.2. Spin un demi

III.2.1. Transformation des amplitudes


Dans ce qui vient de précéder, en utilisant comme exemple un système de spin un, nous avons
retrouvé les principes généraux de la mécanique quantique et vu comment ils s'appliquent à ce cas.

Tout état ψ peut être décrit sur un ensemble d'états de base en donnant les amplitudes qu'il a pour
être dans chacun des états de base.

L'amplitude pour aller d'un état dans un autre peut être écrite en général comme une somme de
produits, chaque produit étant l'amplitude pour aller dans un des états de base que multiplie
l'amplitude pour aller de cet état de base à l'état final et la somme comprenant un terme pour
chaque état de base :
(1) χ ψ = ∑ χ i i ψ
i

Les états de base sont orthogonaux et l'amplitude pour être dans l'un si vous êtes dans l'autre est
zéro
(2) i j = δ ij

L'amplitude pour aller d'un état dans un autre directement est égale au complexe conjugué de
l'amplitude pour le processus inverse :

(3) χ ψ = ψ χ

Nous avons également un peu discuté le fait qu'il peut y avoir plus d'une base pour les états et le
fait que nous pouvons utiliser (1) pour passer d'une base à une autre. Supposons par exemple que
nous ayons les amplitudes iS ψ de trouver l'état ψ dans l'un quelconque des états de base i d'un
système de base S, mais que nous décidions alors que nous préférerions décrire cet état en fonction
d'un autre ensemble d'états de base, disons les états j appartenant à la base T. Dans la formule
générale (1), nous pourrions substituer jT à la place de χ et obtenir la formule suivante :
(4) jT ψ = ∑ jT iS iS ψ
i

Les amplitudes pour que l'état (ψ ) soit dans l'un des états de base (jT) sont reliées aux amplitudes
pour qu'il soit dans l'état de base (iS) par l'ensemble des coefficients jT iS . S'il y a N états de
base, il y a N 2 de ces coefficients. Un tel ensemble de coefficients est souvent appelé la matrice de
transformation pour aller de la représentation S à la représentation T. Cela semble plutôt
formidable mathématiquement, mais en rebaptisant cette expression nous pouvons voir qu'elle n'est
pas vraiment si terrible. Si nous appelons C i l'amplitude pour que l'état ψ soit dans l'état de base
iS, c'est-à-dire C i = iS ψ , et si nous appelons C ′j l'amplitude correspondante pour le système de
base T, c'est-à-dire C ′j = jT ψ , alors, on peut récrire (4) comme
(5) C ′j = ∑ R ji C i
i

où R ji signifie la même chose que jT iS . Chaque amplitude C ′j est égale à la somme pour tout i
de l'un des coefficients R ji que multiplie l'amplitude C i . Ceci est donc de la même forme que la
transformation d'un vecteur d'un système de coordonnées dans un autre.

Pour éviter d'être trop abstrait, nous avons donné quelques exemples de ces coefficients dans le cas
du spin un afin que vous puissiez voir comment les utiliser en pratique. Par ailleurs, c'est là une des
très belles propriétés de la mécanique quantique que, partant du fait brut qu'il y a trois états et des
propriétés de symétrie de l'espace par rapport aux rotations, on peut trouver ces coefficients par un
raisonnement purement abstrait.

Par la suite, nous allons vous montrer comment on peut trouver les coefficients de transformation
pour des particules de spin un demi. Nous prenons ce cas plutôt que celui du spin un parce qu'il est
un peu plus facile. Notre problème consiste donc à déterminer les coefficients R ji pour des
particules, ou des systèmes atomiques, qui sont divisés en deux faisceaux par un appareil de Stern
et Gerlach. Nous allons calculer tous les coefficients de la transformation d'une représentation à une
autre par un pur raisonnement, plus quelques hypothèses. Quelques hypothèses sont toujours
nécessaires pour utiliser un "pur" raisonnement ! Quoique les arguments soient abstraits et quelque
peu compliqués, les résultats que nous obtiendrons seront relativement simples à énoncer et à
comprendre et les résultats sont les choses les plus importantes. Vous pouvez, si vous voulez,
considérer ceci comme une sorte d'excursion culturelle. En fait, tous les résultats essentiels obtenus
ici seront aussi obtenus de façon différente par la suite. Mais l'approche ici est plus facile à suivre et
est une bonne introduction à un traitement plus systématique et général mais aussi plus abstrait.
Cette excursion est "culturelle" en ce sens qu'elle est faite pour montrer que les principes de la
mécanique quantique sont non seulement intéressants, mais qu'ils sont aussi si profonds qu'en
ajoutant quelques hypothèses supplémentaires sur la structure de l'espace, nous pouvons déduire un
grand nombre de propriétés des systèmes physiques. Par ailleurs, il est important de savoir d'où
proviennent les différentes conséquences de la mécanique car, tant que nos lois physiques sont
incomplètes, et nous savons qu'elles le sont, il est intéressant de trouver si les endroits où nos
théories sont en désaccord avec l'expérience sont ceux où notre logique est la plus solide ou bien là
où elle est la plus faible. Jusqu'à maintenant, il se trouve que là où notre logique est la plus
abstraite, elle conduit toujours aux résultats corrects, c'est-à-dire à un accord avec l'expérience.
C'est seulement lorsque nous essayons de construire des modèles spécifiques de la machinerie
interne des particules fondamentales que nous sommes parfois incapables de trouver une théorie
qui soit en accord avec l'expérience. La théorie que nous sommes sur le point de décrire est en
accord avec l'expérience partout où elle a été essayée, aussi bien pour les particules étranges que
pour les électrons, les protons, les atomes, etc.

Une remarque sur un point ennuyeux, mais intéressant avant que nous ne continuions : il n'est pas
possible de déterminer les coefficients R ji de façon unique, car il y a toujours un certain arbitraire
dans les amplitudes de probabilité. Si vous avez un ensemble d'amplitudes quelconques, disons les
amplitudes pour aller en quelque endroit en passant par un grand nombre de différentes routes, et si
vous multipliez chaque amplitude par le même facteur de phase, disons par e iδ , vous obtenez un
nouvel ensemble qui est tout juste aussi bon que le premier. C'est une particularité que nous avons
déjà rencontrée à plusieurs reprises. Il est donc toujours possible de faire un changement de phase
arbitraire des amplitudes dans tout problème si nous voulons le faire.

Supposez que vous calculiez une certaine probabilité en écrivant une somme de plusieurs
amplitudes, disons A+B+C+… et en prenant le carré du module. Quelqu'un d'autre peut alors
calculer la même chose en utilisant la somme des amplitudes A'+B'+C'+… et en prenant le carré du
module. Si tous les A', B', C', etc. sont égaux aux A, B, C,… au facteur e iδ près, toutes les
probabilités obtenues en prenant le carré des modules seront exactement les mêmes puisque
A'+B'+C'+… est alors égal à e iδ (A+B+C+…). Ou bien supposez par exemple que nous étions en
train de calculer quelque chose avec (1) et que nous changions soudainement toutes les phases d'un
certain système de base. Chacune des amplitudes i ψ serait multipliée par le même facteur e iδ .
De même, les amplitudes i χ seraient aussi changées par e iδ , mais les amplitudes χ i sont les
complexes conjuguées des amplitudes i χ . Par conséquent, elles changent par un facteur e − iδ .
Les plus et les moins iδ dans les exposants s'annulent et nous obtiendrons la même expression que
nous avions au début. Si bien que c'est une règle générale que si nous changeons toutes les
amplitudes, par rapport à un système de base, par une même phase, ou même si nous changeons
toutes les amplitudes d'un problème par une même phase, cela ne change rien. Il y a par conséquent
une certaine liberté dans le choix des phases de notre matrice de transformation. De temps à autre
nous ferons un choix arbitraire, en général pour suivre des conventions d'usage général.

III.2.2. Transformation dans un système de coordonnées ayant subi une


rotation
Considérons à nouveau l'appareil de Stern-Gerlach "amélioré" que nous avons décrit. Un faisceau
de particules de spin un demi, entrant par la gauche, est, en général, divisé en deux faisceaux,
comme l'indique schématiquement la figure ci-dessous (pour un spin un, il y avait trois faisceaux).
Comme auparavant, les faisceaux sont mélangés à nouveau, sauf si l'un ou l'autre d'entre eux est
arrêté par un "stop" qui intercepte le faisceau au milieu de son parcours. Sur la figure, nous
indiquons par une flèche la direction dans laquelle la grandeur du champ croît, disons qu'elle pointe
vers le pôle magnétique le plus aigu. Nous considérerons que la flèche représente l'axe "vers le
haut" de chaque appareil. Elle est définie relativement à l'appareil et elle nous permettra d'indiquer
des orientations relatives quand nous utiliserons plusieurs appareils. Nous supposerons aussi que la
direction du champ magnétique dans chaque aimant est toujours la même par rapport à la flèche.

Nous dirons que les atomes qui vont dans le faisceau "supérieur" sont dans l'état (+) par rapport à
cet appareil et ceux du faisceau "inférieur" sont dans l'état (-) (il n'y a pas d'état "zéro" pour des
particules de spin un demi).
Supposez maintenant que nous placions deux de nos appareils de Stern-Gerlach modifiés en série,
comme sur la figure (a) ci-dessous.

Le premier, que nous appellerons S, peut être utilisé pour préparer un état pur (+S) ou un état pur (-
S) en stoppant l'un ou l'autre des faisceaux (sur la figure, il prépare un état (+S)). Pour chaque état,
il y a une certaine amplitude pour qu'une particule sortant de S soit dans l'état (+T) ou l'état (-T) du
deuxième appareil. Il y a en fait exactement quatre amplitudes : l'amplitude pour aller de (+S) à
(+T), de (+S) à (-T), de (-S) à (+T) et de (-S) à (-T). Ces amplitudes sont précisément les quatre
coefficients de la matrice R ji de la transformation qui permet d'aller de la représentation S à la
représentation T. Nous pouvons considérer que le premier appareil "prépare" un état particulier
dans une représentation et que le deuxième appareil "l'analyse" sur les états de la seconde
représentation. Le genre de question auxquelles nous voudrions répondre est alors : si un atome a
été préparé dans un état donné, disons l'état (+S), en stoppant l'un des faisceaux de l'appareil S,
quelle est la probabilité pour qu'il passe à travers le deuxième appareil si celui-ci est préparé pour
l'état (-T). Le résultat dépendra bien sûr des angles entre les deux systèmes S et T.
Nous devrions expliquer comment il se fait que nous ayons quelque espoir de trouver les
coefficients R ji par déduction. Vous savez qu'il est presque impossible de croire que, si une
particule a son spin aligné dans la direction +z, il y ait une chance de trouver la même particule
avec son spin pointant dans la direction +s ou dans n'importe quelle autre direction. En fait, c'est
presque impossible, mais pas tout à fait. C'est tellement proche d'être impossible qu'il n'y a qu'une
seule façon de faire et c'est là la raison pour laquelle nous pouvons trouver ce qu'est cette façon
unique.

Le premier genre d'argument que nous pouvons faire est le suivant. Supposons que nous ayons un
dispositif comme celui de la figure (a) ci-dessus, dans lequel nous avons les deux appareils S et T
avec T tourné d'un angle α par rapport à S, et que nous laissions seulement le faisceau (+) passer à
travers S et le faisceau (-) à travers T. Nous trouverions un certain nombre pour la probabilité que
les particules sortant de S passent dans T. Supposons maintenant que nous fassions une autre
mesure avec les appareils de la figure (b) ci-dessus. L'orientation relative de S et de T est la même,
mais le système tout entier est disposé avec un angle différent dans l'espace. Nous allons faire
l'hypothèse que ces deux expériences donnent le même nombre pour la probabilité pour qu'une
particule dans un état pur par rapport à S aille dans quelque état particulier par rapport à T. En
d'autres termes, nous supposons que le résultat d'une expérience est le même, que la physique est la
même, quelle que soit l'orientation de l'appareil tout entier dans l'espace. Vous pouvez penser que
"c'est évident". C'est une hypothèse naturelle et raisonnable et qui est de plus compatible avec le
principe de relativité qui affirme que les lois de la physique sont les mêmes dans tout repère, en
particulier s'ils ne diffèrent que d'une rotation. Mais cela reste une hypothèse et elle n'est juste que
si c'est réellement là ce qui se passe. Cela veut dire que les coefficients R ji dépendent seulement de
l'orientation dans l'espace de S par rapport à T et non pas de la situation absolue de S et de T.
Autrement dit, R ji dépend seulement de la rotation qui amène S en T car, de toute évidence, ce qui
est identique dans les figures (a) et (b) c'est la rotation à trois dimensions qui transformerait
l'orientation de l'appareil S en celle de T. Lorsque la matrice de transformation R ji ne dépend que
d'une rotation, comme c'est le cas ici, elle est appelée matrice de rotation.
Pour l'étape suivante, nous aurons besoin d'une information supplémentaire. Supposons que nous
ajoutions un troisième appareil, que nous pouvons appeler U, derrière T et avec un angle arbitraire,
comme sur la figure (a) ci-dessous. Tout cela commence à avoir un air horrible, mais c'est là tout le
charme du raisonnement abstrait, vous pouvez faire les expériences les plus fantastiques juste en
traçant quelques lignes !.

Maintenant, quelle est la transformation STU ? Ce que nous voulons réellement connaître,
c'est l'amplitude pour aller dans un certain état, par rapport à S, à un autre état, par rapport à U.
Nous parlons donc d'une expérience dans laquelle les deux canaux de T sont ouverts. Nous pouvons
trouver la réponse en appliquant deux fois de suite la relation de transformation des amplitudes.
Pour passer de la représentation S à la représentation T, nous avons
(1) C ′j = ∑ R TS
ji C i
i
où nous avons placé les indices TS sur R de façon à faire la distinction avec les coefficients R UT
que nous aurons pour aller de T à U.

En appelant C k′′ les amplitudes pour être dans les états de base de la représentation U, nous
pouvons les relier aux amplitudes dans T en utilisant une fois de plus cette relation. Nous obtenons
(2) C k′′ = ∑ RkjUT C ′j
j

Maintenant, nous pouvons combiner les équations (1) et (2) pour obtenir la transformation directe
de S à U. En portant C ′j de (1) dans (2), nous avons
(3) C k′′ = ∑ RkjUT ∑ R TS
jl Cli
j i

Ou encore, comme i n'apparaît pas dans RkjUT , nous pouvons mettre la sommation sur i en premier
et écrire
(4) C k′′ = ∑∑ RkjUT R TS
ji C i
i j

Voilà la formule pour une double transformation.

Remarquez cependant que, tant que tous les faisceaux de T sont ouverts, l'état sortant de T est le
même que celui qui y est entré. Nous pourrions tout aussi bien avoir fait une transformation de la
représentation S à la représentation U directement. Cela doit revenir à mettre l'appareil U
directement après S, comme dans la figure (b) ci-dessus. Dans ce cas, nous écririons
(5) C k′′ = ∑ RkiUS C i
i

en employant les coefficients RkiUS correspondant à cette transformation. Maintenant, il est clair que
les équations (4) et (5) devraient donner les mêmes amplitudes C k′′ et ceci devrait être vrai quelque
que soit l'état de départ φ qui nous a donné les amplitudes C i . Il faut donc que
(6) RkiUS = ∑ RkjUT R TS
ji
j

Autrement dit, pour toute rotation SU du système de base, considérée comme composée de deux
rotations successives STU, la matrice de rotation RkiUS peut être obtenue à partir des matrices
des deux rotations partielles par (6). Si vous préférez, nous pouvons trouver (6) directement à partir
de la décomposition des amplitudes sur les états de base car ce n'est qu'une notation différente pour
kU iS = ∑ j kU jT jT iS . Nous avions déjà vu que la composition des transformations entre
représentations était la multiplication matricielle.

Pour être complet, nous devons faire les remarques suivantes. Ce que nous avons dit n'est pas tout à
fait exact. Nous ne pouvons pas vraiment dire que les équations (4) et (5) doivent donner
exactement les mêmes amplitudes. Seule la physique doit être la même. Toutes les amplitudes
pourraient être différentes d'un même facteur de phase e iδ sans que cela change en rien le résultat
des calculs concernant le monde réel. Si bien qu'à la place de (6), tout ce que nous pouvons dire, en
fait, est que
(7) e iδ RkiUS = ∑ RkjUT R TS
ji
j

où δ est une certaine constante réelle. Ce que veut dire ce facteur supplémentaire e iδ est bien
entendu que les amplitudes que nous obtenons si nous utilisons la matrice R US peuvent toutes
différer d'une même phase des amplitudes que nous obtiendrions en utilisant les deux rotations R UT
et R TS . Nous savons que cela n'a pas d'importance si toutes les amplitudes sont changées d'une
même phase, si bien que, si nous le voulions, nous pourrions tout simplement ignorer ce facteur de
phase. Il se trouve cependant que, si nous définissons toutes nos matrices de rotation d'une façon
particulière, ce facteur de phase supplémentaire n'apparaîtrait jamais, le δ de (7) est toujours zéro.
Quoique ceci ne soit pas important pour le reste de nos arguments, nous pouvons en donner une
preuve rapide en utilisant le théorème mathématique sur les déterminants.

Tout d'abord, rappelons que (6) est la définition mathématique du produit de deux matrices.
Ensuite, il y a un théorème mathématique, que vous pouvez facilement démontrer pour les matrices
deux par deux que nous avons ici, qui dit que le déterminant d'un produit de deux matrices est le
produit de leurs déterminants. En appliquant ce théorème à (7), nous obtenons
(8) e i 2δ det R US = det R UT ⋅ det R TS

Nous laissons de côté les indices car ils ne nous indiquent rien qui nous soit utile. Oui, le 2δ est
juste. Rappelez-vous que vous traitez des matrices deux par deux. Chaque terme de la matrice RkiUS
est multiplié par e iδ , si bien que chaque terme du déterminant, composé de deux facteurs, se trouve
multiplié par e i 2δ . Prenons maintenant la racine carrée de (8) et divisons par celle-ci l'équation (7).
Nous obtenons
RkiUS RkjUT R TS
=∑
ji
(9)
det R US i det R UT det R TS

Les facteurs de phase supplémentaires disparaissent.

Il se trouve maintenant que si nous voulons que toutes nos amplitudes dans une représentation
soient normalisées (ce qui signifie, vous vous en souvenez, que ∑i φ i i φ = 1 ), les matrices de
rotation auront leurs déterminants égaux à de pures exponentielles comme e ia (la démonstration,
qui n'est pas difficile, est laissée en exercice). Nous pouvons donc, si nous le voulons, choisir de
donner à toutes nos matrices de rotation R une même phase en prenant det R = 1 . On fait cela de la
façon suivante. Supposons que nous trouvions une matrice de rotation par une certaine méthode.
Nous prenons comme règle de la "convertir" sous une "forme standard" en définissant
R
(10) Rstandard =
det R

Nous pouvons le faire car cela revient simplement à multiplier chaque terme de R par le même
facteur de phase pour obtenir les phases que nous voulons. Dans ce qui suit, nous supposerons
toujours que nos matrices ont été mises sous la "forme standard". Nous pourrons alors utiliser (6)
sans avoir de facteurs de phase supplémentaires.
III.2.3. Rotations autour de l'axe z
Nous sommes maintenant prêts à trouver la matrice R ji entre deux représentations. Avec nos règles
de composition des rotations et notre hypothèse que l'espace n'a pas de direction privilégiée, nous
avons les clés dont nous avons besoin pour trouver la matrice d'une rotation arbitraire. Il n'y a
qu'une solution. Nous commençons avec la transformation qui correspond à une rotation autour de
l'axe z. Supposons que nous ayons deux appareils disposés en série et alignés, avec leurs axes
parallèles et pointant hors du plan de la figure comme le montre la figure (a) ci-dessous.

Nous choisissons notre "axe z" dans cette direction. Sans aucun doute, si le faisceau va "vers le
haut" (vers +z) dans l'appareil S, il en fera de même dans l'appareil T. De même, s'il va vers le bas
dans S, il ira vers le bas dans T. Supposons par contre que l'appareil soit disposé à un autre angle,
mais toujours avec son axe parallèle à celui de S comme sur la figure (b) ci-dessus. Intuitivement,
nous dirions qu'un faisceau (+) de S irait encore comme un faisceau (+) de T parce que les champs
et les gradients des champs sont encore dans les mêmes directions. Et cela serait tout à fait exact.
Egalement, un faisceau (-) dans S irait comme un faisceau (-) dans T. Le même résultat serait
valable pour toute orientation de T dans le plan xy de S. Qu'est-ce que cela nous apprend sur la
relation entre C +′ = + T ψ , C −′ = − T ψ et C + = + S ψ , C − = − S ψ ? Vous pourriez en
conclure que toute rotation autour de l'axe z du "système de référence" choisi pour les états de base
laisse les amplitudes "vers le haut" et "vers le bas" comme auparavant. Nous pourrions écrire
C +′ = C + et C −′ = C − . Mais ceci est faux. Il faut éviter les conclusions hâtives. Tout ce que nous
pouvons en conclure est que pour de telles rotations, les probabilités d'être dans le faisceau "en
haut" sont les mêmes pour les appareils S et T. C'est-à-dire
(1) C +′ = C + et C −′ = C −

Nous ne pouvons pas dire que les phases des amplitudes relatives à l'appareil T ne peuvent pas être
différentes pour les deux orientations (a) et (b).

Les deux appareils, dans (a) et (b) de la figure ci-dessus sont en fait différents, comme nous
pouvons le voir dans ce qui suit. Supposons que nous placions devant S un appareil produisant un
état pur (+x) (l'axe x pointant vers le bas de la figure). Les particules seraient alors partagées par S
en deux faisceaux (+z) et (-z) mais les deux faisceaux seraient recombinés pour donner à nouveau
un état (+x) en P1 , à la sortie de S. La même chose se produit de nouveau dans T. Si nous faisons
suivre T par un troisième appareil U, dont l'axe est dans la direction (+x), toutes les particules iront
dans le faisceau (+) de U. Comme dans la figure (a) ci-dessous.
Imaginez maintenant ce qui arriverait si T et U étaient basculés tous les deux ensemble de 90°
comme le montre la figure (b) ci-dessus. De nouveau, l'appareil T restitue tout ce qui est entré, si
bien que les particules qui entrent dans U sont dans un état (+s) par rapport à S. Mais maintenant U
analyse l'état (+y) par rapport à S, ce qui est donc différent (par symétrie, nous pouvons nous
attendre à ce que la moitié seulement des particules soient transmise).
Qu'y a-t-il donc de changé ? Les appareils T et U sont encore dans la même disposition relative. La
même disposition relative. La physique peut-elle être changée, simplement parce que T et U ont
une orientation différente ? Notre hypothèse initiale est que cela n'est pas vrai. Il faut donc que les
amplitudes par rapport à T soient différentes dans les deux cas de la figure ci-dessus, et par
conséquent aussi de la première figure. La particule doit avoir quelque moyen de savoir qu'elle a
pris le virage en P1 . Comment pourrait-elle faire ? Eh bien tout ce que nous avons dit, c'est que les
magnitudes de C −′ et C +′ sont les mêmes dans les deux cas, mais elles pourraient, et en fait elles
doivent, avoir des phases différentes. Nous concluons que C +′ et C + sont reliées par
(2) C +′ = e iλ C +
et que C −′ et C − doivent être reliées par
(3) C −′ = e iµ C −
où λ et µ sont des nombres réels qui doivent être reliés de quelque façon à l'angle entre S et T.

La seule chose que nous pouvons dire sur λ et sur µ pour le moment est qu'ils ne doivent pas être
égaux (sauf dans le cas spécial de la figure (a), lorsque T a la même orientation que S). Nous avons
vu qu'un changement de toutes les amplitudes par une même phase n'a pas de conséquence
physique. Pour la même raison nous pouvons toujours ajouter une quantité arbitraire à λ et à µ
sans que cela change quoi que ce soit. Nous sommes donc autorisés à choisir λ et µ égaux à plus
ou moins le même nombre. Autrement dit, nous pouvons toujours prendre
(4) λ ′ = λ −
(λ + µ ) µ ′ = µ − (λ + µ )
2 2

Alors
λ µ
(5) λ ′ = − = −µ ′
2 2

Nous adoptons donc la convention que µ = −λ . En prenant les choses d'un autre point de vue, nous
sommes tout simplement en train de mettre la transformation sous la "forme standard" décrite dans
la section précédente. Par conséquent, nous avons la règle générale que pour une rotation d'un
certain angle autour de l'axe z de l'appareil de référence, la transformation est
(6) C +′ = e + iλ C + C −′ = e − iλ C −

Les valeurs absolues sont les mêmes, seules les phases diffèrent. Ces facteurs de phases sont
responsables des résultats différents des deux expériences de la figure précédente.

Nous voudrions savoir maintenant quelle est la loi qui relie λ à l'angle entre S et T. Nous
connaissons déjà la réponse dans un cas. Si l'angle est nul, λ est nul. Maintenant, nous allons faire
l'hypothèse que le déphasage λ est une fonction continue de l'angle φ entre S et T. lorsque φ tend
vers zéro, ce qui semble raisonnable. Autrement dit, si nous faisons tourner T d'un petit angle ε
autour de S, λ est aussi une petite quantité, disons mε , où m est un certain nombre. Nous
l'écrivons de cette façon parce que nous pouvons montrer que λ doit être proportionnel à ε .
Supposons que nous placions un autre appareil T' derrière T, faisant un angle ε avec T et, par
conséquent, un angle 2ε avec S. Par rapport à T, nous avons alors
(7) C +′ = e iλ C +
et par rapport à T' nous avons
(8) C +′′ = e iλ C +′ = e i 2λ C +

Mais nous savons que nous devrions obtenir le même résultat si nous placions T' directement après
S. Alors, lorsque l'angle est doublé, la phase est doublée. Nous pouvons également généraliser cet
argument et construire n'importe quelle rotation par une suite de rotations infinitésimales. Nous
concluons que quel que soit φ , λ est proportionnel à cet angle. Par conséquent, nous pouvons
écrire λ = mφ .

Le résultat général que nous obtenons est alors que pour une rotation de T autour de l'axez z, d'un
angle φ par rapport à S
(9) C +′ = e imφ C + C −′ = e − imφ C −
Pour l'angle φ , et pour toutes les rotations dont nous parlerons dans le futur, nous adopterons la
convention standard qu'une rotation positive est une rotation à droite par rapport à la direction plus
de l'axe de référence. Un φ positif indique la rotation d'une vis ayant son pas à droite, progressant
dans la direction des z positifs.

Il nous faut maintenant trouver ce que vaut m. Tout d'abord, nous pouvons essayer l'argument
suivant : supposons que T soit tourné de 360°, alors, clairement, il est revenu à 0° et nous devons
avoir C +′ = C + et C −′ = C − , ou, ce qui revient au même, e im 2π = 1 . Nous obtenons m = 1. Cet
argument est faux ! Encore une preuve qu'il faut se méfier des conclusions hâtives sur la phase des
amplitudes lorsque deux situations semblent identiques. Pour le voir, considérons T tourné de 180°.
Si m était égal à 1, nous aurions C +′ = e iπ C + = −C + et C −′ = e − iπ C − = −C − . Mais ceci n'est autre
que l'état initial. Les deux amplitudes sont seulement multipliées par -1, ce qui redonne le système
physique original (c'est encore un cas de changement par une même phase). Cela signifie que si
l'angle T et S dans la figure (b) est augmenté jusqu'à 180°, le système ne pourrait être distingué de
la situation à zéro degrés et les particules iraient à nouveau dans l'état (+) de l'appareil U. A 180°,
cependant, l'état (+) de l'appareil U est l'état (-x) de l'appareil original. Si bien qu'un état (+x)
deviendrait un état (-x). Or nous n'avons rien fait pour changer l'état original. La réponse est donc
fausse. Nous ne pouvons pas avoir m = 1.

On peut voir que m = -1/2 marcherait aussi. Mais, on voit sur (9) qu'un changement de signe
revient à définir la notation pour une particule ayant son spin en haut.

Cela donne
C +′ = −C + 
(10)  360° autour de l' axe z
C −′ = −C − 

Cela paraît très curieux de dire que si vous tournez l'appareil de 360° vous obtenez de nouvelles
amplitudes. En fait, elles ne sont pas vraiment nouvelles car un changement de signe commun ne
conduit par à une physique différente. Si quelqu'un d'autre a décidé de changer tous les signes des
amplitudes parce qu'il pensait avoir tourné de 360°, c'est parfait. Il obtiendra quand même la même
physique.
Et aussi, si quelque chose a été transformé par une séquence de petites rotations dont le résultat est
de le ramener à sa position originale, il nous est possible de nous rendre compte que ce quelque
chose a tourné de 360°, et non de 0°, si nous avons gardé trace de toute son histoire (chose
remarquable, ceci n'est pas vrai pour une rotation de 720°).

Ce comportement curieux a quand même des conséquences lorsque l'on considère plusieurs
particules, comme nous le verrons. Ce changement de signe n'est donc pas si innocent qu'il y paraît
même si pour une particule seule, cela n'a pas d'importance (avec deux particules, on peut comparer
les phases relatives). Comme il a d'ailleurs été noté ci-dessus, ce résultat est le seul qui soit correct.
On doit avoir ce changement de signe. Il est assez évident que rien de comparable n'existe en
physique classique où tout objet tourné de 360° revient à sa position initiale et où absolument
aucune quantité le décrivant n'est modifiée, même par le signe. C'est clairement un des aspects les
plus étranges de la mécanique quantique.

Notre réponse finale est donc que si nous connaissons les amplitudes C + et C − par rapport à un
système de référence S, pour une particule de spin un demi, et si nous utilisons un système de base
rapport T et obtenu à partir de S par une rotation de φ autour de l'axe z, les nouvelles amplitudes
sont données en fonction des anciennes par
C +′ = e iφ / 2 C + 
(11)  φ autour de z
C −′ = e −iφ / 2 C − 

III.2.4. Rotations de 180° et de 90° autour de y


Ensuite, nous allons essayer de deviner les transformations pour une rotation de T par rapport à S
de 180° autour d'un axe perpendiculaire à l'axe z, disons autour de l'axe y. Autrement dit, nous
commençons avec deux appareils de Stern et Gerlach identiques, le second, T, étant tourné "la tête
en bas" par rapport au premier S, comme dans la figure ci-dessous.
Si maintenant nous considérons nos particules comme de petits dipôles magnétiques, une particule
qui est dans l'état (+S), si bien qu'elle prend le chemin "du haut" dans le premier appareil, prendra
aussi le chemin "du haut" du second et sera donc dans l'état moins par rapport à T (dans l'appareil T
retourné, les directions du gradient et du champ sont retournées ensembles. La force ne dépend que
du gradient, mais c'est le champ qui permet de repérer le haut et le bas de l'appareil T. La force sur
une particule dont le moment magnétique dont le moment magnétique est dans une direction
donnée reste la même). De toute façon, ce qui est "en haut" par rapport à S sera "en bas" par rapport
à T. Pour les positions relatives de S et T ci-dessus, nous savons donc que la transformation doit
donner
(1) C +′ = C − C −′ = C +

Comme auparavant, nous ne pouvons pas exclure des facteurs de phase supplémentaires. Nous
pourrions avoir (pour 180° autour de l'axe y)
(2) C +′ = e iβ C − et C −′ = e iγ C +
où β et γ restent à déterminer.

Que peut-on dire d'une rotation de 360° autour de l'axe y ? Et bien, nous savons déjà la réponse
pour une rotation de 360° autour de l'axe z, l'amplitude pour être dans un état quelconque est
changée de signe. Une rotation de 360° autour de n'importe quel axe nous ramène à la position
originale. Il faut donc que toute rotation de 360° donne le même résultat qu'une rotation de 360°
autour de l'axe z, toutes les amplitudes changement seulement de signe. Supposez maintenant que
nous imaginions deux rotations successives de 180° autour de y, en utilisant l'équation (2), nous
devrions alors obtenir le résultat d'une rotation de 360°. En d'autres termes
C +′′ = e iβ C −′ = e iβ e iγ C + = −C +
(3)
C −′′ = e iγ C +′ = e iγ e iβ C − = −C −

Cela signifie que


(4) e iβ e iγ = −1 ou e iγ = −e − iβ

Ainsi, la transformation pour une rotation de 180° autour de l'axe y peut être écrite
(5) C +′ = e iβ C − C −′ = −e − iβ C +

Les arguments que nous venons de donner s'appliquerait tout aussi bien pour une rotation de 180°
autour de n'importe quel axe du plan xy, quoique des axes différents puissent, bien entendu, donner
des nombres différents pour β . Mais c'est là la seule façon dont ils peuvent différer. Par ailleurs, il
y a un certain degré d'arbitraire dans le choix du nombre β , mais une fois qu'il est fixé pour un axe
de rotation dans le plan xy, il est déterminé pour tout autre axe. Conventionnellement, on choisit de
prendre β = 0 pour une rotation autour de l'axe y.

Pour montrer que nous avons ce choix, supposez que nous imaginions que β ne soit pas égal à
zéro pour une rotation autour de l'axe y. Nous pouvons alors montrer qu'il y a un autre axe dans le
plan xy pour lequel le facteur de phase est zéro. Cherchons le facteur de phase β A pour un axe
faisant l'angle α avec l'axe y comme le montre la figure (a) ci-dessous. Pour plus de clarté, la
figure est dessinée avec α égal à un nombre négatif, cela n'a aucune importance.
Maintenant, si nous prenons un appareil T qui est tout d'abord aligné avec l'appareil S et qui est
ensuite tourné de 180° autour de l'axe A, ses axes que nous appellerons x", y", z" seront disposés
comme sur la figure (a). Les amplitudes par rapport à T seront alors
iβ − iβ
(6) C +′′ = e A C − C −′′ = −e A C +

Nous pouvons maintenant essayer d'obtenir la même orientation par les deux rotations successives
indiquées sur les figures (b) et (c). Tout d'abord, nous imaginons un appareil U qui est tourné, par
rapport à S, de 180° autour de l'axe y. Les axes x', y', z' de U seront comme le montre la figure (b)
et les amplitudes par rapport à U sont données par (5).

Remarquez maintenant que nous pouvons passer de U à T par une rotation autour de "l'axe z" de U,
c'est-à-dire autour de z', comme le montre la figure (c). Vous pouvez voir sur cette figure que
l'angle nécessaire est égal à deux fois l'angle α , mais dans la direction opposée (par rapport à z').
En utilisant la transformation autour de l'axe z avec φ = −2α , nous obtenons
(7) C +′′ = e − iα C +′ C −′′ = e + iα C −′

En combinant les équations (7) et (5), nous obtenons


(8) C +′′ = e i ( β −α )C − C −′′ = −e − i ( β −α )C +
Bien entendu, ces amplitudes doivent être les mêmes que celles que nous avons obtenues dans (6).
β A doit être relié à α et β par
(9) β A = β − α

Cela signifie que si l'angle α entre l'axe A et l'axe y (de S) est égal à β , la transformation pour
une rotation de 180° autour de A aura β A = 0 .

Maintenant, dès qu'il existe un certain axe perpendiculaire à l'axe z pour lequel nous avons β = 0 ,
nous pouvons tout aussi bien prendre cet axe comme axe y. Ce n'est rien d'autre qu'une convention
et nous adoptons celle qui est d'usage général. Notre résultat : pour une rotation de 180° autour de
l'axe y, nous avons
C +′ = C − 
(10)  180° autour de y
C −′ = −C + 

Puisque nous discutons de l'axe y, cherchons ensuite quelle est la matrice de transformation pour
une rotation de 90° autour de y. Nous pouvons la trouver car nous savons que deux rotations
successives de 90° autour du même axe doivent être égales à une rotation de 180°. Nous
commençons en écrivant la transformation par rotation de 90° sous sa forme la plus générale :
(11) C +′ = aC + + bC − C −′ = cC + + dC −

Une deuxième rotation de 90° autour du même axe aurait les mêmes coefficients :
(12) C +′′ = aC +′ + bC −′ C −′′ = cC +′ + dC −′

En combinant les équations (11) et (12), nous avons


C +′′ = a (aC + + bC − ) + b(cC + + dC − )
(13)
C −′′ = c(aC + + bC − ) + d (cC + + dC − )

Par ailleurs, d'après (10), nous savons que


(14) C +′′ = C − C −′′ = −C +
si bien que nous devons avoir
ab + bd = 1
a 2 + bc = 0
(15)
ac + cd = −1
bc + d 2 = 0

Ces quatre équations sont suffisantes pour déterminer les quatre inconnues : a, b, c et d. Ce n'est pas
difficile à faire. Regardez les deuxième et quatrième équations. Vous en déduisez que a 2 = d 2 , ce
qui signifie que a = d ou bien a = -d. Mais a = -d est à rejeter car, alors, la première équation serait
fausse. Donc d = a. En utilisant cela, bous avons immédiatement b = 1/2a et c = -1/2a. Nous avons
maintenant tout en fonction de a. En exprimant la seconde équation, par exemple, en fonction de a,
nous avons
1 1
(16) a 2 − 2 = 0 ou a 4 =
4a 4

Cette équation a quatre solutions différentes (en nombres complexes), mais deux d'entre elles
seulement donnent la valeur standard du déterminant. Rien ne nous empêche de prendre a = 1 / 2
(l'autre solution change tous les signes de a, b, c et d et correspond à une rotation de -270°). Alors
1 1
a= b=
2 2
(17)
1 1
c=− d=
2 2

Autrement dit, pour deux appareils S et T, avec T tourné de 90° autour de l'axe y, la transformation
est
C +′ =
1
(C + + C − ) 
2 
(18)  90° autour de y
C −′ =
1
(− C + + C − )
2 

Nous pouvons bien entendu résoudre ces équations en C + et C − ce qui nous donne la
transformation pour une rotation de moins 90° autour de y. En permutant les primes, nous pourrions
conclure que
C +′ =
1
(C + − C − )
2 
(19)  − 90° autour de y
C −′ =
1
(C + + C − )
2 

III.2.5. Rotations autour de x


Vous être peut-être en train de vous dire : "tout cela devient ridicule. Qu'est-ce qu'ils vont bien faire
ensuite, 47° autour de y, puis 33° autour de x, et ainsi de suite à l'infini" ? Non, nous avons presque
fini. Avec seulement deux des transformations que nous avons, 90° autour de y et un angle
arbitraire autour de z (ce que nous avons fait en premier si vous vous en souvenez), nous pouvons
engendrer n'importe quelle rotation.

A titre d'illustration supposez que nous voulions l'angle α autour de x. Nous savons comment
traiter l'angle α autour de z, mais maintenant nous le voulons autour de x. Comment l'obtenir ?
Tout d'abord, nous tournons l'axe z jusque sur l'axe x, ce qui est une rotation de +90° autour de y,
comme le montre la figure ci-dessous.
Ensuite, nous tournons d'un angle α autour de z', puis nous tournons de -90° autour de y". Le
résultat brut de ces trois rotations est le même que pour une rotation α autour de x. C'est là une
propriété de l'espace.

Il est difficile de saisir intuitivement ces faits sur les combinaisons de rotations et sur ce qu'elles
produisent. Et c'est étrange puisque nous vivons dans trois dimensions, mais il nous est difficile de
nous rendre compte de ce qui se passe si nous tournons dans un sens puis dans un autre. Peut-être,
si nous étions des poissons ou des oiseaux et si nous avions un sens direct de ce qui se passe
lorsque nous faisons des pirouettes dans l'espace, nous pourrions saisir plus facilement toutes ces
choses.

Quoi qu'il en soit, calculons la transformation pour une rotation α autour de l'axe x en utilisant ce
que nous savons. La première rotation de 90° autour de y change les amplitudes selon ce que nous
venons de voir dans la section précédente. En appelant x', y', z' les axes après rotation, la rotation
suivante, de α autour de z', nous amène au système x", y", z", pour lequel
(1) C +′′ = e iα / 2 C +′ C −′′ = e − iα / 2 C −′

La dernière rotation de -90° autour de y" nous conduit à x''', y''', z'''. D'après la formule de la section
précédente,
(2) C +′′′ =
1
(C +′′ − C −′′ ) C −′′′ =
1
(C +′′ + C −′′ )
2 2

En combinant ces deux dernières rotations, nous obtenons


C +′′′ = (e C +′ − e −iα / 2 C −′ )
1 + iα / 2
2
(3)
C −′′′ = (e C +′ + e −iα / 2 C −′ )
1 + iα / 2
2

En utilisant la formule de la section précédente pour C +′ et C −′ , nous obtenons la transformation


complète :
{
C +′′′ = e +iα / 2 (C + + C − ) − e −iα / 2 (− C + + C − )
1
2
}
(4)
{
C −′′′ = e +iα / 2 (C + + C − ) + e −iα / 2 (− C + + C − )
1
2
}
Nous pouvons mettre ces formules sous une forme plus simple en nous rappelant que
(5) e iθ + e − iθ = 2 cosθ et e iθ − e iθ = 2i sin θ

Nous obtenons
 α  α 
C +′′′ =  cos C + + i sin C − 
 2  2 
α autour de x
α 
(6)
 α 
C −′′′ = i sin C + +  cos C − 
 2  2  

Voilà notre transformation pour une rotation d'un angle α quelconque autour de l'axe x. Elle est
seulement un peu plus compliquée que les autres.
III.2.6. Rotations quelconques
Nous pouvons voir maintenant comment faire pour un angle quelconque. Remarquons tout d'abord
que n'importe quelle orientation relative de deux systèmes de coordonnées peut être décrite en
fonction de trois angles, comme le montre la figure ci-dessous.

Si nous avons un système d'axes x', y' et z' orienté de façon quelconque par rapport à x, y et z, nous
pouvons décrire la relation entre les deux systèmes au moyen des trois angles d'Euler α , β et γ
qui définissent les trois rotations successives qui ramèneraient le système x, y, z sur le système x',
y', z'. En partant de x, y, z, nous faisons tourner notre système d'un angle β autour de l'axe z, ce
qui amène l'axe x sur la ligne x1 . Nous faisons ensuite une rotation de α autour de cet axe
provisoire pour amener z sur z'. Finalement, une rotation d'un angle γ autour du nouvel axe z
(c'est-à-dire z') amènera l'axe x sur x' et l'axe y sur y'. Avec un peu de travail vous pouvez montrer
que le système x, y, z peut aussi être amené sur le système x', y', z' par les trois rotations suivantes
autour des axes originaux : (1) tournez d'un angle γ autour de l'axe original z, (2) tournez d'un
angle α autour de l'axe original x, (3) tournez d'un angle β autour de l'axe original y. Mais ce qui
nous est le plus utile est la méthode précédente qui donne des rotations successives autour de
chaque axe obtenu après la rotation qui précède. Nous connaissons les transformations pour
chacune des trois rotations. En les combinant dans l'ordre correct, nous obtenons
α α
C +′ = cos e i ( β +γ ) / 2 C + + i sin e − i ( β −γ ) / 2 C −
(1) 2 2
α α
C −′ = i sin e i ( β −γ ) / 2 C + + cos e − i ( β +γ ) / 2 C −
2 2

Si bien qu'en partant simplement de quelques hypothèses sur les propriétés de l'espace, nous avons
déduit les transformations des amplitudes pour n'importe quelle rotation. Cela signifie que si nous
connaissons les amplitudes qu'à un état quelconque d'une particule de spin un demi pour aller dans
chacun des deux faisceaux de l'appareil de Stern et Gerlach S, dont les axes sont x, y et z, nous
pouvons calculer la fraction qui irait dans l'un ou l'autre faisceau d'un appareil T, d'axes x', y' et z'.
Autrement dit, si nous avons un état ψ d'une particule de spin un demi, dont les amplitudes pour
être "en haut" et "en bas" sont C + = + ψ et C − = − ψ , par rapport à l'axe z du système x, y, z,
nous connaissons aussi les amplitudes C +′ et C −′ pour être "en haut" et "en bas" par rapport à l'axe
z' d'un autre système x', y', z'. Les quatre coefficients dans l'équation (1) sont les termes de la
matrice de transformation avec laquelle nous pouvons projeter les amplitudes d'une particule de
spin un demi dans n'importe quel système de coordonnées.

Nous allons maintenant calculer quelques exemples pour vous montrer comment tout cela
fonctionne. Considérons d'abord la question simple suivante. Nous plaçons un atome de spin un
demi dans un appareil Stern et Gerlach qui ne transmet que l'état (+z). Quelle est l'amplitude pour
qu'il soit dans l'état (+x) ? L'axe +x est le même que l'axe +z' d'un système tourné de 90° autour de
l'axe y. Il est donc plus simple, pour ce problème, d'utiliser les formules de rotation autour de l'axe
y, quoique vous puissiez bien entendu utiliser les équations complètes (1). Comme C + = 1 et
C − = 0 , nous obtenons C +′ = 1 / 2 . Les probabilités étant les carrés des modules de ces
amplitudes, il y a 50% de chances pour que la particule passe à travers un appareil qui sélectionne
l'état (+x). Si nous avions cherché l'amplitude pour l'état (-x), nous aurions trouvé − 1 / 2 , qui
donne aussi une probabilité 1/2, comme vous pouviez le prévoir d'après la symétrie de l'espace.
Donc, si une particule est dans l'état (+z), elle a autant de chances d'être en (+x) ou en (-x) mais
avec des phases opposées.

Nous n'avons pas de préjugé contre y non plus. Une particule dans l'état (+x) a 50% de chance
d'être en (+y) ou en (-y). Cependant, pour ces états les amplitudes sont 1 / 2 et − i / 2 (en
employant la formule pour une rotation de -90° autour de x). Dans ce cas les deux amplitudes ont
une différence de phase de 90°, au lieu de 180° dans le cas de (+x) et (-x). En fait, c'est de cette
façon qu'apparaît la différence entre x et y.

Comme exemple final, supposons que nous sachions qu'une particule de spin un demi est dans un
état tel qu'elle soit polarisée "en haut" le long d'un certain axe A défini par les angles θ et φ de la
figure ci-dessous.

Nous voulons connaître l'amplitude C + = + ψ pour que la particule soit "en haut" le long de z et
l'amplitude C − = − ψ pour qu'elle soit "en bas" le long de z. Nous pouvons trouver ces
amplitudes en imaginant que A est l'axe z d'un système dont l'axe x est dans une direction
arbitraire, disons dans le plan de A et de z. Nous pouvons alors amener le système de référence de
A sur x, y, z par trois rotations. Tout d'abord, nous faisons une rotation de − π / 2 autour de l'axe A,
ce qui amène l'axe x sur la ligne B de la figure. Ensuite, nous tournons de θ autour de la ligne B (le
nouvel axe x du système de référence A) pour amener A sur l'axe z. Finalement, nous tournons de
l'angle (π / 2 − φ ) autour de x. En vous rappelant que nous avons un état (+) par rapport à A, nous
obtenons
θ θ
(2) C + = cos e −iφ / 2 C − = sin e iφ / 2
2 2

Finalement, nous aimerions résumer les résultats de cette analyse sous une forme utile. D'abord,
nous vous rappelons que notre résultat principal, (1), peut être écrit dans une autre notation.
Remarquez que les équations (1) ont exactement la signification que l'équation (4) de la section
III.2.1. Ce qui veut dire que les coefficients C + = + S ψ et C − = − S ψ des équations (1) sont
juste les amplitudes jT iS qui sont les amplitudes pour qu'une particule dans l'état i par rapport à
S aille dans l'état j par rapport à T (quand l'orientation de T par rapport à S est donnée en fonction
des angles α , β et γ ). Nous les avons aussi appelées R TS ji (nous avons une pléthore de notations

!) Par exemple, R−TS+ = − T + S est le coefficient de C + dans la formule pour C −′ , soit précisément
i sin (α / 2 )e i ( β −γ ) / 2 . Nous pouvons par conséquent faire un résumé de nous résultats sous forme d'un
tableau.
R ji (α , β , γ )
jT iS +S -S
+T α α
cos e i ( β +γ ) / 2 i sin e − i ( β −γ ) / 2
2 2
-T α α
i sin e i ( β −γ ) / 2 cos e − i ( β +γ ) / 2
2 2
Il est commode, à l'occasion, d'avoir ces amplitudes calculées pour quelques cas particuliers
simples. Soit R z (φ ) la rotation d'angle φ autour de l'axe z. Nous pouvons désigner de la même
façon la matrice de rotation correspondante (en omettant les indices i et j, qui seront supposés
implicites). Dans le même esprit R x (φ ) et R y (φ ) indiqueront les rotations autour de l'axe x ou de
l'axe y. Nous donnons dans le tableau suivant, les tables des amplitudes jT iS , qui projettent les
amplitudes du système S dans le système de T, où T est obtenu à partir de S par la rotation
indiquée.
R z (φ )
jT iS +S -S
+T e iφ / 2 0
-T 0 − iφ / 2
e
R x (φ )
jT iS +S -S
+T cos φ / 2 i sin φ / 2
-T − i sin φ / 2 cos φ / 2
R y (φ )
jT iS +S -S
+T cos φ / 2 sin φ / 2
-T − sin φ / 2 cos φ / 2

III.3. Traitement général

III.3.1. Rotations, moment angulaire et groupes unitaires


Nous allons maintenant traiter la situation générale de la rotation dans l'espace d'un système
physique dans un état représenté par le ket α ou la fonction d'onde ψ α (r ) . Nous décrivons une
rotation par un opérateur linéaire R qui est ainsi définit que tout vecteur r subit une rotation et
devient le vecteur Rr. La rotation change le ket α en le ket α ′ ou change la fonction d'onde
ψ α (r ) en la fonction d'onde ψ α ′ (r ) . Nous avons donc
(1) ψ α ′ (Rr ) = ψ α (r )

Groupe de rotation propre


Chaque opérateur rotation peut être représenté par une matrice 3x3. Nous écrivons les composantes
rectangulaires de tout vecteur arbitraire r et le vecteur après rotation rR comme des matrices
colonnes, ainsi l'équation rR = Rr est écrite comme l'équation matricielle
 x R   R xx R xy R xz   x 
 
(2)  y R  =  R yx R yy R yz   y 
 z R   R zx R zy R zz   z 

L'exigence que les composantes de rR soient réelles quand les composantes de r sont réelles
signifie que les éléments de la matrice R sont réels. De plus, l'exigence que le produit scalaire de
deux vecteurs quelconques soit inchangé quand les deux vecteurs sont soumis à la même rotation
peut être utilisé pour montrer que R est orthonormal : les trois lignes de R sont orthonormales les
unes avec les autres et les trois colonnes de R sont orthonormales les unes avec les autres. Ainsi, le
déterminant de R est égal à ± 1 . Nous considérerons ici seulement les rotations propres, pour
lesquelles le déterminant est égal à +1. Puisque le déterminant est non nul, la transformation
inverse R −1 existe et a la propriété r = R −1rR . On peut aussi montrer que R −1 est la transposée de
( )
R : R −1 ij = R ji , où i, j = x, y, z. Finalement, puisqu'il y a six contraintes indépendantes sur les neuf
éléments de matrice Rij , toutes les rotations peuvent être décrites par trois paramètres variant de
manière continue.

Les matrices R satisfont toutes les exigences d'un groupe. La loi interne est la multiplication
matricielle, qui est associative. La multiplication de deux matrices avec les propriétés ci-dessus
conduit à une troisième avec les mêmes propriétés. La matrice δ ij est l'élément identité et chaque R
à un inverse. Un exemple est facilement trouvé qui montre que les rotations ne commutent pas en
général, ainsi le groupe n'est pas abélien. Donc, les matrices R forment un groupe connexe à trois
paramètres que l'on montre facilement être compact. Le groupe, que nous avons déjà vu, est
désigné par O(3), le groupe orthogonal à trois dimensions qui est l'ensemble de toutes les matrices
orthonormales 3x3 avec un déterminant égal à +1.

Un groupe connexe dans lequel les paramètres du produit de deux éléments sont des fonctions
continues et différentiables des paramètres des éléments est un groupe de Lie. Les groupes des
translations dans l'espace et le temps sont des groupes de Lie non compacts et le groupe des
rotations est un groupe de Lie compact. Le groupe de Lorentz a trois paramètres pour décrire les
rotations et trois paramètres pour décrire les changements de vitesse. C'est un groupe de Lie à six
paramètres qui n'est cependant pas compact car il n'y a pas de transformation qui correspond à la
valeur limite c du changement de vitesse dans une direction quelconque.

Isomorphisme géométrique
Chaque matrice R correspond à une rotation physique. Donc, elle peut être représentée par un
vecteur φ dont la direction est l'axe autour de laquelle la rotation se produit (toujours supposée
dans le sens des aiguilles d'une horloge quand on regarde depuis l'origine le long de φ ) et dont la
grandeur est l'angle de rotation en radians. Les points finaux des vecteurs qui représentent toutes les
rotations remplissent une sphère de rayon π . Les points diamétralement opposés à la surface de
cette sphère représentent la même rotation. Le processus par lequel deux points finaux de vecteurs
dans la sphère sont combinés pour former un troisième point dans la sphère est compliqué lorsqu'il
est décrit en fonction des coordonnées des deux premiers points mais il peut être déterminé en
mettant les trois points en correspondance bijective avec deux des R et leur produit matriciel. De
tels points dans une sphère de rayon π forment un groupe qui est isomorphe au groupe de rotation.
Il est cependant plus utile pour son caractère imagé que pour des calculs car la fonction de poids
pour l'espace du groupe n'est pas constante.

Cet isomorphisme géométrique peut être utilisé pour montrer que le groupe de rotation, bien que
connexe n'est pas simplement connexe. Cela signifie que les paramètres du groupe peuvent varier
sur plus d'un chemin continu conduisant de tout élément à un autre sans que ces chemins puissent
être déformés de manière continue les uns en les autres. Dans le cas présent il y a deux chemins
distincts. L'un d'entre eux va de l'élément R1 à l'élément R2 entièrement dans la sphère. L'autre va
de R1 à la surface de la sphère, réapparaît au point diamétralement opposé et ensuite va vers R2 .
Un chemin qui fait deux sauts entre des points diamétralement opposés de la surface peut être
réduit au chemin du premier type (en rapprochant les points des deux sauts de manière à ce que le
chemin arrive à la surface et la quitte au même point) et ainsi de suite. Donc le groupe de rotation
est doublement connexe.

Rotations infinitésimales
Une grande partie de la structure du groupe de Lie peut être apprise en étudiant les éléments qui
sont infiniment près de l'élément identité. Comme on peut s'y attendre, cela est beaucoup plus
simple qu'une étude du groupe complet. Si le vecteur φ est de longueur infinitésimale et que seules
les quantités du premier ordre en φ sont retenues, la relation rR = Rr peut être écrite
(3) rR ≈ r + φ × r

La combinaison de (2) et (3) montre que


 1 − φz φ y 
 
(4) R ≈  φ z 1 − φx 
− φ y φ x 1 

Nous voulons maintenant trouver une transformation U R (φ ) qui change le ket α en le ket α ′
ou qui change la fonction d'onde ψ α (r ) en la fonction d'onde ψ α ′ (r ) :
(5) U R (φ )ψ α (r ) = ψ α ′ (r )

La combinaison des équations (1) et (5) donne


(
U R (φ )ψ α (r ) = ψ α R −1r )
≈ ψ α (r − φ × r )
(6) ≈ ψ (r ) − (φ × r ) ⋅ ∇ψ (r )
α α

= ψ α (r ) − (φ × r ) ⋅ pψ α (r )
i
h
en analogie avec la dérivation des translations spatiales. Nous pouvons donc poser
(7) U R (φ ) ≈ 1 − φ ⋅ L
i
h

(8) L = r × p
est l'opérateur pour le moment angulaire de la particule autour de l'origine.

Les trois opérateurs L x , L y et L z sont appelés les générateurs des rotations infinitésimales autour
des trois axes de coordonnées des angles φ x , φ y et φ z , respectivement, selon (7). De la même
manière, les formes infinitésimales dans les translations spatiales et temporelles montrent que p et -
H sont les générateurs des translations infinitésimales dans l'espace et le temps, respectivement. Le
fait que les composantes de p commutent l'une avec l'autre conduit directement à la conclusion que
le groupe des translations spatiales est abélien. D'un autre coté, les composantes de L ne
commutent pas l'une avec l'autre et ainsi le groupe des rotations n'est pas abélien.

L'équation du mouvement du ket ayant subit une rotation α ′ peut être trouvée exactement comme
dans la discussion sur les translations spatiales. La condition pour que le système possède une
symétrie par rotation ou invariance est que U R (φ ) commute avec H pour tout φ ou que les
générateurs L x , L y et L z commutent avec H. Cela signifie que le moment angulaire L est une
constante du mouvement comme on s'y attend pour un système qui possède une symétrie à la
rotation. Cela signifie aussi qu'il y a une dégénérescence de l'énergie si L α est linéairement
indépendant de α .

Spin d'une particule vectorielle


Le fait que les générateurs des transformations de symétrie infinitésimales soient égaux à des
variables dynamiques reconnaissables dans les situations simples vues jusqu'ici suggère qu'elles
puissent être utilisées pour définir des variables dynamiques dans des situations plus compliquées.
Comme exemple, considérons maintenant une particule possédant un degré de liberté interne qui
peut être relié au moment angulaire de spin intrinsèque. La particule est supposée être décrite par
une fonction d'onde ψ α (r ) vectorielle au lieu d'une fonction d'onde scalaire considérée jusqu'ici
(les valeurs de la fonction d'onde en chaque point sont donc un vecteur au lieu d'être un simple
nombre complexe). De plus, nous supposons que, lorsque l'état subit une rotation, non seulement r
change en Rr mais aussi ψ α change en Rψ α . Donc, l'équation (1) devient
(9) ψ α ′ (Rr ) = Rψ α (r )

De même, (5) devient


(10) U R (φ )ψ α (r ) = ψ α ′ (r )
où U R (φ ) est maintenant un opérateur tensoriel puisqu'il change le caractère vectoriel de ψ α . La
combinaison des équations (9) et (10) donne au premier ordre en φ
U R (φ )ψ α (r ) = Rψ α R −1r( )
( )
≈ ψ α R r + φ ×ψ α
−1
(R r )
−1

(11) ≈ ψ (r − φ × r ) + φ × ψ (r )
α α

≈ ψ α (r ) − (φ ⋅ L )ψ α (r ) + φ ×ψ α (r )
i
h

Le caractère tensoriel de U R (φ ) est plus facile à montrer en l'écrivant comme une matrice 3x3 qui
multiplie le vecteur ψ α pour produire le vecteur ψ α ′ en analogie avec (2). Les deux premiers
termes sur le coté droit de (11) sont alors proportionnels à la matrice unité. La comparaison avec les
équations (3) et (4) montre que le troisième terme peut être écrit sous la forme
(12) φ × ψ α (r ) = − (φ ⋅ S )ψ α (r )
i
h
où les composantes de S sont les matrices 3x3 suivantes :
0 0 0
S x = ih 0 0 − 1
0 1 0 
0 0 1
(13) S y = ih  0 0 0
− 1 0 0
0 − 1 0
S z = ih 1 0 0
0 0 0

Avec cette définition de S, la transformation de rotation infinitésimale est


(14) U R (φ ) ≈ 1 − φ ⋅ (L + S )
i
h

Les générateurs des rotations infinitésimales sont les composantes du vecteur


(15) J = L + S
que nous identifions avec le moment angulaire total de la particule. Le moment angulaire orbital est
L et il agit seulement sur la dépendance en r de ψ α (r ) sans affecter ses composantes. L'opérateur S
est appelé le moment angulaire de spin et il réarrange les composantes de ψ α (r ) sans affecter sa
dépendance en r. Donc L et S commutent l'un avec l'autre. Il arrive souvent que L et S ne
commutent pas séparément avec H tandis que J oui. Physiquement, cela signifie que l'hamiltonien
contient des termes qui couplent les moments angulaires de spin et orbital ensemble mais pas avec
l'environnement.

On avait déjà vu que les valeurs propres possibles de L2 = L2x + L2y + L2z sont l (l + 1)h 2 où l est un
entier positif ou zéro et est appelé le nombre quantique de moment angulaire orbital. La
substitution directe à partir des matrices (13) montre que S 2 = S x2 + S y2 + S z2 est égal à 2h 2 fois la
matrice unité. Cela correspond à l = 1 dans le cas orbital, ainsi la particule porte un moment
angulaire de spin h . La conclusion dérive des propriétés de transformations vectorielles supposées
de la fonction d'onde ψ α (r ) qui décrit la particule. D'autres degrés de liberté internes, qui se
manifestent comme des propriétés de transformation différentes de la fonction d'onde, seront
montrés conduire à d'autres valeurs du spin.

Relations de commutation pour les générateurs


On a remarqué ci-dessus que les composantes de L ne commutent pas l'une avec l'autre et ainsi le
groupe de rotation n'est pas abélien. Plus généralement, on peut montrer que les relations de
commutation entre les générateurs des éléments infinitésimaux d'un groupe de Lie déterminent les
caractéristiques principales du groupe entier puisqu'en effet ils spécifient comment les éléments du
groupe peuvent être intégrés sur une distance finie à partir de l'élément identité.

Les relations de commutation entre les composantes de L sont facilement trouvées à partir de (8) et
des conditions quantiques. Les résultats sont
[ ] [ ]
(16) Lx , L y = ihL z L y , L z = ihL x [L z , L x ] = ihL y

La substitution directe de (13) montre que les composantes de S satisfont les mêmes relations.
Alors, puisque L et S commutent, les composantes de J satisfont aussi (16). Ces trois équations
sont souvent écrites sous la forme équivalente
(17) J × J = ihJ

Les relations (17) ont été établies seulement pour le moment angulaire total des particules de spin
zéro (scalaires) et de spin un (vectorielles). Néanmoins, nous les adoptons comme les équations
définissant le moment angulaire et pour les générateurs du groupe de rotation dans le cas général.
Les générateurs du groupe de Lie forment la base d'une algèbre de Lie. Cette algèbre est fermée
dans le sens que le commutateur de toute paire de générateurs est une combinaison linéaire des
générateurs. Notre prochaine tâche sera de résoudre les équations algébriques (17) afin d'obtenir
des matrices explicites pour les J et donc pour les éléments infinitésimaux du groupe. Il s'agit en
fait de construire les différentes représentations de l'algèbre.
Une fois que les matrices J sont connues, il est facile d'étendre les opérateurs rotation infinitésimale
donnés par (14) et (15) à des rotations finies. Supposons que nous voulions trouver U R (φ ) pour une
certaine rotation finie φ . Alors, l'effet d'une petite augmentation dans la grandeur de φ , de φ à
φ + ∆φ , est de suivre la rotation finie U R (φ ) par la rotation infinitésimale 1 − (i / h )∆φJ x , ce qui
donne
 
(18) U R (φ + ∆φ ) ≈ 1 − ∆φJ x U R (φ )
i
 h 

Donc, U R (φ ) satisfait l'équation différentielle


dU R (φ )
= − J xU R (φ )
i
(19)
dφ h
avec la condition aux limites U R (0) = 1 . Cette équation est facilement intégrée pour donner
(20) U R (φ ) = e − iφJ x / h

Puisque aucune restriction n'a été posée dans le choix de l'axe x pour φ , nous obtenons
− iφ ⋅ J
(21) U R (φ ) = exp
h
comme l'opérateur pour les rotations finies. Cette relation est conforme à ce que nous avons vu
dans l'étude des groupes et les différentes représentations de l'algèbre nous donnent directement les
représentations du groupe des rotations.

Choix d'une représentation


Nous allons maintenant résoudre l'équation (17) de l'algèbre de Lie d'une manière similaire à celle
utilisée pour l'oscillateur harmonique. Nous avons trois variables dynamiques hermitiques J x , J y
et J z , aucune ne commutant avec les autres. Donc, pas plus d'une ne peut être rendue diagonale.
Cependant, nous pouvons construire J 2 à partir de ces opérateurs et on voit facilement qu'il
commute avec chacune des composantes de J. En analogie avec la représentation énergie du
problème de l'oscillateur, nous choisissons maintenant une représentation dans laquelle J 2 et une
des composantes, disons J z , sont diagonaux.

Tout comme dans le problème de l'oscillateur, où il est plus facile de travailler avec p ± imω c x
qu'avec x et p, il est plus facile de travailler ici avec J x ± iJ y qu'avec J x et J y . Nous définissons
donc les opérateurs non hermitiques
(22) J + = J x + iJ y J − = J x − iJ y
qui sont adjoints hermitiques l'un de l'autre et jouent un rôle similaire aux opérateurs de création et
de destruction dans le problème de l'oscillateur. Il est évident que J ± commute avec J 2 et les
autres relations de commutation deviennent
(23) [J z , J + ] = hJ + [J z , J − ] = −hJ − [J + , J − ] = 2hJ z

Nous indiçons les lignes et les colonnes de notre représentation avec une paire de nombres j et m. Il
est utile de choisir les valeurs propres de J z égales à mh où m est un ensemble de nombres réels
sans dimensions. Cependant, la relation entre j et les valeurs propres de J 2 sera laissée ouvert pour
le moment. Ces valeurs propres seront écrites f ( j )h 2 où f ( j ) est une fonction sans dimension de
j. Alors, dans notre représentation, les matrices pour J 2 et J z sont
(24) jm J 2 j ′m′ = f ( j )h 2δ jj′δ mm′ jm J z j ′m′ = mhδ jj′δ mm′

De plus, puisque J ± commute avec J 2 , ils sont diagonaux en j mais pas en m.

La première équation (23) peut être écrite dans cette représentation comme
(25) jm J z j ′m′ j ′m′ J + j ′′m′′ − jm J + j ′m′ j ′m′ J z j ′′m′′ = h jm J + j ′′m′′
où les symboles de sommations sur j' et m' n'ont pas été écrits explicitement. Les deux cotés de
cette équation s'annulent sauf si f ( j ) = f ( j ′) = f ( j ′′) . Nous obtenons donc, avec l'aide de la
deuxième équation (24),
(26) (m − m′′ − 1) jm J + j ′′m′′ = 0
Donc, jm J + jm′′ est non nul seulement quand m = m′′ + 1 . Cela signifie que le résultat de
l'opération avec J + sur le ket jm′′ est un certain multiple du ket j , m′′ + 1 , ainsi J + est un
opérateur de création pour les valeurs propres de J z . De même, la deuxième équation (23), qui ne
diffère que par le signe, conduit à
(27) (m − m + 1) jm J − jm′′ = 0
et ainsi J − est un opérateur de destruction.

Nous pouvons donc écrire les éléments non nuls de J + et de son adjoint hermitique J − sous la
forme
(28) j , m + 1 J + jm = λ m h j , m J − jm + 1 = λ∗m h

La substitution des éléments de matrices (28) dans la troisième équation (23) montre que les
éléments non diagonaux s'annulent des deux cotés et un élément diagonal typique est
(29) λ m−1 − λ m
2 2
= 2m

On notera que λm peut dépendre de j autant que de m.

Valeurs de m, f ( j ) et λm

L'équation (29) est une équation aux différences linéaire du premier ordre en λ m
2
et sa solution
générale est, à une constante arbitraire près,
(30) λ m = C − m(m + 1)
2

Maintenant, λ m est nécessairement positif au zéro bien que le coté droit de (30) atteint
2

évidemment des valeurs négatives pour des valeurs négatives ou positives suffisament grandes de
m. Cela ne cause pas de problème s'il y a deux valeurs m1 et m2 de m pour lesquelles λ m = 0 et si
ces deux valeurs diffèrent l'une de l'autre par un entier. Si c'est le cas, les séries des valeurs de m
dans lesquels les termes diffèrent de l'unité peuvent se terminer aux deux extrémités sans que λ m
2

devienne négatif. L'équation (26) peut être satisfaite à la borne supérieure ( m = m1 ) en ayant
j , m1 + 1 J + jm1 = 0 plutôt qu'en ayant une valeur propre de J z plus grande que m1h . De même,
l'équation (27) peut être satisfaire à la borne inférieure ( m = m2 ) en ayant jm 2 J − j , m2 + 1 = 0
plutôt qu'en ayant une valeur propre de J z inférieure à (m2 + 1)h . λ m
2
est évidemment non
négatif pour les valeurs de m allant de m2 + 1 à m1 , inclus.

Nous avons donc une série finie de valeurs de m allant de m1 à m2 + 1 par pas unité où m1 et m2
sont les racines les plus grandes et les plus petites de l'équation quadratique C − m(m + 1) = 0 :

(31) m1 = − + (1 + 4C ) m1 = − − (1 + 4C )
1 1 1/ 2 1 1 1/ 2

2 2 2 2

Puisque m2 + 1 est égal à − m1 , la série des valeurs de m va de m1 à − m1 par pas unité, ce qui
1
signifie que 2m1 doit être un entier positif ou zéro. Donc, m1 est restreint à la série de valeurs 0, 2 ,
1, 3
2 ,… et C = m1 (m1 + 1) .

Afin d'évaluer f ( j ) , nous calculons l'élément matriciel diagonal jm de J 2 = 1


2 (J + J − + J − J + ) + J z2 .
Le résultat est
f ( j )h 2 = λm−1 h 2 + 12 λm + m 2 h 2
1 2 2
2
(32)
= Ch 2 = m1 (m1 + 1)h 2
où nous avons utilisé (30). Nous renommons m1 , qui est la plus grande valeur de m pour une série
donnée, et nous l'appelons j. Ainsi les valeurs propres de J 2 sont j ( j + 1)h 2 où j est un entier
positif ou zéro ou la moitié d'un entier impair. Pour chaque valeur de j, il y a 2j + 1 valeurs de m
qui vont par pas entier de j à -j. Les éléments de matrice non nuls des opérateurs de création et de
destruction sont obtenus à partir de (28) et (30) et peuvent être écrits de différentes manières
équivalentes
j , m + 1 J + jm = [ j ( j + 1) − m(m + 1)] h
1/ 2

= [( j − m )( j + m + 1)] h
1/ 2

j , m − 1 J − jm = [ j ( j + 1) − m(m − 1)] h
1/ 2

(33)
= [( j + m )( j − m + 1)] h
1/ 2

J z jm = mh jm
J ± jm = [ j ( j + 1) − m(m ± 1)] h j , m ± 1
1/ 2

Un facteur de phase arbitraire a été posé égal à l'unité, en conformité avec la convention habituelle.

Matrices moment angulaire


Notre choix d'une représentation dans laquelle J 2 et J z sont diagonaux a conduit à des séquences
discrètes de valeurs pour les indices correspondant j et m. La matrice infinie ainsi obtenue est plus
facile à manipuler en la séparant en un ensemble infini de matrices finies, chacune caractérisées par
une valeur particulière de j et avec 2j + 1 lignes et colonnes.

Pour j = 0, J 2 et les composantes de J sont toutes représentées par les matrices nulles de rang un :
(0). Les matrices pour les trois valeurs suivantes de j sont obtenues en utilisant (22) et (33) :
j = 12 :
0 1 0 − i
J x = 12 h  J y = 12 h 
1 0 i 0 
1 0 1 0
J z = 12 h  J 2 = 34 h 2 
0 − 1 0 1
j = 1:
0 1 0 0 −i 0
h 
0 1
h 
Jx = 1 Jy = i 0 − i 
2 2
0 1 0 0 i 0 
1 0 0 1 0 0
J z = h 0 0 0  2
J = 2h  0
2
1 0
0 0 − 1 0 0 1
j = 32 :
 0 3 0 0  0 −i 3 0 0 
   
1  3 0 2 0 1 i 3 0 − 2i 0 
Jx = 2 h Jy = 2h
 0 2 0 3  0 2i 0 − i 3
   
 0 0 3 0   0 0 i 3 0 
(34) 3 0 0 0 1 0 0 0
0 1 0 0  0 1 0 0
J z = 12 h  J 2 = 154 h 2 
0 0 −1 0  0 0 1 0
   
0 0 0 − 3 0 0 0 1

Relation avec les harmoniques sphériques


La comparaison des résultats avec ceux sur les potentiels à symétrie sphérique suggère une relation
proche entre les matrices moment angulaire pour lesquelles j = l est un entier et les harmoniques
sphériques Ylm (θ , φ ) . Les équations aux valeurs propres de ces fonctions sont consistantes avec les
formes diagonales des matrices J 2 et J z . De plus, les J ± peuvent être exprimés comme des
opérateurs différentiels :
 ∂ ∂ 
J + = he iφ  + i cot θ 
 ∂θ ∂φ 
(35)
 ∂ ∂ 
J − = he −iφ  − + i cot θ 
 ∂θ ∂φ 

Il est alors possible, en utilisant les propriétés des harmoniques sphériques, de montrer que
J + Ylm (θ , φ ) = [l (l + 1) − m(m + 1)] hYl ,m +1 (θ , φ )
1/ 2

(36)
J −Ylm (θ , φ ) = [l (l + 1) − m(m − 1)] hYl ,m−1 (θ , φ )
1/ 2

comme on s'y attend selon (33).

Il est apparent que les harmoniques sphériques peuvent être vues comme constituant une
transformation de la représentation moment angulaire à la représentation coordonnées angulaires,
en accord avec la théorie des transformations :
(37) Ylm (θ , φ ) = θφ lm

En utilisant (37), on doit se souvenir que la fonction de poids sin θ doit être incluse quand une
intégration sur la coordonnée angulaire est effectuée.

Moment angulaire de spin


Puisque le moment angulaire orbital L = r × p est exprimé en fonction des coordonnées et des
impulsions, la quantité L2 n'est en général pas une constante du mouvement. Donc, le nombre
quantique l n'a pas besoin d'être bien défini et ne peut pas être utilisé pour caractériser une particule
excepté dans des circonstances très restreintes. Il est cependant possible d'avoir un moment
angulaire S qui satisfait les relations de commutation fondamentales (17) et tel que S 2 commute
avec toutes les variables dynamiques. Une condition nécessaire est que S ne soit pas exprimé en
fonction de r et de p. Alors, S 2 est une constante stricte du mouvement et peut être remplacé par le
nombre s (s + 1)h 2 , où s est un entier ou la moitié d'un entier impair. Nous avons déjà vu un
exemple d'un tel moment angulaire de spin intrinsèque où un vecteur fonction d'onde devait avoir s
= 1. Comme on s'y attend, cette fonction d'onde a 2s + 1 = 3 composantes et les matrices de spin
(13) sont essentiellement les mêmes que les matrices dans (34) qui correspondent à j = 1. Le
deuxième ensemble de matrice peut être obtenu à partir du premier par une transformation unitaire
qui a simplement l'effet de regrouper les composantes du vecteur fonction d'onde.

Nous avons également étudié les propriétés de transformation sous les rotations dans le cas s = 1/2.

On a trouvé expérimentalement que les électrons, protons, neutrons, neutrinos et les muons ont s =
1/2. Les photons ont s = 1 et les mésons pi ont s = 0. Il y a aussi des particules à courte durée de vie
et des agrégats de particules qui sont caractérisés par des valeurs définies du moment angulaire de
spin.

Groupe de recouvrement
Les matrices moment angulaire qui correspondent à des valeurs demi-entières de j ne peuvent pas
représenter des moments angulaires purement orbitaux et peuvent apparaître ainsi seulement en
relation avec le spin. Une particule ou système qui a j = 12 , 32 , L a la propriété intéressante
suivante. Supposons qu'un état d'un tel système subisse une rotation de 2π radians. Par facilité,
nous choisissons l'axe de rotation comme l'axe z et nous calculons l'opérateur rotation avec (21) :
(38) U R (2π ) = e −2πiJ z / h

Puisque les matrices J z données dans (34) sont diagonales, U R (2π ) est aussi diagonal et a les
valeurs propres e −2πim où m est un demi-entier. Donc, U R (2π ) est égal à -1 fois la matrice unité. Il
est facile de voir que ce résultat s'applique à la rotation de 2π autour de tout axe puisque la
composante de J dans cette direction peut toujours être choisie diagonale.

Nous en concluons que la rotation d'une particule de spin demi-entier de 2π radians change le
signe de sa fonction d'état. Ce que nous avions déjà constaté avec les particules de spin 1/2. Une
particule de spin entier est inchangée par une rotation de 2π tandis qu'une particule de spin demi-
entier nécessite une rotation de 4π pour redevenir elle-même. Puisque des particules s = 1/2
existent réellement dans la nature, ce résultat ne peut pas être écarté comme curiosité
mathématique. Le fait qu'il n'y ait pas de conflit avec l'expérience vient de que la fonction d'onde
elle-même n'est pas une quantité directement mesurable. Ce sont plutôt les combinaisons bilinéaires
des fonctions d'onde qui apparaissent dans les résultats des mesures et ces combinaisons ne
changent pas de signe sous une rotation 2π .

Nous voyons que la moitié des matrices qui peuvent être utilisées pour représenter J ou U R (φ )
correspondent à deux valeurs par rapport aux vecteurs φ . Cela suggère que ces représentations
pourraient correspondre à une seule valeur si on distinguait les φ qui diffèrent d'une rotation 2π ,
par exemple, en élargissant la sphère de rayon π qui contient les points finaux de ces vecteurs à
une sphère de rayon 2π . Comme avant, la fonction de poids pour l'espace du groupe n'est pas
constant dans la sphère. Cela fournit un isomorphisme géométrique vers un nouveau groupe qui a
deux fois plus d'éléments que le groupe de rotation. Bien que le groupe de rotation soit doublement
connexe, on vérifie facilement que le nouveau groupe est simplement connexe puisque la surface
entière de la sphère de rayon 2π correspond à un seul élément du groupe. Ce nouveau groupe est
appelé le groupe de recouvrement universel ou simplement groupe de recouvrement du groupe de
rotation. Il est dit homomorphe au groupe de rotation puisque à chaque élément du groupe de
recouvrement il correspond un et seulement un élément du groupe de rotation, à chaque élément du
groupe de rotation correspond au moins un élément (en réalité deux) du groupe de recouvrement et
il y a une correspondance avec le groupe de multiplication.

Groupes unitaires et unitaires spéciaux à deux dimensions


La représentation non triviale de rang le plus petit des générateurs du groupe de rotation sont les
trois premières matrices de (34) que nous écrivons sous la forme
J = 12 hσ
(39) 0 1  0 − i  1 0 
σx =   σ y = i  σz =  
1 0  0 0 − 1
Les matrices σ sont appelées les matrices de spin de Pauli car elles furent d'abord découvertes en
relation avec le spin de l'électron par Pauli. Le U R (φ ) généré en accord avec (21) et (39) ont deux
lignes et deux colonnes et ont deux valeurs par rapport aux vecteurs φ , ainsi les matrices de Pauli
génèrent une représentation du groupe de recouvrement. Il est évident que puisque J est hermitique,
U R (φ ) est unitaire.

On voit facilement que l'ensemble de toutes les matrices unitaires avec deux lignes et deux
colonnes forment un groupe pour lequel la loi interne est la multiplication matricielle. C'est le
groupe unitaire à deux dimensions, que nous avons vu, désigné U(2). Cependant, ce groupe est
plus grand que le groupe des matrices U R (φ ) construit à partir de (21) et (39) avec tous les vecteurs
réels φ puisque les matrices qui apparaissent dans l'exposant de U R (φ ) ont une trace zéro. On peut
alors utiliser la relation
( )
(40) det e A = e tr ( A )

Puisque la trace de chaque composante de σ est zéro, les U R (φ ) ont un déterminant unité. Donc le
groupe de recouvrement est ce qui est appelé le groupe unitaire spécial ou groupe unitaire
unimodulaire à deux dimensions, désigné par SU(2), qui est le groupe de toutes les matrices
unitaires 2x2 avec un déterminant égal à +1. Ces matrices forment en fait un groupe puisque la
propriété unimodulaire est préservée dans la multiplication matricielle.

Les groupes U(n) et SU(n)


Une matrice unitaire qui a n lignes et colonnes peut être écrite sous la forme
(41) U = e iH
où H est une matrice hermitique qui a n lignes et colonne. Toutes ces matrices U forment
clairement un groupe, noté U(n), pour lequel la loi interne est la multiplication matricielle. Les
éléments de matrices diagonaux de H sont réels et les éléments non diagonaux symétriques par
rapport à la diagonale principale sont complexes conjugués. Donc H et donc aussi U est caractérisé
par n 2 paramètres indépendants. On vérifie facilement que U(n) est un groupe de Lie compact
connexe et à n 2 paramètres.
La trace de toute matrice hermitique est réelle et le déterminant de toute matrice unitaire est un
nombre complexe de grandeur unité, ainsi en accord avec (40) et (41)
(42) tr (H ) = α , det (U ) = e iα , α réel

Donc, si l'on exige que le déterminant de U soit égal à +1, une seule contrainte est placée sur les n 2
paramètres, puisque alors α = 0(mod 2π ) . Ces matrices forment aussi un groupe de Lie compact
connexe. Il est noté SU(n) et a n 2 − 1 . Tout membre de SU(n) est clairement un membre de U(n)
mais l'inverse n'est pas vrai. SU(n) est donc un sous-groupe de U(n).

Nous notons un membre typique de SU(n) par U 0 , où


(43) U 0 = e iH 0 tr (H 0 ) = 0 det (U 0 ) = 1

Alors à partir un membre typique de U(n), caractérisé par (41) et (42), nous pouvons construire une
matrice correspondante U 0 telle que
α
(44) H = H 0 + 1 U = (e iα / n 1)U 0 = U 0 (e iα / n 1)
n
où 1 est la matrice unité à n dimensions et U 0 et H 0 sont reliés par (43). Les nombres e iα / n sont
des matrices unitaires 1x1 qui constituent le groupe U(1) et les matrices n × n e iα / n 1 forment
évidemment une représentation à une dimension de U(1). Donc, tout membre de U(n) peut être
écrit comme un produit matriciel des membres appropriés de U(1) et SU(n).

Il n'est pas difficile de voir que U(n) est un sous-groupe de U(m) et SU(n) est un sous-groupe de
SU(m), pourvu que n < m. Tout membre U de U(n) peut être développé en une matrice unitaire
m × m en ajoutant des lignes et colonnes de la manière suivante :
U O 
(45)  
O 1 

Ici 1 est la matrice unité avec m - n lignes et colonnes et O est une matrice rectangulaire nulle. La
matrice hermitique correspondantes peut être développée de manière similaire
H O
(46)  
 O O
où clairement (45) et (46) sont reliés par (41). Donc, un sous-ensemble particulier de matrices de
U(m) constitue une représentation matricielle de U(n) et de même pour SU(m) et SU(n).

Générateurs de U(n) et SU(n)


Les générateurs de tout groupe de Lie sont définis en fonction des éléments du groupe qui sont
infiniment prêt de l'élément unité, en analogie avec (7). Donc, si le groupe a s paramètres, les s
générateurs λ j spécifient un élément infinitésimal du groupe en fonction des s paramètres réels
infinitésimaux φ j :
s
(47) 1 + i ∑ φ j λ j
j =1

Pour U(n), les générateurs peuvent être pris comme toutes n 2 matrices hermitiques linéairement
indépendantes avec n lignes et colonnes. Puisque i fois le commutateur de toute paire de ces
matrices est aussi hermitique, il peut être exprimé comme une combinaison linéaire des
générateurs. Donc, l'algèbre de Lie de U(n) est fermée. De la même manière, les générateurs de
SU(n) peuvent être pris comme toutes n 2 − 1 matrices hermitiques sans trace linéairement
indépendantes avec n lignes et colonnes. A nouveau, i fois le commutateur de toute paire de ces
matrices est aussi hermitique et sans trace et ainsi l'algèbre est fermée.

Dans le cas n = 2, le groupe unitaire spécial a 2 2 − 1 = 3 paramètres qui peuvent être pris comme
les trois composantes du vecteur réel φ . Un choix pratique pour les trois générateurs est celui
défini par (39) qui est consistant avec les relations de commutation (17). Il est évident qu'aucun des
trois générateurs ne commutent ensembles. Le rang du groupe est défini comme le nombre
maximum de générateurs mutuellement commutant, ainsi SU(2) est de rang 1.

Nous avons trouvé plus tôt dans cette section qu'une représentation particulière d'une algèbre de Lie
et donc du groupe généré par l'algèbre est utilement spécifiée en choisissant autant d'opérateurs
diagonaux que possible. Donc, nous sommes partis de l'algèbre O(3), définie par les relations de
commutation (16) ou (17) et nous avons choisi une représentation dans laquelle les opérateurs
commutant J z et J 2 sont diagonaux, comme dans (24). La solution de (17) a alors conduit à des
valeurs aussi bien entières que demi-entières de j et donc à reconnaître que le groupe de
recouvrement de O(3) est SU(2). De cette manière, l'opérateur J 2 construit à partir des générateurs
a joué un rôle essentiel pour déterminer les représentations.

Selon le théorème de Racah, le nombre d'opérateurs indépendants qui peuvent être construits à
partir des générateurs, comme J 2 ci-dessus, et qui commutent avec tous les générateurs d'un
groupe de Lie est égal au rang du groupe. C'est Casimir qui reconnu la première fois qu'un tel
opérateur peut toujours être formé en prenant une combinaison bilinéaire appropriée des
générateurs. Ils sont donc appelés les opérateurs de Casimir. Puisque SU(2) est de rang 1, son seul
opérateur de Casimir est J 2 .

Le groupe SU(3)
Le groupe unitaire spécial à trois dimensions a 3 2 − 1 = 8 générateurs, λ1 , K , λ8 qui peuvent être
choisis de plusieurs manières pratiques. Puisque SU(2) est un sous-groupe utile de SU(3), nous
spécifions trois générateurs de SU(3) qui sont aussi des générateurs de SU(2) en développant les
matrices de Pauli (39) de deux à trois lignes et colonnes en accord avec (46).
0 1 0  0 − i 0  1 0 0
(48) λ1 = 1 0 0 λ 2 =  i 0 0 λ3 = 0 − 1 0
   
0 0 0 0 0 0 0 0 0

Ces trois premiers des huit λ satisfont évidemment les mêmes relations de commutation que les
σ . Les relations peuvent être écrites
[ ]
(49) σ i , σ j = 2i ∑ ε ijk σ k , i, j, k = x, y, z ou 1, 2, 3
k

où ε ijk est le symbole totalement antisymétrique de Kronecker dont les seules valeurs non nulles
sont
(50) ε 123 = ε 231 = ε 312 = −ε 132 = −ε 321 = −ε 213 = 1
Les cinq λ restants peuvent encore être choisis de plusieurs manières. Cependant, puisque la
principale application de l'algèbre SU(3) est la classification des particules élémentaires, nous
suivons la notation adoptée dans ce domaine :
0 0 1  0 0 − i  0 0 0 
λ4 = 0 0 0 λ5 = 0 0 0  λ6 = 0 0 1
   
1 0 0  i 0 0  0 1 0
(51)
0 0 0  1 0 0 
 
λ 7 =  0 0 − i  λ8 =
1 
0 1 0 
3 
0 i 0  0 0 − 2

On vérifie facilement que l'analogue de (49) est


[ ]
(52) λi , λ j = 2i ∑ f ijk λ k , i, j, k =1,…,8
k

où f ijk est totalement antisymétrique, ainsi il change de signe quand deux de ses indices sont
échangés. Les seules valeurs non nulles de f ijk sont les permutations de :
f 123 = 1 f147 = f 165 = f 246 = f 257 = f 345 = f 376 = 1
2
(53)
f 458 = f 678 = 1
2 3

Donc, f 123 est égal à ε 123 donné par (50), comme attendu.

Il y a au plus deux des huit générateurs qui commutent entre eux, λ8 et un des trois premiers λ
avec le choix ci-dessus, ainsi SU(3) est de rang 2. Donc, il y a deux opérateurs de Casimir qui
commutent avec tous les λ . L'un d'entre eux est
8
(54) C = ∑ λi2
i =1
et l'autre est une somme assez compliquée de produits trilinéaires des λ . Il est important de noter
que la relation [C , λi ] = 0 doit être établie à partir des équations opérateurs (52) à (53) et non à
partir de la représentation matricielle particulière des λ donnée par (48) et (51).

Représentation en fonction des coordonnées et impulsions


On a noté plus tôt que les opérateurs moment angulaire orbital (8) satisfont les relations de
commutation (16) pour les générateurs de O(3) ou SU(2) pourvu que les composantes de r et p
satisfont les conditions quantiques habituelles. Donc, nous devrions être capables d'identifier trois
des huis générateurs de SU(3) avec les composantes de L. Une fois que cela est fait, il est
raisonnable de s'attendre à ce que les cinq autres générateurs puissent aussi être représentés en
fonction des coordonnées et impulsions. Puisqu'il y en a cinq, il est naturel de tenter de les associer
avec les cinq composantes d'un certain tenseur quadrupolaire. Nous sommes conduit de cette
manière à considérer les huit quantités suivantes comme des représentations possibles des huit
générateurs de SU(3) :
L x = yp x − zp y L y = zp x − xp z L z = xp y − yp x
Q xy = αxy + βp x p y Q yz = αyz + βp y p z Q zx = αzx + βp z p x

(55) Q = α x 2 + y 2 − 2 z 2 + β p 2 + p 2 − 2 p 2
( ) ( )
0 x y z
2 3 2 3
α β
Q1 =
2
(x 2
)
− y2 +
2
(p 2
x − p y2 )
où α et β sont des nombres réels sans dimension.

Les 28 commutateurs de ces huit opérateurs sont facilement calculés et ils peuvent être comparés
aux commutateurs des huit λ donné dans les équations (52) et (53). Il peut sembler au premier
abord raisonnable d'identifier L x , L y et L z avec des multiples de λ1 , λ 2 et λ3 , respectivement, et
les relations de commutation (49) admettent cette possibilité. Cependant, il s'avère qu'il est
impossible de trouver des combinaisons linéaires des λ qui correspondent aux cinq Q. La raison
pour cela vient de la différence entre la manière dont SU(2) est un sous-groupe de SU(3) et la
manière avec laquelle O(3) est un sous-groupe de SU(3). Les matrices de Pauli (39), qui sont les
générateurs de SU(2), ont été étendues de deux à trois lignes et colonnes pour donner les trois
premiers λ donnés dans (48). D'un autre coté, O(3) est un sous-groupe de SU(3) pour la raison que
la matrice R, donnée dans (2), est une matrice 3x3 réelle orthonormale avec un déterminant égal à
l'unité et donc un cas particulier d'une matrice 3x3 unitaire unimodulaire. Il est clairement
impossible de trouver une représentation de la rotation infinitésimale typique (4) qui est de la forme
(48) puisque les troisièmes lignes et colonnes de ces dernières consistent en des zéros. Cette
conclusion n'est pas surprenante quand on se souvient que λ1 , λ 2 et λ3 génère la représentation j =
1/2 de SU(2) tandis que seules les représentations j entier peuvent être exprimées en fonction des
coordonnées et impulsions.

L'identification correcte est obtenue en écrivant (4) sous la forme (7) :


(56) R ≈ 1 − (φ ⋅ L ) φ infinitésimal
i
h

Il suit alors de la comparaison de (48) et (51) que


(57) L x = hλ7 L y = −hλ5 L z = hλ 2

Les identifications restantes sont obtenues en comparant les relations de commutation des L et des
Q avec celles des λ :
Q xy = h αβ λ1 Q yz = h αβ λ6 Q zx = h αβ λ 4
(58)
Q0 = h αβ λ8 Q1 = h αβ λ3

L'opérateur de Casimir (54) est, dans cette représentation,


(
C = h −2 L2 + h 2αβ ) (Q
−1 2
xy + Q yz2 + Q zx2 + Q02 + Q12 )
2
(59)  α 1 / 2 2  β 1 / 2 2 
( )
= −3 + 3h 2 −1
  r +   p 
 β  α  
III.3.2. Composition des états de moment angulaire et opérateurs
tensoriels
Un problème central de la vieille théorie quantique était la combinaison des moments angulaires
associés à deux parties d'un système (tel que le moment angulaire orbital de deux électrons dans un
atome ou le spin et le moment angulaire du même électron) pour former le moment angulaire du
système complet. Le modèle vectoriel a résolu ce problème avec une règle supplémentaire : la
grandeur de la somme de deux vecteurs moment angulaire peut avoir toute valeur partant de la
somme de leurs grandeurs (cas parallèle) à la différence de leurs grandeurs (cas antiparallèle), par
pas entier. C'est appelé la règle du triangle, puisque les grandeurs de deux moments angulaires et
leur résultante doivent former un triangle fermé (qui peut avoir une aire nulle). Le modèle vectoriel
dit aussi que la somme des composantes z du moment angulaire égale celle de leur résultante.

Ces règles sont également valides en mécanique quantique. Nous allons d'abord montrer qu'elles
s'appliquent aux combinaisons linéaires de produits d'états propres de deux opérateurs moment
angulaire commutant qui sont états propres du moment angulaire total. Le même type de formule
d'addition est alors montrée valide pour des produits de rotations ou d'opérateurs tensoriels et pour
l'état produit quand un opérateur tensoriel agit sur un état propre moment angulaire.

Il est évident que tout nombre d'états propre de moment angulaire et d'opérateurs tensoriels peuvent
être combinés en les prenant deux par deux en accord avec les méthodes développées dans cette
section. Cependant, des procédures analogues ont aussi été développées pour la combinaison
directe de trois états propres de moment angulaire ou plus.

Matrice de rotation pour un spin quelconque


Mais avant d'attaquer la situation générale, étudions une situation plus simple de manière un peu
intuitive. Afin d'appréhender le problème et de mieux comprendre la suite qui est fort abstraite.

Comme nous l'avons vu, tout système de spin ou "moment cinétique total" j peut exister dans l'un
ou l'autre des (2j + 1) états pour lesquels la composante z du moment angulaire peut avoir l'une ou
l'autre des valeurs discrètes de la série j, j - 1, j - 2, …, -(j - 1), -j (en unité de h ). Désignant la
composante z du moment cinétique de chaque état par mh , nous pouvons définir un état particulier
de moment cinétique en donnant les valeurs numériques de deux "nombres quantiques de moment
cinétique" j et m. Nous pouvons représenter un tel état par le vecteur d'état j, m , comme nous
avons vu. Dans le cas d'une particule de spin 1/2, les deux états sont alors 1 / 2,1 / 2 et 1 / 2,−1 / 2 ,
ou encore, pour un système de spin un, et dans cette notation, les états s'écriraient 1,+1 , 1,0 ,
1,−1 . Une particule de spin zéro a bien entendu pour unique état 0,0 .

Maintenant, nous voulons savoir ce qui se passe lorsque nous projetons l'état général j, m dans
une représentation par rapport à un nouveau système d'axes, obtenu par rotation. D'abord, nous
savons que j est un nombre qui caractérise le système, il a la même valeur pour les différents états,
donc il ne change pas. Si nous imposons une rotation aux axes, tout ce que nous faisons c'est de
fabriquer un mélange des diverses valeurs de m pour le même j. En général, il y aura une certaine
amplitude pour que le système se trouve dans l'état j , m′ pour le référentiel après rotation, m′
étant la nouvelle composante z du moment cinétique. Ce que nous voulons, ce sont donc tous les
éléments de matrice jm ′ R jm pour diverses rotations.

Nous avons déjà vu, en étudiant les lois de conservation, ce qui se passe si nous faisons une rotation
d'un angle φ autour de l'axe z. Le nouvel état est tout simplement l'ancien multiplié par e imφ , il a
encore la même valeur de m. Nous avons vu en détail de cas du spin 1/2 et nous généraliserons un
peu plus loin. Ceci peut s'écrire
(1) R z (φ ) j , m = e imφ j , m

Ou, si vous préférez,


(2) j , m′ R z (φ ) j , m = δ m, m′ e imφ

Pour une rotation autour d'un autre axe quelconque, il y aura un mélange de divers états m. Nous
pourrions bien sûr, essayer d'établir les éléments de matrice pour une rotation arbitraire décrite par
les angles d'Euler α , β et γ . Mais il nous est plus facile de nous souvenir que la plus générale de
ces rotations est aussi bien le résultat des trois rotations R z (γ ) , R y (α ) , R z (β ) . Donc, si nous
connaissons les éléments de matrice pour une rotation autour de l'axe y, nous aurons tout ce qu'il
nous faut.

Comme pouvons-nous trouver la matrice de rotation pour une rotation d'un angle θ autour de l'axe
y, dans le cas d'une particule de spin j ? Nous verrons une approche générale après. Nous l'avons
fait pour le spin un demi par un raisonnement de symétrie compliqué. Mais on peut aussi considérer
qu'un système de spin un est constitué de deux particules de spin un demi. Si vous accepter cela
pour le moment sans démonstration et le fait que dans le cas général les réponses ne dépendent que
du spin j et pas de l'agencement des entrailles de l'objet, nous pouvons étendre l'argument à un spin
arbitraire. Rappelons que nous tentons d'abord une approche intuitive. Nous pouvons, par exemple,
mijoter un système artificiel de spin 3/2 à partir de trois objets de spin 1/2. Nous pouvons même
nous éviter des complications en imaginant que ce sont trois particules distinctes, comme un
proton, un électron et un muon. En transformant chaque objet de spin un demi, nous pouvons voir
ce qui se passe pour l'ensemble du système, en nous souvenant que, pour l'état combiné, les trois
amplitudes sont multipliées. Voyons comment cela marche dans ce cas.

Supposons que nous prenions les trois objets de spin un demi, tous avec les spins "en haut". On
peut indiquer cet état par + + + . Si nous regardons ce système dans un référentiel tourné d'un
angle φ autour de l'axe z, chaque plus reste un plus, mais se trouve multiplié par e iφ / 2 . Nous avons
trois facteurs, de sorte que
(3) R z (φ ) + + + = e i (3φ / 2 ) + + +

Evidemment, l'état + + + est tout simplement ce que nous désignons par l'état m = +3/2 ou l'état
3 / 2,+3 / 2 .

Si nous faisons tourner le système autour de l'axe y maintenant, chacun des objets de spin un demi
aura une certaine amplitude pour être plus ou moins et le système sera un mélange des huit
combinaisons possibles + + + , + + − , + − + , − + + , + − − , − + − , − − + , − − − .
Cependant, il est clair que nous pouvons les séparer en quatre lots, dont chacun correspond à une
valeur particulière de m. On a d'abord + + + pour lequel m = 3/2. Ensuite, il y a trois états
+ + − , + − + , − + + , chacun avec deux plus et un moins. Comme chaque objet de spin un
demi a la même chance de se retrouver moins après une rotation, la contribution de chacune de ces
combinaisons doit être égale. Prenons donc la combinaison
(4)
1
{+ + − + + − + + − + + }
3
avec un facteur 1 / 3 pour normaliser l'état. Si nous faisons tourner cet état autour de l'axe z, nous
obtenons un facteur e iφ / 2 pour chaque plus et e −iφ / 2 pour chaque moins. Chaque terme dans (4) est
multiplié par e iφ / 2 , il y a donc un facteur commun e iφ / 2 . Cet état correspond à l'idée que nous nous
faisons d'un état m = +1/2. Nous pouvons conclure que
(5)
1
{ + + − + + − + + − + + } = 32 ,+ 12
3

De même, nous pouvons écrire


(6)
1
{ + − − + − + − + − − + } = 32 ,− 12
3
ce qui correspond à un état avec m = -1/2. Notez que nous prenons seulement les combinaisons
symétriques. Nous ne prenons aucune combinaison avec les signes moins. Elles correspondraient à
des états de même , mais de j différent. Nous verrons cela. Pour finir, nous avons
(7) 32 ,− 32 = − − −

Nous rassemblons nos quatre états dans le tableau suivant.


+ + + = 32 ,+ 32
1
{+ + − + + − + + − + + }= 3
2 ,+ 12
3
1
{+ − − + − + − + − − + }= 3
2 ,− 12
3
−−− = 3
2 ,− 32

Maintenant, tout ce qu'il nous reste à faire est de prendre chaque état, de le faire tourner autour de
l'axe y et de voir combien il donne de chaque autre état, en utilisant la matrice de rotation pour les
particules de spin un demi. Les états dans le système S seront représentés par 32 ,+ 32 , S = + + + ,
3
2 ,+ 12 , S{ + + − + + − + + − + + } et ainsi de suite. Le système T sera un système déduit de S
1
3
par rotation d'un angle θ autour de l'axe y. Les états dans T seront représentés par 32 ,+ 32 , T ,
3
2 ,+ 12 , T et ainsi de suite. Bien sûr, 3
2 ,+ 32 , T est identique à + ′ + ′ + ′ où les apostrophes se
réfèrent toujours au système T. De même, 3
2 ,+ 12 , T sera égal à
1
{ +′ + ′ −′ + +′ −′ +′ + −′ +′ +′ } et ainsi de suite. Chaque état + ′ dans le référentiel T
3
provient des deux états + et − dans S, par l'intermédiaire des éléments de matrice pour le spin
1/2.

Si l'on note a = + ′ + et b = − ′ + , avec trois particules de spin 1/2; nous pouvons écrire
+ + + = a 3 + ′ + ′ + ′ + a 2 b{ + ′ + ′ − ′ + + ′ − ′ + ′ + − ′ + ′ + ′ }
(8)
+ ab 2 { + ′ −′ −′ + − ′ + ′ − ′ + − ′ − ′ + ′ } + b 3 − ′ − ′ − ′

Et donc
(9) 32 ,+ 32 , S = a 3 32 ,+ 32 , T + 3a 2 b 32 ,+ 12 , T + 3ab 2 32 ,− 12 , T + b 3 32 ,− 32 , T

Ceci nous donne déjà plusieurs de nos éléments de matrice jT iS . Pour obtenir l'expression pour
(3/2, 1/2, S), nous commençons par un état fait de deux morceaux "+" et d'un morceau "-". Par
exemple, en notant c = + ′ − et d = − ′ − ,
+ + − = a 2 c + ′ + ′ + ′ + a 2 d + ′ + ′ −′ + abc + ′ − ′ + ′ + bac − ′ + ′ + ′
(10)
+ abd + ′ −′ −′ + bad − ′ + ′ − ′ + b 2 c − ′ − ′ + ′ + b 2 d − ′ − ′ − ′
En ajoutant deux expressions similaires pour + − + et − + + et en divisant par 3 , nous
trouvons
2 ,+ 2 , S =
3 1
( )
3a 2 c 32 ,+ 32 , T + a 2 d + 2abc 32 ,+ 12 , T
(11)
( )
+ 2bad + b 2 c 32 ,− 12 , T + 3b 2 d 32 ,− 32 , T

En continuant selon ce procédé, nous trouvons tous les éléments jT iS de la matrice de


transformation, telle qu'elle est donnée par le tableau ci-dessous. La première colonne vient de (9),
la seconde de (11). Les deux dernières colonnes ont été établies de la même manière.
2 ,+ 2 , S 2 ,+ 2 , S 2 ,− 2 , S 2 ,− 2 , S
3 3 3 1 3 1 3 3
jT iS
3
2 ,+ 32 , T a3 3a 2 c 3ac 2 c3
3
2 ,+ 12 , T 3a 2 b a 2 d + 2abc c 2 b + 2dac 3c 2 d
3
2 ,− 12 , T 3ab 2 2bad + b 2 c 2cdb + d 2 a 3cd 2
3
2 ,− 32 , T b3 3b 2 d 3bd 2 d3

Supposez maintenant que le référentiel T ait été tourné par rapport à S d'un angle θ autour de leurs
axes y. Alors a, b, c et d ont les valeurs (voir le cas du spin 1/2) a = d = cosθ / 2 et
c = −b = sin θ / 2 . En portant ces valeurs dans le tableau ci-dessus, nous obtenons la matrice de
transformation pour cette rotation pour un spin 3/2.

Les raisonnements que nous venons de faire sont immédiatement généralisables à un système de
spin quelconque j. Les états j, m peuvent être assemblés à partir de 2j particules, toutes de spin
un demi (j + m d'entre elles sont dans l'état + et j - m dans l'état − ). On fait la somme sur tous
les arrangements possibles et on normalise l'état en le multipliant par une constante adéquate. Ceux
d'entre vous qui ont l'esprit mathématique pourront peut-être démontrer que le résultat est le suivant
:
j , m′ R y (θ ) j , m = [( j + m )!( j − m )!( j + m′)!( j − m′)!]
1/ 2

(12) (− 1)k (cosθ / 2)2 j + m′−m−2 k (sin θ / 2)m− m′+ 2 k


∑k (m − m′ + k )!( j + m′ − k )!( j − m − k )!k!
où k doit prendre toutes les valeurs qui donnent des termes positifs ou nuls dans toutes les
factorielles.

C'est vraiment une vilaine formule mais elle peut vous servir à établir vos propres tables pour des j
quelconques. Certains éléments de matrice particuliers sont d'une importance plus grande que
d'autres, ils ont reçu des noms particuliers. Par exemple, les éléments de matrice pour m = m′ = 0
et pour des valeurs entières de j sont connus sous le nom de polynômes de Legendre et sont
désignés par Pj (cosθ ) :
(13) j ,0 R y (θ ) j ,0 = Pj (cosθ )

Les premiers de ces polynômes sont :


(14) P0 (cosθ ) = 1
(15) P1 (cosθ ) = cosθ
(16) P2 (cosθ ) =(3 cos θ − 1)
1
2
2

(17) P (cosθ ) = (5 cos θ − 3 cosθ )


3
1
2
3

Calcul de la matrice de rotation


Pour ceux qui aimeraient connaître les détails, nous établirons ici la matrice générale de rotation
pour un système de spin (ou moment cinétique total) j. Traiter le cas général n'est à vrai dire pas
très important. Une fois que l'on sait de quoi il retourne, on peut ensuite trouver les résultats
généraux dans des tableaux, dans de nombreux livres. D'un autre côté, après être arrivés aussi loin,
vous pourriez avoir plaisir à vous convaincre qu'en effet vous pouvez comprendre même les
formules très compliquées de la mécanique quantique qui interviennent, telles que (12), dans la
description du moment cinétique.

Nous étendons le raisonnement précédent à un système de spin j, système que nous considérons
constitué de 2j objets de spin un demi. L'état avec m = j serait + + + L + (avec 2j signes +). Pour
m = j - 1, il y aura 2j termes de type + + L + + − , + + L + − + et ainsi de suite. Considérons le
cas général pour lequel il y a r signes plus et s moins, avec r + s = 2j. Sous une rotation de l'axe z,
chacun des plus contribuera par e + iφ / 2 . Le résultat est un changement de phase de i (r / 2 − s / 2)φ .
Vous voyez que
r−s
(18) m =
2

De même que pour j = 3/2; chaque état avec une valeur définie de m doit être la combinaison
linéaire, avec des signes plus, de tous les états ayant même r et même s, donc des états
correspondant à tous les arrangements possibles, obtenus à partir de r plus et de s moins. De tels
arrangements sont au nombre de (r + s )! / r! s! . Pour normaliser chaque état, il nous faudrait diviser
la somme par la racine carrée de ce nombre. Nous pouvons écrire
 (r + s )!
−1 / 2

(19)  r! s! 
{ + + + L + + − − − L − − (r + et s − ) + (tous les réarrangements de l' ordre)} = j, m
avec
r+s r−s
(20) j = , m=
2 2

Nous nous faciliterons la tâche, en changeant une fois encore de notation. Maintenant que nous
avons défini les états par (19), les deux nombres r et s définissent un état tout aussi bien que j et m.
Nous suivrons plus facilement les choses en écrivant
(21) j , m = r
s

(22) r = j + m, s = j - m

Nous voudrions ensuite récrire (19) avec une nouvelle notation spéciale
 (r + s )!
{+ }
+1 / 2

(23) j , m = = −
r r s

 r! s! 
s perm .

Notez que nous avons changé en plus 1/2 l'exposant du facteur placé en tête. La raison en est que, à
l'intérieur de l'accolade, il y a exactement N = (r + s )! / r! s! termes. En comparant (23) avec (19), on
voit clairement que
{
(24) +
r

s
} perm .

est tout simplement une écriture abrégée de


{ + + L − − + tous les réarrangements}
(25)
N
où N est le nombre des termes différents dans l'accolade. Si cette notation est pratique, c'est qu'à
chaque rotation que nous faisons, tous les signes "plus" contribuent par un même facteur, lequel
facteur se retrouve donc à la rième puissance. De même, l'ensemble de tous les s termes moins
contribue par un facteur à la sième puissance, et ceci quel que soit l'ordre dans chaque terme.

Supposez maintenant que nous imposions à notre système une rotation d'un angle θ autour de l'axe
y. Ce qu'il nous faut c'est R y (θ ) rs . Quand l'opérateur R y (θ ) agit sur chaque + , il donne

(26) R y (θ ) + = + C + − S
où C = cosθ / 2 et S = sin θ / 2 . Et lorsque R y (θ ) agit sur chaque − , il donne
(27) R y (θ ) − = − C − + S

Ce qu'il nous faut est donc


 (r + s )!
{ }
1/ 2

R y (θ ) s R y (θ ) +
r s
r
= −
 r! s! 
perm

 (r + s )!
{(R (θ ) + ) (R (θ ) − ) }
1/ 2
r s
(28) = 
 r! s! 
y y perm

 (r + s )!
{( + C + − S ) ( − C − + S ) }
1/ 2
r s
=
 r! s! 
perm

Maintenant, chaque binôme doit être développé jusqu'à la puissance convenable et les deux
expressions obtenues doivent être multipliées l'une par l'autre. Il y aura des termes avec + à
toutes les puissances depuis zéro jusqu'à (r + s). Regardons tous les termes où + figure avec la
puissance r'. Ils apparaîtront toujours dans un produit avec − , lui-même à la puissance s' telle que
s' = 2j - r'. Supposez que nous rassemblions tous les termes de ce type. A chaque permutation
correspondra un certain coefficient numérique dans lequel interviennent les facteurs du
développement des binômes ainsi que les facteurs C et S. Supposez que nous appelions ce facteur
Ar ′ . Alors l'équation (28) se présentera ainsi :

{ }
r+s
(29) R y (θ ) rs = ∑ Ar ′ +
r′ s′
− perm
r ′ =0

Divisons maintenant Ar ′ par le facteur [(r ′ + s ′)!r ′! s ′!]


1/ 2
et désignons le quotient par Br ′ .
L'équation (29) est alors équivalente à
 (r ′ + s ′)!
{ }
r +s 1/ 2

(30) R y (θ ) s = ∑ Br ′ 
r′ s′
r
 + − perm
r ′ =0  r ′! s ′! 

Nous pourrions tout aussi bien dire que cette équation définit Br ′ en exigeant que (30) représente la
même expression que celle en (28).
Avec cette définition de Br ′ , les facteurs restant à droite de l'équation (30) sont uniquement les
r′
états s′
. On a donc
r+s
(31) R y (θ ) rs = ∑ Br ′ r′
s′
r =0

où s' est toujours égal à r + s - r'. Manifestement, ces coefficients Br ′ ne sont rien d'autre que les
éléments de matrice recherchés :
(32) r′
s′
Ry (θ ) rs = Br ′ .

Ce qu'il nous reste à faire, c'est de pousser les calculs pour obtenir les divers Br ′ . En comparant
(28) et (30), et en se souvenant que r' + s' = r + s, nous voyons que Br ′ est exactement le coefficient
de a r ′ b s′ dans l'expression suivante :
 r ′! s ′! 
1/ 2

 (aC + bS ) (bC − aS )
r s
(33) 
 r! s! 

Il ne reste plus à faire qu'un travail de force : effectuer les développements selon le théorème du
binôme et réunir les termes ayant la puissance voulue de a et de b. Si vous allez jusqu'au bout, vous
trouvez que le coefficient de a r ′ b s′ dans (33) est égal à
 r ′! s ′ 
1/ 2

(34)  ∑ (− 1)k S r −r′+ 2k C s + r ′− 2k r! s!


 r! s!  k (r − r ′ + k )!(r ′ − k )! (s − k )!k!
La somme doit être étendue à tous les entiers k qui donnent des termes de zéro ou plus grands dans
les factorielles. Cette expression donne alors l'élément de matrice que nous cherchions.

Enfin, nous pouvons revenir à notre notation initiale en termes de j, m et m' en utilisant
(35) r = j + m, r' = j + m', s = j - m, s' = j - m'

Après avoir fait ces substitutions, nous obtenons l'équation (12).


Valeurs propres du moment angulaire total
Revenons au cas totalement général avec un traitement rigoureux.

Nous commençons avec deux opérateurs de moment angulaire commutants J 1 et J 2 . Toutes les
composantes de J 1 commutent avec toutes les composantes de J 2 et J 1 et J 2 satisfont séparément
les relations de commutation J × J = ihJ . Les états propres orthonormaux de J 12 et J 1z sont
j1 m1 et J 2 n'a pas d'effet sur eux. De même, j 2 m2 sont les états propres orthonormaux de J 22
et J 2 z et J 1 n'a pas d'effet sur eux. Cette représentation est spécifiée par l'ensemble orthonormal de
kets j1 m1 j 2 m2 , dont chacun est un produit des kets j1 m1 et j 2 m2 . Tout autre paramètre qui
peut être nécessaire pour spécifier les kets peut être ignoré dans ce qui suit.

Puisque J 1 et J 2 commutent, le moment angulaire total J = J 1 + J 2 satisfait aussi les relations de


commutation. Les états propres orthonormaux de J 2 et J z sont jm et spécifient une seconde
représentation. Nous voulons trouver la transformation unitaire (rotation des axes de l'espace de
Hilbert) qui change une de ces représentations en l'autre. Il n'est cependant pas nécessaire de
travailler avec l'espace de Hilbert de dimension infinie en une fois. A la place, nous considérons le
sous-espace pour lequel j1 et j 2 ont des valeurs définies. Le nombre de dimensions de ce sous-
espace est (2 j1 + 1)(2 j 2 + 1) . Avec cette restriction, les kets de la première représentation peuvent
être notés simplement m1 m2 et notre but est de trouver la transformation unitaire m1 m2 jm .
Alors nous pouvons écrire
(36) jm = m1 m2 m1m2 jm
où les sommations sur m1 de − j1 à j1 et sur m2 de − j 2 à j 2 sont implicites.

Puisque J z = J 1z + J 2 z , il est apparent que m1 m2 jm est zéro sauf si m = m1 + m2 . Cela donne


immédiatement la deuxième règle du modèle vectoriel mentionné au début de cette section. Il
s'ensuit aussi que la plus grande valeur de m est j1 + j 2 et que cette valeur se produit seulement
une fois, quand m1 = j1 et m2 = j 2 . Cela montre que la plus grande valeur de j est j1 + j 2 et qu'il y
a seulement un tel état. La prochaine plus grande valeur de m est j1 + j 2 − 1 et elle se produit deux
fois : quand m1 = j1 et m2 = j 2 − 1 et quand m1 = j1 − 1 et m2 = j 2 (pourvu que ni j1 , ni j 2 ne
soient nuls). Une des deux combinaisons linéairement indépendantes de ces deux états doit être
associée avec le nouvel état pour lequel j = j1 + j 2 puisque pour cette valeur de j il doit y avoir les
valeurs de m allant de j1 + j 2 à − j1 − j 2 par pas entier. L'autre combinaison ne peut pas être
associée à cette valeur de j ou plus grande puisque des valeurs plus grandes de m seraient alors
présentes ce qui n'est pas le cas. Donc, la seconde combinaison est associée à j = j1 + j 2 − 1 et il y
a seulement un état avec cette valeur de j. En prolongeant cet argument, on voit que chaque valeur
de j, allant de j1 + j 2 à j1 − j 2 par pas entier, apparaît juste une fois. Cela établit la règle du
triangle du modèle vectoriel.

Chaque valeur de j de la nouvelle représentation est associée à 2j + 1 combinaisons linéairement


indépendantes des états propres originaux. Donc le nombre d'états propres jm est
j = j1 + j 2
(37) ∑ (2 j + 1)
j = j1 − j 2

qui est égal à (2 j1 + 1)(2 j 2 + 1) comme attendu.

Coefficients de Clebsh-Gordan
Les éléments de la matrice unitaire m1 m2 jm sont les coefficients du développement des états
propres jm en fonction des états propres m1 m2 , en accord avec (36). Ils sont appelés
coefficients de Clebsh-Gordan (ou Gordon), de Wigner ou de couplage vectoriel. Le
développement inverse de (36) est
(38) m1 m2 = jm jm m1 m2
où les sommations sur m de -j à j et sur j de j1 − j 2 à j1 + j 2 sont implicites. Le caractère unitaire
de la matrice de transformation est exprimé à travers :
m1 m2 jm jm m1′m′2 = m1m2 m1′m′2
(39) jm m1 m2 m1m2 j ′m′ = jm j ′m′

jm m1 m2 = m1 m2 jm

Les cotés droits des deux premières équations (39) sont des matrices unités (produits de symboles
de Kronecker). Nous suivrons la convention habituelle et nous choisirons les éléments de matrice
réels, tel que l'astérisque peut être enlevé sur le coté droit de la troisième équation (39).

Il est possible d'obtenir des formules explicites pour les coefficients de Clebsh-Gordan. Cependant,
elles sont plutôt compliquées et il est généralement plus simple de construire les coefficients
lorsque l'on en a besoin dans ces cas particuliers ou de se rapporter à des tables publiées. Dans ce
qui suit, nous allons d'abord dériver deux relations récursives puis construire quelques cas simples.

Relations récursives
Nous appliquons l'opérateur de création du moment angulaire J + vu précédemment au coté gauche
de (36). En utilisant la première des équations (33) de la section précédente et en divisant par h ,
nous obtenons
[ j ( j + 1) − m(m + 1)]1 / 2 j, m + 1 =
(40) {[ j ( j
1 1 + 1) − m1 (m1 + 1)]
1 / .2
m1 + 1, m2 + [ j 2 ( j 2 + 1) − m2 (m2 + 1)]
1 / .2
m1 , m2 + 1 }
m1 m2 jm

Nous pouvons maintenant substituer j , m + 1 au coté gauche de (36). Sur le coté droit, nous
notons que la sommation sur m1 peut être remplacée par une sommation sur m1′ = m1 + 1 dans le
premier terme. Il est facile de voir que la sommation sur m1′ peut aussi être faite de − j1 à j1 . De
même, la sommation sur m2 peut être remplacée par une sommation sur m2 + 1 dans le second
terme du coté droite. Puisque les kets m1 m2 sont orthonormaux, nous pouvons alors égaler leurs
coefficients des deux cotés pour obtenir
[ j ( j + 1) − m(m + 1)]1 / 2 m1m2 j , m + 1 =
(41) [ j1 ( j1 + 1) − m1 (m1 − 1)] m1 − 1, m2 jm +
1/ 2

[ j 2 ( j 2 + 1) − m2 (m2 − 1)]1 / 2 m1 , m2 − 1 jm
Cette procédure peut être répétée avec J − au lieu de J + . Le résultat est
[ j ( j + 1) − m(m − 1)]1 / 2 m1m2 j, m − 1 =
(42) [ j1 ( j1 + 1) − m1 (m1 + 1)] m1 + 1, m2 jm +
1/ 2

[ j 2 ( j 2 + 1) − m2 (m2 + 1)]1 / 2 m1 , m2 + 1 jm
Procédure de construction
La matrice m1 m2 jm a (2 j1 + 1)(2 j 2 + 1) lignes et colonnes mais se sépare en sous-matrices
déconnectées selon la valeur de m = m1 + m2 . Donc, il y aura une sous-matrice 1x1 pour laquelle
m = j1 + j 2 et j = j1 + j 2 . Ensuite il y aura une sous-matrice 2x2 pour laquelle m = j1 + j 2 − 1 et j
est ou bien j1 + j 2 ou j1 + j 2 − 1 . Le rang de ces sous-matrices croît d'abord par unité de un jusqu'à
la suivante jusqu'à ce qu'un rang maximum soit atteint pour une ou plusieurs sous-matrices puis
décroît par unité jusqu'à la dernière sous-matrice 1x1 avec m = − j1 − j 2 et j = j1 + j 2 . Chacune de
ces sous-matrice est unitaire, ainsi la première sous-matrice 1x1 est un nombre de grandeur unité,
que nous choisissons par convention égal à +1 :
(43) j1 jl 2 j1 + j 2 , j1 + j 2 = 1

Nous utilisons ensuite (42) avec m1 = j1 , m2 = j 2 − 1 , j = j1 + j 2 et m = j1 + j 2 . Le premier terme


sur le coté droit est zéro et nous obtenons
1/ 2
 j2 
(44) j1 , j 2 − 1 j1 + j 2 , j1 + j 2 − 1 =  
j
 1 + j 2 
en utilisant (43). De même, l'utilisation de (42) avec m1 = j1 − 1 , m2 = j 2 , j = j1 + j 2 et
m = j1 + j 2 donne
1/ 2
 j1 
(45) j1 − 1, j 2 j1 + j 2 , j1 + j 2 − 1 =  
 j1 + j 2 

Les équations (44) et (45) donnent la moitié de la sous-matrice 3x2 m1 m2 jm pour laquelle
m = j1 + j 2 − 1 et j = j1 + j 2 . L'autre moitié, pour laquelle m = j1 + j 2 − 1 et j = j1 + j 2 − 1 est
obtenue en utilisant la seconde relation d'orthonormalité (39). Il y a cependant un facteur
multiplicatif arbitraire de grandeur unité que nous choisissons tel que
1/ 2
 j1 
j1 , j 2 − 1 j1 + j 2 − 1, j1 + j 2 − 1 =  
j
 1 + j 2 
(46) 1/ 2
 j2 
j1 − 1, j 2 j1 + j 2 − 1, j1 + j 2 − 1 = − 
 j1 + j 2 

La convention ici est que le premier élément de matrice, qui a la forme j1 , j − j1 jj , est réel et
positif.

La prochaine sous-matrice peut être obtenue de manière similaire. La substitution des équations
(44) et (45) dans le coté droite de (42) donne
j 2 (2 j 2 − 1)
1/ 2
 
j1 , j 2 − 2 j1 + j 2 , j1 + j 2 − 2 =  
 ( j1 + j 2 )(2 j1 + 2 j 2 − 1) 
1/ 2
 4 j1 j 2 
(47) j1 − 1, j 2 − 1 j1 + j 2 , j1 + j 2 − 2 =  
 ( j1 + j 2 )(2 j1 + 2 j 2 − 1) 
j1 (2 j1 − 1)
1/ 2
 
j1 − 2, j 2 j1 + j 2 , j1 + j 2 − 2 =  
(
 1 j + j 2 )(2 j1 + 2 j 2 − 1) 
De la même manière, (42) et (46) conduit à
j1 (2 j 2 − 1)
1/ 2
 
j1 , j 2 − 2 j1 + j 2 + 1, j1 + j 2 − 2 =  
 ( j1 + j 2 )( j1 + j 2 − 1) 
j1 − j 2
(48) j1 − 1, j 2 − 1 j1 + j 2 − 1, j1 + j 2 − 2 =
[( j1 + j 2 )( j1 + j 2 − 1)]1 / 2
j 2 (2 j1 − 1)
1/ 2
 
j1 − 2, j 2 j1 + j 2 − 1, j1 + j 2 − 2 =  
 ( j1 + j 2 )( j1 + j 2 − 1) 

Nous utilisons à nouveau la deuxième équation (39) pour obtenir un ensemble normalisé de
coefficients qui sont orthogonaux à (47) et (48). Comme avec (46), nous choisissons le facteur de
phase arbitraire tel que la premier des coefficients suivant soit réel et positif :
j1 (2 j1 − 1)
1/ 2
 
j1 , j 2 − 2 j1 + j 2 − 2, j1 + j 2 − 2 =  
 ( j1 + j 2 − 1)(2 j1 + 2 j 2 − 1) 
(2 j1 − 1)(2 j 2 − 1) 
1/ 2

(49) j1 − 1, j 2 − 1 j1 + j 2 − 2, j1 + j 2 − 2 = 
 ( j1 + j 2 − 1)(2 j1 + 2 j 2 − 1) 

j 2 (2 j 2 − 1)
1/ 2
 
j1 − 2, j 2 j1 + j 2 − 2, j1 + j 2 − 2 =  
 ( j1 + j 2 − 1)(2 j1 + 2 j 2 − 1) 

La seule partie difficile de la procédure de construction précédente est l'utilisation de l'orthogonalité


qui devient progressivement de plus en plus compliquée lorsque le rang de la sous-matrice s'accroît.
Cependant, elle ne doit être employée qu'une fois pour chaque sous-matrice et il est plus facile
d'effectuer un exemple avec des valeurs numériques particulières pour j1 et j 2 que le cas général
que nous venons de considérer. On notera que la première relation récursive (41) peut aussi être
utilisée pour construire les coefficients de Clebsh-Gordan si nous partons de l'autre extrémité avec
la matrice 1x1 qui a m = − j1 − j 2 et j = j1 + j 2 .
Quelques coefficients particuliers
Nous allons donner ici des valeurs pour quelques coefficients particuliers. Dans chaque cas, les
 j
lignes des matrices sont indicées par (m1m2 ) et les colonnes par   .
 m

Tous les éléments de matrices non indiqués sont égaux à zéro. On vérifie facilement que les
équations (43) à (49) sont en accord avec ces matrices.
j1 = 12 j 2 = 12
1 1 0 1
1 0 0 −1
(50) 1
2
1
2 1 
1
2 − 12  1
2
1
2


− 12 12  1
2 − 1
2

 
− 12 − 12  1
j1 = 1 j 2 = 12
3 3 1 3 1 3
2 2 2 2 2 2
3
2
1
2
1
2 − 12 − 12 − 32
1 1
2 1 
 
(51) 1 − 1
2 
1
3
2
3 
0 1
2
 2
3 − 1
3

 
0 − 12 
2
3
1
3 
−1 1  1
− 2 
2
 3 3

− 1 − 12  1
j1 = 1 j2 = 1
2 2 1 2 1 0 2 1 2
2 1 1 0 0 0 −1 −1 −2
1 1 1 
 1 1 
1 0  2 2 
0 1  1
2 − 1
2

(52)  
1 −1  1
6
1
2
1
3 
0 0  2
0 − 1 
 3 3

−1 1  1
6 − 1
2
1
3 
0 −1  1 1 
 2 2 
−1 0  1
2 − 1
2

 
−1 −1  1

Eléments de matrice pour les états après rotation


Précédemment, on a fait une comparaison entre un élément de matrice d'une variable dynamique Ω
calculé pour toute paire d'états et l'élément de matrice du même opérateur quand les états ont subi
une translation. Cela a notamment montré que les éléments de matrice de r pour les états déplacés
du vecteur ρ sont égaux aux éléments de matrice correspondant de r + ρ pour les états originaux.
De même, on peut montrer que les éléments de matrice de r pour des états tournés d'un vecteur
infinitésimal φ sont égaux aux éléments de matrice correspondant de r + φ × r pour les états
originaux.

Nous pouvons donc utiliser l'analogue de la relation avec les translations pour définir un opérateur
Ω R ayant subit une rotation infinitésimale comme
(53) Ω R = U R+ (φ )ΩU R (φ ) ≈ Ω + [(φ ⋅ J ), Ω]
i
h
où nous avons utilisé les relations (14) et (15) de la section précédente. Les éléments de matrice de
Ω pour des états ayant subit une rotation sont égaux aux éléments de matrice de Ω R pour les états
originaux. Il s'ensuit que les propriétés de rotation de tout opérateur sont déterminées par son
commutateur avec le moment angulaire. Par exemple, un opérateur scalaire est un opérateur qui a
les mêmes éléments de matrice pour les états avec rotation que pour les états originaux. Pour un tel
opérateur [J, Ω] = 0 . Comme autre exemple, un opérateur vectoriel est un opérateur pour lequel
(53) conduit à une rotation de la même forme que celle pour le vecteur r. On peut montrer que
J R ≈ J + φ × J , ainsi le moment angulaire est aussi un opérateur vectoriel, comme attendu.

Opérateurs tensoriels irréductibles


Des opérateurs avec des propriétés de rotation d'ordre plus élevés que les scalaires et les vecteurs
peuvent aussi être construits. Par exemple, deux opérateurs vectoriels A et B peuvent être combinés
pour former un opérateur tensoriel à neuf composantes Ai B j où i, j = x, y, z. Ce n'est pas une
forme pratique avec laquelle travailler, pas plus qu'en physique classique. Il est habituel d'utiliser à
la place le produit scalaire, le produit vectoriel ou tenseur antisymétrique du second ordre et le
tenseur symétrique sans trace du second ordre qui ont une, trois et cinq composantes indépendantes,
respectivement. On peut montrer que ces dernières ont les propriétés de rotation des harmoniques
sphériques Ylm (θ , φ ) avec l =0, 1 et 2, respectivement. Ce sont des exemples d'opérateurs tensoriels
irréductibles, appelés ainsi car ils ont les propriétés de transformation les plus simples.

Comme remarqué en relation avec (53), le commutateur avec J détermine les propriétés de rotation
d'un opérateur. Afin de relier cela aux harmoniques sphériques Ylm (θ , φ ) , nous opérons avec J sur
Ylm (θ , φ ) f (θ , φ ) où f (θ , φ ) est une fonction arbitraire des angles. Dans l'étude du potentiel
sphérique, nous avons vu commenter exprimer J z comme l'opérateur différentiel − ih(∂ / ∂φ ) et
ainsi
(54) J z [Ylm (θ , φ ) f (θ , φ )] = f (θ , φ )J z Ylm (θ , φ ) + Ylm (θ , φ )J z f (θ , φ )

Le premier terme sur le coté droit est mhYlm (θ , φ ) f (θ , φ ) , ainsi


(55) [J z , Ylm (θ , φ )] f (θ , φ ) = mhYlm (θ , φ ) f (θ , φ )

Puisque f (θ , φ ) , nous obtenons la relation de commutation


(56) [J z , Ylm ] = mhYlm

De même, en utilisant les expressions de J + et J − , nous obtenons


[J + , Ylm ] = [l (l + 1) − m(m + 1)]1 / 2 hYl ,m+1
(57)
[J − , Ylm ] = [l (l + 1) − m(m − 1)]1 / 2 hYl ,m−1
En analogie avec ce qui précède, nous définissons maintenant un opérateur tensoriel irréductible
T(k ) , où k = 0, 12 ,1, 32 , K , comme un ensemble de 2k + 1 opérateurs T (k , q ) où q = k, k-1,… , -k,
qui ont des commutateurs avec J similaires à (56) et (57), où l ou j est remplacé par k et m est
remplacé par q :
[J z , T (k , q )] = qhT (k , q )
(58) [J + , T (k , q )] = [k (k + 1) − q (q + 1)] hT (k , q + 1)
1/ 2

[J − , T (k , q )] = [k (k + 1) − q(q − 1)]1 / 2 hT (k , q − 1)
L'importance de ces opérateurs vient du fait que plusieurs variables dynamiques physiquement
intéressantes peuvent être exprimées sous cette forme. Par exemple l'opérateur moment électrique
ou magnétique multipolaire 2 l est un opérateur tensoriel irréductible avec k = l.

Produits d'opérateurs tensoriels


La forte similarité entre les équations (33) et (36) de la section précédente d'un coté et les équations
(58) d'un autre coté, suggère que les opérateurs tensoriels irréductibles peuvent être combinés selon
la même règle que les états propres de moment angulaire. Une telle règle est nécessaire puisque
nous avons vu que le produit de deux opérateurs vectoriels est réductible.

Nous essayons donc d'adapter (36) dans ce but. Son analogue est
(59) T (k , q ) = ∑ T1 (k1 , q1 )T2 (k 2 , q 2 ) q1 q 2 kq
où le coefficient de Clebsh-Gordan q1 q 2 kq correspond à j1 = k1 et j 2 = k 2 . La sommation sur
q1 va de − k1 à k1 et sur q 2 de − k 2 à k 2 . Comme avant, nous appliquons J z , J + et J −
successivement. Cependant, en développant les relations récursives à partir de (36), nous pouvions
appliquer J du coté gauche et J 1 + J 2 du coté droit. La procédure analogue ici dérive de l'identité
(60) [J, T1T2 ] = [J, T1 ]T2 + T1 [J, T2 ]

Donc, si le commutateur avec J z est pris des deux coté de (59) nous obtenons
[J z , T (k , q )] = ∑ {[J z , T1 (k1 , q1 )]T2 (k 2 , q 2 ) + T1 (k1 , q1 )[J z , T2 (k 2 , q2 )]} q1q 2 kq
(61) = ∑ (q1 + q 2 )hT1 (k1 , q1 )T2 (k 2 , q 2 ) q1 q 2 kq
= qhT (k , q )
où nous avons utilisé la première équation (58) appliquée à T1 et T2 séparément et le fait que
q1 q 2 kq est égal à zéro sauf si q = q1 + q 2 . Donc, T (k , q ) comme définit par (59) satisfait aussi la
première équation (58).

En suite nous prenons le commutateur de (59) avec J + :


[J + , T (k , q )] = ∑ {[k1 (k1 + 1) − q1 (q1 + 1)]1 / 2 hT1 (k1 , q1 + 1)T2 (k 2 , q 2 ) +
[k 2 (k 2 + 1) − q2 (q2 + 1)]1 / 2 hT1 (k1 , q1 )T2 (k 2 , q 2 + 1)} q1q 2 kq
(62)

où nous avons utilisé la deuxième équation (58) appliquée à T1 et T2 séparément. Maintenant, tout
comme en dérivant (41), la sommation sur q1 dans le premier terme peut être remplacée par une
sommation sur q1′ = q1 + 1 avec le même domaine pour q1′ de − k1 à k1 . Avec un traitement
similaire pour le second terme, nous obtenons
{
[J + , T (k , q )] = ∑ [k1 (k1 + 1) − q1′ (q1′ − 1)]1 / 2 hT1 (k1 , q1′ )T2 (k 2 , q2 ) q1′ − 1, q2 kq +
}
(63)
[k 2 (k 2 + 1) − q′2 (q′2 − 1)]1 / 2 hT1 (k1 , q1 )T2 (k 2 , q ′2 ) q1q′2 − 1 kq
Nous pouvons maintenant enlever les apostrophes et utiliser la relation récursive (41) pour
simplifier le coté droit :
(64) [J + , T (k , q )] = ∑ [k (k + 1) − q (q + 1)] hT1 (k1 , q1 )T2 (k 2 , q 2 ) q1 q 2 k , q + 1
1/ 2
Alors la substitution de (59) avec q remplacé par q + 1 montre que T (k , q ) satisfait la deuxième des
relations de commutation (58). De même, le commutateur de (59) avec J − montre que T (k , q )
satisfait la troisième des équations (58).

Nous avons donc montré que les 2k + 1 opérateurs T (k , q ) définis par (59) constitue un opérateur
tensoriel irréductible. Le développement (59) peut aussi être inversé en utilisant les relations
d'orthonormalité (39) pour donner une réduction explicite d'un produit de deux tenseurs
irréductibles si les T (k , q ) sont connus :
(65) T1 (k1 q1 )T2 (k 2 q 2 ) = ∑ T (k , q ) kq q1 q 2 = ∑ T (k , q ) q1 q 2 kq

La sommation sur q va ici de -k à k et puis sur k de k1 − k 2 à k1 + k 2 . La dernière expression suit


de la troisième (39) puisque les coefficients de Clebsh-Gordan sont réels.

Combinaisons d'opérateurs et états propres


Finalement, nous pouvons trouver l'analogue des équations (36) et (59) quand un des facteurs sur la
droite est un opérateur tensoriel irréductible et l'autre un état propre du moment angulaire :
(66) jm = ∑ T1 (k1 , q1 ) j 2 m2 q1 m2 jm

Le coefficient de Clebsh-Gordan q1 m2 jm correspond à j1 = k1 et j 2 . La sommation sur q1 va


de − k1 à k1 et sur m2 de − j 2 à j 2 . Deux questions de notations méritent une attention en relation
avec cette équation. Tout d'abord, nous avons utilisé les indices 1 et 2 afin qu'ils correspondent
respectivement au premier opérateur tensoriel sur le coté droit de (59) et à la seconde fonction
propre sur le coté droit de (36). Ensuite, nous avons, comme avant, omis toute référence à des
paramètres autre que les nombres quantiques de moment angulaire qui pourraient être nécessaire
pour spécifier ces états. L'existence de ces autres paramètres est implicite et ils seraient en général
impliqués dans la dépendance radiale, par exemple, du ket jm qui serait différente de celle du ket
j 2 m2 .
L'analogue de l'identité (60) qui est nécessaire ici est
(67) JT1 j 2 m2 = [J, T1 ] j 2 m2 + T1 J j 2 m2

L'algèbre se déroule exactement comme dans ce qui précède et conduit à la conclusion que
l'ensemble des kets jm définis par (66) pour un j particulier et tous les m entre -j et j sont des
états propres du moment angulaire puisqu'ils satisfont des équations comme (33) et (36) de la
section précédente. Cependant, ils ne sont pas normalisés puisqu'il n'est en général pas vrai que
jm jm = 1 . D'autre part, le fait que les jm satisfont des équations homogènes comme celles de
(36) de la section précédente montre que leur normalisation ne dépend pas de m, bien qu'elle
dépende en général de j et aussi de k1 , j 2 et de la forme de l'opérateur tensoriel T1 .

Théorème de Wigner-Eckart
Le développement en série de jm en fonction de T1 (k1 , q1 ) j 2 , m2 donné dans (66) peut être
inversé en utilisant l'orthonormalité des coefficients de Clebsh-Gordan :
(68) T1 (k1 , q1 ) j 2 m2 = ∑ jm jm q1m2 = ∑ jm q1 m2 jm

Les sommations sont sur m de -j à j et sur j de k1 − j 2 à k1 + j 2 . Comme avec l'équation (65),


nous avons utilisé la troisième relation (39) et la réalité des coefficients de Clebsh-Gordan pour
arriver à cette dernière expression.

Nous pouvons maintenant multiplier (68) à gauche avec le bra j ′m′ , qui peut dépendre d'autres
paramètres d'une manière différente de jm . En utilisant la relation d'orthogonalité
(66) j ′m′ jm = 0 sauf si j = j ′ et m = m′
nous obtenons
(67) j ′m′ T1 (k1 , q1 ) jm = N ( j ′, k1 , j 2 , T1 ) q1 m2 j ′m′
N ≡ j ′m′ j ′m′ est le facteur de normalisation mentionné ci-dessus et qui est indépendant de m′ .
Nous enlevons les apostrophes et nous écrivons N sous une forme qui est en accord avec la
convention standard :
(68) jm T1 (k1 , q1 ) j 2 m2 = (− 1) 1 2 (2 j + 1) j T1 (k1 ) j 2 q1 m2 jm
k −j +j −1 / 2

L'équation (68) implique le théorème de Wigner-Eckart. Il dit que l'élément de matrice d'un
opérateur tensoriel irréductible entre des états propres du moment angulaire dépend des trois
valeurs de m ( q1 , m2 et m) seulement à travers le coefficient de Clebsh-Gordan q1 m2 jm qui
correspond à j1 = k1 et j 2 . Ce n'est pas un résultat surprenant puisque ces trois valeurs de m
déterminent l'orientation de l'opérateur et des deux états par rapport au système de coordonnées et
donc devraient influencer la valeur de l'élément de matrice seulement à travers un facteur
géométrique (le coefficient de Clebsh-Gordan). Les propriétés physiques de l'élément de matrice
sont contenues dans le facteur j T1 (k1 ) j 2 qui est appelé élément de matrice réduit. Il dépend des
grandeurs des trois moments angulaires ( k1 , j 2 et j) associés à l'opérateur et aux deux états, de la
forme de l'opérateur tensoriel T1 et des autres paramètres qui sont nécessaires pour spécifier les
deux états.

Cette factorisation des éléments de matrice des opérateurs tensoriels simplifie fortement leur calcul.
Puisque k1 est un entier pour les opérateurs physiques, il est plus simple de calculer l'élément de
matrice réduite dans (68) avec q1 = 0 et avec m2 = m = 0 ou m2 = m = 12 , selon. Les éléments de
matrice pour d'autres combinaisons de q1 , m2 et m sont alors facilement obtenus.

Parmi les plus importantes conséquences du théorème de Wigner-Eckart il y a les deux conditions
sous lesquelles les éléments de matrice des opérateurs tensoriels s'annulent nécessairement.
L'apparition des coefficients de Clebsh-Gordan montre que l'élément de matrice est zéro sauf si
m = q1 + m2 et si k1 , j 2 et j satisfont la règle du triangle. Comme exemple, la dernière condition
montre qu'un système dans un état avec un moment angulaire j ne peut pas avoir de valeur
moyenne non nulle (élément de matrice diagonal) pour le moment électrique ou magnétique
multipolaire 2 l sauf si l ≤ 2 j . Donc, une particule avec un spin zéro ne peut pas avoir de moment
magnétique dipolaire et une particule avec un spin 1/2 ne peut pas posséder de moment électrique
quadrupolaire.

Moment cinétique, inversion spatiale et renversement du temps


Revenons à la symétrie d'inversion de l'espace implémentée par l'opérateur U I tel que
(69) U I+ rU I = −r

Puisque p = −ih∇ et L = r × p , on voit facilement que


(70) U I+ pU I = −p et U I+ LU I = L

Puisque U I affecte les coordonnées spatiales mais pas le spin, nous nous attendons à ce qu'il
commute avec S et donc aussi avec J = L + S, ainsi
(71) U I+ SU I = S et U I+ JU I = J

Les équations (69) et (70) sont en accord avec ce qu'on s'attendrait classiquement des propriétés
d'inversion spatiale des coordonnées, de l'impulsion et du moment angulaire. Les coordonnées et
les impulsions sont des exemples de ce que l'on appelle vecteur ou vecteur polaire et le moment
angulaire est un vecteur axial ou pseudovecteur.

Revenons au renversement du temps.

T pour une particule de spin zéro


Nous allons obtenir une expression explicite de T telle que pour l'état renversé dans le temps les
signes de tous les moments linéaires et angulaires sont renversés mais où les autres quantités sont
inchangées. Le cas le plus simple est celui d'une particule de spin zéro par laquelle un état est
représenté par une fonction d'onde à une composante. L'opération dur un certain ψ α avec les
coordonnées produit un nouvel état que nous appelons ψ β : rψ α = ψ β . Si le signe de r ne change
pas avec le renversement du temps, nous nous attendons à ce que cette relation soit aussi valide
pour les états renversés dans le temps. C'est-à-dire que si ψ α ′ = Tψ α et ψ β ′ = Tψ β , alors
rψ α ′ = ψ β ′ . Il s'ensuit alors que
(72) rTψ α = rψ α ′ = ψ β ′ = Tψ β = Trψ α

Puisque ψ α est un état arbitraire, nous avons que


(73) rT = Tr

L'opération sur ψ α avec l'impulsion produit un nouvel état que nous appellerons ψ γ : pψ α = ψ γ .
Si maintenant le signe de p change avec le renversement du temps, nous nous attendons à avoir
pour les états renversé pψ α = −ψ γ ′ . Nous avons alors
(74) pTψ α = pψ α ′ = −ψ γ ′ = −Tψ γ = −Tpψ α
et ainsi
(75) pT = −Tp

De même, puisque L = r × p
(76) LT = −TL

Dans la représentation coordonnées, r est un opérateur réel et p = −ih∇ est un opérateur purement
imaginaire. Le chois le plus simple pour T qui satisfait les équations (73), (75) et (76) est alors
(77) U = 1 T = K

Cette conclusion dépend évidemment du choix de la représentation. Donc, si nous utilisons la


représentation impulsion, dans laquelle ψ α est une fonction de p plutôt que de r, alors p est un
opérateur multiplicatif réel et r est purement imaginaire, par exemple, x = ih (∂ / ∂p x ) . Dans ce cas,
T = UK est encore valide mais maintenant U est l'opérateur qui remplace p par -p :
Uψ α (p ) = ψ α (− p ) . Nous travaillerons presque toujours dans la représentation coordonnées
puisque c'est la plus familière et aussi la plus pratique.
T pour une particule de spin non nul
Pour une particule avec spin, en analogie avec (76), nous nous attendons à ce que
(78) ST=-TS et JT=-TJ

Puisque la forme explicite de T dépend de la représentation, nous devons choisir un ensemble


spécifique de matrices S quand s ≠ 0 , en plus du choix précédent de la représentation coordonnées.
Nous avons déjà vu que les matrices de spin s = 1 et les matrices j = 1 diffèrent seulement par une
transformation unitaire, ainsi elles correspondent à différents choix de représentation. Quand nous
travaillerons avec le spin, nous travaillerons dans la représentation donnée par les matrices (34) de
la section précédente.

Il s'ensuit alors que r, S x et S z sont des opérateurs réels et p, L et S y sont des opérateurs purement
imaginaires. Donc, si T était égal à K, les équations (73), (75), (76) et l'équation S y dans (78)
seraient satisfaites mais les équations S x et S z ne le seraient pas. Nous devons donc choisir U afin
qu'elle commute avec r, p, L et S y et telle que
(79) S xU = −US x et S zU = −US z

Donc U peut être tout opérateur unitaire qui est une fonction de seulement S y et qui satisfait (79).

Nous savons que l'opérateur unitaire exp(− iφ ⋅ J / h ) tourne un état d'un vecteur d'angle φ . Aussi,
avec (53), il transforme un opérateur en le même opérateur tourné de φ . De même, l'opérateur
unitaire exp(− iφ ⋅ S / h ) transforme tout opérateur fonction de S en la même fonction dans laquelle
l'argument est le résultat de la rotation de S de φ . En particulier, exp(− iπS y / h ) est une
transformation unitaire qui tour S de π radian autour de l'axe y et donc transforme S x en − S x et
S z en − S z . Nous pouvons donc poser
(80) T = exp(− iπS y / h )K

Pour une particule de spin 1/2, l'équation (80) prend la forme particulièrement simple
0 − i 
(81) T = −iσ y K où σ y =  
i 0 

Systèmes de plusieurs particules


Quand plusieurs particules sont présentes, T peut être construit en multipliant ensemble les U qui
correspondent à chaque particule et en multipliant ensuite ce produit par K :
(82) T = exp(− iπS1 y / h )L exp(− iπS ny / h )K

L'ordre des facteurs dans le produit des exponentielles n'est pas important puisque chacune opère
seulement sur l'état de la particule correspondante, donc elles doivent commuter ensemble et T
satisfait (78) pour chaque S.

Puisque chaque S y est purement imaginaire, chaque exponentielle dans (82) est réelle et donc
commute avec K. Alors, puisque K 2 = 1 , nous voyons que
(83) T 2 = exp(− 2iπS1 y / h )L exp(− 2iπS ny / h )

Chacune de ces exponentielles est une rotation de 2π radians. Ces rotations sont égales à +1 dans
le cas d'une particule de spin entier et -1 pour une particule de spin entier. Donc T 2 est égal à +1 ou
-1 selon que le nombre total de particules de spin demi-entier dans le système est pair ou impair.

Si T commute avec l'hamiltonien et si u k est une fonction propre de l'énergie, alors Tu k est aussi
une fonction propre de l'énergie avec la même valeur propre. Nous supposons d'abord qu'il n'y a
pas de dégénérescence. Alors Tu k représente le même état que u k , ainsi Tu k = cu k où c est un
certain nombre et
(84) T 2 u k = Tcu k = c ∗Tu k = c u k
2

2
Si T 2 = +1 , alors c = 1 , qui est une situation possible. Mais si T 2 = −1 , il n'y a pas de nombre c
possible, ce qui signifie qu'il doit y avoir une certaine dégénérescence. Dans ce cas, u k et Tu k sont
orthogonaux, comme on peut le voir de la manière suivante. On sait que (Tψ 1 , Tψ 2 ) = (ψ 2 ,ψ 1 ) . Si
nous choisissons ψ 1 = Tu k et ψ 2 = u k , cette relation devient (T 2 u k , Tu k ) = (u k , Tu k ) . Puisque
T 2 = −1 , le coté gauche est le négatif du coté droit, ainsi les deux cotés doivent être zéro et Tu k est
orthogonal à u k . Donc, pour tout u k il y a un Tu k distinct qui est dégénéré avec, ainsi la
dégénérescence totale est paire.

Pour un cristal à basse énergie, chaque atome est dans un environnement non symétrique et on ne
devrait normalement pas s'attendre à une dégénérescence pour les états des électrons dans l'atome.
Ces électrons se déplacent dans le champ électrique statique produit par le reste du cristal qui peut
être représenté par un terme ∑ eφ (ri ) dans l'hamiltonien, où ri est la coordonnée de l'électron i de
i
l'atome. Un tel terme de détruit évidemment par l'invariance par renversement du temps du reste de
l'hamiltonien qui décrit l'atome. Alors, si le nombre d'électrons par atome est impair, T 2 = −1 et il
doit y avoir au moins une double dégénérescence appelée dégénérescence de Kramers. La
dégénérescence est éliminée si le cristal est placé dans un champ magnétique externe H. Comme
nous verrons plus tard, les effets magnétiques associés avec le mouvement orbital et le spin de
chaque électron cause l'apparition de termes d'interactions dans l'hamiltonien qui sont
proportionnels à L.H et S.H. Les équations (76) et (78) montrent alors que l'hamiltonien n'est plus
invariant par renversement du temps. Donc le champ magnétique provoque une séparation des
niveaux d'énergie si le nombre d'électrons par atome du cristal est impair. On notera que cette
situation n'est pas en contradiction avec l'hypothèse affirmée précédemment que T est une
opération de symétrie pour un système fermé isolé (sans méson K ou B). Un champ magnétique
externe est par définition imposé de l'extérieur du système considéré. La dégénérescence est
éliminée car nous avons supposé implicitement que les courants produisant le champ H ne sont pas
renversés par T.

Réalité des fonctions propres


Considérons un système qui n'a pas de spin ou dont le spin n'est pas significatif. Alors U = 1 et T =
K dans la représentation coordonnées. De plus, supposons qu'il y a un opérateur Ω qui commute
avec K et qui a des valeurs propres non dégénérées ω µ : Ωv µ = ω µ v µ . Alors Kv µ représente le
même état que v µ , ainsi Kv µ = v µ∗ = cv µ où c est un certain nombre. Si nous écrivons maintenant
v µ comme la somme de ses parties réelles et imaginaires, v µ = wµ + iz µ où wµ et z µ sont des
fonctions réelles, alors
(84) wµ − iz µ = c (wµ + iz µ ) ou (1 − c )wµ = i (1 + c )z µ

Cela signifie que wµ et z µ sont multiples l'un de l'autre, ainsi v µ est réel à un coefficient
multiplicatif complexe près. En particulier, toutes les fonctions propres non dégénérées de l'énergie
sont réelles dans ce sens si le système est invariant par renversement du temps.

L'argument précédent peut quelque fois être étendu au cas où il y a dégénérescence. Un exemple
intéressant est fournit par un hamiltonien réel qui contient un potentiel à symétrie sphérique
arbitraire, tel que
[ ] [
(85) H , L2 = 0 [K , H ] = 0 K , L2 = 0]
Les fonctions propres v klm indicées par une valeur propre de l'énergie E k et un nombre quantique
de moment angulaire orbital l sont encore dégénérées par rapport au nombre quantique magnétique
m. Cependant, l'opérateur associé à m, L z = −ih(∂ / ∂φ ) , est purement imaginaire et, selon (76), ne
commute pas avec K. Donc, nous ne pouvons pas affirmer, comme ci-dessus, que Kv klm = cv klm et
que v klm est réel. En réalité, elle n'est pas réelle puisqu'elle est proportionnelle à l'harmonique
sphérique Ylm (θ , φ ) qui est complexe pour m ≠ 0 .

Si, cependant, nous restreignons notre attention au cas m = 0, nous travaillons seulement avec les
fonctions propres de L z qui ont la valeur propre zéro. Il s'ensuit alors de la relation Lz K = − KLz
que K fois une fonction propre de L z est encore une fonction propre de L z avec la valeur propre
zéro. Donc, s'il n'y a pas de dégénérescence supplémentaire, nous pouvons être sûrs que ces
fonctions propres v kl 0 de H et L2 qui ont m = 0 sont toutes réelles dans le sens utilisé ci-dessus. Ce
sont juste les fonctions propres utilisées dans la théorie de la diffusion. Comme attendu, les
décalages de phase δ l sont réels ou complexes selon que l'hamiltonien est ou non invariant par
renversement du temps.

III.4. Applications
Nous allons maintenant regarder quelques exemples simples où intervient le spin et les symétries
par rotation.

III.4.1. La précession d'une particule de spin un demi


Dans l'expérience de Stern-Gerlach, les particules se déplacent dans un champ magnétique B et
possèdent ainsi une énergie potentielle U = − µ ⋅ B où µ est le moment magnétique de la particule
et qui dépend du spin comme le montre cette expérience. Si nous voulions en donner une
description quantique, nous dirions que les particules d'une des faisceaux avaient une énergie qui
variait dans un certain sens et que celles de l'autre faisceau avaient une énergie qui variait en sens
opposé (nous pourrions mettre l'énergie magnétique U dans l'énergie potentielle V ou dans l'énergie
"interne" W, cela n'a aucune importance). Du fait de la variation d'énergie, les ondes sont réfractées
et les faisceaux sont courbés vers le haut ou vers le bas (nous voyons alors que la mécanique
quantique nous donnerait la même courbure que celle que nous calculons à partir de la mécanique
classique).

A partir de la dépendance de l'énergie en fonction de l'énergie potentielle, nous attendons aussi


qu'une particule placée dans un champ magnétique uniforme le long de la direction z ait une
amplitude de probabilité changeant dans le temps suivant
(1) e − (i / h )(− µ z B )t
(pratiquement, nous pouvons considérer ceci comme une définition de µ z ). Autrement dit, si nous
plaçons une particule dans un champ uniforme B pendant un temps τ , son amplitude de probabilité
sera multipliée par
(2) e −(i / h )(− µ z B )τ
par rapport à ce qu'elle aurait été sans champ. Or, pour une particule de spin un demi, µ z doit être
égal à plus ou moins un certain nombre, disons µ . Dans un champ uniforme, les phases des deux
états possibles changeraient donc à la même vitesse mais dans des sens opposés. Les deux
amplitudes seraient multipliées par
(3) e ± (i / h )µBτ

Ce résultat a des conséquences intéressantes. Supposez que nous ayons une particule de spin un
demi dans un état qui ne soit ni purement spin en haut, ni purement spin en bas. Nous pouvons
décrire cet état en fonction des amplitudes pour être dans les états purs spin en haut et spin en bas.
Mais dans un champ magnétique, les phases de ces états changent de façon différente. Si bien que
la réponse à n'importe quelle question concernant les amplitudes dépendra du temps que la particule
a passé dans le champ.

A titre d'exemple, considérons la désintégration de muons dans un champ magnétique. Quand des
muons sont produits par la désintégration de mésons π , ils sont polarisés (en d'autres termes, ils
ont une direction préférée). Les muons à leur tour se désintègrent en 2,2 microsecondes en
moyenne, en émettant un électron et deux neutrinos :
(4) µ → e + ν + ν

Dans cette désintégration, il se trouve que (au moins pour les énergies les plus élevées) les
électrons sont émis préférentiellement dans la direction opposée à la direction du spin du muon.
Supposez que nous considérions le dispositif expérimental montré ci-dessus. Si des muons
polarisés entrent par la gauche et sont amenés au repos dans un bloc de matière A, ils se
désintégreront un peu plus tard. Les électrons émis partiront en général dans toutes les directions.
Supposez cependant que les muons entrent tous dans le bloc d'arrêt A avec leurs spins dans la
direction x. Sans champ magnétique, il y aurait une certaine distribution angulaire des directions de
désintégration. Nous voudrions savoir comment cette distribution est changée par la présence du
champ magnétique. Nous nous attendons à ce qu'elle change avec le temps. Nous pouvons trouver
ce qui se passe en nous demandant quelle est l'amplitude, à un instant donné, pour que les muons
soient trouvés dans l'état (+x).

Nous pouvons poser le problème de la façon suivante : on sait qu'un muon a son spin dans la
direction x à t = 0. Quelle est l'amplitude pour qu'il soit dans le même état à l'instant τ ?
Seulement, nous n'avons aucune règle pour le comportement d'une particule de spin un demi dans
un champ magnétique faisant un angle droit avec le spin, mais, par contre, nous savons ce qui
arrive aux états de spin en haut et de spin en bas par rapport au champ, leurs amplitudes sont
multipliées par le facteur (3). Notre méthode consiste alors à choisir la représentation dans laquelle
les états de base sont spin en haut et spin en bas par rapport à la direction z (la direction du champ).
Toute question peut alors être énoncée en termes des amplitudes de ces états.

Disons que ψ (t ) représente l'état du muon. Lorsque celui-ci entre dans le bloc A, son état est ψ (0)
et nous voulons connaître ψ (τ ) à un temps postérieur τ . Si nous représentons les deux états de
base par (+z) et (-z), nous connaissons les amplitudes + z ψ (0) et − z ψ (0 ) , nous connaissons
ces amplitudes puisque nous savons que ψ (0) représenter un état dont le spin est dans l'état (+s).
Ces amplitudes sont
1
+ z + x = C+ =
2
(5)
1
− z + x = C− =
2
Il se trouve qu'elles sont égales. Comme ces amplitudes se rapportent à l'état t = 0, appelons-les
C + (0) et C − (0) .

Nous savons ce qui arrive à ces amplitudes avec le temps. En utilisant (3), nous avons
C + (t ) = C + (0)e − (i / h )µBt
(6)
C − (t ) = C − (0)e +(i / h )µBt

Mais si nous connaissons C + (t ) et C − (t ) , nous connaissons tout ce qu'il faut connaître sur l'état au
temps t. Le seul ennui est que ce que nous voulons connaître est la probabilité pour que le spin soit
dans la direction +x au temps t. Mais nos règles générales nous permettent de traiter ce problème.
Nous écrivons que l'amplitude pour être dans l'état (+s) au temps t, que nous pouvons appeler
A+ (t ) , est
(7) A+ (t ) = + x ψ (t ) = + x + z + z (t ) + + x − z − z (t )
ou
(8) A+ (t ) = + x + z C + (t ) + + x − z C − (t )


En utilisant les résultats sur le spin 1/2 ou l'égalité φ χ = χ φ , nous savons que
1 1
(9) + x + z = +x −z =
2 2

Nous connaissons donc toutes les quantités de (8). Nous obtenons


(10) A+ (t ) = e (i / h )µBt + e −(i / h )µBt
1 1
2 2
ou
µB
(11) A+ (t ) = cos t
h
Un résultat particulièrement simple ! Remarquez que ce résultat est en accord avec ce que nous
attendons pour t = 0. Nous obtenons A(0) = 1, ce qui est correct puisque nous avons supposé que le
muon était dans l'état (+x) à t = 0.

La probabilité P+ pour que le muon soit trouvé dans l'état (+x) à t est ( A+ ) ou
2

µBt
(12) P+ = cos 2
h

La probabilité oscille entre zéro et un, comme le montre la figure ci-dessus. Remarquez que la
probabilité redevient égale à un pour µBt / h = π (et non 2π ). Comme nous avons pris le carré
d'un cosinus, la probabilité se répète identique à elle-même avec la fréquence 2 µB / h .

Par conséquent, nous trouvons que la chance de capter l'électron de désintégration dans le compteur
d'électrons change périodiquement avec le temps que le muon a passé dans le champ magnétique.
La fréquence dépend du moment magnétique µ . En fait, c'est précisément de cette façon que l'on a
mesuré le moment magnétique du muon.

Nous pouvons bien entendu utiliser la même méthode pour résoudre tout problème concernant la
désintégration du muon. Comment, par exemple, varie dans le temps la probabilité de détecter un
électron de désintégration dans la direction y, à 90° de la direction x, mais toujours à angle droit
avec le champ ? Si vous faites le calcul, l'amplitude pour être dans l'état (+y) varie comme
cos 2 {(µBt / h ) − π / 4}, qui oscille avec la même période, mais qui atteint son maximum un quart de
période plus tard, lorsque µBt / h = π / 4 . En fait, ce qui se passe est que, au fut et à mesure que le
temps passe, le muon passe par une succession d'états qui correspondent à des polarisations
complètes dans des directions qui tournent continuellement autour de l'axe z. Nous pouvons décrire
cela en disant que le spin précesse à la fréquence
2 µB
(13) ω p =
h

III.4.2. Les états de polarisation du photon


Nous aimerions maintenant parler du photon. Pour décrire un photon, nous devons d'abord donner
son vecteur impulsion. Pour un photon libre, la fréquence est déterminée par l'impulsion, il n'est
donc pas nécessaire que nous disions aussi quelle est sa fréquence. Après cela, cependant, il nous
reste encore une propriété que nous appelons la polarisation. Imaginez qu'un photon vienne vers
vous et qu'il soit monochromatique, c'est-à-dire de fréquence définie (laquelle sera gardée
inchangée tout au long de cette discussion de sorte que n'aurons pas une diversité d'états
d'impulsion). Il y a alors deux directions de polarisation. En théorie classique, on peut décrire la
lumière comme un champ électrique qui oscille horizontalement ou un champ électrique qui oscille
verticalement (par exemple). Ces deux sortes de lumières sont désignées comme lumière polarisée
suivant x et suivant y. La lumière peut aussi être polarisée dans une autre direction quelconque, ce
qui peut être réalisé par la superposition d'un champ dans la direction x et d'un autre dans la
direction y. Ou encore, si vous prenez les composantes x et y déphasées de 90°, vous obtenez un
champ électrique qui tourne, la lumière est alors polarisée elliptiquement.

Maintenant supposez que nous ayons un photon seul, juste un. On ne peut pas invoquer de la même
manière un champ électrique. Tout ce que nous avons, c'est un photon. Mais un photon doit
présenter l'analogue du phénomène classique de polarisation. Il doit y avoir au moins deux
différentes "sortes" de photons. A première vue, vous pourriez penser qu'il doit en exister une
infinité de sortes. Après tout, le champ électrique peut pointer dans toutes sortes de directions.
Néanmoins, nous pouvons décrire la polarisation d'un photon comme un système à deux états. Un
photon peut se trouver dans l'état x ou dans l'état y . Par x nous entendons l'état de
polarisation de chacun des photons d'un faisceau de lumière polarisée, dans l'acceptation classique
du terme, suivant x. De même, par y nous entendons l'état de polarisation de chacun des photons
d'un faisceau polarisé suivant y. Et nous pouvons prendre x et y comme nos états de base d'un
photon d'impulsion donnée et se dirigeant cers vous, suivant ce que nous appellerons la direction z.
Ainsi, il y a deux états de base x et y et c'est tout ce qu'il faut pour décrire n'importe quel photon.

Par exemple, si nous avons un morceau de Polaroïd dont l'axe est orienté de manière à laisser
passer la lumière polarisée dans la direction que nous appelons x et si nous envoyons un photon que
nous savons être dans l'état de polarisation y , il sera absorbé par le Polaroïd. Si nous envoyons un
photon que nous savons être dans l'état x , il passera à travers et ressortira dans l'état x . Si vous
prenez un morceau de calcite, qui sépare un faisceau de lumière polarisée en un faisceau x et un
faisceau y , ce morceau de calcite sera le strict analogue d'un appareil de Stern et Gerlach qui
sépare un faisceau d'atomes suivant les deux états + et − . Tout ce que nous avons fait
auparavant avec des particules et des appareils de Stern et Gerlach, nous pouvons donc le refaire
avec de la lumière et des morceaux de calcite. Et si on a de la lumière filtrée par un morceau de
Polaroïd disposé à un angle θ . Est-ce un autre état ? Oui, bien sûr, c'est un autre état. Désignons
par x l'axe du Polaroïd , de façon à le distinguer de nos états de base.
Un photon sortant sera dans l'état x ′ . Cependant, tout état peut se représenter comme une
combinaison linéaire des états de base et l'expression de cette combinaison est ici,
(1) x ′ = cosθ x + sin θ y

C'est-à-dire que, si un photon a traversé un morceau de Polaroïd disposé à l'angle θ (par rapport à
x), on peut encore le résoudre en faisceaux x et y , par un morceau de calcite par exemple. Ou,
si vous préférez, vous pouvez l'analyser en composantes x et y, uniquement dans vote imagination.
D'une manière ou de l'autre, vous trouverez une amplitude cosθ pour que le photon soit dans l'état
x et une amplitude sin θ pour l'état y .

Posons maintenant la question suivante : supposez qu'un photon polarisé dans la direction x' par un
morceau de Polaroïd disposé à l'angle θ , arrive sur un Polaroïd disposé à l'angle zéro, comme ci-
dessous. Que va-t-il se passer ?
Quelle probabilité a-t-il de passer au travers ? La réponse est la suivante : après avoir traversé le
premier Polaroïd, il est à coup sûr dans l'état x ′ . Le second Polaroïd laissera passer le photon s'il
est dans l'état x (mais il l'absorbera s'il est dans l'état y ). Ce que nous voulons savoir, c'est donc
la probabilité pour que le photon se manifeste dans l'état x . Nous obtenons cette probabilité en
prenant le carré du module de l'amplitude x x ′ , amplitude pour qu'un photon dans l'état x ′ soit
aussi dans l'état x . Que vaut x x ′ ? Multipliez tout simplement (1) par x pour obtenir
(2) x x ′ = cosθ x x + sin θ x y

Mais x y = 0 pour des raisons de physique, comme il se doit, puisque x et y sont des états de
base, et x x = 1 . Nous obtenons donc
(3) x x ′ = cosθ
et la probabilité est cos 2 θ . Par exemple, si le premier Polaroïd est disposé à 30°, un photon
traversera trois fois sur quatre t, une fois sur quatre, il échauffera le Polaroïd en y étant absorbé.

Voyons maintenant ce qui se passe dans cette même situation, d'un point de vue classique. Nous
aurions un faisceau de lumière avec un champ électrique qui varierait d'une manière ou d'une autre,
supposons-le "non polarisé". Après avoir traversé le premier Polaroïd, le champ électrique, de
grandeur E , oscille dans la direction x'. Nous pourrions représenter graphiquement c champ
comme un vecteur qui oscille et dont E0 est la grandeur maximum. C'est le schéma ci-dessous.

Lorsque la lumière arrive au second Polaroïd, seule passe à travers la composante x du champ
électrique, E0 cosθ . L'intensité est proportionnelle au carré du champ et donc à E02 cos 2 θ . Ainsi
l'énergie qui passe à travers est d'un facteur cos 2 θ plus faible que celle qui a pénétré le dernier
Polaroïd.
Les points d vu classique et quantique donnent des résultats similaires. Si vous envoyiez 10
milliards de photons, sur le second Polaroïd et si la probabilité moyenne de traversée est pour
chacun d'eux, mettons de 3/4, alors il vous faudrait prévoir que les 3/4 des 10 milliards
traverseraient. De même, l'énergie qu'ils transporteraient, serait les 3/4 de l'énergie que vous
vouliez faire traverser. La théorie classique ne dit rien au sujet du comportement statistique. Elle dit
seulement que l'énergie qui traverse doit être exactement des 3/4 de l'énergie que vous aviez
envoyée. C'est bien sûr impossible s'il n'y a qu'un photon. Il n'existe rien qui soit les 3/4 d'un
photon ou il y est tout entier, ou il n'y est pas du tout. La mécanique quantique nous dit : il y est
tout entier trois fois sur quatre. La relation entre les deux théories est claire.

Que peut-on dire des autres types de polarisation ? Par exemple, la polarisation circulaire droite ?
Dans la théorie classique, la polarisation circulaire droit a des composantes x et y égales et
déphasées de 90°. Dans la théorie quantique, un photon polarisé circulairement à droite (PCD) a
des amplitudes égales pour être polarisé x ou y et ces amplitudes sont déphasées de 90°. En
désignant par l'état R un photon PCD et par L un photon PCG, on peut écrire

R =
1
(x +i y )
2
(4)
L =−
1
(x −i y )
2

Le facteur 1 / 2 est là pour normaliser les états. A l'aide de ces états, vous pouvez calculer tout ce
que vous voulez comme effets de filtrage ou d'interférence, en utilisant les lois de la théorie
quantique. Si vous voulez, vous pouvez aussi choisir R et L comme états de base et tout
exprimer en termes de ces états. Il vous suffit pour cela de montrer que R L = 0 , ce que vous
pouvez faire en prenant la forme conjuguée de la première des équations (4) et en la multipliant par
l'autre. Vous pouvez résoudre la lumière en ses polarisations x et y ou bien en ses polarisations x' et
y' ou encore en ses polarisations droite et fauche, ce sont là autant de bases.
Juste à titre d'exemple, essayons de retourner nos formules. Pouvons-nous représenter l'état x
comme une combinaison d'états circulaires, droit et gauche ? Oui et voici comment :
x =
1
(R + L )
2
(5)
y =−
i
(R − L )
2

Il suffit pour cela d'additionner et de soustraire les deux équations en (4). C'est facile de passer
d'une base à l'autre.

Il faut pourtant signaler un point assez curieux. Si un photon est polarisé circulairement à droite, il
ne devrait rien avoir à faire avec les axes x et y. Si nous devions faire la même observation en nous
plaçant dans un système de coordonnées tourné d'un certain angle par rapport à la ligne de vol, la
lumière resterait polarisée circulairement à droite, et de même pour la gauche. Les lumières
polarisées circulairement à droite et à gauche restent les mêmes sous toutes les rotations de ce type.
La définition est indépendante du choix de la direction x (à ceci près que la direction du photon est
donnée). N'est-ce pas agréable, il n'est plus besoin d'axe pour définir la polarisation. C'est beaucoup
mieux que x et y. D'un autre coté, n'est-ce pas un peu miraculeux qu'en additionnant les
polarisations droite et gauche, vous puissiez trouver quelle était la direction x ? Si "droite" et
"gauche" ne dépendent en aucune manière de x, comment se fait-il que nous puissions les
rassembler et réobtenir x ? Nous pouvons partiellement répondre à cette question en écrivant
explicitement l'état R ′ qui représente un photon PCD dans le référentiel x', y'. Dans ce référentiel,
vous écririez
(6) R ′ =
1
( x′ + i y ′ )
2

A quoi ressemble un tel état dans le référentiel x, y ? Vous n'avez qu'a substituer à x' l'expression
(1) et à y' l'expression correspondant − sin θ x + cosθ y . Alors :
R′ =
1
[cosθ x + sin θ y − i sin θ y + i cosθ y ]
2
(7) =
1
[(cosθ − i sin θ ) x + i (cosθ − i sin θ ) y ]
2
=
1
(x + i y )(cosθ − i sin θ )
2

Le premier terme c'est R lui-même et le second c'est e −iθ . Notre résultat est donc
R ′ = e − iθ R

Les états R et R ′ sont les mêmes au facteur de phase e −iθ près. Si nous faisons le même travail
pour L ′ , nous obtenons
(9) L ′ = e + iθ L

C'est similaire à ce que nous avions trouvé pour une particule de spin un demi quand nous faisions
tourner les coordonnées autour de l'axe z. Nous avions obtenu des facteurs de phase e ± iφ / 2 . La
relation ci-dessus correspond à une particule de spin un et ceci n'est pas une coïncidence. Le
photon est particule de spin un qui, cependant, n'a pas d'état "zéro".

Vous voyez maintenant ce qui se passe. Si nous additionnons R et L , le résultat est différent de
ce que nous obtenons en additionnant R ′ et L ′ . Par exemple, un photon de polarisation x est la
somme de R et de L et un photon y est la somme des mêmes termes mais avec un déphasage de
90° en arrière pour l'un et de 90° en avant pour l'autre. C'est précisément ce que nous aurions
obtenu en faisant la somme de R ′ et L ′ pour la valeur de 90° de θ et ceci est correct. Une
polarisation x dans le référentiel prime est la même chose qu'une polarisation y dans le référentiel
initial. Il n'est donc pas tout à fait vrai qu'un photon de polarisation circulaire apparaisse identique
dans tout système d'axe. Sa phase (la relation de phase entre les états de polarisations circulaires
droit et gauche) garde trace de la direction x.

III.4.3. La lumière polarisée


Dans la section précédente, nous avons montré qu'une lumière polarisée circulairement à droite est
multipliée par e iφ lorsqu'on l'observe dans un référentiel ayant subi une rotation d'angle φ autour
de z. Est-ce à dire que les photons polarisés circulairement à droite portent un moment cinétique
d'une unité (mesuré en unité h ) le long de l'axe z ? C'est cela même. Cela signifie aussi qu'un
faisceau de lumière contenant un grand nombre de photons tous polarisés circulairement et dans le
même sens, c'est le cas d'un faisceau classique polarisé, sera porteur de moment cinétique. Si
l'énergie totale transportée par le faisceau au cours d'un intervalle de temps donné est W, il y a lors
N = W / hω photons. Chacun d'eux porte le moment angulaire h , il y a donc un moment cinétique
total
W
(1) J z = Nh =
ω

Pouvons-nous démontrer d'une manière classique qu'un lumière polarisée circulairement à droite
transporte une énergie et un moment cinétique proportionnel à W / ω ? Si tout st correct, ce doit
être une proposition classique. Nous avons là un cas où il est possible de passer du quantique au
classique. Nous devons donc pouvoir vérifier que la physique classique est en accord. Cela nous
dira si nous étions fondés à appeler la quantité m moment cinétique. Rappelez-vous ce qu'est
classiquement une lumière polarisée circulairement à droite. Elle est représentée par un champ
électrique dont les composantes x et y oscillent avec la même fréquence mais avec des phases
décalées de 90°, de sorte que le vecteur électrique résultant E décrit un cercle. Voir la figure (a) ci-
dessous
Imaginez que cette lumière éclaire une paroi qui l'absorbe, au moins en partie, et considérez, d'un
point de vue classique, un atome de cette paroi. Nous supposerons que l'atome est isotrope et qu'il a
donc les mêmes possibilités d'oscillation suivant les directions x et y. Dans la lumière polarisée
circulairement, le déplacement suivant x et le déplacement suivant y sont identiques, mais l'un est
de 90° en retard par rapport à l'autre. Le résultat global est que l'électron parcourt un cercle, comme
indiqué dans la figure (b) ci-dessus. Par rapport à sa position d'équilibre, l'électron subit un certain
déplacement r et il tourne avec un certain décalage de phase par rapport au vecteur E . Les
positions respectives de E et r seront par exemple comme sur le schéma (b). Au cours du temps, le
champ électrique tourne et de même le vecteur déplacement, l'un et l'autre avec la même fréquence.
Leur orientation relative reste donc la même. Regardons maintenant quel est le travail effectué sur
l'électron. Le taux d'apport d'énergie à l'électron est le produit de sa vitesse v par la composante qE
parallèle à la vitesse :
dW
(2) = qEt v
dt
Mais regardez, il y a du moment cinétique apporté à cet électron puisqu'il y a toujours un couple
par rapport à l'origine. Ce couple est qEt r , lequel doit être égal au taux de variation du moment
cinétique dJ z / dt :
dJ z
(3) = qEt r
dt

Nous souvenant que v = ωr , nous obtenons


dJ z 1
(4) =
dW ω

Donc, si nous faisons l'intégration de tout le moment cinétique absorbé, ce que nous obtenons est
proportionnel à l'énergie totale, la constante de proportionnalité étant 1 / ω , ce qui est en accord
avec l'équation (1). La lumière transporte bien du moment cinétique unité (que multiplie h ) le long
de l'axe z si elle est polarisée circulairement à droite et -1 unité si elle est polarisée circulairement à
gauche.

Posons maintenant la question suivant : si la lumière est polarisée linéairement dans la direction x,
quel est son moment cinétique ? La lumière polarisée circulairement suivant la direction x peut être
représentée par la superposition de lumière polarisée circulairement à droite et à gauche. Il y a donc
une certaine amplitude pour que le moment angulaire soit + h et une autre amplitude pour qu'il soit
− h , de sorte qu'il n'y a pas de moment cinétique défini. Cette lumière a une amplitude pour se
manifester avec + h et une amplitude égale pour se manifester avec − h . L'interférence entre ces
deux amplitudes produit une polarisation linéaire, mais la lumière a les mêmes probabilités de se
manifester avec plus ou moins une unité de moment cinétique. Des mesures macroscopiques, faites
sur un faisceau de lumière polarisée linéairement, montreraient qu'il ne transporte aucun moment
cinétique, car il y a un grand nombre de photons qui se répartissent à peu près également entre les
polarisations circulaires de droite et de gauche, transportant ainsi des quantités de moments
cinétiques égales et opposées. Le moment cinétique est donc très voisin de zéro. En théorie
classique on n'obtient pas de moment cinétique sauf s'il y a un peu de polarisation circulaire.
Nous avons dit que toute particule de spin un peut avoir trois valeurs pour J z , à savoir +1, 0 et -1
(ce sont les trois états dont il a été question dans l'expérience d Stern et Gerlach). Mais la lumière
est un peu tordue. Elle n'a que deux états. Elle n'a pas le cas zéro, elle n'a que deux états. Ce
manque étrange est relié au fait que la lumière ne peut pas rester sur place. Pour une particule de
spin j sans mouvement, il doit y avoir 2j + 1 états possibles avec des valeurs de J z qui vont de -j à
+j par pas d 1. Mais il se trouve que pour un objet de spin j et de masse zéro, seuls existent les états
de composantes +j et -j le long de la direction du mouvement. Ainsi la lumière n'a pas trois états,
mais deux seulement, et est pourtant un objet de spin un. Comment cela peut-il être compatible
avec notre démonstration antérieure, établie à partir des propriétés des rotations dans l'espace, selon
laquelle trois états sont nécessaires pour les particules de spin un ? Pour une particule au repos, on
peut faire des rotations autour de n'importe quel axe sans changer l'état d'impulsion. Les particules
de masse nulle (tel que le photon) ne peuvent pas être au repos. Seules les rotations autour de l'axe
de direction du mouvement ne changent pas l'état d'impulsion. Des raisonnements portant sur des
rotations autour d'un seul axe ne peuvent suffire à établir que trois états sont nécessaires, si l'un des
deux varie comme e iφ sous une rotation d'angle φ . Ce phénomène est assez compréhensible
puisque les rotations à deux dimensions forment un groupe U(1) au lieu de SO(3). Et l'algèbre
particulièrement élémentaire de U(1) conduit à une représentation avec seulement deux états de
base.

Il est à noter que cette curieuse propriété de la lumière est intimement liée à la relativité puisque
c'est celle-ci qui implique le lien entre la masse nulle et l'absence de repos (et même une vitesse
égale à la vitesse de la lumière dans le vide). Cette absence d'état de spin 0 pour la lumière est à
relier à son caractère transversal. Un état de spin 0 correspondrait classiquement à de la lumière
polarisée longitudinalement ce que l'on sait ne pas exister comme le montrent clairement les
équations de Maxwell. Notons que si l'on introduit une petite masse fictive au photon, cela modifie
les équations de Maxwell autorisant une composante longitudinale. Cette composante longitudinale
se manifeste généralement dans les équations avec un facteur gamma relativiste qui est la
manifestation de la contraction des longueurs. Un passage à la limite vers une masse nulle et une
vitesse égale à c amortit totalement cette composante longitudinale jusqu'à l'annuler.
III.4.4. La désintégration du lambda 0
Nous voulons maintenant donner un exemple d'utilisation du théorème de conservation du moment
cinétique dans un problème spécifiquement quantique. Il s'agira de la désintégration de la particule
lambda ( Λ0 ), qui se rompt en un proton et un méson π , par interaction "faible" :
(1) Λ0 → p + π −

Le pion a un spin zéro, le proton et le Λ0 ont un spin un demi. Nous supposons cela connu. Nous
aimerions résoudre le problème suivant : supposez qu'un Λ0 puisse être produit d'une manière qui
le rende complètement polarisé. Par là nous voulons dire que son spin est "en haut" par rapport à un
certain axe z correctement choisi (nous aurions aussi bien pu dire en bas), comme dans la figure (a)
ci-dessous.
La question est alors : quelle probabilité a le Λ0 de se désintégrer avec le proton émis à l'angle θ
par rapport à l'axe z, comme sur la figure (b) ci-dessus ? En d'autres termes, quelle est la
distribution angulaire des désintégrations ? Nous regarderons la désintégration dans le système de
coordonnées dans lequel le Λ0 est au repos. Nous mesurerons les angles dans ce référentiel au
repos. Il est toujours possible de les transformer ensuite dans un autre référentiel si nous le voulons.

Nous considérons d'abord la circonstance particulière où le proton est émis dans un petit angle
solide ∆Ω autour de l'axe z (figure ci-dessous).

Avant la désintégration nous avons un Λ0 avec son spin "en haut" comme en partie (a) de la figure
ci-dessus. Après un court instant, le Λ0 explose en un proton et un pion. Supposez que le proton
parte vers le haut dans la direction de l'axe +z. Pour conserver l'impulsion totale, le pion doit aller
vers le bas. Le proton étant une particule de spin un demi, son spin doit être ou bien "en haut" ou
bien "en bas", ce sont les deux possibilités montées en parties (b) et (c) de la figure ci-dessus. Mais
la conservation du moment cinétique exige que le proton ait son spin "en haut". On s'en convaincra
aisément par le raisonnement suivant. Une particule se déplaçant le long de l'axe z, ne peut donner
de contribution au moment cinétique le long de cet axe, du fait de son mouvement. Donc, seuls les
spins peuvent contribuer à J z . Le moment cinétique de spin par rapport à l'axe +z est + h / 2 avant
la désintégration, il doit donc être aussi + h / 2 après. Nous pouvons dire que comme le pion n'a pas
de spin, celui du proton doit être "en haut".

Si vous craigniez que les raisonnements de ce genre ne soient pas valables en mécanique quantique,
nous allons prendre le temps de vous montrer qu'ils le sont. Sous une rotation d'un angle φ autour
de l'axe z, l'état initial avant désintégration, que nous désignerons par Λ0 , spin + z , voit son
vecteur d'état multiplié par e iφ / 2 (dans le système après rotation, le vecteur d'état est
e iφ / 2 Λ0 , spin + z ). C'est précisément ce que veut dire spin en "haut" pour une particule de spin un
demi. Comme le comportement de la nature est indépendant de notre choix d'axes, l'état final
(proton plus pion) doit avoir la même propriété. Nous pourrions écrire l'état final de cette façon :
(2) proton allant vers + z, spin + z; pion allant vers − z

Mais nous n'avons vraiment pas besoin de préciser la direction du pion. En effet, dans le référentiel
utilisé, la direction du pion est toujours opposée à celle du proton. Notre représentation de l'état
final peut se réduire à
(3) proton allant vers + z, spin + z

Qu'advient-il à ce vecteur d'état si nous faisons une rotation des coordonnées d'un angle φ autour
de l'axe z ?

Puisque les mouvements du pion et du proton se font le long de l'axe z, ils ne sont pas changés par
la rotation (d'où l'intérêt de notre choix d'axe. Le raisonnement ne pourrait pas se faire autrement).
Le pion étant de spin zéro n'est affecté en rien. Le proton par contre a un spin un demi. Si son spin
est "en haut", il apportera un changement e iφ / 2 de la phase, réponse à la rotation (si son spin était
"en bas", le changement de la phase dû au proton serait de e −iφ / 2 ). Mais le changement de phase du
fait de la rotation doit être le même, que ce soit avant ou après l'événement, puisqu'il faut que le
moment cinétique soit conservé (il le faut étant donné qu'aucune influence extérieure ne s'exerce
sur l'hamiltonien). La seule possibilité est donc que le spin du proton soit "en haut". Si le proton par
vers le haut, son spin doit aussi être "en haut".

Ainsi nous pouvons en conclure que la conservation du moment cinétique permet le processus
montré dans la partie (b) de la figure ci-dessus mais qu'il ne permet pas le processus montré dans la
partie (c). Comme nous savons que la désintégration a lieu, il doit donc exister une certaine
amplitude pour le processus (b), le proton vers le haut avec son spin en haut. Désignons par a
l'amplitude pour que la désintégration ait lieu de cette façon pendant un laps de temps infinitésimal.

Voyons maintenant ce qui se passerait si le spin du Λ0 était initialement 'en bas". A nouveau, nous
nous interrogeons sur les désintégrations dans lesquelles le proton par vers le haut le long de l'axe z,
comme indiqué dans la figure ci-dessous.
Vous vous convaincrez que dans ce cas le proton doit avoir son spin "en bas" pour conserver le
moment cinétique. Disons que l'amplitude pour une telle désintégration est b.

Nous ne pouvons rien dire de plus au sujet des deux amplitudes a et b. Elles dépendent des rouages
internes du Λ0 et des mécanismes de l'interaction faible. Pour les calculer, il faut faire appel à une
théorie plus élaborée ou les obtenir de l'expérience. Mais ces deux amplitudes suffiront pour
déterminer tout ce que nous voulons savoir sur la distribution cinétique de désintégration. Il nous
faut seulement être toujours très attentif à définir complètement les états dont nous parlons.

Nous voulons connaître la probabilité pour que le proton parte à l'angle θ par rapport à l'axez z
(dans un petit cône d'angle solide ∆Ω ) comme indiqué dans la première figure. Plaçons un nouvel
axe z dans cette direction et désignons-le par z'. Nous savons comment analyser ce qui se passe le
long de cet axe. Par rapport à ce nouvel axe, le Λ0 n'a plus son spin "en haut", mais il a une certaine
amplitude pour que son spin soit "en haut" et une autre pour que son spin soit "en bas". Nous avons
déjà résolu ce problème. L'amplitude pour le spin "en haut" est cosθ / 2 et celle pour le spin "en
bas" est − sin θ / 2 (en mettant l'axe z' dans le plan xz). Lorsque le Λ0 a spin "en haut" le long de
l'axe z', il émettra un proton dans la direction +z' avec l'amplitude a. Ainsi l'amplitude pour trouver
un proton de spin "en haut", se propageant le long de la direction z' est
θ
(4) a cos
2

De même, l'amplitude pour trouver un proton de spin "en bas", se propageant le long de l'axe z'
positif est
θ
(5) − b sin
2

Les deux processus concernés par ces amplitudes sont représentés dans la figure ci-dessous.
Posons-nous maintenant une question facile : si le Λ0 a son spin en haut le long de l'axe z, quelle
est la probabilité pour que le proton de désintégration parte à l'angle θ ? Nous n'allons pas observer
les deux états de spin ("en haut" ou "en bas" le long de z'), sans oublier qu'ils sont toutefois
discernables. Pour obtenir la probabilité, nous prenons donc le carré des amplitudes et nous les
additionnons. La probabilité f (θ ) pour trouver un proton dans un petit angle solide au voisinage de
θ st alors
θ θ
(6) f (θ ) = a cos 2 + b sin 2
2 2

2 2
En nous souvenant que sin 2 θ / 2 = 1 / 2(1 − cosθ ) et que cos 2 θ / 2 = 1 / 2(1 + cosθ ) , nous pouvons
récrire ainsi f (θ ) :
 a2 + b2   a2 − b2 
(7) f (θ ) =  +  cosθ
 2   2 
   

La distribution cinétique est de la forme


(8) f (θ ) = β (1 + α cosθ )

La probabilité est faite d'une partie indépendante de θ et d'une autre qui varie linéaire avec cosθ .
De la mesure de la distribution cinétique, nous pouvons extraire α et β et donc a et b .

Nous sommes maintenant en mesure de répondre à beaucoup d'autres questions. Ainsi, nous
pourrions nous intéresser seulement aux protons dont le spin est en haut par rapport à l'ancien axez
z. Chacun des termes en (4) et (5) donnera une amplitude pour que le proton ait spin "en haut" par
rapport à z' et une autre pour qu'il ait spin "en bas". Le spin "en haut" par rapport à l'axe z, soit
+ z , peut s'exprimer en termes des états de base + z ′ et − z ′ . On peut alors combiner les deux
amplitudes (4) et (5) avec des coefficients appropriés ( cosθ / 2 et − sin θ / 2 ) pour obtenir
l'amplitude totale :
 θ θ
(8)  a cos 2 + b sin 2 
 2 2

Son carré est la probabilité pour que le proton parte dans la direction θ et que son spin soit le
même que celui du Λ0 ("en haut" le long de l'axe z).

Si la parité était conservée, nous pourrions dire encore ceci. La désintégration (b) de la troisième
figure est simplement la réflexion, disons dans le plan yz, de la désintégration de la deuxième
figure. Si la parité était conservée, b devrait être égal à a ou -a. Alors le coefficient α de (8) devrait
être nul et la désintégration serait également probable pour toute direction.
Les résultats expérimentaux montrent qu'en réalité il existe une asymétrie dans la désintégration. La
distribution cinétique mesurée varie bien selon cosθ comme prédit et non pas selon cos 2 θ ou
toute autre puissance. D'ailleurs, du fait que la distribution cinétique a cette forme, nous pouvons
déduire de ces mesures que le spin du Λ0 est 1/2. Nous en déduisons aussi que la parité n'est pas
conservée. La valeur que l'on trouve expérimentalement pour α est de − 0.62 ± 0.05 , b est donc
environ deux fois plus grand que a. Le manque de symétrie sous une réflexion est vraiment
éclatant.

Vous voyez tout ce que l'on peut tirer de la conservation du moment cinétique et des lois de la
mécanique quantique. A partir de très peu d'information, les amplitudes a et b, on peut en déduire
tout ce qui peut être mesuré dans de telles réactions. A contrario, les théories plus avancées
permettant d'expliquer la machinerie interne du Λ0 n'ont dans ce genre d'expérience que peu
d'information à obtenir. C n'est qu'à travers des processus plus compliqués (par exemple des
collisions à très haute énergie produisant une grande quantité de particules) que l'on peut dévoiler
toute la mécanique interne conduisant à ces amplitudes.

III.4.5. Le rayonnement du dipôle électrique


Dans la section précédente, nous avons montré comment la conservation du moment cinétique
permet de déduire la distribution angulaire du proton provenant de la désintégration de la particule
lambda. Nous voulons maintenant vous donner d'autres illustrations similaires des conséquences de
la conservation du moment cinétique dans les systèmes atomiques. Notre premier exemple
concerne l'émission de lumière par un atome. La conservation du moment cinétique déterminera,
entre autres choses, la polarisation et la distribution angulaire des photons émis.

Soit un atome situé dans un état excité, de moment cinétique défini, disons de spin un, et qui
ensuite subit une transition vers un état de moment cinétique nul et d'énergie plus faible, en
émettant un photon. Le problème consiste à établir la distribution angulaire et la polarisation des
photons (ce problème est presque identique à celui de la désintégration du Λ0 , la seule différence
étant qu'au lieu de particules de spin un demi, nous avons un spin un). Comme le plus élevé des
deux états de l'atome est de spin un, il existe trois possibilités pour la composante z du moment
cinétique. La valeur de m peut être +1 ou 0 ou -1. Nous prendrons m = +1 comme exemple. Quand
vous aurez vu comment on procède, vous pourrez traiter les autres cas. Nous supposons donc que
l'atome se trouve là avec son moment cinétique orienté le long de +z, comme sur la figure (a) ci-
dessous, et nous nous demandons quelle est l'amplitude pour qu'il émette vers le haut, le long de z,
une lumière polarisée circulairement à droite, de sorte que son moment cinétique devienne nul dans
l'état final. C'est ce qui est montré dans la figure (b) ci-dessous.

Eh bien, nous ne savons pas répondre à cela. Mais ce que nous savons, c'est que la lumière
polarisée circulairement à droite a un moment cinétique d'une unité le long de sa direction de
propagation. Ainsi, après émission du photon, la situation devrait être comme indiquée dans la
figure (b) ci-dessus. L'atome se retrouve avec un moment cinétique nul suivant l'axe z,
conformément à notre hypothèse d'un atome dont l'état inférieur a un spin zéro. Nous appelons a
l'amplitude pour que l'événement considéré ait lieu. Plus précisément, nous disons que a est
l'amplitude pour émettre un photon durant le temps dt à l'intérieur d'un petit angle solide ∆Ω centré
sur l'axe z. Notez que l'amplitude pour émettre un photon PCG le long de cette direction est nulle.
Car le moment cinétique suivant l'axe z serait -1 pour le photon et zéro pour l'atome, donc -1 au
total, ce qui ne conserverait pas le moment cinétique.

De même, si le spin de l'atome est initialement "en bas" (-1 par rapport à l'axe z), seul un photon
polarisé circulairement à gauche peut être émis dans la direction de l'axe +z comme indiqué dans la
figure ci-dessous.

Nous appelons b l'amplitude pour cet événement. Il s'agit à nouveau de l'amplitude pour l'émission
d'un photon à l'intérieur d'un certain angle solide ∆Ω . Par contre, si l'atome est dans l'état m = 0, il
ne peut émettre absolument aucun photon dans la direction +z puisqu'un photon ne peut avoir que
+1 ou -1 comme moment cinétique le long de sa direction de propagation.

Nous pouvons montrer que b est relié à a. Considérons la situation représentée dans la première
figure et faisons lui subir une inversion. Il nous faut donc voir ce que deviendra le système
lorsqu'on aura transporté chaque partie à l'emplacement symétrique par rapport à l'origine. Ceci ne
veut pas dire qu'il faille inverser les vecteurs de moment cinétique, car ce ne sont pas des objets.
C'est en fait le mouvement impliqué par ces moments cinétiques qu'il nous faut inverser. Les
vecteurs moment cinétique étant des vecteurs axiaux, ils ne sont pas influencés par la symétrie P.

Dans les figures (a) et (b) ci-dessous nous montrons comment se présente le processus de la
première figure avant et après inversion par rapport au centre de l'atome.

Remarquez que le sens de rotation de l'atome est inchangé. Dans le système inversé, dans la figure
(b), nous avons un atome avec m = +1 qui émet vers le bas un photon polarisé circulairement à
gauche.
Si maintenant nous faisons subir à ce système une rotation de 180° autour de l'axe x ou y, il devient
identique à celui de la deuxième figure. La combinaison d'une inversion et d'une rotation fait donc
passer du premier processus au second. Nous savons qu'une rotation de 180° autour de l'axe y
transforme simplement un état m = -1 en un état m = +1, ainsi l'amplitude b doit être égale à
l'amplitude a, avec cependant la possibilité d'un signe différent du fait de l'inversion. Le
changement éventuel de signe dans l'inversion dépendra des parités de l'état initial et de l'état final
de l'atome.

Dans les processus atomiques, dû à l'interaction électromagnétique, la parité est conservée. La


parité de l'ensemble du système doit donc être la même avant et après l'émission du photon. Le
processus différera suivant que les parités de l'état initial et de l'état final de l'atome seront paires ou
impaires. La distribution angulaire du rayonnement ne sera pas la même dans les différents cas.
Nous allons considérer le cas où la parité est impaire pour l'état initial et paire pour l'état final. Cela
donnera ce qu'on appelle le "rayonnement électrique dipolaire" (si l'état initial et l'état final ont la
même parité, on dit qu'il y a "rayonnement magnétique dipolaire", laquelle présente le caractère du
rayonnement émis par un courant oscillant dans un anneau). Si la parité de l'état initial est impaire,
son amplitude change de signe dans l'inversion qui fait passer le système de (a) à (b) dans la
dernière figure. Si l'état final de l'atome a la parité paire, son amplitude ne change pas de signe. Et
si la parité est conservée au cours de la transition, l'amplitude b doit être égale à a en grandeur, mais
de signe opposé.

Par conséquent, si a est l'amplitude pour qu'un état m = +1 émette un photon vers le haut, alors,
pour les mêmes parités de l'état initial et de l'état final, l'amplitude pour qu'un état m = -1 émette
vers le haut un photon PCG est -a.

Certains d'entre vous pourraient critiquer le raisonnement que nous avons fait, pour la raison que
les états finaux considérés n'ont pas de parité définie. Nous donnerons une démonstration plus
précise ci-dessous.

Nous avons tout ce qu'il nous faut pour établir l'amplitude pour qu'un photon soit émis selon
n'importe quel angle θ par rapport à l'axe z. Soit un atome originellement polarisé avec m = +1.
Nous pouvons décomposer ces états en +1, 0 et -1 par rapport à un nouvel axe z' orienté selon la
direction d'émission du photon. L'amplitude pour qu'un photon polarisé circulairement a droite soit
émis dans la direction θ est alors le produit par a de l'amplitude pour avoir m = +1 dans cette
direction,
(1) a + R y (θ ) + = (1 + cosθ )
a
2

L'amplitude pour qu'un photon PCG soit émis dans la même direction est égale au produit par -a de
l'amplitude pour avoir m = -1 dans la nouvelle direction. On a donc
(2) − a − R y (θ ) + = − (1 − cosθ )
a
2

Si vous vous intéressez à d'autres polarisations, vous pouvez en déterminer les amplitudes par la
superposition de ces deux amplitudes. Pour établir l'intensité d'une composante quelconque en
fonction de l'angle, vous devez prendre, bien sûr, le carré des amplitudes.

Conservation de la parité dans l'émission de photons


Si l'état excité de l'atome a son spin en haut (m = +1), il peut émettre un photon PCD le long de
l'axe +z ou un photon PCG le long de l'axe -z. Désignons ces deux états du photon par Rup et
Ldn . Aucun de ces états n'a de parité définie. Si P̂ est l'opérateur de parité, on a Pˆ Rup = Ldn et
Pˆ Ldn = Rup (puisque ce sont des états de spin 1).

Qu'advient-il de notre démonstration selon laquelle un atome dans un état d'énergie définie doit
avoir une parité définie et aussi de notre assertion suivant laquelle la parité est conservée dans les
processus atomiques ? L'état final dans ce problème (l'état après émission du photon) ne devrait-il
pas avoir une parité indéfinie ? Il le faut en effet, si l'on considère l'état final complet, qui comprend
des amplitudes pour l'émission de photons dans tous les azimuts. Dans le raisonnement ci-dessus
nous n'avons considéré qu'une partie de l'état final complet.

Si nous le désirons, nous pouvons ne regarder que les états finaux qui ont de fait une parité définie.
Considérez par exemple un état final ψ F qui a une certaine amplitude α pour être un photon
PCD se déplaçant le long de l'axe +z et une certaine amplitude β pour être un photon PCG se
déplaçant le long de -z. Nous pouvons écrire
(3) ψ F = α Rup + β Ldn

L'opération de parité sur cet état nous donne


(4) Pˆ ψ F = α Ldn + β Rup

Cet état sera ± ψ F suivant que β = α ou β = −α . Un état final de parité paire sera donc
(
(5) ψ F+ = α Rup + Ldn )
et un état de parité impair
(
(6) ψ F− = α Rup − Ldn )
Nous voulons considérer ensuite la désintégration d'un état excité de parité impaire aboutissant à un
état fondamental de parité paire. Si l'on doit conserver la parité, l'état final du photon doit avoir la
parité impaire. Ce doit être l'état (6). Si l'amplitude pour obtenir Rup est α , alors l'amplitude pour
obtenir Ldn est − α .

Notez maintenant ce qui se passe lorsque l'on impose une rotation de 180° autour de l'axe y. L'état
excité initial devient un état avec m =-1 (sans changement de signe pour le spin 1). D'autre part, la
rotation de l'état final nous donne
(
(7) R y (180°) ψ F− = α Rdn − Lup )
En comparant cette équation avec (6), vous voyez que pour la parité supposée de l'état final,
l'amplitude pour obtenir un photon PCG le long de l'axe +z à partir de l'état initial m = -1 est égale,
mais de signe opposé, à l'amplitude pour obtenir un photon PCD à partir de l'état initial m = +1.
Ceci est en accord avec ce que nous avions trouvé plus haut.
III.4.6. Diffusion de la lumière
Utilisons les résultats de la section précédente pour résoudre un problème un peu plus compliqué,
mais aussi plus réaliste. Nous supposons que les mêmes atomes sont installés dans leur état de base
(j = 0) et qu'ils diffusent un faisceau de lumière incidente. Disons que la lumière se déplace
initialement dans la direction plus z, ainsi les photons s'approchent des atomes en venant de -z
comme indiqué dans la figure (a) ci-dessous.

Nous pouvons considérer la diffusion de la lumière comme un processus en deux étapes : le photon
est absorbé et ensuite réémit. Si nous avons au début un photon polarisé circulairement à droite
comme sur la figure (a) ci-dessus et si le moment cinétique est conservé, l'atome sera dans un état
m = +1 après l'absorption, comme indiqué sur la figure (b) ci-dessus. Nous désignons par c
l'amplitude pour ce processus. L'atome peut ensuite émettre un photon polarisé circulairement à
droite dans la direction θ , comme sur la figure (c) ci-dessus. L'amplitude total pour qu'un photon
PCD soit diffusé dans la direction θ est exactement le produit de l'amplitude trouvée dans la
section précédente par c. Désignons cette amplitude de diffusion par R ′ S R , nous avons

(1) R ′ S R =
ac
(1 + cosθ )
2

Il y a aussi une amplitude pour qu'un photon PCD soit absorbé et qu'un photon PCG soit émis. Le
produit des deux amplitudes correspondantes constitue l'amplitude pour qu'un photon PCD soit
diffusé en un photon PCG. Soit L ′ S R cette amplitude. En utilisant le résultat de la section
précédente, nous avons
(2) L ′ S R = − (1 − cosθ )
ac
2

Maintenant que se passe-t-il si un photon PCG arrive ? Lorsqu'il sera absorbé, l'atome passera à un
état m = -1. Par le même genre d'arguments que nous avons utilisé précédemment, nous pouvons
montrer que cette amplitude doit être -c. L'amplitude pour qu'un atome dans l'état m = -1 émette un
photon PCD suivant un angle θ est le produit par a de l'amplitude + R y (θ ) − , qui est
1 / 2(1 − cosθ ) . Nous avons donc
(3) R ′ S L = − (1 − cosθ )
ac
2

Finalement, l'amplitude pour que la diffusion d'un photon PCG donne un photon PCD est
(4) L ′ S L =
ac
(1 + cosθ )
2
(il y a deux signes moins qui se compensent).

Si nous faisons une mesure de l'intensité diffusée pour une combinaison donnée de polarisations
circulaires, elle sera proportionnelle au carré de l'un de nos quatre amplitudes. Par exemple, pour un
faisceau incident de lumière PCD, l'intensité de la lumière PCD dans le rayonnement diffusé
variera comme (1 + cosθ )
2
Tout cela est très bien, mais supposez que nous ayons au départ une lumière polarisée linéairement.
Que se passe-t-il ? Si nous avons une lumière polarisée suivant x, nous pouvons la représenter
comme la superposition de lumière PCD et PCG. Nous écrivons
(5) x =
1
(R + L )
2

S'il s'agissait d'une lumière polarisée suivant y, nous aurions


−i
(6) y = (R − L )
2

Maintenant que voulez-vous savoir ? Voulez-vous l'amplitude pour qu'un photon polarisé suivant x
soit diffusé en un photon PCD émis suivant l'angle θ ? Pour l'obtenir, vous pouvez combiner les
amplitudes suivant la règle habituelle. D'abord, multipliez (5) par R ′ S pour obtenir

(7) R ′ S x =
1
( R′ S R + R′ S L )
2

Puis, utilisez (1) et (3) pour les deux amplitudes. Vous obtenez
ac
(8) R ′ S x = cosθ
2

Si vous vouliez l'amplitude pour qu'un photon x soit diffusé en un photon PCG, vous auriez
ac
(9) L ′ S x = cosθ
2

Enfin, supposons que vous vouliez connaître l'amplitude pour qu'un photon polarisé suivant x soit
diffusé, tout en conservant sa polarisation suivant x. Ce que vous voulez c'est x ′ S x . Ceci peut
s'écrire
(10) x ′ S x = x ′ R ′ R ′ S x + x ′ L ′ L ′ S x
Si vous utilisez alors les relations
R′ =
1
( x′ + i y ′ )
2
(11)
L′ =
1
( x′ − i y ′ )
2
il s'ensuit que
1
(12) x ′ R ′ =
2
1
(13) x ′ L ′ =
2

Ainsi vous obtenez


(14) x ′ S x = ac cosθ

La réponse est qu'un faisceau de lumière polarisée suivant x sera diffusé selon la direction θ (dans
le plan xz) avec une intensité proportionnelle à cos 2 θ . Si vous vous interrogez sur la lumière
polarisée suivant y, vous trouvez que
(15) y ′ S x = 0

Ainsi la lumière diffusée est entièrement polarisée dans la direction x.

Il y a ici quelque chose d'intéressant à noter. Les résultats (14) et (15) correspondent exactement à
la théorie classique de la lumière où ils peuvent être dérivés en supposant que l'électron est lié à
l'atome par une force de rappel linéaire afin qu'il se comporte comme un oscillateur classique. Peut-
être vous dites-vous : "c'est tellement plus simple en théorie classique, si elle donne la bonne
réponse, pourquoi s'encombrer de la théorie quantique ?" Il y a au moins une raison, c'est que nous
n'avons considéré jusqu'à présent que le cas particulier, qui se trouve être un cas fréquent, d'un
atome ayant un état excité j = 1 et un état de base j = 0. Si l'état excité avait le spin deux, vous
auriez un résultat différent. De plus, il n'y a aucun raison pour que le modèle d'un électron attaché à
un ressort et entraîné par un champ électrique oscillant soit utilisable dans le cas d'un seul photon.
Mais nous avons trouvé qu'en fait ça marchait et que les polarisations et intensités étaient justes.
Dans un certain sens, nous sommes donc en train de ramener l'ensemble de ce cours aux alentours
de la vraie réalité.

Bien entendu, toute théorie classique qui marche devrait pouvoir être justifiée en fin de compte par
des arguments quantiques. Naturellement, ces choses que nous avons pris beaucoup de temps à
vous expliquer étaient choisies justement dans des domaines de physique classique, qui demeurent
encore valides en mécanique quantique. Vous remarquerez que nous n'avons pas discuté de façon
détaillée les modèles suivant lesquels les électrons de l'atome circulent en orbites. C'est parce que
de tels modèles ne donnent pas de résultats qui soient en accord avec la mécanique quantique. Mais
l'électron sur un ressort, ce qui, en un sens, n'est pas du tout ce à quoi un atome "ressemble", donne
de bons résultats. Il est donc indispensable de justifier certains modèles approchés par la mécanique
quantique dans la mesure où l'intuition, qu'un modèle est plus proche de la réalité et donc plus juste,
peut être complètement trompeuse.

III.4.7. L'annihilation du positronium


Nous voudrions maintenant prendre un exemple très joli. C'est très intéressant et, bien qu'assez
compliqué, ce ne l'est tout de même pas trop, nous l'espérons. Notre exemple, c'est le système
appelé positronium, qui consiste en un "atome" fait d'un électron et d'un positron, un état lié d'un
e + et d'un e − . C'est comme un atome d'hydrogène à ceci près qu'un positron remplace le proton.
Cet objet, comme l'atome d'hydrogène, possède beaucoup de niveaux d'énergie. Comme
l'hydrogène encore, l'état de base se substitue en un "structure hyperfine" par l'interaction des
moments magnétiques (nous verrons cela en détail plus tard). Les spins de l'électron et du positron
sont chacun un demi et ils peuvent être ou bien parallèles ou bien antiparallèles par rapport à
n'importe quel axe donné (dans l'état de base, le mouvement orbital ne contribue pas au moment
cinétique). Ainsi il y a quatre états : trois d'entre eux sont des états de spin un, dont tous ont la
même énergie, le dernier est un état de spin zéro, dont l'énergie est différente. La séparation des
niveaux d'énergie est cependant beaucoup plus grande que les 1420 MHz de l'hydrogène, car le
moment magnétique du positron est beaucoup plus grand, 1000 fois plus grand, que le moment du
proton.
La différence la plus importante, cependant, est que le positronium ne dure pas éternellement. Le
positron est l'antiparticule de l'électron. Ils peuvent s'annihiler l'un l'autre. Les deux particules
disparaissent complètement, transformant leur énergie au repos en rayonnement, lequel se
manifeste en rayons gamma (photons). Dans la désintégration, deux particules ayant une masse au
repos finie donnent naissance à deux objets, ou plus, ayant des masses au repos nulles.

Nous allons analyser d'abord la désintégration de l'état de spin zéro du positronium. Il se désintègre
en deux rayons gamma avec une durée de vie d'environ 10 −10 seconde. Initialement, nous avons un
positron et un électron proches l'un de l'autre, de spins antiparallèles, constituant le système
positronium. Après la désintégration, il y a deux photons, qui partent avec des impulsions égales et
opposées (voir la figure ci-dessous).

Les impulsions doivent être égales et opposées, parce que l'impulsion totale après la désintégration
doit être nulle, comme elle l'était auparavant, si du moins on considère le cas de l'annihilation au
repos. Si le positronium n'est pas au repos, nous pouvons nous déplacer nous aussi avec lui,
résoudre le problème et ensuite tout retransformer dans le système du labo (vous voyez que,
maintenant, nous savons tout faire, nous avons tous les outils).

Notons d'abord que le moment cinétique n'est pas très intéressant. Puisque le système initial a un
spin zéro, il n'a pas d'axe privilégié, il est symétrique sous toutes les rotations. Cela implique que
tous les angles de désintégration sont également probables. L'amplitude est la même pour qu'un
photon aille dans n'importe quelle direction, l'autre doit être opposé.

La seule question restante et que nous voulons considérer, concerne la polarisation des photons.
Définissons comme le plus et le moins de l'axe z les directions de déplacement des deux photons.
Nous pouvons utiliser n'importe quelle représentation au choix pour les états de polarisations des
photons. Nous déciderons pour notre description la polarisation circulaire droite et gauche, toujours
par rapport aux directions de déplacement. On peut voir immédiatement que, si le photon émis vers
le haut est PCD, le moment cinétique sera conservé, si le photon émis vers le bas est aussi PCD.
Chacun emportera +1 unité de moment cinétique par rapport à la direction de son impulsion, ce
qui implique plus ou moins une unité par rapport à l'axe z. Le total sera zéro et le moment cinétique
après la désintégration sera le même qu'avant. Voir la figure ci-dessous.
Le même raisonnement montre que si le photon est émis vers le haut PCD, celui qui est émis vers le
bas ne peut pas être PCG. L'état final aurait alors deux unités de moment cinétique. Ceci n'est pas
permis si l'état initial a un spin zéro. Notez qu'un tel état final n'est pas non plus possible pour
l'autre état de base du positronium, dont le spin est un, car il ne peut avoir au maximum qu'une
seule unité de moment cinétique pour toute direction.

Nous voulons maintenant montrer que l'annihilation en deux photons n'est pas du tout possible à
partir de l'état de spin un. Vous pourriez penser que si nous prenions l'état j = 1, m = 0, lequel a un
moment cinétique zéro par rapport à l'axe z, cet état devrait être identique à l'état de spin zéro et que
la désintégration en deux photons PCD devrait être possible. A coup sûr, la désintégration
schématisé dans la figure (a) ci-dessous conserve le moment angulaire par rapport à l'axe z.
Mais maintenant, regardez ce qui se passe si nous faisons tourner le système de 180° autour de l'axe
y. Nous obtenons la configuration montrée dans la figure (b) ci-dessus. C'est exactement pareil que
pour la partie (a) de la figure. Tout ce que nous avons fait, c'est d'échanger les deux photons. Nous
verrons bientôt que l'échange de deux particules de Bose (des particules de spin entier) ne change
pas le signe de l'amplitude, ainsi l'amplitude pour la désintégration selon la partie (b) doit être la
même que selon la partie (a). Mais nous avons supposé que l'objet initial est de spin un. Et lorsque
nous faisons tourner de 180° autour de l'axe y un objet de spin un et d'état m = 0, son amplitude
change de signe. Ainsi les amplitudes pour (a) et (b) de la figure ci-dessus devraient avoir des
signes opposés. Cette contradiction montre que l'état de spin un ne peut pas se désintégrer en deux
photons.

Lorsque le positronium est formé, on s'attendrait à ce qu'il échoue dans l'état de spin zéro une fois
sur quatre et dans l'état de spin un (avec m = -1, 0 ou +1) trois fois sur quatre. Ainsi, une fois sur
quatre vous auriez des annihilations en deux photons. Pour les autres fois, il ne peut pas y avoir
d'annihilation en deux photons. Il y a toutefois une annihilation possible, mais elle doit passer par
trois photons. Il lui est plus difficile de faire cela et le temps de vie est 1000 fois plus long, à peu
près 10 −7 seconde. C'est ce qui est observé expérimentalement. Nous n'entrerons dans aucun détail
supplémentaire au sujet de l'annihilation de spin un.
Jusqu'à présent nous avons vu que, si nous nous soucions du seul moment angulaire, l'état de spin
zéro du positronium peut se transformer en deux photons PCD. Il existe aussi une autre possibilité :
il peut se transformer en deux photons PCG comme indiqué dans la figure ci-dessous.

La question suivante est : quelle est la relation entre les amplitudes pour ces deux modes possibles
de désintégration ? La conservation de la parité va nous permettre de trouver cette relation.

Mais, pour ce faire, nous devons connaître la parité du positronium. Des physiciens théoriciens ont
en quelque sorte montré qu'il n'est pas facile d'expliquer que les parités de l'électron et du positron,
son antiparticule, doivent être opposées, ce qui fait que l'état de base de spin zéro du positronium
doit être impair. Nous nous contenterons d'admettre qu'il est impair, et puisque nous obtiendrons un
accord avec l'expérience, nous considérerons que c'est là une preuve suffisante.

Voyons alors ce qui se passe si nous faisons une inversion du premier processus. Quand nous
faisons cela, les deux photons inversent leurs directions et leurs polarisations. Le dessin inversé
ressemble exactement au deuxième processus. En supposant que la parité du positronium est
impaire, les amplitudes pour les deux processus doivent avoir un signe opposé. Représentons par
R1 R2 l'état final du premier processus dans lequel les deux photons sont PCD et par L1 L2 l'état
final du second processus dans lequel les deux photons sont PCG. Le véritable état final,
désignons-le par F , doit être
(1) F = R1 R2 − L1 L2

Une inversion change alors les R en L et donne l'état


(2) P F = L1 L2 − R1 R2 = − F
lequel est le négatif de (1). Ainsi l'état final F a une parité négative : la même qu'a l'état initial de
spin zéro du positronium. C'est le seul état qui conserve à la fois moment cinétique et parité. Il y a
une certaine amplitude pour que la désintégration en cet état se produise, ce qui ne doit cependant
pas nous préoccuper pour l'instant, puisque nous nous intéressons uniquement aux questions
concernant la polarisation.

Que représente physiquement l'état final de (1) ? Il implique entre autre la chose suivante : si l'on
observe les deux photons dans deux détecteurs, fait de telle sorte qu'ils peuvent compter séparément
les photons PCD et PCG, nous verrons toujours deux photons PCD en même temps ou deux
photons PCG en même temps. Autrement dit, si vous vous mettez d'un coté du positronium et si
quelqu'un d'autre se met de l'autre coté, vous pouvez mesurer la polarisation et dire ensuite à l'autre
gars quelle polarisation il obtiendra. Vous avez 50 chances sur 100 d'attraper un photon PCD et
autant pour un photon PCG, quel que soit celui que vous obtenez, vous pouvez prédire qu'il
obtiendra le même. On dit que les deux photons sont intriqués.

Puisque les chances sont à un contre un pour les polarisations PCD ou PCG, c'est comme si cela
ressemblait à une polarisation linéaire. Demandons-nous ce qui se passe, si nous observons le
photon dans des compteurs qui n'acceptent que la lumière polarisée linéairement. Pour des rayons
gamma, ce n'est pas aussi facile de mesurer la polarisation que pour la lumière. Il n'y a pas de
polariseur qui fonctionne bien pour des longueurs d'onde aussi courtes. Mais imaginons qu'il en
existe, pour faciliter la discussion. Supposez que vous ayez un compteur, qui n'accepte que la
lumière polarisée linéairement avec polarisation x et qu'il y a un gars de l'autre coté qui lui aussi
regarde la lumière polarisée linéairement avec, disons, une polarisation y. Quelle chance avez-vous
de saisir les deux photons provenant d'une annihilation ? Nous nous demandons donc quelle est
l'amplitude pour que F soit dans l'état x1 y 2 . En d'autres termes, nous voulons l'amplitude
(3) x1 y 2 F
qui bien sûr n'est autre que
(4) x1 y 2 R1 R2 − x1 y 2 L1 L2

Bien que nous nous occupions d'amplitudes à deux particules pour les deux photons, nous pouvons
les traiter exactement comme nous le faisions pour les amplitudes à une particule, puisque chaque
particule agit indépendamment de l'autre. Cela signifie que l'amplitude x1 y 2 R1 R2 est tout
simplement le produit des deux amplitudes indépendantes x1 R1 et y 2 R2 . Ces deux
amplitudes sont 1 / 2 et i / 2 , ainsi
i
(5) x1 y 2 R1 R2 = +
2

De même, nous trouvons que


i
(6) x1 y 2 L1 L2 = −
2

Soustrayant, d'après (4), ces deux amplitudes, nous obtenons


(7) x1 y 2 F = +i

Ainsi, il y a une probabilité unité pour que, si vous obtenez un photon dans votre détecteur de
polarisation x, l'autre gars obtienne un photon dans son détecteur de polarisation y.

Nous n'avons pas normalisé nos amplitudes, nous ne les avons pas non plus multipliées par
l'amplitude pour la désintégration en un quelconque état final particulier, mais nous pouvons voir
que ce résultat est correct parce que nous obtenons une probabilité zéro pour l'autre possibilité, ci-
dessous, équation (8).
Maintenant, supposez que l'autre gars arrange son compteur pour une polarisation x, comme le
vôtre. Il n'obtiendra jamais un comptage alors que vous, vous en aurez un. Si vous faites le calcul,
vous trouverez que
(8) x1 x 2 F = 0

Vous trouverez aussi que, si vous arrangez votre compteur pour une polarisation y, il aura des
comptages en coïncidence, uniquement s'il est réglé sur une polarisation x (s'il utilise une
polarisation circulaire, il obtiendra une coïncidence une fois sur deux).

Tout ceci nous amène à une situation intéressante. Supposez que vous deviez installer quelque
chose comme un morceau de calcite, qui séparerait les photons en faisceaux polarisés suivant x et
suivant y et que vous placiez un compteur dans chaque faisceau. Désignons les comme compteur x
et compteur y. Si le gars de l'autre côté fait la même chose, vous pouvez toujours lui dire dans quel
faisceau son photon va s'engager. Chaque fois que vous et lui obtenez des comptages simultanés,
vous pouvez voir lequel de ses compteurs avait un photon. Mettons que, pour une certaine
désintégration, vous voyez qu'un photon a traversé votre compteur x. Vous pouvez lui dire qu'il doit
avoir eu un comptage dans son compteur y.

Beaucoup de gens qui apprennent la mécanique quantique trouvent cela gênant. Ils aimeraient
penser que les photons, une fois émis, continuent comme une onde de caractère défini. Ils
aimeraient penser que, puisque "tout photon étant donné" a une certaine "amplitude" pour être
polarisé suivant x pour être polarisé suivant y, il devrait avoir une certaine chance de le recueillir,
soit dans le compteur x, soit dans le compteur y, et que cette chance ne devrait pas dépendre de ce
qu'une certaine autre personne a pu observer concernant un tout autre photon. Ils raisonnent ainsi :
"quelqu'un d'autre faisant une mesure ne devrait pas pouvoir changer la probabilité que je fasse telle
observation". Notre mécanique quantique nous dit pourtant qu'en faisant une mesure sur le photon
numéro un, vous pouvez prédire avec exactitude ce que va être la polarisation du photon numéro
deux quand il sera détecté. Ce point n'a jamais été accepté par Einstein, qui s'en est beaucoup
préoccupé, il est connu sous le nom de "paradoxe d'Einstein-Podolsky-Rosen". Mais lorsque la
situation est décrite comme nous l'avons fait ici, il ne semble pas qu'il y ait du tout paradoxe. Il
ressort très naturellement que ce qui est mesuré en un endroit est en corrélation avec ce qui est
mesuré ailleurs. Le raisonnement qui conduit au paradoxe se fait à peu près comme ceci :
1. Si vous avez un compteur qui vous dit si votre photon est PCD ou PCG, vous pouvez prédire
exactement quelle sorte de photon (PCD ou PCG) l'autre gars trouvera.
2. Les photons qu'il recevra devront donc être purement PCD ou purement PCG, certains d'une
sorte, certains de l'autre sorte.
3. A coup sûr, vous ne pouvez pas changer la nature physique de ses photons en changeant le type
d'observation que vous faites sur vos photons. Quelles que soient les mesures que vous faites
sur les vôtres, les siens doivent ou être ou bien PCD ou bien PCG.
4. Maintenant, supposez qu'il modifie son appareillage de manière à séparer ses photons en deux
faisceaux polarisés linéairement : à l'aide d'un morceau de calcite, il fait en sorte que tous ses
photons aillent, soit dans le faisceau polarisé suivant x, soit dans le faisceau polarisé suivant y.
On ne peut en aucune manière, selon la mécanique quantique, savoir dans quel faisceau ira tel
photon PCD. Il y a une probabilité de 50% pour qu'il aille dans le faisceau x et une probabilité
de 50% qu'il aille dans le faisceau y. Et il en va de même pour un photon PCG.
5. Etant donné que chaque photon est PCD ou PCG, selon 2. et 3., chacun doit avoir une égale
chance d'aller dans le faisceau x ou le faisceau y et on ne peut d'aucune manière prédire quelle
voie il prendra.
6. Pourtant la théorie prédit que si vous voyez votre photon traverser un polariseur x, vous pouvez
prédire avec certitude que son photon ira dans son faisceau polarisé suivant y. C'est en
contradiction avec 5., il y a donc un paradoxe.

Apparemment la nature ne voit pourtant pas ce "paradoxe", l'expérience montre en effet que la
prédiction 6. est correcte. Les étapes 1., 2., 4., 6. du raisonnement ci-dessus sont toutes correctes,
mais 3. et sa conséquence 5., sont fausses. Ce ne sont pas des descriptions vraies de la nature.
L'argument 3. dit que par votre mesure (l'observation d'un photon PCG ou PCD) vous pouvez
déterminer lequel de deux événements possibles se produit pour le gars (l'observation d'un photon
PCD ou PCG) et que même si vous ne faites pas votre mesure il vous est encore possible de dire
que son événement se produira soit d'une façon soit de l'autre. Ce genre de raisonnement dit
"contrafactuel" (déduire une situation de ce qui découle d'une mesure même si on ne fait pas la
mesure) est assez dangereux. Et de fait, les choses ne sont pas ainsi dans la nature. Sa façon de faire
exige une description en termes d'amplitudes qui interfèrent, une amplitude pour chaque
éventualité. Une mesure de l'éventualité qui se produit réellement détruit l'interférence, mais si une
mesure n'est pas faite, vous ne pouvez plus dire : "telle ou telle éventualité se produit cependant".
Si vous pouviez déterminer pour chacun de vos photons s'il s'agissait d'un PCD ou PCG, et en
même temps s'il était polarisé suivant x (tout cela pour le même photon), il y aurait en effet un
paradoxe. Mais vous ne pouvez pas faire cela, c'est un exemple du principe d'indétermination.

Pensez-vous encore qu'il y a un "paradoxe" ? Assurez-vous qu'il s'agit, en fait, d'un paradoxe
concernant le comportement de la nature, en établissant une expérience imaginaire pour laquelle la
théorie de la mécanique quantique prédirait des résultats incompatibles par deux raisonnements
différents. Par ailleurs, le "paradoxe" n'est rien d'autre qu'un conflit entre la réalité et votre
sentiment sur ce que la réalité "devrait être".

Pensez-vous que cela n'est pas un "paradoxe", mais que cela reste pourtant très étrange ? Là-dessus
nous pouvons être d'accord. C'est ce qui rend la physique fascinante. Nous aurons d'ailleurs
l'occasion de reparler en profondeur de ce curieux état quantique intriqué lors de l'étude de
l'interprétation de la mécanique quantique.

III.4.8. La mesure du spin nucléaire


Cet exemple concerne une intéressante expérience qui a réellement été effectuée et que vous serez
maintenant capables de comprendre. Des physiciens voulaient trouver le spin d'un certain état
excité du noyau de Ne 20 . Dans ce but, ils ont bombardé une cible de carbone avec un faisceau
d'ions de carbone accélérés, produisant ainsi l'état excité désiré de Ne 20 , appelé Ne 20∗ , dans la
réaction
(1) C 12 + C 12 → Ne 20∗ + α 1
où α 1 est la particule α ou noyau de He 4 . Parmi les états excités du Ne 20 produit de cette façon,
plusieurs sont instables et se désintègrent suivant la réaction
(2) Ne 20∗ → O 16 + α 2

Il y a donc expérimentalement deux particules alpha émises dans la réaction. Nous les désignons
par α 1 et α 2 . Comme elles sont émises avec des énergies différentes, nous pouvons les distinguer
l'une de l'autre. D'ailleurs, en sélectionnant une énergie particulière pour α 1 , nous pouvons
sélectionner un état excité particulier du Ne 20 .

L'expérience était montée comme indiqué dans la figure ci-dessous.

Un faisceau d'ions de carbone de 16 MeV était envoyé sur une feuille mince de carbone. La
première particule alpha était comptée dans un compteur de type jonction à silicium diffusé,
marqué α 1 , réglé de manière à accepter les particules alpha de l'énergie voulue et se déplaçant vers
l'avant (par rapport à la direction du faisceau C 12 incident). On recueillait la seconde particule
alpha dans un compteur α 2 sous l'angle θ par rapport à α 1 . On mesurait alors en fonction de
l'angle θ le taux de comptage des signaux en coïncidence de α 1 et α 2 .

L'idée de l'expérience est la suivante. Il faut d'abord savoir que les spins de C 12 , O 16 et de la
particule alpha sont tous zéro. Si nous définissons comme direction z la direction initiale de
propagation du C 12 , nous savons alors que le Ne 20∗ doit avoir un moment cinétique zéro par
rapport à l'axe z. Aucune des autres particules n'a de spin. Le C 12 arrive le long de l'axe z et l' α 1
s'en va le long de l'axe z, ils ne peuvent donc avoir aucun moment cinétique suivant cet axe. Ainsi,
quel que soit le spin j du Ne 20∗ , nous savons qu'il se trouve dans l'état j ,0 . Maintenant que va-t-il
se passer lorsque le Ne 20∗ va se désintégrer en un O 16 et la seconde particule alpha ? Eh bien, la
particule alpha entre dans le compteur α 2 et, pour conserver l'impulsion, O 16 doit partir dans la
direction opposée. Nous pouvons négliger le recul donné au Ne 20∗ dans la première collision. Ou
mieux encore, nous pouvons calculer ce qu'est ce recul et faire une correction en conséquence.
Suivant le nouvel axe le long de α 2 , il ne peut pas y avoir de composante du moment cinétique.
L'état final a un moment cinétique zéro par rapport au nouvel axe, le Ne 20∗ ne peut donc se
désintégrer selon cette direction qu'à la seule condition d'avoir une certaine amplitude pour que m'
soit égal à zéro, m' étant le nombre quantique de la composante du moment cinétique par rapport au
nouvel axe. En fait, la probabilité pour observer α 2 sous l'angle θ est exactement le carré de
l'amplitude (ou élément de matrice)
(1) j ,0 R y (θ ) j ,0

Pour trouver le spin de l'état du Ne 20∗ en question, on a porté en fonction de l'angle, l'intensité de la
seconde particule et l'on a alors comparé avec les courbes théoriques pour diverses valeurs de j. Les
amplitudes j ,0 R y (θ ) j ,0 sont simplement les fonctions Pj (cosθ ) . Les distributions angulaires
[ ]
possibles sont les courbes Pj (cosθ ) . Les résultats expérimentaux sont montrés dans la figure ci-
2

dessous pour deux des états excités.


Vous pouvez voir que la distribution angulaire pour l'état 5.80 MeV s'ajuste très bien avec la courbe
[P1 (cosθ )]2 , il s'agit donc d'un état de spin un. Par contre les données pour l'état à 5.63 MeV sont
tout à fait différentes, elles s'ajustent avec la courbe [P3 (cosθ )] . L'état a un spin 3.
2
Par cette expérience, nous avons pu trouver les moments cinétiques de deux des états excités du
Ne 20∗ . On peut alors utiliser cette information pour essayer de comprendre quelle est la
configuration des protons et neutrons à l'intérieur de ce noyau, une information utile pour
comprendre les forces nucléaires.

III.5. Symétries dynamiques


Nous avons vu que les symétries et la dégénérescence sont liés ensembles. Par exemple, un système
qui possède une symétrie par translation spatiale est habituellement dégénéré par rapport à la
direction du vecteur impulsion p, une exception survenant quand p = 0. De même, un système qui
possède une symétrie par rotation est habituellement dégénéré par rapport à la direction du vecteur
moment angulaire J, c'est-à-dire, par rapport à la valeur propre d'une composante particulière telle
que J z . A nouveau, le cas J = 0 est exceptionnel. Dans le cas des symétries discrètes de l'inversion
spatiale et du renversement du temps, la dégénérescence est moins commune car les états
transformés sont moins souvent identiques aux états originaux.

Nous avons signalé que l'oscillateur harmonique isotrope a une dégénérescence supplémentaire au-
delà de celle associée à la symétrie par rotation. Comme déjà remarqué, on s'y attend quand
l'équation de Schrödinger peut être résolue de plusieurs manières, dans plusieurs systèmes de
coordonnées ou dans un seul système de coordonnées orienté de différentes manières. De notre
point de vue, on s'attend à ce que ces dégénérescences soient associées à une certaine symétrie qui
évidemment n'est pas du type géométrique comme celles déjà considérées. Nous appelons de telles
symétries dynamiques, puisqu'elles viennent de la forme particulière de la loi de force. C'est aussi
une symétrie interne particulière sauf qu'au lieu d'être "interne" à la particule, il s'agit ici du
système complet. Dans les deux cas relativement simples considérés dans cette section, l'existence
et la nature générale de la symétrie dynamique peut être inférée du système classique
correspondant, pratiquement de la même manière qu'avec les symétries géométriques. Cela n'est
pas possible en général car plusieurs situations physiques intéressantes n'ont pas d'analogue
classique.

Problème classique de Kepler


L'hamiltonien classique du problème de Kepler en coordonnées relatives est
p2 κ
(1) H = −
2µ r
où µ est la masse réduite et κ est une quantité positive. Dans le cas de l'atome d'hydrogène que
l'on étudiera plus tard, κ = Ze 2 . Une solution particulière du problème classique de l'orbite est une
ellipse avec le demi grand axe a qui est égal à la moitié de la distance du périhélie P à l'aphélie A et
(
avec l'excentricité e qui est égale à a 2 − b 2 )
1/ 2
/ a où b est le demi petit axe.

Puisque H est indépendant du temps, l'énergie totale E est une constante du mouvement. De même,
puisque H possède une symétrie par rotation, le moment angulaire L = r × p est une constante du
mouvement. Ces deux affirmations sont facilement établies en utilisant l'équation d'évolution des
variables dynamiques et nécessite le calcul de quelques crochets de Poisson. Il n'est pas difficile de
montrer que
κ
(2) E = −
2a
(
et L2 = µ κ a 1 − e 2 )
L est évidemment un vecteur axial qui est perpendiculaire au plan de l'orbite.

La symétrie par rotation de H est suffisante pour faire que l'orbite est située dans un certain plan
passant par O, mais elle n'est pas suffisante pour exiger que l'orbite soit fermée. Une petite
déviation de l'énergie potentielle de sa forme newtonienne V (r ) = −(κ / r ) provoque une lente
précession du grand axe PA de l'orbite et ainsi l'orbite n'est pas fermée. Cela suggère qu'il y a une
certaine quantité autre que H et L qui est une constante du mouvement et qui peut être utilisée pour
caractériser l'orientation du grand axe de l'orbite plane. Nous cherchons donc un vecteur constant
M que l'on s'attend à être aligné avec le grand axe et pointant de O vers P ou de O vers A.

Un tel vecteur est connu depuis longtemps et est appelé vecteur de Lenz ou vecteur de Runge-Lenz.
Nous l'écrivons sous la forme
p×L κ
(3) M = − r
µ r

Il est facile de voir que c'est une constante du mouvement, qu'il a la grandeur κe et qu'il est dirigé
de O vers P. Les relations suivantes sont indépendantes du choix particulier des paramètres
orbitaux a et e :
2H 2
(4) L ⋅ M = 0 M 2 = L +κ 2
µ

Atome d'hydrogène
Afin de traiter l'atome d'hydrogène, les quantités précédentes doivent être traduites en mécanique
quantique. Cela a déjà été fait pour r, p et L. Pour M, nous notons que p × L n'est pas égal à
− L × p et donc (3) ne définit pas une quantité hermitique. Nous redéfinissons donc M comme une
moyenne symétrique :
(5) M =
1
(p × L − L × p ) − κ r
2µ r

On peut montrer à partir des relations de commutation de r et p, après une quantité considérable de
calculs, que
[M, H ] = 0 L ⋅ M = M ⋅ L = 0
(6) 2 2 H 2
M =
µ
( )
L + h2 + κ 2

Ce sont les analogues quantiques de la constance de M et des équations (4).


Les équations (5) et (6) ont été utilisées par Pauli pour trouver les niveaux d'énergie de l'atome
d'hydrogène, indépendamment et simultanément du traitement de Schrödinger à partir de l'équation
de Schrödinger et que nous verrons plus tard. L'approche de Pauli est équivalente à voir les trois
composantes de M comme les générateurs de certaines transformations infinitésimales de la même
manière que les trois composantes de L ont été vues comme les générateurs des rotations
infinitésimales autour des trois axes. Nous continuons donc en calculant l'algèbre des six
générateurs L, M qui consistent en 15 relations de commutation. Trois ont déjà été données et sont
les permutations cycliques de
[ ]
(7) L x , L y = ihL z

Neuf de plus sont les permutations cycliques de


[ ]
(8) [M x , L x ] = 0 M x , L y = ihM z [M x , L z ] = −ihM y

Les trois dernières sont beaucoup plus difficiles à calculer et sont les permutations cycliques de
[ ]
(9) M x , M y = −
2ih
HL z
µ

Les L en eux-mêmes constituent une algèbre fermée (7) et, comme nous l'avons vu, génèrent le
groupe O(3). Les L et M ensemble, cependant, ne forment pas une algèbre fermée puisque, si les
équations (8) impliquent seulement L et M, l'équation (9) implique également H. Cependant,
puisque H est indépendant du temps et commute avec L et M, nous pouvons travailler dans un
sous-espace de l'espace de Hilbert qui correspond à une valeur propre de l'énergie particulière E de
l'hamiltonien H. Alors, H peut être remplacé dans (9) par E, qui pour les états liés est une quantité
négative. Il est pratique maintenant de remplacer M par
 µ 
1/ 2

(10) M ′ ≡  −  M
 2E 

Les relations de commutation (8) sont valides aussi pour M' et (9) est remplacé par
[ ]
(11) M x′ , M ′y = ihLz
Le groupe O(4)
Les six générateurs L, M' constituent une algèbre fermée qui peut être identifiée avec une algèbre
connue de la manière suivante. Nous changeons la notation du vecteur coordonnées r = (x,y,z) et
du vecteur impulsion p = ( p x , p y , p z ) comme
(12) r = (r1 , r2 , r3 ) et p = ( p1 , p 2 , p 3 )
et nous changeons la notation pour le vecteur moment angulaire L = (Lx , L y , Lz ) selon
(13) L = (L23 , L31 , L12 )

Nous avons donc


[ ]
(14) Lij = ri p j − r j p j ri , p j = ihδ ij
où i, j = 1, 2, 3. Nous étendons maintenant les équations (14) à i, j = 1, 2, 3, 4 en inventant une
quatrième coordonnée et de la composante de l'impulsion r4 et p 4 tel que
(15) M ′x = L14 M ′y = L24 M z′ = L34

On vérifie facilement que les équations (14) et (15) conduisent aux relations de commutation (7),
(8) et (11).

Les six générateurs Lij constituent évidemment la généralisation des trois générateurs L de trois à
quatre dimensions. On peut montrer que le groupe qu'ils génèrent est le groupe des rotations
propres ou groupe orthonormal à quatre dimensions O(4) qui est l'ensemble des matrices réelles
orthonormales avec un déterminant égal à +1. Cela ne représente évidemment pas une symétrie
géométrique de l'atome d'hydrogène puisque les quatrièmes composantes r4 et p 4 sont fictives et
ne peuvent pas être identifiées avec des variables dynamiques. Pour cette raison, O(4) est dit
décrire une symétrie dynamique de l'atome d'hydrogène. Il contient, bien sûr, le groupe de symétrie
géométrique O(3) comme sous-groupe.

Il est important de noter que les générateurs de O(4) ont été obtenus en restreignant notre attention
aux états liés. Pour les états continus, E est positif, et le signe dans la racine carré de (10) doit être
changé afin que M' soit hermitique. Alors le signe sur le coté droit de (11) est changé et les
identifications de (14) et (15) ne sont plus valides. Il s'avère que le groupe de symétrie dynamique
dans ce cas est isomorphe au groupe des transformations de Lorentz dans le temps et les trois
dimensions de l'espace, plutôt que le groupe des rotations dans l'espace à quatre dimensions.

Niveaux d'énergie de l'hydrogène


Les valeurs propres de l'énergie peuvent maintenant être trouvées presque sans effort
supplémentaire. Nous définissons deux quantités
(16) I = (L + M ′) K = (L − M ′)
1 1
2 2
dont on vérifie facilement qu'elles satisfont les relations de commutation

(17)
[ ] [ ]
I x , I y = i hI z L K x , K y = i hK z L
[I, K ] = 0 [I, H ] = [K , H ] = 0
Donc, I et K constituent chacun une algèbre O(3) ou SU(2) et nous voyons immédiatement que les
valeurs propres possibles sont
(18) I 2 = i (i + 1)h 2 K 2 = k (k + 1)h 2 i, k = 0, 12 ,1, K

On voit facilement des relations de commutation (17) que le groupe O(4) est de rang 2. Donc, il y a
deux opérateurs de Casimir qui peuvent évidemment être choisis comme
(19) I 2 = (L + M ′) K 2 = (L − M ′)
1 2 1 2

4 4

Ou bien, ils peuvent être choisis comme la somme et la différence de I 2 et K 2 :


(20) C = I 2 + K 2 = (L2 + M ′ 2 ) C ′ = I 2 − K 2 = L ⋅ M ′
1
2

La deuxième équation (6) montre que C' = 0, ainsi nous sommes concernés uniquement par la
partie de O(4) pour laquelle I 2 = K 2 . Donc i = k et les valeurs possibles pour le premier opérateur
de Casimir sont
(21) C = 2k (k + 1)h 2 k = 0, 12 ,1, K
La troisième équation (6) avec (10) et (20) donne alors
1 µ  µκ 2 1 2
(22) C =  L2 − M2  = − − h
2 2E  4E 2

Avec l'expression (21) de C, nous obtenons


µκ 2
(23) E = −
2h 2 (2k + 1)

L'équation (23) est en accord avec le résultat qui sera obtenu avec l'équation de Schrödinger si nous
nous souvenons que κ = Ze 2 et si nous faisons l'identification naturelle n = 2k + 1 qui donne la
séquence de valeurs n 1, 2, 3,…

Il est important de noter qu'il n'y a aucune objection à utiliser des valeurs demi entières pour i et k
dans (18). La seule restriction physique est que L2 = l (l + 1)h 2 a seulement des valeurs entières de l.
Mais puisque L = I + K, la règle du triangle montre que l peut avoir toute valeur allant de
i + k = 2k = n − 1 jusque i − k = 0 par pas entier. Donc l est non seulement restreint à des valeurs
entières mais il a aussi le domaine de valeurs correct par rapport au nombre quantique total n. La
dégénérescence de ce niveau d'énergie est aussi donnée correctement car I z et K z peuvent avoir
chacun 2k + 1 = n valeurs propres indépendantes et il y a donc en tout n 2 états possibles.

Finalement, nous notons que L est un vecteur axial qui ne change pas de signe sous l'inversion
spatiale. De même, il est apparent que M défini par (5) est un vecteur polaire, qui change de signe.
Donc on s'attend à ce que les états définis par les générateurs de symétries L et M n'ont pas besoin
d'avoir une parité définie. C'est effectivement le cas puisque les états de l pairs et impairs sont
dégénérés dans l'atome d'hydrogène.

Oscillateur isotrope classique


L'oscillateur harmonique isotrope à trois dimensions est décrit par l'hamiltonien
p2 1 2
(24) H = + Kr
2m 2

C'est une généralisation de l'oscillateur harmonique linéaire discuté plus tôt dans le cas où la
constante K est la même dans toutes les directions. Une solution particulière du problème classique
de l'orbite est une ellipse avec un demi grand axe a et un demi petit axe b, qui a son demi grand axe
orienté avec un angle γ par rapport à l'axe x.

Comme dans le problème de Kepler, H et L sont des constantes du mouvement, avec des valeurs
données par
1
( )
(25) E = K a 2 + b 2 et L2 = mKa 2 b 2
2

Le fait que l'orbite soit fermée suggère à nouveau qu'il y a une certaine constante supplémentaire du
mouvement qui peut être utilisé pour caractériser l'angle d'orientation γ . Il y a cependant une
différence frappante entre la figure ci-dessus et la précédente. Dans le problème de Kepler, le centre
d'attraction O est un des foyers de l'ellipse, tandis que dans le problème de l'oscillateur, il est au
centre. Donc, les deux directions OA et OP le long du demi grand axe ne sont pas équivalentes dans
l'orbite de Kepler et le petit axe n'est pas un élément de symétrie. Par contraste, les deux directions
le long du grand axe et les deux directions le long du petit axe sont tous deux de bons éléments de
symétrie dans l'orbite de l'oscillateur. Donc, nous nous attendons à ce que la constante
supplémentaire du mouvement ne soit pas un vecteur, comme dans le problème de Kepler, mais
plutôt un tenseur quadrupolaire.

Nous définissons les composantes du tenseur quadrupolaire comme les cinq derniers générateurs de
la représentation coordonnées de SU(3) que nous avons vu. Le calcul des crochets de Poisson
appropriés montre alors que les Q sont des constantes si et seulement si nous choisissons α et β
tel que α / β = mK . Pour l'orbite montrée ci-dessus, les Q ont alors les valeurs
1
( )
Q xy = α a 2 − b 2 sin 2γ Q yz = Q zx = 0
2
(26)
α
Q0 = ( ) 1
(
a 2 + b 2 Q1 = α a 2 − b 2 cos 2γ
2
)
2 3

Comme on s'y attend selon la figure ci-dessus, les composantes du tenseur quadrupolaire sont
inchangées si γ est remplacé par γ + π et aussi si a et b sont échangés et γ remplacé par γ ± 12 π .

Oscillateur isotrope quantique


Puisque le problème quantique se sépare en coordonnées cartésiennes, la solution est facilement
trouvée en fonction de celle de l'oscillateur harmonique linéaire. Les niveaux d'énergie sont
1/ 2
 3  K 
(27) E n =  n + h   n = nx + n y + nz n x , n y , n z = 0,1,2, K
 2  m 

On voit facilement que la dégénérescence de E n est 12 (n + 1)(n + 2 ) et la parité de cet état est paire
ou impaire selon que n est pair ou impair. Donc, les seules valeurs possibles de l sont n, n - 2,…
jusque 1 ou 0 et on peut montrer que l se manifeste une et une seule fois.
La comparaison avec l'étude des symétries montre que le groupe de symétrie dynamique est SU(3).
Puisque nous exigeons que α / β = mK , l'opérateur de Casimir est relié au carré de l'hamiltonien
(24) :
4m
(28) C = −3 + 2 H 2
3h K

La substitution d l'expression (27) pour la nième valeur propre de H dans (28) donne
4
(
(29) C = n 2 + 3n
3
)
Puisque SU(3) est de rang 2, il y a deux opérateurs de Casimir. Ils peuvent être exprimés en
fonction de deux paramètres, λ et µ , qui prennent les valeurs 0, 1, 2,… L'expression générale du
premier opérateur de Casimir en fonction de ces paramètres est
4
(
(30) C = λ2 + λµ + µ 2 + 3λ + 3µ
3
)
Donc seules les représentations de SU(3) avec (λ , µ ) = (n,0) sont réalisées par l'oscillateur isotrope.
La situation est ici quelque peu analogue à celle de l'atome d'hydrogène où seules les
représentations de O(4) avec i = k étaient réalisées.

Par contraste avec l'atome d'hydrogène, nous avons vu qu'il n'y a pas de mélange des parités dans
l'oscillateur isotrope puisque les valeurs de l dans chaque état dégénéré sont ou bien toutes paires
ou toutes impaires. On s'y attendait puisque les huit générateurs, les trois composantes de L et les
cinq Q, ont un signe inchangé sous l'inversion spatiale.

La relation entre l'oscillateur isotrope et SU(3) peut aussi être constatée à travers les opérateurs de
création et de destruction, a + et a. Il y a maintenant trois opérateurs de chaque type, chacun associé
avec un des trois coordonnées. La relation de commutation entre ces opérateurs et l'hamiltonien
deviennent
[ ]
(31) a i , a +j = δ ij
 3 3
H =  ∑ ai+ a i + hω c
 i =1 2
où i, j = x, y, z. Alors l'algèbre des neufs opérateurs ai+ a j est celle des opérateurs de U(3). On peut
trouver des combinaisons de ces opérateurs qui sont égales à H et aux huit générateurs de SU(3).

Exercices
1. Montrez que l'équation (13) de la section II.1 est valide en utilisant la forme (9) pour U r ( ρ ) et
les relations de commutation des composantes de r et p.
2. Utilisez l'invariance du produit scalaire de toute paire de vecteurs sous les rotations afin de
montrer que les lignes et colonnes de la matrice de rotation R sont orthonormales entre elles.
Montrez aussi que la transposée de R est égale à l'inverse de R et que le déterminant de R est
égal à ± 1 .
3. Montrez que les trois relations de commutation (16) de la section III.3.1 sont valides en utilisant
la forme (8) pour L et les relations de commutation pour les composantes de r et p.
4. Montrez que les trois matrices S définies dans les équations (13) de la section III.3.1 satisfont
les relations de commutation S × S = ihS . Montrez aussi que S 2 = 2h 2 .
5. Montrez que les éléments de matrice de r pour des états qui sont tournés d'un vecteur
infinitésimal φ sont égaux aux éléments de matrice correspondants de rR = r + φ × r pour les
états originaux.
6. Montrez que les éléments de matrice de J pour des états qui sont tournés d'un vecteur
infinitésimal φ sont égaux aux éléments de matrice correspondants de J R = J + φ × J pour les
états originaux.
7. Montrez que les valeurs propres de S z données dans (13) de la section III.3.1 sont les mêmes
que celles de J z données dans (34) pour j = 1. Trouvez alors la matrice unitaire la plus générale
qui transforme S z en J z : US zU + = J z . Choisissez les paramètres arbitraires de U afin qu'elle
transforme aussi S x en J x et S y en J y . Comment U transforme-t-elle la fonction vecteur
d'onde ψ α de (9) ?
8. Etablissez les équations (36) de la section III.3.1 en utilisant les définitions (35) et les propriétés
des harmoniques sphériques.
9. Obtenez une expression explicite pour U R (φ ) = exp(− iφ ⋅ J / h ) sous la forme d'une matrice 2x2
quand J est donné par (34) de la section III.3.1 avec j = 1/2. Considérez que le vecteur φ a une
grandeur φ et des angles polaires θ et ϕ . Montrez explicitement que votre matrice pour
U R (φ ) est unitaire et qu'elle est égale à -1 quand φ = 2π .
10. Montrez que les matrices λ j (j = 1, …, 8) définis dans les équations (48) et (51) de la section
III.3.1 satisfont les relations de commutation (52) et (53). Utilisez alors ces relations de
commutation (pas la représentation matricielle originale des λ j ) pour montrer que chaque λ j
commute avec l'opérateur de Casimir C défini par l'équation (54).
11. Montrez que les 28 commutateurs des huit opérateurs (55) de la section III.3.1, calculés à partir
des relations de commutation entre les composantes de r et p, sont en accord avec les relations
de commutation des λ j quand les identifications (57) et (58) sont adoptées.
12. Utilisez les méthodes et formules de la section III.3.2 pour calculer la matrice des coefficients
de Clebsch-Gordan dans les cas j1 = 32 , j 2 = 12 .
13. Un deutéron a un spin 1. Utilisez le théorème de Wigner-Eckart pour trouver les rapports des
valeurs moyennes de l'opérateur moment quadrupolaire électrique Q(2,0) pour les trois
orientations du deutéron : m = 1, 0, -1.
14. Montrez que l'opérateur inversion de l'impulsion U, définis après l'équation (77) de la section
III.3.1 et qui a la propriété Uψ α (p ) = ψ α (− p ) , est unitaire.
15. Montrez que, si ψ α ′ = Tψ α et ψ β ′ = Tψ β , alors (ψ α ′ ,ψ β ′ ) = (ψ α ,ψ β ) = (ψ β ,ψ α ) . A partir de

cela, montrez que la norme d'un vecteur d'état est inchangée par renversement du temps.
16. Montrez explicitement que U = exp(− iπS y / h ) satisfait les deux équations (79) de la section
III.3.1. Utilisez les propriétés de commutation de S y et les opérateurs S ± = S z ± iS x .
17. Montrez par un développement direct que, pour s = 1/2, exp(− iπS y / h ) = −iσ y .
18. Montrez par un argument général que T 2 = ±1 . Utilisez la forme T = UK et le fait que deux
renversements successifs du temps redonne le même état de sorte que T 2 est un multiple de la
matrice unité. N'utilisez pas la forme particulière de T donnée dans l'équation (80) de la section
III.3.1.
19. Une particule chargée avec un opérateur de spin S est supposée posséder un opérateur moment
dipolaire électrique µS où µ est une constante numérique et ainsi l'hamiltonien pour cette
particule dans un champ électrique E contient le terme d'interaction − µS ⋅ E . Montrez que ni
l'inversion spatiale ni le renversement du temps ne sont des opérations de symétrie pour cette
particule se déplaçant dans un potentiel électrostatique à symétrie sphérique φ (r ) , même quand
aucun champ électrique externe n'est présent.
20. Trouvez la fonction propre d'énergie la plus basse de l'atome d'hydrogène en coordonnées
représentation en partant du travail de la section III.5. Procédez en trouvant l'analogue de
l'équation (10) de la section VI.4 du tome II pour l'état le plus bas de l'oscillateur linéaire.
Résolvez-la par analogie avec l'équation (22).

IV. Particules identiques et spin


La théorie de la mécanique quantique des particules présentée jusqu'ici est déficiente sous trois
aspects. Tout d'abord, si deux ou plusieurs particules sont décrites en même temps, comme
l'électron et le proton de l'atome d'hydrogène ou les électrons incidents et atomiques dans une
collision inélastique, on suppose que les particules peuvent être distinguées les unes des autres.
C'est une hypothèse valide dans le premier exemple puisque les électrons et les protons possèdent
des charges et des masses assez différentes. Dans le second exemple, cependant, il n'y a pas de
différence observable entre les électrons incidents et atomiques et les conséquences de cette identité
devraient apparaître dans le formalisme. Le deuxième défaut de la théorie est que le spin n'a pas
encore bien été incorporé dans la description du mouvement. Enfin, aucune mention à la relativité
restreinte n'a été faite et on s'attend à ce qu'elle affecte la description théorique des particules qui se
déplacent à des vitesses proches de celle de la lumière.

Nous allons maintenant nous attaquer aux deux premiers défauts. La relativité sera abordée plus
tard.

Nous allons d'abord utiliser une approche simple par les collisions puis nous reprendrons l'étude
d'une manière plus abstraite et rigoureuse.
IV.1. Particules identiques
Les particules identiques ne peuvent pas être distinguées en utilisant toute propriété intrinsèque
puisque autrement elles ne seraient pas identiques sous tous les aspects. En mécanique classique,
l'existence de trajectoires bien précises pour les particules individuelles rend possible en principe la
distinction entre des particules qui sont identiques excepté pour leur trajectoire, puisque chaque
particule peut être suivie durant le cours d'une expérience. En mécanique quantique, la taille finie et
la dispersion des paquets d'ondes qui peuvent décrire des paquets d'ondes individuels rend souvent
impossible la distinction entre les particules individuelles à travers leur position, en particulier si
elles interagissent ensembles sur une région d'étendue appréciable. Cela est vrai des électrons dans
un seul atome où nous verrons que la description en termes de paquets d'ondes bien localisés
échoue complètement. Cependant, les électrons d'atomes différents qui sont bien séparés l'un de
l'autre peu, avec une bonne approximation, être vu comme distincts. Nous allons considérer certains
des effets de l'identité sur le traitement de systèmes de deux ou plusieurs particules. D'autres effets
qui impliquent le spin explicitement seront également examinés.

Signification physique de l'identité


L'impossibilité, même en principe, de distinguer les particules identiques dans la plus part des
problèmes de la mécanique quantique peut conduire à des effets qui n'ont pas d'analogue classique.
Comme exemple, on peut comparer la collision élastique de deux particules identiques qui ont une
interaction particulière entre elles avec la collision de deux particules différentes qui ont la même
interaction entre elles.

Dans un traitement classique, il n'y a pas de différence de principe entre les résultats de ces deux
expériences puisqu'il est possible de distinguer la particule incidente et la particule cible aussi bien
dans le premier cas que dans le second. En pratique, cependant, cette distinction sera faite
habituellement seulement dans la deuxième expérience. Donc, selon la mécanique classique, la
section efficace différentielle mesurée dans la première expérience est égale à la somme des
sections efficaces des sections efficaces correspondantes mesurées pour la particule incidente et la
particule cible dans la deuxième expérience. Dans la situation quantique correspondante, les
particules identiques dans la première expérience ne peuvent pas être distinguées par leur
trajectoire puisqu'elles ne peuvent pas être bien localisées sans interférer avec le processus de
diffusion. Donc, la distinction entre particule incidente et cible n'a pas de signification physique et
la relation simple entre les résultats des deux expériences trouvée dans le cas classique n'existe pas
nécessairement.

Nous utilisons le mot identique pour décrire des particules qui peuvent être substituées l'une à
l'autre dans les circonstances les plus générales possibles sans changer la situation physique. Des
particules identiques peuvent dans certains cas être distinguées quand leurs paquets d'ondes ne se
superposent pas. Un autre cas, discuté plus loin, se produit quand les particules possèdent un
moment angulaire de spin intrinsèque qui est une constante du mouvement dans une collision
particulière. Alors, puisque la composante du spin le long d'un axe est supposée ne pas changer
durant cette collision, les particules peuvent être distinguées si elles ont différentes composantes du
spin. Les résultats de ce type doivent, bien sûr, être une conséquence du formalisme que nous
allons devoir poser.

La mécanique quantique postule que l'état complet d'un système est entièrement encodé dans sa
fonction d'onde ou son vecteur d'état. On parle de théorie complète dans le sens où tout ce qui
permet de décrire le système est décrit par la théorie. On peut très bien mal connaître un système
physique et ne pas avoir la description complète de l'espace de Hilbert ou de l'hamiltonien mais
cette description complète est possible par la théorie, au moins en principe, même si on ne la
connaît pas toujours. Considérons ainsi deux particules qui seraient décrites par le même état ψ ,
au moins à un instant donné. On peut alors se poser la question de savoir si les deux particules sont
différentes a un sens. On peut même se demander si le caractère individuel des particules a encore
un sens et si la description correcte ne doit pas obligatoirement passer par une description globale
des deux particules vues comme un tout, une paire de particules plutôt que deux particules
individuelles. Cela se voit d'ailleurs clairement dans la description en termes de fonction d'onde où
un système à deux particules ne doit pas se décrire par deux fonctions d'onde séparées mais par une
seule fonction d'onde dépendant de six coordonnées.

C'est un point de vue conceptuellement très différent de tout ce que l'on connaît en mécanique
classique et il peut être assez difficile à imaginer. Une fois cette perte d'individualité acquise, il ne
fait aucun doute que cela doit avoir une influence sur le comportement des systèmes physiques.
C'est d'ailleurs exactement ce que montre la mécanique quantique, comme nous le verrons bientôt.
En outre, la concordance des résultats expérimentaux avec les prédictions de la mécanique
quantique est un argument très fort en faveur de la validité de ce raisonnement et donc du caractère
complet de la mécanique quantique. Si le moindre paramètre interne permettait de distinguer les
particules, même si nous ignorons son existence, cela aurait un impact immédiat sur les prédictions
résultant de l'hypothèse de l'identité parfaite. C'est ce genre de constat, en plus de l'énorme
accumulation de résultats expérimentaux confirmant toutes les prédictions de la mécanique
quantique, qui autorise une grande confiance en cette théorie.

IV.1.2. Collision entre particules identiques


Le caractère identique des particules conduit à des conséquences parmi les plus remarquables de la
mécanique quantique. Nous allons l'illustrer à l'aide d'une expérience simple. Elle comporte encore
une situation physique dans laquelle quelque chose peut se produire de deux façons indiscernables,
si bien que les amplitudes interfèrent, comme c'est toujours le cas dans de telles circonstances.
Nous allons discuter la diffusion, à des énergies relativement basses, de noyaux par d'autres
noyaux. Pour commencer nous pensons à des particules alpha (qui, comme vous le savez sont des
noyaux d'hélium) bombardant, disons de l'oxygène. Pour que cette réaction soit plus facile à
analyser, nous l'étudierons dans le système du centre de masse, où les vitesses du noyau d'oxygène
et de la particule sont opposées avant la collision et sont à nouveau exactement opposées après la
collision (bien entendu, les grandeurs des vitesses sont différentes puisque les masses sont
différentes). Voir la figure ci-dessous.
Nous supposerons également que l'énergie est conservée et que l'énergie de la collision est
suffisament faible pour qu'aucune particule ne soit cassée ou ne passe dans un état excité. La raison
pour laquelle les deux particules se défléchissent mutuellement est bien entendu que chaque
particule porte une charge positive et, qu'en termes classiques, il y a répulsion électrique
lorsqu'elles passent l'une près de l'autre. La diffusion a lieu avec différentes probabilités aux
différents angles et nous voudrions discuter un peu la dépendance angulaire de telles diffusions.

Il est évidemment possible de calculer cela classiquement et le fait que la solution de ce problème
soit la même que classiquement est un des plus remarquables accidents de la mécanique quantique.
Ceci est vraiment curieux car le fait ne se produit avec aucune autre force que celle qui suit la loi
inverse du carré, c'est donc bien un accident.

La probabilité de diffusion dans différentes directions peut être mesurée par une expérience comme
celle décrite sur la figure (a) ci-dessus. Le compteur placé en 1 peut être construit de façon à ne
détecter que les particules alpha. Le compteur placé en 2 peut être conçu de façon à ne détecter que
l'oxygène, ceci seulement à titre de vérification (dans le système du laboratoire, les détecteurs ne
seraient pas face à face, mais ils le sont dans le système du centre de masse CM). Notre expérience
consiste à mesurer la probabilité de diffusion dans différentes directions. Appelons f (θ )
l'amplitude de diffusion vers les compteurs lorsque ceux-ci sont disposés à l'angle θ . Alors f (θ )
2

sera la probabilité que nous déterminerons expérimentalement.

Nous allons maintenant réaliser une autre expérience dans laquelle nos compteurs pourront
répondre soit à la particule alpha, soit au noyau d'oxygène. Nous avons alors à traiter le cas où nous
ne nous soucions pas de distinguer quelle est la particule détectée. Bien sûr, si nous détectons un
noyau d'oxygène à la position θ , il doit y avoir une particule alpha dans la direction opposée, en
π − θ ainsi que le montre la figure (b) ci-dessus. Ainsi, si f (θ ) est l'amplitude pour la diffusion
d'un alpha à l'angle , alors f (π − θ ) est l'amplitude pour la diffusion de l'oxygène à l'angle θ .

En général, on devrait évidemment décrire une direction de diffusion par deux angles : un angle
azimutal φ , aussi bien que l'angle polaire θ . Nous dirions alors qu'avoir un noyau d'oxygène en
(θ , φ ) signifie avoir une particule alpha en (π − θ , φ + π ) . Cependant, pour la diffusion
coulombienne (et pour de nombreux autres cas), l'amplitude de diffusion est indépendante de φ .
L'amplitude pour obtenir un oxygène en θ est alors la même que celle pour obtenir une particule
alpha en π − θ . On peut aussi imaginer avoir des détecteurs en forme d'anneaux dont le plan est
perpendiculaire à la direction initiale afin de détecter les particules sous tout angle azimutal et ainsi
pouvoir ignorer cet angle.

Par suite, la probabilité pour avoir une particule quelconque dans le détecteur placé en 1 est :
(1) Probabilité d'une particule quelconque dans D1 = f (θ ) + f (π − θ )
2 2

Notez que les deux états sont discernables en principe. Même si dans cette expérience nous ne les
distinguons pas, nous pourrions le faire. Nous devons donc ajouter les probabilités, non les
amplitudes.

Le résultat donné ci-dessus est correct pour une large variété de noyaux cibles, pour des particules
sur de l'oxygène, sur du carbone, sur du béryllium, sur de l'hydrogène,… Mais il est faux pour des
particules alpha sur des particules alpha. Dans le cas où les deux particules sont parfaitement
identiques, les résultats expérimentaux sont en désaccord avec la prédiction de (1). Par exemple, la
probabilité de diffusion à 90° est exactement le double de ce que la théorie ci-dessus prédit et ceci
n'a rien à voir avec le fait que les particules soient des noyaux d'hélium. Si la cible est du He 3 ,
mais si les projectiles sont des particules alpha ( He 4 ), alors il y a accord. C'est seulement lorsque la
cible est He 4 , si bien que ses noyaux sont identiques à ceux de la particule alpha incidente, que la
diffusion change avec l'angle d'une façon très spéciale. Il en est de même si on envoie des noyaux
d'oxygène sur des noyaux d'oxygène, des noyaux de carbone sur des noyaux de carbone, etc.

Peut-être voyez-vous déjà l'explication. Il y a deux façons d'obtenir une particule alpha dans le
compteur : en diffusant la particule alpha incidente à un angle θ ou bien en la diffusant à l'angle
π − θ . Comment pouvons-nous dire si c'est la particule incidente ou la particule cible qui est entrée
dans le compteur ? La réponse est que nous ne pouvons pas.

Dans le cas des particules alpha sur des particules alpha, il y a deux possibilités qui ne peuvent pas
être distinguées. Nous devons alors laisser les amplitudes de probabilité interférer par addition et la
probabilité de trouver une particule alpha dans le compteur est le carré de la somme des amplitudes
:
(2) Probabilité d'une particule en D1 : f (θ ) + f (π − θ )
2
Ce résultat est tout à fait différent de celui de l'équation (1). Prenons un angle de π / 2 comme
exemple, car il est alors facile de voir ce qu'il en est. Pour θ = π / 2 , nous avons évidemment
f (θ ) = f (π − θ ) et la probabilité de (2) devient alors f (π / 2 ) + f (π / 2 ) = 4 f (π / 2 ) .
2 2

Par ailleurs, si les amplitudes n'interfèrent pas, le résultat de (1) donne seulement 2 f (π / 2 ) . Il y a
2

donc deux fois plus de diffusion à 90° que ce que nous attendions. Bien sûr, les résultats sont
également différents pour d'autres angles. Vous trouvez ainsi le résultat inhabituel que lorsque des
particules sont identiques, il se produit quelque chose de nouveau qui ne se produisait pas lorsque
les particules pouvaient être distinguées. Dans la description mathématique vous devez ajouter les
amplitudes pour les deux processus indiscernables, dans lesquels les particules échangent
seulement leurs rôles et il y a alors interférence.

Il se passe quelque chose d'encore plus troublant lorsque nous faisons le même genre d'expérience
en diffusant des électrons sur des électrons ou bien des protons sur des protons. Aucun des résultats
ci-dessus n'est alors correct ! Pour ces particules il faut invoquer une nouvelle règle, des plus
curieuses, qui est la suivante : lorsque vous considérez une situation dans laquelle l'électron qui
arrive en un certain point est échangé avec un autre, la nouvelle amplitude interfère avec l'ancienne
en opposition de phase. C'est encore une interférence, mais avec le signe moins. Dans le cas des
particules alpha, lorsque vous échangez les particules alpha entrant dans le détecteur, les
amplitudes interfèrent avec le signe plus. Dans le cas des électrons, les amplitudes d'échange
interfèrent avec le signe moins. A l'exception d'un autre détail qui sera discuté ci-dessous,
l'équation correcte pour des électrons dans une expérience comme celle de la figure ci-dessous est
(3) Probabilité de e en D1 : f (θ ) − f (π − θ )
2
L'énoncé ci-dessus doit être précisé car nous n'avons pas précisé la direction du spin de l'électron
(les particules alpha n'ont pas de spin). Le spin de l'électron peut être considéré comme étant soit
"en haut", soit "en bas" par rapport au plan de la diffusion. Si l'expérience est faite à une énergie
suffisament basse, les forces magnétiques dues aux courants seront petites et la direction du spin ne
sera pas affectée. Nous supposerons que ceci est le cas dans la présente analyse si bien qu'il n'y a
aucune chance pour que les spins soient échangés pendant la collision. Quelle que soit la direction
qu'a le spin de l'électron, il la conserve. Vous pouvez voir maintenant que les possibilités sont
nombreuses. Les particules incidentes et la particule cible peuvent avoir leurs deux spins en haut,
leurs deux spins en bas ou encore des spins opposés. Si les deux spins sont en haut comme sur la
figure précédente (ou si les deux spins sont en bas), la même chose sera vraie des particules
diffusées (même si l'énergie est un peu trop forte et autorise un échange du spin, d'ailleurs) et
l'amplitude du processus est la différence entre les amplitudes pour les deux possibilités indiquées
sur les figures (a) et (b) ci-dessus. La probabilité de détecter un électron en D est alors donné par
(3).

Supposez cependant que le spin de la particule incidente soit en haut et le spin de la "cible" en bas.
L'électron entrant dans le compteur 1 peut avoir son spin en haut ou en bas, en mesurant la
direction de ce spin, nous pouvons dire si l'électron vient soit du faisceau incident, soit de la cible
(cette fois, sans échange de spin). Les deux possibilités sont indiquées sur les figures (a) et (b) ci-
dessous.
Elles sont discernables en principe et elles n'interféreront donc pas mais donneront plutôt une
addition des deux probabilités. Le même argument est valable si les deux spins initiaux sont
retournés, c'est-à-dire, si le spin de gauche est en bas et le spin de droite est en haut.

Si maintenant nous prenons nos électrons au hasard, comme ceux qui proviennent d'un filament de
tungstène et qui n'ont aucune polarisation, il y a 50% de chances pour qu'un électron particulier soit
produit avec son spin en haut ou avec son spin en bas. Si, dans cette expérience nous ne nous
soucions pas de mesurer la direction du spin des électrons nulle part, nous avons ce que nous
appelons une expérience non polarisée. On calcule plus facilement les résultats de cette expérience
en faisant la liste des différentes possibilités comme nous l'avons fait dans la table ci-dessous.
Diffusion de particules de spin un demi non polarisées
Fraction des Spin de la Spin de la Spin en D1 Spin en D2 Probabilité
cas particule 1 particule 2
En haut En haut En haut En haut f (θ ) − f (π − θ )
1 2
4

En bas En bas En bas En bas f (θ ) − f (π − θ )


1 2
4

En haut En bas En haut En bas f (θ )


1 2
4

En bas En haut f (π − θ )
2

En bas En haut En haut En bas f (π − θ )


1 2
4

En bas En haut f (θ )
2

f (θ ) − f (π − θ ) + f (θ ) + 12 f (π − θ )
1 2 1 2 2
Probabilité totale = 2 2

On calcule séparément la probabilité de chacune des possibilités discernables. La probabilité totale


est alors la somme de toutes les probabilités séparées. Notez que, pour des faisceaux non polarisés,
le résultat pour θ = π / 2 est la moitié du résultat classique avec des particules indépendantes. Le
comportement de particules identiques a de nombreuses conséquences intéressantes. Nous allons en
discuter de façon plus détaillée dans ce qui suit.

IV.1.3. Particules de Bose et particules de Fermi


Dans ce qui précède, nous avons commencé à étudier les règles spéciales d'interférence dans le cas
de processus mettant en jeu deux particules identiques. Par particules identiques nous entendons
des choses, telles que des électrons, qui ne peuvent en aucune façon être distinguées les unes des
autres. Si deux particules identiques interviennent dans un processus donné, les situations obtenues
en échangeant la particule qui atteint un compteur avec l'autre particule, et en ne les échangeant
pas, ne peuvent pas être distinguées et, ainsi que dans tous les cas où plusieurs possibilités ne
peuvent pas être distinguées, elles interfèrent. L'amplitude pour un événement est alors la somme
des deux amplitudes qui interfèrent. Mais, et c'est un fait intéressant, l'interférence se produit dans
certains cas avec la même phase et dans d'autres cas avec la phase opposée.

Supposons que nous ayons une collision entre deux particules a et b au cours de laquelle la
particule a est diffusé dans la direction 1 et la particule b dans la direction 2, comme l'indique la
figure (a) ci-dessous.
Appelons f (θ ) l'amplitude pour ce processus. Alors la probabilité P1 pour observer un tel
événement est proportionnelle à f (θ ) . Bien entendu, il pourrait aussi arriver que la particule b
2

soit diffusée vers le compteur 1 et la particule a vers le compteur 2., comme le montre la figure (b)
ci-dessus. En supposant qu'il n'y ait pas de direction privilégiée définie par les spins ou quelque
chose d'autre, la probabilité P2 pour ce processus est simplement f (π − θ ) car ce processus est
2
exactement équivalent au premier dans lequel on aurait placé le compteur 1 à l'angle π − θ . Vous
pourriez aussi considérer que l'amplitude pour le deuxième processus est juste f (π − θ ) . Mais il
n'en est pas nécessairement ainsi car il pourrait y avoir un facteur de phase arbitraire. Plus
précisément, l'amplitude pourrait être
(1) e iδ f (π − θ )

Une telle amplitude donne encore une probabilité P2 égale à f (π − θ ) .


2

Voyons maintenant ce qui se passe lorsque a et b sont des particules identiques. Les deux processus
différents qui sont indiqués sur la figure ci-dessus ne peuvent plus alors être distingués. Il y a une
amplitude pour que soit a, soit b aille vers le compteur 1, l'autre particule allant vers le compteur 2.
L'amplitude est la somme des amplitudes des deux processus indiqués sur la figure ci-dessus. Si
nous appelons la première f (θ ) , la seconde est alors e iδ f (π − θ ) , où le facteur de phase est
maintenant très important parce que nous allons ajouter des amplitudes. Supposons que nous ayons
à multiplier l'amplitude par un certain facteur de phase lorsque nous échangeons le rôle des deux
particules. Si nous les échangeons à nouveau nous devons encore obtenir le même facteur. Mais
nous sommes alors ramenés au premier processus. En comptant deux fois le facteur de phase, on
doit donc revenir d'où nous sommes partis, son carré doit donc être égal à 1. Il n'y a que deux
possibilités : e iδ est égal à 1 ou bien il est égal à -1. Les deux amplitudes sont donc, soit de même
signe, soit de signe opposé. Les deux cas existent dans la nature, chacun pour une classe de
particules différentes. Les particules qui interfèrent avec le signe plus sont appelées particules de
Bose et les particules qui interfèrent avec le signe moins sont appelées particules de Fermi. Les
particules de Bose sont : le photon, les mésons, le gluon, les bosons de jauge W et Z, le Higgs
(encore hypothétique à l'écriture de ces lignes) et le graviton (hypothétique vecteur de la gravité).
Les particules de Fermi sont : l'électron, le muon, les neutrinos, les nucléons (et les quarks) et les
baryons. Nous avons donc pour l'amplitude de diffusion de particules identiques :
(2) Particules de Bose : (amplitude directe) + (amplitude avec échange)
(3) Particules de Fermi : (amplitude directe) - (amplitude avec échange)

Pour des particules ayant un spin, comme les électrons, il y a une complication supplémentaire.
Nous devons spécifier non seulement les positions des particules mais aussi les directions de leurs
spins. C'est seulement pour des particules identiques, dans des états de spin identiques, que les
amplitudes interfèrent lorsque des particules sont échangées. Si vous considérez la diffusion de
faisceaux non polarisés, qui sont des mélanges de différents états de spin, il faut faire un peu
d'arithmétique supplémentaire.

Maintenant, un problème intéressant se pose lorsqu'il y a deux ou un plus grand nombre de


particules étroitement liées ensembles. Par exemple, une particule alpha est faite de quatre
particules : deux neutrons et deux protons. Lorsque deux particules se diffusent, plusieurs
éventualités sont possibles. Il peut arriver que, pendant la diffusion, il y ait une certaine amplitude
pour qu'un des neutrons saute d'une particule alpha à l'autre tandis qu'un neutron de l'autre particule
alpha saute dans l'autre sens de telle façon que les deux alphas qui sortent de la diffusion ne sont
pas les alphas originaux, il y a eu échange d'une paire de neutrons. Voir la figure ci-dessous.
L'amplitude pour la diffusion avec échange d'une paire de neutrons interférera avec l'amplitude
pour la diffusion sans échange et cette interférence doit avoir le signe moins parce qu'il y a eu
échange d'une paire de particules de Fermi. Par ailleurs, si l'énergie relative des deux alphas est si
basse qu'ils restent relativement loin l'un de l'autre, à cause de l'interaction coulombienne par
exemple, et si la probabilité d'échanger l'une quelconque des particules internes n'est jamais
appréciable, nous pouvons considérer la particule comme un objet simple et nous n'avons pas à
nous inquiéter de ses détails internes. Dans de telles circonstances, il n'y a que deux contributions à
l'amplitude de diffusion. Ou bien il n'y a pas d'échange, ou bien les quatre nucléons sont échangés à
la fois, comme dans la première figure. Comme les protons et les neutrons de la particule sont tous
des particules de Fermi, l'échange d'une paire quelconque change le signe de l'amplitude de
diffusion. Tant qu'il n'y a pas de changement interne dans la particule alpha, échanger les deux
particules alpha est la même chose qu'échanger quatre paires de particules de Fermi. Il y a un
changement de signe pour chaque paire, si bien que le résultat final est que les amplitudes se
combinent avec le signe plus. La particule alpha se comporte comme une particule de Bose.

La règle est donc que les objets composés, dans les circonstances où l'objet composé peut être
considéré comme un objet simple, se comportent comme des particules de Bose ou de Fermi, selon
qu'ils contiennent un nombre pair ou un nombre impair de particules de Fermi.

Un autre exemple est celui des nucléons tel que le proton et le neutron. Ils sont composés de trois
quarks qui sont des particules de Fermi. Ils sont donc aussi des particules de Fermi. De même, les
mésons étant composés de deux quarks sont des particules de Bose.

Toutes les particules élémentaires de Fermi que nous avons mentionnées, telle que l'électron, le
proton, le neutron, etc., ont un spin j = 1/2. Si plusieurs de ces particules sont mises ensemble pour
former un objet composé, le spin résultant peut être soit entier, soit demi-entier. Par exemple,
l'isotope courant de l'hélium, He 4 , qui a deux neutrons et deux protons, a un spin zéro alors que le
Li 7 , qui a trois protons et quatre neutrons, a un spin 3/2. La règle du triangle montre qu'un nombre
pair de particules de spin demi-entier s'associe pour former un objet de spin entier et un nombre
impair donne un spin demi-entier. Il est clair qu'une particule composée ou non ayant un spin demi-
entier est une particule de Fermi alors que si elle a un spin entier elle est une particule de Bose.
Ceci amène une intéressante question : pourquoi les particules à spin demi-entier sont-elles donc
des particules de Fermi dont les amplitudes s'ajoutent avec le signe moins, tandis que les particules
à spin entier sont des particules de Bose dont les amplitudes s'ajoutent avec le signe plus ? Nous
nous excusons de ne pas pouvoir vous donner une explication élémentaire. Une explication a été
formulée par Pauli à partir d'arguments compliqués de la théorie quantique des champs et de la
relativité (théorème spin - statistique). Il a montré que les deux choses vont nécessairement
ensemble, mais nous n'avons pas trouvé le moyen de reproduire ses arguments à un niveau
élémentaire. Il semble que ce soit là un des rares endroits en physique où il y a une règle qui peut
être énoncée très simplement et pour laquelle personne n'a trouvé une explication simple et aisée.
La raison en est profondément cachée dans la mécanique quantique relativiste. Cela veut sans doute
dire que nous n'avons pas une compréhension complète des principes fondamentaux qui sont mis en
jeu. Pour le moment il vous faudra prendre cela pour une des lois de l'univers.

IV.1.4. Etats à deux particules de Bose


Nous voudrions discuter maintenant une conséquence intéressante de la règle d'addition (des
amplitudes) pour des particules de Bose. Il s'agit de leur comportement lorsqu'il y a plusieurs
particules présentes. Commençons par considérer une situation où deux particules de Bose sont
diffusées par deux diffuseurs différents. Nous ne nous soucierons pas des détails du mécanisme de
diffusion. Nous nous intéresserons seulement à ce qui arrive aux deux particules diffusées.
Supposons que nous ayons la situation décrite dans la figure ci-dessous.
La particule a est diffusée dans l'état 1. Par état, nous entendons une direction et une énergie
donnée ou la donnée de toute autre condition. La particule b est diffusée dans l'état 2. Nous allons
supposer que les deux états 1 et 2 sont presque les mêmes (en réalité, ce que nous voudrions
éventuellement trouver est l'amplitude pour que les deux particules soient diffusées dans des
directions ou des états identiques. Mais il vaut mieux réfléchir d'abord à ce qui se produit si les
états sont presque les mêmes et calculer ensuite ce qui se produit lorsqu'ils deviennent identiques).

Supposons que nous ayons seulement la particule a. Elle aurait alors une certaine amplitude de
diffusion dans la direction 1, disons 1 a . Et la particule b seule aurait l'amplitude 2 b d'aboutir
dans la direction 2. Si les deux particules ne sont pas identiques, l'amplitude pour que les deux
diffusions se produisent au même moment est exactement le produit
(1) 1 a 2 b
La probabilité pour un tel événement est alors
2
(2) 1 a 2 b
qui est aussi égale à
2 2
(3) 1 a 2b

Pour raccourcir l'écriture dans la présente discussion, nous poserons quelquefois


(4) 1 a = a1 et 2 b = b2

La probabilité de diffusion est alors


2 2
(5) a1 b2

Il pourrait aussi arriver que la particule b soit diffusée dans la direction 1 tandis que la particule a
va dans la direction 2. L'amplitude pour ce processus est
(6) 2 a 1 b
et la probabilité pour un tel événement est
2
= a 2 b1
2 2
(7) 2 a 1 b

Imaginez maintenant que nous ayons une paire de tous petits compteurs qui détectent les deux
particules diffusées. La probabilité P2 pour qu'ils captent les deux particules ensemble est juste la
somme
2 2 2 2
(8) p 2 = a1 b2 + a 2 b1

Supposons maintenant que les deux directions 1 et 2 soient très proches l'une de l'autre. Nous nous
attendons à ce que a varie lentement avec la direction, si bien que a1 et a 2 doivent tendre l'un vers
l'autre lorsque 1 et 2 deviennent de plus en plus proches. S'ils sont suffisament proches, les
amplitudes a1 et a 2 seront égales (à la précision des mesures près). Nous pouvons poser a1 = a 2 et
les appeler toutes les deux simplement a. De même nous posons b1 = b2 = b . Nous obtenons alors
2 2
(9) P2 = 2 a b

Mais supposons que a et b soient des particules de Bose identiques. Alors le processus au cours
duquel a va en 1 et b en 2 ne peut pas être distingué du processus avec échange dans lequel a va en
2 et b va en 1. Dans ce cas les amplitudes pour les deux processus peuvent interférer. L'amplitude
totale pour obtenir une particule dans chacun des compteurs est
(10) 1 a 2 b + 2 a 1 b

Et la probabilité pour que nous obtenions une telle paire est le carré du module de cette amplitude,
2 2 2
(11) P2 = a1b2 + a 2 b1 = 4 a b

Nous trouvons le résultat suivant : la probabilité pour trouver deux particules de Bose identiques
diffusées dans le même état est le double de ce que vous auriez calculé en supposant que les deux
particules étaient différentes.

Quoique nous n'ayons considéré que le cas où les deux particules étaient observées dans des
compteurs séparés, ceci n'est pas essentiel, comme nous pouvons le voir de la façon suivante.
Imaginons que les particules émises dans les directions 1 et 2 aboutissent dans un seul petit
compteur placé à quelque distance de là. Nous considérerons que la direction 1 est définie en disant
que c'est celle de l'élément d'aire dS1 du compteur. La direction 2 est celle de l'élément d'aire dS 2
du compteur (nous admettons que la surface du compteur est orientée à angle droit par rapport à la
ligne de diffusion). Maintenant nous ne pouvons plus donner une probabilité pour qu'une particule
aille dans une direction précise ou en un point particulier de l'espace. Une telle chose est
impossible, la probabilité d'une direction exacte est nulle. Si nous voulons être aussi précis, il faut
définir nos amplitudes de telle façon qu'elles donnent la probabilité d'arrivée par unité de surface du
compteur (densité de probabilité). Supposons que nous ayons eut seulement une particule a. Elle
aurait eut une certaine amplitude de diffusion dans la direction 1. Définissons 1 a = a1 comme
l'amplitude de diffusion de a par unité de surface du compteur dans la direction 1. En d'autres
termes l'échelle de a1 est choisie (c'est-à-dire normalisée) de telle façon que la probabilité pour que
a soit diffusée vers l'élément de surface dS1 soit
2
dS1 = a1 dS1
2
(12) 1 a

Si notre compteur a une surface totale ∆S et si ∆S est le domaine d'intégration de dS1 , la


probabilité totale pour que la particule a soit diffusée dans le compteur est

2
(13) a1 dS1
∆S

Comme auparavant, nous supposerons que le compteur est suffisament petit pour que l'amplitude
a1 ne varie pas de façon significative sur la surface du compteur. a1 est alors une amplitude
constante que nous pouvons appeler a. La probabilité pour que la particule a soit diffusée quelque
part dans le compteur est alors
2
(14) p a = a ∆S

De la même façon, nous aurons la probabilité pour que la particule b, lorsqu'elle est toute seule, soit
diffusée vers un certain élément d'aire, disons dS 2 ,
2
(15) b2 dS 2
(nous utilisons dS 2 au lieu de dS1 car, plus tard, nous voudrons que a et b aillent dans différentes
directions). A nouveau, nous posons b2 égal à l'amplitude constante b. La probabilité pour que la
particule b soit comptée dans le détecteur est alors
2
(16) pb = b ∆S

Maintenant, lorsque les deux particules sont présentes, la probabilité pour que a soit diffusée vers
dS1 et que b soit diffusé vers dS 2 est
2 2 2
(17) a1b2 dS1 dS 2 = a b dS1 dS 2
Si nous voulons la probabilité pour que a et b aillent à la fois dans le compteur, nous intégrons dS1
et dS 2 sur ∆S et nous trouvons que
(18) P2 = a b (∆S )
2 2 2

Notons incidemment que ceci n'est autre chose que p a ⋅ pb , ce qui est exactement ce que vous
auriez obtenu en faisant l'hypothèse que les particules a et b interagissent indépendamment l'une de
l'autre.

Lorsque les deux particules sont identiques, il y a par ailleurs deux possibilités indiscernables pour
chaque paire d'éléments de surface dS1 et dS 2 . La situation où la particule va en dS1 et la particule
b va en dS 2 est indiscernable de a dans dS 2 et b dans dS1 et, par conséquent, les amplitudes pour
ces processus interféreront (lorsque nous avions deux particules différentes comme ci-dessus, et
quoique nous ne nous souciions pas en fait de savoir quelle particule allait dans quel compteur,
nous aurions pu, en principe, le savoir, si bien qu'il n'y avait pas d'interférence. Pour des particules
identiques nous ne pouvons rien dire, même en principe). Nous devons alors écrire que la
probabilité pour que les deux particules arrivent en dS1 et dS 2 est
2
(19) a1b2 + a 2 b1 dS1dS 2

Mais maintenant, lorsque nous intégrons sur la surface du compteur, il faut faire attention. Si nous
intégrons sur toute la surface ∆S , nous risquons de compter chaque partie de cette surface deux fois
puisque (19) contient tout ce qui peut se passer pour chaque paire d'éléments de surface dS1 et dS 2 .
Dans (17), on obtient un événement différent si on échange dS1 et dS 2 donc on doit faire varier les
deux éléments de surface sur toute la surface du compteur. Dans (19), nous traitons dS1 et dS 2
comme une paire et nous comptons tout ce qui peut arriver. Si l'intégrale contient en plus ce qui se
passe lorsqu'on échange dS1 et dS 2 tout est alors compté deux fois. Nous pouvons encore faire
l'intégration de cette façon si nous corrigeons ce double comptage en divisant par 2. Nous trouvons
alors que P2 , pour des particules de Bose identiques, est
(20) P2 (Bose ) =
1
2
{ 2 2
}
4 a b (∆S ) = 2 a b (∆S )
2 2 2 2

De nouveau, ceci est juste deux fois ce que nous avions obtenu dans l'équation (18) pour des
particules discernables.

Si nous imaginons pour un instant que nous ayons su que le canal b avait déjà envoyé sa particule
dans une certaine direction, nous pouvons dire que la probabilité pour qu'une deuxième particule
aille dans la même direction est deux fois ce que nous nous serions attendus à trouver si nous
avions calculé cette probabilité comme pour un événement indépendant. C'est une propriété des
particules de Bose : si une particule est déjà dans certaines conditions, la probabilité pour obtenir
une deuxième particule dans les mêmes conditions est deux fois ce qu'elle aurait été si la première
n'était pas déjà là. Ce fait est souvent énoncé de la façon suivante : s'il y a déjà une particule de
Bose dans un état donné, l'amplitude pour en mettre une deuxième par-dessus est 2 fois plus
grande que si la première n'était pas déjà là. Un peu abusivement, on peut dire aussi que les
particules de Bose identiques ont un comportement "grégaire", elles "aiment" être dans le même
état.

Cette façon d'énoncer le résultat n'est pas correcte du point de vue physique que nous avons adopté,
mais si on l'utilise de façon cohérente, comme une règle, on obtiendra naturellement le résultat
correct. En effet, il n'existe pas de force ou d'interaction mystérieuse qui pousserait la deuxième
particule à se placer dans le même état (ou qui modifierait son amplitude d'être dans cet état), il
s'agit tout simplement d'une interférence (constructive) entre les amplitudes.

IV.1.5. Etats à n particules de Bose


Essayons d'étendre notre résultat à une situation dans laquelle il y a n particules présentes. Nous
imaginons les circonstances décrites sur la figure ci-dessous.
Nous avons n particules a, b, c,… qui sont diffusées et aboutissent dans les directions 1, 2, 3,... n.
Toutes ces directions pointent vers un même petit compteur placé à une grande distance de là.
Comme dans la section précédente, nous choisissons de normaliser toutes les amplitudes de telle
façon que la probabilité pour qu'une particule, agissant seule, aille dans l'élément de surface dS du
compteur soit
2
(1) dS

Tout d'abord, supposons que les particules soient toutes discernables. La probabilité pour que n
particules soient comptées à la fois dans n éléments de surface différents est alors
2
(2) a1b2 c3 L dS1 dS 2 dS 3 L

A nouveau, nous admettons que les amplitudes ne varient pas de manière significative avec la
position de dS dans le compteur, supposé petit, et nous les appelons simplement a, b, c,… La
probabilité (2) devient
2 2 2
(3) a b c L dS1 dS 2 dS 3 L

En intégrant chaque dS sur toute la surface ∆S du compteur, nous trouvons que la probabilité de
compter n particules différentes d'un seul coup est
(4) Pn (différentes ) = a b c L (∆S )
2 2 2 n

Ceci est juste le produit des probabilités pour que chaque particule entre dans le compteur
séparément. Elles agissent toutes séparément, la probabilité pour qu'il n'y en ait une qui entre ne
dépend pas du nombre de celles qui entrent en même temps.

Supposons maintenant que toutes les particules soient des particules de Bose identiques. Pour
chaque ensemble de directions 1, 2, 3,… il y a de nombreuses possibilités indiscernables. S'il y
avait, par exemple, trois particules seulement, nous aurions les possibilités suivantes :
a1 a1 a2
b2 b3 b1
c3 c2 c3
a2 a3 a3
b3 b1 b2
c1 c2 c3

Il y a six combinaisons différentes. Avec n particules, il y a n! possibilités différentes, mais


indiscernables, pour lesquelles nous devons ajouter les amplitudes. La probabilité pour que n
particules soient comptées dans n éléments de surface est donc
2
(5) a1b2 c3 L + a1b3 c 2 L + a 2 b1c3 L + a 2 b3 c1 L dS1dS 2 dS 3 L dS n
Une fois de plus, nous faisons l'hypothèse que toutes les directions sont si voisines que nous
pouvons poser a1 = a 2 = L = a n = a et de même pour b, c,… La probabilité (5) devient
2
(6) n!abc L dS1 dS 2 L dS n

Lorsque nous intégrons chaque dS sur toute l'aire ∆S du compteur, chacun des produits possibles
d'éléments de surface est compté n! fois. Nous corrigeons cela en divisant par n! et nous obtenons
(7) Pn (Bose ) = n!abc L (∆S )
1 2 n

n!
ou
(8) p n (Bose ) = n! abc L (∆S )
2 n

En comparant ce résultat avec (4), nous voyons que la probabilité de compter n particules de Bose
ensemble est n! fois plus grand que ce que nous aurions calculé en supposant les particules
discernables. Nous pouvons résumer notre résultat de la façon suivante :
(9) Pn (Bose ) = n! Pn (différentes )

Par conséquent, la probabilité dans le cas de Bose est plus grande par un facteur n! que ce que vous
auriez calculé en supposant que les particules agissaient indépendamment. Ce facteur
"d'amplification" peut être considérable. Pour 20 particules, 20! vaut déjà plus de 2 milliards de
milliards ! Imaginez la valeur pour un système de taille macroscopique composé de milliards de
milliards de particules.

Toutefois, on peut aussi affirmer que lorsque le nombre de particules augment, la probabilité (4)
diminue rapidement à cause de la multiplication des n probabilités. Nous pouvons mieux voir ce
que cela signifie si nous posons la question suivante : quelle est la probabilité pour qu'une particule
de Bose aille dans un état particulier lorsqu'il y a déjà n autres particules présentes ? Appelons w la
dernière particule ajoutée. Si nous avons (n + 1) particules en comptant w, l'équation (8) devient
(10) Pn +1 (Bose ) = (n + 1)! abc L w (∆S )
2 n +1

Nous pouvons écrire cela


{ }
(11) Pn +1 (Bose ) = (n + 1) w ∆S n! abc L ∆S n
2 2

ou
(12) Pn +1 (Bose ) = (n + 1) w ∆SPn (Bose )
2

2
Nous pouvons regarder ce résultat sous l'angle suivant : le nombre w ∆S est la probabilité
d'obtenir la particule w dans le détecteur si aucune autre particule n'est présente, Pn (Bose ) donne
les chances pour qu'il y ait déjà n autres particules de Bose présentes. Ainsi, l'équation (12) dit que
lorsqu'il y a déjà n autres particules identiques de Bose présentes, la probabilité pour qu'une
particule de plus, entre dans le même état est amplifiée par le facteur (n+1). La probabilité d'obtenir
un Boson, là où il y en a déjà n, est (n+1) fois plus grand que s'il n'y en avait aucune auparavant. La
présence d'autres particules augmente la probabilité d'en obtenir une de plus. On voit aussi que
même si la probabilité d'avoir un (seule) particule est très faible, la probabilité d'en avoir une de
plus devient rapidement importante dès qu'un nombre suffisant de particules est déjà dans l'état
souhaité.

IV.2. Description des particules identiques


Passons à une description plus formelle.

L'équation de Schrödinger pour n particules identiques est



(1) ihf ψ (1,2, K , n, t ) = H (1,2, K , n )ψ (1,2, K , n, t )
∂t
où chacun des nombres représente toutes les coordonnées (position et spin) d'une des particules.
L'hamiltonien H est symétrique en ses arguments puisque l'identité des particules signifie qu'elles
peuvent être substituées l'une à l'autre sans changer H ou même tout autre observable.

Il y a deux sortes de solutions ψ de (1) qui possèdent des propriétés particulièrement intéressantes.
Une fonction d'onde est symétrique si l'échange de toute paire de particules parmi ses arguments
laisse la fonction d'onde inchangée. Une fonction d'onde est antisymétrique si l'échange de toute
paire de particules change le signe de ψ . Nous allons maintenant montrer que le caractère de
symétrie d'une fonction d'onde ne change pas au cours du temps. Si ψ S est symétrique à un
moment particulier t, alors Hψ S est aussi symétrique et (1) affirme que ∂ψ S / ∂t est symétrique.
Puisque ψ S et sa dérivée par rapport au temps sont symétriques au temps t, ψ S à un instant
infinitésimal plus tard t + dt est donné par ψ S + (∂ψ S / ∂t )dt et est aussi symétrique. Une
intégration pas à pas de la fonction d'onde peut, en principe, être prolongé à des intervalles de
temps arbitrairement grands et ψ S reste alors tout le temps symétrique. De même, si ψ A est
antisymétrique à un moment donné, Hψ A et donc ∂ψ A / ∂t sont antisymétriques et l'intégration de
l'équation de Schrödinger montre que ψ A est toujours antisymétrique.

La démonstration précédente n'est pas altérée si H et ψ ont comme arguments les coordonnées de
deux ou plusieurs groupes de particules identiques. Donc, une fonction d'onde qui est initialement
symétrique ou antisymétrique en les coordonnés de chaque groupe de particules identiques
conserve toujours ce caractère. Cela rend possible pour les différents groupes de particules
identiques trouvées dans la nature d'avoir des propriétés de symétrie définies et c'est effectivement
ce qui est constaté. Bien que d'autres propriétés de symétrie que ces deux là seraient aussi
préservées au cours du temps par un hamiltonien symétrique, elles ne semblent pas correspondre à
des particules trouvées dans la nature.

Construction à partir de fonctions non symétriques


Nous allons maintenant montrer comment ψ S et ψ A peuvent être construits à partir d'une solution
générale non symétrique ψ de (1). Si les arguments de ψ sont permutés d'une manière
quelconque, la fonction résultante est une solution de (1). Cela suit de l'observation que la même
permutation appliquée à tout (1) ne change pas sa validité puisque cela correspond à simplement
réindicer les particules et puisque H est symétrique, le H permuté est le même que l'original et
l'équation résultante pour le ψ permuté est la même que (1). On peut de cette manière obtenir n!
solutions à partir d'une seule, chacune correspondant à une des n! permutations des n arguments de
ψ . Il est évident que toute combinaison linéaire de ces fonctions est aussi une solution de
l'équation de Schrödinger (1).
La somme de toutes ces fonctions est une fonction d'onde symétrique ψ S (non normalisée) puisque
l'échange de toute paire de particules change chacune des fonctions en une autre et celle là en la
précédente, laissant la fonction d'onde entière inchangée. Une fonction d'onde antisymétrique non
normalisée peut être construite en ajoutant ensemble toutes les fonctions permutées obtenues à
partir de la solution originale au moyen d'un nombre pair d'échanges de particules et en soustrayant
la somme de toutes les fonctions permutées obtenues à partir de la solution originale au moyen d'un
nombre impair d'échanges de particules. Il est visible qu'une fonction d'onde antisymétrique non
nulle ne peut pas être formée à partir d'une solution qui est inchangée par l'échange de toute paire
de particules.

Dans le cas où l'hamiltonien ne dépend pas du temps, des solutions stationnaires


ψ (1,2,K , n, t ) = u (1,2,K , n )e −iRt / h peuvent être trouvées, où
(2) [H (1,2,K, n ) −]u (1,2,K, n ) = 0

La discussion qui précède montre que les solutions dérivées de u au moyen de permutations de ses
arguments sont dégénérées avec le u originel. C'est appelé la dégénérescence d'échange.

Le groupe symétrique
La symétrie de l'hamiltonien par rapport aux permutations de ses arguments implique l'existence
d'un groupe de transformations sur les fonctions d'états. Nous adoptons à nouveau le point de vue
de Schrödinger et nous écrivons en analogie avec ce que nous avons vu dans le groupe des
translations spatiales
(3) ψ α ′ [P(1,2, K , n ), t ] = ψ α (1,2, K , n, t )
où P est une certaine permutation des n arguments. Alors, on a
(4) U p (P ) α = α ′ ou U p (P )ψ α (1,2, K , n, t ) = ψ α ′ (1,2, K , n, t )
où U p (P ) est l'opérateur unitaire de permutation. La combinaison de (3) et (4) conduit à
[
(5) U p (P )ψ α (1,2,K, n, t ) = ψ α P −1 (1,2,K, n ), t ]
où P −1 est la permutation inverse de P, telle que PP −1 = P −1 P = 1 , la permutation identité. Il
[ ]
s'ensuit aussi que la symétrie de l'hamiltonien implique que U p (P ), H = 0 et donc une solution
permutée représente un mouvement possible du système.

Les n! permutations P de n objets forme évidemment un groupe discret avec n! éléments. Il est
appelé groupe symétrique ou groupe des permutations. Les n! opérateurs U p (P ) sont isomorphes
aux permutations.

Quand n = 2, il y a seulement deux permutations, l'identité et l'échange, que nous appelons 1 et P,


respectivement. Si P est appliqué deux fois successivement aux deux objets, nous obtenons
l'identité. Donc le groupe symétrie de deux objets est isomorphe au groupe d'inversion spatiale. On
a ainsi, en omettant la dépendance au temps,
(6) U p (P )u (1,2) = ω u (2,1) U p2 (P )u (1,2) = ω 2 u (1,2)

A nouveau, on s'attend à ce que U P2 (P ) transforme un état en lui-même, ainsi ω 2 est un nombre de


grandeur unité. Contrairement à la situation de l'inversion, il n'y a maintenant aucune raison de
s'attendre à ce que ω 2 soit autre chose que l'unité. Donc, ω = ±1 qui caractérisent les états
symétriques et antisymétriques. Nous obtenons donc deux représentations matricielles (de rang 1)
du groupe symétrique quand n = 2 :
(7) U p (1) = 1 U p (P ) = 1 et U p (1) = 1 U p (P ) = −1

Les fonctions propres correspondantes de ces opérateurs sont


(8) u (1,2) ± u (2,1)

On peut montrer pour toute valeur de n que les deux seules représentations matricielles de U p (P )
qui sont de rang un sont analogues à (7) : la représentation symétrique U p (P ) = 1 pour tout P et la
représentation antisymétrique U p (P ) = ±1 selon que le nombre d'échanges constituant P est pair ou
impair. Par exemple, avec n = 3, les fonctions propres symétriques et antisymétriques sont
(9) [u (1,2,3) + u (2,3,1) + u (3,1,2 )] ± [u (2,1,3) + u (1,3,2) + u (3,2,1)]
On peut aussi montrer qu'il y a seulement une autre représentation indépendante de U p (P ) quand n
= 3. Elle consiste en six matrices 2x2 et opère donc sur des paires de fonctions propres.

Distinction des particules identiques


On s'attend à ce que le résultat d'une expérience soit indépendant de la propriété de symétrie de la
fonction d'onde si les coordonnées des particules ne se superposent pas. Cela correspond à une
situation dans laquelle les particules peuvent être distinguées à travers leurs positions (ou leurs
composantes du spin) même si elles sont identiques. Une telle situation implique, dans le cas de
deux particules, que la fonction d'onde u (1,2) soit différente de zéro seulement quand la
coordonnée de 1 est dans une certaine région A, la coordonné 2 dans une région B et A et B n'ont
pas de domaine commun.

La densité de probabilité coordonnées associée à la fonction d'onde u (1,2) est u (1,2 ) et les
2

densités associées aux fonctions d'ondes symétrisées sont


2 2 2
[ ]
(10) u (1,2 ) ± u (2,1) = u (1,2 ) + u (2,1) ± 2 Re u (1,2 )u ∗ (2,1)

Si maintenant u (1,2) s'annule quand 1 n'est pas dans A et que 2 n'est pas dans B et si A et B ne se
superposent pas, le terme entre crochets est zéro partout et (10) devient u (1,2 ) + u (2,1) .
2 2

Donc la densité associée avec les fonctions d'onde symétrisées (8) est la somme des densités
associées à u (1,2) et u (2,1) séparément. C'est précisément le résultat qui serait obtenu si les
particules n'étaient pas identiques mais qu'aucune tentative ne serait faite pour les distinguer en
effectuant l'expérience. Donc, les effets d'interférence entre des fonctions d'onde dégénérées par
échange, représentés par le terme entre crochets dans (10), disparaissent quand les coordonnées des
particules ne se superposent pas.
Le principe d'exclusion
Dans plusieurs problèmes, une approximation d'ordre zéro utile peut être obtenue en négligeant les
interactions entre les particules qui constituent le système considéré. L'hamiltonien approché (non
perturbé) est la somme des fonctions hamiltoniennes égales pour les particules séparées
(11) H 0 (1,2, K , n ) = H 0′ (1) + H 0′ (2 ) + L + H 0′ (n )
et la fonction propre approchée de l'énergie est un produit de fonctions propres à une particule de
H 0′ :
u (1,2, K, n ) = vα (1)v β (2)L vν (n )
(12) E = Eα + E β + L + Eν
H 0′ (1)vα (1) = Eα vα (1) L

Si les particules sont des électrons, une fonction d'onde antisymétrique doit être construite à partir
des u donnés par (12). Elle est plus facilement exprimée comme un déterminant des v :
vα (1) vα (2 ) L vα (n )
v β (1) v β (2 ) L v β (n )
(13) u A (1,2, K , n ) = det
L L L L
vν (1) vν (2 ) L vν (n )

La fonction u A (non normalisés) donnée dans (13) est clairement une solution antisymétrique de
l'équation de Schrödinger approchée (H 0 − E )u A = 0 .

L'équation (13) a la propriété intéressante qu'elle s'annule si deux ou plusieurs des v sont les
mêmes. C'est un cas particulier du résultat général affirmé plus tôt qu'une fonction d'onde
antisymétrique ne peut pas être construite à partir d'une solution qui est inchangée par l'échange de
toute paire de particules. Donc, l'hamiltonien approché H 0 n'a pas de solution pour laquelle il y a
plus d'un électron dans un des états α , β ,… , ν . Ce résultat est connu comme le principe
d'exclusion qui fut postulé la première fois par Pauli comme une explication du système périodique
des éléments chimiques.
Relation avec la physique statistique
La solution d'ordre zéro non symétrique donnée dans (12) peut être utilisée pour construire une
fonction d'onde symétrique aussi bien qu'antisymétrique. On voit facilement qu'une telle fonction
symétrique (non normalisée) est la somme de toutes les permutations des nombres 1, 2,… n parmi
les fonctions propres à une particule v α , v β ,… , vν . Cette fonction d'onde est unique et peut être
spécifiée en disant combien de particules sont dans chacun des états α , β ,… , ν . De la même
manière, une fonction d'onde antisymétrique peut être spécifiée en disant combien de particules
sont dans chaque état. La différence statistique fondamentale entre les particules qui sont décrites
par des fonctions d'onde antisymétriques et symétriques est que le nombre du premier type qui
peuvent occuper un état est limité à 0 et 1 tandis que n'importe quel nombre (0, 1, 2, …) du dernier
type peuvent occuper tout état.

Le traitement des agrégats de grands nombres de particules sans interaction (ou interagissant
faiblement) pour lesquelles les états peuvent être énumérés d'une de ces deux manières forme le
domaine de la physique statistique quantique. Les particules qui sont décrites par des fonctions
d'ondes antisymétriques sont dites obéir à la statistique de Fermi-Dirac (fermions) et celles décrites
par des fonctions d'onde symétriques obéissent à la statistique de Bose-Einstein (bosons).

Comme nous l'avons vu, certaines particules sont des fermions et d'autres des bosons. De même, les
agrégats de particules suffisament liées ensembles peuvent être vus comme des "particules" et sont
décrites par des fonctions d'onde symétriques ou antisymétriques.

Par exemple, le noyau d'un atome d'hélium est fait de deux protons, deux neutrons et d'un nombre
indéterminé de mésons pi qui sont fortement liés ensembles. Si nous considérons un certain nombre
d'atomes d'hélium qui interagissent ensembles suffisament faiblement pour que les changements
dans les mouvements internes du noyau puissent être négligés, nous pouvons voir que les
mouvements du centre de gravité du noyau peuvent être décrit approximativement par une fonction
d'onde symétrique. L'échange d'une paire de noyau d'hélium peut être vu comme l'échange de deux
paires de protons et de deux paires de neutrons et d'un certain nombre de paires de mésons pi.
Puisque la fonction d'onde réelle est antisymétrique en tous les protons et tous les neutrons, la
résultante des quatre premiers échanges laisse la fonction d'onde approchée inchangée. La symétrie
de la fonction d'onde en les mésons pi est telle que ces derniers échanges n'ont pas d'effet. En
prolongeant cet argument, nous voyons que les "particules" fortement liées qui interagissent
faiblement ensembles (noyaux, atomes, molécules) obéissent à la statistique de Bose-Einstein
quand chacune d'elle consiste en un nombre pair total d'électrons, protons et neutrons et elles
obéissent à la statistique de Fermi-Dirac quand chacune consiste en un nombre impair de ces
particules.

Collision de particules identiques


Quand les seules forces agissant sur deux particules résultent de leur interaction mutuelle, le
mouvement complet peut être séparé en le mouvement du centre de masse des deux particules et le
mouvement des particules relativement l'un à l'autre. Il est visible qu'un échange de deux particules
identiques n'affecte pas le vecteur position du centre de masse (qui est 12 (r1 + r2 ) puisque les
particules ont des masses égales) mais change le signe du vecteur position relative r ( = r1 − r2 ).
Avant de revenir sur le spin des particules, voyons quel effet la partie symétrique ou antisymétrique
de la fonction d'onde a sur la diffusion élastique d'une particule sur une autre identique.

La forme asymptotique de la fonction d'onde diffusée non symétrique dans le système de


coordonnées du centre de masse est
(14) u (r ) → e ikz + r −1 f (θ , φ )e ikr
r →∞
où r, θ , φ sont les coordonnées polaires du vecteur position relative r. Puisque les coordonnées
polaires du vecteur -r sont r, π − θ , φ + π , les formes asymptotiques des fonctions d'onde
symétriques et antisymétriques formées à partir de (13) sont données par
( )
(15) e ikz ± e − ikz + [ f (θ , φ ) ± f (π − θ , φ + π )]r −1e ikr

La section efficace différentielle dans le centre de mass est le carré de la grandeur du terme entre
crochets dans (15) :
[ ]
(16) σ (θ , φ ) = f (θ , φ ) + f (π − θ , φ + π ) ± 2 Re f (θ , φ ) f ∗ (π − θ , φ + π )
2 2

La normalisation adoptée ici peut être justifiée en notant qu'à la limite classique, où les particules
identiques peuvent être distinguées et où le dernier terme (interférence) disparaît, σ (θ , φ ) devient
juste la somme des sections efficaces pour l'observation de la particule incidente ( f (θnφ ) ) et de
2

la particule heurtée ( f (π − θ , φ + π ) , comme il se doit.


2

Dans le cas habituel où f est indépendant de φ , il est visible que la diffusion par unité d'angle solide
est symétrique autour de θ = 90° dans le système de coordonnées du centre de masse. En utilisant
le rapport entre sections efficaces dans le centre de masse et du laboratoire pour un rapport des
masses γ = 1 que la diffusion par unité d'angle (pas par unité d'angle solide) dans le système de
coordonnées du laboratoire
{ [ ]}
(17) σ 0 (θ 0 )sin θ 0 = 4 cosθ 0 sin θ 0 f (2θ 0 ) + f (π − 2θ 0 ) ± 2 Re f (2θ 0 ) f ∗ (π − 2θ 0 )
2 2

est symétrique autour de θ 0 = 45° .

IV.3. Moment angulaire de spin


Nous pouvons maintenant revenir au spin afin de l'introduire au formalisme discuté dans la section
précédente. On sait que le moment angulaire de spin S d'une particule peut être défini tel que S 2
commute avec toutes les variables dynamiques. Alors S 2 est une constante du mouvement qui peut
être remplacée par s (s + 1)h 2 , où s est un entier ou un demi entier.

Relation entre spin et statistique


Comme nous le savons, les électrons, les protons, les neutrons, les neutrinos et les muons ont s =
1/2 et les pions ont s = 0. Les agrégats de particules suffisament liés ensembles peuvent être vus
comme des "particules" et peuvent être caractérisés par des grandeurs définies de leur moment
angulaire interne total, aussi longtemps que leurs mouvements internes et l'orientation relative du
spin des particules composantes ne sont pas affectés de manière significative par les interactions
entre agrégats. C'est exactement l'analogue de la situation par rapport aux statistiques auxquelles
obéissent les agrégats.

Le traitement de l'addition des moments angulaires présentée précédemment montre comment


calculer les grandeurs possibles du moment angulaire interne de tout agrégat des particules
fondamentales. Nous appelons cela le spin de l'agrégat. S'il consiste en n particules avec s = 1/2 et
d'un nombre quelconque de particules avec s = 0 et si le moment angulaire orbital interne de ces
particules est ignoré, le s total peut être tout entier de 0 à n / 2 si n est pair ou peut varier par pas
entier de 1/2 à n / 2 si n est impair. Le nombre quantique de moment angulaire orbital total est un
nombre entier ou zéro en général. Nous avons vu que cela est vrai pour des particules sans
interaction se déplaçant dans un champ de force central et le résultat s'avère ne pas être affecté par
les interactions des particules. Son inclusion étend la valeur maximum de s pour l'agrégat mais
n'altère pas la conclusion que s est zéro ou un entier si n est pair et un demi entier si n est impair.

Nous voyons alors que, pour les particules fondamentales connues et pour leurs agrégats qui ont un
spin définis, il y a une relation univoque entre le spin et les statistiques. Les particules ou agrégats
qui ont un spin zéro ou pair sont décrits par des fonctions d'onde symétriques et obéissent à la
statistique de Bose-Einstein et les particules ou agrégats qui ont un spin demi entier sont décrits par
des fonctions d'onde antisymétriques et obéissent à la statistique de Fermi-Dirac. Comme déjà
signalé, il existe des raisons théoriques profondes entre la mécanique quantique et la relativité qui
impliquent cette relation entre spin et statistique.

Matrices de spin et fonctions propres


Le spin peut être introduit dans le formalisme en ayant, pour chaque nombre 1, 2, …, n qui apparaît
comme argument de ψ , une coordonnée de spin u aussi bien que les trois coordonnées spatiales. La
coordonnée de spin diffère des coordonnées spatiales en ce qu'elle prend seulement 2s + 1 valeurs
pour une particule (ou agrégat) de spin s, au lieu d'un nombre infini de valeurs prises par chaque
coordonnée spatiale. La fonction d'onde de spin d'une seule particule est entièrement déterminée
par la spécification de 2s + 1 nombres (l'amplitude pour être dans chaque état de spin) tandis que
les fonctions d'onde spatiales impliquent la spécification d'un ensemble infini continu de nombres
(ce qui est équivalent à une fonction continue des coordonnées spatiales). Si les mouvements
spatiaux et de spin sont suffisament couplés ensembles, la fonction d'onde spatiale peut dépendre
de la coordonnée de spin et 2s + 1 fonctions sont nécessaires.

Un ensemble pratique de fonctions orthonormales de spin à une particule est fourni par les
fonctions propres normalisées des matrices J 2 et J z . Ces fonctions propres sont des matrices avec
2s + 1 lignes et une colonne qui ont des zéros partout sauf en un élément. Par exemple, si s = 3/2,
les quatre fonctions propres de spin sont
1  0  0  0 
0  1 0  0 
(1) v( 2 ) =
3   v( 2 ) =
1   v(− 2 ) =
1   v(− 2 ) =  
3
0  0  1  0 
       
0  0  0  1
et correspondent aux valeurs propres de S z : 2 h , 2 h , − 12 h et − 32 h , respectivement.
3 1

L'orthonormalité est démontré en multipliant l'adjoint hermitique d'une fonction de spin par elle-
même ou par une autre fonction
0  0 
1 0 
(2) [0 1 0 0]  = 1 [0 1 0 0]  = 0 , etc.
0  1 
   
0  0 
avec l'aide de la règle habituelle de la multiplication matricielle.

Les fonctions d'onde symétriques et antisymétriques peuvent être construites à partir de solutions
non symétriques qui incluent le spin en suivant la procédure que nous avons vue. Il est quelquefois
utile de choisir les solutions non symétriques comme fonctions propres du carré de la grandeur du
spin total des particules identiques (S 1 + S 2 + L + S n ) et de la composante z de son spin total
2

S1z + S 2 z + K + S nz . Ces quantités sont des constantes du mouvement si l'hamiltonien ne contient


pas de terme d'interaction entre les spins et d'autres moments angulaires. En plus, de telles
fonctions sont souvent utiles comme fonctions propres d'ordre zéro quand les interactions de spin
sont assez faibles pour être vues comme une perturbation. Il n'y a pas de perte de généralité à
choisir les solutions non symétriques puisque toute solution peut être exprimée comme une
combinaison linéaire des fonctions propres du spin total.

Collision de particules identiques


L'effet du spin sur la collision de deux particules identiques (ou agrégats) peut maintenant être pris
en compte si l'interaction entre les particules n'implique pas le spin. Puisque chaque particule a 2s +
1 fonctions propres du spin, il y a en tout (2 s + 1) fonctions du spin indépendantes pour la paire,
2

chacune étant un produit de fonctions du spin à une particule.

(2s + 1)2 combinaisons linéairement indépendantes de ces produits peuvent être utilisées à leur
place. Elles sont utilement divisées en trois classes. La première classe consiste en produits de
fonctions à une particule dans laquelle les deux particules ont le même état de spin avec la valeur
mh de S z :
(3) v1 (m )v 2 (m ) − s ≤ m ≤ m
où l'indice spécifie quelle particule est dans chaque état. Il y a évidemment 2s + 1 états de ce type.
La deuxième classe consiste en les sommes de produits
(4) v1 (m′)v 2 (m′′) + v1 (m′′)v 2 (m′) m′ ≠ m′′

Il y a s (2s + 1) états de ce type. La troisième classe consiste en la différence des produits.


(5) v1 (m′)v 2 (m′′) − v1 (m′′)v 2 (m′) m′ ≠ m′′

Il y a à nouveau s (2s + 1) états de ce type.

Les deux premières classes sont clairement symétriques en l'échange des coordonnées du spin des
deux particules et la troisième classe est antisymétrique sous un tel échange. Donc, le total des
(2s + 1)2 peut être divisé en (s + 1)(2s + 1) états symétriques et s(2s + 1) états antisymétriques.
Associé aux états symétriques de spin on doit associer un état symétrique de l'espace si s est un
entier (fonction d'onde totale symétrique) et un état spatial antisymétrique si s est un demi entier
(fonction d'onde totale antisymétrique). De même, les états de spin antisymétriques multiplient des
états spatiaux antisymétriques si 2s est pair et des états symétriques si 2s est impair. Nous pouvons
alors voir que, si tous les états de spin sont équiprobables dans une collision, une fraction
(s + 1) / (2s + 1) des collisions sera décrite par la fonction d'onde symétrique et une fraction
s / (2s + 1) sera décrite par une fonction d'onde antisymétrique, si s est pair.

Ce résultat en ajoutant le cas 2s impair peut être résumé en écrivant


(6) σ (θ ) = f (θ ) +
2
f (π − θ ) +
2 (− 1)
2s
2 Re[ f (θ ) f ∗ (π − θ )]
2s + 1
où f est supposé être indépendant de φ .

L'équation (6) peut aussi être dérivée en utilisant l'observation que les particules qui ont des
composantes du spin différentes peuvent être distinguées, auquel cas le terme entre crochets
disparaît. Cela se produit dans une fraction 2s / (s + 1) des collisions. Dans la fraction 1 / (2 s + 1)
restante des collisions, les particules ont la même composante du spin et les états spatiaux
symétriques ou antisymétriques doivent être utilisés selon que 2s est pair ou impair.

Fonctions de spin de l'électron


Dans le reste de cette section, nous considérerons seulement les fonctions de spin de l'électron (s =
1/2). Les matrices de spin peuvent être écrites comme S = 12 hσ où
0 1  0 − i  1 0 
(7) σ x =   σ y = i 0  σ z = 0 − 1
1 0    
sont les matrices de spin de Pauli. Les fonctions propres normalisées de S z peuvent être écrites en
analogie avec (1) comme
1  0 
(8) v( 12 ) =   v(− 12 ) =  
0  1 
et elles ont les valeurs propres 12 h et − 12 h , respectivement. Elles sont toutes les deux fonctions
propres de S 2 avec la même valeur propre 34 h 2 .

Puisque nous aurons l'occasion d'écrire les produits de fonctions de spin pour différents électrons, il
est utile d'abréger la notation comme suit :
(9) v1 ( 12 )v 2 (− 12 )v3 ( 12 )v 4 ( 12 ) = (+ − + + ) etc.
où la première particule a la valeur propre 1
2 h pour S1z , la deuxième a la valeur propre − 12 h pour
S 2 z , etc. S1 n'a pas d'effet sur les fonctions des particules sauf la première.
Les formules suivantes sont facilement obtenues à partir de (7) et (8) :
σ xσ y = −σ yσ x = iσ z L
(10) σ x (+ ) = (− ) σ y (+ ) = i (− ) σ z (+ ) = (+ )
σ x (− ) = (+ ) σ y (− ) = −i (+ ) σ z (− ) = −(− )

Il y a quatre fonctions de spin linéairement indépendantes pour une paire d'électron (++), (+-), (-+),
(--). Elles sont orthonormales puisque les fonctions de spin à une particule (8) sont orthonormales.
Comme remarqué plus tôt, il est souvent pratique de regrouper ces fonctions en combinaisons qui
sont fonctions propres de (S 1 + S 2 ) et S1z + S 2 z . Ces fonctions propres sont faciles à trouver avec
2

les coefficients de Clebsch-Gordan. L'orthonormalité et les valeurs propres indiquées peuvent aussi
facilement être vérifiées avec l'aide de (10) :
(S1 + S 2 )2 S1 z + S 2 z
(+ + ) 2h 2 h
2 −1 / 2 [(+ − ) + (− + )] 2h 2 0
(− − ) 2h 2 −h
2 −1 / 2 [(+ − ) − (− + )] 0 0

Les trois premières des fonctions de spin à deux particules se comportent sous tous les aspects
comme une seule "particule" de spin s = 1 et la dernière fonction de spin se comporte comme une
seule "particule" de spin s = 0. Les trois premiers états sont appelés un triplet et le dernier un
singulet. Dans la vieille théorie quantique, le triplet correspond aux spins d'électrons parallèles et le
singulet à des spins antiparallèles. Non seulement ils ont les valeurs propres correctes du carré de la
grandeur du spin total et de la composante z du spin total, mais le résultat en opérant sur la fonction
de spin triplet avec les composantes x et y du spin total est en accord avec les matrices
correspondantes pour le spin un.
IV.4. Opérateur densité et matrice densité
Le développement théorique jusqu'ici a été considéré entièrement dans le cas de systèmes dans un
état quantique pur qui est représenté par un simple ket α . Il arrive souvent, cependant, que notre
connaissance de l'état d'un système soit incomplète. Par exemple, nous pouvons ne pas être
capables de dire plus que le système a des probabilités non négatives pα , p β ,… d'être dans les
états α , β ,… Cette incomplétude peut être sans importance, auquel cas la théorie des états purs
est adéquate, autrement, une approche statistique est nécessaire. Cela peut être développé en
analogie avec la situation classique. Un état purement classique est représenté par un seul point
dans l'espace des phases, qui a des valeurs définies des coordonnées q1 ,… , q f et de leurs
moments canoniques p1 ,… , p f à chaque instant du temps. Un état statistique, d'autre part, peut
être décrit par une fonction de densité non négative ρ (q1 , K , q f , p1 , K , p f , t ) telle que la
probabilité qu'un système soit trouvé dans l'intervalle dq1 L dp f au temps t est ρ dq1 K dp f .
L'analogue quantique de la fonction de densité classique est l'opérateur densité ou sa représentation
comme une matrice densité. Avant de l'introduire, discutons d'une description alternative des états
quantiques purs.

Valeur moyenne et opérateur projection


La valeur moyenne d'un opérateur Ω pour un état pur discret normalisé α est α Ω α . Elle peut
être écrite en fonction de tout ensemble orthonormal complet de kets i comme
(1) α Ω α = α i i Ω j j α = i Ω j j Pα i

Ici, Pα ≡ α α est l'opérateur projection pour l'état α . Les sommations généralisées sur i et j sont
omises en accord avec notre convention. Le coté droit de (1) peut être écrit i ΩPα i ou j Pα Ω j .
Nous avons donc les relations
(2) α Ω α = tr (ΩPα ) = tr (Pα Ω )
Pα est hermitique et
(3) Pα2 = Pα tr (Pα ) = 1

Il est visible que Pα contient la même information que α , excepté pour un facteur de phase
multiplicatif éventuel qui n'entre pas dans le calcul des valeurs moyennes.

Nous adopterons le point de vue de Schrödinger durant cette section et nous omettrons l'indice S.
Alors l'équation du mouvement pour Pα est donnée par
d d  d 
ih Pα = ih α  α + ih α  α 
(4) dt  dt   dt 
= H α α − α α H = [H , Pα ]

L'équation (4) ressemble à l'équation du mouvement de Heisenberg, excepté pour le signe.


Cependant la ressemblance est trompeuse et on doit se souvenir que Pα est vu dans le point de vue
de Schrödinger. En effet, dans le point de vue de Heisenberg α et donc aussi Pα sont constants.

Opérateur densité
Comme remarqué ci-dessus, nous supposerons qu'un système qui n'est pas nécessairement un état
quantique pur peut être décrit par un ensemble de probabilités pα , p β ,… pour être dans les états
α , β ,… avec des différences de phases aléatoires entre leurs amplitudes. C'est appelé un état
statistique. Un état pur est alors un cas particulier d'un état statistique dans lequel un des pα est
égal à l'unité et tous les autres sont zéro.

Il est utile de supposer que les états α sont orthonormaux bien que pas nécessairement complets,
ainsi
(5) Pα Pβ = δ αβ Pα ∑ pα = 1 pα ≥ 0
α
Nous définissons maintenant un opérateur hermitique ρ qui correspond à cet ensemble de
probabilités
(6) ρ ≡ ∑ pα Pα = ∑ α pα α
α α

Il suit alors de (2) et (5) que la valeur moyenne de Ω qui correspond à ces probabilités est
(7) Ω moy ≡ ∑ pα α Ω α = tr (Ωρ ) = tr ( ρΩ )
α

Il est aussi visible que, en analogie avec (3),


( )
(8) tr ( ρ ) = 1 tr ρ 2 = ∑ pα2 ≤ 1
α
où le dernier signe est une égalité seulement si l'état est pur.

Equations du mouvement
L'équation du mouvement de ρ dans le point de vue de Schrödinger, qui est utilisé ici, est
facilement obtenue à partir de (4) et (6) :

(9) ih = [H , ρ ]
dt

Où nous avons utilisé le fait que les pα sont constants dans le temps. C'est évidemment vrai pour
un système isolé et c'est aussi vrai en général si H est écrit pour inclure les influences extérieures. A
nouveau, la ressemblance avec l'équation du mouvement de Heisenberg est trompeuse puisque ρ ,
tout comme Pα ci-dessus, sont vu dans le point de vue de Schrödinger. Cela peut aussi être vérifié
en transformant (9) du point de vue de Schrödinger au point de vue de Heisenberg.

L'équation du mouvement de Ω moy


est aussi intéressante car c'est quelque chose qui est observé
dans une expérience. Il suit de (7) et (9), quand on se souvient que le point de vue de Schrödinger
est utilisé aussi bien pour Ω que pour ρ , que
 ∂Ω 
ρ  + tr (Ω[H , ρ ])
d
ih Ω = ih tr
 ∂t 
moy
dt
(10)
 ∂Ω  
= tr  ih + [Ω, H ] ρ 
 ∂t  

L'équation classique qui correspond à (9) est connue comme le théorème de Liouville. Elle peut être
écrite sous un des formes
dρ ∂ρ
(11) =0 = {H , ρ }
dt ∂t
qui sont équivalentes. A nouveau, (11) est en accord avec le résultat quantique que ρ est constante
dans le point de vue de Heisenberg.

L'analogue classique de Ω moy


définit par (7) est
(12) Ω moy ≡ ∫ L ∫ Ω(q1 , K , p f , t )ρ (q1 , K , p f , t )dq1 L dp f
et ainsi l'intégrale sur l'espace des phases est l'analogue classique de la trace quantique. Sa dérivée
dans le temps est
d  ∂Ω ∂ρ 
Ω moy = ∫ L ∫  ρ + Ω dq1 L dp f
dt  ∂t ∂t 
 ∂Ω 
(13) = ∫ L ∫  ρ + Ω{H , ρ }dq1 L dp f
 ∂t 
 ∂Ω 
= ∫L∫  + {Ω, H } ρdq1 L dp f
 ∂t 

L'équation (11) a été utilisée pour passer de la première à la deuxième ligne de (13) et une
intégration par partie par rapport à q1 , …, p f a été utilisée pour passer de la deuxième à la
troisième ligne. L'accord entre (10) et (13) semble surprenant quand on rappelle les remarques
concernant l'utilisation du point de vue de Schrödinger. Cependant, cet accord est normal puisque
les valeurs numériques des éléments de matrice tel que α Ω α à partir desquels Ω moy
est calculé
sont indépendant du point de vue.

Opérateur projection pour une particule de spin 1/2


Le formalisme précédent est bien illustré avec une particule de spin 1/2 puisque dans ce cas un état
pur peut être spécifié par seulement deux paramètres. Une telle particule dans l'état α peut être
représentée par une fonction d'onde de spin normalisée ou spineur, qui est une généralisation du
v( 12 ) que nous avons vu :
α 
α =  1 α = [α 1∗ ,α 2∗ ]
(14) α 2 
α α = α 12 + α 22 = 1

Les quatre paramètres associés avec les deux nombres complexes α 1 , α 2 sont réduit à deux par la
condition de normalisation et l'absence d'importance d'une phase globale. La généralisation de v( 12 )
à α consiste simplement en une rotation agissant sur le ket qui peut être choisit tel qu'il porte l'un
en l'autre. Pour cet état, l'opérateur projection est la matrice 2x2
α 1  ∗ ∗  α 1 α 1α 2∗ 
[ ]
2

(15) Pα = α α =   α 1 , α 2 =  2 
α 2  α 2α 1 α 2 

On vérifie facilement que tr (Pα ) = 1 et que Pα2 = Pα , comme attendu.

Toute matrice hermitique 2x2 peut être écrite comme une combinaison linéaire des quatre matrices
hermitiques linéairement indépendantes 1, σ x , σ y , σ z . Nous écrivons cette combinaison sous la
forme
(16) Pα = a 0 + a ⋅ σ
où les quatre nombres a 0 , a x , a y , a z sont réels. Puisque chaque composante de σ a une trace
zéro, la condition tr (Pα ) = 1 signifie que a 0 = 12 . Nous avons aussi Pα2 = a02 + 2a 0 a ⋅ σ + (a ⋅ σ ) .
2

Cela peut être simplifié en notant que (a ⋅ σ ) = a 2 . Alors, l'exigence Pα2 = Pα signifie que a 2 = 14 .
2

Nous pouvons donc écrire Pα sous la forme


 1 + π αz π αx − iπ αy 
(17) Pα = 1
(1 + π α ⋅ σ ) = 12 
2
π αx + iπ αy 1 − π αz 
où π α est un vecteur réel de longueur unité. Il suit aussi de (2) et (17) que
(18) α σ α = tr (σPα ) = 12 tr (σ ) + 12 tr[(π α ⋅ σ )σ ] = π α

La comparaison des équations (15) et (17) montre qu'un état pur d'une particule de spin 1/2 peut
être entièrement spécifié en terme d'un seul vecteur unité. Les deux paramètres auxquels on se
référait ci-dessus sont maintenant les angles polaires de ce vecteur. Nous voyons aussi de (18) que
π α a comme signification physique d'être la valeur moyenne de l'opérateur de spin et nous pouvons
donc l'appeler vecteur polarisation qui correspond à l'état α .

Matrice densité pour une particule de spin 1/2


Il n'est pas difficile de voir que l'état pur β qui est orthogonal à α a le vecteur polarisation
π β = −π α . La matrice de densité qui correspond aux probabilités pα , p β peut être obtenue à partir
des équations (6) et (17) :
[
(19) ρ = pα Pα + p β Pβ = 12 1 + ( pα − p β )π α ⋅ σ ]
La valeur moyenne de σ qui correspond à ce ρ est
(20) σ moy
= tr (σρ ) = ( pα − p β )π α

Nous voyons qu'un état statistique pour une particule de spin 1/2 a un vecteur polarisation dont la
longueur est moins que la longueur unité qui correspond à un état pur.
Vecteur polarisation pour une particule de spin s
Le moment angulaire de spin d'une particule avec le spin s peut être représenté par des matrices
avec 2s + 1 lignes et colonnes. Un état pur α est alors une matrice colonne avec 2s + 1 lignes qui
peut être spécifiée (en excluant la normalisation et une phase globale) par 2(2s + 1) − 2 = 4s
paramètres. L'opérateur projection analogue à (15) est
 α1 
[
(21) Pα = α α =  M  α 1∗ L α 2∗s +1 ]
α 2 s +1 

Une telle matrice hermitique peut être écrite comme une combinaison linéaire de (2 s + 1) matrices
2

hermitiques linéairement indépendantes. Il est pratique pour l'une d'entre elles d'être la matrice
unité et pour les (2 s + 1) − 1 matrices restantes d'avoir une trace zéro. Ces dernières peuvent être
2

choisies pour représenter les opérateurs moments multipolaires qui sont permis pour une particule
de spin s. Par exemple, avec s = 1/2, les 2 2 − 1 = 3 matrices représentent l'opérateur dipolaire ou de
spin et avec s = 1, les 3 2 − 1 = 8 matrices restantes représentent les opérateurs moment dipolaire et
quadrupolaire.

Dans le cas général, nous pouvons poser, en analogie avec (16),


(22) Pα = a 0 + a ⋅ σ + Pα′
où comme avant a 0 , a x , a y , a z sont réels. σ est maintenant la généralisation des matrices de
Pauli à des spins plus élevés et est l'ensemble approprié de matrices, comme celles que nous avons
vues, divisées par sh . Le Pα′ restant inclus à toutes les matrices de moment multipolaire plus élevé
et est défini orthogonal à 1 et σ dans le sens
(23) tr (1Pα′ ) = tr (σPα′ ) = 0

L'équation (23) est une généralisation naturelle de la situation avec spin 1/2 dans laquelle la trace
du produit des quatre matrices 1, σ x , σ y , σ z est zéro. Il suit de (22) et (23) que
(24) tr (Pα ) = (2 s + 1)a 0 = 1 π α ≡ tr (σPα ) =
(s + 1)(2s + 1) a
3s
où π α est le vecteur polarisation.

La transition d'un état pur à un état statistique est effectuée comme avant et conduit au vecteur
polarisation
(25) σ moy = tr (σρ ) = ∑ pα π α
α
où la sommation se fait sur les 2s + 1 états orthonormaux.

Précession du vecteur polarisation


Comme exemple simple de l'équation du mouvement (10), considérons maintenant la précession
d'une particule de spin s dans un champ magnétique. Nous supposons que la particule a l'opérateur
moment magnétique
(26) µ = γ S = γ shσ
où γ est appelé le rapport gyromagnétique. L'hamiltonien qui décrit l'interaction du spin avec un
champ magnétique H est alors
(27) H = − µ ⋅ H = −γ shσ ⋅ H

Le taux de changement du vecteur polarisation est donné par l'équation (10) :


σ moy = tr ([σ , H ]ρ )
d 1
(28)
dt ih
puisque σ n'a pas de dépendance explicite avec le temps. Les relations de commutation du moment
angulaire et (26) donne
i
(29) σ × σ = σ
s

Donc, à partir de (27) et (29), nous obtenons pour une composante typique de σ :
[ ]
[σ x , H ] = −γ sh( σ x ,σ y H y + [σ x , σ z ]H z )
= −γ ih(σ z H y − σ y H z ) = γ ih(σ × H ) z
(30)
La substitution dans (28) donne alors
σ moy = γ tr[(σ × H )ρ ] = γ σ
d
(30) moy
×H
dt

L'équation (30) est juste l'équation classique pour la précession. Cet accord entre équations
quantique et classique du mouvement peut aussi être justifié par un argument basé sur le théorème
d'Ehrenfest.

Exercices
1. Trouvez un ensemble de six matrices unitaires 2x2 qui représentent les 3! = 6 permutations de
trois objets.
2. Montrez que la fonction d'onde antisymétrique donnée dans l'équation (13) de la section IV.2
s'annule s'il y a une relation linéaire entre les fonctions vα , v β , …, vν .
3. Montrez que si une fonction d'onde u(1, 2, …, n) est une fonction propre de l'énergie d'un
hamiltonien symétrique qui correspond à une valeur propre non dégénérée, elle est symétrique
ou antisymétrique.
4. Utilisez les équations (10) de la section IV.3 pour vérifier que les fonctions d'onde de spin
données dans le tableau qui suit sont des fonctions propres de (S 1 + S 2 ) et S1z + S 2 z avec les
2

valeurs propres indiquées. Montrez que le résultat obtenu en opérant sur ces fonctions avec les
composantes x et y du spin total sont en accord avec les matrices données dans (34) de la
section III.3.1.
5. Utilisez l'équation (6) de la section IV.3 pour dériver une expression pour la diffusion de
protons sur des protons dans le système de coordonnées du centre de masse en supposant que
l'interaction coulombienne s'étend jusqu'à r = 0. Discutez de la limite classique de la section
efficace ( h → 0 ) en particulier dans le voisinage de θ = 90° et montrez que le terme
d'interférence s'annule si la moyenne est effectuée sur un domaine d'angles petit mais non nul.
6. Utilisez la représentation coordonnées pour vérifier que la deuxième équation (3) de la section
IV.4 est valide, c'est-à-dire que tr (Pα ) = 1 .
7. Utilisez la réponse du problème 9 à la fin de la section III.5 pour trouver la matrice unitaire qui
tourne l'état v( 12 ) en l'état α qui a le vecteur de polarisation π α avec les angles polaires θ α ,
φα . . Montrez alors que le Pα calculé à partir de (15) et (17) de la section IV.4 est en accord.
8. Montrez que si deux états purs d'une particule de spin 1/2 sont orthogonaux, les vecteurs de
polarisation de ces états sont égaux et opposés.
9. Montrez que la trace du produit de deux composantes perpendiculaires de σ pour une particule
de spin s est zéro.
10. Evaluez la trace du carré de toute composante de σ pour une particule de spin s.
11. Calculez le vecteur polarisation explicitement pour un état pur arbitraire d'une particule de spin
1. Montrez que la longueur de ce vecteur est inférieure ou égale à l'unité. Trouvez la condition
sur l'état telle que la longueur est égale à l'unité.

V. Physique statistique
Les propriétés des fermions et des bosons ont, nous l'avons vu, des conséquences importantes sur le
comportement des systèmes physiques. Lorsque l'on a affaire à des systèmes macroscopiques,
solides, gaz, fluides, on imagine facilement que ces conséquences ont aussi un impact sur les
propriétés de ces matériaux.

Ainsi, nous avons vu le comportement grégaire des bosons et le principe d'exclusion empêchant les
fermions d'être dans le même état.

Suivant l'un ou l'autre comportement, on aboutit à différents comportements statistiques que nous
avons déjà suggérés.

Nous allons aborder ici ces statistiques et une partie de leurs conséquences.

En toute rigueur, cette partie devrait se trouver dans le tome IV sur la matière. Mais c'est une bonne
conclusion des conséquences du spin et qui peut, en outre, s'étudier sans devoir comprendre le
fonctionnement détaillé des atomes individuellement. Ce sera aussi une bonne introduction à la
matière avant d'attaquer le tome correspondant.
Dans ce qui suit, nous allons préciser quelques aspects dans le comportement des photons et des
fermions puis nous attaquerons les statistiques proprement dites avant d'enfin aborder plusieurs
applications fort importantes et intéressantes.

Lorsque l'on étudie la matière, on est confronté à un problème. C'est le nombre très élevé de
"particules" (photons, atomes,…). Très élevé est même un mot assez faible si l'on pense que
quelques grammes de matière contiennent des millions de milliards de milliards d'atomes ou de
molécules. La difficulté n'est même pas liée à la physique classique ou à la mécanique quantique.
Une fois que la théorie a précisé comment se comportent les différents "individus", isolément et en
collectivité, le problème n'est plus lié à la mécanique quantique. La seule difficulté majeure, c'est ce
nombre colossal de particules. Il est illusoire de résoudre des équations, même très simples, avec
des milliards de milliards de variables. Une seule approche est possible : la physique statistique.

La physique statistique fut élaborée déjà au dix-neuvième siècle puis approfondie au siècle suivant.
La mécanique quantique a seulement modifié quelques règles du jeu. Mais ces modifications ont
eut des conséquences parfois très profondes.

Nous supposerons connu la physique statistique classique au moins dans ses bases
(thermodynamique statistique et statistique de Maxwell-Bolzmann).

Avant d'entrer dans le vif du sujet. Il est intéressant de préciser d'une manière particulièrement
élémentaire ce qu'on peut entendre par "différentes statistiques".

Probabilités classiques
Considérons deux pièces de monnaie identiques et parfaitement équilibrées indiquant sur leurs
faces les valeurs + et - (pile ou face).

Jetons au hasard ces deux pièces et regardons les résultats qui peuvent être obtenus. Il y a quatre
possibilités
 Pièce 1 : +. Pièce 2 : +
 Pièce 1 : -. Pièce 2 : -
 Pièce 1 : +. Pièce 2 : -
 Pièce 1 : -. Pièce 2 : +

Nous noterons plus simplement les résultats comme suit :


- ++
- --
- +-
- -+

Si les pièces sont parfaitement identiques et parfaitement équilibrées, aucun de ces résultats n'a plus
de chance de se produire qu'un autre. Les résultats sont équiprobables.

Chaque résultat a donc une probabilité 1/4 de se produire.

Notons que la probabilité d'avoir deux pièces donnant le même résultat (les deux premiers cas) est
1/2 et deux résultats différents (les deux derniers cas) 1/2 également.

Notons aussi que nous devons distinguer les deux cas +- et -+ car les deux pièces sont discernables.
Elles auront toujours de petits défauts microscopiques, de minuscules variations de concentration
du métal, etc. Et nous pouvons aussi les suivre des yeux pendant que nous les jetons. On pourrait
choisir de ne pas les distinguer mais, bien entendu, les deux pièces n'ont pas besoin qu'on les
observe de près pour être différentes !

Nous appellerons cela les probabilités "MB" (pour Maxwell-Boltzmann). Probabilités tout ce qu'il
y a de plus classique.

Probabilités quantiques
Justement, considérons que l'on ne se préoccupe pas de distinguer les deux pièces. Trois résultats
sont possibles :
- ++
- --
- +-
Ils ne sont pas équiprobables. Mais imaginons que nous ayons un processus donnant des résultats
équiprobables. Par exemple, on pourrait avoir des pièces biaisées ou on pourrait utiliser un dé à 6
faces, deux faces indiquant ++, deux faces indiquant -- et les deux dernières faces indiquant +-.

On peut parfaitement envisager ce type de probabilité même s'il ne correspond pas strictement à
nos deux pièces du début. C'est juste un autre cas. Dans ce cas, la probabilité de chaque cas est 1/3.

C'est aussi le cas des particules indiscernables identiques en tout point sauf peut-être par leur spin.
C'est pour cette raison que nous appelons cela des probabilités quantiques. Ainsi, on pourrait avoir
des photons avec un état de spin égal à +1 ou -1 que nous notons ici + et -. Si les particules sont au
même endroit, toutes autres propriétés étant analogues, alors on se retrouve dans la situation décrite
dans ce que nous avons vu sur les particules identiques. L'échange est indiscernable d'un
basculement des spins. L'état +- est le même que -+. En fait c'est un seul et même état. On retrouve
donc les trois possibilités ++, --, et +- (= -+).

Nous appellerons cela les probabilités "BE" (Bose-Einstein).

Une autre possibilité


Enfin, on peut envisager une troisième possibilité et considérer qu'il n'y a qu'un cas possible :
+-

C'est-à-dire que l'on exclut le cas où les deux pièces donnent le même résultat.

Avec une probabilité évidemment 1. Par exemple une seule pièce avec inscrite +- sur ses deux
faces.

Nous avons vu que les fermions ont ce comportement, avoir les deux fermions dans le même état
n'est pas possible, les cas ++ et -- étant interdits.

C'est la probabilité "FD" (Fermi-Dirac).


Différences entre probabilités
Notons quelque chose d'important avec les probabilités BE. La probabilité d'avoir les deux "mêmes
faces" (avec des guillemets puisque cet exemple ne correspond pas réellement à deux pièces mais à
un dé à six faces ou à des particules quantiques) est 2/3 et la probabilité d'avoir des "faces"
différentes 1/3. A comparer au cas 1/2 - 1/2 de la probabilité MB.

La probabilité d'avoir les deux faces identiques est "amplifiée".

On vérifie aisément que ce processus d'amplification augmente rapidement lorsque le nombre de


"pièces" augmente. Par exemple, avec 10 pièces (ou 10 particules), la probabilité d'avoir les mêmes
faces est 1/512 pour MB et 2/11 pour BE, presque cent fois plus. Pour mille pièces, c'est environ
2 ⋅ 10 298 fois plus (deux suivi de 298 zéros) ! Une différence absolument considérable et qui ne peut
certainement pas être négligée et qui ne peut qu'avoir des conséquences importantes sur des
collectivités importantes de particules.

Dans le cas FD, c'est clair, le nombre de cas est au contraire très limité.

Statistiques
La physique statistique étudie le comportement aléatoire d'une collection d'un très grand nombre de
particules indépendantes, tel que les molécules d'un gaz parfait (des particules parfaitement
indépendantes). Les comportements statistiques dégagés permettent, par exemple, de calculer le
rayonnement thermique, de justifier les lois des gaz, la théorie thermodynamique, etc.

Selon que les particules obéissent aux trois probabilités ci-dessus, les résultats seront différentes
lois statistiques qui portent le nom de leurs auteurs qui les ont étudiées :
- MB : Maxwell - Boltzman
- BE : Bose - Einstein
- FD : Fermi - Dirac

Les deux dernières sont aussi appelées "statistiques quantiques".


La première, que vous devez connaître, fut élaborée au dix-neuvième siècle sur base de la physique
classique et des probabilités habituelles.

La deuxième fut élaborée au début du vingtième siècle par Einstein sur base de travaux du
physicien indien Bose. L'analyse des propriétés du photon, des expériences et des lois quantiques à
conduit à cette statistique.

La troisième fut élaborée peu après par les physiciens Fermi et Dirac pour l'électron après avoir
découvert le principe d'exclusion de Pauli.

Nous verrons que les trois statistiques sont semblables dans des conditions "habituelles" (à
température ambiante, par exemple) mais s'écartent fortement près du zéro absolu (lorsque les
particules tendent à être dans leur état de plus basse énergie, donc presque tous le même état :
l'amplification MB ou la limitation FD se met alors à jouer).

V.1. Emission et absorption de photons


Tout au long de notre discussion, nous avons parlé d'un processus du genre diffusion de particules.
Mais ceci n'est pas l'essentiel. Nous pourrions avoir parlé de la création de particules, comme par
exemple dans l'émission de lumière. Quand de la lumière est émise, un photon est créé. Dans un tel
cas, nous n'avons pas besoin des lignes incidentes et nous pouvons considérer qu'il y a n atomes a,
b, c,… émettant de la lumière comme dans la figure ci-dessous.
Si bien que notre résultat peut être énoncé : la probabilité pour qu'un atome émette un photon dans
un état particulier est augmentée par le facteur n + 1 s'il y a déjà n photons dans cet état.

Les gens aiment bien résumer ce résultat en disant que l'amplitude pour émettre un photon est
augmentée par le facteur n + 1 quand il y a déjà n photons présents. C'est bien sûr une autre façon
de dire la même chose, s'il est entendu que cette amplitude doit simplement être élevée au carré
pour donner la probabilité.

Il est vrai, de façon générale, qu'en mécanique quantique l'amplitude pour passer de n'importe
quelle condition φ à n'importe quelle condition χ est le complexe conjugué de l'amplitude pour
aller de χ à φ :

(1) χ φ = φ χ

Nous pouvons l'employer pour trouver comment les photons sont diffusés ou absorbés à partir d'un
état donné. Nous savons que l'amplitude pour qu'un photon soit ajouté à un état donné, disons i,
lorsqu'il y a déjà n photons présents est
(2) n + 1 n = n + 1a
où a = i a est l'amplitude lorsqu'il n'y n a aucun autre présent (émission spontanée). N utilisant
(1), l'amplitude pour aller dans l'autre sens, de n + 1 photons à n, est
(3) n n + 1 = n + 1a ∗

Ceci n'est pas la façon dont on s'exprime habituellement. Les gens n'aiment pas penser qu'ils
passent de n + 1 à n, mais ils préfèrent toujours partir de n photons. On dit alors que l'amplitude
pour absorber un photon, quand il y en a déjà n, en d'autres termes, l'amplitude pour le passage de n
à n - 1 est
(4) n − 1 n = n a ∗
qui est naturellement la même chose que (3). Mais maintenant, il ne nous est pas facile de nous
rappeler s'il faut utiliser n ou n + 1 . Voici la façon de s'en souvenir : le facteur est toujours la
racine carrée du plus grand nombre de photons présents, avant ou après la réaction. Eventuellement
pensez aux états à 0 et 1 photon, il est alors évident qu'on a la racine de 1 et non de 0. Les équations
(2) et (3) montrent que la loi est vraiment symétrique. C'est seulement lorsqu'on écrit (4) qu'elle
semble asymétrique.

Ces nouvelles règles ont beaucoup de conséquences physiques. Nous allons en décrire une qui
concerne l'émission de la lumière. Supposez que nous imaginions une situation dans laquelle les
photons sont enfermés dans une boite. Vous pouvez vous représenter un boite avec des miroirs pour
parois. Disons maintenant que, dans la boite, nous avons n photons, tous dans le même état : même
fréquence, même direction et même polarisation, si bien qu'ils ne peuvent être distingués, et
supposons aussi que dans la boite, il y a un atome qui peut émettre un autre photon dans le même
état. Alors la probabilité pour qu'il émette un photon (par unité de temps) est
(5) (n + 1) a
2

et la probabilité pour qu'il absorbe un photon est


2
(6) n a
2
où a est la probabilité pour qu'il émette un photon, aucun photon n'étant déjà présent. L'équation
(6) dit que la probabilité pour qu'un atome absorbe un photon et fasse une transition vers un état
d'énergie plus élevé est proportionnelle à l'intensité de la lumière qui l'illumine, mais, ainsi que
Einstein le montra le premier, le taux de transition d'un atome vers une énergie plus basse est dû à
2
deux contributions : la probabilité de transition spontanée a , plus la probabilité de transition
2
induite n a , qui est proportionnelle à l'intensité de la lumière, c'est-à-dire au nombre de photons
présents (nous aurons l'occasion d'en reparler). De plus, ainsi qu'Einstein le montra, les coefficients
d'absorption et d'émission induite sont égaux et reliés à la probabilité d'émission spontanée. Ce que
nous apprenons ici est que si l'intensité de la lumière est mesurée en termes de nombre de photons
présents (au lieu d'énergie par unité d'aire et par seconde) les coefficients d'absorption, d'émission
induite et d'émission spontanée sont égaux.

V.2. Le principe d'exclusion


Revenons un peu sur le principe d'exclusion.

Les particules de Fermi se comportent de façon tout à fait différente. Voyons ce qui arrive si nous
essayons de mettre deux particules de Fermi dans le même état. Nous allons revenir à notre
exemple initial et chercher l'amplitude pour que deux particules de Fermi soient diffusées presque
exactement dans la même direction. L'amplitude pour que la particule a aille dans la direction 1 et
pour que la particule b aille dans la direction 2 est
(1) 1 a 2 b
alors que l'amplitude pour que les directions finales soient échangées est
(2) 2 a 1 b

Comme nous avons des particules de Fermi, l'amplitude pour le processus est la différence de ces
deux amplitudes
(3) 1 a 2 b − 2 a 1 b

Ajoutons que par "direction 1" nous entendons que la particule a non seulement une certaine
direction mais également que son spin a une certaine direction et par "direction 2" nous entendons
presque exactement la même direction que la direction 1 et la même direction de spin. Alors 1 a
et 2 a sont presque égales. Ceci ne serait pas nécessairement vrai si les états finaux n'avaient pas
la même direction de spin car il pourrait y avoir une raison pour que l'amplitude dépende de la
direction des spins. Si maintenant, nous faisons tendre les directions 1 et 2 l'une vers l'autre,
l'amplitude totale dans (3) devient nulle. Le résultat obtenu pour des particules de Fermi est
beaucoup plus simple que celui obtenu pour des particules de Bose. C'est qu'il est tout simplement
impossible que deux particules de Fermi, telles que deux électrons, soient exactement dans le même
état. Vous ne trouverez jamais deux électrons dans la même position, avec leurs deux spins dans la
même direction. Il n'est pas possible que deux électrons aient la même impulsion et les mêmes
directions de spin. S'ils ont la même position ou s'ils sont dans le même état de mouvement, la seule
possibilité est qu'ils aient leurs spins en opposition.

Quelles sont les conséquences de tout cela ? Il y a un bon nombre d'effets des plus remarquables
qui sont la conséquence du fait que deux particules de Fermi ne peuvent pas se mettre dans le
même état : en fait, toutes les particularités du monde matériel sont reliées à ce fait remarquable. En
fait, la variété des éléments de la table périodique est fondamentalement une conséquence de cette
simple règle.

Naturellement, nous ne pouvons pas dire ce que le monde serait si cette simple règle était changée,
car elle n'est qu'un élément de toute la structure de la mécanique quantique et il est impossible de
dire tout ce qui changerait si la règle concernant les particules de Fermi était différente (plus
exactement, on pourrait bâtir une infinité de théories en modifiant de manière arbitraire tel ou tel
élément de la théorie afin que ce principe d'exclusion soit modifié, chacune théorie ainsi construite
donnerait l'image d'un monde différent). Quoi qu'il en soit, essayons de voir ce qui arriverait si cette
règle seule était changée. Tout d'abord nous pouvons montrer que tous les atomes resteraient plus
ou moins les mêmes. Commençons par l'atome d'hydrogène. Il ne serait pas sensiblement changé :
le proton du noyau serait entouré par un nuage électronique à symétrie sphérique comme le montre
la figure (a) ci-dessous.
L'électron est attiré vers le centre, mais le principe d'incertitude requiert qu'il y ait un ajustement
entre les concentrations des impulsions et des positions. Cet ajustement doit être tel que la
distribution électronique possède une certaine énergie et un certain étalement qui détermine les
dimensions caractéristiques de l'atome d'hydrogène.

Supposons maintenant que nous ayons un noyau avec deux unités de charge, tel que le noyau
d'hélium. Ce noyau va attirer deux électrons, qui, s'ils étaient des particules de Bose, viendraient se
grouper le plus près possible du noyau, compte tenu de leur répulsion électrique. Un atome
d'hélium pourrait ressembler à ce qui est dessiné dans la partie (b) de la figure ci-dessus. De même,
un atome de lithium, qui a un noyau triplement chargé, aurait une distribution électronique comme
celle de la partie (c) de la figure ci-dessus. Chaque atome aurait plus ou moins la même apparence
d'une petite balle ronde avec tous les électrons disposés près du noyau, sans aucune complication et
sans aucune direction privilégiée. Arracher un électron à un atome prendrait à peu près la même
énergie quel que soit l'électron et quel que soit l'atome.

Du fait que les électrons sont des particules de Fermi, la situation réelle est tout à fait différente.
Pour l'atome d'hydrogène, la situation est essentiellement inchangée. La seule différence est que
l'électron a un spin que nous indiquons par la petite flèche dans la figure (a) ci-dessous.
Cependant, dans le cas de l'atome d'hélium, nous ne pouvons pas mettre les deux électrons l'un sur
l'autre. Mais attendez, cela n'est vrai que si les directions de leurs spins sont les mêmes. Deux
électrons peuvent occuper le même état si leurs spins sont opposés. Si bien que l'atome d'hélium lui
non plus n'apparaît pas très différent. Il ressemblerait à ce qui est dessiné dans la partie (b) de la
figure ci-dessus. Pour le lithium, cependant, la situation devient tout à fait différente. Où pouvons-
nous mettre le troisième électron ? Le troisième électron ne peut pas aller par-dessus les deux
autres, puisque les deux directions de spin sont occupées. Le troisième électron ne peut pas aller
près de la place occupée par les deux autres, il doit donc avoir une condition spéciale, un état d'un
genre différent, plus loin du noyau, comme indiqué dans la partie (c) de la figure ci-dessus (nous
parlons ici d'une façon plutôt approximative car, en réalité, les trois électrons sont identiques.
Comme nous ne pouvons pas réellement les distinguer les uns des autres, notre description est
seulement approchée).

Nous pouvons maintenant commencer à voir pourquoi des atomes différents ont des propriétés
chimiques différentes. C'est parce que le troisième électron du lithium est loin qu'il est relativement
moins fortement lié. Il est beaucoup plus facile d'ôter un électron du lithium que de l'hélium
(expérimentalement, il faut 25 électronvolts pour ioniser l'hélium et seulement 5 électronvolts pour
ioniser le lithium). Ceci explique la valence de l'atome de lithium. Les propriétés directionnelles de
la valence sont liées à la forme de l'onde de l'électron extérieur, ce que nous n'allons pas discuter
pour le moment. Nous pouvons déjà voir l'importance du principe appelé principe d'exclusion qui
dit que deux électrons ne peuvent pas être trouvés exactement dans le même état (en incluant les
spins).

Le principe d'exclusion est aussi responsable de la stabilité, à grande échelle, de la matière. Nous
avons expliqué précédemment que les différents atomes de matière ne s'écrasent pas les uns sur les
autres à cause du principe d'incertitude. Mais cela n'explique pas pourquoi deux atomes
d'hydrogène ne peuvent pas être poussés l'un contre l'autre, aussi près que l'on veut, pourquoi les
protons ne se regroupent pas tous ensembles, entourés d'un grand nuage d'électrons. La réponse est
bien entendu que, puisque deux électrons au plus, avec des spins opposés, peuvent occuper
approximativement la même place, les atomes d'hydrogène sont contraints de se tenir loin les uns
des autres. Ainsi la stabilité de la matière, à grande échelle, est vraiment une conséquence de la
nature "particule de Fermi" des électrons.

Bien entendu, si les électrons périphériques de deux atomes ont leurs spins dans des directions
opposées, ils peuvent se rapprocher l'un de l'autre. C'est en fait exactement de cette façon que se
réalise une liaison chimique. Il se trouve que deux atomes ont généralement une énergie plus basse
s'il y a un électron entre eux deux. C'est une sorte d'attraction électrique des deux noyaux positifs
vers l'électron qui est placé entre eux. Il est possible de placer deux électrons, plus ou moins entre
les deux noyaux, tant qu'ils ont des spins opposés, et c'est ainsi que l'on obtient la plus forte liaison
chimique. Il n'y a pas de liaison plus forte parce que le principe d'exclusion ne permet pas qu'il y ait
plus de deux électrons dans l'espace entre les deux atomes. Nous nous attendons à ce que la
molécule d'hydrogène ressemble plus ou moins à ce que montre la figure ci-dessous.
Nous voulons indiquer encore une conséquence du principe d'exclusion. Vous vous rappelez que si
les deux électrons d'un atome d'hélium sont près du noyau, leurs spins sont nécessairement
opposés. Supposez maintenant que nous voulions essayer de nous arranger pour que les deux
électrons aient même direction de spin, ce que nous pourrions envisager de faire en créant un
champ magnétique fantastiquement fort qui essayerait d'aligner les spins sur une même direction.
Mais les électrons ne pourraient plus alors occuper le même état d'espace. L'un des deux aurait à
prendre une position dans l'espace différente comme indiqué sur la figure ci-dessous.

L'électron qui est placé le plus loin du noyau a l'énergie de liaison la plus faible. L'énergie de
l'atome tout entier est par conséquent sensiblement plus élevée (l'énergie de liaison intervient
négativement puisqu'il faut fournir de l'énergie pour arracher un électron). En d'autres termes,
quand les deux spins sont opposés l'attraction totale est beaucoup plus élevée.
Ainsi, il y a manifestement une force énorme qui essaye d'aligner les spins des électrons dans des
directions opposées dès que les électrons sont proches l'un de l'autre. Si les deux électrons essayent
d'aller au même endroit, les spins auront une très forte tendance à se mettre en opposition. Cette
force qui, apparemment, essaye d'orienter les deux spins dans des directions opposées l'une de
l'autre est beaucoup plus puissante que la toute petite force entre les deux moments magnétiques
des électrons. Lorsque l'on étudie le ferromagnétisme, on découvre un mystère : pourquoi les
électrons de différents atomes ont-ils une forte tendance à aligner leurs spins (ce qui serait contraire
à un effet d'interaction magnétique qui aurait plutôt tendance à mettre de petits aimants tête bêche)
? Ce qui se passe c'est que les électrons qui sont disposés autour du cœur d'un atome, interagissent
par l'intermédiaire du principe d'exclusion avec les électrons extérieurs qui se promènent librement
dans le cristal. Cette interaction force les spins des électrons libres et ceux des électrons liés à
prendre des directions opposées. Mais les électrons libres et ceux des électrons atomiques ne
peuvent être en opposition que si tous les électrons liés ont la même direction de spin comme sur la
figure ci-dessous.

C'est l'effet du principe d'exclusion agissant indirectement par l'intermédiaire des électrons libres
qui donne lieu aux puissantes forces d'alignement responsables du ferromagnétisme. On parle aussi
d'énergie d'échange (des électrons, vu l'origine du principe d'exclusion, le changement de signe de
l'amplitude sous l'échange de deux électrons).

Nous mentionnerons un exemple de plus à propos de l'influence du principe d'exclusion. Les forces
nucléaires sont les mêmes entre le proton et le neutron, entre le proton et le proton et entre le
neutron et le neutron. Pourquoi donc un proton et un neutron peuvent-ils se coller pour former un
noyau de deutérium alors qu'il n'y a pas de noyau avec simplement deux protons ou deux neutrons ?
En fait, le deutéron a une énergie de liaison d'environ 2.2 millions d'électronvolts et, cependant, il
n'y a pas de liaison semblable entre deux protons pour faire un isotope de l'hélium avec un poids
atomique 2. Un tel noyau n'existe pas. La combinaison de deux protons n'a pas d'état lié.

La réponse à cela résulte de deux effets : tout d'abord le principe d'exclusion et ensuite le fait que
les forces nucléaires sont quelque peu sensibles à la direction des spins. La force entre un neutron et
un proton est attractive et un peu plus forte lorsque les spins sont parallèles que lorsqu'ils sont
opposés. Il se trouve que ces forces sont justes assez différentes pour que le deutéron puisse être
fait seulement si le neutron et le proton ont leurs spins parallèles. Lorsque les deux spins sont
opposés, l'attraction n'est plus tout à fait assez forte pour les lier ensemble. N'oublions pas que,
confinés dans un espace aussi restreint, le principe d'incertitude implique une grande
indétermination de l'impulsion et que pour lier ensemble deux particules avec de grandes
impulsions, il faut une énergie considérable. C'est le même principe qui fait qu'une particule dans
un puits de potentiel étroit et trop peu profond n'y a pas d'état lié. Comme les spins du neutron et du
proton sont tous les deux un demi et sont dans la même direction, le deutéron a un spin 1. Nous
savons cependant que deux protons ne peuvent pas s'empiler l'un sur l'autre si leurs spins sont
parallèles. S'il n'y avait le principe d'exclusion, deux protons pourraient être liés, mais comme ils ne
peuvent pas exister à la même place, avec les mêmes directions de spin, le noyau He 2 n'existe pas.
Les protons pourraient aussi se rapprocher l'un de l'autre avec leurs spins opposés, mais alors il n'y
a pas assez d'énergie de liaison pour en faire un noyau stable parce que la force nucléaire pour des
spins opposés est trop faible pour lier une paire de nucléons. La force attractive entre neutron et
proton de spins opposés peut être mise en évidence par des expériences de diffusion. Des
expériences de diffusion similaires avec des protons dont les spins sont parallèles mettent en
évidence une attraction similaire. C'est donc le principe d'exclusion qui nous aide à expliquer
pourquoi le deutérium peut exister alors que He 2 ne le peut pas.

V.3. Les diverses statistiques


La physique statistique décrit la façon dont on peut prévoir, à partir d'un modèle microscopique, les
propriétés macroscopiques d'un système à l'équilibre : cet équilibre donne à la probabilité
thermodynamique W sa valeur maximum. Nous allons déterminer ici les expressions de W dans
divers cas possibles et nous en déduirons l'état macroscopique d'équilibre (loi de répartition et
fonctions thermodynamiques) des systèmes de particules indépendantes.
Nous serons amenés à distinguer deux cas principaux selon que les particules sont discernables ou
non. Le calcul des probabilités thermodynamiques est différent dans ces deux cas et conduit
respectivement à la statistique de Maxwell-Boltzmann et aux statistiques quantiques. Il existe deux
statistiques quantiques selon la nature des particules : les particules de spin demi-entier (fermions)
obéissent à la statistique de Fermi-Dirac et celles de spin entier (bosons) à la statistique de Bose-
Einstein. Nous montrerons qu'à la limite des faibles densités de population des niveaux d'énergie,
ces deux statistiques convergent vers un même limite désignée ici par statistique de Maxwell-
Boltzmann corrigée.

V.3.1. Détermination des répartitions à l'équilibre

Etablissement des relations d'équilibre


La condition d'équilibre d'un système thermodynamique fermé et isolé se traduit
mathématiquement par la condition de maximum de l'entropie S par rapport aux variables N 1 , …,
N i , …, N r caractérisant son état macroscopique. Nous cherchons donc à déterminer la répartition
N 10 , …, N i0 , …, N r0 rendant maximum la fonction S ( N i ) = k ln W ( N i ) où k est bien entendu la
constante de Boltzmann.

Rappelons que les N i sont le nombre de particules correspondant à une cellule de l'espace des
phases macroscopique et W le nombre d'états microscopiques réalisant un état macroscopique
donné caractérisé par les N i et appelé probabilité thermodynamique de l'état macroscopique.

Toutefois, les variables N i ne sont pas indépendantes, car elles doivent satisfaire aux conditions de
contrainte d'un système fermé et isolé
(1) ∑ N i = N
i

(2) ∑N ε
i
i i =U
où N est le nombre total de particules, U l'énergie totale et les ε i sont l'énergie d'une particule dans
l'état i.

Nous avons donc à résoudre un problème d'extremum d'une fonction à variables liées. On le traite
par la méthode des multiplicateurs de Lagrange. Suivant cette méthode, on introduit deux
multiplicateurs λ et λ ′ indépendants des N i et on cherche le maximum de la fonction
(3) S ( N i ) + λU ( N i ) + λ ′N ( N i )
en considérant les variables N i comme indépendantes. Dans cette fonction, U ( N i ) et N (N i )
représentent les fonctions de N i explicitées respectivement au premier membre des égalités (1) et
(2). Comme nous allons le voir ci-dessous, la condition d'extremum de la fonction (3) fournit alors r
relations (les r dérivées par rapport aux N i sont nulles) permettant de déterminer, pour chaque
domaine, le nombre N i0 en fonction des multiplicateurs de Lagrange. L'expression de ces
multiplicateurs en fonction de U et N doit alors être déterminée en utilisant les relations de
contrainte (1) et (2).

Nous allons maintenant expliciter la méthode que nous venons de décrire. Nous remplacerons
toutefois la fonction (3) par la fonction Ω (N i )
λ′
(4) Ω = (S + λU + λ ′N ) = U + S + N
1 1
λ λ λ
qui a les dimensions d'une énergie. Les coefficients 1 / λ et λ ′ / λ ont respectivement les
dimensions d'une température et d'un potentiel chimique et, pour cette raison, en posant T = −1 / λ
et µ = −λ ′ / λ , on peut récrire Ω sous la forme
(5) Ω ( N i ) = U (N i ) − T S ( N i ) − µ N ( N i )

Les multiplicateurs T et µ seront utilisés par la suite à la place de λ et λ ′ .

Les r conditions rendant Ω extremum par rapport aux variables N i supposées indépendantes
s'écrivent :
∂Ω
(6) =0
∂N i
et en utilisant (1), (2) et S ( N i ) = k ln W ( N i ) , nous avons
∂U ∂S ∂ ln W ∂N
(7) = εi =k =1
∂N i ∂N i ∂N i ∂N i
les conditions d'équilibre (6) deviennent :
∂Ω ∂ ln W
(8) ≡ ε i − kT −µ =0
∂N i ∂N i
ou
∂ log W ε i − µ
(9) =
∂N i kT

Ces r équations permettent de déterminer les r valeurs d'équilibre N i0 en fonction des


multiplicateurs T et µ lorsque l'expression explicite de W ( N i ) est connue.

Interprétation physique des multiplicateurs de Lagrange


Cherchons la signification physique des multiplicateurs T et µ . Pour cela, comparons les
expressions statistique et classique de la différentielle de l'entropie du système à l'équilibre lors
d'une transformation infinitésimale réversible au cours de laquelle les paramètres extérieurs
(volume, champ magnétique, etc.) restent constants (la substance ne reçoit pas de travail). D'après
la relation de Boltzmann et les relations d'équilibre (9) on a
∂ ln W ε −µ
(10) dS = kd ln W = k ∑ dN i = ∑ i dN i
i ∂N i i T

Au cours d'une telle transformation, les niveaux d'énergie restent constants, soit
(11) dU = ∑ ε i dN i et dN = ∑ dN i
i i
L'expression de dS devient alors :
dU µ
(12) dS = − dN
T T

Par ailleurs, la thermodynamique classique donne pour la même transformation ( dW = 0 où W est


le travail)
dU µ
(13) dU = TdS + µdN ou dS = − dN
T T

Par identification, on voit que T = T et µ = µ , c'est-à-dire que les multiplicateurs T et µ


s'identifient à la température T et au potentiel chimique relatif à une particule µ du système. Les
relations d'équilibre deviennent alors :
∂ ln W ε i − µ
(14) =
∂N i kT

La valeur extremum de Ω (N i ) coïncide avec la valeur de la fonction énergétique


Ω(T ,V , µ ) = U − TS − Nµ .

Nous avons trouvé la signification physique des multiplicateurs de Lagrange. Le problème de leur
détermination en fonction des contraintes sera discuté ultérieurement dans divers cas.

Exercices

Répartition à l'équilibre pour un système de spins 1/2


Explicitez les relations d'équilibre (14) de la section V.3.1 pour un système de spins 1/2, dans un
champ magnétique d'induction B, dont la probabilité thermodynamique W est donnée par la
relation habituelle de la physique statistique :
N! N!
(1) W = C NN + = =
N + !(N − N + )! N + ! N − !
Déduisez-en les valeurs de N +0 et N −0 , populations à l'équilibre des niveaux ε + = m B et
ε − = −m B , en fonction des multiplicateurs de Lagrange T et µ . Ecrivez dans ce cas les relations
de contrainte (1), (2) de la section V.3.1 et dire comment on peut en déduire T et µ en fonction de
U et N. En particulier, éliminez µ des expressions de N ±0 au profit de N et vérifiez que l'on
retrouve le résultat standard de la physique statistique
(2) U = − Nm B tanh x avec x = m B / kT

Solution
La probabilité thermodynamique du système à deux nivaux considéré est donnée en (1) en fonction
de N + et N − par

(3) W =
N! (N + N − )!
= +
N +!N −! N +!N −!

Nous avons donc, après usage de la formule de Stirling dérivée d


dn (ln n!) = ln n , les deux relations :
∂ ln W N
(4) = ln ( N + + N − ) − ln N ± = − ln ±
∂N ± N

En reportant ces expressions dans les relations d'équilibre, il vient :


(5) N ±0 = N exp((µ − ε ± ) / kT )
avec ε ± = ± m B . Les multiplicateurs T et µ s'obtiennent alors à partir des deux relations de
contraintes qui s'écrivent ici
( )
N = Ne µ / kT e − x + e x = 2 Ne µ / kT cosh x
( )
(6)
U = Nm Be µ / kT e − x − e x = −2 Nm Be µ / kT sinh x
avec x = m B / kT . Ces deux équations déterminent les deux multiplicateurs T et µ en fonction de
U et N. En particulier, la contrainte sur le nombre de particules permet d'obtenir le paramètre
exp(µ / kT ) = (2 cosh x ) et d'éliminer µ des expressions des populations à l'équilibre, d'où :
−1
N emx
(7) N ±0 =
2 cosh x

Pour poursuivre la méthode, on devrait encore éliminer la variable T, incluse dans x = m B / kT , au


profit de U et de N. Toutefois, pour des raisons expérimentales, on préfère garder la variable
température et exprimer l'énergie interne en fonction de T plutôt que l'inverse. Ainsi, la deuxième
relation de contrainte devient :
1
(8) U = −2 Nm B sinh x = − Nm B tanh x
2 cosh x
en accord avec (2).

V.3.2. Probabilité thermodynamique : méthode d'évaluation


Nous allons évaluer maintenant la probabilité thermodynamique W d'un état macroscopique du
système physique considéré, c'est-à-dire le nombre d'états microscopiques différents réalisant cet
état macroscopique.

Selon les systèmes physiques, les états quantiques relatifs à une particule sont peu nombreux et
bien séparés en énergie (substance paramagnétique dans un champ magnétique) ou au contraire en
nombre infini, avec des différences d'énergie beaucoup trop petites pour pouvoir être mesurées (gaz
monoatomique). On rencontre aussi des cas intermédiaires. Nous allons cependant employer, pour
traiter ces différents cas, un même langage qui est celui utilisé pour les gaz dans lequel une cellule
désigne un état quantique et un domaine regroupe un nombre g i d'états quantiques d'énergie
voisine ε i . Dans le cas d'une substance paramagnétique, chaque niveau d'énergie constitue un
domaine dont le nombre de cellules est égal au nombre d'états quantiques (ou dégénérescence) du
niveau.

Un état quantique est alors défini par l'ensemble des nombres N 1 , …, N i , …, N r de particules
dans chacun des domaines d'indice 1, …, i, …, r. Pour chercher la probabilité thermodynamique
W ( N 1 , K , N i , K , N r ) d'une telle répartition posée a priori, on procède en deux étapes.
Tout d'abord on évalue le nombre W0 de façons de réaliser la répartition choisie N 1 , …, N i , …,
N r des N particules dans les domaines. Puis on évalue le nombre Wi de façon de distribuer les N i
particules du domaine i dans les g i cellules de ce domaine. Effectuant ce dénombrement pour
chacun des domaines, on obtient finalement :
r
(1) W = W0W1 LWi LWr = W0 ∏ Wi
i =1

La méthode est schématisée ci-dessous.

L'évaluation explicite de W dépend de la nature physique des particules considérées. Nous devons
distinguer deux cas selon que les particules sont discernables ou indiscernables.
V.3.3. Statistique de Maxwell-Boltzmann

Calcul de la probabilité thermodynamique


Lorsque les particules sont localisées, donc discernables, on se trouve dans le cadre de la statistique
de Maxwell-Boltzmann. Cherchons, dans ce cas, l'expression de la probabilité thermodynamique W
d'un état macroscopique caractérisé par la donnée des nombres N 1 , …, N i , …, N r .

Selon la méthode que nous venons de schématiser, nous évaluons tout d'abord le nombre W0 de
façon de distribuer les N particules dans les domaines 1, …, i, …, r selon la répartition
macroscopique N 1 , …, N i , …, N r choisie. Compte tenu de la discernabilité des particules, ce
nombre est égal au nombre de façons de prendre N 1 particules parmi les N, que multiple le nombre
de façons d'en prendre N 2 parmi les N − N 1 restantes, que multiplie le nombre de façon d'en
prendre N 3 parmi les N − N 1 − N 2 restantes, etc. Soit, en termes de combinaisons :
W0 = C NN1 × C NN−2 N1 × L × C NN−r N1 −L− N r −1

(1) =
N!
×
(N − N 1 )! × L × (N − N1 − L − N r −1 )!
N 1!( N − N 1 )! N 2 !( N − N 1 − N 2 )! N r !×0!
N! N!
= =
N 1! N 2 !L N r ! ∏i N i !
Remarquons que ce résultat peut être trouvé en considérant que les N! permutations des N
particules doivent être divisées par celles des N 1 , …, N i , …, N r particules.

Nous devons maintenant évaluer le nombre Wi de façons de distribuer N i particules discernables


du domaine i parmi les g i cellules de ce domaine, sachant qu'aucune restriction n'est imposée
quant au nombre de particules par cellule. Comme chacun a g i possibilités, on a Wi = g iN i , soit
enfin :
g iN i
(2) WMB = W0 ∏ Wi = N !∏
i i Ni!
où l'indice MB est relatif au nom de la statistique de Maxwell-Boltzmann.

Répartition à l'équilibre
Pour déterminer la répartition à l'équilibre, nous remarquons que N = ∑ N i et nous écrivons :
 
(3) log WMB = ln ∑ N i !+ ∑ [N i ln g i − ln N i !]
 i  i

En dérivant par rapport à N i et en utilisant la formule de Stirling dérivée (


d
(ln n!) = ln n ) on
dn
obtient :
∂ ln WMB
(4) = ln N + ln g i − ln N i
∂N i
et les relations d'équilibre s'écrivent :
g ε −µ
(5) ln N i0 = i
Ni kT
ou encore
(µ −ε ) / kT
(6) N i0 = Ng i e i

Cette expression représente la répartition à l'équilibre en fonction de µ et T .

En principe, les deux équations de contrainte doivent nous permettre de déterminer les deux
multiplicateurs T et µ n fonction de U et N. Ceci nous conduirait à obtenir la loi de répartition et
toutes les grandeurs thermodynamiques qui en découlent en fonction des contraintes U et N, ainsi
que des paramètres externes (V, B, etc.) qui interviennent dans l'expression des énergies ε i .
Cependant, en pratique, s'il est souhaitable d'éliminer le multiplicateur µ , on préfère conserver la
température T en tant que variable. De ce fait, le jeu de variables (T , µ ) ne sera pas remplacé par
(U, N) mais par (T , N).

Pour éliminer µ , on utilise alors la relation de contrainte N = ∑ N i0 qui, compte tenu de


l'expression (6), s'écrit
(7) N = Ne µ / kT ∑ g i e i
− ε / kT

Enfin, la relation de contrainte U = ∑ N i0ε i donne l'expression de U en fonction de N , de T et des


paramètres externes.

La somme
(8) Z = ∑ g i i
− ε / kT

i
joue un grand rôle dans la théorie statistique de Maxwell-Boltzmann. On lui donne le nom de
fonction de partition relative à une particule ou, plus brièvement, fonction de partition. Elle ne
dépend que de la température et des paramètres externes. La relation (7) donne alors
(9) e µ / kT = 1 / Z ou µ = − kT ln Z
et la loi de répartition (6) en statistique de Maxwell-Boltzmann s'écrit :
N −ε / kT
(10) N i0 = g i e i
Z

Le facteur 1/kT intervenant fréquemment, on introduit la notation


(11) β = 1 / kT
qui permet de récrire la loi de répartition sous la forme
N
(12) N i0 = g i e i avec Z = ∑ g i e i
−β ε −β ε

Z i
Fonctions thermodynamique
L'expression statistique de l'entropie S à l'équilibre peut être obtenue à partir de la relation de
Boltzmann . Pour la répartition d'équilibre N i0 , nous avons :
(13) S / k = ln WMB = ln N !+ ∑ N i0 ln g i − ∑ ln N i0 !
i i

En utilisant la formule de Stirling réduite ( ln n!= n ln n − n ), il vient


N i0
(14) S / k = N ln N − ∑ N i ln
0

i gi

La loi de répartition (10) nous fournit le rapport N i0 / g i et l'entropie s'écrit


N 1 U
(15) S = Nk ln N − k ∑ N i0 ln + ∑ N i0ε i = Nk ln Z +
i Z T i T

Ce résultat nous permet d'obtenir l'expression très simple de l'énergie libre :


(16) F = U − TS = − NkT ln Z

Comme toutes les fonctions thermodynamiques peuvent être obtenues à partir de F, cette
expression montre qu'en statistique de Maxwell-Boltzmann, tout problème se ramène à la
détermination de la fonction de partition Z en fonction de la température T et des variables externes
telles que V, B,…

Exercices

Fonction de partition et énergie libre d'un système de spins 1/2


Déterminez la fonction de partition Z relative à une particule de spin 1/2 placée dans un champ
magnétique d'induction B. En déduire l'énergie libre d'un système de N spins, puis son entropie et
son aimantation sachant que
(1) dF = − SdT − M dB
Solution
Le système considéré n'a que deux niveaux d'énergie ε + = m B et ε − = − m B de dégénérescence
g + = g − = 1 . La fonction de partition Z vaut donc
(2) Z = exp(− βm B ) + exp(βm B ) = 2 cosh x
avec x = βm B = m B / kT . L'énergie libre a pour expression
(3) F = − NkT ln Z = − NkT ln (2 cosh x )

Nous en déduisons, en remarquant que (∂x / ∂T )B = − x / T ,


 ∂F 
(4) S = −  = Nk [ln (2 cosh x ) − x tanh x ]
 ∂T  B
et
 ∂F 
(5) M = −  = Nm tanh x
 ∂B  T

V.3.4. Statistiques quantiques

Règle de symétrisation

Exemple d'un système de deux particules


Le principe d'indiscernabilité des particules identiques a des conséquences importantes. Un petit
rappel sera utile.

Envisageons tout d'abord un système de deux particules identiques caractérisées par les indices 1 et
2 et de fonction d'onde notée Φ(1,2 ) . Introduisons l'opérateur permutation P̂12 défini pour une
fonction d'onde ϕ (1,2) quelconque par
(1) Pˆ = ϕ(1,2 ) = ϕ(2,1)
12

Par itération, on voit que


(2) Pˆ122 ϕ(1,2 ) = Pˆ12 ϕ(2,1) = ϕ(1,2 )
c'est-à-dire que les valeurs propres de P̂12 sont +1 et -1, correspondant respectivement aux
fonctions d'onde symétriques et antisymétriques dans l'échange 1 - 2. Comme les particules 1 et 2
sont indiscernables, les fonctions d'onde Φ(1,2 ) et Φ(2,1) décrivent la même réalité physique et ne
diffèrent que par un facteur de phase :
(3) Φ(2,1) ≡ Pˆ12 Φ (1,2 ) = e iα Φ(1,2 )

Comme les valeurs propres de P̂12 sont ± 1 , on voit que les fonctions d'onde d'un système de 2
particules indiscernables sont nécessairement soit symétriques, soit antisymétriques relativement à
l'échange des variables 1 et 2.

Bosons et fermions
La discussion précédente, fondée sur le principe d'indiscernabilité, se généralise au cas de N
particules identiques en introduisant autant d'opérateurs P̂ij que de couples de particules. La
fonction d'onde du système doit être soit totalement symétrique, soit totalement antisymétrique
relativement à l'échange d'un couple quelconque de variables i et j. Cela pourrait être une
combinaison des deux, mais ce n'est pas ce qui est constaté dans la nature. Dans la nature, on
constate que les particules se séparent en deux catégories :
 Les bosons, particules pour lesquelles la fonction d'onde est toujours symétrique.
 Les fermions, particules pour lesquelles la fonction d'onde est toujours antisymétrique.

On montre en théorie quantique des champs que l'ensemble des bosons est identique à l'ensemble
des particules de spin entier : 0, 1, … en unités h et que l'ensemble des fermions est identique à
celui des particules de spin demi-entier : 1/2, 3/2, 5/2,… Parmi les fermions se classent les leptons
(électrons, muons, neutrinos,…) qui ont un spin 1/2, les baryons (protons, neutrons,…), de même
que toutes les particules composées d'un nombre impair de fermions comme par exemple le noyau
d'hélium He 3 (2 protons + 1 neutron) ou l'atome He 3 (un noyau He 3 + 2 électrons). Parmi les
bosons se classent les particules de jauge telles que le photon de spin 1, les bosons intermédiaires
W + , W − et Z 0 , ainsi que les mésons (pi, K, …) et toutes les particules composées d'un nombre
pair de fermions comme le noyau He 4 (2 protons + 2 neutrons) ou l'atome d'hélium He 4 (un
noyau He 4 + 2 électrons). Les baryons et les mésons sont eux-mêmes constitués de particules
élémentaires de spin 1/2, les quarks, au nombre de trois pour les baryons et de deux (en fait un
quark et un antiquark) pour les mésons. Enfin, on rencontre dans la théorie des phases condensées
des quantum de champ qui sont du type boson tels que les phonons, rotons, magnons,…

Règle de Pauli
Envisageons le cas d'un système de deux particules sans interaction. Les solutions de l'équation de
Schrödinger à une particule forment une suite ψ (1) , ψ (2 ) , …, ψ (i ) , … Pour l'ensemble de ces
particules, toute fonction ψ (i ) (1)ψ ( j ) (2 ) sera à son tour solution de l'équation de Schrödinger à deux
particules (si, du moins, l'interaction entre les deux particules peut être négligée en première
approximation. La prise en compte d'une telle interaction ne modifie toutefois pas le résultat, elle
complique seulement la formulation). Mais, en raison de la règle de symétrisation, cette forme ne
correspond pas à une réalité physique et seules conviennent les combinaisons
( )
(4) Symétriques : ψ (i ) (1)ψ ( j ) (2 ) + ψ ( j ) (1)ψ (i ) (2 ) / 2
(5) Antisymétriques : (ψ (i )
(1)ψ (2) − ψ (1)ψ (2))/
( j) ( j) (i )
2

Remarquons que, dans le cas de deux fonctions d'onde identiques (i = j), on peut construire une
fonction d'onde symétrique de la forme ψ (i ) (1)ψ (i ) (2 ) convenant pour les bosons. Par contre, il est
impossible de construire une fonction d'onde antisymétrique. En conséquence, deux fermions ne
peuvent pas se trouver dans un même état quantique : ceci constitue la règle (ou principe
d'exclusion) de Pauli (1925). Ce principe a permis d'interpréter le tableau périodique des éléments,
ou classification de Mendeleïev, par le fait qu'il est interdit à deux électrons d'un atome de se
trouver dans le même état quantique (même état orbital et même état de spin). Il a été introduit en
physique statistique par E. Fermi (1926).

Ces considérations entraînent des différences importantes pour les propriétés thermodynamiques
des systèmes de bosons et de fermions, le dénombrement des états quantiques pour chaque espèce
étant différent.
En effet, si chaque particule peut se trouver dans un quelconque des r états possibles, on peut
construire r 2 fonctions d'onde à 2 particules du type ψ (i ) (1)ψ ( j ) (2 ) . Les r fonctions obtenues en
faisant i = j sont symétriques, mais les r 2 − r = r (r − 1) fonctions restantes n'ont aucun caractère de
symétrie. On en déduit, par combinaison linéaire, r (r − 1) / 2 fonctions symétriques et r (r − 1) / 2
fonctions antisymétriques, d'où le nombre total de fonctions symétriques r (r + 1) / 2 supérieur au
nombre de fonctions antisymétriques. Il y a donc plus d'états possibles pour un système de bosons
que pour un système de fermions.

Une conséquence importante du principe d'exclusion est relative à l'énergie minimum U 0 d'un
système de N particules.

Pour un système de bosons, cette énergie est N fois l'énergie minimum d'une particule. Par contre,
pour un système de fermions, chaque état ne pouvant être occupé que par une seule particule, U 0
est la somme des énergies des N états de plus faible énergie. Notons que la répartition des fermions
peut être interprétée comme une "répulsion quantique" entre fermions. Symétriquement, on peut
considérer que les bosons subissent une "attraction quantique" qui permet d'interpréter les
phénomènes d'émission stimulée, de superfluidité et de supraconductivité.
La répulsion entre fermions permet d'expliquer l'énergie cinétique moyenne considérable des
électrons d'un métal. De plus, comme les états quantiques les plus bas des fermions sont tous
occupés, ceux-ci se trouvent bloqués dans leur état quantique et sont alors insensibles à leurs
interactions : c'est pourquoi, par exemple, les électrons d'un métal, qui forment un "gaz" très dense,
peuvent cependant être traités comme des particules indépendantes.

Loi de répartition de Fermi-Dirac


La statistique qui s'applique aux fermions porte le nom de Fermi-Dirac. Le calcul de la probabilité
thermodynamique se fait à partir de la relation générale.

Les fermions d'un gaz étant des particules indiscernables, le nombre de façon W0 de distribuer N
fermions sur les r niveaux suivant la répartition choisie N 1 , …, N i , …, N r est égal à 1. Il suffit
d'en prendre N 1 quelconques (puisque indiscernables), puis N 2 , …, enfin N r . Cette valeur W0 = 1
est très différente de celle trouvée en statistique de Maxwell-Boltzmann traitant le cas de particules
indiscernables.

Le nombre Wi de répartitions possibles des N i particules dans les g i cellules du domaine i


s'obtient, dans le cas des fermions, en imposant à chaque cellule de contenir au plus une particule
(c'est-à-dire 0 ou 1). Le schéma suivant montre l'exemple d'une répartition :

On voit que l'on doit nécessairement avoir 0 ≤ N i ≤ g i . Parmi les g i cellules, on peut en
sélectionner N i pour y placer les particules. Le nombre de façons Wi de choisir N i objets parmi
g i objets distincts est :
gi!
(6) Wi = C gii =
N

N i !( g i − N i )!

La probabilité thermodynamique pour des fermions est donc :


gi!
(7) WFD = W0 ∏ Wi = ∏
i i N i !( g i − N i )!

où l'indice FD est relatif à la statistique de Fermi-Dirac.

Pour déterminer la répartition à l'équilibre, nous écrirons


(8) ln WFD = ∑ [ln g i !− ln N i !− ln ( g i − N i )!]
i
soit, à l'aide de la formule de Stirling dérivée :
∂ ln WFD g − Ni
(9) = − ln N i + ln ( g i − N i ) = ln i
∂N i Ni

La condition d'équilibre devient (toujours avec β = 1 / kT ) :


g i − N i0
(10) ln = β (ε i − µ )
N i0
et, en résolvant par rapport à N i0 , on obtient la loi de répartition à l'équilibre en statistique de
Fermi-Dirac
g
(11) N i0 = β (ε − µi )
e i
+1

Avant de discuter et d'appliquer cette formule, nous établirons d'abord la loi de répartition pour les
bosons.

Loi de répartition de Bose-Einstein


Le cas des bosons se traite de façon semblable à celui des fermions. Ainsi, nous avons aussi
W0 = 1 , mais les expressions des Wi sont différentes car les particules peuvent se trouver en
nombre quelconque dans chaque cellule. Une répartition pourra être représentée, par exemple, par
le schéma suivant :

ou, dans une représentation dépouillée qui garde toute l'information :

Les N i et les g i − 1 barres forment N i + g i − 1 objets que nous supposerons tout d'abord distincts.
Le nombre de façon de les ordonner est égal au nombre de permutations ( N i + g i − 1)! . On tient
compte du fait que les N i points ne sont pas distincts entre eux en divisant par le nombre de
permutations N i ! et du fait que les g i − 1 barres ne sont pas distinctes en divisant par le nombre de
permutations ( g i − 1)! . On obtient ainsi :
(N i + g i − 1)! Ni
(12) Wi = = C N i + gi −1
N i !( g i − 1)!

La probabilité thermodynamique est donc :


(N + g i − 1)!
(13) WBE = W0 ∏ Wi = ∏ i
i i N i !( g i − 1)!

L'indice BE est relatif au nom de la statistique quantique de Bose-Einstein donné à la statistique


applicable aux bosons.

La répartition à l'équilibre s'obtient comme pour les fermions. Nous avons :


(14) ln WBE = ∑ [ln ( g i + N i − 1)!− ln N i !− ln ( g i − 1)!]
i
soit, en dérivant :
∂ ln WBE g + Ni −1
(15) = ln ( g i + N i − 1) − ln N i = ln i
∂N i Ni

Si l'on admet que le terme g i + N i est très grand devant 1, ce qui sera toujours le cas par la suite,
nous avons :
∂ ln WBE g + Ni
(16) = ln i
∂N i Ni

La condition d'équilibre s'écrit alors :


g + N0
(17) ln i 0 i = β (ε i − µ )
Ni
soit, en résolvant,
g
(18) N i0 = β (ε − µi )
e i −1

Cette loi de répartition à l'équilibre, appelée loi de répartition de Bose-Einstein, a une forme
semblable à celle de Fermi-Dirac, ce qui permet de traiter les deux statistiques simultanément.
Nous pouvons écrire les deux lois de répartition à l'équilibre des statistiques quantiques sous la
forme
g  FD 
(19) N i0 = β (ε − µi )  
e i ± 1  BE 
dans laquelle nous utiliserons le signe supérieur pour la statistique de Fermi-Dirac et le signe
inférieur pour celle de Bose-Einstein. Notons que la population N i0 du domaine i est
proportionnelle à g i qui détermine l'extension du domaine. Cela signifie que la façon dont est fait
le découpage en domaines n'intervient pas. La grandeur significative est le rapport :
N0 1
(20) ni0 = i = β (ε − µ )
gi e i ±1
représentant le nombre moyen de particules par cellule (ou par état quantique). Nous voyons que ce
nombre est une fonction décroissante de l'énergie ε i

Fonctions thermodynamiques dans les statistiques quantiques


Selon la méthode des multiplicateurs de Lagrange, les paramètres T (ou β ) et µ devraient être
déterminés à partir des relations de contraintes relatives à N et U. Toutefois, comme en statistique
de Maxwell-Boltzmann, on préfère garder la variable T plutôt que d'introduire U comme variable.
Par ailleurs, bien qu'il soit souhaitable d'éliminer µ au profit de N, la condition
g
(21) N = ∑ N i0 = ∑ β (ε − µi )
i i e
i
±1
ne permet pas de déterminer µ sous forme analytique. On est donc obligé de conserver la variable
µ comme intermédiaire de calcul. En résumé, nous garderons donc comme variables, les
paramètres T et µ :
 T, parce que nous le préférons à l'énergie interne U
 µ , parce que nous ne savons pas en général l'éliminer au profit de N

La fonction énergétique la mieux adaptée à ce chois de variables est la fonction Ω(T , µ ,V ) , appelée
grand potentiel, définie par
(22) Ω = U − TS − Nµ
et dont la différentielle est :
(23) dΩ = − SdT − Ndµ − PdV

La détermination de la fonction Ω pour chaque système permet de déduire les expressions de


l'entropie S, du nombre de particules N et de la pression P en variables T, µ , V par les relations
 ∂Ω   ∂Ω   ∂Ω 
(24) S = −  N = −  P = − 
 ∂T  µ ,V  ∂µ  T ,V  ∂V  T , µ
la seconde de ces équations étant l'équation implicite déterminant µ , analogue à (21) ainsi que
nous le verrons. Dans le cas où il existe des paramètres externes autres que V, tels qu'un champ
magnétique, on doit ajouter des termes de travail à dΩ , tels que dW = − MdB (ici W est le travail),
ce qui conduit en plus de (24) à
 ∂Ω 
(25) M (T , µ , V , B ) = − 
 ∂B  T , µ ,V

Pour trouver l'expression du grand potentiel Ω dans les statistiques quantiques, nous commençons
par déterminer celle de l'entropie S à partir de la relation de Boltzmann. En appliquant la formule
de Stirling réduite aux expressions (8) de ln WFD et (14) de ln WBE , nous obtenons
 g − Ni g − Ni 
(26) log WFD = ∑  N i log i − g i log i 
i  Ni gi 
et
 (g + N i − 1) ( (g + N i − 1)
(27) ln WBE = ∑  N i ln i + g i − 1) ln i
i  Ni (g i − 1) 

A l'approximation g i −1 ≅ g i , ces deux expressions se regroupent en une seule :


 g m Ni g m Ni   FD 
(28) ln W = ∑  N i ln i m g i ln i   
i  Ni gi   BE 

En utilisant les lois de répartition à l'équilibre (19), on trouve


g m N0 β (ε − µ ) g m N i0 1
(29) i 0 i = e i et i = − β (ε i − µ )
Ni gi 1± e
et par suite
 ε −µ 
(30) S = k log Wmax = k ∑  N i0  i (
 ± g i log 1 ± e i  )
− β (ε − µ ) 

i   kT  

Les relations de contrainte N = ∑ N i et U = ∑ N i ε i introduites dans ces expressions donnent


(31) S =
U Nµ
T

T
(
± k ∑ g i log 1 ± e i )
− β (ε − µ )

i
d'où l'expression finale du grand potentiel Ω = U − TS − Nµ :

( )
− β (ε − µ )
(32) Ω = m kT ∑ g i ln 1 ± e i
 FD 
 
i  BE 

Nous voyons sur cette expression que Ω est fonction explicite de T et de µ et que les variables
externes (V, B,…) dépendant du problème physique posé, interviennent par l'intermédiaire des ε i .
Notons qu'avec cette expression de Ω , la relation
− β (ε − µ )
 ∂Ω  ± βe i
(33) N = −  = ± kT ∑ g i − β (ε − µ )
 ∂µ  T ,V i 1± e i
redonne la condition de contrainte (21).

Statistique de Maxwell-Boltzmann corrigée

Limite commune des statistiques quantiques


Lorsque la densité de population ni0 = N i0 / g i est petite devant 1 quel que soit le domaine i, il y a
dans chaque domaine beaucoup moins de particules que de cellules et le nombre d'états
microscopiques ou deux ou plusieurs particules (cas des bosons) se trouvent dans une même cellule
est relativement très faible et négligeable. Presque tous les états microscopiques accessibles à un
système de bosons le sont alors aussi à un système de fermions, soit WFD ≅ WBE . Cet argument
trouve sa justification quantitative en effectuant l'approximation N i << g i dans les expressions (7)
et (13) des probabilités thermodynamiques WFD et WBE . En effet, on a dans cette approximation :
gi! g ( g − 1)L ( g i − N i + 1)
WFD = ∏ =∏ i i
i N i !( g i − N i )! i Ni!
(34) Ni
g g L gi g
≅∏ i i =∏ i
i Ni! i Ni!
et
(N i + g i − 1)! (g + N i − 1)(g i + N i − 2)L g i N
g i
(35) WBE = ∏ =∏ i ≅∏ i
i N i !( g i − 1)! i Ni! i Ni!

Ceci montre que les deux expressions de W admettent, lorsque N i << g i , la même limite
N
gi i
(36) WMBc = ∏
i Ni!
atteinte par valeur inférieure en statistique de Fermi-Dirac et par valeur supérieure en statistique de
Bose-Einstein. Cette expression limite est semblable à l'expression de WMB , au facteur lié à
l'indiscernabilité N ! près, d'où le nom de statistique de Maxwell-Boltzmann "corrigée" que nous
donnerons à la statistique limite fondée sur l'expression (36) de W. Insistons sur le fait que les deux
statistiques de Maxwell-Boltzmann dont les formalismes sont voisins s'appliquent à des systèmes
complètement différents. La statistique de Maxwell-Boltzmann est utilisée pour les systèmes de
particules discernables (ou localisées) quelle que soit la densité de population ni0 = N i0 / g i , tandis
que celle de Maxwell-Boltzmann corrigée est utilisée pour les systèmes de particules indiscernables
(ou non localisées) et seulement si la densité de population est faible ( N i << g i ).

Loi de répartition et fonctions thermodynamiques


La méthode générale permettant de déterminer la loi de répartition à partir de la probabilité
thermodynamique peut être appliquée ici, cependant il est plus simple de chercher la limite pour
N i << g i des expressions valables dans les statistiques quantiques. En effet, puisque l'on a, en
appliquant (19) :
N i0 1
(37) = β (ε − µ ) << 1
gi e i
±1
β (ε − µ )
c'est que le dénominateur et donc l'exponentielle e i sont très grands devant 1. Les lois de
répartition en statistique quantique (19) deviennent alors en statistique de Maxwell-Boltzmann
corrigée :
gi β (ε i − µ )
(38) N i0 ≅ β (ε i − µ )
, soit N i0 = g i e
e

De même, puisque , l'expression (32) du grand potentiel Ω se simplifie et l'on a :


− β (ε − µ )
(39) Ω ≅ m kT ∑ g i × ± e i (= − kTe βµ Z )
i
où la fonction de partition
(40) Z (T , V , B, K) = ∑ g i e i
− βε

n'est fonction que de T et des paramètres externes tels que V, B,… par l'intermédiaire des ε i .

La fonction grand potentiel Ω(T , µ ,V ,K) a été introduite en statistique quantique parce que la
variable µ ne peut pas être éliminée de façon générale. Dans le cas présent, au contraire, la relation
de contrainte N = ∑ N i0 nous permet de faire cette élimination. On a en effet :
(41) N = e βµ ∑ g i e
− βε i
= e βµ Z
i
d'où l'on tire
Z Z (T , V , K)
(42) e − βµ = ou µ = − kT ln
N N
ce qui donne l'expression de µ en variables T, N, V,…

Nous pouvons alors éliminer le potentiel µ au profit de la variable N dans la loi de répartition, soit
:
N −ε
(43) N i0 = g i e i
Z

Cette loi de répartition est la même que celle obtenue en statistique de Maxwell-Boltzmann. Notons
qu'à l'origine, Boltzmann ne connaissait pas le principe d'indiscernabilité des particules et a
appliqué indûment la statistique de Maxwell-Boltzmann aux gaz. L'identité des deux lois de
répartition lui a toutefois permis d'interpréter avec succès certains des propriétés des gaz.
Cependant, les difficultés rencontrées en ce qui concerne l'entropie ont conduit à introduire le
concept d'indiscernabilité qui a permis de résoudre ces difficultés.

Puisque nous pouvons éliminer la variable µ , nous utiliserons en statistique de Maxwell-


Boltzmann corrigée la fonction énergie libre dont les variables naturelles sont T, N, V, etc. Nous
avons alors :
(44) F = Ω + Nµ = − kTe βµ + Nµ
et en éliminant µ grâce à la relation (42), nous obtenons
 Z 
(45) F = − NkT  log + 1
 N 

L'énergie libre F est alors exprimée en fonction uniquement des variables T, N et des paramètres
externes, ces derniers par l'intermédiaire de la fonction de partition Z. Nous pouvons alors déduire
de F celle de l'entropie S, de la pression P et de l'aimantation M par
 ∂F   ∂F   ∂F 
(46) S = −  P = −  M = − 
 ∂T  N ,V ,K  ∂V  T , N ,K  ∂B  T , N ,V ,K
ainsi que l'expression de l'énergie interne U par la relation U = F + TS . Nous voyons alors que la
détermination de toute grandeur thermodynamique se ramène à celle de la fonction de partition.

Notons que la condition de validité N i0 << g i , correspondant à un taux de population faible pour
tous les niveaux, sera vérifiée si et seulement si le taux d'occupation n00 du niveau fondamental est
faible. Choisissant ce niveau comme origine des énergies, la condition de validité de la statistique
de Maxwell-Boltzmann corrigée devient :
N
(47) α = n00 = << 1
Z

Ce n'est qu'après avoir calculé la fonction de partition du système que l'on pourra vérifier que
α = n00 est petit devant 1 et donc que la statistique de Maxwell-Boltzmann corrigée s'applique.
Conclusion
Nous venons d'utiliser une méthode générale pour obtenir les expressions des lois de répartition et
des fonctions thermodynamiques dans les différentes statistiques. Dans toutes les applications à des
systèmes physiques, il faut suivre la même démarche :
1. Définition du modèle employé à l'échelle atomique.
2. Détermination des nivaux d'énergie et de leur dégénérescence.
3. Choix de la statistique.

Pour cette dernière étape (voir le tableau ci-dessous), si les particules sont discernables (ou
localisées), on choisit la statistique de Maxwell-Boltzmann. Dans le cas contraire (particules
indiscernables), il faut appliquer la statistique de Fermi-Dirac aux fermions(spin demi-entier) et
celle de Bose-Einstein aux bosons (spin entier). Dans ces deux derniers cas, et pour de faibles
densités de population, il est plus simple d'appliquer la statistique limite de Maxwell-Boltzmann
corrigée.

Statis Probabilité Loi de répartition Fonction énergétique


tique thermodynamique
Disc. MB F (T , B, K) =
g i exp(− βε i )
N N
gi i
WMB = N !∏ N i0 =
Ni! Z − NkT ln Z (T , B, K)
Z = ∑ g i exp(− βε i )
i

i
Indisc FD gi! gi Ω(T , µ ,V ,K) =
WFD =∏ N i0 =
i N i !( g i − N i )! exp β (ε i − µ ) + 1 − kT ∑ g i ln[1 + exp β (µ − ε i )]
i

BE (N i + g i − 1)! gi Ω(T , µ ,V , K) =
WBE = ∏ N i0 =
i N i !( g i − 1)! exp β (ε i − µ ) − 1 kT ∑ g i log[1 − exp β (µ − ε i )]
i
MBc F (T , N , V , K) =
g i exp(− βε i )
N N
g i
WMBc =∏ i N i0 =
Ni! Z  ln Z (T , N , V , K) 
− NkT  + 1
Z = ∑ g i exp(− βε i )
i

 N 
i

Exercices

Calcul de W pour des particules indiscernables


Evaluez la probabilité thermodynamique pour un ensemble de fermions ( WFD ) et un ensemble de
bosons ( WBE ) dans le cas où il n'y a qu'un seul domaine (r = 1) contenant g1 = 1000 cellules et
pour un nombre de particules N 1 successivement égal à 500 et 10. Calculez également W en
statistique de Maxwell-Boltzmann corrigée pour N 1 = 10 et comparez la valeur obtenue aux
valeurs de WFD et WBE .

Solution
Nous utiliserons les relations (7), (13) et (36) de la section V.3.4. Pour N 1 = 500 , on a
WFD = 1000! / (500!×500!) = 1.07 × 10 301 et WBE = 1499! / (500!×999!) = 2.99 × 10 414 . Pour N 1 = 10 , on
a WFD = 1000! / (10!×990!) = 2.62 × 10 23 et WBE = 1009! / (10!×999!) = 2.87 × 10 23 .

On voit que pour N 1 = 10 ( N 1 / g1 << 1 ), l'écart entre les deux statistiques est faible
( ∆W /W ~ 10% ) contrairement au cas N 1 = 500 ( N 1 / g1 = 0.5 ). En statistique de Maxwell-
Boltzmann corrigée et pour N 1 = 10 , on a WMBc = 100010 / 10!= 2.76 × 10 23 , valeur intermédiaire
entre les deux précédentes. Remarquons que pour N 1 = 10 les valeurs des logarithmes de W sont
respectivement ln WFD = 53.92 , ln WBE = 54.01 et ln WMBc = 53.97 et diffèrent seulement d'environ
10 −3 en valeur relative.
Les factorielles, sauf 10!, ont été obtenues à l'aide d'une calculette en utilisant l'approximation de
Stirling réduite.

Exercices de compréhension
1. On répartit 100 objets discernables en deux compartiments. Quelle est la probabilité
thermodynamique de la répartition la plus probable ? Quelle est la probabilité de la répartition
N 1 = 60 , N 2 = 40 , relativement à la plus probable ?

Réponses : 1.27 × 10 30 , 0.134

V.4. Statistique de Bose-Einstein


La statistique de Bose-Einstein s'applique aux systèmes de particules indiscernables de spin entier
sans interaction. Cependant, lorsque la densité de population des niveaux est suffisament faible, la
limite de la statistique de Maxwell-Boltzmann corrigée fournit une bonne approximation et est
utilisée en raison de sa plus grande simplicité. Ceci est le cas de la plupart des gaz moléculaires.

Les systèmes de bosons se classent en deux catégories : ceux qui sont formés de particules
moléculaires en nombre déterminé (l'hélium, par exemple) et les systèmes de particules dont le
nombre est indéterminé. Ceci est le cas d'une assemblée de photons, modèle qui permet de décrire
le rayonnement électromagnétique. Pour de tels systèmes, la condition de contrainte sur le nombre
total de particules n'existe pas : le multiplicateur µ = µ disparaît du formalisme simplifiant par là
l'utilisation de la statistique de Bose-Einstein. Pour cette raison, nous étudierons d'abord le
rayonnement électromagnétique en équilibre avec la matière, appelé rayonnement thermique. Nous
considérerons ensuite le cas de gaz moléculaires de bosons ainsi que le phénomène de condensation
d'Einstein qu'ils peuvent présenter. Cette condensation est un changement de phase qui a lieu non
pas dans l'espace réel, mais dans l'espace des impulsions.
V.4.1. Modèle de Bose du rayonnement thermique

Introduction
Dans le modèle de Bose, on quantifie le rayonnement électromagnétique contenu dans une enceinte
en le décrivant comme formé d'un gaz de particules sans masse : les photons. Ces particules n'ont
pas d'interaction mutuelle, ceci étant lié à la linéarité des équations de Maxwell et sont
indiscernables, en raison de leur mouvement de translation. De plus, étant associées à un champ
vectoriel, elles sont des bosons de spin 1 auxquels ont doit appliquer la statistique de Bose-Einstein.
Enfin, lors du choc des photons avec les molécules des parois de l'enceinte, certains sont absorbés
et d'autres émis : leur nombre n'est donc pas constant et, pour cette raison, la condition de
contrainte ∑ N i = cte ne tient plus. Le multiplicateur de Lagrange µ disparaît donc du
formalisme.

En particulier la loi de répartition à l'équilibre devient pour les photons :


g
(1) N i = β ε i
e i −1
et le grand potentiel Ω = U − TS − Nµ s'identifie à l'énergie libre F = U − TS et vaut
(
(2) Ω ≡ F = kt ∑ g i ln 1 − e
− β εi
)
i

Niveaux d'énergie
La détermination des niveaux d'énergie des photons dans une enceinte parallélépipédique et de leur
dégénérescence se traite à partir des équations de Maxwell. Si on a un boite de dimensions a, b, c,
le long des trois axes x, y, z, alors une onde allant d'une paroi à l'autre ne peut avoir qu'un nombre
entier de demi-longueurs d'onde. Par exemple, le long de la largeur a, les longueurs d'ondes
possibles sont 2a / m où m est un nombre entier positif. Par conséquent, la fréquence est cm / 2a ce
qui correspond à un photon d'énergie hcm / 2a . On a la même chose pour les deux autres directions.
On a donc trois nombres quantiques m x , m y et m z . Pour une direction quelconque et en utilisant
simplement le théorème de Pythagore, on trouve
1/ 2
hc  m x2 m y m z2 
2

(3) ε mx ,m y ,mz = + + 2 m x , m y , m z = 1,2,3,L


2  a 2 b 2 c 

L'intervalle entre deux niveaux d'énergie, pour une enceinte de taille macroscopique, V = 1 litre par
exemple, vaut environ
hc
(4) ε 0 ≅ 1/ 3
= 9.93 × 10 −25 J = 6.20 × 10 −6 eV
2V

Les niveaux sont très proches et on peut considérer ε comme une variable continue liée à la
quantité de mouvement p du photon par la relation de dispersion :
(5) ε = c p = cp

Pour le dénombrement des états et l'expression des dégénérescences, on tient compte du fait que
chaque état quantique occupe dans l'espace des phases une extension h 3 . La dégénérescence des
niveaux de translation devient alors
d 3 rd 3 p
(6) g i →
h3

En plus de cette dégénérescence, nous devons tenir compte de la dégénérescence de spin du photon,
g s = 2 . En effet, bien qu'en règle générale une particule de spin 1 admette 2 J + 1 = 3 états de
spins, il en va différemment pour le photon, comme nous l'avons vu, qui ne possède que deux états
de spins, correspondant aux deux états de polarisation circulaire de la lumière. Le troisième état de
spin qui correspond à une polarisation longitudinale n'existe pas, en raison de la transversalité des
ondes électromagnétiques.

Ces propriétés nous permettent d'effectuer le calcul de l'énergie libre d'un gaz de photons, avec les
correspondances
d 3rd 3p
(7) g i → 2 et ε i → ε = cp
h3
Fonctions thermodynamiques
L'expression (2) de l'énergie libre devient
(8) F = 3 ∫ d 3 r ∫ d 3 p ln (1 − e β c p )
2kT
h

L'intégrale en r porte sur le volume de l'enceinte et vaut donc V. En passant en coordonnées


sphériques pour p et en intégrant sur les variables angulaires, il vient
F=
2kTV ∞
3 ∫ ( )
4πp 2 ln 1 − e − β c p dp
h 0
(9)
8π (kT ) V ∞ 2
( )
4
= 3 3 ∫ x ln 1 − e − x dx
h c 0

où nous avons posé x = βcp . L'intégrale numérique qui apparaît fait partie d'une famille
d'intégrales bien connues. On a en effet :

( ) 1 ∞ x n dx
(10) − ∫ x n −1 ln 1 − e − x dx = ∫ x
0 n 0 e −1
= Γ(n )ζ (n + 1)

La fonction gamma Γ(n ) vaut (n − 1)! si n est un entier positif et a les propriétés
1
(11) Γ(n ) = (n − 1)Γ(n − 1) , Γ  = π , Γ(1) = 1
 2

La fonction zêta de Riemann est définie par



(12) ζ (n ) = ∑ p −n , n > 1
p =1

avec ζ (3 / 2 ) = 2.612 , ζ (2 ) = π 2 / 6 , ζ (5 / 2) = 1.341 , ζ (3) = 1.202 , ζ (7 / 2 ) = 1.127 et


ζ (4) = π 4 / 90 .

L'énergie libre s'écrit alors :


48πk 4 8π 5 k 4
(13) F = − VT 4 avec a = 3 3 ζ (4 ) =
a
3 3
= 7.57 × 10 −16 SI
3 h c 15h c

Nous pouvons obtenir maintenant l'entropie et la pression du gaz de photons par dérivation de F :
 ∂F  4  ∂F  1 4
(14) S = −  = aVT et P = −
3
 = aT
 ∂T V 3  ∂V  T 3

Enfin, on peut obtenir l'énergie interne U et la capacité calorifique à volume constant CV :


(15) U = F + TS = aVT 4
et
 ∂U 
(16) CV =   = 4aVT
3

 ∂T V

Les résultats précédents appellent quelques commentaires :


 L'expression de l'énergie libre obtenue est une quantité extensive. Ce résultat nécessaire est dû
au terme d 3 r dans l'expression (7) de la dégénérescence qui, par intégration, donne naissance
au facteur volume V.
 La pression exercée par le gaz de photons sur les parois de l'enceinte qui le contient (pression
de radiation) ne dépend pas du volume V, mais uniquement de la température T. Il s'ensuit que
P et T ne peuvent pas être considérés comme des variables d'équilibre indépendantes.
 On a PV = U / 3 alors que l'on a PV = 2U / 3 pour les gaz monoatomiques parfaits. Le résultat
(17) PV = U / 3
est général pour les systèmes de particules pour lesquelles la relation de dispersion est ε = cp .
 La pression de radiation est extrêmement faible à température ambiante : elle vaut 2 × 10 −11
atmosphère. Cependant, variant comme T 4 , cette pression devient très importante aux
températures élevées, par exemple au centre des étoiles ( T > 10 7 K ), pour lesquelles elle peut
devenir supérieure à la pression cinétique du plasma stellaire.
Nombre de photons
Bien que le nombre de photons dans l'enceinte ne soit pas fixé, nous pouvons calculer ce nombre
dans l'état d'équilibre du gaz n supprimant le paramètre µ dans la loi de répartition de Bose-
Einstein, soit
g
(18) N = ∑ N i = ∑ β ε i
i i e
i
−1

En passant en variables continues comme ci-dessus, on a :


8πV (kT ) ∞ x 2 dx
3
d 3rd 3p 1
(19) N = ∫ 2
h 3 c 3 ∫0 e x − 1
=
h3 e β c p − 1

L'intégrale, purement numérique, vaut 2ζ (3) = 2.404 . On a donc :


8πk 3 a
(20) N = 2.404 3 3
VT 3 = 0.370 VT 3
h c k

Ce nombre de photons à l'équilibre est une fonction extensive du volume et de la température.


Notons que l'entropie du gaz de photons (14) peut s'exprimer uniquement en fonction de N sous la
forme S = 3.602 Nk . Ces résultats montrent que, lors d'une détente isotherme du gaz de photons (T
= cte), le nombre volumique N / V de photons reste constant alors que, lors d'une détente
adiabatique (S = cte), c'est le nombre total N de photons qui reste constant.

Exercices

Rayonnement thermique de l'univers


1. L'univers est le siège d'un rayonnement thermique dont la température actuelle est voisine de
T2 = 2.7 K . Calculez le nombre et l'énergie volumiques, notés n2 et u 2 , des photons. En
déduire l'énergie moyenne d'un photon. A quelle longueur d'onde du rayonnement correspond-
elle ?
2. Selon le modèle cosmologique du Big Bang, l'univers est en expansion isentropique et son
volume varie comme t 2 , t étant le temps écoulé depuis son origine.
Déterminez les expressions de T, n et u en fonction de t.
3. Calculez l'âge de l'univers lorsque le rayonnement thermique s'est "découplé" de la matière,
c'est-à-dire lorsque sa température est devenue insuffisante pour ioniser notablement les atomes
( T1 ~ 3000 K ). L'âge actuel étant estimé à 15 milliards d'années.
4. La densité moyenne de matière connue dans l'univers est actuellement de l'ordre de
10 −30 g cm −3 . Comparez la densité d'énergie de la matière à la densité d'énergie du rayonnement
à ce moment.

On donne h = 6.6310 −34 J s et c = 3.00 × 10 8 m s −1

Solution
1. Les expressions (20) et (15) de la section V.4.1 donnent
N
(1) n2 =   = 3.99 × 10 8 m −3 = 399 cm −3
 V  T =T2
et
U 
(2) u 2 =   = 4.02 × 10 −14 J m −3 = 2.51 × 10 −1 eV cm −3
 V  T =T2

L'énergie moyenne d'un photon est donc ε = u 2 / n2 = 6.3 × 10 −4 eV . La longueur d'onde


correspondante est λ = hc / ε = 0.20 cm .
2. L'entropie restant constante au cours de l'expansion, le produit VT 3 reste constant et donc varie
proportionnellement à V −1 / 3 , soit comme t −2 / 3 . On en déduit donc
(3) T = T2 (t / t 2 ) n = n 2 (t / t 2 ) u = u 2 (t / t 2 )
−2 / 3 −2 −8 / 3

A l'origine de l'univers, ces nombres étaient immenses et ont décru rapidement d'où l'expression
Big Bang pour décrire les premiers instants.
3. On a t1 = t 2 × (T1 / T2 )
−3 / 2
= 400000 ans .
4. La densité de matière varie comme V −1 ( ρV = M = constante), soit comme t −2 . On a donc
ρ = ρ 2 (t / t 2 )−2 , d'où ρ1 = 1.4 × 10 −21 g cm −3 . La densité d'énergie de masse correspondante vaut
ρ1c 2 = 0.13 J m −3 = 7.9 × 1011 eV cm −3 alors que la densité d'énergie du rayonnement vaut au
même moment u1 = 0.063 J m −3 = 4.0 × 1011 eV cm −3 . Ces deux valeurs, au moment du
découplage, étaient très voisines. Avant cette époque ( t << 10 5 ans ) la densité d'énergie de
matière, variant comme t −2 , était négligeable devant la densité d'énergie de rayonnement
( u ∝ t −8 / 3 ) alors que la situation inverse prévaut actuellement.

V.4.2. Loi de Planck. Rayonnement du corps noir.


Nous voici revenu aux sources des fondations de la mécanique quantique. Maintenant que nous
connaissons les propriétés quantiques d'une collection de particules telles que des photons, nous
sommes à même de retrouver la loi de Planck. La dérivation de celle-ci suit une formulation
moderne et non celle de Planck élaborée à une époque où la mécanique quantique n'existait pas.

Etablissement de la loi de Planck


Dans la section précédente, nous avons considéré le rayonnement thermique dans son ensemble
sans nous préoccuper de la contribution des divers niveaux d'énergie. Nous détaillons maintenant
cette contribution en calculant l'énergie interne par intervalle de fréquence. Cette grandeur présente
en effet l'avantage de pouvoir être comparée à l'expérience puisque la spectroscopie permet la
résolution en fréquence du rayonnement.

En reprenant les expressions (1) et (7) de la section précédente, nous voyons que le nombre de
photons d 6 N r ,p se trouvant au point r dans le volume d 3 r avec une impulsion p dans l'élément
d 3p vaut :
2 d 3rd 3 p
(1) d 6 N r ,p = avec ε = cp
h3 e β ε −1
Le nombre dN p de photons dans tout le volume ayant une impulsion comprise entre p et p + dp
s'obtient par intégration sur le volume ( d 3 r → V ) et sur les angles θ et φ définissant la direction
de p ( d 3 p = p 2 dp sin θ dθ dφ → 4πp 2 dp ). Ce nombre a pour expression
8πV p 2 dp
(2) dN p =
h3 e β c p − 1

En introduisant la variable fréquence ν par l'intermédiaire de la relation de Planck ε = hν = cp , on


obtient le nombre de photons de fréquence comprise entre ν et ν + dν :
8πV ν 2 dν
(3) dNν = 3 β hν
c e −1

L'énergie élémentaire correspondant à cet intervalle de fréquence est donc :


8πVh ν 3 dν
(4) dU ν = hνNν = 3 β hν
c e −1
et la densité spectrale d'énergie volumique, définie par
1 dU ν
(5) uν =
V dν
est égale à
8πh ν 3
(6) uν = 3 hν / kT
c e −1

Cette expression constitue la loi de Planck pour laquelle la quantification de l'énergie et la


constante h ont été introduites pour la première fois (M. Planck, 1900).

On retrouve l'expression de l'énergie interne volumique U/V en intégrant la densité spectrale


d'énergie volumique uν sur tout le domaine des fréquences. En faisant le changement de variable
x = β hν = hν / kT , on a
U 8 gph ∞ ν 3 dν 8π 3
∞ x dx
(7) = ∫ uν dν = 3 ∫ β hν = 3 3 k 4T 4 ∫ x
V c 0 e −1 h c 0 e −1

L'intégrale numérique apparaissant vaut 6ζ (4 ) = π 4 / 15 , d'où


U 8π 5 k 4 4
(8) = 3 3
T = aT 4
V 15h ch
conformément au résultat déjà trouvé.

Etude de la loi de Planck


La loi de Planck a unifié deux lois obtenues antérieurement. Il s'agit d'une part de la loi de
Rayleigh-Jeans
8πkT
(9) uν = 3 ν 2
c
valable aux basses fréquences et limite de la loi de Planck dans l'approximation hν << kT . La
constante de Planck disparaît dans cette loi qui représente la limite classique de la loi de Planck
lorsque l'on fait tendre h vers zéro.

D'autre part, Wien avait établi que la densité spectrale d'énergie suit une loi d'échelle
ν  ν 
(10) uν = T 3 f   = ν 3 g  
T  T 
vérifiée par la loi de Planck (6) et dont il avait obtenu à fréquence élevée l'expression empirique
(11) uν = Aν 3 e − Bν / T

Cette loi est la limite de la loi de Planck pour hν >> kT pour laquelle on obtient A = 8πh / c 3 et
B = h / k . Elle revient à négliger le terme 1 au dénominateur de (6), ce qui correspond à
l'approximation de la statistique de Maxwell-Boltzmann corrigée.

La loi de Planck peut se mettre sous la forme suivante :


x3
(12) y =
ex −1
où l'on a introduit les variables sans dimension (variables réduites)
hν h 3 c 3 uν
(13) x = et y =
kT 8πk 3 T 3
ou numériquement

(14) x = 4.80 × 10 −11


( )
ν s −1 ( u Jm 3 s
et y = 1.79 × 10 26 ν 3 3
)
T (K ) ( )
T K

La loi de Planck peut alors être représentée par une courbe universelle indépendante de tout
paramètre.
Cette courbe présente un maximum y m = 1.42 pour x m = 2.82 .

La propriété d'invariance d'échelle de la loi de Planck permet, lorsqu'on connaît la fonction uν à


une température T1 d'obtenir son expression à toute autre température T2 à l'aide des
transformations d'échelle ν → νT2 / T1 et uν → uν (T2 / T1 ) . En particulier, l'abscisse et l'ordonnée
3

du maximum de la fonction uν varient comme T et T 3 respectivement :


( )
(15) ν m (s −1 ) = 5.88 × 1010 T (K ) et uν m Jm −3 s = 7.94 × 10 −27 [T (K )]
3

Notons que l'aire limitée par la courbe uν varie en T × T 3 = T 4 conformément à la loi (8).

Rayonnement d'un corps noir


Considérons une enceinte à température T contenant le rayonnement thermique et perçons dans la
paroi un orifice de faibles dimensions par laquelle s'échappe du rayonnement.

Cet orifice constitue un "corps noir". Nous allons déterminer, comme en théorie cinétique des gaz,
les propriétés du rayonnement émis en définissant l'émittance radiative E (ou radiance) comme
étant la quantité d'énergie rayonnée par unités de temps et de surface (c'est une densité de courant
d'énergie). L'émittance spectrale eν est l'émittance par unité de fréquence.

Considérons donc d'abord les photons de fréquence comprise entre ν et ν + dν et sortant de


l'enceinte pendant la durée dt par l'orifice d'aire dS dans l'angle solide dΩ autour d'une direction
faisant l'angle θ avec la normale à la paroi (figure ci-dessus). Ces photons sont ceux contenus dans
un cylindre oblique de base dS et de génératrice cdt , ayant la direction requise. La répartition des
photons dans l'enceinte étant uniforme et isotrope, l'énergie élémentaire emportée par les photons
considérés vaut
dΩ
(16) uν dν × dV ×

où dV = dS × c cosθ dt est le volume du cylindre et dΩ / 4π la fraction de photons dirigés dans
l'angle solide dΩ . L'énergie élémentaire rayonnée par l'orifice pendant la durée dt et dans
l'intervalle de fréquence dν s'obtient en sommant l'expression présente sur toutes les directions
permettant aux photons de sortir. Ceci fait apparaître l'intégrale
(17) ∫ cosθ dΩ = ∫ cosθ sin θ dθ dφ = π
où l'intégration porte sur φ variant de 0 à 2π et θ variant de 0 à π / 2 (les valeurs de θ allant de
π / 2 à π correspondent à des directions pour lesquelles les photons s'éloignent de l'orifice). D'où
la valeur de l'énergie émise par l'orifice d'aire dS pendant la durée dt dans l'intervalle de
fréquence dν :
dScdt
(18) eν dSdtdν = uν dν ×
4

En remplaçant uν par son expression (6), l'émittance spectrale eν s'écrit


c 2πh ν 3
(19) eν = uν = 2 hν / kT
4 c e −1

L'émittance totale s'obtient par intégration sur tout le domaine de fréquences, soit
c cU
(20) E = ∫ eν dν = ∫ uν dν =
4 4V
et, en utilisant l'expression (8) de l'énergie interne d'un gaz de photons, on a
ac 2π 5 k 4
(21) E = T 4 = σT 4 avec σ = = 5.67 × 10 −8 SI
4 15h 3 c 2

Ce résultat (loi de Stefan-Boltzmann) montre que l'émittance d'un corps noir n'est fonction que de
sa température. La constante universelle σ = ac / 4 est appelée constante de Stefan-Boltzmann.
Cette loi est en accord remarquable avec les observations. En particulier, la valeur mesurée de σ
coïncide avec sa valeur théorique (21). De même, l'émittance spectrale du corps noir obéit
parfaitement à la loi de répartition (19). La loi de Planck a en fait été vérifiée en mesurant
l'émittance spectrale eν du corps noir et non la densité spectrale d'énergie volumique uν du gaz de
photons. La figure ci-dessous représente l'émittance spectrale du corps noir à plusieurs
températures.
Exercices

Théorie cinétique de la pression de radiation


On admet en théorie cinétique que la pression exercée par un gaz (atomique, moléculaire ou de
photons) sur les parois d'une enceinte résulte des chocs des particules du gaz sur ces parois. On
considère un élément dS de la paroi et les particules qui le frappent pendant la durée dt.

Une particule de vitesse v frappe la paroi. Calculez l'impulsion transférée à la paroi en admettant
que le choc est parfaitement élastique.

Ecrire sous forme intégrale le transfert de l'impulsion dû à l'ensemble des particules frappant
l'élément dS pendant la durée dt.

En appliquant le principe fondamental de la dynamique, en déduire la pression de radiation sur la


paroi.

Solution
Chaque photon a une impulsion de module p = hν / c . Après réflexion sur la paroi, la composante
parallèle de cette impulsion est inchangée alors que la composant normale change de signe.
L'impulsion transférée à la paroi vaut donc
(1) (∆p )n = (p i )n − (p f )n = 2 p cosθ

Les photons d'impulsion p dans l'élément d 3p frappant l'élément dS pendant la durée dt sont
contenus dans un cylindre de volume dV = cdtdS cosθ . Leur nombre obtenu à partir de d 6 N r ,p
((1) et (6) de la section V.4.1), vaut
2 cosθ d 3p
(2) 3 cdtdS β ε
h e −1

L'impulsion totale transférée à la paroi vaut donc


(
(3) d 3 P )
n =
4c
h3
dtdS ∫ cos 2
θ sin θ d θ d φ
p 3 dp
∫ eβε −1
L'intégrale sur les angles dans le domaine 0 ≤ φ < 2π et 0 ≤ θ ≤ π / 2 correspondant au demi-
espace dans lequel se trouve le gaz de photons vaut 2π / 3 . En introduisant la variable ν , il vient
d'après (6) de la section V.4.2
8πh ∞ ν dν
( )
3
1 ∞ 1U
(4) d 3 P n = 3 dtdS ∫ β hν = dtdS ∫ uν dν = dtdS
3c 0 e −1 3 0 3V

La force de pression exercée sur l'élément dS s'obtient en appliquant la loi de Newton

( ) (
(5) d 2 F n =
d 3P n
dt
)
ce qui correspond à une pression

(6) P =
( d 2F z )
dS

La pression de radiation est donc P = U / 3V , résultat identique à (17) de la section V.4.1 obtenu à
partir des fonctions thermodynamiques.

V.4.3. Aspects expérimentaux


Le spectre du rayonnement émis, donné dans la section précédente, varie en fonction de la
température. Jusqu'à environ 500°C l'énergie est rayonnée presque entièrement dans le domaine
infrarouge et est très faible dans le domaine visible : à l'œil, le corps noir apparaît noir au sens
habituel de l'adjectif. A partir de 500°C, le rayonnement dans le domaine visible devient
perceptible à l'œil et le corps noir apparaît rouge sombre (700°C), rouge cerise (900°C), orange
clair (1200°C). Ces couleurs sont celles que l'on observe à travers un orifice aménagé dans un four.
Notons que la fréquence ν m rendant l'émittance spectrale eν maximum (la même que celle rendant
uν maximum), se trouve dans le domaine infrarouge jusqu'à environ 6000°C.
Par définition, un corps noir est un corps capable d'absorber toute l'énergie de rayonnement qui
l'atteint. Ceci est le cas d'un orifice percé dans la paroi d'un four car les photons entrant par cet
orifice sont réfléchis, diffusés et finalement absorbés par les parois. On réalise de façon approchée
d'autres corps noirs en déposant sur une plaque du noir de fumée ou du noir de platine. Les autres
corps n'absorbent qu'une fraction aν d'un rayonnement de fréquence ν qui les atteint : aν est
appelé facteur d'absorption. Lorsque ce facteur est constant dans le visible, le corps paraît gris à
l'œil en lumière naturelle ( a ≅ 0.8 pour le graphite). Lorsqu'il varie notablement dans le visible, le
corps paraît coloré. Ainsi le facteur d'absorption du cuivre est plus petit du coté rouge du spectre
visible ( aν = 0.28 pour λ = 0.6 µm et aν = 0.58 pour λ = 0.5µm ). Cette variation rend compte de
la couleur rouge du cuivre.

Le rayonnement des étoiles est constitué d'un spectre continu proche de celui du corps noir. Il est
caractéristique de la température de la couche externe de l'étoile (photosphère) qui en détermine la
"couleur" : étoiles rouges (~3000 K), étoiles bleues (~35000 K). Par ailleurs, ce spectre présente
des raies d'absorption dont la position et l'intensité permettent de déterminer les éléments chimiques
présents dans l'atmosphère de l'étoile ainsi que leur abondance.

Exercices

Constante solaire
La température de la photosphère du Soleil est voisine de 5950 K. Calculez la puissance du
rayonnement reçu par unité de surface placée en dehors de l'atmosphère terrestre
perpendiculairement aux rayons du Soleil (constante solaire). L'angle sous lequel le Soleil est vu de
la Terre est α = 32′ .

Solution
La puissance totale émise par le Soleil s'exprime en fonction de l'émittance E ((21) de la section
V.4.2) par
(1) P = 4πR 2 E = 4πR 2 × σT 4
R étant le rayon du Soleil. La puissance reçue par une surface S placée à la distance d du Soleil est
2
S R
(2) p = P × = S   σT 4
4πd 2
d

La constante solaire vaut donc


p 1
(3) = α 2σT 4 = 1540 W m −2 = 2.21 cal min −1cm − 2
S 4

La valeur mesurée de cette constante ( 2.0 cal min −1cm −2 ) est légèrement inférieure à la valeur
calculée, car le Soleil n'est pas un corps noir parfait.

Notons qu'une surface au sol de 1 mètre carré reçoit environ 1000 kWh par an, soit une énergie
correspondant à la chaleur de combustion de 85 kg de pétrole ou 0.085 tonne équivalent pétrole (1
tep = 42 × 10 9 J ). Il faut tenir compte en effet de l'absorption atmosphérique (environ 50), de
l'inclinaison du Soleil (facteur moyen 0.5) et d'un ensoleillement d'environ 2500 heures par an.

La formule ci-dessus permet de déterminer l'angle apparent α des étoiles par la mesure de leur
luminosité apparente (p/S) et de leur répartition spectrale dont la position du maximum donne T.
On peut en déduire leur rayon lorsqu'on connaît leur distance ou réciproquement.

V.4.4. Interaction entre matière et rayonnement

Equation du bilan détaillé


Nous allons maintenant considérer l'interaction du rayonnement électromagnétique avec les atomes
des parois du récipient qui le contient en nous limitant à un modèle simple ou chaque atome ne peut
se trouver que dans deux états quantiques différents 1 et 2. Sous l'influence du rayonnement, les
atomes sont excités dans l'état 1 à l'état 2 par absorption d'un photon de fréquence ν = (ε 2 − ε 1 ) / h
et, inversement, se désexcitent de l'état 2 à l'état 1 par émission d'un photon de même fréquence.
En faisant le bilan détaillé des échanges pendant la durée dt , nous pouvons écrire la loi de
variation des nombres N 1 et N 2 d'atomes dans chaque état, soit :
(1) dN 2 = − dN 1 = w12 N 1 dt − w21 N 2 dt
en effet, le terme w12 N 1 tient compte des transitions du niveau 1 vers le niveau 2 et le terme
− w21 N 2 des transitions inverses.

L'équation du bilan détaillé est très générale et peut s'appliquer à des systèmes plus complexes que
celui envisagé. Elle possède la propriété de linéarité dans la durée t et n'est pas invariante dans le
changement de sens du temps ( t → −t ) au contraire de l'équation de Newton ou de celle de
Schrödinger : elle décrit donc un phénomène irréversible.

Modèle d'Einstein du rayonnement thermique


A. Einstein, qui a proposé la théorie du bilan détaillé en 1917, admet que la probabilité d'absorption
par unité de temps w12 d'un photon de fréquence ν par un atome st proportionnelle à la densité
spectrale de rayonnement uν , soit :
(2) w12 = B12 uν

Il admet de plus que l'émission de photons par un atome est due à deux phénomènes :
 Une émission spontanée dont la probabilité par unité de temps A21 est constante.
 Une émission induite par le rayonnement dont la probabilité par unité de temps est
proportionnelle à uν , soit B21uν .
Au total, la probabilité d'émission d'un atome par unité de temps est alors :
(3) w21 = A21 + B21uν

Les coefficients B12 , A21 et B21 sont appelés coefficients d'Einstein.

L'équilibre thermique entre matière et rayonnement, explicité à partir du bilan détaillé, a permis à
Einstein de retrouver la forme de la loi de Planck. En effet, à l'équilibre, N 1 et N 2 restent constants
et égaux à N 10 et N 20 et l'équation du bilan (1) devient :
(4) w12 N 10 − w21 N 20 = 0
équation traduisant l'égalité des transitions 12 et 21. En reportant les expressions (2, 3) des
probabilités w, on obtient :
A21 / B12
(5) uν = 0
N 1 / N 20 − B21 / B12

Le rapport à l'équilibre N 10 / N 20 du nombre d'atomes dans chacun des niveaux s'obtient par
application de la statistique de Maxwell-Boltzmann (chaque atome étant bien localisé). Il vaut
N 10 β (ε −ε )
(6) 0 = e 2 1 = e β hν
N2

Par identification de l'expression précédente de uν avec la loi de Planck, Einstein a obtenu


A21 8πh 3
(7) B12 = B21 et = 3 ν
B12 c

Ces résultats ont été confirmés ultérieurement par la théorie quantique, d'après laquelle (nous
reviendrons sur cela) :
 Les probabilités élémentaires de deux processus inverses sont égales ( B12 = B21 ).
 Les coefficients sont donnés par
64π 4ν 3 8πh 3
(8) A21 = = =
2 2
3
p 21 et B12 B 21 2
p 21
3hc 3h
2
où p 21 est le carré de l'élément de matrice du moment dipolaire électrique de l'atome entre les
états 1 et 2.

Einstein a introduit la notion d'émission induite afin de retrouver la loi de Planck. En absence
d'émission induite ( B21 = 0 ), la densité spectrale d'énergie aurait la forme
A
(9) uν = 21 e − β hν
B12
correspondant à la loi de Wien qui ne rend pas compte de l'ensemble des faits expérimentaux.

L'importance relative des deux formes d'émission est donnée par le rapport
B u 1
(10) 21 ν = β hν
A21 e −1

Si hν / kT est grand, l'émission induite est négligeable. A l'opposé, si hν / kT est très petit,
l'émission induite est prépondérante. On rencontre ainsi l'émission induite spécialement dans le
domaine hertzien ( λ ≥ 30mm ). Rappelons que l'émission induite est le phénomène de base
intervenant dans les lasers.

Notons de plus que, dans la théorie de la quantification du champ électromagnétique, les émissions
spontanées et induites font partie d'un phénomène unique d'émission. On montre en particulier que :
2

w21 n + 1a+ n n +1
(11) = =
w12 n −1a n n

où n est l'état quantique du champ électromagnétique comprenant n photons permettant la


transition 12 et a et a + sont les opérateurs d'annihilation et de création de l'oscillateur
harmonique. Nous avions déjà vu cette loi à propos du comportement des bosons. A l'équilibre, on
a
w N0
(12) 21 = 10 = e β hν
w12 N 2
d'où l'on tire
1
(13) n = β hν
e −1
en accord avec la loi de distribution de Bose-Einstein.

V.4.5. Gaz moléculaires parfaits de bosons

Loi de répartition
Pour un gaz moléculaire composé de bosons sans interaction, la loi de répartition de Bose-Einstein
est
N 1
(1) ni = i = β (ε − µ )
gi e i
−1

La condition physique ni ≥ 0 entraîne ε i − µ ≥ 0 pour tout i. En particulier, si l'origine des


énergies est choisie égale à l'énergie de l'état fondamental ( ε 0 = 0 ), ce que nous ferons dorénavant,
le potentiel chimique doit être négatif : µ ≤ 0 . Nous discuterons plus loin de la détermination de la
valeur de µ qui ne peut pas en général se faire de façon explicite. Rappelons que lorsque ni << 1
pour tout i, la statistique de Bose-Einstein a pour limite celle de Maxwell-Boltzmann corrigée. Ceci
est le cas en particulier lorsque
(2) e − β µ >> 1 ou µ << − kT

Fonctions thermodynamiques en variables T, V, µ


D'après la méthode générale, nous devons déterminer le grand potentiel Ω :
[
(3) Ω(T , V , µ ) = kT ∑ g i ln 1 − e ]
β ( µ −ε i )

i
qui permet d'obtenir les propriétés thermodynamiques des gaz. Pour évaluer Ω lorsque les
molécules ne possèdent qu'un mouvement de translation ( ε = p 2 / 2m ), on passe en variables
continues. On obtient alors
kT
[ ]
(4) Ω = g s 3 ∫ d 3 rd 3p ln 1 − e β (µ −ε )
h
où g s = 2 J + 1 est la dégénérescence due au spin J des molécules.

L'intégration sur r ( d 3 r → V ) et sur les directions de p ( d 3 p → 4πp 2 dp ) ainsi que le changement


de variable x = βε = βp 2 / 2m conduit à
2πV 3/ 2 ∞
(
(5) Ω = kT 3 g s (2mkT ) ∫ x ln 1 − e βµ − x dx )
h 0

En introduisant les notations


(6) Z (T , V ) = g s 3 (2πmkT ) et f (ν ) = −
V 3/ 2 2 ∞
∫ ( )
x ln 1 − eν − x dx
h π 0

le grand potentiel s'écrit


(7) Ω(T ,V , µ ) = − kTZ (T ,V ) f (ν ) avec ν = µ / kT

Nous pouvons alors écrire les expressions de l'entropie S, de la pression P et du nombre N de


particules, quantités liées à Ω par la relation
(8) dΩ = − SdT − PdV − Ndµ
d'où, en tenant compte des expressions (6, 7) de Z, de ν et de f (ν ) , nous tirons :
 ∂Ω  5 
(9) S = −  = kZ  f (ν ) − νf ′(ν )
 ∂T  µ ,V 2 
 ∂Ω  Ω
 = kT f (ν ) = −
Z
(10) P = −
 ∂V  T , µ V V
 ∂Ω 
(11) N = −  = Zf ′(ν )
 ∂µ  T ,V
Des expressions précédentes, nous tirons également celle de l'énergie interne
(12) U = Ω + TS + Nµ = kTZf (ν ) = PV
3 3
2 2
que l'on peut récrire sous la forme
2
(13) PV = U
3

Cette expression, déjà obtenue en statistique de Maxwell-Boltzmann corrigée est générale pour un
gaz sans interaction pour lequel l'énergie a la forme ε = p 2 / 2m , et ceci quelle que soit la
statistique à laquelle il obéisse. En effet, dans les diverses statistiques, l'expression de Ω garde la
forme (7) et seule l'expression de la fonction f (ν ) est modifiée.

Enfin, nous pouvons calculer la capacité calorifique à volume constant :


 ∂U  3 5  ∂ν  
(14) CV =   = k  Zf (ν ) + TZf ′(ν )  
 ∂T  N ,V 2  2  ∂T  N ,V 

Pour calculer ∂ν / ∂T , nous dérivons l'expression (11) par rapport à T en maintenant N et V fixés :
 ∂ν 
f ′(ν ) + Zf ′′(ν ) 
3Z
(15) 0 =
2T  ∂T  N ,V
en reportant ∂ν / ∂T dans l'expression de CV , on trouve
3 5 3 f ′(ν )  3  5 f (ν ) 3 f ′(ν ) 
2
(16) CV = kZ  f (ν ) −  = Nk −
2 2 2 f ′′(ν )  2  2 f ′(ν ) 2 f ′′(ν ) 

Description de la fonction f (ν )
On montre en analyse que la fonction f (ν ) introduite en (6) prend, pour ν < 0 , les formes
équivalentes suivantes :
(17) f (ν ) = −
2


( )
x ln 1 − eν − x dx =
4

∞ x3/ 2
e x −ν − 1
dx
π 0
3 π 0


e nν e 2ν e 3ν
(18) f (ν ) = ∑ 5/ 2
= eν
+ + +L
n =1 n 2 5 / 2 35 / 2

la figure ci-dessous représente la fonction f (ν ) ainsi que ses deux premières dérivées.

Elle permet d'évaluer numériquement les fonctions thermodynamiques obtenues ci-dessus.

A la limite ν → −∞ , qui correspond à la limite de Maxwell-Boltzmann corrigée, on a f (ν ) ≅ eν .


La figure ci-dessus montre que cette limite est pratiquement atteinte pour ν ~ −2 .

A la limite ν → 0 , la fonction f (ν ) prend l'expression approchée


(19) f (ν ) = 2.363(− ν ) + 1.341 + 2.612ν − 0.730ν 2 − 0.0347ν 3 + O(ν 4 )
3/ 2

faisant apparaître que


(20) f (0) = ζ (5 / 2) et f ′(0) = ζ (3 / 2)
conformément à (6).

Fonctions thermodynamiques en variables T, V, N


Pour substituer dans l'expression des fonctions thermodynamiques la variable N à la variable µ (ou
ν ), il faut résoudre en ν l'équation (11) :
Nh 3
(21) f ′(ν ) = α ≡
N
=
Z (T , V ) g sV (2πmkT )3 / 2

Cette résolution peut se faire graphiquement à l'aide de la figure ci-dessus. On peut également
expliciter f ′(ν ) en dérivant l'expression (18) de f (ν ) , soit
(22) α = f ′(ν ) = eν + 2 −3 / 2 e 2ν + 3 −3 / 2 e 3ν + L
pour obtenir eν en fonction de α par inversion, ce qui donne
(23) eν = α − 2 −3 / 2 α 2 + 0.058α 3 + L

On en déduit l'expression du potentiel chimique


[ ]
(24) µ = kT ln eν = kT ln α − 2 −3 / 2 α + L avec α = N / Z
ainsi que celle de f (ν ) :
(25) f (ν ) = eν + 2 −5 / 2 e 2ν + L = α − 2 −5 / 2 α 2 + L

Ces résultats permettent d'exprimer toutes les fonctions thermodynamiques en variables T, V et N.


Par exemple, l'énergie libre, fonction énergétique caractéristique des variables T, V, N, s'écrit :
F = Ω + Nµ + − kTZf (ν ) + Nµ
(26)  Z N 
= − NkT 1 + ln  + 5 / 2 + L
 N 2 Z 
De même, à partir des équations (9) à (16) ou en dérivant F, on a :
 ∂F   5 Z N 
(27) S = −  = Nk  + ln  − 7 / 2 + L
 ∂T  N ,V  2 N 2 Z 
 ∂F  NkT  N 
(28) P = −  = 1 − 5 / 2 + L
 ∂V  T , N V  2 Z 
3  N 
(29) U = F + TS = NkT 1 − 5 / 2 + L
2  2 Z 
 ∂U  3  N 
(30) CV =   = Nk 1 + 7 / 2 + L
 ∂T  N ,V 2  2 Z 

Dans le cas limite α = N / Z << 1 , ces résultats rejoignent ceux obtenus en statistique de Maxwell-
Boltzmann corrigée dans laquelle les effets quantiques liés à la nature des particules sont négligés.
Compte tenu de l'expression (21) de α , cette limite est atteinte lorsque
1/ 3
V  h
(31)   >> λT ≡
N (2πmkT )1 / 2
c'est-à-dire lorsque la distance moyenne entre les particules est très supérieure à la longueur d'onde
thermique λT du gaz. Cette quantité est appelée ainsi car elle est de l'ordre de grandeur de la
longueur d'onde λ = h / p associée à une particule de masse m et d'énergie cinétique 3kT / 2 .

Exercices

Pression et capacité calorifique d'un gaz de bosons


On considère un gaz parfait de bosons de spin zéro, de masse molaire M = 4 g mole −1 et de
volume molaire v = 150 cm 3 mole −1 à la température T = 2.1 K. Déterminez sa pression et sa
capacité calorifique molaire à volume constant d'abord par une méthode graphique utilisant la
figure de la section V.4.5, ensuite par un calcul approché utilisant les développements limités (28)
et (30) de la section V.4.5.
Solution
Nous devons déterminer tout d'abord la valeur de α à partir de (21) de la section V.4.5 :
3/ 2
N N  N2 h 2 
(1) α = =   = 0.877
Z v  2πMRT 

En résolvant graphiquement l'équation (21) f ′(ν ) = α , on lit sur la figure :


(2) ν = −0.46 f (ν ) = 0.74 f ′′(ν ) = 1.27

En reportant ces résultats dans les relations (10) et (16) de la section V.4.5, on obtient
RT f (ν )
P= = 9.82 × 10 4 Pa = 0.97 atm
v α
(3)
3  5 f (ν ) 3 α 
cV = R  −  = 13.4 J K −1 mole −1
2 2 α 2 f ′′(ν ) 

En nous limitant aux termes linéaires en α = N / Z dans les développements (28) et (30) de la
section V.4.5, nous trouvons
P = 1.15 atm× (1 − 0.16 ) = 0.97 atm
(4)
cV = R × (1 + 0.08) = 13.4 J K −1mole −1
3
2

La résolution graphique et le calcul par développement limité au premier ordre en α conduisent à


des résultats identiques. On constate que la pression d'un gaz de bosons dans ces conditions est
inférieure à la pression P = RT / v = 1.15 atm donnée par l'équation d'état des gaz parfaits résultant
de la statistique de Maxwell-Boltzmann corrigée. La nature quantique des particules (bosons)
entraîne un abaissement de la pression ainsi que le ferait une interaction attractive.
V.4.6. Condensation d'Einstein

Potentiel chimique pour α > α c


Nous avons vu ci-dessus comment on peut passer des variables T, V, µ aux variables T, V, N en
utilisant la grandeur α = N / Z (T ,V ) déterminée par l'état du gaz. Cependant, lorsque α dépasse la
valeur
(1) α c ≡ f (0 ) = 2.612
l'équation déterminant ν (ou µ = kTν )
(2) f (ν ) = α
n'a alors plus de solution. Ce résultat est contraire au sens physique car, d'une part, rien ne permet
de borner la valeur de α et, d'autre part, le potentiel chimique du gaz doit avoir une valeur définie.

Cette apparente contradiction a pour origine la transformation mathématique permettant de


remplacer la somme discrète sur les niveaux d'énergie par la somme continue. Une telle
transformation est justifiée tant que la fonction sommée a un comportement "raisonnable". Or,
lorsque µ tend vers zéro, le premier terme de la somme dans le grand potentiel, égal à
( )
kT ln 1 − eν , diverge (nous prendrons dorénavant g s = 1 correspondant à un spin J = 0, et nous
tiendrons compte de ce que le niveau fondamental de translation est non dégénéré, soit g 0 = 1 ).
Ceci correspond au fait que le nombre de particules sur le niveau fondamental
1
(3) N 0 = −ν (ν = µ / kT )
e −1
se comporte comme − 1 / ν lorsque ν → 0 − , c'est-à-dire qu'une fraction importante de particules
occupe le niveau fondamental ε 0 = 0 .

Il faut alors compter explicitement la contribution de ce niveau et passer à la limite continue


seulement pour les autres niveaux. Nous obtenons ainsi
(4) Ω = kT ln (1 − eν ) + 3 ∫ d 3rd 3p ln (1 − eν − β ε )
kT ∞
h ε1
où ε 1 est l'énergie du premier niveau excité. L'intégrale peut alors être transformée comme avant.
De plus, la borne inférieure x1 = βε1 = ε 1 / kT de cette nouvelle intégrale est extrêmement petite et
peut être prise égale à zéro. La nouvelle expression de Ω pour ν → 0 − est alors :
( )
(5) Ω = kT ln 1 − eν − kTZf (ν )
et l'équation déterminant µ devient
 ∂Ω 
+ Zf ′(ν )
1
(6) N = −  = −ν
 ∂µ  T ,V e − 1
soit encore
(7) f ′(ν ) +
1 1

Z e −ν − 1

Lorsque le gaz est tel que α < α c , cette équation se ramène à la relation (2) utilisée précédemment.
En effet, à la limite thermodynamique ( N → ∞ , V → ∞ , V / N étant fixé), la fonction Z tend vers
l'infini et, ν étant différent de zéro, le second terme du premier membre s'annule.

Au contraire, lorsque α > α c = f ′(0 ) , la relation (7) n'a de solution que lorsque ν tend vers zéro à
la limite thermodynamique. On a ainsi
(8) f ′(0 ) +
1 1 1
= α d'où − ν =
Z × (− ν ) N 1 −α c /α

Sous cette forme, on trouve que ν s'annule à la limite thermodynamique, ce qui justifie le fait que,
pour α > α c , on remplace f (ν ) et ses dérivées par f (0) , f ′(0) et f ′′(0) .

Fonctions thermodynamiques pour α > α c


Nous déterminons maintenant les fonctions thermodynamiques dans le domaine α > α c à partir de
l'énergie libre F (T ,V , N ) . Cette fonction qui s'écrit
[ (
(9) F = Ω + Nµ = −kTZf (ν ) + kT ln 1 − eν + Nν) ]
devient à la limite thermodynamique N × lim N →∞ F / N , soit :

(10) F = − kTZf (0 ) = −C (kT )


5/ 2
V avec C = f (0 )
(2πm )3 / 2
h3

De cette expression, on déduit :


 ∂F 
= kC (kT ) V
5
(11) S = −
3/ 2

 ∂T V , N 2
 ∂F 
(12) P = − = C (kT )
5/ 2

 ∂V T ,N

(13) U = F + TS = C (kT ) V = PV
3 5/ 2 3
2 2
 ∂U 
= kC (kT ) V
15
(14) CV = 
3/ 2

 ∂T V , N 4

Ces relations remplacent pour α > α c celles que nous avons vues pour α < α c . Notons que ces
grandeurs s'annulent au zéro absolu, en particulier l'entropie et la capacité calorifique en accord
avec le troisième principe.

Changement de phase
Nous venons de voir que les grandeurs thermodynamiques possèdent deux expressions différentes
suivant la valeur de α (T ,V , N ) par rapport à celle de α c . Ce fait correspond à l'existence de deux
phases différentes notées I ( α < α c ) et II ( α > α c ), dont les domaines respectifs sont séparés par la
courbe définie par
Nh 3
(15) α ≡ = α c = 2.612
V (2πmkT )
3/ 2
Dans chacun des domaines, les fonctions thermodynamiques ont des expressions analytiques
différentes. Ceci est le cas de l'équation d'état et de la capacité calorifique molaire cV représentées
sur la figure ci-dessous.

Pour chaque valeur du volume molaire v, le changement de phase I ⇔ II se produit à la


température
2/3
h2  N 
(16) Tc (v ) =  
2πmk  α c v 
, où N est le nombre d'Avogadro, et à la pression, donnée par (12)
5/3
1.341h 2  N 
(17) Pc (v ) = C (kTc ) =  
3/ 2

2πm  α cv 
Dans la phase II, la pression varie comme T 5 / 2 et est indépendante du volume du gaz. Cette
propriété est analogue à celle qui existe lors de la condensation d'un gaz en liquide, d'où le nom de
condensation d'Einstein (1925) donné à la transformation III. Cependant, lors de la condensation
d'Einstein, il n'y a pas coexistence de deux phases séparées dans l'espace et se transformant
progressivement l'une dans l'autre, mais changement des propriétés de la substance dans la
transition I ⇔ II . Selon la terminologie d'Ehrenfest, il s'agit d'un changement de phase d'ordre
supérieur à 1, et plus précisément, d'ordre 3. En effet, ce sont les dérivés troisièmes de l'enthalpie
libre G ≡ Nµ qui subissent des discontinuités lors de la transition (point anguleux dans la courbe
cV (T ) ) alors que les dérivées d'ordre un (entropie, volume) et deux (capacité calorifique,…) restent
continues.

Dans la terminologie moderne (L.D. Landau, 1937) les changements de phase d'ordre supérieur à 1
sont caractérisés par un paramètre d'ordre dont la valeur, nulle dans la phase I, stable à plus haute
température, augmente progressivement de 0 à 1 dans la phase II lorsque la température s'abaisse de
T = Tc jusqu'au zéro absolu. Dans la condensation d'Einstein, le rôle du paramètre d'ordre est tenu
par la fraction N 0 / N des particules se trouvant sur le niveau fondamental. En effet, pour T > Tc
(ou α < α c ), le potentiel chimique µ est non nul et le rapport
N0 1 1
(18) = × −β µ
N N e −1
est nul à la limite thermodynamique. Par contre pour T < Tc (ou α > α c ), le potentiel chimique
µ = kTν tend vers zéro (8) et le rapport
N 1 α
(19) 0 = = 1− c
N N × (− βµ ) α
prend une valeur finie non nulle que l'on peut écrire sous la forme
3/ 2
N T 
(20) 0 = 1 −  
N  Tc 
On voit ainsi qu'au-dessous de la température Tc , le niveau fondamental est peuplé par une fraction
finie non négligeable de particules.

Sous cet aspect, la condensation d'Einstein est une condensation sur le niveau d'énergie
fondamental, ou encore dans l'espace des impulsions, alors que la condensation d'un gaz en liquide
se produit dans l'espace réel.

On peut vérifier que le niveau fondamental est le seul à être peuplé de façon significative en
calculant la fraction N 1 / N de particules sur le premier niveau excité ( ε = ε 1 ~ 10 −20 eV pour les
niveaux d'énergie de translation typique de l'hélium dans un récipient). Pour T < Tc , cette fraction
N1 g1 g1
= ≅
(21)
N ( )
N e − 1 Nβε 1
β ε1

est nulle à la limite thermodynamique et vaut environ 10 −8 pour N = 6 × 10 23 et T = 1K. Il en est de


même pour les autres niveaux excités. Toutefois, le nombre total de particule sur ces niveaux
N ′(T ,V , N )
3/ 2
T 
(22) N ′ = N − N 0 = N  
 Tc 
représente une faction finie non négligeable des particules du gaz.

Il est intéressant de noter que l'on peut récrire les fonctions thermodynamiques (10) à (14) sous la
forme
F = − aN ′kT
5
S= aN ′k
2
N ′kT
(23) P = a
V
3
U = aN ′kT
2
15
CV = aN ′k
4
avec a = f (0) / f ′(0) = 0.513 . Il est remarquable que toutes ces fonctions ne dépendent que du
nombre N ′ de particules "non condensées". On peut interpréter ce résultat en notant que seules ces
particules apportent une contribution à l'énergie interne et à la pression, cette contribution étant
environ la moitié de ce qu'elle est pour un gaz de Maxwell-Boltzmann.

Exercices

Application de la condensation d'Einstein à l'hélium 4


A quelle température se produirait la condensation d'Einstein pour l'hélium liquide si les
interactions entre atomes étaient négligeables ? On a M = 4 g mole −1 et on prendra pour masse
volumique ρ = 0.14 g cm −3 .
Solution
La température critique du changement de phase, donnée par (16) de la section V.4.6, vaut pour
l'hélium Tc = 3.07 K . Cette valeur est en assez bon accord avec la valeur expérimentale de la
température du changement de phase observé dans l'hélium liquide à 2.17 K. La différence provient
du fait que l'on a négligé les interactions.

Exercices de compréhension
1. Vérifier, en intégrant par parties, l'égalité des deux premiers membres de (10) de la section
V.4.1.
2. On considère un gaz de "photons" à 2 dimensions contenu dans un domaine d'aire A. Montrez
que son énergie libre F et le nombre de photons à l'équilibre sont donnés par
4πζ (3) A
(1) F = − 2 2
(kT )3
h c
et
4πζ (2 )A
(2) N = 2 2
(kT )2
h c
3. Quelle est la valeur de la pression de radiation P à T = 300 K et T = 10 K ? A quelle
6

température a-t-on P = 1 atm ?

Réponses : 2.0 × 10 −11 atm , 2500 atm, 1.4 × 10 5 K .


4. Montrez que la loi de Planck en variable λ s'écrit
1 dU λ 8πhc 1
(3) u λ = = 5 β hc / λ
V dλ λ e −1

Vérifiez que la longueur d'onde λm rendant u λ maximum ne correspond pas à la fréquence ν m


rendant uν maximum.

Réponse : on a λ mν m = 0.568c et non c.


5. Montrez que dans une transformation isentropique on a PV 4 / 3 = constante pour le rayonnement
thermique et PV 5 / 3 = constante pour un gaz moléculaire de bosons.
6. Montrez que la courbe d'équilibre (17) de la section V.4.6 séparant les phases I et II d'un gaz de
bosons est isentropique.
7. Calculez la capacité calorifique molaire cV d'un gaz de bosons pour T = Tc . On vérifiera qu'on
obtient la même valeur pour les deux phases.

Réponse : cV / R = 15 f (0 ) / 4 f ′(0 ) ≅ 1.92 .


8. Montrez qu'un gaz de bosons à 2 dimensions ne présente pas de condensation d'Einstein.

V.5. L'hélium
Depuis sa première liquéfaction effectuée par H. Kamerlingh-Onnes en 1908, l'hélium a ouvert un
nouveau domaine de température aux investigations des physiciens. Ce domaine s'est révélé comme
étant riche en phénomènes imprévus (supraconductivité, superfluidité, existence de liquide au zéro
absolu) manifestant des effets quantiques à l'échelle macroscopique.

L'hélium possède deux isotopes stables : He 4 (~100%) et He 3 ( ~ 1.3 × 10 −4 % ). Le premier est


constitué d'atomes du type boson et le second d'atomes du type fermion. Les propriétés particulières
de superfluidité de l'hélium He 4 sont dues à sa nature quantique. En conséquence, nous discuterons
principalement des propriétés de cet isotope, intimement liés à la condensation d'Einstein.
Cependant, en raison des interactions entre atomes, la théorie de la condensation d'Einstein doit être
reformulée, et l'introduction de la notion d'excitations élémentaires par L.D. Landau (1941) a
permis de donner une interprétation des propriétés de l'hélium en dessous de 2K, y compris ses
propriétés de transport.

V.5.1. Propriétés de l'hélium

Diagramme des phases


On connaît six phases de l'hélium He 4 :
 Trois phases solides : une phase hexagonale compacte stable à basse température, une phase
cubique à faces centrées n'existant qu'à très haute pression (P > 1000 atm) et une phase cubique
centrée occupant une très petite surface du plan (T, P) au voisinage de T = 1.6K et P = 28 atm.
 Deux phases liquides, notées He I et He II (voir la figure (a) ci-dessous).
 Une phase gazeuse.

L'hélium est la seule substance qui présente une phase liquide au zéro absolu, la phase solide
n'existant que pour des pressions supérieures à 25 atm. Cette propriété est liée au fait que l'hélium
est la plus petite et la plus légère des molécules monoatomiques. En effet, d'une part, les moments
dipolaires électriques induits et les forces de van der Waals qui en résultent sont faibles et, d'autre
part, l'énergie de vibration du solide au zéro absolu est importante, de sorte que la substance ne peut
exister à l'état solide que sous forte pression. La température d'ébullition normale TE et la
température critique TC particulièrement basses (voir le tableau ci-dessous) s'interprètent de même.
Notons que ces propriétés ne font pas intervenir la nature quantique des atomes d'hélium et sont, de
ce fait, communes aux deux isotopes He 4 (bosons) et He 3 (fermions).
T (K) P (atm) (
ρ kg m −3 )
He 4 E 4.22 1 125
C 5.20 2.3 67.5
λ 2.17 4.9 × 10 −2 146
λ′ 1.76 30 180

He 3 E 3.19 1 59
C 3.32 1.15 41

L'hélium présente également la propriété remarquable de posséder plusieurs phases liquides.


L'isotope He 4 existe sous une phase liquide "normale" (He I) et se transforme aux environs de 2K
(ligne λ ) en une phase (He II) présentant des propriétés de "superfluidité". Ce changement de
phase III est lié à la nature quantique de l'isotope He 4 (boson) et, dans le même domaine de
température, l'isotope He 3 (fermion) ne devient pas superfluide. Cependant, à beaucoup plus basse
température (T~3mK), l'hélium He 3 présente, en champ magnétique nul, deux phases superfluides
notées A et B. Dans ces phases, l'association d'atomes He 3 équivaut en effet à des bosons. Nous ne
considérerons dans la suite que les propriétés du fluide de bosons He 4 .

Changement de phase He I  He II. Point lambda


L'hélium He 4 liquide a joué et joue toujours le rôle de thermostat dans le domaine des basses
températures. Obtenu par liquéfaction à 4.2K à pression atmosphérique, il permet d'atteindre
environ 1K par réduction de sa pression de vapeur saturante (hélium pompé). De ce fait, un grand
nombre de propriétés de l'hélium ont été mesurées le long de sa courbe de vaporisation. Il en est
ainsi de la masse volumique ρ et de la capacité calorifique molaire c s sous pression de vapeur
saturante représentées sur la figure (b) ci-dessus. Notons que l'on a, en considérant l'entropie
molaire s :
 ds   ∂s   ∂s   dP 
c(sat ) ≡ c s = T   = T  + T   
 dT  sat  ∂T  P  ∂P  T  dT  sat
(1)
 ∂v   dP   dP 
= cP − T     = c P − αTv 
 ∂T  P  dT  sat  dT  sat
et que dans le domaine T < 2K, on a c s ≅ c P ≅ cV à quelques millièmes près.

La figure (b) ci-dessus montre l'existence d'un changement brusque des propriétés de l'hélium
liquide au "point lambda" de température Tλ = 2.17 K , appelé ainsi en raison de la similitude (avec
un peu d'imagination) de la courbe représentant c s avec la lettre λ . Ce changement manifeste de
l'existence d'une transition d'ordre supérieur à 1 entre les deux phases liquides car les dérivées
premières de l'enthalpie libre G (volume et entropie) restent continues : continuité de ρ et absence
de chaleur latente pour la transformation He I  He II. On n'observe effectivement pas coexistence
de deux phases liquides, mais transition des propriétés du liquide. Ce phénomène critique est
illustré par le fait que les dérivées secondes de G (coefficient de dilatation α s , compressibilité
adiabatique et capacité calorifique c s sur la courbe de saturation) divergent logarithmiquement au
point λ (figure ci-dessus). On a par exemple :
( )
α s 10 −2 K −1 = 0.247 + 1.684 log T − Tλ (T < Tλ )
α (10 K ) = 3.792 + 1.688 log T − T (T > T )
s
−2 −1
λ λ

c (J K mole ) = 18.2 − 12.00 log T − T


s
−1 −1
(T < T )
λ λ

c (J K mole ) = −2.60 − 12.00 log T − T


s
−1 −1
(T > T )
λ λ
(il s'agit ici des logarithmes en base 10)
(voir la figure ci-dessous).

Les deux phases liquides He I et He II sont séparées dans le plan (T, P) par une ligne critique λλ ′
(figure (a) ci-dessus) en tout point de laquelle se produit une transition similaire. Cette ligne est
limitée par les deux points triples λ et λ ′ (voir le tableau ci-dessus).
Propriétés de transport de l'hélium superfluide He II

Conduction thermique
Lorsque l'on réduit par pompage la pression de l'hélium liquide à partir de 4.2 K, celui-ci se
refroidit en présentant une ébullition importante dans sa masse. Au passage du point lambda, le
phénomène d'ébullition cesse instantanément, le liquide devient tranquille, la vaporisation ne se
produisant plus qu'en surface. Ce fait peut être interprété par l'accroissement considérable de la
conductivité thermique K dont la valeur, voisine de 2 × 10 −4 W cm −1 K −1 dans la phase I, est
multipliée dans la phase II par un facteur supérieur à 10 3 et, dans certaines conditions, voisin de
10 6 , faisant de He II le meilleur conducteur de chaleur connu.
Le coefficient de conductibilité (ou conductivité) thermique K d'une substance est défini comme le
coefficient de proportionnalité de la loi de Fourier
(2) J = − K∇T
reliant la densité de courant de chaleur J (quantité de chaleur par unité de surface traversée et par
unité de temps) au gradient de température existant dans la substance. Dans la phase I de l'hélium,
la loi de Fourier est bien vérifiée, mais elle ne l'est pas dans la phase II où le rapport J / ∇T
dépend de nombreux facteurs (J, ∇T , aire de la surface traversée dans le tube capillaire,…). On
interprète ces phénomènes de transport de chaleur par l'existence de mouvements de convection
tourbillonnaires se produisant même dans des capillaires. En d'autres termes, le transport de chaleur
s'accompagne alors d'un transport de matière et est donc intimement lié au phénomène de
superfluidité que nous allons discuter maintenant.

Superfluidité
Le coefficient de viscosité η de l'hélium liquide se comporte de façon remarquable. Dans la phase
I, η de l'hélium liquide est déjà très faible (de l'ordre de 3.5 × 10 −5 poise = 3.5 × 10 −6 kg m −1s −1 ) par
comparaison à l'eau ( 1.3 × 10 −2 poise ). De plus, contrairement aux autres liquides, cette viscosité
décroît quand la température décroît. La phase II est encore plus remarquable à ce point de vue,
l'écoulement du fluide dans des tubes capillaires se faisant sans viscosité. Ce phénomène est appelé
superfluidité.

Pour éclairer la discussion qui va suivre, rappelons la définition et les méthodes de mesure du
coefficient de viscosité η . Considérons un fluide compris entre deux plans parallèles
perpendiculaires à un axe Oz.
L'un est maintenu fixe et l'autre se déplace à vitesse constante Vx parallèlement à lui-même. Les
couches fluides au contact des plans ont les mêmes vitesses que ceux-ci et, en régime permanent, la
vitesse v x des couches ne dépend que de z et varie de façon linéaire ( ∂v x / ∂z = cte ). Pour entretenir
le mouvement du plan mobile et maintenir fixe l'autre plan, tous deux étant soumis aux forces de
viscosité, il faut leur appliquer une force tangentielle parallèle à Ox. La tension (force par unité de
surface) τ zx à appliquer au plan mobile est reliée au gradient de vitesse par la loi
phénoménologique
∂v
(3) τ zx = η x
∂z

Le coefficient de proportionnalité η s'appelle coefficient de viscosité dynamique.

Pour en mesurer la valeur, on emploie plusieurs méthodes. La plus commode consiste à mesurer le
débit en volume Q du fluide à travers un tube cylindrique de rayon R et de longueur l sous une
différence de pression ∆P . La loi de Poiseuille
π∆P 4
(4) Q = R
8ηl
permet la détermination de η . Une autre méthode utilise le viscosimètre à rotation consistant en
deux cylindres concentriques de rayons R1 et R2 et de hauteur h, le premier tournant à la vitesse
ω1 et le second fixe. La couple à exercer pour entretenir le mouvement est donné par
R12 R22
(5) Γ = 4πηω 1 h
R22 − R12
formule permettant la mesure de η .

Toutes les méthodes employées donnent des résultats concordants pour le coefficient η de tous les
fluides, mais il n'en est pas de même pour He II : le coefficient déterminé par la loi de Poiseuille
apparaît inférieur à 10 −11 poise alors que celui obtenu par une méthode de rotation est de l'ordre de
2 × 10 −5 poise, valeur voisine de celle de l'hélium I. Le modèle des deux fluides permet d'interpréter
cette discordance d'un facteur 10 6 entre les valeurs trouvées et d'expliquer le phénomène de
superfluidité.

Le comportement de l'hélium dans l'expérience de Daunt et Mendelssohn (1939) est associé à sa


superfluidité. Dans cette expérience, on commence par immerger partiellement un vase de Becher
dans un bain d'hélium II (figure (a) ci-dessous).
En quelques minutes le vase, initialement vide, se remplit de liquide jusqu'à l'égalisation des
niveaux. Si on soulève alors le vase (figure (b) ci-dessus), l'écoulement se fait en sens opposé. Si
finalement, on sort le vase du bain d'hélium, celui-ci se met à goutter jusqu'à être vide (figure (c) ci-
dessus). L'existence d'une pellicule d'hélium sur les parois du vase permet d'interpréter cette
expérience. En effet, la pellicule relie de façon continue les deux niveaux et agit comme un siphon.
Bien que l'épaisseur du film soit de l'ordre de 200 angströms, l'hélium étant superfluide peut
s'écouler sans résistance.

Effet fontaine
Lorsqu'une substance chimique est en équilibre, son potentiel chimique (enthalpie libre molaire) a
la même valeur en tous les points. Si l'on fait varier localement pendant une courte durée les
conditions de température et de pression, l'enthalpie libre molaire au point considéré varie selon la
relation
(6) dg = − sdT + vdP

Dans les liquides normaux, le retour à l'équilibre mécanique (égalité des pressions) est rapide alors
que le retour à l'équilibre thermique (égalité des températures) est plus lent car il se fait par
conductibilité thermique. En conséquence, le retour de g à sa valeur d'équilibre est lent.

Dans l'hélium II, la très grande conductivité due à la superfluidité entraîne au contraire une
égalisation instantanée des potentiels chimiques. De ce fait, une augmentation locale de
température est compensée aussitôt par un accroissement de pression tel que dg = 0 , soit
dP s
(7) =
dT v

Ceci constitue l'effet thermomécanique observé pour la première fois par Allen et Jones (1938) à
l'aide du dispositif schématisé sur la figure (a) ci-dessous.
Lorsqu'un courant électrique traversant une résistance accroît localement la température,
l'augmentation de pression qui en résulte se manifeste par une élévation du niveau de l'hélium dans
le tube. A 1.5 K, la valeur de dP / dT calculée à partir de s et de v correspond à une élévation de
l'hélium de 2,0 cm par millikelvin. Cette valeur élevée permet la réalisation d'une expérience
spectaculaire appelée effet fontaine.(figure (b) ci-dessus). On élève la température de l'hélium par
absorption d'énergie lumineuse par la poudre d'émeri. La surpression qui en résulte produit un jet
d'hélium jaillissant du tube surmontant l'ampoule. Quand le jet est élevé, l'hélium ne retombe pas
car il se vaporise dans la partie supérieure, plus chaude, du cryostat.

V.5.2. Modèle de London et modèle de Tisza


En 1924, Einstein découvrait qu'un gaz parfait de bosons subit à basse température un changement
de phase, appelé par la suite condensation d'Einstein. Cette condensation fut regardée longtemps
comme n'ayant aucune application. Ce n'est d'ailleurs que récemment des condensats de Bose-
Einstein ont pu être obtenu avec des gaz à l'aide de techniques poussées de refroidissement par laser
à des températures de l'ordre du milli ou du micro-Kelvin. En 1938, F. London appliqua à l'hélium
liquide le phénomène de condensation d'Einstein et suggéra que les propriétés de transport
particulières de ce fluide sont liées à sa nature quantique. Il détermina la température de transition
( TC = 3.1K ) et montra que la capacité calorifique passe, à cette température, par un maximum
anguleux. L'accord avec les résultats expérimentaux était en faveur de ce modèle dans lequel
cependant les interactions sont négligées.

Utilisant les résultats de London, L. Tisza (1938) introduit l'hypothèse que l'hélium II est constitué
d'un mélange de deux fluides : l'un, "normal", aux propriétés prolongeant celles de l'hélium I et
l'autre, "superfluide", qu'il identifiait à l'ensemble des atomes condensés sur le niveau fondamental.
Dans ce modèle des deux fluides, la composante superfluide existe dans la proportion 1 − (T / TC )
3/ 2

variant de 0 pour la température de transition, jusqu'à la valeur 1 pour le zéro absolu.

Ce modèle donne une interprétation simple du phénomène de superfluidité. En effet, la composante


superfluide ayant une énergie nulle, ne peut en dissiper dans des frottements, ce qui justifie son
nom. Ceci explique le désaccord entre les mesures du coefficient de viscosité η obtenues par la
méthode de Poiseuille et celles des viscosimètres à rotation. Dans la première, la composante
superfluide s'écoule librement dans le tube, alors que, dans la seconde, les cylindres frottent sur la
composante normale. En d'autres termes, dans la première, on mesure
1 1 1
(1) = +
η η super η normal
d'où η = 0 si η super = 0 et, dans la seconde,
(2) η = η super + η normal = η normal

Une expérience intéressante, due à Daunt et Mendelssohn (1939), trouve une explication directe
dans le modèle des deux fluides. Un récipient dont le fond est constitué d'un grand nombre de
capillaires est rempli d'hélium II. Le fluide s'écoulant par les capillaires contient principalement la
composante superfluide et, en vertu de la relation N 0 / N = 1 − (T / Tc ) , est plus froid que le
3/ 2

liquide restant dont la température, à l'opposé, s'élève. Cette expérience illustre l'effet
mécanothermique, inverse de l'effet thermomécanique étudié ci-dessus. On pourrait penser que ce
phénomène puisse être utile pour l'obtention de basses températures. Cependant, la capacité
calorifique de l'hélium à ces températures est trop faible pour qu'on l'utilise comme thermostat.

Les modèles de London et Tisza sont aujourd'hui abandonnés au profit de la théorie de Landau. Ils
ont toutefois permis de prédire et d'interpréter qualitativement un grand nombre de propriétés de
l'hélium II.

V.5.3. Théorie de Landau


Afin d'interpréter les propriétés de l'hélium dans sa phase superfluide He II, L. Landau (1941)
proposa une théorie dans laquelle le système d'atomes d'hélium en mouvement est remplacé par un
fluide ayant les propriétés de l'hélium au zéro absolu auquel se superpose un système d'excitations
élémentaires. Cette méthode, semblable à la théorie des phonons dans les solides, est utilisée dans
de nombreux autres domaines de la physique.

Landau a proposé une forme particulière pour la relation de dispersion ε ( p ) de ces excitations. Des
expériences de diffraction de neutrons sur l'hélium II ont permis la détermination de cette relation
(voir la figure (a) ci-dessous) qui, ainsi que l'avait prévu Landau, comporte deux domaines.
Dans le premier domaine, pour p / h < 0.6Å -1 , la relation est linéaire :
(1) ε = cp
où c = 2.37 ms −1 coïncide avec la valeur de la vitesse du son dans l'hélium II. Par analogie avec le
cas des solides, on appelle ce domaine zone des phonons. Dans le second domaine, pour
p / h > 1Å -1 , la relation de dispersion présente un minimum au voisinage duquel elle a une forme
parabolique suivant l'expression
( p − p 0 )2
(2) ε = ∆ +
2m0
avec ∆ / k = 8.65 K , p 0 / h = 1.91Å -1 et m0 ≅ 0.16m He . On nomme ce domaine zone des rotons à la
suite de Landau qui l'introduisit en pensant à des excitations tourbillonnaires du liquide, explication
qui, par la suite, a été abandonnée.
La théorie de Landau permet en particulier de retrouver la forme de la capacité calorifique de
l'hélium II au-dessous de 2K. Pour cela, on évalue l'énergie libre F de l'hélium en ajoutant à
l'énergie libre de l'hélium au zéro absolu ( F0 ≡ U 0 ) l'énergie libre des excitations. Ces dernières
étant en nombre indéterminé et n'ayant pas de spin, on leur applique la statistique de Bose-Einstein
avec potentiel chimique nul. On a ainsi
[ ]
(3) F (T , V , N ) = U 0 ( N , V ) + 3 ∫ d 3 rd 3p ln 1 − e β ε ( p )
kT
h

Dans le but d'obtenir une expression analytique de F, il est instructif d'étudier la densité de
population des niveaux d'énergie des excitations. Par application de la loi de distribution de Bose-
Einstein avec µ = 0 , il vient
d 3rd 3p d 3 rd 3p
(4) d 6 N r ,p = f (ε ) =
1
β ε ( p)
h 3
h 3
e −1

L'intégration sur r et les directions de p conduit alors à


dN p 4πp 2 dp
(5) dn = = f (ε )
V h3
et la densité de population des niveaux dn / dε s'obtient par le changement de variables
p → ε = ε ( p ) . En tenant compte du fait que la fonction inverse p = p(ε ) est multiforme pour
ε ≥ ∆ , il vient finalement
dn 4π p i2
(6) = f (ε )∑
dε h 3 i ε ′( p i )

où ε ′( p ) est la dérivée de ε ( p ) et p i représente une des solutions de l'équation ε = ε ( p ) . La


densité de population des niveaux d'énergie des excitations, calculée numériquement à partir de
cette formule avec la loi expérimentale ε ( p ) de la figure (a) ci-dessus, est représentée sur la figure
(b) ci-dessus pour T = 0.4 K et T = 1.2 K. A T = 0.4 K, on constate que seuls les niveaux des
phonons sont peuplés. On s'attend donc à pouvoir appliquer les résultats du modèle de Debye à
l'hélium pour T ≤ 0.6 K . A T = 1.2 K, au contraire, les rotons avec p ≅ p0 dominent et l'on s'attend
à l'existence d'un nouveau domaine pour T ≥ 1K . Notons que la densité dn / dε devient même
infinie lorsque ε ′( p ) s'annule. Toutefois, en ces points, dn / dε reste intégrable et ne produit
aucune divergence des grandeurs physiques. Ainsi, à T = 0.4 K, le passage de dn / dε à l'infini pour
ε = ∆ se passe dans une bande d'énergie si étroite qu'il contribue de façon négligeable en raison de
la petitesse de f (∆ ) à cette température ( ~ 10 −50 ). De même, la valeur infinie pour ε / k ≅ 14 K de
produit pas d'effet sensible.

Cette discussion montre que les grandeurs physiques seront obtenues avec une bonne précision en
partant, pour la relation de dispersion, de l'expression analytique par morceau
 cp p < p1
(7) ε = 
∆ + ( p − p0 ) / 2m0 p > p1
2

où p1 / h est de l'ordre de 1Å -1 . En effet, cette expression représente bien ε ( p ) dans les zones où
les contributions des photons, d'une part, et des rotons, d'autre part, sont importantes. Nous pouvons
donc exprimer l'énergie libre (3) en distinguant les contributions des phonons F ph et celle des
rotons Fr :
(8) F = U 0 + F ph + Fr
avec
kT
h 0
p1
[
(9) F ph = 3 V ∫ 4πp 2 dp ln 1 − e − β c p ]
et
kT ∞ − β ∆ − β ( p − p0 )2 / 2 m0 
(10) Fr = 3 V ∫ 4πp 2 dp ln 1 − e
h p1  

Pour les phonons, en copiant le modèle de Debye, on obtient


4πV
x ln (1 − e − x )dx
4 β c p1 2
(11) F ph = 3 3 (kT ) ∫
h c 0

en remarquant que, pour T < 2 K et p1 / h ~ 1Å -1 , on a βcp1 > 10 >> 1 , on peut pousser la borne
supérieure de l'intégrale à l'infini et il vient
4π 5V
(12) F ph = − 3 3
(kT )4
45h c

Pour les rotons, on a toujours βε ( p ) > ∆ / kT >> 1 . On peut alors effectuer un développement du
logarithme dans (10) et pousser la borne inférieure de l'intégrale à − ∞ . On obtient ainsi
4πV +∞  ( p − p 0 )2 
(13) Fr = − 3 kTe − β ∆ ∫ p 2 exp − β  dp
−∞
h  2m0 

L'intégrale peut se calculer en termes simples, mais en première approximation, l'intégrande étant
essentiellement non nul au voisinage de p 0 , on peut y remplacer p 2 par p 02 et, l'intégrale de
l'exponentielle gaussienne valant (2πm0 kT )
1/ 2
, on trouve finalement

(14) Fr = − 3 (2πm0 ) p 02V (kT ) e − ∆ / kT
1/ 2 3/ 2

La capacité calorifique molaire de l'hélium peut maintenant être calculée par dérivation de l'énergie
libre molaire ( V → v ). On a
(15) cV = cV ph + cV r
avec
16π 5 k 4
(16) cV ph = vT 3
15h 3 c 3
et
4πp 02 kv 1/ 2  ∆ 
3/ 2
 kT 3  kT  2 
(17) cV r = (2π m ∆ )   e − ∆ / kT
1 + +   
∆ 4  ∆  
0
h3  kT  

La courbe représentant les variations de cV dans le modèle de Landau est indiquée dans la figure
ci-dessous.
Nous constatons que les résultats expérimentaux sont très bien reproduits et nous vérifions que les
phonons dominent jusqu'à environ 0.6 K et que les rotons sont prépondérants à partir d'environ 1 K.
Notons qu'au-dessous de 0.6 K, on observe la loi en T 3 caractéristique de phonons.

La théorie de Landau a permis d'interpréter, comme nous le verrons par la suite, un grand nombre
de propriétés de l'hélium superfluide. Le fait qu'un système de bosons en interaction puisse être
décrit comme un ensemble d'excitations (ou quasiparticules) indépendantes a été démontré par N.N.
Bogoliubov et la forme de la relation de dispersion a été obtenue de façon satisfaisante par R.P.
Feynman en considérant une assemblée de bosons en interaction dans le cadre de la mécanique
quantique.
V.5.4. Superfluidité dans la théorie de Landau

Cas du zéro absolu


Lorsqu'un liquide ordinaire s'écoule dans un tube, le travail des forces de viscosité au sein du fluide
produit une augmentation d'énergie interne se traduisant par un échauffement. En régime
permanent, un gradient de pression doit être appliqué pour maintenir le mouvement : c'est le travail
des forces de pression qui produit l'accroissement de l'énergie interne. Si le fluide s'écoule
librement (gradient de pression nul), le travail correspondant est nul et cet accroissement se fait au
détriment de l'énergie cinétique.

Dans la théorie de Landau, la viscosité s'interprète par la création d'excitations élémentaires


(phonons et rotons) augmentant l'énergie interne de l'hélium et diminuant sans quantité de
mouvement s'il s'écoule librement. La superfluidité provient de l'impossibilité de créer ces
excitations dans certaines conditions.

Considérons alors de l'hélium au zéro absolu s'écoulant à la vitesse v dans un tube capillaire fixe.
Dans le référentiel se déplaçant à la vitesse v par rapport au tube, l'hélium est au repos et a pour
énergie et impulsion
(1) E 0 = U 0 et P0 = 0

Lorsqu'une excitation élémentaire d'impulsion p apparaît, les grandeurs précédentes s'écrivent :


(2) E1 = E0 + ε ( p ) et P1 = p

Dans le référentiel où le tube est au repos, l'énergie E ′ et l'impulsion P ′ de l'hélium s'obtiennent à


partir de leurs valeurs E et P ci-dessus par les transformations de Galilée :
1
(3) E ′ = E + Mv 2 + P ⋅ v et P ′ = P + Mv
2
où M est la masse totale de l'hélium. Ainsi le fluide sans excitation a pour énergie et impulsion
1
(4) E 0′ = U 0 + Mv 2 et P0′ = Mv
2
et, lorsqu'il en contient une
(5) E1′ = U 0 + ε ( p ) +
1
Mv 2 + p ⋅ v et P1 = p + Mv
2

On peut donc considérer que dans le référentiel lié au tube, l'excitation élémentaire a pour énergie
et impulsion
(6) ε ′( p ) = ε ( p ) + p ⋅ v et p ′ = p

Ces relations montrent que la quantité de mouvement associée à une excitation est indépendante du
référentiel considéré alors que sont énergie dépend de la vitesse v de l'hélium au zéro absolu dans le
référentiel d'observation.

Lorsque l'hélium s'écoule librement dans le tube, la création d'une excitation n'affecte pas la vitesse
v d'écoulement de la partie constituée, dans la théorie de Landau, du fluide ayant les propriétés de
l'hélium au zéro absolu. Toutefois, la quantité de mouvement totale de l'hélium diminue, c'est-à-
dire P1′ < P0 . Par ailleurs, le tube étant fixé, l'énergie totale de l'hélium reste constante lors de la
création de l'excitation, soit E1′ = E0′ . En utilisant les expressions (4) et (5) de E 0′ et E1′ , on trouve
que l'excitation doit vérifier
(7) ε ( p ) + p ⋅ v = 0

Comme on a toujours p ⋅ v > − pv , une excitation d'impulsion p ne peut apparaître que si l'hélium
s'écoule à une vitesse v telle que
ε ( p)
(8) v >
p

Géométriquement, le rapport ε / p représente, dans le plan ( p, ε ) , la pente d'une droite joignant


l'origine à un point de la courbe de dispersion. Comme cette pente a une valeur minimum notée vc
pour p / h ≅ 1.9Å -1 , un écoulement se produisant à une vitesse v < vc ne peut pas produire
d'excitation. En conséquence, l'hélium s'écoule sans viscosité au zéro absolu lorsque sa vitesse est
inférieure à une vitesse critique vc .
Notons que la valeur critique de la vitesse d'un écoulement superfluide dans des capillaires prévue
par la théorie de Landau vaut
8 .7 k
(9) vc ≅ = 60 m s −1
1.9 × 10 h10

alors que la valeur critique expérimentale au zéro absolu est de l'ordre de 1 cm/s. Ce désaccord
vient de ce que dans la théorie de Landau, on suppose que l'écoulement est laminaire et l'on néglige
la possibilité de formes de mouvement interne (vortex).

Cas où T est différent de 0 K


Lorsque l'on considère de l'hélium II à une température différente de zéro, il est équivalent dans la
théorie de Landau, à de l'hélium au zéro absolu auquel se superpose un gaz d'excitations
élémentaires. Les arguments développés ci-dessus pour démontrer la superfluidité de l'hélium sont
encore valables au-dessus du zéro absolu : aucune nouvelle excitation ne peut être créée si v < vc .
Cependant les excitations déjà présentes vont interagir avec les parois du tube en donnant lieu à un
phénomène de viscosité.

Considérons alors l'hélium s'écoulant en régime permanent dans un capillaire à une vitesse
inférieure à la vitesse critique. La composante "superfluide", ayant les mêmes propriétés que
l'hélium à zéro kelvin, s'écoule sans viscosité à une vitesse que nous noterons v s . La composante
"normale", constituée des excitations thermiques, est visqueuse et s'écoule donc à une vitesse v n
inférieure à v s . Dans le référentiel de la composante normale, la distribution des excitations
élémentaires est régie par la loi de Bose-Einstein dans laquelle l'énergie ε d'une excitation est
donnée en fonction de son impulsion p par la relation (6) ε = ε ( p ) + p ⋅ v où
(10) v = v s + v n
est la vitesse de la composante du fluide dans ce référentiel. Si l'on calcule la quantité de
mouvement associée à la composante normale
d 3rd 3p
(11) P = ∫ pd 6 N r ,p = ∫ p f (ε ( p ) + p ⋅ v )
h3
pour des valeurs faibles de v, on peut effectuer un développement limité de f (ε ) , et il vient :
 df  d 3rd 3 p
(12) P = ∫ p  f (ε ( p )) + p ⋅ v 
 dε  h 3

Par raison de symétrie, le premier terme de la somme conduit à une contribution nulle et le second
donne un vecteur proportionnel à v. En effectuant l'intégration sur d 3 r et en exprimant p en
coordonnées sphériques ( p,θ , φ ) d'axe polaire parallèle à v, on obtient
V df 4πV df
(13) P = 3 ∫ p cosθ p cosθ vp 2 sin θ dθ dφ = 3 ∫
p4 dpv
h dε 3h dε

Il est intéressant d'introduire la notation


4π df
(14) ρ n = − 3 ∫ p 4 dp
3h dε
( ρ n > 0 car df / dε < 0 ) qui permet d'écrire la quantité de mouvement associée à la composante
normale sous la forme
(15) P = ρ nV (− v )
où − v = v n − v s est la vitesse de cette composante normale par rapport à la composante
superfluide. Ceci montre que l'on peut associer un transport de masse au mouvement du gaz
d'excitations. La quantité de mouvement totale de l'hélium II vaut alors
(16) Ptot = V ( ρv s − ρ n v )
soit, en introduisant la notation
(17) ρ s = ρ − ρ n
et en utilisant (10)
(18) Ptot = V ( ρ s v s + ρ n v n )

Les relations (14), (17) et (18) précisent la définition du modèle des deux composantes selon
Landau. La composante normale, associée aux excitations élémentaires (phonons et rotons), se
comporte comme un fluide visqueux ordinaire doté d'une masse volumique ρ n (14). On attribue la
masse volumique restante ρ s à la composante superfluide dont les propriétés sont celles de
l'hélium au zéro absolu. Cette séparation ne correspond à aucune division des particules du fluide
en particules superfluides et particules normales ni, a fortiori, à une division du fluide en deux
phases. Le modèle des deux composantes s'est révélé très fructueux et a permis de prévoir et
d'interpréter un certain nombre de propriétés de He II.

Pour calculer ρ n , nous considérons séparément les contributions des phonons et des rotons. La
masse volumique associé aux excitations de type phonon se calcule en intégrant par partie (14) soit,
en utilisant la relation ε = cp ,
4π 16π ε 3 dε
(19) ρ n ph = − 3 5
3h c
[ ]
ε4 f

0 +
3h 3 c 5 ∫
0

eβε −1

Le terme tout intégré est nul et le changement de variable x = βε conduit à une intégrale
numérique valant π 4 / 15 . On a finalement, pour les phonons :
16π 5
(20) ρ n ph = 3 5
(kT )4
45h c

La masse volumique associée aux rotons s'obtient à partir de la relation de dispersion pour les
rotons et, en remarquant que f (ε ) ≅ e − β ε pour ε > ∆ >> kT , on a
4πβ − β ∆ + ∞ 4 − β ( p − p0 )2 / 2 m0
(21) ρ n r ≅ e ∫ p e
3h 3 −∞

De même que précédemment, on peut remplacer p 4 par p 04 et on trouve


4π  2πm0 
1/ 2

(22) ρ n r = 3 p04 e − ∆ / kT  
3h  kT 

La densité de la composante normale


(23) ρ n = ρ n ph + ρ n r
obtenue à partir de (20) et (22) est représentée par la courbe ci-dessous.
Elle suit une loi en T 4 pour T ≤ 0.5 K où les phonons sont prépondérants et est dominée par les
rotons au-dessus.

La détermination expérimentale de ρ n suivant deux méthodes a permis la vérification du modèle


des deux fluides. Nous décrivons ici la méthode la plus directe, due à E.L. Andronikashvili. Celui-
ci a fait osciller un ensemble de disques, plongés dans l'hélium, autour de leur axe commun. Seule
la composante normale est entraînée par le mouvement des disques. La mesure de la période
d'oscillation permet de déterminer le moment d'inertie du fluide normal présent entre les disques et,
par suite, sa masse volumique. Cette méthode, opérationnelle pour ρ n / π ≥ 10 −2 (T > 1.3 K), donne
des valeurs de ρ n en accord satisfaisant avec le modèle des deux fluides. Notons que l'accord
s'améliore vers 2K lorsqu'on utilise pour chaque température la valeur expérimentale exacte de ∆ .
La seconde méthode, qui permet d'explorer un domaine à plus basse température, utilise le
phénomène du second son que nous décrivons ci-dessous. Les points expérimentaux se placent très
exactement sur la courbe théorique.

Indiquons que le coefficient de viscosité de l'hélium mesuré par la méthode du viscosimètre


tournant est en fait la viscosité due à la composante normale η n . Elle est du même ordre de
grandeur que la viscosité de l'hélium I. Toutefois, pour des températures inférieures à environ 1K,
la quantité de composante normale est très faible et le phénomène de viscosité ne se produit plus.

Le deuxième son
Le phénomène de propagation d'ondes acoustiques dans un fluide ordinaire est bien connu. Il s'agit
d'ondes longitudinales dans lesquelles la pression P et la masse volumique ρ varient à entropie S
constante et qui effectuent un transport d'énergie mécanique. La vitesse de phase (vitesse du son) de
ces ondes est donnée par
 ∂P  1 γ
(24) c 2 =   = =
 ∂ρ  S ρχ S ρχ T
où γ = c P / cV et où χ S et χ T sont les compressibilités adiabatique et isotherme.

Les ondes sonores se propagent aussi dans les deux phases He I et He II de l'hélium liquide avec
une vitesse dont les variations avec la température sont représentées sur la figure (a) ci-dessous.
Nous signalons qu'au point lambda, la vitesse tend vers zéro en corrélation avec le fait que χ S tend
logarithmiquement vers l'infini et que le coefficient d'absorption des ondes sonores devient
également infini.

Un autre phénomène de propagation d'ondes dans l'hélium He II a été prévu par L. Tisza et L .
Landau sur la base des modèles des deux fluides. Il porte le nom de deuxième son. Le son ordinaire
dans l'hélium II ("premier son") est constitué d'ondes dans lesquelles les deux fluides, de masse
volumique ρ n et ρ s , vibrent en phase, créant ainsi des variations de la densité totale à entropie
constante. Il existe également d'autres ondes propageant un "deuxième son" dans lesquelles les
deux fluides, pouvant se déplacer sans frottement l'un par rapport à l'autre, vibrent en opposition de
phase, de sorte que ρ soit approximativement constant. Dans ce type d'onde, les variations de ρ n
(et de ρ s ) induisent une oscillation importante de la température. (voir (20) et (22)). Il ne s'agit
donc pas d'ondes sonores, le transport d'énergie se faisant sous forme thermique. De ce fait, on
produit le second son à l'aide d'une résistance chauffante alimentée en courant alternatif et on
détecte les oscillations de la température à l'aide d'un thermomètre à résistance. Les mesures de
vitesse du second son sont reproduites sur la figure (b) ci-dessus. La formule
ρ s 2T
(25) c 22 = s
ρ n McV
donnant la vitesse du deuxième son c 2 et obtenue à partir de considérations d'hydrodynamique, a
permis une détermination de ρ s / ρ n en utilisant les valeurs expérimentales de l'entropie et de la
capacité calorifique molaire s et cV . Les valeurs de ρ n / ρ qui en découlent sont en bon accord
avec la théorie de Landau. Notons que, dans le domaine où il n'y a plus que des photons (T < 0.6
K), il n'y a plus de propagation du deuxième son, car ces derniers sont pratiquement sans
interaction mutuelle.

V.5.5. Rotation de l'hélium. Tourbillons quantiques

Rotation d'un liquide ordinaire


Lorsqu'un récipient cylindrique contenant un liquide ordinaire tourne autour de son axe à vitesse
angulaire ω 0 , le liquide est mis en rotation par viscosité et, en régime permanent, tourne avec une
vitesse angulaire uniforme égale à ω 0 . La vitesse v d'un élément de fluide situé en r s'écrit alors
(1) v = ω 0 × r
c'est-à-dire que le liquide tourne à la façon d'un solide. Sa surface libre a la forme parabolique sous
l'action conjuguée de la pesanteur et de la force centrifuge (figure (a) ci-dessous).
Remarquons que ce mouvement vérifie la condition
(2) rot v = 2ω 0
c'est-à-dire, en utilisant le théorème de Stokes, que la circulation du vecteur v (vorticité) sur un
contour quelconque de surface projetée s vaut
(3) κ = ∫ v ⋅ dl = ∫ rot v ⋅ ds = 2ω 0 s
Il existe cependant une autre solution des équations de l'hydrodynamique décrivant un mouvement
permanent, avec un champ de vitesse en 1 / r de la forme
R2
(4) v = 2 ω 0 × r
r
R étant le rayon du récipient. Ce mouvement correspond à un tourbillon créant un trou cylindrique
de rayon a dans le liquide autour de l'axe de rotation (figure (b) ci-dessus), à la manière de celui que
l'on observe lors de la vidange d'un récipient. Il vérifie la condition
(5) rot v = 0
pour r > a (mouvement irrotationnel), ce qui entraîne que la vorticité sur un circuit n'enserrant pas
l'axe est nul, alors que sur un circuit quelconque enserrant une fois l'axe, elle vaut
(6) κ = ∫ v ⋅ dl = 2ω 0πR 2

Cependant, ce mouvement tourbillonnaire, désigné aussi par vortex, est plus énergétique que le
précédent, et l'on observe expérimentalement le mouvement solide (1) seulement.

Expérience de rotation de l'hélium He II


En publiant sa théorie, L. Landau prévoyait que, dans un récipient cylindrique en rotation, seule la
composante normale de l'hélium He II tournerait en régime permanent, la composante superfluide
n'étant pas entraînée. Ainsi, dans le domaine des températures inférieures à 1K, la composante
normale ayant une masse volumique négligeable, on s'attendrait à observer une surface libre plane.
Or, D.V. Osborne (1950) a observé une surface libre parabolique correspondant à une mise en
rotation complète de l'hélium. D'autres mesures ont de même contredit la prédiction de Landau, en
particulier H.E. Hall (1957) a montré que le moment cinétique de l'hélium a une valeur
correspondant à la rotation de tout le liquide. Cependant, on a vérifié que d'autres propriétés sont en
accord avec la théorie de Landau pour l'hélium II en rotation : spectre des excitations, vitesse du
second son, effet fontaine. On pourrait rendre compte de cette contradiction en supposant
l'existence d'une faible force de frottement entre les composantes normale et superfluide, mais
l'ensemble des faits précédents peut être interprété par la théorie des tourbillons quantiques.
Tourbillons quantiques
Ce sont L. Onsager (1954) et R.P. Feynman (1955) qui ont proposé l'explication, aujourd'hui
admise, des propriétés de l'hélium II en rotation à partir d'arguments généraux de mécanique
quantique sur la fonction d'onde d'un ensemble d'atomes d'hélium. Ils montrèrent que la
composante superfluide de l'hélium peut présenter des tourbillons dont la vorticité κ a une valeur
multiple d'un quantum élémentaire
h
(7) κ 0 =
m
où m est la masse d'un atome d'hélium.

L'introduction des tourbillons quantiques permet l'interprétation des propriétés de l'hélium II en


rotation. Lorsque le cylindre est mis en rotation, il entraîne la composante normale. Au contact des
parois sont alors créés progressivement dans la composante superfluide des tourbillons quantiques
de vorticité κ 0 et d'axe vertical. Par interaction avec les excitations élémentaires constituant la
phase normale, ceux-ci sont mis en mouvement de rotation et se rapprochent de l'axe du cylindre.
Ceci explique qu'à température suffisament basse, la zone périphérique de la surface libre prend
une forme parabolique alors que la zone centrale, plate, se rétrécit et disparaît lorsque le régime
final est atteint. Dans ce régime, la composante superfluide contient un nombre N v de tourbillons
d'axe vertical répartis uniformément.
A partir de considérations énergétiques, H.E. Hall (1960) a montré que ces tourbillons tournent
autour de l'axe du cylindre à la vitesse angulaire uniforme ω 0 et que leur nombre surfacique est
nv = 2ω 0 / κ 0 , ce qui détermine leur rayon externe
1 κ0
(8) b ≅ =
πnv 2πω 0
Dans un tel mouvement, le champ de vitesses de la composante superfluide est alors comparable à
celui de la composante normale. En effet, la vorticité totale de la composante superfluide vaut
(9) κ = nv × πR 2 × κ 0 = 2ω 0πR 2
et est égale à celle d'un liquide normal donnée par (3). Par ailleurs, la vitesse angulaire ω à la
périphérie d'un tourbillon, donnée par
(10) κ 0 = ω b × 2πb
est, compte tenu de (8), égale à ω 0 . Il en résulte que, dans chaque tourbillon, les vitesses des points
de la périphérie sont celles qui existeraient dans un liquide normal. L'écart au champ de vitesse (1)
n'est sensible qu'au voisinage immédiat de l'axe étant donné la répartition des vitesses dans un
tourbillon. Le champ de vitesse et la forme de la surface libre sont alors ceux représentés
schématiquement sur la figure ci-dessus. Notons que, pour ω 0 = 1s −1 , il y a environ nv = 2000
tourbillons par centimètre carré et le rayon d'un tourbillon est b = 0.1 mm.

Les tourbillons quantiques, d'abord détectés par des méthodes indirectes, ont pu être visualisés,
confirmant la théorie exposée ci-dessus. En particulier, on a observé que l'apparition du premier
tourbillon quantique se fait au-dessus d'une vitesse de rotation seuil correspondant à la condition de
quantification de la vorticité.

V.5.6. Réfrigérateur à dilution

Refroidissement par évaporation


Les basses températures jusqu'à 4 K sont généralement obtenues par utilisation des gaz liquéfiés.
Au-dessous de cette température, on peut gagner un ordre de grandeur en refroidissant les gaz
liquéfiés (hélium He 4 ou He 3 ) par évaporation.

Dans cette méthode, on réduit la pression P au-dessus de l'hélium liquide en pompant la vapeur qui
le surmonte. Le liquide, se vaporisant de façon continue, se refroidit en suivant la loi P = Pe (T ) où
Pe (T ) est la pression de vapeur saturante du liquide à la température T. Comme Pe (T ) varie
approximativement en exp(− A / T ) , on pompe de moins en moins de gaz à mesure que la
température décroît et la température atteinte dépend de la puissance de pompage et de l'importance
des fuites thermiques. Les pressions couramment utilisées sont de l'ordre du torr (1 torr = 1 mm de
mercure = 133 Pa) et les températures les plus basses atteintes sont 0.9 K pour He 4
( Pe = 4 × 10 −2 torr ) et 0.3 K pour He 3 ( Pe = 2 × 10 −3 torr ). On peut atteindre 2 mK en utilisant les
propriétés du mélange He 4 - He 3 que nous décrivons ci-dessous.

Propriétés du mélange He 4 - He 3
Les propriétés du mélange He 4 - He 3 se modifient progressivement à partir de celles de He 4 à
mesure que l'on augmente la fraction molaire de He 3

(1) x =
( )
n He 3
( ) ( )
n He 3 + n He 4

Ainsi, la température d'apparition de la superfluidité sous pression de vapeur saturante diminue


lorsque x croît.
Par ailleurs, pour des températures inférieures à environ 0.8 K, le mélange peut, suivant la valeur de
x, se séparer en deux phases : il y a démixtion. La première (ligne AB) est la plus pauvre en He 3 et
a une fraction molaire x B = 6.4% aux plus basses températures atteintes. La seconde ligne (AC'C)
est pratiquement pure en He 3 au-dessous d'environ 0.2 K. L'enthalpie molaire de chacune des deux
phases au voisinage des points B et C vaut respectivement
( )
(2) hB (J mole −1 ) = 95[T (K )] et hC J mole −1 = 13[T (K )]
2 2
De ce fait, lorsque dn mole de He 3 passe de la phase riche à la phase pauvre à température
constante, il en résulte une variation d'enthalpie
(3) dH = dn(hB − hC )

Comme hC est inférieur à hB , on voit que le passage d'hélium He 3 de la phase riche à la phase
pauvre s'effectue avec absorption de chaleur à l'instar d'une substance passant de sa phase liquide à
sa phase vapeur.

Description du réfrigérateur à dilution


L'idée de faire passer de l'hélium He 3 de la phase riche à la phase pauvre pour produire des basses
températures est due à H. London et al. (1960) et la réalisation des premiers réfrigérateurs à dilution
date de 1965.

La figure ci-dessous représente le schéma de principe de la machine thermique correspondante.


Celle-ci fonctionne en cycle fermé, le fluide circulant pouvant être assimilé à de l'hélium He 3
presque pur. Le cycle débute avec de l'hélium He 3 gazeux prélevé dans l'évaporateur S à la
pression de 10 −2 torr et à une température voisine de 1.3 K (a). Cet hélium sort du cryostat, est
comprimé à température ambiante jusqu'à 20 torrs (b) par la pompe P et rentre dans le cryostat où il
est liquéfié et refroidit (c) par un bain de He 4 à 1.3 K, ce bain B constituant la source chaude du
cycle. L'hélium He 3 circule alors dans l'échangeur à double courant E qui abaisse sa température et
pénètre dans la chambre de mélange M à l'intérieur de la phase riche en He 3 (d) qui surmonte
l'autre phase. Il passe ensuite dans la phase pauvre (e) en absorbant de la chaleur, la chambre de
mélange étant ainsi la source froide du cycle. Le retour de He 3 s'effectue par diffusion à travers
He 4 dans la deuxième branche de l'échangeur jusqu'à l'évaporateur S (f). Cette diffusion
s'effectuant en sens inverse de la pesanteur est due à l'existence dans le tube de retour d'un gradient
de concentration en He 3 créant une pression osmotique. Le cycle se termine alors dans
l'évaporateur S où l'hélium He 3 presque pur se vaporise. Pour un réfrigérateur fonctionnant de
façon réversible, la puissance absorbée à la source froide vaut d'après (2) et (3)
(4) Q& (W ) = 82n& (mole s −1 )[T (K )]
2

Dans un réfrigérateur typique, on fait circuler n& = 10 −3 mole s −1 de He 3 . La puissance de


réfrigération est alors de l'ordre de 2 × 10 −3 W à 200 mK et 2 × 10 −5 W à 20 mK.

Les réfrigérateurs à dilution sont actuellement d'un usage courant dans les laboratoires de basses
températures. Ils couvrent le même domaine de température que les réfrigérateurs à désaimantation
adiabatique électronique.

V.6. Statistique de Fermi-Dirac


La statistique de Fermi-Dirac, introduite précédemment, s'applique aux systèmes de particules
indiscernables de spin demi-entier (J = 1/2, 3/2,…) sans interaction. Dans le cas des gaz
moléculaires, la limite de Maxwell-Boltzmann corrigée est utilisée car elle fournit une
approximation suffisante. Toutefois, l'hélium He 3 (J = 1/2) existant à l'état gazeux jusqu'à très
basse température (température d'ébullition normale TE = 3.19 K ), on doit lui appliquer la
statistique de Fermi-Dirac.

Un cas très important d'application de cette statistique est celui du gaz d'électrons : en effet, un
grand nombre de propriétés physiques des métaux s'interprètent en supposant que des électrons
libérés par les atomes forment un gaz de particules sans interaction. Ce modèle n'est pas irréaliste
car l'expérience prouve, par exemple, que les électrons libres se déplacent sans subir de collision
sur des distances grandes devant les distances interatomiques. Le seul effet des interactions est, en
première approximation, de créer un puits de potentiel et donc de conférer à chaque électron une
énergie potentielle, constante dans l'espace, que nous prendrons nulle en choisissant
convenablement l'origine des énergies.

V.6.1. Loi de répartition. Fonction de Fermi


Nous étudierons en préambule la loi de répartition en statistique de Fermi-Dirac :
g N 1
(1) N i = β (ε − µi ) ou ni = i = β (ε − µ )
e i +1 gi e i + 1

Pour cela, considérons la fonction de Fermi, de variable ε , définie par


(2) n(ε ) = β (ε − µ )
1
( β = 1 / kT )
e +1
où T et µ sont deux paramètres.

Etudions tout d'abord cette fonction pour la valeur particulière T = 0 (pour cette valeur, µ est noté
µ 0 ). Dans ce cas, l'argument de l'exponentielle est infini avec un signe dépendant de celui de
ε − µ 0 . Il en résulte que si ε est inférieur à µ 0 ( ε < µ 0 ), l'exponentielle est nulle et n(ε ) vaut 1.
Par contre si ε est supérieur à µ 0 ( ε > µ 0 ), l'exponentielle est infinie et n(ε ) est nul. La figure (a)
ci-dessous représente la fonction de Fermi pour T = 0.
Il s'ensuit que, dans les états quantiques tels que ε i < µ 0 , il y a autant de particules que d'états
quantiques ( N i = g i ) tandis que les états tels que ε i > µ 0 ne sont pas peuplés ( N i = 0 ). Le
principe d'exclusion de Pauli permet d'interpréter cette répartition. Au zéro absolu, le système est
dans l'état d'énergie le plus bas obtenu en "remplissant" chaque état quantique avec une seule
particule depuis celui de plus basse énergie jusqu'à épuisement des particules : tous les états
quantiques d'énergie inférieure à µ 0 sont ainsi occupés par une particule et les niveaux supérieurs
sont vides.

Aux autres températures, la fonction de Fermi n(ε ) se modifie comme il est indiqué dans la figure
(b) ci-dessus. Nous noterons que le point de coordonnées (µ ,1 / 2) est centre de symétrie de la
courbe, car
e β (ε − µ )
(3) 1 − n(ε ) = β (ε − µ )
1
= − β (ε − µ )
e +1 1+ e

Ce point, où la tangente a pour pente − 1 / 4kT , est donc également un point d'inflexion. Par
ailleurs, la courbe ne s'écarte sensiblement de ses valeurs asymptotiques (1 et 0) que dans une zone
de largeur de l'ordre de 6kT , car, par exemple
(4) n(µ − 3kT ) − n(µ + 3kT ) = 0.9

Il s'ensuit que lorsque kT << µ , l'allure de la courbe est très proche de celle pour laquelle T = 0.

Enfin, lorsque ε est très grand devant µ ( ε >> µ ), l'exponentielle dans (1) et (2) est très grande,
de sortie que la limite
(4) n(ε ) = e β (ε − µ ) ( ε >> µ )
semblable à la distribution de Maxwell-Boltzmann corrigée, s'applique dans ce cas.

V.6.2. Gaz parfaits de fermions

Etude générale
Les fonctions thermodynamiques en variables T, V, N d'un gaz parfait de fermions s'obtiennent à
partir de l'expression du grand potentiel
[
(1) Ω(T , V , µ ) = − kT ∑ g i ln 1 + e ]
β ( µ −ε i )

i
en suivant le même raisonnement que pour le gaz de bosons, c'est-à-dire en gardant µ comme
variable intermédiaire.

On passe tout d'abord en variables continus par les transformations


p2 d 3rd 3p
(2) ε i → , gi = g s et ∑ → ∫
2m h3 i

où g s = 2 J + 1 est la dégénérescence due au spin J de la particule. L'intégration sur r ( d 3 r → V ) et


sur les directions de p ( d 3 p → 4πp 2 dp ) conduit à
4πV ∞   p 2 
(3) Ω = − kTg s ∫ p 2 dp ln 1 + exp β  µ − 
h3 0
  2m 

Après avoir effectué le changement de variable x = β p 2 / 2m et posé


(4) Z (T , V ) = g s (2πmkT )3 / 2
V
3
h
on obtient
x ln[1 + exp(βµ − x )]dx

(5) Ω = − kTZ (T , V )
2
π ∫
0

En introduisant la fonction

(6) f (ν ) =
2 ∞ ν −x
∫ x ln 1 + e dx =( ) x3/ 2
4
∫ x−ν dx

π 0 3 π 0 e +1
représentée sur la figure ci-dessous, le grand potentiel prend la forme
(7) Ω(T ,V , µ ) = − kTZ (T ,V ) f (ν ) (ν = µ / kT )

Ces expressions sont analogues aux expressions d'un gaz de bosons.


On obtient alors, comme pour la statistique de Bose-Einstein, les fonctions thermodynamiques en
variables T, V, µ :
 ∂Ω  5 
(8) S = −  = kZ  f (ν ) − νf ′(ν )
 ∂T  µ ,V 2 
 ∂Ω  Ω
 = kT f (ν ) = −
Z
(9) P = −
 ∂V  T , µ V V
 ∂Ω 
(10) N = −  = Zf ′(ν )
 ∂µ  T ,V

Nous avons également, pour l'énergie interne


(11) U = Ω + TS + Nµ = kTZf (ν ) = PV
3 3
2 2
expression conforme à la relation générale
2
(12) PV = U
3
applicable aux gaz sans interaction pour lesquels l'énergie a la forme ε = p 2 / 2m . Enfin, la
capacité calorifique molaire cV a l'expression
3  5 f (ν ) 3 f ′(ν ) 
(13) cV = R −
2  2 f ′(ν ) 2 f ′′(ν ) 

Pour obtenir les expressions des fonctions thermodynamiques en variables T, V, N, il faut résoudre
en ν = µ / kT la relation (10) :
Nh 3
(14) f ′(ν ) = α ≡
N
=
Z (T , V ) g sV (2πmkT )3 / 2

Cette résolution peut se faire graphiquement à l'aide de la figure ci-dessus et permet alors d'évaluer
les fonctions thermodynamiques. Nous verrons dans la suite des méthodes de résolution approchée
de (14) permettant d'obtenir des expressions analytiques pour ces fonctions.
Cas des gaz moléculaires
Le potentiel chimique µ des gaz moléculaires est généralement négatif. Il s'ensuit alors que, pour
ces gaz, ν est négatif et l'on peut utiliser le développement en série
∞ nν
(15) f (ν ) = ∑ (− 1)
n −1 e
5/ 2
= eν − 2 −5 / 2 e 2ν + 3 −5 / 2 e 3ν + L (ν < 0 )
n =1 n

La résolution de l'équation (14) f ′(ν ) = α donne alors


(16) eν = α + 2 −3 / 2 α 2 + L
d'où l'on tire
[ ]
(17) µ = kT ln α + 2 −3 / 2 α + L avec α = N / Z

On peut alors éliminer µ au profit de N et obtenir l'énergie libre


 Z 
(18) F (T , V , N ) = Ω + Nµ = − NkT 1 + log  − 5 / 2 + L
N
 N 2 Z 
et en déduire par dérivation les diverses fonctions :
 5 Z N 
(19) S = Nk  + ln  + 7 / 2 + L
 2 N 2 Z 
NkT  N 
(20) P = 1 + 5 / 2 + L
V  2 Z 
3 3  N 
(21) U = PV = NkT 1 + 5 / 2 + L
2 2  2 Z 
3  N 
(22) cV = R 1 − 7 / 2 + L
2  2 Z 

Lorsque N / Z est très inférieur à 1 ( α = N / Z << 1 ), on retrouve les résultats de la statistique de


Maxwell-Boltzmann corrigée. Notons que les termes correctifs à cette dernière sont égaux et de
signe opposé en statistique de Bose-Einstein. En particulier, notons que la pression d'un gaz
moléculaire de fermions est supérieure à celle qui est donnée par l'équation d'état des gaz parfaits
( P = RT / v ) résultat de la statistique de Maxwell-Boltzmann corrigée. Le fait que les particules
soient des fermions entraîne un accroissement de la pression ainsi que le ferait une interaction
répulsive.

Etude au zéro absolu


Nous nous proposons maintenant d'étudier les propriétés d'un gaz parfait de fermions au zéro
absolu, en raison d'une part de la simplification des calculs et d'autre part du fait que de nombreuses
propriétés électroniques des métaux varient peu entre 0 et 500 K. Nous pourrions déterminer la
fonction Ω(T = 0,V , µ ) et en déduire les expressions du nombre d'électrons N, de la pression P,…
Nous n'utiliserons cependant pas cette méthode ici, donnant la préférence à une méthode plus
directe.

Potentiel chimique. Energie de Fermi


Le potentiel chimique au zéro absolu µ 0 peut être déterminé directement à partir de la relation de
contrainte N = ∑ N i . Etant donnée la forme de la fonction de Fermi au zéro absolu, cette
condition s'écrit
(23) N = ∑ N i + ∑ N i = ∑ g i
εi <µ0 εi >µ0 ε i < µ0

En passant en variables continues (2) et en intégrant sur r et sur les directions de p, cette équation
s'écrit
4πV pF0 4πV 0 3
(24) N = g s 3 ∫ p 2 dp = g s pF
h 0 3h 3
où l'impulsion de Fermi p F0 est reliée à µ 0 par
2
p F0
(25) µ 0 =
2m

En reportant l'impulsion de Fermi déterminée par (24) dans l'expression (25) de µ 0 , on a


1/ 3 2/3
 3 N h2  3 N 
(26) p = h
0
 et µ 0 =  
 4πg s V  2m  4πg s V 
F

On vérifie que le potentiel chimique µ 0 , ne dépendant que de N / V, est bien une grandeur
intensive.

Dans le cas du gaz parfait d'électrons libres dans les métaux (J = 1/2), la dégénérescence vaut
g s = 2 et le potentiel chimique, noté ε F0 et appelé énergie de Fermi au zéro absolu, s'écrit
2/3 2/3
h 2  3N  h 2  3n 
(27) ε =0
  =  
8m  πV  8m  π 
F

La valeur numérique de l'énergie de Fermi des métaux peut alors être calculée à partir du nombre
volumique d'électrons n = N / V . Si z est le nombre d'électrons libres par atome (z = 1 pour le
cuivre par exemple), le rapport n = N / V vaut zN / v où v est le volume molaire du métal. Le
tableau ci-dessous donne la valeur de n et de ε F0 pour quelques métaux.

Métal n ε F0 théo γ théo γ exp m∗ / m ΘD


(10 22
cm −3
) (eV ) (10 −3
SI ) (10 −3
SI ) (K )
Li 4.60 4.7 0.76 1.69 2.22 352
Na 2.54 3.2 1.12 1.38 1.23 157
K 1.32 2.1 1.74 2.11 1.21 89.4
Rb 1.08 1.8 1.98 2.52 1.27 54
Cs 0.86 1.5 2.31 3.55 1.54 40
Cu 8.46 7.0 0.50 0.693 1.39 342
Ag 5.86 5.5 0.64 0.659 1.03 228
Au 5.90 5.5 0.64 0.748 1.17 165
Propriétés thermiques de métaux monovalents. Nombre volumique d'électrons libres n = N /
V, énergie de Fermi au zéro absolu ( ε F0 théo ), constante de la capacité calorifique électronique
γ (valeurs théorique et expérimentale), masse effective thermique m ∗ rapportée à la masse
de l'électron m et température de Debye expérimentale au zéro absolu Θ D .

Nous retiendrons le fait que ε F0 est de l'ordre de quelques électrons-volts. Cette énergie, valeur
maximale de l'énergie cinétique des électrons, correspond à une vitesse
1/ 2
 2ε 0 
1/ 3
h  3n 
(28) v =  F  =
0
 
2m  π 
F
 m 
dont la valeur numérique est de l'ordre de mille kilomètres par seconde ( v F0 = 1.57 × 10 6 ms −1 pour
le cuivre).

On voit que, même au zéro absolu, les électrons sont animés de grandes vitesses, environ 10 4 fois
plus grandes que la vitesse moyenne des molécules d'un gaz tel que l'azote à température ordinaire.
Ceci est caractéristique des fermions qui obéissent au principe d'exclusion de Pauli.

Remarquons que, dans l'espace des impulsions, tous les états quantiques occupés au zéro absolu
sont contenus à l'intérieur d'une sphère de rayon p F0 , appelée sphère de Fermi. La notion de surface
de Fermi généralisant cette sphère, joue un rôle important en physique du solide.

Autres fonctions thermodynamiques


Calculons l'énergie interne du gaz d'électrons libres au zéro absolu à l'aide de la relation
(29) U 0 = ∑ N i ε i = ∑ g i ε i
i 0
ε i <ε F

Passant à la sommation continue, cette relation devient


4πV pF0 p 2 4π 0 5 V
(30) U 0 = 2 × 3 ∫ p 2 dp × = pF 3
h 0 2 m 5m h
En utilisant les relations (24) et (25), nous pouvons faire apparaître explicitement N, soit
2/3
3 3h 2  3 N 
(31) U 0 = Nε F0 = N 
5 40m  π V 

Calculons maintenant la valeur de l'entropie au zéro absolu à l'aide de la relation de Boltzmann


S = k ln W où W = WFD est la probabilité thermodynamique en statistique de Fermi-Dirac. Dans
cette probabilité, chaque facteur
gi!
(32) Wi =
N i !( g i − N i )!
vaut 1, que N i soit nul ( ε i > ε F0 ) ou égal à g i ( ε i < ε F0 ). Il s'ensuit que WFD est égal à 1 et que
l'entropie est nulle :
(33) S 0 = 0

Enfin, l'équation d'état au zéro absolu peut être retrouvée en remarquant que
2
(34) P0V = −Ω 0 = −U 0 + Nµ 0 = Nε F0
5
conformément à la relation générale PV = 2U / 3 .

Etude au-dessus du zéro absolu

Fonctions thermodynamiques
Nous avons vu que la fonction de Fermi n(ε ) pour T ≠ 0 ne diffère de celle de T = 0 que dans une
zone de quelque kT. Lorsque ε F (ou µ ) est de l'ordre quelques électrons volts
( TF = ε F / k ~ 5 × 10 4 K ), la représentation graphique de n(ε ) pour T inférieur à 300 K ne montre
que peu de différence avec le cas T = 0 (figure ci-dessous). C'est la raison pour laquelle les
propriétés électroniques des métaux varient peu dans le domaine de température de 0 à 1000 K.
Nous nous proposons de déterminer les écarts des fonctions thermodynamiques par rapport à leurs
valeurs au zéro absolu calculées précédemment. Pour cela, nous nous replacerons dans le cadre
général et nous utiliserons la forme limite que prend la fonction f (ν ) définie en (6) lorsque
ν = µ / kT >> 1 ,
8 5 / 2  5π 2 
(35) f (ν ) = ν 1 + 2 + L (ν >> 1)
15π  8ν 
obtenue à partir du développement asymptotique des intégrales, dites de Sommerfeld :
∞ φ (ε ) µ π2
(36) ∫ β (ε − µ )
dε = ∫ φ (ε )dε + (kT )2 φ ′(µ ) + L
0 e +1 0 6

En reportant la forme limite (35) dans les expressions générales, on obtient :


2
(37) S = π 3 / 2 kZν 1 / 2 + L
3
3 4  5π 2 
(38) U = PV = kTZν 5 / 2 1 + 2 + L
2 5 π  8ν 
4 3/ 2  π2 
= f ′(ν ) =
N
(39) ν 1 + 2 + L
Z 3 π  8ν 

Cette dernière relation entre ν = µ / kT et α = N / Z (V , T ) nous permet d'éliminer la variable ν au


profit de N. En résolvant (39) par approximations successives, on obtient à l'ordre zéro :
2/3
3 π N  ε F0
2/3
(0 ) h2  3 N 
(40) ν =   =
   =
 4 Z 8mkT  π Z  kT
où ε F0 est l'énergie de Fermi au zéro absolu (27) obtenue directement précédemment. A l'ordre
suivant, on obtient
 π2 
(41) ν = ν (0 ) 1 − 
(0 )2 
 12ν 
d'où l'on déduit l'expression de l'énergie de Fermi ε F ≡ µ = kTν :
 π2  kT 
2
 h 2  3N 
2/3

(42) ε F = ε 1 −
0
 0  + L avec ε F0 =  
εF  8m  πV 
F
 12 

En utilisant l'expression (41) de ν , on peut alors écrire les fonctions thermodynamiques (37) et (38)
en variables T, V, N sous la forme :
3 3  5π 2  kT  2 
(43) U = PV = Nε F 1 + 0
 0  + L
2 5  12  ε F  
π 2 kT
(44) S = Nk +L
2 ε F0
et en déduire l'expression de la capacité calorifique molaire à volume constant
π 2 kT
(45) cV = R = γT
2 ε F0
On vérifie sur les expressions (42) à (44) que lorsque kT << ε F0 , ce qui est le cas pour les solides
métalliques, les fonctions thermodynamiques telles que ε F , U et S diffèrent très peu de leurs
valeurs au zéro absolu.

Nous constatons également que la capacité calorifique molaire cV , nulle au zéro absolu, varie
linéairement avec la température.

Applications aux métaux


Pour les métaux, l'énergie de Fermi est de l'ordre de 5 eV et la capacité calorifique cV des électrons
libres vaut environ 0.05 R à température ordinaire (T = 300 K) et est donc masquée par la capacité
calorifique du réseau voisine de 3 R. En revanche, à basse température ( T ≤ 5 K ), sa valeur devient
supérieure à celle du réseau qui varie alors comme T 3 (figure (a) ci-dessous).

La capacité calorifique totale du métal est alors de la forme


(46) cV = γT + aT 3
La forme de cette loi (figure (b) ci-dessus) est remarquablement bien vérifiée expérimentalement.
Le tableau précédent présente pour quelques métaux les valeurs des coefficients γ théoriques (45)
et expérimentaux ainsi que celles des températures de Debye Θ D reliées au coefficient a par
a = 12π 4 R / 5Θ 3D . La différence entre les valeurs théoriques et expérimentales de γ est due aux
approximations faites dans le modèle du gaz d'électrons libres dans les métaux. On tient compte de
cette différence en attribuant aux électrons une "masse effective thermique" m ∗ telle que le modèle
du gaz d'électrons redonne la valeur observée de γ . Cette masse est donc définie par
m ∗ γ (expérimental)
(47) =
m γ (théorique )

Application à l'hélium He 3
La figure ci-dessous représente la capacité calorifique de l'hélium He 3 liquide pour T < 0.3 K à une
pression P = 0.12 atm ( v ≅ 37 cm 3 mole −1 ).
Elle présente, pour T ≤ 50 mK , une partie linéaire telle que cV ≅ 2.9 RT (on a ε F0 = 4.3 × 10 −4 eV et
TF = ε F0 / k = 5.0 K ). La valeur théorique de γ ainsi obtenue (1.0 R) diffère de la valeur
expérimentale (2.9 R), ce qui s'explique par la présence d'interactions. On peut, comme dans le cas
des métaux, tenir compte de ces interactions en introduisant une masse effective thermique des
atomes d'hélium He 3 : m ∗ = 2.9m . Substituant m ∗ à m dans l'expression (27) de ε F0 , on obtient
une énergie de Fermi effective ε F∗ = 1.5 × 10 −4 eV correspondant à une température
TF∗ = ε F∗ / k = 1.7 K . On vérifie que le domaine de température où la loi linéaire est valable est bien
tel que T << TF∗ .

Gaz parfait d'électrons avec une densité d'états quelconque


Nous avons étudié jusqu'alors des gaz parfaits de fermions libres pour lesquels la relation de
dispersion est ε = p 2 / 2m . Dans le cas des électrons de conduction des métaux, ceux-ci peuvent
encore être considérés comme étant sans interactions mutuelles, mais leur interaction avec le réseau
a pour effet de modifier la relation de dispersion. Nous allons donc considérer le cas général d'une
relation de dispersion quelconque ε = ε (p ) . Il est alors préférable d'utiliser la variable ε au lieu de
p et donc d'introduire la densité d'états g (ε ) .

Le nombre d'états électroniques d'énergie inférieure à une valeur donnée ε a pour expression
2d 3rd 3p 2V
(48) G (ε ) = ∫ = 3 ∫ d 3p
ε (p )<ε h 3
h ε (p )< ε

où l'intégration sur p a lieu à l'intérieur de la surface ε (p ) = ε . La densité d'états d'énergie a alors


pour expression
G (ε + dε ) − G (ε )
g (ε ) = = G ′(ε )

(49)
= 3 ∫ d 3pδ (ε − ε (p ))
2V
h

Dans le cas particulier d'électrons libres, cette densité d'états vaut


 p 2  4πV
(50) g (ε ) = 3 ∫ 4πp dpδ  ε −  = 3 (2m )3 / 2 ε 1 / 2
2V 2

h  2m  h
La densité de population électronique s'écrit alors
g (ε )
= n(ε )g (ε )
dN
(51) =
dε exp[β (ε − ε F )] + 1

La forme de la fonction de Fermi a les conséquences suivantes :


 Au zéro absolu, tous les états électroniques sont occupés au-dessous de ε F0 . On a alors
dN  g (ε ) pour ε < ε F0
(52) =
dε 0 pour ε > ε F0
l'énergie de Fermi au zéro absolu étant déterminée par
g (ε )dε = G (ε F0 )
0
εF
(53) N = ∫
0

 A une température quelconque ( T << ε F0 / k ), la densité de population a une forme très voisine
de celle du zéro absolu (figure ci-dessus).

Les fonctions thermodynamiques s'obtiennent à partir du grand potentiel


G (ε )dε
(54) Ω = − kT ∫ g (ε ) ln[1 + exp β (ε F − ε )]dε = − ∫
exp β (ε − ε F ) + 1
dont la seconde expression a été obtenue en intégrant par parties. En utilisant le développement
asymptotique (36) de Sommerfeld, ce potentiel devient
εF π2
(55) Ω(T , V , ε F ) = − ∫ G (ε )dε − (kT )2 g (ε F ) + L
0 6

On déduit de cette expression les égalités suivantes :


 ∂Ω  π2
N = −  = G (ε F ) + (kT )2 g ′(ε F ) + L
 ∂ε F  T ,V 6
(56)
 ∂Ω  π2 2
S = −  = k Tg (ε F ) + L
 ∂T V ,ε F 3

La première de ces relations, écrite au zéro absolu, redonne (53) et, en développant G (ε F ) sous la
( ) ( )( )
forme G ε F0 + ε F − ε F0 g ε F0 , permet de trouver le potentiel chimique

(57) µ ≡ ε F = ε F0 −
( )
π 2 g ′ ε F0
(kT )2 + L
6 g εF ( )
0

La seconde relation, écrite à la même approximation


π2
(58) S =
3
( )
k 2Tg ε F0
permet d'obtenir la capacité calorifique
 ∂S  π2 2 0
(59) CV = T   = ( )
k g ε F T = γT
 ∂T V , N 3
qui suit une loi linéaire en T comme en (45).

Les expressions ci-dessus, valables pour une densité d'états quelconque, redonnent les résultats déjà
obtenus pour un gaz d'électrons libres pour lequel
4πV
( )
(60) g ε F0 = 3 (2m ) ε F0 =
3/ 2 1/ 2 3 N
2 ε F0
h
compte tenu de l'expression (27) de ε F0 .

Exercices

Pression et capacité calorifique d'un gaz de fermions


En utilisant la figure de la section V.6.2, déterminez par une méthode graphique la pression P et la
capacité calorifique molaire cV d'un gaz parfait de fermions de spin J = 1/2, de masse molaire
M = 3 g mole −1 et de volume molaire v = 113 cm 3 mole −1 , à la température T = 3.19 K. Comparez
aux valeurs données par les développements (20), (22) de la section V.6.2.

Solution
La valeur numérique de α est
3/ 2
N N  N2 h 2 
(1) α = =   = 0.478
Z 2v  2οMRT 

Par résolution graphique de l'équation (14) de la section V.6.2, f ′(ν ) = α = 0.478 , on trouve
ν = −0.57 et l'on obtient par lecture f (ν ) = 0.52 et f ′′(ν ) = 0.41 . En reportant dans les expressions
exactes (9) et (13) de la section V.6.2, on obtient P = 1.1 × 10 5 Pa = 1.09 atm et
3
cV = R × 0.97 = 12.1 J K −1 mole −1 , tandis qu'en se limitant aux termes explicités dans
2
l'approximation faite en (20) et (22) de la section V.6.2, on a : P = 1 atm(1 + 0.08) = 1.08 atm et

c V = R × (1 − 0.04 ) = 11.9 J K −1 mole −1


3
2

Compressibilité isotherme d'un gaz d'électrons libres


Calculez χ T = −(1 / V ) × (∂V / ∂P )T pour un gaz d'électrons libres au zéro absolu. Le potassium de
nombre volumique d'électrons N / V = 1.32 × 10 28 m −3 a une compressibilité isotherme au zéro
absolu χ T0 = 2.73 × 10 −10 Pa −1 . Comparez cette valeur à celle donnée par le modèle et commentez.
Solution
La pression d'un gaz d'électrons au zéro absolu s'écrit
2/3 5/3
2N 0 h2  3  N
(2) P0 = εF =    
5V 20m  π  V 
d'où
2/3 5/3
dP0 h2  3  N
(3) − V =    
dV 12m  π  V 

La compressibilité isotherme du gaz d'électrons libres vaut donc


1 dV 12m  π 
2/3 5/3
V 
(4) χ T0 = − = 2    
V dP0 h  3 N

On voit que le gaz d'électrons est d'autant moins compressible qu'il est plus dense. Appliquant cette
expression au potassium, on obtient χ T0 = 3.5 × 10 −10 Pa −1 . Cette compressibilité est légèrement
supérieure à la valeur expérimentale, car on n'a pas tenu compte de la cohésion due au réseau
cristallin.

Energie interne d'un gaz d'électrons


Déterminez l'énergie interne d'un gaz d'électrons à partir de la relation U = ∑ N i ε i en utilisant,
pour une densité d'états quelconque, le développement de Sommerfeld. Retrouvez alors l'expression
(59) de la section V.6.2 de la capacité calorifique CV .

Solution
L'énergie interne s'écrit
∞ εg (ε )dε
(5) U = ∫ ε × n(ε )g (ε )dε = ∫
0 exp β (ε − ε F ) + 1

A l'approximation de Sommerfeld, on a :
π2
[εg (ε )]ε =ε F + L
εF
(6) U = ∫ εg (ε )dε + (kT )2 d
0 6 dε

En développant au voisinage de ε F0 , on obtient


π2
( ) ( )+ (kT )2 [g (ε F0 ) + ε F0 g ′(ε F0 )] + L
0
εF
(7) U = ∫ εg (ε )dε + ε F − ε ε g ε 0
F
0
F
0
F
0 6
et, en introduisant l'expression (57) de la section V.6.2 de ε F , il vient
π2
(kT )2 g (ε F0 ) = U 0 + π (kT )2 g (ε F0 )
0 2
εF
(8) U = ∫ εg (ε )dε +
0 6 6

Le terme U 0 est l'énergie au zéro absolu, ainsi qu'on le reconnaît sous sa forme intégrale. De plus
U − U 0 varie comme T 2 ce qui redonne la capacité calorifique linéaire en T déjà trouvée.

V.6.3. Propriétés des gaz de fermions en champ magnétique


Nous abordons maintenant les propriétés de l'aimantation d'un gaz parfait de fermions. Les
comparaisons avec l'expérience portent sur l'hélium He 3 et sur les électrons de conduction des
métaux, cas dans lesquels les particules ont un spin J = 1/2 et un rapport gyromagnétique g = 2. Les
propriétés magnétiques des gaz de fermions ont deux origines :
 L'orientation des moments magnétiques de spin (paramagnétisme de Pauli, 1926).
 La modification des trajectoires dans le cas des particules chargées (diamagnétisme de Landau
si µ B B << kT , effet de Haas-van Alphen si kT << µ B B ).

Paramagnétisme de Pauli
Lorsqu'une particule de spin J = 1/2 pour laquelle g = 2 est placée dans un champ magnétique
d'induction B, elle acquiert une énergie magnétique
1
(1) ε ± = ± gµ B B = ± µ B B
2
où le signe ± décrit l'état de spin (parallèle ou antiparallèle à B). Cette énergie s'ajoute à l'énergie
cinétique que nous continuerons à noter ε i . Les fonctions thermodynamiques sont alors la somme
des deux termes, l'un relatif aux particules de spin parallèle au champ et d'énergie ε i + µ B B et
l'autre à celles de spin antiparallèle d'énergie ε i − µ B B (la dégénérescence de spin est ainsi levée).
En particulier, le grand potentiel s'écrit Ω = Ω + + Ω − et l'on obtient le moment magnétique total de
la substance par dérivation, soit
 ∂Ω 
(2) M = − 
 ∂B  T ,V , µ
la variable µ devant être éliminée au profit de N pour la comparaison expérimentale.

Etude du zéro absolu


Nous commençons par l'étude à T = 0 K en raison de la simplicité de la méthode. A cette
température, tous les niveaux d'énergie inférieure à l'énergie de Fermi ε F sont remplis, les niveaux
supérieurs étant vides. La condition de contrainte N = ∑ N i s'écrit alors
N= ∑g
ε i + µ B B <ε F
i + ∑g i
ε i − µ B B <ε F
(3)
= ∑g i
ε i <ε F − µ B B
+ ∑g i
ε i <ε F + µ B B

expression faisant apparaître une sommation pour chaque état de spin.


En introduisant les notations
 µ B 1  µ B 2 
(4) p = [2m(ε F m µ B B )] = (2mε F ) 1 m B −  B  + L
± 1/ 2 1/ 2

 2ε F 8  ε F 
F

la sommation en notations continues donne
N=
3h 3
(
4πV + 3
)
p F + p F−
3

(5)  3  µ B 2 
8πV
= 3 (2m ) ε F 1 +  B  + L
3/ 2 5/ 2

3h  8  ε F  
pour µ B B << ε F , les termes en B 2 sont négligeables et, de ce fait, l'énergie de Fermi ε F est
toujours donnée par son expression en champ nul ε F0 . Nous voyons ainsi (figure ci-dessus) que
l'application d'un champ magnétique provoque un réajustement des populations tel que ε F0 reste
inchangé.
On peut ensuite obtenir le moment magnétique M de la substance, à partir de la relation
M = ∑ N i µ i , en procédant comme pour N (3), soit
(6) M = ∑ g × (− µ ) + ∑ g
i
0 −µ B
B i
0 +µ B
× µB
ε i <ε F B ε i <ε F B

Le passage aux notations continues donne, comme en (5)


M=
4πV
3h 3
3
(
µ B − p F+ + p F−
3
)
(7)
8πV 3 
= 3 (2m ) µ B  µ B Bε F0 + L
3/ 2 1/ 2

3h 2 

En utilisant la formule donnant ε F0 pour introduire la variable extensive N au lieu de V (ou en


faisant le rapport de (7) à (5)), le moment magnétique du gaz de fermions libres prend la forme
3 µ B 3 µ2B
(8) M = Nµ B B0 = N B0
2 εF 2 εF

On constante que M est proportionnel à B, ce qui indique l'existence d'un paramagnétisme lié à
l'orientation des moments magnétiques des particules. Ce phénomène, interprété dans le cadre de la
statistique de Fermi-Dirac, est appelé paramagnétisme de Pauli pour le différencier du
paramagnétisme lié aux ions des métaux de transition et discuté dans le cadre de la statistique de
Maxwell-Boltzmann (modèle de Brillouin). La susceptibilité magnétique de Pauli
M µ0 3 N µ B2
(9) χ = = µ0
V B 2 V ε F0
est beaucoup plus faible que celle obtenue, en champ faible, avec le modèle de Brillouin puisque
l'on a kT << ε F0 .

On peut retrouver la valeur du moment magnétique M en considérant la figure précédente.


L'apparition du moment magnétique provient du retournement des spins des électrons occupant les
états d'énergie voisins du niveau de Fermi (zone hachurée de droite) et dont le nombre est
( )
g ε F0 / 2 × µ B B (aire de la zone). On a alors
1
( ) ( )
(10) M = g ε F0 µ B B × 2 µ B = g ε F0 µ B2 B
2
relation équivalente à la relation précédente (8), compte tenu de la forme de la densité d'états d'un
gaz de fermions libres. Notons que l'expression (10) est valable pour une densité quelconque.

La discussion précédente explique la faible valeur de la susceptibilité de Pauli par la faible fraction
d'électrons y contribuant (seulement ceux voisins du niveau de Fermi).

Etude en fonction de la température


Nous calculons maintenant le potentiel thermodynamique Ω(T ,V , µ , B ) . Il est la somme de deux
termes Ω + et Ω − relatifs aux deux orientations possibles du spin des particules. Compte tenu de
l'énergie magnétique, ces termes s'écrivent avec les notations de la section précédente
4πV ∞   p2 
Ω ± = − kT 3 ∫ p 2 dp ln 1 + exp β  µ − m µ B B 
h 0   2m 
(11)
Z (T , V )
= − kT f (βµ m βµ B B )
2
d'où
Z  µ B  µ B 
Ω(T ,V , µ , B ) = − kT  f ν − B  + f ν + B 
2  kT   kT 
(12)
 f ′′(ν )  µ B B  
2

= − kTZ (T , V ) f (ν ) +   + L
 2  kT  

Le moment magnétique de la substance est alors


 ∂Ω  µ2B
(13) M (T , V , µ , B ) = −  = B Z (T , V )[ f ′′(ν ) + L]
 ∂B  T ,V , µ kT
le potentiel chimique µ = ε F = kTν étant tiré de la relation
 
(ν ) µ B B 
2
 ∂Ω 
= Z (T , V ) f ′(ν ) + f
1 (3 )
(14) N = −  + L
 ∂µ  T ,V , B  2  kT  

Comme, en champ faible, on a µ B B << kT , la relation précédente se ramène à N = Zf ′(ν ) . Ceci


montre donc que µ ≡ ε F ne varie pas sensiblement avec le champ magnétique et conserve son
expression en champ nul. En effectuant le rapport des expressions (13) et (14), on voit que le
moment magnétique
µ 2 B f ′′(ν )
(15) M = N B
kT f ′(ν )
est proportionnel à B avec un coefficient que nous nous proposons d'étudier dans les deux cas
limites ν << −1 et ν >> 1 .

Le cas ν << −1 correspond aux gaz moléculaires pour lesquels la statistique limite de Maxwell-
Boltzmann corrigée peut être appliquée. La fonction f (ν ) est voisine alors de eν , de sorte que
f ′(ν ) ≅ f ′′(ν ) . Le moment magnétique (15) prend alors la forme
µ B2 B
(16) M = N ( µ << − kT )
kT
identique à la loi de Curie pour un spin J = 1/2 avec g = 2. Notons que cette loi a été établie en
statistique de Maxwell-Boltzmann mais qu'elle est valable également en statistique de Maxwell-
Boltzmann corrigée car les énergies cinétique et magnétique sont additives et se séparent.

Le cas ν >> 1 correspond aux électrons libres dans les métaux. La fonction f (ν ) a alors la forme
limite que nous avons vue et l'on a
f ′′(ν ) d 3  π2 
(17) = log f (ν ) =
′  1− 
f ′(ν ) dv 2ν  6ν 2 

En utilisant la forme limite de ν vue dans la section précédente, le moment magnétique s'écrit
3Nµ B2  π2  kT 
2

(18) M = 1 −  0  B
2ε F0  12 εF  

On retrouve au zéro absolu l'expression (8) et, comme on a kT << ε F0 pour les électrons des
métaux, le moment magnétique ne varie que très peu avec la température.

Dans le cas général où la valeur de ν est quelconque, le moment magnétique est donné par la
formule générale (15) où ν s'obtient à parti de la relation f ′(ν ) = N / Z écrite sous la forme
3/ 2
4  ε F0 
3/ 2
4  TF 
(19) f ′(ν ) =   =  
3 π  kT  3 π T 

On peut, en effet, pour chaque valeur de x = kT / ε F0 = T / TF , déterminer la valeur de f ′(ν ) et par


résolution graphique déterminer celle de f ′′(ν ) . La fonction
MkT f ′′(ν )
(20) y = =
Nµ B N
2
f ′(ν )
obtenue point par point, est représentée en variables x sur la figure ci-dessous.
On retrouve les deux cas limites étudiés précédemment : le premier (ν << −1 ) correspond au cas
des hautes températures ( x >> 1 ) pour lequel y → 1 en accord avec la loi de Curie (16). Le second
(ν >> 1 ) correspond au cas x << 1 pour lequel on a la relation linéaire y = 3x / 2 tirée de (18).

Application à l'hélium He 3
Les propriétés magnétiques de He 3 ont été étudiées excessivement en fonction de la température et
de la pression. Pour des températures supérieures à 2 K (T > 2 K), la loi de Curie (16) est bien
vérifiée dans la phase liquide et dans la phase gazeuse, ce qui s'interprète par un modèle de
particules indépendantes de spin 1/2. Au-dessous de 0.2 K, la susceptibilité magnétique de l'hélium
suit une loi de la forme χ = χ 0 (1 − bT 2 ) en accord avec l'expression théorique (18). Cependant, ni
la susceptibilité extrapolée au zéro absolu χ 0 n'a la valeur (9) ni la constante b n'a la valeur
π 2 k 2 / 12ε F0 si l'on prend l'expression théorique de ε F0 . Ceci est dû au fait que les interactions
2

entre les atomes du liquide et entre leurs spins ne sont plus négligeables.

On peut cependant continuer à interpréter l'ensemble des résultats expérimentaux dans le modèle de
particules indépendantes en introduisant la constante phénoménologique
3 N µ 0 µ B2
(21) ε F = kTF =
∗∗ ∗∗

2 V χ0
définie à l'aide de la relation (9) à partir de la susceptibilité expérimentale extrapolée au zéro absolu
χ 0 . Les valeurs expérimentales de l'aimantation réduite y (20) sont alors portées en fonction de
x = T / TF∗∗ pour diverses valeurs de la pression (figure ci-dessus). On constate que les points
expérimentaux se placent sur une même courbe indépendante de la pression (ils suivent une loi
d'échelle) et que cette courbe est voisine de la courbe théorique obtenue dans le cadre du modèle à
particules indépendantes.

En résumé, nous voyons que, pour un gaz à particules indépendantes, on peut obtenir TF = ε F0 / k à
partir de trois mesures indépendantes extrapolées au zéro absolu : mesure de densité, mesure de la
capacité calorifique et mesure de la susceptibilité magnétique. Dans le cas de l'hélium liquide He 3 ,
ces trois températures, notées TF , TF∗ et TF∗∗ , ont des valeurs différentes en raison de diverses
interactions entre atomes. Comme nous venons de le faire, on utilise donc l'un ou l'autre de ces
paramètres selon le phénomène étudié.

Notons enfin que pour des températures inférieures à 3 mK, l'hélium He 3 présente des phases
superfluides et le modèle simple ci-dessus n'est plus valable.
Cas d'un gaz d'électrons

Niveaux de Landau
En mécanique classique, un électron placé dans un champ magnétique uniforme a un mouvement
hélicoïdal : sa projection perpendiculaire au champ (plan xOy) décrit un cercle à vitesse angulaire
constante
eB
(22) ω =
m
et celle parallèle au champ de direction Oz a un mouvement uniforme. En mécanique quantique, le
mouvement circulaire a une énergie quantifiée
p2 p x2 + p y2  1  1  eh  1
(23) ε ⊥ = ⊥ = →  j + hω =  j +  B = 2 j +  µ B B
2m 2m  2  2 m  2
j 'étant un nombre entier positif ou nul (nombre quantique orbital) de sorte que l'énergie cinétique
de l'électron s'écrit

(24) ε i = (
1
)  1
p x2 + p y2 + p z2 → ε = 2 j +  µ B B + z
p2
2m  2 2m

Les états correspondants à une même valeur de j constituent un niveau de Landau (figure (a) ci-
dessous).
Pour déterminer la dégénérescence associée à chaque valeur de j, nous noterons que, dans le plan
( p x , p y ), les courbes j = constante sont des cercles p x2 + p 2y = 4mµ B B( j + 1 / 2) (23) dont les aires
croissent en progression arithmétique de raison ehB . Dans l'espace des phases (x, y, p x , p y ) , les
surfaces j = constante sont des cylindres limitant des domaines d'extension 4πmµ B BS xy , où S xy est
l'aire d'une section du récipient perpendiculaire à B. Une telle extension correspond à un nombre
d'états quantiques égal à 4πmµ B BS xy / h 2 caractérisant la dégénérescence associée à une valeur de
j. La dégénérescence associée au mouvement de translation selon l'axe des z étant L z dp z / h ( L z
longueur du récipient), celle associée à l'énergie (24) est donc
Vd 3p Lz dp z 4πmµ B BS xy 4πV
(25) g i = → × = 3 mµ B Bdp z
h3 h h2 h

La densité d'états de mouvement g (ε ) s'obtient en considérant les états d'énergie comprise entre ε
et ε + dε (figure (b) ci-dessus). Cette densité reçoit des contributions pour chaque valeur de j telle
que l'expression tirée de (24)
1/ 2
  1 
(26) p z = (2m ) ε − 2 j +  µ B B 
1/ 2

  2 
soit réelle. On a alors, en tenant compte des deux signes possibles pour p z :
4πV 2dp z
g (ε ) = 3 mµ B B ∑
h j dε
(27) −1 / 2
2πV   1 
= 3 (2m ) µ B B ∑ ε − 2 j +  µ B B 
3/ 2

h j   2 

Cette densité, représentée sur la figure (b) ci-dessus, présente des discontinuités lorsque
ε = 2( j + 1 / 2)µ B B . Remarquons toutefois que lorsque B → 0 , la largeur et l'espacement de ces
discontinuités tend vers zéro.

Nous pouvons maintenant écrire l'énergie totale d'un électron dans un champ magnétique en
additionnant son énergie cinétique (24) à celle de son moment magnétique (1), soit
 1 p2
(28) ε = 2 j +  µ B B + z ± µ B B
 2 2m

Il s'ensuit que le grand potentiel Ω(T ,V , ε F , B ) est la somme de deux termes Ω + et Ω − relatifs aux
états de spin parallèle et antiparallèle au champ B et dont les expressions sont :
4πV
Ω ± = − kT ∫ mµ B Bdp z
h3
(29)
   1 p2 
× ∑ ln 1 + exp β  ε F − 2 j +  µ B B − z m µ B B 
j    2 2m 

Pour les électrons d'un métal, on se trouve toujours dans le cas où kT et µ B B sont tous deux très
petits devant l'énergie de Fermi ε F . Nous poursuivons maintenant l'étude dans les deux cas limites
kT >> µ B B et kT << µ B B .

Paramagnétisme électronique
Nous considérons d'abord le cas physique des électrons dans les métaux à température ordinaire,
cas pour lequel on a kT ~ 3 × 10 −2 eV >> µ B B ~ 6 × 10 −5 eV (B ~ 1 T). Pour calculer la somme sur j
figurant dans (29), nous utiliserons l'approximation

 1 ∞
(30) ∑ f  j +  = ∫ f ( j )dj + f ′(0) + L
1
j =0  2 0 24
valable lorsque la fonction f varie lentement au voisinage de 0. Chacun des termes Ω ± est alors de
la forme Ω ± = Ω (±0 ) + Ω (±1) + L avec
4πV   p z2 
Ω (±0 ) = − kT 3
mµ B ∫
B dp z dj ln  1 + exp β 
 ε F − 2 j µ B B − m µ B B 
h   2 m 
(31)
4πV µ B2 B 2 dp z
Ω (±1) = ∫ exp β (( p
h3
m
12 2
z ) )
/ 2m − ε F ± µ B B + 1

En effectuant le changement de variable j → p ⊥2 = 4mµ B Bj inspiré de (23), les termes Ω (±0 )


prennent alors la forme (11). Par ailleurs, le changement de variable ε = p z2 / 2m dans l'expression
de Ω (±1) donne
4πV µ B2 B 2 3/ 2 ∞ ε −1 / 2
(32) Ω (±1) = (2 m ) ∫0 exp β (ε − ε F ± µ B B ) + 1
h 3 24
soit, en utilisant le développement de Sommerfeld :
4πV 3/ 2 µ B B
2 2  π 2  kT  2 
(33) Ω ± = 3 (2m )
(1)
ε F 1 −
1/ 2
  + L
h 12  24  ε F  

Dans la détermination du potentiel chimique µ ≡ ε F , on peut se placer à la limite B = 0


( µ B B << kT ) pour laquelle nous connaissons l'expression de ε F . Avec cette énergie de Fermi, les
termes Ω (±1) s'écrivent
N µ B2 B 2  π 2  kT  
2
(1)
(34) Ω ± = 1 −   
8 ε F0  12  ε F0  
 

L'aimantation M du gaz d'électrons se présente alors sous la forme d'une somme de deux termes
M (0 ) et M (1) . Le terme M (0 ) , obtenu à partir de la fonction Ω (0 ) = Ω (+0 ) + Ω (−0 ) , a la forme (18) déjà
rencontré en étudiant le paramagnétisme de Pauli lié à l'orientation des moments magnétiques de
spin. Le terme M (1) obtenu à partir de Ω (1) = Ω (+1) + Ω (−1) a pour expression
∂Ω (1) N µ B2  π 2  kT  
2
(1)
(35) M =− =− 1 −   B
∂B 2 ε F0  12  ε F0  
 

Cette contribution au moment magnétique, linéaire en B et antiparallèle au champ, correspond au


phénomène de diamagnétisme de Landau dans lequel les trajectoires des électrons s'enroulent
autour des lignes de champ de façon à s'opposer à l'influence de ce dernier.

Le moment magnétique total M = M (0 ) + M (1) du gaz d'électrons libres et sa susceptibilité ont alors
pour expression
2
χVB µ Nµ 2  π 2  kT 
(36) M = avec χ = 0 0 B 1 −  0 
µ0 Vε F  12  ε F 
ce qui correspond au phénomène global de paramagnétisme électronique. Notons que le rapport
entre les valeurs des contributions du diamagnétisme de Landau et du paramagnétisme de Pauli,
égal à -1/3 pour un gaz d'électrons libres, peut être différent si l'on tient compte des interactions.

La susceptibilité paramagnétique électronique varie très peu avec la température et a une valeur très
faible par rapport à celle du paramagnétisme ionique (modèle de Brillouin)
χ (électrons ) kT
(37) ~
χ (Brillouin ) ε F0

De ce fait, le paramagnétisme électronique est masqué par celui qui est lié aux ions dans le cas des
métaux de transition. On observe donc ce phénomène dans les métaux comprenant des ions non
magnétiques. Toutefois il est alors du même ordre de grandeur que le diamagnétisme ionique et on
n'obtient pas les susceptibilités magnétiques électroniques directement.

Le tableau ci-dessous contient les susceptibilités magnétiques électroniques de métaux


monovalents, comparés aux valeurs théoriques (36) pour un gaz d'électrons libres. Seul l'ordre de
grandeur est reproduit.

Métal n χ théo χ exp m ∗∗ / m χ théo


(10 22 cm −3 ) (10 −6
SI ) (10 −6
SI ) (10 −6
SI )
Li 4.60 6.60 24.2 1.63 -0.6
Na 2.54 5.35 10.7 1.60 -2.2
K 1.32 4.45 9.8 1.85 -4.0
Rb 1.08 4.04 10.1 1.95 -5.8
Cs 0.86 3.86 11.9 2.05 -7.2
Cu 8.46 8.15 25.8 2.31 -34.8
Ag 5.86 7.18 26.4 3.59 -51.5
Au 5.90 7.23 38.8 4.61 -72.8
On peut alors corriger la théorie en introduisant une masse effective magnétique m ∗∗ de l'électron
telle que
m ∗∗ χ (expérimental)
(38) =
m χ (théorique )

Le rapport de la masse effective ainsi déterminé à la masse effective thermique m ∗ , compte tenu
des expressions théoriques de γ et χ ,
m ∗∗ π 2 Rk V χ
(39) ∗ = (expérimental)
m 2 µ 0 µ B2 n γ
est en général différent de 1. Les corrections introduites sous la forme des masses effectives
diffèrent donc dans les phénomènes thermiques et magnétiques, ce qui s'interprète par le fait que les
interactions y interviennent de manière différente.

Effet de Haas-van Alphen


Nous considérons maintenant le cas des électrons d'un métal à basse température (T ~ 1 K) et en
champ fort (B ~ 10 T) pour lequel kT << µ B B . La fonction de j intervenant dans l'expression (29)
de Ω ± varie alors rapidement au voisinage de j = 0 et l'approximation (30) cesse d'être valable. On
utilise alors la formule exacte de Poisson
∞ ∞
 1 ∞
(40) ∑ f  j +  = ∫ f ( j )dj + 2∑ (− 1) ∫ f ( j ) cos 2πnj dj
n

j =0  2 0
n =1

de sorte que l'on a


(0 ) 4πV

(41) Ω ± = Ω ± − 3 2mµ B B ∑ (− 1) ∫ dp z dj f ± ( j , p z ) cos 2πnj
n

h n =1
avec
  p2 
(42) f ± ( j , p z ) = kT ln 1 + exp β  ε F − 2 jµ B B − z m µ B B 
  2m 
Les termes Ω (±0 ) sont ceux écrits en (31). Leur somme Ω (0 ) = Ω (+0 ) + Ω (−0 ) étant le grand potentiel
(11), rend compte de l'effet d'orientation des moments magnétiques des électrons. Pour calculer les
intégrales figurant dans (41), nous nous plaçons dans l'approximation du zéro absolu et un calcul
fastidieux montre que
µ B B p F± (− 1)n (2m )1 / 2 (µ B B )3 / 2  πnε F π 
(43) ∫ dp z dj f ± ( j , p z ) cos 2πnj = 2 2 − cos − 
π n 2π 2
n 5/ 2
µ
 B B 4
où p F± sont les quantités introduites en (4). Compte tenu de la relation

(− 1)n π2
(44) ∑ n2
n =1
=−
12
les termes Ω ± (41) s'écrivent
4πV  µ B B ± (2m )1 / 2 (µ B B )3 / 2 1  π nε F π  
(45) Ω ± = Ω (±0 ) + mµ B 
B pF + ∑n cos − 
h3 π2  µ B B 4 
5/ 2
 6 n

Le second terme de cette expression


4πV mp F± 2 2 4πV µ 2B2
(46) Ω (±1) = 3 µ B B ≅ 3 (2m )3 / 2 B ε F1 / 2
h 6 h 12
(1)
s'identifie au terme Ω ± obtenu en (34) et relatif au diamagnétisme de Landau au zéro absolu.

Le grand potentiel Ω d'un gaz d'électrons libres au zéro absolu a alors pour expression
 πnε F π 
(47) Ω(T = 0, V , µ ≡ ε F , B ) = Ω (0 ) + Ω (1) + 3 (2m ) (µ B B ) ∑ 5 / 2 cos
4V 1
− 
3/ 2 5/ 2

πh n n  µBB 4 

En conclusion nous voyons que Ω est la somme de trois termes :


 Ω (0 ) , représentant la contribution liée à l'orientation du spin des électrons.
 Ω (1) , écrit en (34), représentant la contribution liée aux trajectoires hélicoïdales des électrons.
 Un terme oscillant lorsque B varie et qui est de l'ordre de (µ B B / ε F ) par rapport à Ω (0 ) et
1/ 2

Ω (1) .
L'origine de cette oscillation est la suivante. Au zéro absolu, tous les niveaux d'énergie sont peuplés
jusqu'au niveau de Fermi ε F . Ce niveau variant peu avec le champ magnétique, nous le noterons
ε F0 . La densité d'états (27) au voisinage de ε F0 devient alors infinie (figure (b) ci-dessus) chaque
fois que 1 / B vaut (2 j + 1)µ B / ε F0 , c'est-à-dire avec une périodicité
(48) ∆(1 / B ) = 2 µ B / ε F0

Cette période est bien celle du terme oscillant de (47). Lorsque kT devient de l'ordre de µ B B , la
zone de transition de la fonction de Fermi recouvre plusieurs discontinuités de g (ε ) et, par effet de
moyenne, les oscillations s'estompent.

Le moment magnétique M s'obtient par dérivation de l'expression (47) de Ω par rapport à B. Ce


moment contient plusieurs termes de grandeurs différentes. En conservant seulement le terme le
plus important qui provient de la contribution oscillante de Ω , on a finalement
1/ 2
3 µ B 1  πnε F0 π 
(49) M = −

Nµ B  B0  ∑n sin  − 
 εF   µBB 4 
3/ 2
n

Ce moment magnétique est de l'ordre de ε F0 / µ B B ( )1/ 2


~ 30 fois plus grand que le moment
magnétique (36) du gaz d'électrons à température ambiante. Sa propriété la plus remarquable est sa
variation oscillante en fonction de B avec la périodicité (48). Cet effet, observé par W.J. de Haas et
P.M. van Alphen en 1930, porte leurs noms et a été interprété qualitativement par R. Peierls en
1933 et explicité par L.D. Landau en 1939. La figure ci-dessous représente les oscillations de
l'aimantation du potassium à 1.07 K dans un champ magnétique de l'ordre de 13 T.
La périodicité mesurée des oscillations, ∆(1 / B ) = 5.75 × 10 −5 T −1 , est en bon accord avec la valeur
théorique ∆(1 / B ) = 5.5210 −5 T −1 calculée à partir de (48) en prenant les valeurs numériques dans
les tableaux précédents.

Notons que la période (48) peut s'écrire sous la forme


eh
(50) ∆(1 / B ) =
eh eh
= 2 =
mε F πp F AF
où AF = πp F2 est l'aire d'un grand cercle de la sphère de Fermi.

V.6.4. Théorie élémentaire de la conduction dans les métaux

Modèle de Drude
P. Drude proposa, en 1900, un modèle simple de la conduction métallique. Il supposa que ce sont
des électrons libres qui en sont responsables et fit les hypothèses suivantes :
i) Les électrons libres sont sans interaction à distance, ni entre eux, ni avec les ions formant le
réseau cristallin. De ce fait, ils se propagent en ligne droite en l'absence de champ extérieur.
ii) Chaque électron subit des collisions, soit avec les ions, soit avec les autres électrons avec
une fréquence ν = 1 / τ , la loi de répartition des durées entre deux chocs consécutifs étant
donné, en analogie avec le libre parcours moyen des particules dans un gaz, par :
dt
(1) dP = e −t / τ
τ
iii) Après chaque collision, supposée instantanée, l'électron est "thermalisé", c'est-à-dire que sa
vitesse est distribuée aléatoirement selon la loi de répartition des vitesses à l'équilibre au
point de collision.

Ces hypothèses sont suffisantes pour construire une théorie élémentaire de la conduction en bon
accord avec l'expérience.

Loi de distribution des vitesses d'électrons libres


P. Drude utilisa dans son modèle la loi de distribution de Maxwell. C'est A. Sommerfeld (1928) qui
corrigea les résultats de Drude en introduisant la loi de distribution des vitesses en statistique de
Fermi-Dirac. Cette loi s'obtient en effectuant les changements de notation :
2d 3rd 3p p2
(2) g i → ε i → p → mv
h3 2m
dans la loi de répartition de Fermi-Dirac. On obtient ainsi le nombre d'électrons contenus dans un
volume élémentaire d 3 r et ayant la vitesse v à d 3 v près :
−1
2m 3   mv 2 ε F   3 3
(3) d N r , v = 3 exp
6
−  + 1 d rd v
h   2kT kT  
où ε F est le niveau de Fermi. Comme nous l'avons vu, cette distribution varie peu avec la
température et nous la considérerons dorénavant à l'approximation T = 0 pour laquelle on a
2m 3 2m / h d rd v v < v F
3 3 3 3 0

(4) d 6 N r , v = 3 = 
h 0 v > v F0
(
où v F0 = 2ε F0 / m )
1/ 2
est une vitesse de l'ordre de 10 6 ms −1 pour ε F0 ~ 5 eV . On voit donc que toutes
les vitesses sont équiprobables jusqu'à la vitesse de Fermi v F0 . Il est alors facile de vérifier que l'on
a
1 8πm V 0 2 3 0
v = ∫ d 6 N r ,v v = 3 ε F = vF
N h N 4
1 8πm V 0 5 / 2 3 0 2
1/ 2
v 2 = ∫ d 6 N r,v v 2 = ε F = vF
(5) N 5h 3 N 5
vx = 0
1 1 2
v x2 = v 2 = v F0
3 5

Loi d'Ohm
Considérons un métal soumis à un champ électrique uniforme constant E. Soit un électron libre
subissant un choc à l'instant t = 0 au point r0 et repartant à la vitesse v 0 . Cet électron est alors
uniformément accéléré par le champ électrique selon la loi
dv
(6) m = −eE
dt
de sorte que sa vitesse et sa position à un instant ultérieur t précédant un nouveau choc sont
dr e e t2
(7) = v = v 0 − Et et r = r0 + v 0 t − E
dt m m 2

Nous voyons que le déplacement d = r − r0 de l'électron contient un terme "désordonné" v 0 t


correspondant à l'agitation thermique et un terme "ordonné" − eEt 2 / 2m correspondant à l'effet du
champ électrique. Le déplacement moyen entre deux collisions s'obtient alors en effectuant deux
processus de moyenne : l'un sur la distribution des vitesses v 0 , l'autre sur la distribution des valeurs
du temps t entre deux collisions. Comme on a v 0 = 0 et t 2 = 2τ 2 , le déplacement moyen d'un
électron entre deux collisions est :
e
(8) d = − Eτ 2
m

Nous pouvons calculer la vitesse moyenne de "dérive" de l'électron en considérant un grand


nombre de libres parcours successifs :
∑ d i N d = − e τE
(9) v = i =
∑i t i N τ m
le temps moyen entre deux collisions successives étant τ . Les électrons remontent dans le champ
électrique avec une vitesse proportionnelle à E, le facteur de proportionnalité µ = eτ / m étant
appelé mobilité des électrons. Il se crée ainsi un courant électrique dont la densité est
ne 2τ
(10) j = n × (− e ) ± v = E = σE
m
où n est le nombre volumique d'électrons libres. Ce résultat constitue la loi d'Ohm microscopique et
donne l'expression de la conductivité électrique
ne 2 ne 2 λ
(11) σ = τ= = neµ
m m v

La loi d'Ohm étant bien vérifiée expérimentalement, la mesure de la conductivité σ (ou de la


résistivité ρ = 1 / σ ) permet de calculer τ . Le tableau ci-dessous indique que ce temps est de
l'ordre de 10 −14 s . Cette valeur montre, d'une part, que la vitesse de dérivé des électrons (vitesse du
courant), donné par (9) est de l'ordre d'un mètre par seconde pour des champs électriques de l'ordre
de quelques volts par centimètre. Elle montre, d'autre part, que le libre parcours moyen des
électrons λ = v τ , de l'ordre de 100 Å, est grand devant les distances interatomiques.

Métal ρ n τ RH − neRH K K / σT
Li 8.55 4.60 0.9 -1.7 1.25 71 2.22
Na 4.3 2.54 3.3 -2.5 1.02 135 2.13
K 6.1 1.32 4.4 -4.2 0.89 99 2.21
Rb 11.6 1.08 2.8
Cs 19 0.86 2.2 -7.8 1.07
Cu 1.55 8.46 2.7 -0.55 0.75 400 2.27
Ag 1.47 5.86 4.1 -0.84 0.79 418 2.25
Au 2.01 5.90 3.0 -0.72 0.68 311 2.29
Propriétés de conduction des métaux monovalents à 0°C : résistivité électrique ρ = 1 / σ
( 10 −8 Ωm ), nombre volumique d'électrons libres n ( 10 22 cm −3 ), durée moyenne τ ( 10 −14 s )
d'un libre parcours, coefficient de Hall RH ( 10 −10 m 3 C −1 ) et conductivité thermique K
( Wm −1K −1 ). Le rapport K / σT est en 10 −8 SI.

Notons que l'énergie cinétique acquise par l'électron entre deux chocs consécutifs
1
( )
(12) ∆ε c = m v 2 − v 02 =
2
e2 2 2
2m
E t − ev 0 ⋅ Et
est cédée au réseau après chaque choc. La valeur moyenne de cette énergie vaut
∆ε c = e 2 E 2τ 2 / m et montre que la puissance volumique cédée au réseau
N ∆ε c ne 2τ 2
(13) P = = E
V τ m
satisfait à la loi de Joule
(14) P = j ⋅ E = σE 2

Remarquons enfin que tous ces résultats n'ont pas fait intervenir la loi de distribution de Fermi-
Dirac. Ils sont donc indépendants de la statistique considérée.

Etude de la conductivité électrique des métaux


L'étude précédente a montré que le libre parcours moyen des électrons est grand devant les
distances interatomiques, ce qui peut paraître surprenant. Plusieurs facteurs sont responsables de ce
fait. Tout d'abord, en raison du principe d'exclusion de Pauli, les électrons occupent presque tous
les états situés au-dessous de l'énergie de Fermi. Le changement de l'état quantique d'un électron à
la suite d'un choc n'est donc possible qu'au voisinage du niveau de Fermi et ne concerne donc
qu'une faible fraction des électrons. D'autre part, les ions métalliques n'occupent qu'une faible
partie du volume d'un cristal. Enfin, dans un réseau parfait, le mouvement des électrons s'adapte au
potentiel périodique du cristal. Nous avions déjà vu cela lors de l'étude de la propagation d'un
électron le long d'une ligne d'atome et où l'électron se comporte comme une particule libre.

Les chocs subis par les électrons sont alors dus principalement aux écarts à une structure périodique
du cristal provoquée par
 Les phonons, correspondant aux vibrations du réseau.
 Les défauts cristallins (vacances, ions interstitiels, dislocations, structure polycristalline,…).
 Les impuretés chimiques.

La résistivité totale du métal peut alors être considérée comme la somme de plusieurs termes
correspondant à chacune des causes de collisions. La contribution des phonons, nulle au zéro
absolu, étant la seule à dépendre de la température, on écrit loi de Matthiessen)
(15) ρ = ρ rés + ρ id (T )
où ρ rés est la résistivité résiduelle au zéro absolu due à l'existence de défauts (physiques et
chimiques) du cristal et ρ id (T ) , appelée résistivité idéale, est la résistivité due aux collisions avec
les phonons. La figure ci-dessous représentant la résistivité du sodium à basse température montre
que la valeur résiduelle ρ rés dépend des qualités de l'échantillon (la courbe 2 correspond à un
échantillon ayant subi un recuit prolongé ayant amélioré son état cristallin) alors que la valeur
idéale ρ id ne dépend que de la température. Notons qu'en dehors du domaine des basses
températures, la résistivité résiduelle est négligeable.
La figure ci-dessous montre les variations de ρ avec la température pour quelques métaux. Les
températures de Debye Θ D choisies sont 202 (Na), 310 (Cu), 220 (Ag) et 185 K (Au) et les
résistivités correspondantes sont 2.27 (Na), 1.80 (Cu), 1.16 (Ag) et 1.32 × 10 −8 Ω m (Au).
A haute température, cette variation est linéaire en relation avec le fait que le libre parcours moyen
des électrons λ est inversement proportionnel au nombre volumique de phonons, soit, dans ce
domaine, à la température. A basse température, la résistivité idéale a un comportement en T n avec
n~5. A l'aide d'un modèle simple, F. Bloch proposa l'interpolation semi-empirique
5
 T  ΘD / T x 5 dx
(16) ρ id ∝   ∫
Θ
 D 0 ( )(
e x − 1 1 − e−x )
où Θ D est la température de Debye du solide. Cette loi représente de façon satisfaisante les
données expérimentales d'un grand nombre de métaux (voir la figure ci-dessus), la valeur de Θ D
pouvant différer de celle obtenue par les mesures de capacité calorifique.

Effet Hall
Lorsque l'on applique un champ magnétique d'induction B à un conducteur déjà soumis à un champ
électrique E, les électrons subissent leurs actions combinées selon la loi
= −e(E + v × B )
dv
(17) m
dt

La fréquence de collision étant grande devant la fréquence cyclotron ω = eB / m , le champ


magnétique n'a que peu d'action entre deux collisions, et l'on peut remplacer dans le second
membre v par l'expression (7) valable en champ nul. L'intégration de l'équation précédente donne :
t 2 e2 t3
(18) r = r0 + v 0 t − (E + v 0 × B ) + 2 (E × B )
e
m 2 m 6

Le déplacement moyen entre deux collisions est alors :


t2 e2 t3
+ 2 (E × B )
e
d = r − r0 = − E
(19) m 2 m 6
eτ 
2
eτ 
=−  E − (E × B )
m  m 
résultat montrant que les électrons ne suivent plus les lignes du champ électrique. La densité de
courant correspondante est donc
 σ 
d = σ E − (E × B )
ne
(20) j = −
τ  ne 
où nous avons utilisé l'expression (11) de σ .
Dans un conducteur filiforme, le champ électrique appliqué E 0 est parallèle au fil. Dans une
période transitoire, les électrons acquièrent une vitesse transversale due au terme en E × B et il se
produit une accumulation de charges à la surface du fil dans cette direction. (figure ci-dessous).

Cette accumulation crée un champ électrique E H orthogonal à E 0 et B, appelé champ de Hall et


compensant l'effet du champ magnétique. En régime permanent, les électrons circulent alors dans la
direction du fil ( j || E 0 ). En écrivant E = E 0 + E H dans (20) et en séparant les termes parallèle et
perpendiculaire, on trouve
σ  σ 
E H = (E 0 × B ) j = σ  E 0 − (E H × B ) ≅ σE 0
(21)
ne  ne 
1
EH = − B × j
ne

Le champ de Hall est perpendiculaire et proportionnel à la densité de courant j et au champ


magnétique B, le facteur de proportionnalité, appelé coefficient de Hall, étant
1
(22) RH = −
ne

Le signe - correspond au signe des porteurs de charge : des porteurs de charge positifs créeraient un
champ de Hall opposé. La valeur du coefficient RH pour quelques métaux monovalents est donnée
dans le tableau précédent. L'expression (22), ne faisant intervenir que le nombre volumique
d'électrons est en assez bon accord avec la valeur expérimentale pour ces métaux. Notons que la
mesure du champ de Hall est couramment utilisée pour déterminer la valeur des champs
magnétiques (sonde semi-conductrice à effet Hall).

Conduction thermique
A température ambiante, les métaux ont une conductivité thermique de l'ordre de 10 à 100 fois
supérieure à celle des diélectriques. Cette différence est due au fait que le transport d'énergie par les
électrons libres du métal est plus important que celui effectué par les phonons.

La conductivité thermique des électrons peut être estimée à partir de l'expression obtenue en
cinétique des gaz valable également pour des électrons
c 2 c
(23) K = nλv V = nτ (v ) V
1 1
3 N 3 N
où cV est la capacité calorifique électronique molaire que nous avons vue. En explicitant cV ainsi
que v (5), on obtient
3π 2 2
02 k T 3π 2 nτ k 2
(24) K = nτ v F = T (approx.)
32 ε F0 16 m

Un calcul correct, utilisant l'équation de Boltzmann, donne un résultat qui ne diffère que d'un
facteur numérique voisin de 2.
π 2 nτ k 2
(25) K = T (exact)
3 m

La conduction thermique par les phonons étant négligeable, cette expression représente la
conductivité thermique totale du métal.

Il est intéressant de comparer les conductivités thermiques K et électrique σ (11) en formant le


rapport L = K / σT , appelé nombre de Lorenz. Dans le modèle étudié, on obtient
K π 2 k2
(26) L = = = 2.44 × 10 −8 SI
σT 3 e 2
Ce résultat est en accord avec la loi de Wiedermann et Franz (1853) qui, ayant observé qu'un bon
conducteur thermique est également un bon conducteur électrique, ont montré que, pour une
température donnée, le rapport K / σ est le même pour différents métaux. Le tableau précédent
contient les valeurs expérimentales du nombre de Lorenz de divers métaux à 0°C, valeurs en bon
accord avec le modèle. A température plus basse, le nombre de Lorenz devient inférieur à la valeur
(26) (voir la figure ci-dessous).
Cela est dû au fait que la diffusion électron-phonon à petit angle produit une résistance plus faible
au transport de charge électrique qu'au transport d'énergie. Aux plus basses températures, le nombre
de Lorenz retrouve sa valeur (26), σ et K / T atteignant leur valeur résiduelle.

Exercices de compréhension
1. Déterminez l'énergie de Fermi au zéro absolu pour un gaz d'électrons à une dimension confiné
sur un segment de longueur L. Même question pour un gaz à deux dimensions.

Réponse : h 2 N 2 / 8mL2 , h 2 N / 4πmS .


2. Calculez la longueur d'onde associée à un électron d'énergie égale à l'énergie de Fermi pour le
cuivre ( N / V = 8.46 × 10 22 cm −3 ). Comparez à la distance de deux atomes proches voisins (d =
2.55 Å).

Réponse : λ = 4.63Å .
3. Calculez l'énergie cinétique moyenne d'un électron dans le cuivre au zéro absolu
( N / V = 8.46 × 10 22 cm −3 ). A quelle température une molécule d'un gaz a-t-elle la même énergie
cinétique moyenne ?

Réponse : 4.22 eV, 32600 K.


4. Calculez la valeur de la pression P du gaz d'électrons dans le cuivre au zéro absolu
( N / V = 8.46 × 10 22 cm −3 ).

Réponse : 3.81 × 1010 Pa = 376000 atm .


5. En considérant la deuxième ou la dernière figure de la section V.6.2, montrez par un
raisonnement qualitatif que la différence U − U 0 entre les énergies internes à T ≠ 0 et T = 0
( )
est, à un facteur numérique près, égal à (kT ) g ε F0 .
2

6. Calculez et représentez la dérivée de la fonction de Fermi n(ε ) . Quelle est sa limite pour T = 0
?
7. Déterminez, pour un gaz d'électrons libres à deux dimensions, l'énergie de Fermi à une
température quelconque. Discutez sa valeur en considérant le développement de Sommerfeld
(36) de la section V.6.2.

( ( ) )
Réponse : ε F = kT ln exp βε F0 − 1 égal à ε F0 à un terme exponentiellement petit près.
( )
8. Déterminez la densité d'états molaire g ε F0 d'un gaz d'électrons à deux dimensions en fonction
de S/N où S est la surface du gaz. Calculez cette densité pour le graphite pour lequel
S / N = 2.62 × 10 −20 m 2 . En déduire la valeur du coefficient γ de la capacité calorifique molaire
électronique ( cV = γT ) pour le graphite. Cette valeur est très différente de la valeur
expérimentale γ = 13.8 × 10 −6 J K −2 mole −1 car les électrons de conduction restent très liés aux
atomes de carbone.

Réponse : 4.1 × 10 41 mole −1 , 2.6 × 10 −6 J K −2 mole −1 .


9. Montrez que si l'on fait tendre B vers 0 dans la densité d'états (27) de la section V.6.3 d'un gaz
d'électrons en champ magnétique on retrouve la densité usuelle
( )
( dn = g (ε 0 )dε = 2πV / h 3 (2m ) ε 01 / 2 dε ) en absence de champ. On remplacera la somme par
3/ 2

une intégrale.
10. Quel serait le libre parcours moyen des électrons libres d'un métal s'ils n'avaient que des
interactions de contact avec les ions du réseau ? On prendra le cas du sodium dont les ions ont
un rayon r = 0.98 Å et dont le nombre volumique d'électrons est n = 2.5 × 10 22 cm −3 . Pourquoi
cette valeur est-elle nettement inférieure à la valeur expérimentale λ ~ 300Å ?

Réponse : λ ≅ 1 / πr 2 n = 13Å .
11. Estimez le champ électrique dans un fil de cuivre de section 1 mm² parcouru par un courant de
1 A ( ρ ≅ 10 −8 Ω m ).

Réponse : 10 −2 V m −1 .
12. Montrez que la résistivité électrique idéale donnée par la formule de Bloch (16) de la section
V.6.4 varie comme T pour T >> Θ D et comme T 5 pour T << Θ D .
13. On considère un échantillon parallélépipédique rectangle d'arêtes a, b, c. On fait circuler un
courant parallèlement à a en appliquant une différence de potentiel U. On crée un champ
magnétique B parallèlement à b. Montrez qu'il apparaît une ddp VH = RH σBUc / a . Calculez
VH pour un échantillon avec a = 1 cm, c = 0.01 cm soumis à une tension U = 0.5 V et à un
champ B = 1 T. On envisagera le cas du cuivre ( RH σ = 3.5 × 10 −3 SI ) et celui d'un semi-
conducteur ( RH ~ 0.1 SI ).

Réponse : 17.5 µ V , 0.5 mV.

Problème 1
Etudions maintenant une application directe des propriétés quantiques de la matière et du
comportement statistique des fermions dans un cadre relativiste avec le très beau problème des
propriétés des étoiles naines blanches.

Etude d'un gaz d'électrons relativistes


1. Rappelez l'expression donnant la répartition à l'équilibre d'un gaz d'électrons libres et étudiez
cette répartition à T = 0 K. On définira l'énergie de Fermi ε F0 .
2. Rappelez l'expression de la densité d'états de translation et en déduire l'expression de la sphère
de Fermi dans l'espace des impulsions, soit p F0 , ainsi que celle de x F = p F0 / mc .
(
3. L'énergie d'une particule d'impulsion p est donnée en relativité par ε = p 2 c 2 + m 2 c 4 . A la )1/ 2

limite classique p / mc >> 1 , on a ε ≅ pc . Utilisez l'expression relativiste de ε pour écrire


l'énergie de Fermi ε F0 correspondant à l'impulsion p F0 en fonction de x F . Discutez les deux
limites x F << 1 et x F >> 1 .
4. Etablissez l'expression de l'énergie interne du gaz d'électrons au zéro absolu U 0 = ∑ N i ε i en
variables V et x F . On exprimera le résultat à l'aide de la fonction que l'on ne cherchera pas à

0
x
( )
expliciter h( x ) = ∫ t 2 t 2 + 1
1/ 2
dt . Les formes limites de h( x ) pour x << 1 et x >> 1 sont
respectivement
x3 x5 x4
(1) h( x ) = + + L (x << 1) et h( x ) = (x >> 1)
3 10 4
5. En déduire l'expression de la pression cinétique P0 des électrons en fonction de x F , de h( x F )
et de sa dérivée h′( x F ) .
( )
6. Montrez qu'à la limite classique x F << 1 , on a P0V = 2 U 0 − Nmc 2 / 3 .
7. Montrez aussi qu'à la limite ultrarelativiste x F >> 1 , on a P0V = U 0 / 3 . Commentez ces
résultats.

Application au cas des naines blanches


Une naine blanche est une étoile vieille, constitué essentiellement d'hélium He 4 , de masse M
voisin de la masse du Soleil M S = 2.0 × 10 30 kg et de masse volumique extrêmement élevée
ρ ~ 1010 kg m −3 ~ 10 7 ρ S où ρ S est la masse volumique moyenne du Soleil. La température
intérieure T de l'étoile est de l'ordre de 10 7 K . A cette température, l'hélium est complètement
ionisé et on peut considérer que l'étoile est formée de N électrons libres et de N/2 noyaux d'hélium
ayant pour effet de neutraliser la charge des électrons et de maintenir la cohésion de l'étoile par
interaction gravitationnelle.

1. Calculez le volume V, puis le rayon R d'une naine blanche typique telle que M = M S et
ρ = 1010 kg m −3 . Comparez R au rayon de la Terre, égal à 6400 km.
2. Calculez le nombre d'électrons N et le nombre volumique N/V de cette étoile (masse atomique
( )
de l'hélium M He 4 = 4.0 g mole −1 ).
3. Calculez la valeur de p F0 pour le gaz d'électrons de la naine blanche typique ainsi que celle de
x F . En déduire qu'il est nécessaire d'utiliser la cinématique relativiste pour calculer l'énergie
des électrons.
4. Calculez ε F0 et en déduire que l'on peut faire l'étude du gaz d'électrons dans la naine blanche à
l'approximation T = 0 K.
5. L'énergie totale d'une naine blanche est la somme de l'énergie cinétique des électrons et de
l'énergie gravitationnelle de l'étoile, l'énergie cinétique des noyaux et l'énergie électrostatique
étant négligeable. Un argument dimensionnel montre que l'énergie gravitationnelle d'une étoile
de masse M et de rayon R a la forme
M2
(2) E = −αG
R
où G est la constante de gravitation et α un nombre dépendant de la répartition de la matière
dans l'étoile ( α = 3 / 5 pour une répartition uniforme).

Exprimez le volume V et le rayon R de l'étoile en fonction de N et x F puis de M et x F . On fera


l'approximation que la masse d'un atome d'hélium est égale à 4m p , m p étant la masse d'un
proton.
6. Exprimez l'énergie cinétique U 0 des électrons en fonction de M et x F .
7. Mettez l'énergie gravitationnelle de l'étoile sous la forme
5/3
3 M 
(3) E = − αγmc 2   xF
8 m 
 p 
où γ est une constante sans dimension dont on donnera l'expression. Dans les calculs
numériques, on prendra γ = 1.03 × 10 −38 .
8. Ecrivez la condition permettant de déterminer le rayon à l'équilibre R0 d'une étoile de masse M
donnée.
9. Explicitez cette condition d'équilibre et mettez la sous la forme
2/3
M 
(4) f ( x F ) = αγ  
m 
 p
On donnera l'expression de f ( x ) en fonction de h( x ) et de h′( x ) .
10. La fonction f ( x ) est représentée dans la figure ci-dessous.

Déterminez par une méthode graphique le rayon d'équilibre R0 d'une naine blanche de masse
M = M S . On choisira la valeur α = 3 / 5 .
11. Montrez que les naines blanches ne peuvent pas ne peuvent pas avoir une masse supérieure à
une masse limite M l (limite de Chandrasekhar) que l'on exprimera en fonction de M S .

Données numériques : hc = 1.99 × 10 −25 J m , mc 2 = 8.19 × 10 −14 J , k = 1.38 × 10 −23 J K −1 ,


m p = 1.67 × 10 −27 kg .
Solution

Etude d'un gaz d'électrons relativistes


1. Voir la section V.6.1. L'énergie de Fermi est identique au potentiel chimique µ .
2. La densité d'états pour des électrons de spin 1/2 est 2d 3rd 3p / h 3 . En intégrant sur r et p, on a
(voir l'étude au zéro absolu dans la section V.6.2)
V 4
(5) N = 2 3 × πp F03
h 3
soit
1 / .3 1/ 3
h  3N  h  3N 
(6) p = 
0
 et x F =  
2  πV  2mc  πV 
F

3. On a
(
(7) ε F0 = p F0 c 2 + m 2 c 4
2
)1/ 2
(
= mc 2 x F2 + 1 )1/ 2

Pour x F << 1 , l'énergie de Fermi a pour expression


2/3
 x2  h 2  3N 
(8) ε F0 ≅ mc 2 1 + F  = mc 2 +  
 2  8m  π V 

Au terme d'énergie de masse près, on retrouve l'énergie de Fermi (27) de la section V.6.2 d'un
gaz d'électrons non relativistes. Pour x F >> 1 , on a
1/ 3
hc  3 N 
(9) ε F0 ≅ mc 2 x F =  
2  πV 
4. L'énergie interne au zéro absolu s'écrit
p 0F V
[
(10) U 0 = ∑ g i ε i = ∫ 2 3 × 4πp 2 dp p 2 c 2 + m 2 c 4
0 h
]
1/ 2

ε i <ε 0 F
En effectuant le changement de variable t = p/mc, il vient
8πV
(11) U 0 = 3 m 4 c 5 h( x F )
h
5. La pression de l'étoile est donnée par
 ∂F   ∂U 0  8π   ∂x  
(12) P0 = − 0  = −  = 3 m 4 c 5 − h( x F ) − Vh′( x F ) F  
 ∂V  N  ∂V  N h   ∂V  N 
car F0 = U 0 − T0 S 0 = U 0 . Avec l'expression (6) de x F , il vient
8π 4 5  x F 
(13) P0 = 3
m c  h ′( x F ) − h( x F )
h  3 
6. En utilisant l'expression limite de h( x ) pour x << 1 , les expressions de U 0 et P0 deviennent :
8πV 4 5  x F3 x F5  8πV 4 5 3 4πV 4 5 5
(14) U 0 = m c  +  = 3 m c x F + 3 m c x F
h3  3 10  3h 5h
et
8π 4 5  x F  2 x F4   x F3 x F5  8π
(15) P0 = m c   x F +  −  +  = m 4 c 5 x F5
h3  3  2   3 10  15 h 3

Après remplacement de x F à partir de (6), il apparaît que le premier terme de U 0 est égal à
Nmc 2 , ce qui correspond à la limite classique, à l'énergie de masse des électrons près. Par
comparaison de U 0 et P0 , on trouve alors que
2
(
(16) P0V = U 0 − Nmc 2
3
)
Cette expression n'est autre que la relation générale PV = 2U / 3 valable pour un gaz non
relativiste, U désignant alors l'énergie interne du gaz (énergie de masse exclue).
7. Avec l'expression limite de h( x ) pour x >> 1, les expressions de U 0 et de P0 deviennent :
8πV 4 5 x F4
(17) U 0 = 3 m c ×
h 4
et
8π 4 5  x F x F4  8π 4 5 x F4
(18) P0 = m c  × x 3
F − = 3 m c ×
h3  3 3  h 12

On en déduit que P0V = U 0 / 3 . C'est la relation générale PV = U / 3 valable pour un gaz


ultrarelativiste ( ε = pc ).

Application au cas des naines blanches


1. Le volume et le rayon de l'étoile sont donnés par
M
(19) V = S = 2.0 × 10 20 m 3
ρ
et
1/ 3
 3V 
(20) R =   = 3.6 × 10 6 m
 4π 

Cette naine blanche a un rayon voisin de celui de la Terre.


2. Le nombre d'atomes d'hélium de l'étoile est
N MS
= × N = 3.0 × 10 56
(21)
2 M He (4
)
Il existe donc 3× 10 56 noyaux d'hélium et N = 6 × 10 56 électrons dans l'étoile. Le nombre
volumique d'électrons est donc N / V = 3 × 10 36 m −3 , soit environ 10 8 fois plus que dans les
métaux.
3. Avec la densité N/V calculée précédemment, on obtient p F0 = 4.7 × 10 −22 kg m s −1 et
x F = p F0 / mc = 1.72 . Ce résultat montre que les électrons proches de la surface de la sphère de
Fermi sont relativistes. Il faudra donc utiliser la cinématique relativiste.
4. L'énergie de Fermi a pour valeur
(
(22) ε F0 = mc 2 x F2 + 1 )
1/ 2
= 1.63 × 10 −13 J = 1.02 × 10 6 eV
La température de l'étoile étant T = 10 7 K , nous sommes dans le cas où kT / ε F0 = 8 × 10 −4 << 1 .
On peut donc se contenter de l'approximation du zéro absolu.
5. A partir de l'expression (6) de x F , on tire
3 1/ 3 1/ 3
3N  h  1  3V  h  9N  1
(23) V =   3 et R =   =  
π  2mc  x F  4π  2mc  4π 2  xF

La masse de l'étoile étant M = ( N / 2 ) × 4m p = 2 Nm p , on a finalement


1/ 3
3
3
 h  M 1 h 3 M 
2/3
1
(24) V =   et R =    
2π 3
 2mc  m p x F 4mc  π  m  x
 p F

6. En portant l'expression précédente de V dans celle de U 0 (11), on obtient


3 2 M h( x F )
(25) U 0 = mc
2 m p x F3
7. De même, l'expression (24) de R étant portée dans celle de E, on a
1/ 3
2 4mc  π 
2/3
 mp 
E = −αGM     xF
h  3   M 
(26) 5/3
4Gm 2p  π  2 / 3 2  M 
= −α   mc    xF
hc  3  m 
 p 

Cette expression a la forme demandée avec la constante sans dimension


32  π  Gm p
2/3 2

(27) γ =  
3 3 hc
8. Le rayon de l'étoile à l'équilibre est donné par la condition de minimum de l'énergie totale
U = U 0 + E par rapport à R, M restant fixé, soit
 dU 
(28)   =0
 dR  R = R0

Les variables R et x F étant liées par la relation (24), la condition peut s'écrire dU / dx F = 0 .
9. Avec les expressions (25) et (26) de U 0 et E, cette condition d'équilibre donne :

dU 3 2 M x F h ′( x F ) − 3h( x F ) 3
5/3
M 
(29) = mc − αγmc 2   =0
dx F 2 mp xF4
8 m 
 p 
et, après simplifications :
x h ′( x F ) − 3h( x F )
2/3
M 
(30) f ( x F ) = 4 F = αγ  
x F4 m 
 p
10. Pour M = M S = 2 × 10 30 kg , on doit résoudre graphiquement f ( x F ) = 0.70 , d'où par lecture sur
la figure précédente, x F = 1.25 . En utilisant la relation (24), on obtient
(31) R0 = 5.00 × 10 6 m = 5000 km

Cette valeur conforme l'ordre de grandeur du rayon de l'étoile typique adoptée ci-dessus.
11. Lorsque x F tend vers l'infini, la forme limite de h( x ) montre que f ( x F ) → 1 . Il n'y a donc plus
de solution à l'équation d'équilibre pour une masse supérieure à
3/ 2
 1 
(32) M l = m p ×   = 3.44 × 10 30 kg = 1.72 M S
 αγ 

Pour des masses supérieures à M l , il n'existe pas d'état d'équilibre dans lequel les forces de
pression cinétique du gaz électronique peuvent contrebalancer les forces d'attraction
gravitationnelle. L'étoile se contracte alors et, la température croissant, de nouvelles réactions
nucléaires apparaissent et l'étoile se trouve dans un autre régime (étoile à neutrons).

Dans une théorie plus complète dans laquelle on tient compte de la variation de densité de
l'étoile avec la profondeur, on trouve que M l = 1.44 M S (limite de Chandrasekhar). Le fait que
le modèle élémentaire donne des résultats proches de ceux du modèle général est dû au fait que
le gaz d'électrons de l'étoile est peu compressible en raison du principe d'exclusion de Pauli.

Problème 2

Emission d'électrons par un métal


Pour interpréter l'émission d'électrons par un métal, nous prenons un modèle dans lequel les
électrons libres forment un gaz de particules sans interactions, les ions du cristal créant un puits de
potentiel uniforme d'énergie − ε A ( ε A > 0 ) à l'intérieur du cristal ( ε A est appelé affinité du métal).
Les électrons ayant une énergie cinétique suffisante peuvent quitter le métal, donnant lieu au
phénomène d'émission thermoélectronique, important aux températures élevées.

1. Donnez l'expression du nombre volumique d'électrons d 3 np ayant leur impulsion égale à p à


d 3p près. On notera ε F l'énergie de Fermi des électrons. En déduire l'expression de d 3 n v , v
désignant la vitesse.
2. Calculez le nombre volumique dnv z d'électrons ayant leur vitesse selon une direction Oz
( )
comprise entre v z et v z + dv z . On pourra poser u = m v x2 + v y2 / 2kT et on remarquera que
1 e −u
(1) =
Ce u + 1 C + e −u
3. Quel est le nombre d 6 N v′ d'électrons ayant la vitesse v à d 3 v près, traversant une surface
normale à Oz d'aire dS pendant une durée dt ? En déduire l'expression de la densité de courant
élémentaire dj z associé aux électrons dont la composante normale de la vitesse est comprise
entre v z et v z + dv z . On posera ε z = mv z2 / 2 .
4. On suppose que les seuls électrons pouvant quitter le métal sont tels que ε z > ε A . Trouvez
l'expression de la densité de courant totale j 0 ≡ j z des électrons quittant le métal sachant que le
travail de sortie w = ε A − ε F est très grand devant kT (loi de Richardson).
5. La figure ci-dessous représente le courant I 0 émis par une cathode de tungstène recouverte
d'une couche d'oxyde, en fonction de la température T. Montrer que la loi de Richardson est en
accord avec les données et déterminer la valeur de w.

6. Lorsqu'on applique une différence de potentiel V ∗ ( V ∗ < 0 ) entre une cathode et une anode
collectrice faites du même métal (effet Schottky), on admet que seuls les électrons d'énergie
ε z > ε A − eV ∗ peuvent atteindre l'anode et contribuer au courant.
Quelle est l'expression du rapport I / I 0 des courants mesurés en présence et en absence de
différence de potentiel V ∗ ?
7. Les mesures effectuées avec la cathode en tungstène décrite à la question 5 et une anode en
tantale ont montré que l'intensité du courant I est de la forme
I V∗
(2) log ≅ 4650
I0 T
où V ∗ = V − V0 est une différence de potentiel effective reliée à la différence de potentiel
appliquée V et où V0 = 3.2 volts est une constante. Cette loi expérimentale est-elle en accord
avec la loi théorique obtenue en 6 ? Que représente la quantité ∆w = eV0 ?

Solution
1. Nous renvoyons à la loi de distribution des vitesses d'électrons libres de la section V.6.4. On a
−1
2m 3  mv 2 ε F   3
(3) d n v = 3
3
exp −  + 1 d v
h   2 kT kT  
2. En passant en coordonnées polaires ( ρ , φ ) dans le plan (v x , v y ), puis en posant
( )
u = m v x2 + v y2 / 2kT = mρ 2 / 2kT , il vient
2m 3 kT 1  mv z2 ε F 
(4) dnv z = 3 dv z ∫∫ dudφ u , C = exp − 
h m Ce + 1  2kT kT 

En intégrant sur φ ( dφ → 2π ) et en utilisant l'identité de l'énoncé, on obtient


4πm 2
dnv z =
h 3
[ ( )]

kT − ln C + e −u 0 dv z
(5)
4πm 2   ε F mv z2 
= kT ln 1 + exp −  dv z
h3   kT 2 kT 
3. Comme le montre la théorie cinétique des gaz, on a d 6 N v′ = d 3 n v v z dtdS . En intégrant sur v x et
v y , le nombre d'électrons de vitesse normale à la surface égale à v z à dv z près est
(6) d 4 N v′z = dnv z v z dtdS
et la densité de courant associée dj z = ed 4 N v′z / dtdS a pour expression :
4πme  ε −εz 
(7) dj z = 3
kT ln 1 + exp F  dε z
h   kT 
avec dε z = mv z dv z
4. La densité de courant cherchée s'obtient en intégrant dj z sur toutes les valeurs de ε z
supérieures à ε A . Comme ε z − ε F > ε A − ε F >> kT , l'exponentielle dans dj z est très petite
devant 1 et on a
4πme  εF  ∞  ε 
j0 = 3
kT exp   ∫ε exp − z dε z
h  kT  A  kT 
(8)
4πme
= 3
(kT )2 exp − w 
h  kT 

Cette expression constitue la loi de Richardson. Notons que dans le domaine d'intégration, on a
N i / g i << 1 et on a utilisé implicitement l'expression approchée (4) de la section V.6.1 de la
fonction de Fermi.
5. La figure précédente montre que le courant I 0 varie comme T 2 exp(− B / T ) en accord avec la
loi de Richardson. La valeur numérique de la pente B déterminée sur la figure est B = 14400 K.
Elle permet de calculer le travail de sortie, soit
kB
(9) w = = 1.24 eV
e

Notons que les données expérimentales ne permettent de déterminer la valeur de l'exposant T


qu'avec un faible précision. Le modèle de Fowler, qui prend en compte la couche d'oxyde,
conduit à un facteur T 5 / 4 au lieu de T 2 et reproduit aussi bien les données. Par ailleurs, le
facteur de normalisation théorique est supérieur au facteur expérimental. Une des raisons de ce
fait est l'existence d'un facteur de réflexion d'origine quantique à la traversée d'une barrière de
potentiel.
6. Il suffit de reprendre le calcul du 4 en remplaçant ε A par ε A − eV ∗ , soit aussi w par w − eV ∗ .
La densité de courant (8) devient alors
 eV ∗ 
(10) j = j0 exp 
 kT 
et une relation similaire entre I et I 0 .
7. Numériquement, la relation théorique entre I et I 0 est donc
I eV ∗ V∗
(11) ln = 0.43 × = 5040
I0 kT T
en accord satisfaisant avec l'expérience.

Le terme V0 appelé potentiel de contact, intervenant expérimentalement, est dû au fait que les
métaux de la cathode et de l'anode sont différents. En effet, lorsque la cathode et l'anode sont
reliés par un conducteur, des électrons passent d'un métal à l'autre et se localisent sur les
surfaces en regard. Ceci a pour conséquence de créer un champ électrostatique entre les métaux
et une différence de potentiel qui croît jusqu'à ce que les énergies de Fermi soient égales (figure
ci-dessous).
La quantité
(12) ∆w ≡ eV0 = w2 − w1
est la différence des travaux de sortie de l'anode w2 et de la cathode w1 . Il s'ensuit que le travail
de sortie du tantale est w2 = w1 + eV0 = 4.4 eV .

La figure ci-dessous représente des résultats expérimentaux de l'effet Schottky pour une cathode
cylindrique en tungstène recouverte d'oxyde.
La loi théorique de Schottky, obtenue en tenant compte de la cinématique des électrons entre
une cathode et une anode coaxiales, est représentée en trait plein. Pour V ∗ / T inférieure à
environ − 2.5 × 10 −4 V K −1 , cette loi est linéaire avec une valeur de la pente égale à celle donnée
dans l'énoncé. Au-dessus de − 2.5 × 10 −4 V K −1 , l'intensité est plus faible que celle prévue par la
loi de Schottky en raison des défauts de surface de la cathode. Il s'ensuit que, pour que
l'intensité du courant atteigne sa valeur idéale en champ nul (courant de saturation), il est
nécessaire d'appliquer une différence de potentiel V ∗ légèrement positive (~50 mV). Pour des
valeurs de V ∗ supérieures, le courant croit à nouveau car la sortie des électrons est facilitée par
l'abaissement de la barrière de potentiel.

Vous aimerez peut-être aussi