Vous êtes sur la page 1sur 283

Mécanique Quantique

Tome I. Histoires, bases et anciennes théories


I. Introduction
II. Histoire
III. Bases physiques
IV. La théorie de Bohr
V. L'expérience de Young
VI. Principes de base
Tome II. L'équation de Schrödinger
I. Hamiltonien
II. Equation de Schrödinger
III. Applications
IV. Etats liés
V. Théorie des collisions
VI. Formulation matricielle
Annexes
Tome III. Symétries et spin
I. Théorie des groupes
II. Symétries
III. Spin
IV. Particules identiques et spin
V. Physique statistique
VI. Formulation matricielle
Annexes
Tome IV. L'atome d'hydrogène, les atomes et la matière
I. Atomes et molécules
II. Rayonnement
III. Structure hyperfine
IV. Maser et Laser
V. Matière
VI. Le magnétisme
VII. Supraconductivité
Tome V. Mécanique quantique relativiste
I. Vers une équation d'onde relativiste
II. Equation de Dirac
III. Solutions
IV. Hydrogénoïdes
V. Théorie des trous
VI. Propagation et diffusion
Tome VI. Théories à variables cachées, théorèmes et décohérence
I. L'intrication quantique
II. Contextualité
III. Autres théorèmes
IV. Logique quantique
V. Applications
VI. Décohérence
VII. Théorie de Bohm
Tome VII. Interprétation de la mécanique quantique et classicalité
I. Introduction
II. Position du problème
III. Interprétations
IV. Expériences
V. Du quantique au classique
VI. Références
Tome VI. Théories à variables cachées, théorèmes et décohérence
I. L'intrication quantique
I.1. Intrication
I.2. Les éléments de réalité d'Einstein
I.3. Théorème de Bell
I.4. Expérience EPR
II. Contextualité
II.1. Théorème de von Neumann
II.2. Théorème de Gleason
II.3. Théorème de Kochen et Specker
II.3.1. Introduction
II.3.3. Contexte du théorème de Kochen et Specker
II.3.4. Déclaration et démonstration du théorème de Kochen et Specker
II.3.4.1. Déclaration du théorème de Kochen et Specker
II.3.4.2. Un argument du type Kochen et Speer à quatre dimensions (Kernaghan)
II.3.4.3. L'argument de Kochen et Specker original. Préliminaires techniques
II.3.4.4. L'argument de Kochen et Specker original. La démonstration dans les
grandes lignes
II.3.4.5. L'argument de Kochen et Specker statistique à trois dimensions (Clifton)
II.3.5. Le principe de composition fonctionnelle
II.3.6. Echapper à l'argument de Kochen et Specker
II.3.6.1. Pas de valeurs définies en général
II.3.6.2. Rejet du réalisme des valeurs
II.3.6.3. Contextualité
II.3.7. La question des tests empiriques
II.4. Théorème de Mermin
III. Autres théorèmes
III.1. Théorème de Leggett
III.1.1. Introduction
III.1.2. Théorie
III.1.3. Expérience
III.2. Théorème de Malament
III.2.1. Introduction
III.2.2. Le problème de la mesure
III.2.3. Théorème de Malament
III.2.4. Enregistrement des mesures
III.2.5. Conclusions
IV. Logique quantique
IV.1. La mécanique quantique comme un calcul des probabilités
IV.2. Interprétations de la logique quantique
IV.3. Théorie des probabilités généralisées
IV.4. Logiques associées à des modèles probabilistes
IV.5. Théorème de Piron
IV.6. Représentations classiques
IV.7. Systèmes composites
IV.8. Complément sur la théorie de base des relations ordonnées
V. Applications
V.1. Cryptographie quantique
V.2. Téléportation quantique
VI. Décohérence
VI.1. Matrice densité
VI.2. Introduction
VI.3. Le problème de la mesure
VI.3.1. Schéma de mesure quantique
VI.3.2. Le problème des résultats définis
VI.3.2.1. Superpositions et ensembles
VI.3.2.2. Superpositions et attribution du résultat
VI.3.2.3. Valeurs définies objectives vs subjectives
VI.3.3. Le problème de la base privilégiée
VI.3.4. La transition quantique - classique et la décohérence
VI.4. Le programme de décohérence
VI.4.1. Résolution en sous systèmes
VI.4.2. Le concept de matrice de densité réduite
VI.4.3. Un schéma de mesure de von Neumann modifié
VI.4.4. Décohérence et suppression locale d'interférence
VI.4.4.1. Formalisme général
VI.4.4.2. Un modèle a deux états parfaitement soluble pour la décohérence
VI.4.5. Supersélection induite par l'environnement
VI.4.5.1. Critère de stabilité et base de pointeurs
VI.4.5.2. Sélection et propriétés quasi classiques
VI.4.5.3. Implications pour le problème de la base privilégiée
VI.4.5.4. Base de pointeurs vs états instantanés de Schmidt
VI.4.5.5. Règles de supersélection exacte
VI.4.6. Exemples
VI.4.6.1. Localisation
VI.4.6.2. Effet Zeno quantique
VII. Théorie de Bohm
VII.1. La complétude de la description quantique
VII.2. L'impossibilité des variables cachées ... ou la non localité inévitable ?
VII.3. Histoire
VII.4. Les équations de définition de la mécanique bohmienne
VII.5. Le potentiel quantique
VII.6. L'expérience à deux fentes
VII.7. Le problème de la mesure
VII.8. La réduction de la fonction d'onde
VII.9. Aléatoire quantique
VII.10 Observables quantiques
VII.11. Spin
VII.12. Contextualité
VII.13. Non localité
VII.14. Invariance de Lorentz
VII.15. Objections
Tome VI Théories à variables cachées, théorèmes et décohérence
Malgré tout ce que nous avons vu, la mécanique quantique reste une théorie assez étrange. Qu'est-
ce que la fonction d'onde ? Un simple objet mathématique ou l'image d'une réalité physique à
définir ? Pourquoi ce caractère aléatoire ?

Si l'on réfléchit, certaines règles sont assez arbitraires. Rappelons-les


(1) La probabilité d'un événement dans une expérience idéale est donnée par le carré du module
d'un nombre complexe φ qui appelé l'amplitude de probabilité.
(2) Lorsqu'un événement peut se produire suivant l'une ou l'autre de plusieurs voies, l'amplitude de
probabilité pour l'événement est donnée par la somme des amplitudes de probabilité
correspondant à chaque voie, considérée isolément. Il y a interférence.
(3) Si l'on réalise une expérience capable de déterminer la voie suivant laquelle l'événement s'est
effectivement produit, la probabilité de l'événement est la somme des probabilités pour chacune
des voies. L'interférence est détruite. En effet. Une fois la voie connue par un dispositif
quelconque, la règle (2) ne peut plus s'appliquer puisque l'événement n'a pu se produire que par
une seule voie, celle constatée.

La distinction entre les règles (2) et (3) est assez bizarre. Considérons une particule qui sort à
travers deux fentes d'un dispositif de Young et que l'on peut décider ou non d'observer. Supposons
aussi qu'il s'agit d'une particule instable se divisant en deux particules juste après avoir franchi une
des deux fentes. Appelons les A et B. On obtient ainsi deux faisceaux de particules pouvant
interférer après les fentes. Imaginons un dispositif quelconque capable d'envoyer les particules A
vers une zone éloignée tandis que les particules B vont vers l'écran.

Les particules A vont interférer de leur coté ainsi que les particules B.

Mais, un fois la séparation effectuée nous décidons d'observer la particule B avant les interférences.
Selon la règle (3) cela détruit les interférences. Mais que se passe-t-il pour la particule A ? Nous ne
l'avons pas observé, ni touché, ni perturbée en quoi que ce soit. Pourtant, nous savons par où elle
est passée simplement parce qu'elle vient du même endroit que B. Les analyses que nous avions
faites montrent alors clairement que les interférences de A sont détruites.
Mais comment expliquer cela ? Nous n'avons pas mesuré la particule A. Nous ne l'avons pas
perturbé. Mais nous connaissons mieux sa localisation et le principe d'indétermination nous dit
alors que l'impulsion est moins précise et donc les interférences détruites. Voilà qui justifie bien
l'appellation "principe d'indétermination" au lieu de "principe d'incertitude". Mais c'est là tout le
mystère. La seule chose qui a changé pour A est la connaissance que nous en avons. Par quel
étrange mystère notre connaissance influe-t-elle sur le résultat physique de l'expérience ? Ce
mystère est souvent qualifié en disant qu'en mécanique quantique l'observateur ne peut pas être
séparé de l'expérience car il a une influence. Mais quelle influence ? Il n'a même pas observé A !

Ce genre de raisonnement ou d'expérience (il y en a eut de nombreuses pour essayer de décortiquer


tous ces mystères) montrent bien qu'il y a encore quelque chose qui coince, quelque chose que nous
ne comprenons pas bien. Les règles utilisées marchent bien. Elles marchent même très bien. Mais
dès qu'on essaie d'en savoir plus, ça bloque. D'où la citation parfois attribuée à Feynman : "taisez-
vous et calculez". En bref, ne cherchez pas à comprendre puisque ça marche. C'est une attitude de
physicien : on tend à rendre compte des résultats expérimentaux avec un modèle mathématique. Et
si ça marche, cela est satisfaisant. Pourtant cela reste frustrant et, après tout, c'est aussi une attitude
de physicien que d'essayer de comprendre ce qui nous échappe encore. Une théorie donnée n'est
pas un but final.

Il y a d'ailleurs des situations où cette politique de l'autruche est gênante. Considérons l'univers
dans son ensemble et essayons de le décrire par la mécanique quantique. Comment prédire les
résultats du modèle ainsi construit ? Il n'y a même plus d'observateur extérieur, et pour cause, pour
dire "je fais une expérience et j'obtiens tel résultat" ou pour dire "le résultat final observé est…"

Il y a aussi des aspects tout à fait physique qui peuvent encore poser des difficultés comme le lien
entre la mécanique quantique et la mécanique classique. Comment expliquer le monde déterministe
dans lequel nous vivons s'il est basé sur une théorie aussi aléatoire ? Comment expliquer qu'à notre
échelle nous n'observions jamais d'états superposés (par exemple, une chaise située en deux
endroits en même temps). La difficulté est exacerbée par les raisonnements précédents.

Il est donc important d'étudier les fondements de la mécanique quantique.


Nous allons, dans ce tome, commencer par étudier l'intrication quantique, les différents théorèmes
posant des limites sur ce qu'il est possible de faire pour modéliser la mécanique quantique
(théorèmes dit "no go") et nous étudierons la décohérence quantique.

Nous serons souvent amenés à comparer la mécanique quantique et ses résultats aux théories dites à
"variables cachées".

Les théories à variables cachées partent du postulat que la description "orthodoxe" de la mécanique
quantique est incomplète. En particulier, les résultats aléatoires observés ne seraient qu'une
conséquence d'un effet statistique sur des grandeurs non connues. Le caractère aléatoire serait alors
subjectif, un simple conséquence de notre ignorance des détails observés.

C'est une idée séduisante car c'est déjà ce que nous observons à notre échelle. Ainsi, le mouvement
d'un dé est totalement déterministe et décrit par les lois de la mécanique classique. Le jet d'un dé
nous semble aléatoire uniquement parce que nous ignorons tous les détails précis de la position du
dé et du mouvement qui lui est donné ainsi que les calculs compliqués menant à sa position finale.

Cela ne veut pas dire que cette approche est bonne et nous verrons qu'il y a d'ailleurs des difficultés
croissantes à maintenir cette approche. La mécanique quantique est robuste.

L'idée est donc qu'à côté de l'état ψ d'un système quantique, il y a un certain nombre de variables
inconnues, cachées, λ , qui décrivent complètement l'état. Si l'on effectue une expérience donnée,
caractérisée par un opérateur A, et que l'on a un ensemble d'états finaux φ possibles. La probabilité
2
d'un résultat donné est φ Aψ . La théorie à variables cachées dit que le résultat dépend de
manière déterministe de l'état du système et de ses variables cachées. En somme, le résultat final
d'une mesure sera déterminé par une fonction f ( ψ , λ ) .

A coté de cette description très générale, il y a de nombreuses variantes possibles : des variables
cachées propres au système, d'autres communes à plusieurs système et éventuellement à
l'observateur, des lois décrivant la variation de ces variables à travers des échanges de signaux
inconnus éventuellement instantanés, des variables discrètes ou continues, en nombre fini ou infini,
etc.
I. L'intrication quantique
Commençons cette étude par l'intrication quantique, le théorème de Bell et les expériences.
I.1. Intrication

Description des états quantiques de deux particules


Considérons deux particules ou plus généralement deux systèmes 1 et 2.

Ces deux particules peuvent être identiques ou non. En général on considère deux particules
semblables, par exemple deux photons ou deux électrons, par facilité, mais ce n'est pas une
obligation.

Chaque particule peut être décrite par son état quantique ψ 1 et ψ 2 , respectivement pour les
particules 1 et 2. Chaque particule peut être décrite par un certain nombre de variables tel que sa
position, son impulsion, son spin, etc. Pour un système complexe, le nombre de variables peut être
important. Par facilité, nous considérerons une variable quelconque S pouvant prendre deux valeurs
A et B. Pour les deux particules, ces deux variables seront notées S1 et S 2 , respectivement. Et les
valeurs A1 , A2 et B1 , B2 . Ici, l'indice ne sert qu'à identifier à quelle particule se rapporte la valeur
A ou B mesurée.

Ignorons volontairement les autres variables et décrivons l'état de ces deux particules par cette
variable S. On généralise aisément à plusieurs variables, cela ne fait qu'alourdir les notations.

Quels sont les états possibles pour la particule 1 ? Elle peut se trouver dans l'état A ou B (plus
exactement, dans l'état ou la variable S a la valeur A ou B). Ce sont deux états de base de l'espace
de Hilbert réduit à la seule variable S.
ψ 1 = A1
(1)
ψ 1 = B1

Plus généralement, elle peut se trouver dans un état superposé :


(2) ψ 1 = a A1 + b B1
avec les conditions de normalisation appropriée sur les deux variables complexes a et b
2
( a + b 2 = 1 ).

2
La probabilité de mesurer, par exemple, la particule dans l'état A est alors donnée par a .

On a une situation équivalente pour la particule 2.

Considérons maintenant les deux particules. L'ensemble ne consiste pas simplement à regarder les
particules 1 et 2 séparément. Nous savons que la fonction d'onde de deux particules n'est pas
simplement la somme des deux fonctions d'onde.

Les états de base possible sont :


(3) A1 A2 , A1 B2 , B1 A2 et B1 B2

C'est-à-dire qu'on peut avoir une situation avec la particule 1 dans l'état A et la particule 2 dans
l'état A, ou bien la particule 1 dans l'état A et la particule 2 dans l'état B, etc.

Un état général pour les deux particules peut donc s'écrire (avec la normalisation appropriée) :
(4) ψ 1ψ 2 = S1 S 2 = a A1 A2 + b A1 B2 + c B1 A2 + d B1 B2

Considérons maintenant la situation particulière où b et c sont égaux à 0.


(5) ψ 1ψ 2 = a A1 A2 + d B1 B2

Cet état est dit intriqué. En effet, il signifie que les deux particules sont dans l'état A ou les deux
particules sont dans l'état B, mais jamais l'une dans l'état A et l'autre dans l'état B. L'état de chaque
particule est lié, intriqué, à l'état de l'autre particule.

Un autre état intriqué possible est :


(6) ψ 1ψ 2 = b A1 B2 + c B1 A2
Ainsi quand une particule est dans l'état A, l'autre est forcément dans l'état B.

On pourra généralement omettre les indices.

Plusieurs variables peuvent être intriquées : la position, l'impulsion, le spin,…

On parle d'état intriqué maximal pour les états (5) ou (6). On peut avoir une situation où, par
exemple, les variables b et c sont plus petites que a et d sans être tout à fait nulles. L'intrication n'est
alors que partielle. Deux particules peuvent être totalement intriquées, c'est-à-dire avec une
intrication maximale pour chaque variable pouvant décrire ces particules. On a alors affaire à de
véritables "jumeaux".

Intrication et interaction
Une question que l'on peut se poser est : peut-on effectivement obtenir un tel état ?

La réponse est oui. La première idée est d'utiliser un processus de désintégration. Considérons une
particule p sans spin et au repos, par exemple, un atome de positronium (un électron et un positron
en orbite l'un autour de l'autre) ou un pion neutre (une particule exotique).

Ces systèmes peuvent se désintégrer en deux photons 1 et 2.

Les lois de conservation impliquent que ces deux photons auront même fréquence, des impulsions
opposées et des directions opposées. Leurs spins, disons mesurés le long de l'axe z, seront opposés.

Comme le spin de chaque photon émit est aléatoire, alors on aura, pour le spin mesuré selon l'axe z
:
(7) + − + − +
(à un facteur de normalisation près).

Où + et - sont les deux directions du spin de chaque particule.


On peut obtenir des photons intriqués par d'autres processus comme des effets optiques non
linéaires créant deux photons de fréquence divisée par deux à partir d'un photon original.

Ce genre d'état semble donc assez particulier. Mais en réalité, les états intriqués sont tout à fait
banal. Considérons deux particules, disons deux électrons, de spin opposé se heurtant. Considérons
la diffusion de ces deux électrons dans une direction donnée D. Dans cette direction on peut avoir
un des deux électrons avec une des deux valeurs du spin. En fait, comme rien ne ressemble plus à
un électron qu'un autre électron, ce qu'on a c'est un électron émis dans cette direction dans l'état
+ + − . Dans la direction opposée, on a la même situation mais avec les spins opposés. On
retrouve l'état (7).

Donc, lors de la moindre interaction entre particules, les états résultant pour les particules peuvent
aisément conduire à des états partiellement ou complètement intriqués.

L'intrication est plus la norme que l'exception.

Mesure d'un état intriqué


Considérons deux particules avec leur état de spin intriqué selon :
(8) HH + VV

Où le spin est horizontal ou vertical.

Mesurons le spin d'une des particules, disons la première, par rapport à l'axe vertical.

On a alors une chance sur deux d'obtenir V et une chance sur deux d'obtenir H. Si on utilise un
filtre polarisant vertical, cela revient à détecter la particule ou pas.

Que va alors donner la mesure sur la deuxième particule ? Le résultat, selon (8), sera identique. On
obtiendra V ou H. Mais dans tous les cas on obtiendra la même valeur que pour la première
particule.
Cette situation est très étrange. Nous sommes même au cœur du mystère en mécanique quantique.
En effet, la mesure sur une particule donne un résultat aléatoire. Les lois de la mécanique quantique
disent que la mesure sur une particule dans l'état H + V donnera H ou V avec une probabilité
1/2 pour chaque résultat. C'est un hasard parfait et intrinsèque.

Mais, dans ce cas, lorsque l'on mesure la particule 2, qui peut être à ce moment très éloignée de la
particule 1, par quel mystère "sait-elle" quel résultat elle doit donner ? Comment, si le résultat est
strictement aléatoire, peut-on avoir un résultat parfaitement déterminé par la mesure sur la particule
1?

On peut imaginer que la mesure sur la particule 1 envoie un signal vers la particule 2. Mais il est à
noter qu'on ne peut utiliser ce signal pour transmettre de l'information. En effet, la mesure sur 1
(autant que sur 2) étant totalement aléatoire, même si le résultat 1 est communiqué à 2,
l'expérimentateur en 2 ne sera pas en mesure de déterminer si le résultat qu'il obtient est dicté par la
mesure en 1 ou non.

On peut imaginer que ce signal est "caché", totalement indétectable. Mais, outre qu'un signal
physiquement indétectable est douteux, on peut effectuer les mesurer en 1 et 2 presque en même
temps, et ce quelle que soit la distance qui les sépare. Cela risque de poser des conflits avec la
relativité. Selon le mouvement de l'observateur, la relativité nous dit que l'ordre temporel dans
lequel les mesures sont effectuées est différent. Alors qui envoie un signal à qui ? Et comment le
résultat mesuré en 2 peut-il être intrinsèque ou dicté par la mesure en 1 selon l'observateur (selon
que la mesure en 1 à lieu après ou avant, respectivement) ?

D'un autre côté, puisque le résultat ne dépend pas de l'ordre temporel, pourquoi s'en soucier ?
Pourquoi rechercher un signal qui n'existe peut-être pas ? C'est la politique de l'autruche
(physiquement bien fondée puisque les résultats n'en dépendent pas, que ce signal soit une réalité
ou pas).
En mécanique quantique, on considère que la mesure de l'état H + V d'une particule va donner
un résultat précis, disons H, et modifier l'état de la particule qui devient H . On parle de réduction
de la fonction d'onde ou de réduction de l'état.

Dans le cas de l'intrication (8), la mesure H de la particule 1 donne l'état HH rendant inévitable la
mesure H pour la particule 2.

Notons que ce processus de réduction est instantané pour l'ensemble des deux particules. On
retrouve ce caractère instantané.

Considérons maintenant que l'on mesure les deux particules selon des angles quelconques. Disons
qu'on trouve la première particule dans l'état V (en fait, peu importe l'angle ici, car dans l'état
H + V , le spin est totalement indéterminé et sans direction quelconque).

Supposons maintenant qu'on mesure le spin de la particule deux selon un angle θ (mesuré par
rapport à la verticale). Mais suite à la première mesure, cette particule est dans l'état V. Donc la
probabilité de trouver la particule avec un spin dans cette direction est cosθ . Si l'on utilise des
filtres polarisant pour mesurer ces deux particules (on place le filtre et un simple détecteur
derrière), l'un vertical l'autre avec l'angle θ , la probabilité d'obtenir une coïncidence de comptage
(on détecte les deux particules ou pas) est aussi cosθ .
I.2. Les éléments de réalité d'Einstein
Einstein n'était pas d'accord avec l'interprétation probabiliste traditionnelle de la mécanique
quantique.

Cette interprétation a été élaborée par Niels Bohr et ses collègues (dite maintenant "école de
Copenhague"). Elle reprend les éléments que nous connaissons (interprétation probabiliste,
réduction de la fonction d'onde). Elle considère aussi qu'aucune valeur précise ne peut être attribuée
aux variables sans une mesure (un état quantique est une superposition d'états propres d'un
observable avec des valeurs différentes).

Einstein trouvait que cette façon de voir était une hérésie. Un rejet du déterminisme et du réalisme
si fécond jusque là. Ses altercations avec Bohr lors des conférences de Solvay sont restées célèbres
au point que certaines de leurs réflexions sont entrées dans l'histoire.

Einstein, à propos de l'interprétation probabiliste : "Croyez-vous que Dieu joue au dé ?"


Bohr : "Qui êtes-vous, Einstein, pour dire à Dieu ce qu'il doit faire ?"
Einstein : "Pensez-vous que la Lune n'est pas là lorsque personne ne la regarde ?"
Ce qui est une allusion à l'esprit positiviste de l'interprétation traditionnelle qui dit que les variables
n'ont pas de valeur précise avant la mesure. Cette remarque met aussi en lumière la difficulté qu'il y
a à concilier la mécanique classique et la mécanique quantique, comme nous l'avions remarqué.

Attention. Il ne faut surtout pas croire qu'Einstein rejetait la mécanique quantique. Einstein ne
considérait pas la mécanique quantique comme fausse et il y a d'ailleurs largement contribué.
Rappelons-nous par exemple son étude de l'effet photoélectrique qui fut un des fondements de la
mécanique quantique. Pensons aussi à l'émission stimulée et à la statistique de Bose-Einstein. Mais
il pensait que la mécanique quantique était une théorie incomplète et que son caractère probabiliste
n'était qu'une manifestation statistique d'une machinerie interne encore inconnue.

En 1935, Einstein publia un article resté célèbre avec B. Podolsky et N. Rosen : "La description de
la mécanique quantique de la réalité physique peut-elle être considérée comme complète".
Nous ne présenterons pas en détail son article qui utilise une analyse fouillée de la mécanique
quantique. L'essentiel de son argumentation sera suffisant ainsi qu'une présentation moderne.

Il ne cherche pas à définir en détail ce qu'est une théorie complète mais considère une condition qui
semble nécessaire :
"Tout élément de la réalité physique doit avoir une contrepartie dans la théorie physique".

Les éléments de réalité physique ne doivent pas être déterminés sur des bases philosophiques a
priori et il ne souhaite pas définir concrètement ce qu'est la réalité. Il se satisfait donc d'un critère
raisonnable :
"Si, sans perturber un système en aucune manière, nous pouvons prédire avec certitude (c'est-à-dire
avec une probabilité égale à l'unité) la valeur d'une quantité physique, alors il existe un élément de
réalité physique correspondant à cette quantité physique."

Considérons maintenant la situation suivante : deux particules fortement intriquées 1 et 2 sont


largement séparées.

Dans leur article, ils considèrent la position et l'impulsion comme quantités intriquées. Ce n'est pas
le plus adapté à un traitement expérimental pour lequel le spin est une grandeur plus appropriée.
Mais nous pouvons garder ici les variables positions r et impulsion p.

Effectuons une mesure de l'impulsion sur la particule 1. Nous trouvons ainsi la valeur p. Puisque
les particules 1 et 2 sont intriquées, alors toute mesure de l'impulsion de la particule 2 donnera
également p (ou plus exactement -p). De plus, la particule 2 étant largement séparée de la particule
1, on peut effectuer la mesure sur 1 sans perturber 2 de quelque manière que ce soit, au moins en
considérant la situation de 2 au même moment (intervalle de type espace entre les événements de
mesure sur 1 et 2).

Puisque nous pouvons prédire avec certitude la valeur de l'impulsion de la particule 2, alors nous
devons considérer que cette quantité physique correspond à un élément de réalité physique.
Nous pouvons aussi effectuer une mesure de la position sur la particule 2 obtenant r. Ainsi nous
pouvons prédire la position de la particule 1 et la position est aussi un élément de réalité physique.

Or la position et l'impulsion sont des grandeurs dynamiquement conjuguées. Cela se traduit à


travers les relations d'indétermination. Il est impossible d'attribuer, à un instant donné, une valeur
précise à la fois à la position et à l'impulsion.

Il y a là conflit. Les éléments de réalité nous conduisent à affirmer que la position et l'impulsion de
chaque particule constituent des éléments de réalités précis à un instant donné. Alors que la
mécanique quantique nous dit le contraire.

La conclusion des auteurs est que la mécanique quantique ne peut pas être complète. Il doit y avoir
des aspects inconnus qui déterminent précisément la valeur de la position et de l'impulsion mais
que la mécanique quantique ne décrit pas, celle-ci en étant réduite à une description statistique.

Notons que l'argument relativiste est important. On imagine bien que pour Einstein, le père de la
relativité, c'était un aspect incontournable. Le raisonnement ne tient que si aucun signal plus rapide
que la lumière, voire instantané, ne peut se propager de la particule 1 à la particule 2. Ainsi, la
mesure de 1 ne peut pas altérer la particule 2. De même, considérer que la réalité des grandeurs en
2 est altérée par une mesure en 1 sans qu'aucune perturbation d'aucune sorte ne puisse passer de 1 à
2 semble absurde.

Notons que ce caractère imprécis des grandeurs et le principe d'indétermination découle aussi de la
physique ondulatoire, nous l'avions vu. Mais les ondes classiques ne manifestent pas le phénomène
d'intrication, la mécanique quantique n'est pas une théorie classique. Si l'on prend deux paquets
d'ondes (classiques) identiques largement séparés, la mesure de la fréquence sur un des paquets
n'implique pas que l'on mesurera la même fréquence sur l'autre paquet (en se rappelant que la
fréquence d'un paquet d'ondes n'est pas précise).

Nous verrons qu'Einstein s'est trompé. Son hypothèse des éléments de réalité conduit à des
prédictions traduites par les inégalités de Bell. Or la mécanique quantique viole ces inégalités.
L'expérience a montré que c'est la mécanique quantique qui a raison, contre Einstein.
Il y a donc deux possibilités : on la théorie est non locale, dans le sens de l'existence de signaux
instantanés violant la relativité, ou il n'y a pas de variables cachées (donnant la valeur des éléments
de réalité).

Ces résultats ne sont pas un rejet de la réalité. Il s'avère juste que la réalité n'est pas aussi simple
qu'on pourrait le croire ! L'approche d'Einstein des "éléments de réalité" est d'ailleurs maintenant
appelée "réalisme naïf". Et les résultats théoriques et expérimentaux ne font que falsifier ce
réalisme naïf.

On peut rechercher plusieurs failles dans le raisonnement de EPR (initiales des auteurs). Cela peut
ainsi conduire à plusieurs façon d'interpréter la mécanique quantique. Donnons un exemple.

Lorsque l'on mesure l'impulsion de la particule 1, on trouve une valeur précise. Ainsi, on peut
prédire avec précision le résultat d'une mesure effectuée sur la particule 2. Mais ce raisonnement est
lui-même non local. En effet, on a dit que la mesure en 2 était effectuée rapidement afin qu'aucun
signal ne puisse se propager de 1 à 2. Mais dans ce cas, comment pourrait-on, en 2, effectuer une
prédiction alors que l'information de la mesure en 1 n'est pas encore arrivée ? Bien sur, le physicien
qui contemple l'expérience sur une feuille de papier peut faire cette prédiction, mais ça c'est un
raisonnement "hors réalité", un raisonnement non local (on considère la situation dans son
ensemble et instantanément). Dans la réalité, lors d'une véritable expérience, il n'y a pas "d'esprit
supérieur", extérieur à la scène, dictant le résultat des mesures. Les appareils de mesure et les
physiciens situés à l'endroit de la particule 2 ne disposent pas de l'information permettant de faire la
prédiction.

Bien entendu, on peut confronter les expériences après coup et constater qu'une prédiction parfaite
aurait pu être faite. Ce genre de raisonnement contrafactuel est dangereux en mécanique quantique.
Nous aurons l'occasion de le voir.

Difficile à ce stade de comprendre ce qui peut ressortir de tout cela, mais il est clair que les choses
ne sont pas aussi simples qu'Einstein l'aurait souhaité.
I.3. Théorème de Bell

Introduction
Nous allons considérer ici des états intriqués du spin plutôt que la position et l'impulsion. Cette
variante de la méthode fut considérée par David Bohm.

L'incomplétude de la description de l'état quantique conclu par EPR implique qu'on doit considérer
une description théorique de l'état consistant en ψ et certains paramètres additionnels afin de
totalement expliquer les propriétés d'un système. En particulier, on peut attribuer un élément de
réalité à chaque composante du spin.

En termes d'une telle description de l'état, on devrait être capable de mathématiquement représenter
les valeurs définies conclues par EPR en utilisant une fonction Vλ (O ) reliant chaque composante
du spin de chaque particule à une valeur.

Puisque nous considérons un système avec ψ fixé, plus précisément l'état singulet du spin pour des
particules de spin 1/2, par exemple des électrons, aucune dépendance à ψ n'a besoin d'être inclue
dans V.

Ici nous avons noté le paramètre d'état supplémentaire λ . En 1965, John S.Bell a présenté un
fameux théorème qui traitait de la possibilité d'une telle fonction sur les observables du spin. Bell
fut capable de montrer que cette formulation doit être en conflit avec les prédictions statistiques de
la mécanique quantique pour différentes mesures du spin. Nous présentons maintenant le théorème
de Bell.

Fixons d'abord nos notations. Pour noter les directions de l'espace, nous écrirons les vecteurs unités
( )
comme â , b̂ , ĉ . Plutôt que d'utiliser la forme Vλ (O ) , nous écrirons A(λ , aˆ ) et B λ , bˆ pour
représenter les fonctions sur les composantes du spin des particules 1 et 2, respectivement. Puisque
les deux particules sont de spin 1/2, nous aurons A = ± 12 et B = ± 12 , cependant, par simplicité,
nous les changeons en A= ± 1 et B= ± 1 . On aurait ces valeurs pour des photons, par exemple.

Notons que la forme de ces fonctions n'est pas choisie au hasard. Selon l'idée d'EPR, la localité est
importante. Ainsi, la composante du spin mesuré sur la particule 1 ne dépend que des variables
cachées de la particule 1, λ , et de la direction de mesure du spin en ce point, â . On n'a donc pas
( )
une fonction comme A λ , aˆ , bˆ . De plus, les particules étant identiques (mêmes particules,
intriquées), on suppose que les variables cachées ont la même valeur pour 1 et 2 et les fonctions A
et B sont identiques.

Démonstration
La propriété clé de la version singulet du spin du paradoxe EPR était son analyse des corrélations
parfaites existant quand les deux particules d'une paire singulet du spin sont sujettes à des mesures
de la même composante du spin. Donc, il peut ne pas être surprenant que le théorème de Bell traite
du cas d'une fonction de corrélation qui est essentiellement une mesure de la corrélation statistique
entre les résultats des mesures des composantes du spin des deux particules. La fonction de
corrélation est déterminée comme suit : nous disposons l'appareil mesurant la particule 1 pour
sonder la composante dans la direction â et l'appareil mesurant 2 est disposé pour la direction b̂ .
Nous effectuons une série de mesures des paires singulet de spin en utilisant cette configuration,
enregistrant le produit σ a(ˆ1)σ b(ˆ2 ) des résultats de chaque essai. La moyenne de ces produits sur la
série de mesures est la valeur de la fonction corrélation.

En général, nous nous attendons à ce que la valeur de la moyenne déterminée de cette manière
dépende des directions â b̂ par rapport auquel les composantes du spin sont mesurées. Selon le
formalisme quantique, nous pouvons prédire la moyenne, ou valeur moyenne, de tout observable en
utilisant la formule E (O ) = ψ O ψ . Pour les séries d'expériences décrites, nous prenons la valeur
moyenne du produit des observables appropriés des composantes du spin, ce qui donne :
( )
(1) PMQ aˆ , bˆ = σ a(ˆ1)σ b(ˆ2 ) = −aˆ ⋅ bˆ
Dans le cas de valeurs prédéterminées, la moyenne du produit des deux composantes du spin
σ a(ˆ1)σ b(ˆ2 ) est obtenue en prenant une moyenne sur λ :

( ) ( )
(2) P aˆ , bˆ = ∫ dλρ (λ ) A(λ , aˆ )B λ , bˆ

où ρ (λ ) est la distribution de probabilité sur λ (ses valeurs initiales sont inconnues a priori).
ρ (λ ) est normalisé par :

(3) ∫ dλρ (λ ) = 1
Nous allons maintenant examiner la question de savoir si la fonction de corrélation donnée par (2)
est compatible avec la prédiction de la mécanique quantique (1) pour cette fonction.

Crucial pour l'analyse EPR est le fait qu'il y a une corrélation parfaite entre les résultats de la
mesure de toute composante du spin de la particule 1 dans une direction donnée avec la mesure de
la même composante du spin de la particule 2 (intrication), tel que les résultats sont de signe
opposé. Pour prendre en compte cela, la fonction de corrélation doit donner

(4) P(aˆ , aˆ ) = −1 ∀aˆ

Il est facile de voir que la fonction de corrélation quantique satisfait cette condition. Si la prédiction
utilisant les valeurs prédéterminées est le reflet de cela, nous devons avoir
(5) A(λ , aˆ ) = − B(λ , aˆ ) ∀aˆ , λ

A ce stade, nous avons assez d'information pour dériver la conclusion du théorème.


En utilisant (2) avec (5) [ A(λ , aˆ )] = 1 , nous écrivons
2

( ) [ ( ) ]
P aˆ , bˆ − P(aˆ , cˆ ) = − ∫ dλρ (λ ) A(λ , aˆ ) A λ , bˆ − A(λ , aˆ ) A(λ , cˆ )
( )[ ( ) ]
(6)
= − ∫ dλρ (λ )A(λ , aˆ ) A λ , bˆ 1 − A λ , bˆ A(λ , cˆ )
En utilisant A, B = ±1 , nous avons que
( ) [ ( ) ]
(7) P aˆ , bˆ − P(aˆ , cˆ ) ≤ ∫ dγρ (λ ) 1 − A λ , bˆ A(λ , cˆ )
alors, en utilisant la normalisation (3) et (5), nous avons
( ) ( )
(8) P aˆ , bˆ − P(aˆ , cˆ ) ≤ 1 + P bˆ, cˆ
et cette relation, qui est habituellement appelée "inégalité de Bell", est la
conclusion du théorème.

Donc, le cadre général du théorème de Bell est le suivant. Les valeurs définies des différentes
composantes des deux spins des particules sont représentées par les fonctions mathématiques
( )
A(λ , aˆ ) et B λ , bˆ . La condition
(9) A(λ , aˆ ) = − B(λ , aˆ ) ∀aˆ , λ
( )
(équation (5)) placée sur les fonctions A(λ , aˆ ) , B λ , bˆ assure l'accord de ces fonctions avec les
corrélations parfaites. Le théorème de Bell nous dit que dans ces conditions, il s'ensuit que la
prédiction théorique pour la fonction de corrélation P (aˆ , bˆ ) doit satisfaire l'inégalité de Bell (8).

Basé sur le fait que l'inégalité de Bell n'est pas satisfaite par la fonction de corrélation de la
mécanique quantique (1) (comme nous le verrons ci-dessous), certains auteurs (Bethe, Hans, Gell-
Mann, Murey, Wigner) en ont conclu que le théorème de Bell prouvait l'impossibilité des variables
cachées. En fait, ce n'est pas tout à fait exact, cela n'invalide que les variables cachées locales. C'est
toutefois une contrainte très forte.

Autre démonstration
Nous allons maintenant donner la description du théorème de Bell donnée par Bernard d'Espagnat
dans Scientific American et qui est une des plus claire. Elle apporte une vue très profonde sur ce
théorème.

D'Espagnat considéra l'expérience dans laquelle nos trois propriétés A, B et C sont mesurées (il
utilisa des protons dans son exemple). En supposant que les protons sont intriqués via une loi de
conservation, il y aurait une stricte corrélation négative entre les propriétés correspondantes des
deux protons (mais l'argument s'adapte aisément au cas où les valeurs sont identiques et donc une
corrélation strictement positive). Si la valeur A du proton 1 est +, alors la composante A du proton
2 est -. Dans cette expérience, les paires de protons intriqués sont séparées, les différentes
propriétés des protons séparés sont mesurées et les résultats sont comparés. La mesure d'une
propriété A ayant une valeur de + est désignée A+ et la mesure d'une propriété B ayant une valeur
de - est désignée B-, etc. En mesurant les propriétés d'une paire de protons, quelquefois la propriété
A d'un proton est mesurée tandis que la propriété C de l'autre proton est mesurée et dans d'autres
cas d'autres paires de propriétés sont mesurées pour une paire de protons. Les seules mesures
intéressantes sont celles pour lesquelles différentes propriétés sont mesurées pour les protons d'une
paire (puisque de toute façon, la mesure de, par exemple, A+ sur une particule garantit la mesure de
A- sur l'autre, la mesure n'apporte donc rien de plus que ce que l'on sait déjà). Les types de paires
de propriétés mesurées sont alors désignés par AB, BC et AC selon les propriétés mesurées. Une
paire pour laquelle on mesure A+ et C- est désignée A+C-, etc. Alors le nombre de fois où les
valeurs A+C- ont été mesurées sur les paires est noté n[ A + C −] .

Voilà pour la manière de procéder et les notations.

John Bell démontra que n[ A + B − ] ≤ n[ A + C −] + n[B − C + ] (et de même


n[ A − C + ] ≤ n[ A − B + ] + n[C − B + ], etc.) Comme le montra d'Espagnat , c'est une conséquence
logique de la théorie des ensembles. C'est-à-dire que si l'on compte le nombre de fois où l'on a
mesuré A+ et C+ et le nombre de fois où l'on a mesuré B+ et C+, le total sera toujours supérieur ou
égal au nombre de fois où l'on a mesuré A+ et B+.

Si les valeurs A+, B+ et autres peuvent être considérées comme des propriétés réelles des protons,
alors nous pouvons désigner l'état réel d'un seul proton comme, par exemple, A+B+C- (ces valeurs
réelles, prédéterminées, dépendant de manière univoque de certaines variables cachées). Si nous
désignons l'ensemble de tous les protons qui ont l'état x comme x alors :
A + B − ⊂ A + C − ∪ B − C + . Cette notation signifie que l'ensemble des états A + B − est
contenu dans l'ensemble des états A + C − et des états B − C + réunis ( ⊂ est le symbole de
l'inclusion et ∪ le symbole de la réunion des ensembles), c'est-à-dire l'ensemble obtenu avec les
éléments des deux ensembles réunis sans compter deux fois les mêmes). On le vérifie aisément en
détaillant ces ensembles :
(10) A + C − = A + B + C − ∪ A + B − C −
et
(11) B − C + = A + B − C + ∪ A − B − C +

La réunion des deux est A + B + C − ∪ A + B − C − ∪ A + B − C + ∪ A − B − C + . Et


l'ensemble A + B − vaut : A + B − C + ∪ A + B − C − .et on voit bien qu'il est contenu dans le
précédent.

Désignons maintenant le nombre de protons avec la configuration A+B+C- comme


N ( A + B + C − ) . Cela conduit immédiatement à
(12) N ( A + B − ) = N ( A + B − C + ) + N ( A + B − C − )

En utilisant les relations des sous-ensembles démontrées précédemment, nous pouvons en déduire
que :
(13) N ( A + B − ) ≤ N ( A + C − ) + N (B − C + )

C'est une inégalité en termes de protons individuels et elle ne peut jamais être démontrée
expérimentalement car des mesures simultanées des multiples composantes ne peuvent pas être
faites (on suppose donc, bien que ce ne soit pas obligatoire, que ces valeurs sont incompatibles,
reliées par un principe d'indétermination). Ce que nous pouvons mesurer, cependant, est
n[ A + B −] , le nombre de paires qui ont la propriété A+ pour un proton et la propriété B+ pour
l'autre proton. On peut étendre le résultat sur le nombre de protons ayant certaines configurations
aux mesures sur des paires de protons car dans l'hypothèse des variables cachées locales, les
protons doivent être considérés individuellement, même lorsqu'ils sont intriqués. Pour un grand
nombre de mesures, la valeur N ( A + B − ) est statistiquement proportionnelle à n[ A + B −] et
N ( A + C − ) est proportionnel à n[ A + C −] etc.
Les constantes de proportionnalités sont les mêmes dans tous les cas puisqu'elles dépendent
seulement de l'efficacité du dispositif de mesure (supposé sans biais) et de la distribution des
différentes configurations (supposées être toutes équiprobables). Nous pouvons maintenant utiliser
les inégalités précédentes pour affirmer ce qui suit :
(13) n[ A + B − ] ≤ n[ A + C −] + n[B − C + ]

C'est l'inégalité de Bell et elle doit être valable si les protons (et les autres particules) ont des
propriétés intrinsèques telles que les trois propriétés ci-dessus.

Autres inégalités
L'inégalité ci-dessus n'est qu'une des possibilités. On peut établir les inégalités de Bell pour toutes
sortes de propriétés, éventuellement liées entre elles, dans toutes sortes de situations (y compris
avec des configurations qui ne sont pas équiprobables, certaines ayant plus de chance de se
produire que d'autres).

Le théorème original de Bell est très général, tout type de variables cachées et tout type de
propriétés mesurées. Il est même tellement général qu'il ne dépend que de deux hypothèses et
seulement deux : l'hypothèse des variables cachées et l'hypothèse de localité.

Prenons le cas de la polarisation. Comme nous l'avons dit, la polarisation peut-être verticale ou
horizontale, mais elle peut aussi faire un angle quelconque avec la verticale. Dans l'exemple le plus
simple, un rayon lumineux polarisé horizontalement est totalement annulé par un filtre polarisant
vertical. Dans le cas des photons, cela se traduit par une plus ou moins grande probabilité d'être
absorbé par le filtre.

Ce cas est donc un peu plus compliqué. Si l'on mesure la polarisation des photons selon trois angles
α , β , γ , ce que l'on va mesurer c'est le nombre de photons qui ne sont pas absorbés par un filtre
polarisant placé avec cet angle. On va mesurer ces valeurs pour les deux photons, chacun utilisant
un filtre orienté de manière différente (tout comme on mesurait des propriétés différentes ci-
dessus). On mesure la corrélation (les deux photons passent ou sont absorbés en même temps) pour
deux angles C (α , β ) par exemple. Dans ce cas, on démontre les inégalités de Bell :
(14) C (α , β ) − C (α , γ ) ≤ 1 + C (β , γ )

L'écart entre les deux corrélations de gauche est toujours inférieur ou égal à un plus la troisième
corrélation. C'est exactement la relation (8).

Cas de la mécanique quantique


Mais que prédit la mécanique quantique ? Celle-ci, en utilisant le formalisme des fonctions d'ondes
ou des états et des amplitudes, permet de calculer la probabilité d'observer le photon de chaque coté
et donc permet de calculer ces corrélations. La relation (1) donne comme résultat − cos(θ ) (où θ
est l'angle entre les deux mesures).

Prenons trois angles particuliers, α = 0 , β = 25° et γ = 115° . Dans ce cas, le calcul exact donne :
C (α , β ) = −0.906
C (α , γ ) = 0.422
C (β , γ ) = 0

Remplaçons ces valeurs dans l'inégalité de Bell (14), on trouve : 1.328 à gauche et 1 à droite. Le
membre de gauche étant plus grand que celui de droite, l'inégalité de Bell est violée.

La mécanique quantique est donc en désaccord avec le résultat trouvé par Bell. Cela montre que la
mécanique quantique ne peut pas être représentée avec des variables cachées locales.

Voyons maintenant ce que disent les expériences.


I.4. Expérience EPR

Tests des inégalités de Bell


De nombreuses expériences ont été menées afin de tester ces inégalités. En voici un résumé.

Expérience Date Particules étudiées Résultats


Stuart J.Freedman et John 1972 Photons infrarouges émis En accord avec la
F.Clauser, université de par des transitions dans des mécanique quantique
Californie Berkeley atomes de calcium
R.A.Holt et F.M. Pipkin, 1973 Photons infrarouges émis En accord avec les inégalités
université d'Harvard par des transitions dans des de Bell
atomes de mercure 198 In
John F.Clauser, université de 1976 Photons infrarouges émis En accord avec la
Californie Berkeley durant les transitions dans mécanique quantique
des atomes de mercure 202
Edward S.Fry et Randal 1976 Photons infrarouges émis En accord avec la
C.Thomson Texas A&M durant les transitions dans le mécanique quantique
université mercure 200 In
G.Faraci, S.Gutkowski, 1974 Photons gammas émis par En accord avec les inégalités
S.Notarigo et A.R.Pennisi, l'annihilation électron - de Bell
université de Catania positron
L.Kasday, J.Ullman et 1975 Photons gammas émis par En accord avec la
C.S.Wu, université de l'annihilation électron - mécanique quantique
Colombia positron
M.Lamehi-Rachti et 1976 Paires de protons dans l'état En accord avec la
W.Mittig, centre nucléaire quantique singulet mécanique quantique
de Saclay

L'expérience d'Aspect, Grangier et Roger


En 1982, Alain Aspect, Philippe Grangier et Gérard Roger ont publié les résultats de leur test
expérimental des inégalités de Bell. Aspect, Grangier et Roger ont utilisé des photons dans le
domaine visible et mesuré la corrélation entre les polarisations des photons produits par paires.
Dans un tel arrangement, les polarisations des photons de chaque paire devraient être identiques.
Arthur Robinson dans Science a noté que le système à deux photons utilisé dans cette expérience
n'est pas strictement couvert par la démonstration originale du théorème des inégalités de Bell, mais
cette démonstration a été étendue pour couvrir de tels systèmes impliquant des photons et des
polariseurs. L'arrangement utilisé dans l'expérience est illustré dans la figure ci-dessous.
Les photons sont émis par paires par la source et voyagent par des chemins séparés vers deux
polarimètres I et II. La polarisation de chaque photon était indiquée par le fait que le photon
voyageait directement dans le détecteur photomultiplicateur derrière le polarimètre ou était reflété
dans le détecteur sur le coté. Un compteur associé avec chaque polarimètre garde trace du nombre
total de photons entrant dans chaque polarimètre tandis que le détecteur de coïncidence compte les
occurrences détectées de paires corrélées de photons entrant simultanément dans les détecteurs.
Comme d'habitude, dans une expérience de ce type, plusieurs difficultés ont été anticipées et prises
en compte. Les photomultiplicateurs ne sont pas 100% efficaces, ainsi toute occurrence de paires
corrélées de photons entrant dans les détecteurs ne sont pas enregistrées. Certains photons sont
perdus par absorption ou réflexion dans le chemin optique. Peu importe l'étroitesse de la fenêtre de
coïncidence il y aura toujours des instances de détection de coïncidence de photons non appariés.

Dans le test des inégalités de Bell, les expérimentateurs ont déterminé la valeur de la quantité S, où
(1) S = E (a, b ) − E (a, b ′) + E (a ′, b ) + E (a′, b ′)
(2) E (a, b ) = P+ + (a, b ) + P− − (a, b ) − P+ − (a, b ) − P− + (a, b )

Et P± ± (a, b ) dénote la probabilité d'obtenir le résultat ± 1 le long de a (particule 1) et ± 1 le long de


b (particule 2). Les principes de la mécanique quantique prédisent que la valeur de S = ±2 2 peut
être obtenue avec un tel dispositif. Les inégalités de Bell permettent seulement − 2 ≤ S ≤ 2 . Les
expérimentateurs ont obtenu S = 2.70 ± 0.05 , une violation claire des inégalités de Bell. Même
avec ce résultat clair, il reste encore un défaut selon certaines considérations. Rappelons que la
question concerne la localité. De ce point de vue, les deux photons pourraient être considérés
comme locaux pour l'un l'autre et être encore capables de s'affecter l'un l'autre. L'élimination de la
localité a du attendre une autre expérience.

Confirmations supplémentaires
Le test décrit précédemment fut modifié pour pouvoir sélectionner la configuration des polariseurs
après que les photons aient quitté la source et supposés ne plus être influencés simultanément par le
dispositif (figure ci-dessus). Les chercheurs remplacèrent chacun des polariseurs avec un
commutateur et chaque commutateur était suivi de deux polariseurs ayant des orientations
différentes. De cette manière, un photon venant de la source rencontre d'abord un commutateur
optique qui le dirige alors directement dans un des deux polariseurs. Bien sûr, l'autre photon
rencontre en même temps un dispositif similaire de l'autre côté de l'expérience. Les distances et la
vitesse de commutation sont telles que la commutation aura changé entre le moment où le photon a
quitté la source et le moment où le photon est arrivé au commutateur. Le but ici est d'assurer
qu'aucune influence physique non standard de la configuration ultime des polariseurs ne peut avoir
affecté l'autre photon depuis qu'ils sont formés. Les expérimentateurs ont affirmé que leur
arrangement éliminait la localité comme facteur dans la corrélation des mesures. Pour un tel
arrangement, les expérimentateurs ont déterminé la prédiction de la mécanique quantique
S = 0.112 tandis que les inégalités de Bell prédisent S ≤ 0 . Les expérimentateurs ont obtenus
S = 0.101 ± 0.020 .

Un résumé des tests expérimentaux précédents des inégalités de Bell a été publié par John Clauser
et Abner Shimony. Ce résumé couvre les expériences listées dans la table ci-dessus et donne
quelques critiques sur les méthodes également.

 Pour être complet, il faut signaler une lacune dans ces expériences appelée "problème des non-
détection". Les appareils de mesure ne sont pas parfaits et, de temps en temps, certains photons
échappent à la détection. Dans les calculs statistiques des corrélations, il est assez facile d'en
tenir compte. Toutefois, cette correction se fait dans l'hypothèse que ces photons non détectés
sont quelconques, que la non-détection est aléatoire. En fait, rien ne dit que l'état du photon (par
exemple, à travers certaines valeurs des variables cachées) ne joue pas un rôle et qu'en prenant
toutes les valeurs en compte on ne constaterait pas un respect des inégalités de Bell. Il reste
donc une légère porte ouverte pour les variables cachées mais il faut quand même avouer que la
porte est minuscule (même si les physiciens aimeraient bien la fermer complètement) pour deux
raisons. Tout d'abord, ce phénomène serait particulièrement vicieux. Une partie des photons
échapperaient à la détection "pour cacher" le respect des inégalités de Bell. L'effet des variables
cachées et leur répartition statistique serait telle qu'elle induirait ce biais. Pire encore, ce biais
serait tel que le résultat obtenu sur les photons restant (ceux qui sont détectés) serait exactement
le résultat prédit par la mécanique quantique ! Il faut vraiment créer de toute pièce une théorie
ad hoc pour qu'une "censure" aussi parfaite s'applique et nous empêche de connaître les détails
des mécanismes intimes des particules. Peu de physiciens croient en une telle possibilité.
D'autant que des expériences plus récentes et encore plus précises ont été menées (avec des
photons transitant par fibres optiques sur des kilomètres).
 Dans des conditions idéales (et donc par nécessairement celle d'une expérience de type EPR) on
atteint des taux de détection quasiment parfaits (photons de fréquences bien choisies, caméras
CCD ultrasensibles,…) Il ne semble donc pas que la non-détection soit de rigueur en physique
quantique et induite par les variables cachées. C'est seulement la conséquence d'appareils de
mesure imparfaits.

Cela donne aussi un bon espoir d'arriver à réaliser une expérience réunissant toutes les
conditions d'une expérience EPR irréprochable et avec un taux de détection proche de cent pour
cent.
II. Contextualité
Un autre point mérite d'être signalé concernant les théories à variables cachées.

Le théorème de Bell n'est pas le seul qui ait permis de voir dans quelles circonstances les théories à
variables cachées peuvent donner des résultats équivalents à la mécanique quantique. Plusieurs
autres théorèmes important concernent la contextualité, en particulier un théorème très général dû à
Kochen et Specker. Ce théorème montre que toute théorie à variables cachées qui voudrait
reproduire les résultats de la physique quantique doit être contextuelle.

Qu'est-ce qu'une théorie contextuelle ? Cela signifie que les résultats des mesures dépendent de la
manière d'effectuer la mesure même si l'on mesure la même quantité physique. On dit que le
résultat dépend du contexte.

Supposons que l'on ait un état décrit par ψ ,θ (où θ sont des variables cachées). Soit
ψ = x1 + x 2 . C'est-à-dire, un état où la position est indéterminée en mécanique quantique et
toute mesure de la position donne avec une chance sur deux soit x1 , soit x 2 . Dans une théorie à
variables cachées, le résultat n'est pas aléatoire mais prédéterminé et il dépend des variables
cachées θ . Pour faire simple, supposons que toutes les configurations (pour un état ψ donné) des
variables cachées soient équivalentes et équiprobables. Dans ce cas, la moitié des valeurs possibles
doit correspondre à x1 et l'autre à x 2 .

Mais, si la théorie est contextuelle, alors ce résultat dépend aussi de la manière d'effectuer la
mesure. Appelons C1 une manière de mesurer la position et C 2 une autre manière de le faire.
Alors, avec C1 , comme signalé ci-dessus, la moitié des valeurs possibles pour les variables cachées
doit donner x1 et l'autre moitié x 2 . Par exemple, supposons pour faire simple, que les variables
cachées peuvent prendre quatre valeurs possibles : θ 1 , θ 2 , θ 3 et θ 4 et que, en utilisant C1 , les
valeurs θ 1 et θ 2 donnent la mesure x1 et les valeurs θ 3 et θ 4 donnent x 2 .
Maintenant, si nous utilisons C 2 , alors peut-être que cette fois-ci, c'est θ 1 et θ 3 qui vont donner le
résultat x1 et θ 2 et θ 4 donner x 2 .

Le résultat dépend donc bien (dans cet exemple) des variables cachées et de la manière de mesurer
la position.

Sans entrer immédiatement dans le détail des théorèmes sur la contextualité, on peut comprendre
assez facilement pourquoi il doit en être ainsi. Imaginons que l'on ait trois quantités physiques à
mesurer correspondant aux observables O1 , O2 et O3 . Il peut arriver (c'est le cas si les deux
premiers observables correspondent à la position dans deux directions et le troisième à l'impulsion
selon une de ces directions) que O1 et O2 commutent, O1 et O3 commutent, mais O2 et O3 ne
commutent pas.

Cela signifie que l'on peut mesurer O1 et O2 , ensemble, avec toute la précision voulue, ainsi que
O1 et O3 , mais que si l'on mesure O2 et O3 ensemble, les résultats seront soumis au principe
d'indétermination.

Supposons maintenant que l'on désire mesurer les valeurs de O1 et O3 . Pour mesurer O1 , on
dispose de deux appareils de mesure. Le premier (disons C1 ) mesure O1 directement. Le deuxième
( C 2 ) mesure O1 mais aussi O2 en même temps (même si on ignore volontairement ce résultat).
Cela dépend de la manière dont l'appareil de mesure fonctionne et il n'est pas rare qu'un dispositif
apporte plus d'informations que ce qui est réellement nécessaire. Ce n'est pas gênant car O1 et O2
commutent. Le fait de mesurer O2 n'empêche pas de mesurer O1 avec toute la précision requise.
C1 et C 2 peuvent donc être considéré comme des moyens parfaitement légitimes de mesurer O1 .

Mais le résultat ne peut pas être identique puisqu'en utilisant C1 et en mesurant O3 , en même
temps, on peut obtenir les résultats avec toute la précision souhaitée. Alors que pour les mêmes
états mesurés, l'utilisation de C 2 et la mesure de O3 ne peut pas être aussi précise que souhaitée.
Les mesures dépendant de la valeur des variables cachées et celles-ci devant reproduire le principe
d'indétermination à travers la distribution statistique des différentes variables cachées, l'utilisation
de C1 ou C 2 ne peut pas donner le même résultat.

Les théories à variables cachées doivent donc être contextuelles. Remarquons trois choses :
 C'est vraiment quelque chose de très curieux. Impossible de trouver des manières parfaites de
mesurer les états sans être confronté à ce caractère contextuel. Cela est dû au fait qu'il est
possible de combiner les états de toutes sortes de manière (superposition) et que l'on sera
toujours confronté (comme le montre en détail le théorème de Kochen et Specker) à des
combinaisons qui donnent un résultat contradictoire avec différentes mesures si ces mesures ne
dépendent pas de la manière de procéder.

Notons que cela n'est pas différent de ce que nous avons déjà vu : les variables cachées sont
vraiment cachées. Toute tentative pour essayer de les connaître est vouée à l'échec.
 Cet aspect est aussi vicieux que la non-localité. En effet, le fait de procéder à la mesure d'une
manière différente conduit, pour les mêmes variables cachées, à des résultats différents, mais, la
distribution statistique reste systématiquement la même. Là aussi il faut réellement créer une
théorie ad hoc pour arriver à un tel résultat.
 Le cas des observables qui commutent ou pas ci-dessus peut se démultiplier à l'infini car il y a
une infinité d'observables possibles et une infinité de manière de les combiner et donc une
infinité de manière d'effectuer une mesure donnée. Puisque à chaque fois différents ensembles
de valeurs des variables cachées doivent donner différents résultats, cela signifie qu'il faut une
infinité de variables cachées. On ne peut pas vraiment parler d'une théorie économique ! Alors
que la physique quantique peut décrire un état à l'aide d'une structure mathématique
extrêmement simple (un état est un vecteur dans un espace de Hilbert avec des composantes sur
une base qui peut être choisie physiquement), toute théorie à variables cachées à besoin d'une
infinité de variables pour décrire le même état et, qui plus est, des variables totalement
inaccessibles.

On est en tout cas très éloigné de la motivation initiale des variables cachées : a chaque
propriété prédite avec certitude (dans une situation donnée) = un élément de réalité = une
propriété interne (une variable cachée) prédéterminée. Les variables cachées ne remplissent pas
l'objectif pour lequel on les a imaginées !

Notons que cet aspect de contextualité concerne aussi la mécanique quantique puisque ce que nous
avons dit concernant les trois observables ci-dessus reste vrai même en l'absence de variables
cachées. Toutefois le sens en est très différent. Dans la théorie à variables cachées, le résultat est
différent pour deux états différents (ne différant que par les variables cachées) et selon la manière
de mesurer. Tandis qu'en mécanique quantique, l'état initial est le même, seule la manière de le
mesurer diffère. Et le fait que différentes manières de mesurer affecte le système de manière
différente est nettement moins bizarre. D'autant que si le résultat peut varier, il est de toute façon
donné par une distribution probabiliste identique pour toutes les méthodes de mesure.

Ce genre de situation avec des détails microscopiques reproduisant un comportement statistique


s'observe dans d'autres domaines. Par exemple, la thermodynamique est la théorie qui traite de la
chaleur et de la température. C'est une théorie macroscopique. On peut expliquer les résultats de la
thermodynamique par le comportement mécanique des particules et des traitements statistiques.
Mais, cela ne signifie pas que la correspondance soit parfaite. Il y a des écarts et des moyens
d'accéder aux détails. Heureusement, sinon comment saurait-on que la matière est composée de
particules ? Tandis qu'ici, les théorèmes de Bell et Kochen et Specker montrent indubitablement
que cela ne peut pas être le cas pour les variables cachées. Ici, elles sont à jamais inaccessibles, ce
qui rend douteux leur existence. La physique est essentiellement basée sur l'expérimentation
puisqu'elle cherche à expliquer le monde qui nous entoure et pas un monde imaginaire. Alors, que
penser d'une théorie qui ne peut être confrontée à l'expérience ? En science on appelle cela une
théorie non falsifiable, ce qui est considéré comme très négatif car non falsifiable signifie non
prédictif sinon de telles prédictions permettraient effectivement de la mettre à l'épreuve des faits de
l'expérience. Une telle théorie incapable de prédire la moindre petite chose de plus que la
mécanique quantique n'a aucun intérêt sauf d'un point de vue philosophique pour celui qui ne
conçoit pas un monde en l'absence d'une telle interprétation. Essayons d'avoir l'esprit plus ouvert et
envisageons toutes les possibilités, y compris l'absence de variable cachée.

La conclusion finale est que toute théorie à variables cachées doit être contextuelle, non locale et
avoir nombre infini de variables cachées. Le tout se combinant de manière extrêmement perverse
pour empêcher que l'on accède aux valeurs précises des variables cachées et reproduisant
systématiquement les résultats statistiques simples de la mécanique quantique. Cela en fait des
théories alambiquées et douteuses.
II.1. Théorème de von Neumann

Introduction
Le but du développement d'une théorie à variables cachées est de donner un formalisme qui, bien
qu'étant empiriquement équivalent au formalisme quantique, ne possède pas son caractère subjectif
et indéterministe.

La question générale des variables cachées est, bien sûr, discuté dans plusieurs références. Le
travail de Bell est le plus définitif. Un récent passage en revue fut publié par N.D. Mermin qui a fait
beaucoup pour populariser le théorème de Bell à travers des articles dans Physics Today et à travers
des lectures populaires. Des discussions peuvent aussi être trouvées dans Bohm, Belinfante,
Hughes et Jammer.

Dans cette section nous présenterons et discuterons un des premiers travaux abordant la question
des variables cachées qui est l'analyse en 1932 de John von Neumann. Nous passerons aussi en
revue et élaborerons l'analyse de J.S. Bell de ce travail dans lequel il rend clair ses limites.

L'analyse des variables cachées de von Neumann apparaît dans son livre maintenant classique
Fondations Mathématiques de la Mécanique Quantique. Ce livre est notable à la fois pour son
exposition de la structure mathématique de la théorie quantique et comme un des premiers travaux
à systématiquement aborder à la fois la question des variables cachées et le problème de la mesure.

Plus loin nous discuterons une analyse de 1935 de Erwin Schrödinger. C'est l'article dans lequel le
"paradoxe du chat de Schrödinger" apparaît la première fois mais il n'est pas généralement apprécié
pour le reste alors qu'il contient d'autres résultats de signification égale ou peut-être plus grande tel
que la généralisation de Schrödinger du paradoxe de Einstein-Podolsky-Rosen. Nous pensons que
cet article remarquable pourrait avoir fait beaucoup pour avancer l'étude des fondations de la
mécanique quantique si ces dernières propriétés avaient été plus largement appréciées.

Le formalisme quantique nous présente deux différents types d'évolution de la fonction d'état : celle
donnée par l'équation de Schrödinger et celle qui se produit durant une mesure. Cette dernière
évolution apparaît dans la règle probabiliste et de réduction. Le problème de la mesure est le
problème de réconcilier ces deux types d'évolution.

Dans son analyse du problème des variables cachées, von Neumann a prouvé un résultat
mathématique maintenant connu comme le théorème de von Neumann et alors affirmé que ce
théorème impliquait la conclusion très forte qu'aucune théorie à variables cachées ne peut fournir
un accord empirique avec la mécanique quantique : (préface p.ix.x) "... une telle explication (par
des "paramètres cachés") est incompatible avec certains postulats fondamentaux qualitatifs de la
mécanique quantique." L'auteur affirme de plus : "il devrait être noté que nous n'avons pas besoin
d'aller plus loin dans le mécanisme des 'paramètres cachés' puisque nous savons maintenant que les
résultats établis de la mécanique quantique ne peuvent jamais être redérivés avec leur aide". La
première démonstration concrète que cette affirmation est erronée fut donnée en 1952 quand David
Bohm construisit une théorie viable des variables cachées. Alors, en 1966, J.S. Bell analysa
l'argument de von Neumann contre les variables cachées et montra où il devait être en erreur. Dans
cette section, nous commencerons pat discuter un concept essentiel de l'analyse de von Neumann :
la représentation d'état d'une théorie à variables cachées. Nous présenterons alors le théorème de
von Neumann et l'argument contre les variables cachées. Finalement, nous montrerons où l'erreur
est dans son argument.

L'analyse de von Neumann est concernée par la description de l'état d'un système et la question de
l'incomplétude de la description du formalisme quantique. La notion d'incomplétude de la
description du formalisme quantique fut particulièrement mise en évidence par Einstein, comme
nous l'avons vu. Le fameux article de Einstein-Podolsky-Rosen fut imaginé comme une preuve
d'une telle incomplétude et les auteurs ont conclu ce travail avec l'affirmation suivante : "Bien que
nous avons donc montré que la fonction d'onde ne fournit pas une description complète de la réalité
physique, nous laissons ouvert la question de savoir si oui ou non une telle description existe. Nous
croyons, cependant, qu'une telle théorie est possible". Le programme des variables cachées qui est
une tentative de compléter la description de l'état est apparemment exactement le type de
programme que Einstein demandait. Une description complète de l'état peut être construite pour
éliminer certaines des propriétés critiquables de la description théorique quantique.
La question particulière de l'analyse de von Neumann traite est la suivante : est-il possible de
restaurer le déterminisme de la description des systèmes physiques en introduisant des variables
cachées dans la description de l'état d'un système ? La représentation de l'état du formalisme
quantique donné par ψ ne permet pas en général de prédiction déterministe des valeurs des
quantités physiques, c'est-à-dire des observables. Donc les résultats obtenus en effectuant des
mesures sur des systèmes avec des représentations d'état identiques ψ peuvent être attendues varier
(la quantité statistique appelée dispersion est utilisée pour décrire cette variation quantitativement).
Bien qu'elle ne fournit en général pas de prédiction pour chaque mesure individuelle d'un
observable O, le formalisme quantique donne une prédiction pour sa moyenne ou valeur moyenne :
(1) E (O ) = ψ O ψ

Quand elle est généralisée au cas des états mixtes, cela devient
(2) E (O ) = Tr (UO )

où U est un opérateur positif avec la propriété Tr (U ) = 1 . Ici U est connu comme la "matrice
densité".

L'analyse de von Neumann traite la question de savoir si le manque de déterminisme dans le


formalisme quantique peut être attribué au fait que la description de l'état donné par ψ est
incomplète. Si cela étai vrai, alors la description complète de l'état - consistant à la fois en ψ et un
paramètre supplémentaire que nous appellerons λ , permettrait de faire des prédictions sur les
mesures individuelles pour chaque observable. Notons qu'une telle capacité de prédiction peut être
exprimée mathématiquement en disant que pour tout ψ et λ il doit exister une fonction
"application de valeur", c'est-à-dire une fonction mathématique assignant à chaque observable sa
valeur. Nous représentons une telle fonction par l'expression Vλψ (O ) . Von Neumann appelait un
état hypothétique décrit par les paramètres ψ et λ un "état sans dispersion" puisque les résultats
obtenus par des mesures sur les systèmes avec des représentations d'état identiques en ψ et λ sont
acceptés être identiques et donc ne pas exhiber de dispersion.
Le théorème de von Neumann traite de la forme générale prise par une fonction E (O ) qui assigne à
chaque observable sa valeur moyenne. La fonction prise en compte par le théorème est considérée
comme étant de généralité suffisante pour que la fonction moyenne de la théorie quantique ou de
toute théorie empirique équivalente doive supposer la forme dérivée par von Neumann. Dans le cas
de la théorie quantique, E (O ) prendrait la forme de la formule de la moyenne quantique (2). Dans
le cas d'un état sans dispersion, la moyenne sur une série de E (O ) retournerait la valeur de chaque
observable. Quand on analyse la forme de E (O ) développée dans le théorème, il est facile de voir
qu'elle ne peut pas être une fonction de ce type. Suite à cela, von Neumann en vient à conclure
qu'aucune théorie impliquant des états sans dispersion ne peut être en accord avec la mécanique
quantique. Cependant, puisque le théorème place une restriction non raisonnable sur la fonction
E (O ) , cette conclusion est erronée.

Théorème de von Neumann


Les hypothèses sur la fonction E (O ) sont les suivantes. Premièrement, la valeur E assignée à
"l'observable identité" 1 est égale à l'unité
(3) E (1) = 1

L'observable identité est le projecteur associé à l'espace de Hilbert entier. Tous les vecteurs sont des
vecteurs propres de 1 avec la valeur propre 1. La deuxième hypothèse est que la fonction E de toute
combinaison linéaire réelle des observables est la même combinaison linéaire des valeurs de E
assignées à chaque observable individuel :
(4) E (aA + bB + L) = aE ( A) + bE (B ) + L
où (a, b, ...) sont des nombres réels et (A, B, ...) sont des observables. Finalement, il est supposé
que E pour tout projecteur P doit être non négatif :
(5) E (P ) ≥ 0

Par exemple, dans le cas de la fonction Vλψ , P doit être assigné ou bien à 1 ou bien à 0 puisque ce
sont ses valeurs possibles. Selon le théorème, ces prémisses impliquent que E (O ) doit être donné
par la forme
(6) E (O ) = Tr (UO )
où U est un opérateur positif avec la propriété Tr (U ) = 1 .

La démonstration de cette conclusion est immédiate.

Une preuve du théorème peut être trouvée dans le travail original de von Neumann. Albertson a
présenté une simplification de cette preuve en 1961. Ce que nous présentons ici est une
simplification supplémentaire.

Nous commençons par noter que tout opérateur O peut être écrit comme une somme d'opérateurs
( ) ( )
hermitiques. Définissons A et B par les relations A = 12 O + O + et B = 21i O − O + où O +
est le conjugué hermitique de O. Alors on voit facilement que A et B sont hermitiques et que
(7) O = A + iB

Nous définissons la fonction E ∗ (O ) par


(8) E ∗ (O ) = E ( A) + iE (B )

où E (O ) est le E (O ) de von Neumann et A et B sont définis comme ci-dessus. Avec les équations
(8) et (4), nous avons que E ∗ (O ) a la propriété de linéarité complexe. Notons que E ∗ (O ) est une
généralisation du E (O ) de von Neumann : ce dernier est une fonction linéaire réelle sur les
opérateurs hermitiques tandis que la précédente est une fonction linéaire complexe sur tous les
opérateurs. Le forme générale de E ∗ sera maintenant analysée pour le cas d'un opérateur de
dimension finie exprimé en termes matriciels d'une certaine base orthonormale. Nous écrivons
l'opérateur O sous la forme
(9) O = ∑ m m O n n
m,n

où les sommes sur m, n sont finies. Cette forme de O est une combinaison linéaire des opérateurs
m n et la linéarité complexe de E ∗ implique que
(10) E ∗ (O ) = ∑ m O n E ∗ ( m n )
m ,n

Nous définissons maintenant l'opérateur U par la relation U nm = E ∗ ( m n ) et (10) devient


(11) E ∗ (O ) = ∑ OmnU nm = ∑ (UO )mm = Tr (UO )
m,n m

Puisque le E (O ) de von Neumann est un cas particulier de E ∗ (O ) , (11) implique


que
(12) E (O ) = Tr (UO )

Nous montrons maintenant que U est un opérateur positif. C'est une prémisse du théorème que
E (P ) ≥ 0 pour tout projecteur P. Donc nous écrivons E (Pχ ) ≥ 0 où Pχ est un projecteur à une
dimension sur le vecteur χ . En utilisant la forme de E trouvée dans (12), nous avons
(13) Tr (UPχ ) = χ U χ ≥ 0

L'égalité Tr (UPχ ) = χ U χ dans (13) est constatée comme suit. L'expression Tr (UPχ ) est
indépendante de la base orthonormale φ n en terme de laquelle les représentations matricielles de U
et P sont exprimées, ainsi on peut choisir une base orthonormale dont χ lui-même est un
membre. Puisque P = χ χ et Pχ φ n = χ χ ϕ n = 0 pour tout φ n excepté χ , nous avons
Tr (UPχ ) = χ U χ .

Puisque χ est un vecteur arbitraire, il s'ensuit que U est un opérateur positif. La relation Tr (U ) = 1
est montrée comme suit : de la première hypothèse du théorème (3) avec la forme de E donnée par
(12), nous avons Tr (U ) = Tr (U 1) = 1 . Cela complète la démonstration du théorème de von
Neumann.
Preuve d'impossibilité de von Neumann
Nous présentons maintenant l'argument de von Neumann contre la possibilité des variables
cachées. Considérons la fonction E (O ) évaluée sur les projecteurs à une dimension Pφ . Pour de
tels projecteurs, nous avons la relation
(14) Pφ = Pφ2

Comme mentionné ci-dessus, dans le cas où E (O ) correspond à un état sans dispersion représenté
par un certain ψ et λ , elle doit appliquer les observables à leurs valeurs. Nous écrivons Vλψ (O ) la
fonction correspondant à l'état spécifié par ψ et λ . Von Neumann a noté que Vλψ (O ) doit obéir à
la relation :
( )
(15) f Vλψ (O ) = Vλψ ( f (O ))
où f est une fonction mathématique. Cela est facilement constaté en notant que la quantité f (O )
peut être mesurée en mesurant O et en évaluant f sur le résultat. Cela signifie que la valeur de
l'observable f (O ) sera f de la valeur de O. Donc, si Vλψ (O ) applique chaque observable à une
( ) ( )
valeur, nous devons avoir (15). Donc Vλψ Pφ2 = Vλψ (Pφ ) qui avec (14) implique
2

( )
(16) Vλψ (Pφ ) = Vλψ (Pφ )
2

Cette dernière relation implique que Vλψ (Pφ ) doit être égal à 0 ou 1.

Rappelons la relation E (Pφ ) = φ U φ . Si E (O ) prend la forme d'une fonction telle que Vλψ (Pφ ) ,
alors il s'ensuit que la quantité φ U φ est égale à 0 ou 1. Considérons la manière dont cette
quantité dépend d'un vecteur φ . Si nous faisons varier φ de manière continue, alors φ U φ
variera aussi de manière continue. Si les seules valeurs possibles de φ U φ sont 0 et 1, il s'ensuit
que cette quantité doit être constante, c'est-à-dire que nous devons avoir ou bien φ U φ = 0
pour tout φ dans H, ou φ U φ = 1 pour tout φ dans H. Si la première est vraie, alors on doit avoir
que U lui-même est zéro. Cependant, en utilisant (12), nous trouvons que E (1) = 0 . Un résultat en
conflit avec l'hypothèse du théorème que E (1) = 1 (3). De même, si φ U φ = 1 pour tout φ dans
H, il s'ensuit que U = 1 . Ce résultat est aussi en conflit avec l'exigence (3) puisque cela conduit à
E (1) = Tr (1) = n où n est la dimension de H.

A partir du résultat obtenu, on peut en conclure que toute fonction E (O ) qui satisfait les contraintes
du théorème de von Neumann doit échouer à satisfaire la relation (15) et ainsi ne peut pas être une
fonction application valeur sur les observables.

Il sera noté que le même résultat peut être prouvé sans l'utilisation de (15) puisque le fait que
Vλψ (Pφ ) doit être 0 ou 1 suit simplement de l'observation que ce sont les valeurs propres de Pφ .

A partir de ce résultat, von Neumann en conclu qu'il est impossible pour une théorie à variables
cachées déterministes de fournir un accord empirique avec la théorie quantique : "Ce n'est donc
pas, comme cela est souvent supposé, une question de réinterprétation de la mécanique quantique.
Le système actuel de la mécanique quantique devrait être objectivement faux afin qu'une autre
description des processus élémentaires que la statistique soit possible."

Réfutation de la preuve d'impossibilité de von Neumann


Bien qu'il soit vrai que le théorème mathématique de von Neumann soit valide, ce n'est pas le cas
de celui de l'impossibilité des variables cachées qui s'en suit. L'invalidité de l'argument de von
Neumann contre les variables cachées fut montré par le développement de Bohm d'une théorie à
variables cachées réussie (un contre exemple à la preuve de von Neumann) et par J.S. Bell qui
analysa systématiquement la preuve de von Neumann. Nous allons maintenant présenter cette
dernière.

La démonstration de l'absence de variables cachées de von Neumann peut être vue comme
consistant en deux composantes : un théorème mathématique et une analyse de ses implications sur
les variables cachées. Comme nous l'avons dit, le théorème lui-même est correct quand il est
regardé comme purement mathématique. Le défaut est dans l'analyse reliant ce théorème aux
variables cachées. Les conditions prescrites pour la fonction E sont trouvées dans les équations (3),
(4) et (5). Le théorème de von Neumann affirme qu'à partir de ces hypothèses suit la conclusion que
la forme E (O ) doit être donnée par (12). Quand on considère une situation physique réelle, il
devient apparent que la deuxième condition du théorème n'est pas du tout
raisonnable. Comme nous le verrons, l'écart de cette condition d'une contrainte raisonnable
sur E (O ) est marqué par le cas de son application à des observables non commutant.

Nous voulons démontrer pourquoi (4) est une contrainte injustifiée sur E. Pour le faire, nous
examinerons d'abord un cas particulier dans lequel une telle relation est raisonnable et alors par
contraste le cas pour lequel elle ne l'est pas. L'hypothèse elle-même demande la linéarité réelle de
E (O ) , c'est-à-dire que E doit satisfaire E (aB + bB + L) = aE ( A) + bE (B ) + L pour tout observables
{A, B, ...} et tous nombres réels{a, b, ...}. C'est en fait une exigence sensible pour les cas où {A, B
,...} sont des observables commutant. Supposons par exemple que les observables O1 , O2 , O3
forment un ensemble commutant et qu'ils obéissent à la relation O1 = O2 + O3 . Nous savons du
formalisme quantique qu'on peut mesurer ces observables simultanément et que le résultat de
mesure (o1 , o2 , o3 ) doit être un membre de spectre de valeurs propres jointes
de l'ensemble. Il est facile de voir que tout membre du spectre propre joint de O1 , O2 , O3 doit
satisfaire o1 = o 2 + o3 . Cela étant le cas, on peut s'attendre à ce que la fonction E (O ) , qui dans le
cas d'un état sans dispersion doit être une application Vλψ (O ) sur les observables, devrait satisfaire
E (O1 ) = E (O2 ) + E (O3 ) .

D'un autre coté, supposons que nous considérions un ensemble {O,P,Q} satisfaisant
O=P+Q où les observables P et Q ne commutent pas, c'est-à-dire [P, Q ] ≠ 0 . Il est facile de voir que
O ne commute ni avec P ni avec Q. Il est donc impossible d'effectuer une mesure de deux de ces
observables simultanément. Donc, la mesure de ces observables nécessite trois procédures
expérimentales différentes. Cela étant, il n'y a pas de justification pour exiger que
E (O ) = E (P ) + E (Q ) pour de tels cas.
Comme exemple, on peut considérer le cas d'une particule de spin 1/2. Supposons que les
composantes du spin données par σ x , σ y et σ ′ où

(17) σ ′ =
1
(σ x + σ y )
2
soient examinées. La procédure de mesure pour toute composante donnée du spin d'une particule
est effectuée par un appareil de Stern-Gerlach correctement orienté. Par exemple, pour mesurer la
composante x, l'aimant doit être orienté le long de l'axe x. Pour la composante y il doit être orienté
le long de l'axe y. Une mesure de sigma' est faite en utilisant un appareil de Stern-Gerlach le long
d'un axe encore dans une autre direction.

Il n'est pas difficile de montrer que σ ′ définit de cette manière est la composante du spin le long
d'un axe qui est dans le plan x,y et est à 45° des axes x et y.

La relation (4) ne peut pas être une demande raisonnable à mettre sur les fonctions moyennes E (O )
des observables σ x , σ y et σ ′ puisque ces quantités sont mesurées en utilisant des procédures
complètements distinctes.

Donc, l'argument des variables cachées de von Neumann est vu comme malsain. Le fait qu'il est
basé sur une hypothèse non justifiée est suffisant pour le montrer. Il sera aussi noté que la présence
du postulat de linéarité réelle discuté ci-dessus fait de la situation entière de von Neumann contre
les variables cachées un argument d'un caractère assez trivial. En examinant l'exemple ci-dessus
impliquant les trois composantes du spin d'une particule de spin 1/2, nous trouvons que les valeurs
propres de ces observables ± 1 / 2 n'obéissent pas à (17), c'est-à-dire
1 1  1 1
(18) ± ≠ ± ± 
2 2  2 2

Puisque E (O ) par hypothèse doit satisfaire (17), il ne peut pas appliquer les observables à leurs
valeurs propres. Donc, avec l'hypothèse de linéarité réelle, on peut pratiquement immédiatement
"réfuter" les variables cachées. Il est donc apparent que l'argument de von Neumann contre les
variables cachées repose essentiellement sur l'exigence arbitraire que E (O ) obéit à la linéarité
réelle, une hypothèse qui est en désaccord immédiat avec la demande simple et naturelle que E soit
en accord avec la mécanique quantique en donnant les valeurs propres comme le résultat des
mesures.

Résumé et remarques supplémentaires


Dans notre discussion sur l'argument de von Neumann sur l'absence de variables cachées, nous
avons trouvé que l'argument peut être vu comme consistant en deux composantes : un théorème qui
concerne la forme générale pour une fonction moyenne E (O ) sur les observables et une preuve que
la fonction E (O ) ainsi développée ne peut pas être une fonction d'application valeur. Comme
l'hypothèse de linéarité réelle de E (O ) est injustifiée, le travail de von Neumann n'implique pas
l'échec général des variables cachées. Finalement, nous avons noté qu'en supposant seulement la
linéarité réelle de E on peut facilement arriver à la conclusion qu'une telle fonction ne peut pas être
une application des valeurs propres des observables. Ultimement, la leçon à apprendre du théorème
de von Neumann est simplement qu'il n'existe pas de fonction mathématique des observables vers
leurs valeurs obéissant à l'exigence de linéarité réelle.

Abner Shimony a rapporté qu'Albert Einstein état attentif à la fois à l'analyse de von Neumann elle-
même et à la raison pour laquelle elle échoue comme preuve d'impossibilité des variables cachées.
La source du rapport de Shimony était une communication personnelle avec Peter G. Bergmann.
Bergmann rapporta que durant une conversation avec Einstein sur la preuve de von Neumann,
Einstein ouvrit le livre de von Neumann à la page où la preuve est donnée et pointa l'hypothèse de
linéarité. Il dit alors qu'il n'y avait aucune raison pour laquelle cette prémisse devrait être valable
pour un état non reconnu par la mécanique quantique, si les observables ne sont pas simultanément
observables. Ici "l'état non reconnu par la mécanique quantique" semble se référer à l'état sans
dispersion de von Neumann, c'est-à-dire l'état spécifié par ψ et λ . Il est presque certain que Erwin
Schrödinger aurait aussi réalisé l'erreur dans la preuve d'impossibilité de von Neumann puisque
dans son article de 1935 il donne une dérivation qui est équivalente au théorème de von Neumann
en ce qui concerne les variables cachées bien qu'il n'arrive pas à la conclusion de von Neumann de
l'impossibilité des variables cachées.
Nous discuterons de la dérivation de Schrödinger dans ce qui suit. En vue de la rareté des réponses
initiales à la preuve de von Neumann, il est intéressant d'avoir une telle évidence de l'attention de
Einstein et Schrödinger à l'argument et ses conséquences.

Max Jammer affirme dans son livre que non seulement il y eut très peu de réponses à la preuve
d'impossibilité de von Neumann mais le livre lui-même ne fut jamais passé en revue avant 1957
avec l'exception de deux brefs travaux de Bloch et Margenau.

En plus, cela confirme le fait qu'Einstein voyait le problème de trouver une description complète
des phénomènes quantiques comme d'une importance centrale.

Dans notre introduction du théorème de von Neumann, nous avons dit que l'existence d'une théorie
à variables cachées déterministes conduisait au résultat que pour chaque ψ et λ il existe une
application valeur sur les observables. Nous représentons de telles applications valeur par
l'expression Vλψ . Si on considère la question des variables cachées plus profondément, il est clair
que l'accord de leurs prédictions avec celle de la mécanique quantique nécessite un critère
supplémentaire au-delà de l'existence d'une application valeur pour chaque ψ et λ : elle nécessite
l'accord avec les prédictions statistiques du formalisme quantique. Pour rendre possible l'accord
empirique de la théorie quantique, dans laquelle seules les prédictions statistiques sont
généralement possibles avec la description déterministe d'une théorie à variables cachées, nous
regardons leur description d'un système quantique de la manière suivante. L'état quantique donné
par ψ correspond à un ensemble statistique des états donnés par ψ et λ , les membres de
l'ensemble étant décrit par le même ψ mais différant par λ . La variation dans les résultats des
mesures trouvées pour une série de systèmes quantiques avec des ψ identiques sera expliqué par la
variation du paramètre λ parmi l'ensemble des états ψ , λ . Pour un accord précis à cet égard, nous
exigeons que pour tout ψ et O, la relation suivante doit être valide :

(19) ∫ dλρ (λ )Vλψ (O ) = ψ O ψ
−∞

où ρ (λ ) est la distribution de probabilité sur λ .

Nous avons vu du résultat de von Neumann et de notre simple examen des observables
de spin 1/2 σ x , σ y , ..., qu'il est impossible de développer une fonction linéaire appliquant les
observables à leurs valeurs propres. Nous avons vu aussi qu'une preuve d'impossibilité peut être
développée montrant que le critère d'accord avec les statistiques quantiques, c'est-à-dire l'accord
avec (19), ne peut pas être obtenu avec des fonctions de la forme Vλψ (O ) (théorème de Bell).

Dérivation de Schrödinger de la "preuve d'impossibilité" de von Neumann


Comme mentionné ci-dessus, dans son fameux article du "paradoxe du chat", Schrödinger a
présenté une analyse qui, tant que les variables cachées sont concernées, est essentiellement
équivalente à la preuve de von Neumann. L'étude de Schrödinger du problème fut motivée par les
résultats de sa généralisation du paradoxe de Einstein-Podolsky-Rosen. Bien que EPR a conclu à
des valeurs définies des observables position et moment seulement, Schrödinger fut capable
de montrer que de telles valeurs doivent exister pour tous les observables de l'état considéré par
EPR. Pour sonder les relations possibles qui peuvent gouverner les valeurs assignées aux différents
observables, Schrödinger donne alors une brève analyse d'un système dont l'hamiltonien prend la
forme
(20) H = p 2 + a 2 q 2

Nous sommes conscients de la solution bien connue du problème de l'oscillateur harmonique, c'est-
à-dire que les valeurs propres de l'hamiltonien sont données par l'ensemble {ah,3ah,5ah,7ah,K}.
Considérons une application V (O ) des observables vers les valeurs. Si nous exigeons que les
attributions V pour les observables H, p, q satisfont (20) alors nous devons avoir
(21) V (H ) = (V ( p )) + a 2 (V (q ))
2 2

qui implique
( )
(22) V ( p ) + a 2V (q ) / ah = un entier impair
2 2

Cette dernière relation ne peut en général pas être satisfaite par les valeurs propres de q et p, donc
chacune peut être tout nombre réel, et un nombre positif arbitraire a.

La connexion de ce résultat à l'argument de von Neumann est immédiate. Dans la discussion


précédente, nous avons noté que les valeurs des observables f (O ) seront f de la valeur de O tel que
toute application valeur doit satisfaire f (V (O )) = V ( f (O )) comme donné dans l'équation (15). Ici f
peut être toute fonction mathématique. Il s'ensuit que (21) est équivalent à la relation entre les
observables H, p 2 , q 2 donnée par :
(23) V (H ) = (V ( p )) + a 2 (V (q ))
2 2

Avec les valeurs propres connues de H, cela conduit à


( )
(1.39) V ( p ) + a 2V (q ) / ah = un entier impair
2 2

qui ne peut généralement pas être satisfait par les valeurs propres de q 2 et p 2 , chacune pouvant
être tout nombre réel positif, et un nombre positif arbitraire a. Nous avons ici un autre exemple
conduisant à une démonstration du résultat de von Neumann qu'il n'y a pas d'application valeur
linéaire sur les observables (rappelons l'exemple des observables des composantes du spin, σ x , σ y ,
... donné ci-dessus). Si nous considérons la fonction de von Neumann E (O ) , l'hypothèse de
linéarité réelle nécessite qu'elle satisfasse (23). Donc, E (O ) ne peut pas appliquer les observables
sur leurs valeurs propres. Schrödinger n'a pas vu cela comme une preuve de l'impossibilité des
variables cachées, comme von Neumann l'a fait, mais en a seulement conclu que les relations telles
que (23) ne sont pas nécessairement satisfaites par les attributions de valeur faites aux observables
contraintes par une telle relation. En effet, si Schrödinger avait fait l'erreur d'interprétation de von
Neumann, cela aurait contredit les résultats qu'il a développés avant selon lesquels de telles
variables cachées doivent exister.
II.2. Théorème de Gleason
Le théorème de von Neumann traitait la question de la forme prise par une fonction E (O ) des
observables. Le théorème de Gleason traite essentiellement de la même question, la différence la
plus significative étant que l'hypothèse de linéarité est relâchée et il est demandé que E soit linéaire
seulement pour des ensembles commutant d'observables.

La forme originale présentée par A.M. Gleason se rapporte à une mesure de probabilité sur les
sous-espaces d'un espace de Hilbert, mais l'équivalence d'une telle construction avec une
application valeur sur les projecteurs est simple et immédiate. Cela peut être vu en considérant qu'il
y a une bijection entre les sous-espaces et les projecteurs d'un espace de Hilbert et que les valeurs
prises par les projecteurs sont 1 et 0 ainsi une fonction application des projecteurs sur leurs valeurs
propres est un cas particulier d'une mesure de probabilité sur ces opérateurs.

En plus, le théorème de Gleason exige une fonction E sur seulement les projecteurs du système
plutôt que sur tous les observables. Finalement, le théorème de Gleason contient l'hypothèse que
l'espace de Hilbert du système est au moins à trois dimensions. Pour la conclusion du théorème, elle
est identique à celle de von Neumann : E (P ) prend la forme E (P ) = Tr (UP ) où U est un opérateur
positif et Tr (U ) = 1 .

Rendons l'exigence de linéarité sur les observables commutants un peu plus explicite.
Premièrement nous notons que tout ensemble de projecteurs {P1 , P2 ,K} sur des sous-espaces
mutuellement orthogonaux {H 1 , H 2 ,K} forme un ensemble commutant. De plus, si P projette sur
la somme directe H 1 + H 2 + L de ces sous-espaces, alors {P, P1 , P2 ,K} forme aussi un ensemble
commutant. C'est dans le cas de ce dernier type d'ensemble que l'exigence de linéarité entre en jeu,
puisque ces observables obéissent à la relation
(1) P = P1 + P2 + L

La condition sur la fonction E est alors


(2) E (P ) = E (P1 ) + E (P2 ) + L
L'affirmation formelle du théorème de Gleason est exprimée comme suit. Pour tout système
quantique dont l'espace de Hilbert est à au moins trois dimensions, toute fonction moyenne E (P )
obéissant aux conditions (2), 0 ≤ E (P ) ≤ 1 et E (1) = 1 , doit prendre la forme
(3) E (P ) = Tr (UP )
où Tr (U ) = 1 et U est un opérateur positif. Nous ne présentons pas une preuve de ce résultat ici.

Bell a prouvé que toute fonction E (P ) satisfaisant les conditions du théorème de Gleason ne peut
pas appliquer les projecteurs sur leurs valeurs propres.

Un corollaire important du théorème de Gleason est que l'attribution des probabilités aux résultats
des mesures doit suivre la règle de Born pour être consistant.

Dans les prochaines sections, nous donnerons la preuve du théorème de Kochen et Specker. Le
même résultat d'impossibilité est dérivé du théorème de Gleason suite à ce théorème.

Il est immédiat de démontrer que la fonction E (P ) considérée dans le théorème de Gleason ne peut
pas être une fonction d'application valeur sur ces observables. Pour le démontrer, on peut raisonner
de la même manière que cela fut fait par von Neumann puisque la forme développée ici pour E (P )
est la même que celle conclue par cette dernière. Nous rappelons que si E (O ) doit représenter un
état sans dispersion spécifié par ψ et λ , il doit prendre la forme d'une telle application valeur et
E (O ) ne peut évidemment pas être la fonction moyenne pour de tels états. C'est sur cette base que
l'impossibilité des variables cachées a été affirmée suite au théorème de Gleason. Nous
approfondirons cette question dans la suite.
II.3. Théorème de Kochen et Specker
Le théorème de Kochen et Specker est un sujet important mais subtil des fondations de la
mécanique quantique. Le théorème fournit un argument puissant contre la possibilité d'interpréter la
mécanique quantique en terme de variables cachées. Nous présentons ici le théorème/argument et la
discussion des fondations de la mécanique quantique aux différents niveaux.
II.3.1. Introduction
La mécanique quantique a la propriété particulière que les états quantiques impliquent, en général,
seulement des restrictions statistiques sur le résultat des mesures. La conclusion naturelle qui en
découle est que ces états sont des descriptions incomplètes des systèmes quantiques. La mécanique
quantique devrait donc être incomplète dans le sens qu'une description d'un état typique de la
mécanique quantique d'un système individuel pourrait être augmentée avec une description plus
complète en termes d'une théorie à variables cachées. Dans une description à variables cachées du
système, les probabilités de la mécanique quantique seraient naturellement interprétées comme des
probabilités épistémiques du type qui se produisent dans la mécanique statistique ordinaire. Une
telle description par les variables cachées peut ne pas être utile en pratique mais on est tenté de
penser qu'elle devrait au moins être possible en principe. Il y a, cependant, deux théorèmes
puissants dont le résultat est qu'une telle description est impossible, même en principe : la
mécanique quantique, étant donné certains prémisses extrêmement plausibles, ne peut pas être
augmentée par une théorie à variables cachées. Le plus fameux de ces deux théorèmes est le
théorème de Bell qui déclare que, étant donné une prémisse de localité, un modèle à variables
cachées ne peut pas donner les prédictions statistiques de la mécanique quantique. Le second
théorème important contre les théories à variables cachées est le théorème de Kochen et Specker
qui déclare que, étant donné une prémisse de non contextualité, l'on ne peut pas du tout assigner de
manière consistante des valeurs à certains ensembles d'observables de la mécanique quantique
(même avant que la question de leur distribution statistique ne survienne).

Avant de voir le travail du théorème de Kochen et Specker en détail, nous devons clarifier pourquoi
il est si important pour les philosophes scientifiques. La prémisse explicite des interprétations à
variables cachées est celui de valeur précise :

 Tous les observables définis pour un système de la mécanique quantique ont des valeurs
précises à tout moment.

Cette hypothèse, cependant, est motivée par un principe plus basique, un réalisme apparemment
inoffensif sur la mesure physique qui, initialement, semble un point indispensable de la science
naturelle. Ce réalisme consiste en la supposition que tout ce qui existe dans le monde physique
est causalement indépendant de nos mesures qui servent à nous donner de l'information sur lui.
Maintenant, puisque les mesures de tout observable en mécanique quantique conduit,
typiquement, à des valeurs plus ou moins précises, il y a de bonnes raisons de penser que de
telles valeurs existent indépendamment de toute mesure, ce qui nous conduit à supposer les
valeurs définies (notons que nous n'avons pas besoin de supposer ici que les valeurs sont
fidèlement révélées par l'expérience mais seulement qu'elles existent !). Nous pouvons
concrétiser notre réalisme inoffensif dans une seconde supposition de non contextualité :

 Si un système en mécanique quantique possède une propriété (la valeur d'un observable), alors
il doit en être ainsi indépendamment de tout contexte de mesure, c'est à dire indépendamment
de comment cette valeur est éventuellement mesurée.

Cela signifie que si un système possède une propriété donnée, c'est indépendant de la
possession d'autres valeurs rattachées à d'autres arrangements. Ainsi, nos deux suppositions
incorporent l'idée de base d'une indépendance de la réalité physique par rapport à l'observateur.

Le théorème de Kochen et Specker établit une contradiction entre les valeurs définies avec la non
contextualité et la mécanique quantique. Donc, l'acceptation de la mécanique quantique nous force
logiquement à renoncer ou aux valeurs définies ou à la non contextualité. Cependant, la situation
est plus dramatique qu'il semblerait initialement. Les valeurs définies sont la clé motivant la
supposition du programme des variables cachées dans le sens que, si c'est réalisable, il expliquerait
le plus naturellement le caractère statistique de la mécanique quantique et expliquerait élégamment
l'infâme problème de la mesure hantant toutes les interprétations de la mécanique quantique. Mais,
comme nous allons le voir, la seconde supposition de la non contextualité est motivée par le même
réalisme inoffensif qui incarne un standard de rationalité scientifique et il est loin d'être évident de
voir à quoi ressemblerait une interprétation obéissant à ce standard seulement partiellement, c'est-à-
dire approuvant seulement les valeurs définies mais rejetant la non contextualité. Ce complexe de
questions, c'est à dire,
(1) Les valeurs définies et la non contextualité contredisent la mécanique quantique.
(2) Les difficultés conceptuelles pour interpréter la mécanique quantique fournissent une forte
motivation pour les valeurs définies.
(3) Il n'est pas évident de voir comment construire une description plausible de la mécanique
quantique contenant des valeurs définies mais pas la non contextualité,
est le carburant philosophique intéressant dans le théorème de Kochen et Specker.
II.3.3. Contexte du théorème Kochen et Specker
Dans la suite nous supposerons quelques familiarités avec les notions élémentaires de la mécanique
quantique tel que 'état', 'observable', 'valeur' et leurs représentations mathématiques 'vecteur',
'opérateur (hermitique)' et 'valeur propre'. Nous identifierons habituellement les observables et les
opérateurs sur un espace de Hilbert approprié qui les représente. S'il y a besoin de distinguer les
opérateurs et les observables, nous écrirons les opérateurs avec un accent circonflexe (donc un
opérateur  représente un observable A).

Cette section donne quelques éléments du contexte historique et systématique du théorème de


Kochen et Specker. Nous revenons aussi sur l'argument de von Neumann (1932), le théorème de
Gleason (1957) et une discussion critique des arguments de Bell (1966). Von Neumann, dans son
fameux livre de 1932 "Die mathematischen Grundlagen der Quantenmechanik" discuta la
possibilité d'obtenir la mécanique quantique à partir d'une théorie à variables cachées sous-jacente.
Il donna un argument qui se résume au suivant : considérons le fait mathématique que si  et B̂
sont des opérateurs hermitiques, alors toute combinaison linéaire des deux (tout Cˆ = αA + βBˆ , où
α et β sont des nombres réels arbitraires) est aussi un opérateur hermitique. La mécanique
quantique impose de plus que pour tout état de la mécanique quantique :

(1) Si A et B (représentés par les opérateurs hermitiques  et B̂ ) sont des observables d'un
système, alors il y a aussi un observable C (représenté par l'opérateur hermitique Ĉ défini ci-
dessus) sur le même système.
(2) Si les valeurs moyennes de A et B sont données par A et B , alors la valeur moyenne de C
est donnée par C = α A + β B .

Considérons maintenant A, B, C comme ci-dessus et soit leurs valeurs v( A) , v(B ) , v(C ) .


Considérons un 'état caché' V qui détermine v( A) , v(B ) , v(C ) . Nous pouvons alors dériver de V la
'valeur moyenne' comme étant trivialement juste les valeurs possédées elles-mêmes : A V = v( A)
et ainsi de suite. Bien sûr, ces 'valeurs moyennes' ne sont en général pas égales aux valeurs
moyennes de la mécanique quantique : A V ≠ A (nous penserions en effet à ces dernières
comme des moyennes des précédentes pour différents états cachés V !), mais nous nécessitons que
les A V , comme A , soient conformes à (2). Cela implique automatiquement que les valeurs
elles-mêmes doivent être conformes à une condition parallèle à (2), c'est à dire :

(3) v(C ) = αv( A) + βv(B )

Cela est, cependant, impossible en général. Un exemple montre très facilement comment (3) est
violé, mais à cause de sa simplicité cela montre aussi que l'argument est inadéquat (cet exemple
n'est pas dû à von Neumann lui-même mais à Bell). Soit A = σ x et B = σ y , alors l'opérateur
C = (σ x + σ y ) / 2 correspond à l'observable du spin le long de la direction de la bissectrice x et y.
Maintenant, toutes les composantes du spin (dans des unités appropriées) ont seulement les valeurs
possibles ± 1 , donc la théorie à variables cachées proposée est forcée d'attribuer ± 1 à A, B, C
comme valeurs et donc comme 'valeurs moyennes'. Cela, en retour, implique (3) qui ne peut
évidemment pas être satisfait puisque ± 1 = (± 1 + ±1) / 2 .

L'exemple illustre pourquoi l'argument de von Neumann est insatisfaisant. Personne ne discute le
passage de (2) à (3) pour des observables compatibles, c'est à dire ceux qui, selon la mécanique
quantique, sont conjointement mesurables dans un arrangement. Le choix ci-dessus de A, B, C,
cependant, est tel que toute paire d'entre eux est incompatible, c'est à dire non conjointement
observable. Pour ceux là, nous ne désirons pas exiger que toute interprétation par les variables
cachées satisfasse (3) mais seulement (2). Les valeurs cachées n'ont pas besoin d'être conformes
avec (3) en général, seules les moyennes de leurs valeurs sur une série de tests doivent être
conformes avec (2). L'autorité de l'argument de von Neumann vient du fait que les exigences (1) et
(2), pour les états quantiques, sont des conséquences du formalisme de la mécanique quantique
mais cela ne justifie pas en lui-même d'étendre ces exigences à des états cachés hypothétiques. En
effet, si (3) était vrai sans restriction, cela expliquerait joliment, en présence de valeurs cachées,
pourquoi (2) l'est. Von Neumann pensait apparemment que la théorie à variables cachées proposée
est liée à cette explication, mais cela semble une restriction non plausible.
Le théorème de Kochen et Specker remédie à ce défaut, indiqué par Bell dans l'argument de von
Neumann, et donc renforce la situation contre les théories à variables cachées car le théorème de
Kochen et Specker suppose (3) seulement pour des ensembles d'observables {A, B, C} qui sont
mutuellement compatibles. Le théorème nécessite que seuls les observables compatibles obéissent à
(3), ce qui est quelque chose que les théoriciens des variables cachées ne peuvent pas
raisonnablement nier.

Une seconde ligne de réflexion conduisant au théorème de Kochen et Specker est fournit par le
théorème de Gleason (Gleason 1957). Le théorème affirme que sur un espace de Hilbert de
dimension plus grande ou égale à 3, les seules mesures de probabilité possibles sont les mesures
µ (Pα ) = Tr (Pα W ) , où Pα est un projecteur, W l'opérateur statistique caractérisant l'état réel du
système et Tr est l'opération de trace. Les Pα peuvent être vu comme représentant des observables
oui - non, c'est à dire des questions si un système en mécanique quantique représenté par un espace
de Hilbert de dimension plus grande ou égale à trois a une propriété α ou non et toute propriété α
possible est associée de manière unique avec un vecteur α dans l'espace de Hilbert, ainsi, la tâche
est d'assigner sans ambiguïté des probabilités à tous les vecteurs dans l'espace. Maintenant, la
mesure en mécanique quantique µ est continue, ainsi le théorème de Gleason prouve en effet que
toutes les assignations de probabilités à toutes les propriétés possibles dans un espace de Hilbert à
trois dimensions doivent être continues, c'est à dire appliquent continûment tous les vecteurs de
l'espace dans l'intervalle [0,1]. D'un autre coté, une théorie à variables cachées (si elle est
caractérisée par les valeurs définies plus la non contextualité) impliquerait que pour toutes les
propriétés nous pouvons dire si le système les a ou pas. Cela conduit à une fonction de probabilité
triviale qui applique tous les Pi sur 1 ou 0 et pourvu que les valeurs 1 et 0 existent ensemble (ce qui
suit trivialement de l'interprétation des nombres comme des probabilités), cette fonction doit
clairement être discontinue (cf. Redhead 1987:28).

C'est l'argument le plus facile contre la possibilité d'une interprétation à variables cachées permise
par le théorème de Gleason. Bell (1966:6-8) offre une variante avec un situation particulière qui
sera répétée plus tard comme une étape cruciale du théorème de Kochen et Specker (cela explique
pourquoi certains auteurs (comme Mermin 1990b) appellent le théorème de Kochen et Specker le
théorème Bell - Kochen - Specker ; ils pensent que l'idée décisive du théorème de Kochen et
Specker est due à Bell). Il prouve que l'application µ impose que deux vecteurs α et α ′
appliqué sur 1 et 0 ne peuvent pas être arbitrairement près mais doivent avoir une séparation
angulaire minimale tandis que l'application des variables cachées, d'un autre coté, nécessite qu'ils
doivent être arbitrairement près.

Après avoir offert cette variante de l'argument contre les théories à variables cachées à partir du
théorème de Gleason, Bell continue en le critiquant. La stratégie est parallèle à celle dirigée contre
von Neumann. Bell signale que son propre argument de type Gleason contre des valeurs
arbitrairement près présuppose des relations non triviale entres les valeurs des observables non
commutants qui sont seulement justifiées étant donné la supposition de non contextualité. Il
propose une analyse de ce qui devient faux lorsque son propre argument "suppose tacitement que la
mesure d'un observable doit conduire à la même valeur indépendamment de ce que les autres
mesures peuvent faire simultanément" (1966:9). En opposition avec von Neumann, l'argument de
type Gleason dérive des restrictions sur l'assignation de valeurs comme (3) seulement pour des
ensembles d'observables compatibles. Mais le même observable peut être un membre de différents
ensembles commutant et il est essentiel pour l'argument que les observables soient assignés à la
même valeur dans les deux ensembles, c'est à dire que la valeur assignée ne soit pas sensible à un
contexte de mesure.

Le théorème de Kochen et Specker améliore cet argument du théorème de Gleason. D'abord, les
auteurs répètent, en effet, la preuve de Bell que deux vecteurs dans l'espace de Hilbert ayant les
valeurs 1 et 0 ne peuvent pas être arbitrairement près. Cependant, tandis que l'argument de Gleason
et la variante de Bell supposent des assignations de valeurs pour un ensemble continu de vecteurs
dans l'espace de Hilbert, Kochen et Specker sont capables de présenter explicitement un ensemble
discret même fini d'observables dans l'espace pour lesquels une assignation de valeur pour les
variables cachées conduirait à une inconsistance. Evidemment, les suppositions nécessaires pour
l'étape établissant que deux points de valeurs opposées ne peuvent pas être arbitrairement près
jouent encore un rôle dans l'amélioration du théorème de Kochen et Specker, en particulier la non
contextualité ! - ainsi la critique de Bell de son propre argument de type Gleason survit à cette
amélioration.
En dépit du raisonnement de Bell, l'argument du théorème de Kochen et Specker est d'importance
cruciale dans les discussions des variables cachées pour deux raisons :
(1) Il implique seulement un ensemble fini d'observables discret. Il évite donc une objection
possible aux arguments de type Gleason de Bell, c'est à dire que "il n'est pas significatif de
supposer qu'il y a un nombre continu de propositions quantiques (vis à vis des expériences)"
(Kochen et Specker 1967 : 70/307). Ainsi le théorème de Kochen et Specker ferme un trou
qu'une théorie à variables cachées proposée peut viser dans l'argument de Bell.
(2) Le théorème de Kochen et Specker propose un système à une particule comme réalisation
physique de leur argument. Donc, l'argument implique trivialement les suppositions de non
séparabilité ou de localité. En effet, Bell signal d'abord la prémisse non contextuelle tacite, mais
il le fait ainsi seulement en passant, et ensuite, dans la section finale, discute d'un exemple de
système à deux particules. Ici, un contexte éventuel se retourne comme une non séparabilité des
deux particules, mais Bell ne fait pas la relation explicitement. Il ne signale pas non plus que la
question de la possibilité des interprétations des variables cachées est, en final, non pas sur la
(non)séparabilité ou la (non)localité, mais plutôt sur la (non)contextualité (après tout, le propre
argument de Bell est clairement illustré par les arguments de type Kochen et Specker).
II.3.4. Déclaration et preuve du théorème de Kochen et Specker

II.3.4.1. Déclaration du théorème Kochen et Specker


Une déclaration explicite du théorème de Kochen et Specker est donc :

Soit H un espace de Hilbert des vecteurs d'état de la mécanique quantique de dimension


x ≥ 3 . Soit M un ensemble contenant y observables, défini par des opérateurs sur H. Alors,
pour des valeurs spécifiques de x et y, les deux suppositions suivantes sont contradictoires :

(KS1) Tous les membres y de M ont simultanément des valeurs (prédéfinies), c'est à dire
qu'elles sont appliquées sans ambiguïtés sur des nombres réels uniques (désignés, pour les
observables A,B,C,... par v( A) , v(B ) , v(C ) ,...).

(KS2) Les valeurs des observables sont conformes aux contraintes suivantes :
(a) Si A,B,C sont tous compatibles et C = A + B , alors v(C ) = v( A) + v(B )
(b) Si A,B,C sont tous compatibles et C = A ⋅ B , alors v(C ) = v( A) ⋅ v(B )

La supposition KS1 du théorème est évidemment un équivalent des valeurs définies. Les
suppositions KS2 (a) et (b) sont appelées la règle des sommes et la règle produit, respectivement,
dans la littérature (le lecteur notera à nouveau que, en opposition à la prémisse implicite de von
Neumann, ces règles relient de manière non triviale les valeurs des observables compatibles
seulement). Les deux sont une conséquence du principe appelé le principe de composition
fonctionnel qui en retour est une conséquence de (parmi d'autres suppositions) la non contextualité.
La relation entre la non contextualité, la règle de composition fonctionnelle, la règle des sommes et
la règle produit sera faite explicitement plus loin.

Dans la démonstration de Kochen et Specker originale x = 3 et y = 117. Plus récemment, des


démonstrations impliquant moins d'observables ont été données (parmi plusieurs autres) Peres
(1991, 1995) pour x = 3 et y = 33 et Kernaghan (1994) pour x = 4 et y = 20. La preuve de Kochen
et Specker est notoirement complexe et nous la donnerons seulement dans les grandes lignes. La
preuve de Peres établit le résultat de Kochen et Specker d'une manière directe, avec une grande
simplicité et, de plus, d'une manière intuitivement accessible puisqu'elle opère à trois dimensions.
Nous renvoyons le lecteur à Peres (1195 : 197-99). La preuve de Kernaghan établit une
contradiction à quatre dimensions. C'est un résultat plus faible, bien sûr, que le théorème de Kochen
et Specker (puisque toute contradiction à 3 dimensions est aussi une contradiction avec plus de
dimensions, mais pas l'inverse). Cependant, la preuve est tellement plus simple que nous la
présentons pour commencer. De plus, la plupart des systèmes quantiques nécessitent un grand
nombre de dimensions (et même infini). Finalement, nous expliquons un argument de Clifton
(1993) où x = 3 et y = 8 et une supposition statistique supplémentaire qui conduit à un argument du
type Kochen et Specker facile et instructif.
II.3.4.2. Un argument du type Kochen et Specker rapide à quatre
dimensions (Kernaghan)
Un argument du type Kochen et Specker particulièrement facile fonctionne sur un espace de Hilbert
à quatre dimensions H (4) . Afin d'en avoir rapidement l'essentiel, le lecteur doit accepter les deux
faits suivants :

(1) De KS2 nous pouvons dériver une contrainte sur l'assignation des valeurs des projecteurs, c'est-
à-dire que pour tout ensemble de projecteurs P1 , P2 , P3 , P4 , correspondant aux quatre valeurs
propres distinctes q1 , q 2 , q3 , q 4 d'un observable Q sur H (4) , on a ce qui suit :
(VC1') v(P1 ) + v(P2 ) + v(P3 ) + v(P4 ) = 1 , où v(Pi ) = 1 ou 0 pour i = 1, 2, 3, 4 ((VC1') est une
variante de (VC1) qui sera démontrée explicitement dans la prochaine section). Cela signifie en
effet que pour tout ensemble de quatre lignes orthogonales dans H (4) , exactement une est
assignée au nombre 1, les autres 0.
(2) Bien que l'espace de Hilbert mentionné dans le théorème, afin d'être souhaitable pour la
mécanique quantique, doit être complexe, il est suffisant, afin de montrer l'inconsistante des
affirmations KS1 et KS2, de considérer un espace de Hilbert réel de même dimension. Ainsi, au
lieu de H (4) , nous considérons un espace de Hilbert réel R(4) et nous traduisons VC1' pour
cette nécessité : pour tout ensemble de quatre lignes orthogonales dans R(4) , exactement une
est assignée au nombre 1 et les autres à 0. Comme d'habitude dans la littérature, nous traduisons
tout cela en le problème de coloriage suivant : dans tout ensemble de lignes orthogonales de
R(4) , exactement une doit être colorée en blanc et les autres en noir. Cela cependant est
impossible, comme le montre immédiatement la table suivante (Kernaghan 1994) :

1,0,0,0 1,0,0,0 1,0,0,0 1,0,0,0 -1,1,1,1 -1,1,1,1 1,-1,1,1 1,1,-1,1 0,1,-1,0 0,0,1,-1 1,0,1,0
0,1,0,0 0,1,0,0 0,0,1,0 0,0,0,1 1,-1,1,1 1,1,-1,1 1,1,-1,1 1,1,1,-1 1,0,0,-1 1,-1,0,0 0,1,0,1
0,0,1,0 0,0,1,1 0,1,0,1 0,1,1,0 1,1,-1,1 1,0,1,0 0,1,1,0 0,0,1,1 1,1,1,1 1,1,1,1 1,1,-1,-1
0,0,0,1 0,0,1,-1 0,1,0,-1 0,1,-1,0 1,1,1,-1 0,1,0,-1 1,0,0,-1 1,-1,0,0 1,-1,-1,1 1,1,-1,-1 1,-1,-1,1

Il y a 4 x 11 = 44 entrées dans cette table. Ces entrées sont prises d'un ensemble de 20 lignes
(ainsi nous autorisons les répétitions). [Rappelons que pour spécifier une ligne depuis l'origine à
quatre dimensions, il suffit de donner les quatre coordonnées d'un seul point (sauf l'origine) que
la ligne contient. Par exemple "1,0,0,0" dénote la ligne unique contenant les points de
coordonnées "0,0,0,0" et "1,0,0,0", ligne qui est, bien sûr, juste "l'axe des x". Il est facile de
vérifier que toute colonne dans la table représente un ensemble de 4 lignes orthogonales
(calculez simplement le produit scalaire entre les vecteurs dans chaque colonne, ils sont
toujours zéro). Puisque le nombre de colonnes est 11, nous devons terminer avec un nombre
impair d'entrées dans la table colorées en blanc. D'un autre coté, on peut contrôler que chacune
des 20 lignes apparaissent ou bien deux fois ou quatre fois dans la table. Si nous désignons une
de ces lignes comme blanche, nous colorons un nombre pair d'entrées en blanc. Il s'ensuit que le
nombre total d'entrées dans la table colorées en blanc doit être pair, pas impair. Donc, un
coloriage de l'ensemble des 20 lignes en accord avec VC1' est impossible (notons pour la suite
que la première partie de cet argument -- l'argument pour 'impair' -- utilise seulement VC1',
tandis que le second -- l'argument pour 'pair' -- se rattache essentiellement à la non
contextualité, en supposant que les occurrences des mêmes lignes dans différentes colonnes
sont assignées au même nombre !)
II.3.4.3. L'argument de Kochen et Specker original. Préliminaires
techniques
La démonstration originale de Kochen et Specker opère sur un espace de Hilbert complexe à trois
dimensions H (3) . Elle nécessite deux choses :
(1) Des ensemble de triplets de lignes qui sont orthogonales dans H (3) .
(2) Une contrainte avec l'effet que dans tout triplet une ligne est assignée au nombre 1, les deux
autres à zéro. Les deux choses sont acquises.
Donc :

Nous considérons un opérateur arbitraire Q sur H (3) avec trois valeurs propres distinctes q1 , q 2 ,
q3 , ses vecteurs propres q1 , q 2 , q3 et les projecteurs P1 , P2 , P3 projetant sur les lignes
générées par ces vecteurs.

Maintenant P1 , P2 , P3 sont eux-mêmes des observables (c'est à dire que Pi est "l'observable oui -
non" correspondant à la question "est-ce que le système a la valeur q i pour Q ?"). De plus, P1 , P2 ,
P3 sont mutuellement compatibles, ainsi nous pouvons appliquer la règle des sommes et la règle
produit et donc dériver une contrainte sur l'assignation de valeurs :

(VC1) v(P1 ) + v(P2 ) + v(P3 ) = 1 , où v(Pi ) = 1 ou 0 pour i = 1, 2, 3

Le choix arbitraire d'un observable Q définit de nouveaux observables P1 , P2 , P3 qui en, retour,
sélectionnent les lignes dans H (3) . Ainsi, imposer que les observables P1 , P2 , P3 ont toutes les
valeurs signifie assigner des nombres aux lignes dans H (3) et VC1, en particulier, signifie que
pour un triplet arbitraire de lignes orthogonales, spécifiées par le choix d'un Q arbitraire (en bref, un
triplet orthogonal dans H (3) ), exactement une et une seule de ces lignes est assignée à 1, les autres
à 0. Maintenant, si nous introduisons différents observables compatibles Q, Q', Q",... ces
observables sélectionnent différents triplets orthogonaux dans H (3) . La supposition (1) du
théorème de Kochen et Specker (qui est effectivement celle des valeurs définies) nous dit
maintenant que tous ces triplets ont trois valeurs et VC1 nous dit que ces valeurs doivent être pour
tout triplet exactement {1,0,0}. Ce que le théorème de Kochen et Specker nous montre est que,
pour un ensemble spécifique de triplets orthogonaux dans H (3) , une assignation de nombres
{1,0,0} à chacun d'entre-eux est impossible. De plus la réflexion nous conduit à ce que bien que
H (3) soit complexe, il est en fait suffisant de considérer un espace de Hilbert réel à trois
dimensions R(3) . Car nous pouvons montrer que si une assignation de valeurs en accord avec VC1
est possible sur H (3) , alors elle est possible sur R(3) . Inversement, si l'assignation est impossible
sur R(3) , alors elle est impossible sur H (3) . Ainsi, nous pouvons remplir les conditions nécessaires
pour commencer la démonstration de Kochen et Specker et en même temps réduire le problème à
R(3) . Maintenant, l'équivalent dans R(3) , d'un triplet orthogonal dans H (3) est, à nouveau, un
triplet arbitraire de lignes orthogonales (en bref : un triplet orthogonal dans R(3) ). Ainsi, si le
théorème de Kochen et Specker peut montrer que, pour un ensemble spécifique de n triplets
orthogonaux dans H (3) (où n est un nombre naturel), une assignation de nombres {1,0,0} à chacun
d'entre-eux est impossible, il est suffisant pour elles de montrer que, pour un ensemble spécifique
de n triplets orthogonaux dans R(3) , une assignation de nombres {1,0,0} à chacun d'entre-eux est
impossible. Et c'est exactement ce qu'ils font.

On insistera cependant sur le fait qu'il n'y a pas de relation directe entre R(3) et l'espace physique.
Le théorème de Kochen et Specker veut montrer que pour un système arbitraire en mécanique
quantique nécessitant une représentation dans un espace de Hilbert d'au moins trois dimensions,
l'assignation de valeurs en conjonction avec la condition (KS2) (règle des sommes et règle du
produit) est impossible et afin de faire cela il est suffisant de considérer l'espace R(3) . Cet espace
R(3) , cependant, ne représente pas l'espace physique du système quantique. En particulier,
l'orthogonalité dans R(3) ne doit pas être confondue avec l'orthogonalité dans l'espace physique.
Cela devient évident si nous prenons un exemple de système en mécanique quantique dans l'espace
physique et en même temps requérons une représentation en mécanique quantique dans H (3) , par
exemple un système de spin 1 à une particule mesuré pour le spin. Etant donné une direction
arbitraire α dans l'espace physique et un opérateur Sα représentant l'observable d'une composante
du spin dans la direction α , H (3) est généré par les vecteurs propres de Sα , c'est à dire Sα = −1 ,
Sα = 0 , Sα = 1 , qui sont mutuellement orthogonaux dans H (3) . Le fait que ces trois vecteurs
correspondant à trois résultats possibles de la mesure dans une direction spatiale sont mutuellement
orthogonaux illustre le sens différent de l'orthogonalité dans H (3) et dans l'espace physique (la
raison tient, bien sûr, dans la structure de la mécanique quantique qui représente différentes valeurs
d'un observable par différentes directions dans H (3) .) Maintenant, si l'orthogonalité dans H (3)
diffère de l'orthogonalité dans l'espace physique et que nous utilisons R(3) pour prouver un résultat
sur H (3) , alors certainement l'orthogonalité dans R(3) n'a pas de lien direct avec l'espace physique.

Kochen et Specker eux-mêmes, dans l'abstrait, procèdent exactement de la même manière mais ils
l'illustrent avec un exemple qui établit un lien direct avec l'espace physique. Il est important de voir
ce lien mais aussi d'être clair qu'il est produit par l'exemple de Kochen et Specker et n'est pas
inhérent à leur résultat mathématique. Kochen et Specker proposent de considérer un système d'une
particule de spin 1 et la mesure du carré des composantes dans des directions orthogonales du spin
dans l'espace physique S x2 , S y2 , S z2 qui sont compatibles (tandis que S x , S y , S z eux-mêmes ne le
sont pas). La mesure d'un carré d'une composante du spin détermine sa grandeur absolue mais pas
sa direction. Ici, nous dérivons une contrainte légèrement différente sur les assignations de valeur, à
nouveau en utilisant la règle des sommes et la règle produit :

( ) ( ) ( ) ( )
(VC2) v S x2 + v S y2 + v S z2 = 2 , où v S α2 =1 ou 0 pour α = x , y , z

Maintenant, puisque S x2 , S y2 , S z2 sont compatibles, il y a un observable O tel que S x2 , S y2 , S z2 sont


tous fonctions de O. Ainsi, le choix d'un O arbitraire fixe S x2 , S y2 , S z2 et puisque ces derniers
peuvent être directement associés avec des lignes mutuellement orthogonales dans H (3) , cela fixe
aussi le choix d'un triplet orthogonal dans H (3) . Le problème résultant est ici d'assigner {1,1,0} à
un triplet orthogonal dans H (3) spécifié par le choix de O ou, plus directement, S x2 , S y2 , S z2 . C'est
bien sûr, l'image dans un miroir de notre problème précédent d'assigner les nombres {1,0,0} à un tel
triplet et nous n'avons pas besoin de le considérer séparément.
Cependant, le choix d'un O spécifique qui sélectionne les observables S x2 , S y2 , S z2 sélectionne en
même temps trois directions orthogonales dans l'espace physique, c'est-à-dire fixe un système de
coordonnées ± x , ± y , ± z (qui défini les directions dans lesquelles les composantes carrées du
spin sont mesurées) dans l'espace physique. Ainsi, par un choix d'un observable O, il y a une
relation directe avec les directions dans H (3) : l'orthogonalité dans H (3) correspond maintenant à
l'orthogonalité dans l'espace physique. Le même est vrai pour R(3) si, afin de donner un argument
pour H (3) , nous considérons R(3) . L'orthogonalité dans R(3) correspond maintenant à
l'orthogonalité dans l'espace physique. Il est important de noter que cette correspondance n'est pas
nécessaire pour donner l'argument même si nous insistons sur la nécessiter de donner une
interprétation physique aux faits mathématiques purs, puisque nous avons, juste avant, vu un
exemple sans correspondance. Le point est seulement que nous pouvons concevoir un exemple tel
qu'il y a une correspondance. En particulier, nous pouvons maintenant suivre la preuve dans R(3)
et tout au long imaginer un système dans l'espace physique, c'est à dire une particule de spin 1,
retournant trois valeurs sur la mesure de trois grandeurs physiques associées directement avec les
( ) ( ) ( )
directions dans l'espace physique, c'est à dire v S x2 , v S y2 , v S z2 pour des choix arbitraires x, y, z.
La démonstration du théorème de Kochen et Specker montre alors qu'il est impossible (étant donné
les prémisses, bien sûr) d'assigner à la particule de spin 1 des valeurs pour tous ces choix
arbitraires. C'est-à-dire que l'argument de Kochen et Specker montre que (étant donné les
prémisses) une particule de spin 1 ne peut pas posséder toutes les propriétés en une fois qui
s'affichent dans différents arrangements de mesure.

Trois aspects supplémentaires qui sont devenu habituels ont besoin d'être mentionnés :

(1) Evidemment, nous pouvons spécifier sans ambiguïté toute ligne dans R(3) depuis l'origine en
donnant juste un point contenu dedans. Le théorème de Kochen et Specker identifie donc les
lignes avec les points sur la sphère unité E. Le théorème de Kochen et Specker n'a pas besoin de
se référer à des coordonnées concrètes d'un certain point puisque leur argument est "libre de
coordonnée". Nous mentionnerons, cependant, pour l'illustration quelques fois des points
concrets et alors (a) nous utiliserons les coordonnées cartésiennes pour contrôler les relations
d'orthogonalité et (b) spécifierons les lignes par des points qui ne sont pas sur E (donc, par
exemple, le triplet de points (0,0,1), (4,1,0), (1,-4,0) est utilisé pour spécifier un triplet de lignes
orthogonales). Les deux usages sont conformes avec la littérature récente (voir par exemple
Peres (1991) et Clifton (1993)).
(2) Nous traduisons les contraintes (VC1) et (VC2) sur les assignations de valeurs en contraintes
pour le coloriage des points. Nous pouvons, en opérant sous (VC1) colorier les points en blanc
(pour "1") et noir (pour "0") ou en opérant sous (VC2) en colorant les points en blanc (pour "0")
et noir (pour "1"). Dans les deux cas les contraintes sont traduites dans le même problème de
coloriage.
(3) Le théorème de Kochen et Specker illustre les relations d'orthogonalité des lignes par des
graphes qui sont maintenant appelés diagrammes de Kochen et Specker. Dans un tel diagramme
chaque ligne (ou point spécifiant une ligne) est représentée par un nœud. Les nœuds sont joints
par des branches représentant les lignes orthogonales. Le problème de coloriage est alors traduit
en un problème de coloriage des nœuds du diagramme en blanc ou noir tel que les nœuds joints
ne peuvent pas être tous les deux blancs et où les triangles ont exactement un nœud blanc.
II.3.4.4. L'argument de Kochen et Specker original. La démonstration
dans les grandes lignes
La démonstration procède en deux étapes.

(1) Dans la première (et décisive) étape ils montrent que deux lignes avec des couleurs opposées ne
peuvent pas être arbitrairement proches. Ils montrent que le diagramme Γ1 décrit dans la figure
ci-dessous qui consiste en dix nœuds incluant a 0 et a9 est constructible, si a 0 et a9 sont
séparés par un angle θ avec 0 ≤ θ ≤ arcsin(1 / 3) .

Ce que cette étape montre est ce qui suit : il est possible de construire ce diagramme de Kochen
et Specker, c'est-à-dire de spécifier dix lignes dans R(3) avec les relations d'orthogonalités
spécifiées dans le diagramme mais seulement si a 0 et a9 sont plus proche que arcsin(1 / 3) .
Considérons maintenant (pour une déduction par l'absurde) que a 0 et a9 ont des couleurs
différentes. Nous colorons arbitrairement a 0 en blanc et a9 en noir. La contrainte de coloriage
nous force alors à colorier le reste du diagramme comme cela est fait dans la figure ci-dessus,
mais cela conduit à a5 et a 6 qui sont orthogonaux et tous les deux blancs, ce qui est interdit.
Donc, deux points plus proche que arcsin(1 / 3) ne peuvent pas avoir de couleurs différentes.
Inversement, deux points de couleurs différentes ne peuvent pas être plus proche que
arcsin(1 / 3) .
(2) Kochen et Specker construisent maintenant un autre diagramme Γ2 assez compliqué de la
manière suivante. Ils considèrent une réalisation de Γ1 pour un angle θ = 18° < arcsin(1 / 3) .
Maintenant, ils choisissent trois points orthogonaux p 0 , q 0 , r0 et espacent des copies
entremêlées de Γ1 entre elles de telle manière que toute instance du point a9 d'une copie de Γ1
soit identifiée avec l'instance a 0 de la copie suivante. De cette manière cinq copies entremêlées
de Γ1 sont placées entre p 0 et q 0 et cinq instances de a8 sont identifiées avec r0 (de même
pour q 0 , r0 , et p 0 , et pour r0 , p 0 et q 0 ). La construction elle-même confirme que Γ2 est
constructible. En espaçant cinq copies avec des angles de θ = 18° entre les instances de a 0 on a
un angle de 5 x 18° = 90° qui est exactement ce qui est requit. De plus, passer d'une copie de Γ1
à la suivante entre, disons, p 0 et q 0 est équivalent à une rotation de la copie autour de l'axe
passant par l'origine et r0 de 18° ce qui évidemment conserve l'orthogonalité entre les points a 0
et a9 de la copie et r0 .
Cependant, bien que Γ2 soit constructible, il n'est pas coloriable de manière consistante. Dans
la première étape nous savons qu'une copie de Γ1 avec θ = 18° force les points a 0 et a9 à
avoir des couleurs identiques. Maintenant, puisque a9 dans une copie de Γ1 est égal à a 0 dans
la copie suivante, a9 dans la seconde copie doit avoir la même couleur que a 0 dans la
première. Par répétition de cet argument, toutes les instances de a 0 doivent avoir la même
couleur. Maintenant, p 0 , q 0 , r0 sont identifiés avec le point a 0 . Ainsi ils doivent être tous
blancs ou tous noirs - les deux cas sont inconsistants avec la contrainte de coloriage
qu'exactement l'un d'entre-eux doit être blanc.
Si des 15 copies de Γ1 utilisées dans le processus de construction de Γ2 , nous enlevons les
points qui sont identifiés ensembles, nous terminons avec 177 points différents. Ainsi, ce que le
théorème de Kochen et Specker a montré est qu'un ensemble de 117 observables ne peut pas
être assigné de manière consistante avec des valeurs en accord avec VC1 (ou de manière
équivalente avec VC2).

Notons que dans la construction de Γ1 , c'est à dire l'ensemble des 10 points formant 22 triplets
entremêlés, tous les points exceptés a9 apparaissent dans plus que un triplet. Dans Γ2 , tous les
points apparaissent dans une mutiplicité de triplets. C'est ici que la prémisse de non
contextualité est cruciale pour l'argument : nous supposons qu'un point arbitraire garde sa
valeur 1 ou 0 lorsque nous passons d'un triplet orthogonal à l'autre (c'est à dire d'un ensemble
maximal d'observables compatibles à un autre).
II.3.4.5. L'argument de Kochen et Specker statistique à trois dimensions
(Clifton)
Finalement, nous retournons à R(3) . Rappelons la première étape du théorème de Kochen et
Specker qui établit que deux points avec des couleurs opposées ne peuvent pas être arbitrairement
près. C'est cette première étape qui porte toute la force de l'argument. Bell l'a établit d'une manière
différente et a alors affirmé que dans une interprétation à variables cachés non contextuelles, les
points avec des couleurs opposées doivent être arbitrairement près. C'est cette première étape que
Clifton exploite dans un argument qui combine les idées de Bell et de Kochen et Specker.

Considérons le diagramme de Kochen et Specker Γ3 montré dans la figure ci-dessus qui


évidemment est une partie de Γ1 mais qui a des assignations concrètes additionnelles de huit points
satisfaisant les relations d'orthogonalité (et donc prouvant directement que Γ3 est constructible). De
nos contraintes de coloriages précédentes (les points joints ne sont pas tous les deux blancs et un
triangle a exactement un point blanc) nous voyons immédiatement que Γ3 est coloriable seulement
si les points extérieurs ne sont pas tous les deux blancs (ce qui nous forcerait, comme montré dans
la figure ci-dessus, à ce que deux points joints soient blancs, contrairement à la contrainte). De plus,
nous calculons facilement l'angle entre les deux points extérieurs comme étant arccos(1 / 3) . Ainsi,
nous en concluons que si on désire colorier les huit points et que nous désirons colorer en blanc un
des points extérieurs, alors l'autre doit être noir. En prenant en compte que nous pouvons insérer un
diagramme entre toute paire de points dans R(3) qui sont séparés par exactement l'angle
arccos(1 / 3) et en traduisant notre problème de coloriage en un exemple de Kochen et Specker
(contrainte VC2), nous terminons avec la contrainte VC2' :

(VC2') Si pour un système de spin 1 une certaine direction x du spin dans l'espace est assigné à la
valeur zéro, alors tout autre direction x' qui est séparée de x par un angle arccos(1 / 3) doit avoir la
valeur 1 ou, en symboles : si v(S x ) = 0 alors v(S x′ ) = 1 .

L'argument a jusqu'ici utilisé les conditions originales du théorème de Kochen et Specker KS1 et
KS2. Nous supposons maintenant, en plus, que toute contrainte sur les assignations de valeurs sera
visible dans les statistiques mesurées. En particulier : une assignation de valeurs dictée par une
contrainte implique que cette valeur assignée avec certitude est le résultat de toute mesure
respectant la contrainte. Ou en symboles :

(1) Si prob[v( A) = a ] = 1 et v( A) = a ⇒ v(B ) = b , alors prob[v(B ) = b] = 1

En dépit de l'utilisation des statistiques, ce raisonnement diffère de manière cruciale de l'argument


de von Neumann. Von Neumann avait affirmé que les relations algébriques entre valeurs se
transféraient dans les statistiques des valeurs mesurées, donc les contraintes de la mécanique
quantique sur ces statistiques auraient des contraintes sur valeurs comme une image dans un miroir,
raisonnement qui nous a conduit à dériver les contraintes sur valeur à partir des contraintes
statistiques (pour des observables arbitraires). Ici, au contraire, nous dérivons une contrainte sur
valeur indépendamment du raisonnement statistique et nous en concluons que cette contrainte est
transférée dans les statistiques mesurées.

Maintenant, VC2' et la condition statistique (1) implique : si prob[v(S x )] = 1 alors prob[v(S x′ )] = 1 .


Cela contredit cependant les statistiques dérivées de la mécanique quantique pour un état où
prob[v(S x ) = 0] = 1 . En fait, il y a une probabilité de 1/17 que v(S x′ ) = 0 . Ainsi, dans un test,
1/17ème des particules de spin 1 violeront la contrainte.
1/17 peut ne pas sembler être un nombre impressionnant, mais si nous acceptons le raisonnement
statistique de Clifton, nous avons un argument du type Kochen et Specker entièrement valide
établissant une contradiction entre une interprétation à variables cachées de la mécanique quantique
et les prédictions de la mécanique quantique. De plus, Clifton présente un ensemble légèrement
plus complexe de 13 observables conduisant, de la même manière, à une contradiction statistique
de 1/3.
II.3.5. Le principe de composition fonctionnelle
Les ingrédients clés du théorème de Kochen et Specker sont les contraintes sur les assignations des
valeurs données dans la règle des sommes et la règle produit. Elles dérivent d'un principe plus
général, appelé le principe de composition fonctionnelle. Le principe traduit le fait mathématique
que pour un opérateur hermitique  agissant sur un espace de Hilbert et une fonction arbitraire
()
f : R → R (où R est l'ensemble des nombres réels), nous pouvons définir f Aˆ et montrer qu'il est

()
^
aussi un opérateur hermitique (donc, nous écrivons f  . Si nous supposons de plus que pour tout
opérateur hermitique il correspond un observable de la mécanique quantique, alors le principe peut
être formulé comme :

Principe de composition fonctionnelle : Soit  un opérateur hermitique associé à

()
^
l'observable A, soit f : R → R une fonction arbitraire tel que f  est un autre opérateur
^
hermitique et soi φ un état arbitraire. Alors f ( A) est associé de manière unique avec un
observable f ( A) tel que :
(1) v( f ( A)) = f (v( A))
φ φ

(nous introduisons l'état en exposant pour permettre une dépendance éventuelle des valeurs avec
l'état quantique particulier dans lequel le système est préparé). La règle des sommes et la règle
produit sont des conséquences immédiates du principe de composition fonctionnelle. Le principe de
composition fonctionnelle lui-même n'est pas dérivable du formalisme de la mécanique quantique
mais une version statistique (appelée principe de composition fonctionnelle statistique) l'est :

Principe de composition fonctionnelle statistique : étant donné A, f, φ comme défini dans


le principe de composition fonctionnelle, alors pour un nombre réel arbitraire b :
[
(2) prob v( f ( A))
φ
] [
= b = prob f (v( A))
φ
=b ]
Mais le principe de composition fonctionnelle statistique ne peut pas seulement être dérivé du
formalisme de la mécanique quantique, il est aussi une conséquence du principe de composition
fonctionnelle. Cela peut être vu comme donnant "un argument de plausibilité pour le principe de
composition fonctionnelle " (Redhead 1987:132) : le principe de composition fonctionnelle
statistique est vrai, comme conséquence des mathématiques de la mécanique quantique. Maintenant
si le principe de composition fonctionnelle était vrai, nous pourrions dériver un principe de
composition fonctionnelle statistique et donc comprendre la partie des mathématiques de la
mécanique quantique comme étant une conséquence du principe de composition fonctionnelle.

Mais comment pouvons-nous dériver le principe de composition fonctionnelle lui-même, sinon du


principe de composition fonctionnelle statistique ? C'est une conséquence du principe de
composition fonctionnelle statistique et de trois suppositions (dont deux sont familières depuis
l'introduction) :

Réalisme des valeurs : s'il y a un nombre réel défini de manière opérationnelle α , associé à
un opérateur hermitique  et distribué de manière probabiliste selon l'algorithme statistique
de la mécanique quantique pour  , c'est-à-dire s'il existe un nombre réel β avec
[( ) ]
β = prob v Aˆ = α , alors il existe un observable A avec la valeur α .

Valeurs définies : tous les observables définis pour un système de la mécanique quantique
ont des valeurs précises à tout moment.

Non contextualité : si un système de la mécanique quantique possède une propriété (valeur


d'un observable), alors il en est ainsi indépendamment de tout contexte de mesure.

Quelques commentaires sur ces conditions sont nécessaires. Premièrement, nous avons besoin
d'expliquer le contenu du réalisme des valeurs. L'algorithme statistique de la mécanique quantique
nous dit comment calculer une probabilité à partir d'un état donné, un observable donné et sa
valeur. Ici nous le comprenons comme un dispositif purement mathématique sans aucune
interprétation physique : étant donné un vecteur de l'espace de Hilbert, un opérateur et ses valeurs
propres, l'algorithme nous dit comment calculer de nouveaux nombres (qui ont les propriétés des
probabilités). En plus, par "défini de manière opérationnelle" nous voulons simplement dire
"obtenu à partir d'un nombre que nous savons indiquer une propriété réelle". Ainsi, le réalisme des
valeurs dit, en effet, que, si nous avons une propriété réelle γ (la valeur γ d'un observable G) et
que nous sommes capables de construire avec γ un nouveau nombre α et que nous trouvons un
opérateur  tel que α est une valeur propre de  , alors (nous avons satisfait tout ce qui est
nécessaire pour appliquer l'algorithme statistique, donc) Â représente un observable A et sa valeur
α est une propriété réelle.

Deuxièmement, concernant la non contextualité : un défaut de la non contextualité pourrait être vu


de deux manières. Ou bien la valeur d'un observable peut dépendre du contexte bien que
l'observable lui-même n'en dépend pas ou la valeur d'un observable peut dépendre du contexte car
l'observable lui-même en dépend. Nous supposerons en effet que, si la non contextualité est
valable, cela signifie que l'observable, et donc aussi sa valeur , est indépendant du contexte de
mesure, c'est-à-dire est indépendant de la manière de le mesurer. En particulier, l'indépendance du
contexte d'un observable implique qu'il y a une correspondance bijective des observables et des
opérateurs. Cette implication de la non contextualité est ce que nous utiliserons dans la dérivation
du principe de composition fonctionnelle. Inversement, l'échec de la non contextualité sera
considéré seulement comme un échec de la correspondance bijective.

Du réalisme des valeurs, des valeurs définies, de la non contextualité et du principe de composition
fonctionnelle statistique, nous pouvons dériver le principe de composition fonctionnelle comme
suit. Considérons un état arbitraire d'un système et un observable arbitraire Q. Suivant les valeurs
définies, Q possède une valeur v(Q ) = a . Donc, nous pouvons former le nombre f (v(Q )) = b pour
une fonction arbitraire f. De ce nombre, par le principe de composition fonctionnelle statistique,
prob[ f (v(Q )) = b] = prob[v( f (Q )) = b] . Donc, nous avons, par transformation des probabilités
selon le principe de composition fonctionnelle statistique, créé un nouveau opérateur hermitique

()
^
f Q̂ et nous l'avons associé avec les deux nombres réels b et prob[ f (v(Q )) = b] . Donc, suivant le

()
^
réalisme des valeurs, il y a un observable correspondant à f Q̂ avec la valeur b, donc
f (v(Q )) = v( f (Q )) . Suivant la non contextualité, cet observable est unique et donc le principe de
composition fonctionnelle s'ensuit.
II.3.6. Echapper à l'argument de Kochen et Specker
La section précédente éclaire quelles possibilités le théoricien des variables cachées a pour
échapper à l'argument de Kochen et Specker : rejeter un des trois prémisses qui ensemble
impliquent la règle de composition fonctionnelle (donc la règle des sommes et la règle produit).
II.3.6.1. Pas de valeurs définies en général
Rappelons que les valeurs définies étaient la supposition fondamentale des interprétations à
variables cachées. Ainsi, afin d'échapper à un argument puissant contre la possibilité des
interprétations à variables cachés, si ces interprétations enlèvent leur motivation fondamentale, cela
semble ne pas avoir beaucoup de sens. Mais certains interprètes signalent qu'entre tenir à ce que
seulement les observables que la mécanique quantique prescrit ont une valeur et tenir à ce que
toutes aient une valeur, il y a une marge, c'est-à-dire proposer que plus d'observables que ceux
prescrit par la mécanique quantique, mais pas tous, ont des valeurs ("valeurs définies partielles").
Cette option des valeurs définies partielles a été utilisée par plusieurs interprétations modales et a
aussi été explorée par John Bell dans son "approche possible" de la mécanique quantique
(1987:ch.7).

Les écueils et bancs de sable des interprétations modales sont au-delà du but de cette analyse. nous
noterons juste qu'il n'est pas clair comment ces interprétations peuvent s'arranger pour toujours
sélectionner le bon ensemble d'observables supposé avoir des valeurs. "Bon ensemble" signifie ici
que l'observable réellement mesuré doit toujours être inclus (afin d'éviter le problème de la mesure)
et doit toujours rendre les statistiques de la mécanique quantique. Nous mentionnons aussi deux
résultats important qui jettent le doute sur la faisabilité des interprétations modales : premièrement,
il peut être montré que ou bien les valeurs définies partielles se réduisent à des valeurs définies
complètes ou bien le raisonnement classique sur les propriétés physiques doit être abandonné
(Clifton 1995). Deuxièmement, il est possible de dériver une sorte de théorème de Kochen et
Specker même dans certaines interprétations modales (Bacciagaluppi 1995, Clifton 1996).
II.3.6.2. Rejet du réalisme des valeurs
La dérivation du principe de composition fonctionnelle consiste de manière basique en la

()
^
construction d'un observable (c'est-à-dire f (Q ) ) via un opérateur (c'est-à-dire f Q̂ ) à partir de la
distribution de probabilité d'un nombre (c'est-à-dire f (v(Q )) qui est en retour construit à partir d'un
autre nombre (c'est-à-dire v(Q ) ). Maintenant, au lieu de rejeter l'existence de v(Q ) dans tous les
cas (comme ci-dessus), nous pouvons rejeter que l'existence d'un nombre α et la construction de

()
^
f Q̂ conduit automatiquement à un observable, c'est-à-dire que nous rejetons le réalisme des
valeurs. Cela revient à rejeter que pour tout opérateur hermitique il y a un observable bien défini.

Maintenant, afin de formuler le réalisme des valeurs nous avons donné une lecture très réduite de
l'algorithme statistique, c'est-à-dire qu'il y a un dispositif purement mathématique pour calculer les
nombres à partir des vecteurs, opérateurs et nombres (comment pouvions nous faire autrement. Et
bien, si nous disons "tout ce qui satisfait l'algorithme statistique est un observable", nous ne
pouvons pas bien supposer qu'un opérateur, afin de remplir l'algorithme, doit être compris comme
un observable puisque cela rendrait la condition comme une conséquence triviale de l'algorithme).
Cette lecture est très artificielle et présuppose qu'un appareil d'interprétation minimal requit pour
donner un sens physique à certains opérateurs (comme Q̂ ) peut être dissimulé des autres (comme

()
^
f Q̂ ).

De plus, il semble très peu plausible de supposer que certains opérateurs, sommes et produits des
opérateurs qui sont associés avec des observables bien définis, ne sont eux-mêmes pas associés
avec des observables bien définis, même s'ils héritent mathématiquement des valeurs exactes de
leurs termes ou facteurs. Prenons un exemple brutal, cela reviendrait à dire que demander l'énergie
d'un système est une question bien définie tandis que demander le carré de l'énergie du système de
l'est pas, même si la réponse à notre première question et par des mathématiques triviales nous
avons une réponse bien définie sous la main. Il ne semble pas y avoir de bonne raison a priori pour
justifier cette restriction. Ainsi, pour que le rejet du réalisme des valeurs soit plausible, une
proposition supplémentaire est faite : il est crucial pour l'argument de Kochen et Specker qu'un seul

()
^ ^
()
opérateur soit construit à partir de différents qui sont incompatibles : f Q̂ est identique à g P̂ où

()
^
Pˆ Qˆ − Qˆ Pˆ ≠ 0 . Nous supposons que seule la construction de f Q̂ via Q, mais pas celle via P,
conduit à un observable bien défini.

Cela rend cependant automatiquement certains observables sensibles au contexte. Ainsi, cette
manière de motiver le rejet du réalisme des valeurs revient à une sorte de contextualisme qui peut
être obtenu plus facilement en rejetant directement la non contextualité et sans se battre avec
l'algorithme statistique (ce fait explique pourquoi nous n'avions pas mentionné le rejet de réalisme
des valeurs comme une option séparée dans l'introduction).
II.3.6.3. Contextualité
Finalement, nous pouvons accepter les valeurs définies et le réalisme des valeurs mais rejeter que

()
^
notre construction d'un observable f (Q ) soit sans ambiguïté. Donc, nous acceptons que f Q̂ et
^
()
g P̂ soient mathématiquement identiques mais que physiquement ils correspondent à différents
observables puisqu'une détermination réelle de v( f (Q )) doit procéder via la mesure de Q mais que
la détermination de v( g (P )) implique la mesure de P qui est incompatible avec Q. Puisque v( f (Q ))
et v( g (P )) sont des résultats de différentes situations de mesure, il n'y a pas de raison de supposer
que v( f (Q )) = v( g (P )) . Cette manière de bloquer la démonstration de Kochen et Specker vient à
considérer f (Q ) et g (P ) comme des observables différents (à cause de la sensibilité au contexte),
donc cela revient à rejeter la non contextualité. Il y a principalement deux manières, dans la
littérature, de motiver cette étape. Et donc, il y a deux domaines importants de contextualité à
discuter -- la contextualité causale et ontologique.

L'argument de Kochen et Specker a été présenté pour des valeurs possédées d'un système en
mécanique quantique, indépendamment de considérations sur la mesure. En effet, l'argument de la
mesure fut mentionné seulement une fois et dans la négative, dans la non contextualité. Cependant,
puisque maintenant nous considérons le rejet de la non contextualité, nous devons aussi prendre en
compte la mesure et ses complications. Une manifestation supplémentaire de notre réalisme
inoffensif (voir l'introduction) est un principe de mesure des faits : la mesure en mécanique
quantique d'un observable délivre de fait la valeur que cet observable avait immédiatement avant
l'interaction de mesure. Le principe de mesure des faits est aussi une hypothèse extrêmement
plausible des sciences naturelles. De plus, le principe de mesure des faits implique les valeurs
définies (cependant nous pourrions avoir utilisé le principe plus fort donnant un argument de
Kochen et Specker pour des résultats de mesure possibles). Considérons maintenant la motivation,
pour la théorie à variables cachées proposée, de rejeter la non contextualité. Evidemment, le but est
de sauver d'autres hypothèses, particulièrement les valeurs définies. Maintenant les valeurs définies
et la non contextualité sont des convictions réalistes indépendantes, mais la non contextualité et le
principe de mesure des faits ne sont pas aussi indépendant. En effet, nous verrons que le rejet de la
non contextualité implique le rejet du principe de mesure des faits et sa transformation en une
version de contextualité et suggère fortement l'autre (cela rend plus précises certaines remarques
obscures de l'introduction qu'il n'est pas évident de savoir à quoi ressemblerait une interprétation
acceptant le principe réaliste des valeurs définies mais rejetant le principe réaliste de la non
contextualité. Une telle interprétation violerait un troisième principe réaliste, c'est-à-dire le principe
de mesure des faits.)

Contextualité causale
Un observable peut être dépendant du contexte de manière causale dans le sens qu'il est sensible de
manière causale avec la manière dont il est mesuré. L'idée de base est que la valeur observée est le
résultat de l'interaction système - appareil. Donc, en mesurant un système via une interaction avec
un appareil mesurant P peut conduire à une valeur v( g (P )) , et en mesurant le même système via
une interaction avec un appareil mesurant Q à une valeur différente v( f (Q )) , bien que les deux

() ()
^ ^
observables soient représentés par le même opérateur f Qˆ = g Pˆ . La différence dans les valeurs
est expliquée en terme de dépendance au contexte des observables : ces derniers sont dépendants du
contexte puisque les différentes manières de les réaliser physiquement influence de manière causale
le système d'une manière différente et donc change la valeur observée.

Si un interpréteur désire défendre la contextualité causale, cela implique l'abandon du principe de


mesure des faits, au moins pour les observables du type f (Q ) (observables non maximaux) :
puisque leur valeur dépend de manière causale de la présence de certains arrangements de mesure,
ces arrangements sont causalement nécessaire pour obtenir la valeur, donc la valeur ne peut par être
présente avant l'interaction système - appareil et le principe de mesure des faits est violé. Comme
avantage de la contextualité causale on peut indiquer ce qui suit. Cela n'implique pas que le statut
ontologique des propriétés physiques concernées doive changer, c'est-à-dire n'implique pas qu'elles
deviennent relationnelles. Si la propriété d'un objet est obtenue par interaction avec un autre, elle
peut encore être une propriété de l'objet lui-même après l'interaction. Cependant, l'idée de
contextualité causale est quelque fois discutée de manière critique puisqu'il y a des raisons de
penser qu'elle peut être empiriquement inadéquate (voir Shimony 1984, Stairs 1992).
La théorie de Bohm est une forme de théorie à variables cachées de ce type.

Contextualité ontologique
Un observable peut être dépendant du contexte de manière ontologique dans le sens qu'afin d'être
bien définie, la spécification de l'observable "venant de" est nécessaire. Donc, afin de construire un

() ()
^ ^
observable bien défini à partir de l'opérateur f Q = g Pˆ , nous avons besoin de savoir s'il est
ˆ
physiquement réalisé via l'observable P ou l'observable Q. Cette manière d'éviter le problème de
Kochen et Specker fut d'abord proposée (mais pas défendue) par Fraassen (1973). Il y a alors

()
^
plusieurs observables et types de propriétés physiques pour un opérateur f Q̂ tout comme il y a

()
^
plusieurs manière de construire f Q̂ à partir d'opérateurs maximaux. Sans explication
supplémentaire, cependant, cette idée conduit juste à une prolifération ad hoc des grandeurs
physiques. Un défenseur de la contextualité ontologique nous doit certainement une histoire plus
explicite sur la dépendance de l'observable f (Q ) à l'observable Q. Deux possibilités viennent à
l'esprit.

(a) Nous pouvons penser que v( f (Q )) n'est pas juste une propriété physique consistante mais une
propriété qui dépend de manière ontologique de la présence d'une autre propriété v(Q )
(rappelons que dans la preuve du principe de composition fonctionnelle v( f (Q )) est construit à
partir de v(Q ) .) Mais, puisque la position ne rejette pas les questions sur les valeurs de f (Q )
dans une situation de mesure de P comme illégitime (car elle n'est pas liée à une notion d'un
observable comme étant bien définie dans un contexte seulement !) cela semble conduire à de
nouvelles et pressantes questions, pour le moins. Comme tentative pour défendre une
interprétation à variables cachées contextuelles, celle position doit concéder que non seulement
le système a, dans la situation de mesure de Q, une valeur v(Q ) , mais aussi dans une situation
de mesure de P, qu'elle a une valeur v ′(Q ) bien que peut-être v ′(Q ) ≠ v(Q ) . Maintenant, les
questions pour la valeur de f (Q ) dans cette situation sont légitimes. Est-ce que v ′(Q ) donne
une autre valeur v ′( f (Q )) ≠ v( f (Q )) ? Ou est-ce que v ′(Q ) , en opposition à v(Q ) , ne conduit
pas à une valeur de f (Q ) du tout ? Aucune option ne semble plausible car ne pourrions-nous
pas, en passant d'une situation de mesure de P et Q à une autre conclure à l'existence ou pas de
v( f (Q )) ou passer de v( f (Q )) à v ′( f (Q )) ?
(b) Nous pouvons penser que, afin que f (Q ) soit bien défini, un arrangement de mesure plutôt
qu'un autre soit nécessaire. L'idée est une forte réminiscence de l'argument de Bohr de 1935
contre EPR et, en effet, peut être vue comme une extension appropriée des vues de Bohr sur la
mécanique quantique vers la discussion des variables cachées moderne (voir Held 1998, ch.7).
Dans cette version de la contextualité ontologique, la propriété v( f (Q )) , plutôt que de dépendre
de la présence d'une autre propriété v(Q ) , dépend de la présence d'un appareil de mesure de Q.
Cela conduit à une position holistique : pour certaines propriétés il y a seulement un sens d'en
parler comme se rattachant à un système, si ce système est une partie d'un certain tout, système
- appareil. Ici, la question pour les valeurs de f (Q ) dans une situation de mesure de P devient
illégitime puisque la définition correcte de f (Q ) est liée à une situation de mesure de Q. Mais
des réserves s'appliquent à nouveau. Est-ce que la position conduit à ce que, en opposition à
f (Q ) , Q est lui-même bien défini dans une situation de mesure de P ? Si non, Q peut
difficilement avoir une valeur (puisque le fait qu'il n'était pas bien défini était une raison pour
nier une valeur à f (Q ) ) ce qui signifie que nous ne considérons plus du tout une interprétation
à variables cachées et qu'il n'y a plus besoin de bloquer l'argument de Kochen et Specker du
tout. Si on le fait, qu'est-ce qui explique que, dans une situation de mesure de P, Q reste bien
défini mais que f (Q ) perd ce statut ?

Que devient le principe de mesure des faits dans les deux versions de la contextualité ontologique ?
Bien, si nous restons agnostiques sur comment la position pourrait être rendue plausible, nous
pouvons sauver le principe de mesure des faits, tandis que si nous choisissons la version (a) ou la
version (b) pour le rendre plausible, nous le perdons. Considérons d'abord un rejet agnostique de la
non contextualité. Le principe de mesure des faits dit que tout observable de la mécanique
quantique est mesuré de fait. Maintenant, la contextualité divise un opérateur qui peut être construit
à partir de deux opérateurs différents non commutant en deux observables et la contextualité
ontologique n'essaie pas de nous donner une théorie causale ce qui ruinerait l'indépendance causale
des valeurs mesurées à partir de l'interaction de mesure inclue dans le principe de mesure des faits.
Nous introduisons simplement une conception plus raffinée des observables mais pour ces
nouveaux observables contextuels nous pouvons encore imposer le principe de mesure des faits.

Cependant, les versions concrètes de contextualité ontologique, en tentant de motiver le phénomène


contextuel, ruinent le principe de mesure des faits. La version (a) permet à f (Q ) d'exister ou pas à
l'envi ou de changer entre différentes valeurs avec le changement de situations de mesures de P et
Q, ce qui est une violation flagrante du principe de mesure des faits. Les versions (b) ne font pas
mieux. Elles introduisent la dépendance ontologique sur le dispositif de mesure. Il est difficile de
voir ce que cela pourrait être d'autre, mais la même dépendance causale pousse à une clé
"ontologique" plus grande. A nouveau, ne pouvons nous pas, juste en faisant marche arrière vers le
dispositif de mesure, revenir à ce que f (Q ) soit bien définit, donc changer l'existence de v( f (Q )) ?

Finalement, nous notons que les deux types de contextualité ontologique, par opposition à la
version causale, impliquent que les propriétés du système que nous pensions au début être
intrinsèque deviennent relationnelles dans le sens qu'un système peut seulement avoir ces propriétés
s'il en a certaines autres ou s'il est relié à un certain dispositif de mesure.
II.3.7. La question des tests empiriques
Les fameuses violations des inégalités de Bell prescrites par la mécanique quantique ont été
confirmées expérimentalement. Est-ce que quelque chose de similaire est possible pour le théorème
Kochen et Specker ? Nous distinguons trois questions :
(1) Est-il possible de réaliser l'expérience proposée par Kochen et Specker comme motivation de
leur théorème ?
(2) Est-il possible de tester les principes conducteurs du théorème : la règle des sommes et la règle
produit, le principe de composition fonctionnelle ou la non contextualité ?
(3) Est-il possible de tester le théorème lui-même ?

(1) Kochen et Specker eux-mêmes décrivent un arrangement expérimental concret pour mesurer
S x2 , S y2 , S z2 sur un système d'une particule de spin 1 comme des fonctions d'un observable
maximal. Un atome d'orthohélium dans l'état triplet le plus bas est placé dans un petit champ
électrique E de symétrie rhomboïdale. Les trois observables en question peuvent alors être
mesurés comme des fonctions d'un seul observable, l'hamiltonien perturbation H S . H S , par la
géométrie de E, a trois valeurs distinctes possibles de mesures qui révèle les deux observables
de S x2 , S y2 , S z2 qui ont la valeur 1 et celui qui a la valeur 0 (voir Kochen et Specker 1967 :
72/311). C'est bien sûr une proposition de réaliser une expérience mettant en évidence notre
contrainte de valeurs ci-dessus (VC2). Pouvons-nous aussi réaliser une expérience (VC1), c'est-
à-dire mesurer un ensemble de projecteurs commutant projetant sur des états propres d'un
observable maximal ? Peres (1995:200) répond à la question par l'affirmative, discute d'une
telle expérience et renvoie à Swift et Wright (1980) pour les détails sur la faisabilité technique.
Il semble, cependant, qu'en dépit d'être possible en principe, aucune expérience de ce type n'a
été réellement effectuée (voir Cabello et Garcia-Alcaine (1998) pour une discussion plus
détaillée et une autre proposition expérimentale).
(2) En conjonction avec les manifestations du principe de composition fonctionnelle, c'est-à-dire la
règle des sommes et la règle produit, la mécanique quantique contient des contraintes comme
VC1 ou VC2 qui contredisent les valeurs définies. Ainsi, fournir des exemples physiques
concrets qui peuvent, étant donné la règle des sommes et la règle produit, instancier VC1 ou
VC2, comme souligné, n'est pas suffisant. Nous devons nous demander si ces règles elles-
mêmes peuvent être empiriquement supportées. Il y a eu une discussion considérable au début
des années 80 sur cette question, explicitement a propos de savoir si la règle des sommes est
empiriquement testable, et il y a eu l'accord général que ce n'est pas le cas.

La raison en est la suivante : rappelons que la dérivation du principe de composition


fonctionnelle établit l'unicité des nouveaux observables f (Q ) seulement dans son étape finale
(via la non contextualité). C'est cette unicité qui garantit qu'un opérateur représente exactement
un observable tels que les observables (et donc leurs valeurs) dans différents contextes peuvent
être égalés. Cela permet d'établir des relations indirectes entre différents observables
incompatibles. Sans cette étape finale, le principe de composition fonctionnelle doit être vu
comme relatif à différents contextes, la relation est brisée et le principe de composition
fonctionnelle est restreint à un ensemble d'observables qui sont tous mutuellement compatibles.
Alors, en effet, le principe de composition fonctionnelle, la règle des sommes et la règle produit
deviennent trivial et les tests empiriques dans ces cas seraient une question inutile. C'est la non
contextualité qui fait tout le travail et qui doit être testée via le contrôle si pour P, Q
incompatibles tel que f (Q ) = g (P ) est-il vrai que v( f (Q )) = v( f (P )) . Ce test est, cependant,
impossible à cause de l'impossibilité de mesurer simultanément P et Q.
(3) Très récemment, il a été affirmé que la supposition (physiquement raisonnable) de mesures de
précisions finies crée un trou décisif dans l'argument de Kochen et Specker (voir Meyer 1999,
Kent 1999, Clifton et Kent 1999, en bref MKC). En effet, si nous considérons un argument du
type Kochen et Specker pour des valeurs mesurées, la précision infinie est cruciale pour
l'argument de deux manières différentes : (1) il est nécessaire à l'argument que les composantes
mesurées sur un triplet (ou un quadruplet) soient exactement orthogonales. (2) Il est nécessaire
(pour installer la non contextualité) que deux mesures effectuées pour obtenir le même
observable comme membre de deux ensembles maximaux différents pointent exactement dans
la même direction. Si nous relâchons cette supposition de précision infinie, des modèles à
variables cachées non contextuels peuvent être construits. Dans ces modèles, ce n'est pas
exactement les ensembles d'observables spécifiés dans l'argument de Kochen et Specker (ou les
arguments apparentés) par des points dans R(3) , mais des ensembles spécifiés par des points
avec des composantes rationnelles (qui donnent une approximation des précédentes
arbitrairement près) qui sont coloriables, c'est-à-dire qui peuvent de manière consistante être
assignés à des valeurs non contextuelles. Ainsi l'argument ultimement tombe sur le fait que
nous ne pouvons pas empiriquement distinguer entre un "point réel" et son "approximation
rationnelle".

L'argument MKC est chaudement débattu et la question de savoir s'il est relevant ou même
destructif pour l'argument de Kochen et Specker n'est pas tranchée, ainsi nous donnerons
seulement une partie de la discussion. Une objection assez évidente est que l'argument original
de Kochen et Specker ne marche pas pour des valeurs possédées ni pour des valeurs mesurées,
ainsi l'argument MKC, qui met en avant la précision finie des mesures, rate l'objectif. Nous
pouvons ne pas être capables de tester les observables qui sont exactement orthogonaux ou
exactement semblables dans différents tests, mais ce serait une interprétation à variables
cachées étrange qui affirme que de telles composantes n'existent pas (voir Cabello 1999). Bien
sûr, une telle théorie à variables cachées non contextuelle serait immunisée contre l'argument de
Kochen et Specker, mais elle serait forcée ou bien de rejeter que pour chaque direction
d'ensemble continu de directions dans l'espace il y a un observable ou bien de rejeter qu'il y a
un ensemble continu de directions - et aucun de ces rejets ne semble très attirant.

En plus, l'argument MKC est peu satisfaisant car il exploite la précision finie de mesures réelles
seulement dans un des sens ci-dessus mais suppose une précision infinie dans l'autre. MKC
suppose, pour les observables mesurés, qu'il y a une précision finie dans le choix des différents
triplets orthogonaux tel que nous ne pouvons pas avoir, en général, exactement le même
observable deux fois comme membre de deux triplets. Cependant, MKC suppose encore la
précision infinie, c'est-à-dire l'orthogonalité exacte, dans le triplet (autrement la contrainte de
coloriage ne trouverait aucune application du tout). Il a été affirmé que ce phénomène peut être
exploité pour rejeter l'argument et réinstaller le contextualisme (voir Mermin 1999, Appleby
2000).

Finalement, il peut être montré que les probabilités quantiques varient continûment lorsque
nous changeons de direction dans R(3) , ainsi de petites imperfections dans la sélection des
observables qui bloque l'argument (mais seulement pour les valeurs mesurées !) dans le seul cas
sera effacé en moyenne (voir Mermin 1999). Cela ne constitue en effet pas un argument
puisque dans les ensembles coloriables des observables dans les constructions MKC les
probabilités varient aussi (dans un sens) continûment. Nous pouvons cependant exploiter le
raisonnement de Mermin de la manière suivante. Reconsidérons l'ensemble de Clifton de huit
directions conduisant à une contrainte de coloriage pour les points extérieurs qui statistiquement
contredit les statistiques de la mécanique quantique par une fraction de 1/17. Maintenant, en
partant d'un sous-ensemble coloriable des directions construites par MKC, nous sommes
incapables de dériver la contrainte pour les huit points puisque ces huit points ne sont pas dans
l'ensemble. C'est-à-dire qu'en passant, dans l'ensemble coloriable, d'un triplet de lignes
mutuellement orthogonales au suivant, nous n'aurons jamais exactement les mêmes directions
mais seulement une approximation arbitrairement proche. Cependant, considérons la réponse
suivante. Supposons que les observables correspondants aux huit directions, bien que
n'appartenant pas au sous-ensemble coloriable, existent et, selon la prémisse des variables
cachées, ont tous des valeurs. Alors, nous pouvons dériver la contrainte de Clifton pour les
points extérieurs. Pour ces points extérieurs il n'est pas important qu'un éventuel test empirique
les donne exactement car l'argument de Mermin dit que, même si dans une mesure très
légèrement imparfaite nous mesurons seulement des points voisins, nous aurons à la longue une
approximation de plus en plus précise des statistiques de la mécanique quantique pour
exactement les points en question, ce qui signifie que nous aurons une approche de plus en plus
précise de 1/17 tandis que la supposition des variables cachées nécessite que nous aurions une
valeur de plus en plus précise de 0 (rappelons aussi que ce nombre peut être poussé jusqu'à 1/3
en choisissant un ensemble de 13 directions !).

Ainsi, il semble qu'aussi longtemps que nous supposons qu'il y a une quantité continue
d'observables de la mécanique quantique (correspondant aux directions continues dans l'espace
physique), des tests statistiques construis, par exemple, sur la proposition de Clifton 1993 ou
Cabello/Alcaine 1998 restent entièrement valide comme confirmations empiriques du théorème
de Kochen et Specker. Puisque ces violations statistiques du programme des variables cachées
viennent comme résultats des contradictions de la mécanique quantique, des valeurs définies,
du réalisme des valeurs et de la non contextualité d'un coté et de la mécanique quantique et
l'expérience de l'autre, les données expérimentales nous forcent encore vers le dilemme
d'écarter les valeurs définies ou le réalisme des valeurs ou la non contextualité. Comme nous
l'avons vu, rejeter le réalisme des valeurs devient en final identique à une sorte de contextualité,
donc nous avons réellement deux options : (1) écarter les valeurs définies ou pour tous les
observables interdit d'avoir des valeurs dans la représentation orthodoxe (donc écarter le
programme des variables cachées) ou pour un sous-ensemble de ces observables (comme le
font les interprétations modales). (2) Accepter une sorte de contextualité. De plus, comme les
choses semblent se présenter, le choix entre ces deux options ne semble pas pouvoir être testé
empiriquement et reste un argument purement philosophique.
II.4. Théorème de Mermin
Nous aimerions discuter ici d'un théorème beaucoup plus récent découvert par N. David Mermin en
1990 qui est du même type que ceux considérés ci-dessus. Mermin fait essentiellement la même
hypothèse concernant la fonction E (O ) que Gleason et Kochen et Specker : que E (O ) doit obéir à
toutes les relations parmi les ensembles commutants d'observables. Ce théorème est plus direct
dans sa preuve et plus simple dans sa forme que ceux de Gleason et de Kochen et Specker.

Le système traité par le théorème de Mermin est celui d'une paire de particules de spin 1/2. Les
observables concernés sont les composantes x et y de ces spins et six autres observables qui sont
définis en termes de ces quatre. Nous commençons par la dérivation de l'expression
(1) σ x(1)σ y(2 )σ y(1)σ x(2 )σ x(1)σ x(2 )σ y(1)σ y(2 ) = −1
puisque cela est en réalité assez crucial pour le théorème. Pour la simplicité, nous normalisons les
valeurs propres du spin de ± 1 / 2 à ± 1 . Pour démontrer (1), nous utilisons la règle de commutation
pour les composantes x et y de deux particules de spin 1/2. Toute paire de tels observables associés
[ ] [
à différentes particules commuteront, donc nous avons σ x(1) , σ x(2 ) = 0 et σ x(1) , σ y(2 ) = 0 , par ]
exemple. Toute paire qui implique la même composante commutera aussi, donc nous avons
[ ] [ ]
σ x(1) , σ x(1) = 0 et σ x(2 ) , σ x(2 ) = 0 . Notons que la commutation de deux observables O1 , O2 implique
que O1O2 = O2 O1 . Les paires associées à la même particule mais avec des composantes différentes
ne commutent pas mais anticommutent. Pour deux observables anticommutant O1 , O2 , il s'ensuit
que leur anti-commutateur {O1 , O2 } = O1O2 + O2 O1 est égal à zéro. Cela implique que
O1O2 = −O2 O1 . En utilisant ces règles, nous pouvons manipuler l'expression sur le coté gauche de
(1) par des échanges séquentiels du premier σ x(1) avec l'opérateur apparaissant à sa droite. Si nous
échangeons σ x(1) avec σ y(2 ) , σ y(1) et σ x(2 ) , l'expression devient − σ y(2 )σ y(1)σ x(2 )σ x(1)σ x(1)σ x(2 )σ y(1)σ y(2 ) . Le
signe moins total résulte de l'échange avec σ y(1) . A ce point, il est immédiat de simplifier
l'expression en utilisant le fait que le carré de toute composante du spin a la valeur 1, c'est-à-dire
(σ ( ) )
i
2
= 1 . Si nous appliquons cela à l'expression en question, nous pouvons facilement voir que
i

l'expression entière se réduit à -1, vérifiant donc (1).


Motivé par l'expression (1), nous introduisons six observables supplémentaires
(2) {A, B, C , X , Y , Z }

Si nous groupons les observables du coté gauche de (1) par paires, nous pouvons réécrire ces
relations comme ABXY = −1 où A, B, X, Y sont définis comme
A = σ x(1)σ y(2 )
B = σ y(1)σ x(2 )
(3)
X = σ x(1)σ x(2 )
Z = σ y(1)σ y(2 )

En définissant les observables C et Z comme


C = AB
(4)
Z = XY
cela permet alors d'écrire (1) comme
(5) CZ = −1

Il est important de noter que l'équation (5) est équivalente à (1), étant donné que A, B, C, X, Y, Z
sont définis comme donné ci-dessus dans (4) et (3).

Si nous examinons la première équation dans (3), nous voyons que les trois observables impliqués
[ ] [ ] [ ]
sont un ensemble commutant : σ x(1) , σ y(2 ) = 0 , σ x(1) , A = σ x(1) , σ x(1)σ y(2 ) = 0 et
[σ (2 )
] [ (2 ) (1) (2 )
]
, A = σ y , σ x σ y = 0 . L'examen des autres équations dans (3) révèle que le même est vrai
y

pour eux, c'est-à-dire que les observables forment un ensemble commutant. L'application répétée
des règles de commutation révèle que les ensembles {C, A, B}, {Z, X, Y} et {C, Z} sont aussi des
ensembles commutant. Comme cela a été fait dans les théorèmes de Gleason et de Kochen et
Specker, nous considérons la question d'une fonction E (O ) sur les observables σ x(1) , σ y(1) , σ x(2 ) ,
σ y(2 ) , A, B, C, X, Y, Z qui retourne pour chaque observable sa valeur. Nous exigeons que E (O )
satisfasse toutes les relations de contraintes sur chaque ensemble commutant des observables. Les
relations en question diffèrent de celles de Gleason et de Kochen et Specker seulement en ce
qu'elles impliquent des produits d'observables plutôt que juste des combinaisons linéaires.
Cependant, cette distinction n'est pas significative, la propriété essentielle de tous ces théorèmes est
simplement qu'elles exigent que E (O ) satisfasse les relations de contraintes pour chaque ensemble
commutant, aucune relation sur des observables non commutant n'est considérée comme des
contraintes nécessaires. Les relations en question dans cette analyse sont les équations de définition
(3), (4) et (5). Etant donné que E (O ) les satisfait, le théorème de Mermin implique que cette
fonction ne peut pas appliquer les observables sur leurs valeurs propres.

Nous allons maintenant présenter la preuve du théorème. Puisque σ (ji ) = ±1 , pour tout i, j, les
valeurs propres de chacun des dix observables sera ± 1 . Cela se voit facilement pour les
observables A, B, X, Y définis par (3). Chacun d'entre eux étant le produit de deux observables
commutant dont les valeurs propres sont 1 et -1. Avec cela, il suit de même que C et Z ont chacun
des valeurs propres de ± 1 . Nous exigeons donc que E (O ) doit attribuer -1 ou 1 à chaque
observable. Rappelons maintenant un résultat important que nous avons vu ci-dessus : la relation
CZ = −1 est équivalente à la relation (1) pourvu que les observables A, B, C, X, Y, Z soient
définis par (4) et (3).

Considérons la fonction E (O ) . Puisque l'attribution faites par cette fonction doit satisfaire toutes les
relations de commutation (5), (4) et (3), il s'ensuit qu'elle doit satisfaire aussi (1). Cependant, si
nous examinons (1), il s'ensuit qu'aucune attribution de valeurs -1 et +1 n'est possible qui satisfasse
cette équation. Cela suit car chacun des observables de spin apparaît deux fois sur le coté gauche de
(1) de telle manière que toute attribution doit donner la valeur 1 à l'expression entière alors que le
coté droit de (1) est -1. Donc, il n'y a pas de fonction E (O ) qui applique chaque observable de
l'ensemble σ x(1) , σ y(1) , σ x(2 ) , σ y(2 ) , A, B, C, X, Y, Z à une valeur propre si nous insistons pour que
E (O ) sur tout ensemble commutant obéisse à toutes les équations de contraintes. Cela complète la
preuve du théorème de Mermin. La simplicité de l'argument et la mesure commune des spins en
physique rendent cet argument incontournable. Rappelons toutefois qu'il n'est valide que dans
l'hypothèse de non contextualité.
III. Autres théorèmes

III.1. Théorème de Leggett

III.1.1. Introduction
La mécanique quantique fournit une règle précise pour calculer la probabilité que la mesure de A et
B effectuée sur deux systèmes physiques dans l'état ψ conduise aux résultats (rA , rB ) :
(1) PQ (rA , rB | A, B ) = ψ PrA ⊗ PrB
où Pr est le projecteur sur le sous-espace associé au résultat de mesure r. Pour des états intriqués,
cette formule prédit que les résultats sont corrélés, indépendamment de la distance entre les deux
dispositifs de mesure. Une explication naturelle pour les corrélations établies à distance est l'accord
préétablit : les deux particules ont quitté la source avec une certaine information commune λ , dite
variable locale, qui leur permet de calculer le résultat de chaque mesure possible. Formellement,
rA = f A ( A, λ ) et rB = f B (B, λ ) . Aussi satisfaisant que cela puisse sembler, ce modèle n'arrive pas à
reproduire toutes les corrélations quantiques : c'est le célèbre résultat de John Bell testé maintenant
par un très grand nombre d'expériences. Le fait que les corrélations quantiques ne peuvent être
attribuées ni aux variables locales ni à une communication inférieure à la vitesse de la lumière est
désignée comme la non-localité quantique.

Bien que la non-localité soit une manifestation frappante de l'intrication quantique, le caractère
fondamental de cette notion n'est pas encore clair. L'essence de la mécanique quantique pourrait
être autre part. Par exemple, le non-déterminisme est une autre propriété importante de la
mécanique quantique, sans lien a priori avec la non-localité. Des théories génériques possédant à la
fois le non-déterminisme et la non-localité ont été étudiés, avec plusieurs résultats, mais il n'est pas
encore clair si une physique quantique unique en découle. Afin de progresser dans cette direction, il
est important d'apprendre quels autres modèles alternatifs sont compatibles avec la mécanique
quantique et lesquels ne le sont pas. Le théorème de Bell a écarté tous les modèles possibles à
variables locales. Nous devons passer aux modèles basés sur des variables non locales. Le premier
exemple de modèle testable à variables non locales a été proposé par Suarez et Scarani, falsifiés
dans une série d'expériences il y a quelques années. Un modèle différent fut proposé par Leggett.
Ce modèle suppose que la source émet des états quantiques produits α ⊗ β avec la densité de
probabilité ρ (α , β ) et exige que les probabilités marginales soient compatibles avec de tels états :
(2) P(rA | A) = ∫ dρ (α , β ) α PrA α

(3) P(rB | B ) = ∫ dρ (α , β ) β PrB β

Les corrélations doivent cependant inclure certains effets non locaux, autrement ce serait un modèle
(non déterministe) à variables locales qui est déjà écarté par le théorème de Bell. Ce que Leggett a
montré est que la simple exigence de la consistance (c'est-à-dire que des probabilités négatives ne
doivent pas apparaître) contraint les corrélations possibles, même les non locales, pour satisfaire
des inégalités qui sont légèrement mais clairement violées par la mécanique quantique. Une
expérience récente a montré que les dispositifs actuels peuvent détecter cette violation en principe.
Cependant, leur falsification du modèle de Leggett est handicapée par la nécessité d'hypothèses
additionnelles car les inégalités utilisées, tout comme celles de Leggett, supposent que les données
sont collectées à partir d'une infinité de dispositifs de mesure. Ici, nous allons présenter une famille
d'inégalités qui permette de confronter le modèle de Leggett à la physique quantique avec un
nombre fini de mesures. Nous montrerons leur violation expérimentale par des paires de photons
avec une intrication de la polarisation. Nous conclurons avec ce qui doit encore être appris des
modèles à variables non locales.
III.1.2. Théorie
Nous restreignons notre théorie au cas où le degré de liberté quantique étudié est un qubit (unité
d'information quantique). Nous considérons des mesures de von Neumann qui peuvent être indicées
par des vecteurs unités dans la sphère de Poincaré S : A → a et B → b . Leurs résultats seront écrit
rA , rB ∈ {+ 1,−1}. Les états purs des particules seules peuvent aussi être indicées par des vecteurs
unités u et v dans S . Le modèle de Leggett exige que
(1) P(rA , rB | a, b ) = ∫ dρ (u, v )Pu , v (rA , rB | a, b )
avec
(2) Pu , v (rA , rB | a, b ) =
1
[1 + rAa ⋅ u + rB b ⋅ v + rA rB C (u, v, a, b )]
4

Le coefficient de corrélation C (u, v, a, b ) est contraint seulement par l'exigence que (5) doit définir
une distribution de probabilité sur (rA , rB ) pour tous les choix de mesure a, b. On voit clairement la
forme de cette fonction de probabilité qui contient les probabilités locales de mesure plus le
coefficient non local C. De manière remarquable, cette contrainte est suffisante pour dériver des
inégalités qui peuvent être violées par la mécanique quantique. L'inégalité dérivée s'écrit
ϕ
(3) E1 (ϕ ) + E1 (0 ) + E 2 (ϕ ) + E 2 (0 ) ≤ 4 − sin
4
π 2
où les quantités E j (θ ) sont définies à partir des coefficients de corrélations
(4) C (a, b ) = ∑ r r P(rA B A , rB | a, b )
rA , rB

comme suit. L'indice j se rapporte au plan {a ∈ S | a ⋅ n j = 0} dans la sphère de Poincaré (pour


n j ∈ S ) et les deux plans j = 1, 2 qui apparaissent dans (3) doivent être orthogonaux (c'est-à-dire
n1 ⋅ n 2 = 0 ). Pour chaque vecteur unité a j du plan j, définissons a ⊥j = n j × a j . E j (θ ) est alors la
moyenne de C (a j , b j ) sur toutes les directions a j , avec b j = cosθ a j + sin θ a ⊥j . C'est une
propriété problématique de l'inégalité (6) : elle peut seulement être contrôlée en effectuant un
nombre infini de mesures ou en ajoutant l'hypothèse de l'invariance par rotation des coefficients de
corrélation C (a, b ) , comme dans la preuve originale. Il est donc naturel d'essayer de remplacer la
moyenne sur tous les dispositifs possibles par une moyenne sur un ensemble discret. Cela est
obtenu par l'estimation suivante. Soit w et c deux vecteurs unités et soit R N la rotation de πN autour
de l'axe orthogonal à (w, c). Alors
π
(5)
1 N

N k =0
( ) 1
R Nk c ⋅ w ≥ u N = cot
N 2N

( )
En effet, soit ξ l'angle entre w et c et ξ = ξ − π2 mod πN , tel que ξ ∈ [0, πN [ , alors on a :
~ ~

 ~ kπ  kπ 
∑ (R c)⋅ w = ∑ cosξ + N  = ∑ sin ξ + N  = sin ξ + Nu
N −1 N −1 N −1

(6) k
N N cos ξ ≥ Nu N
k =0 k =0   k =0  
comme annoncé.

En remplaçant la moyenne complète par la moyenne discrète (5) dans la démonstration de (3), on
obtient la famille suivante d'inégalités :
ϕ
(7) E1N (a1 , ϕ ) + E1N (a1 ,0 ) + E 2N (a 2 , ϕ ) + E 2N (a 2 ,0 ) ≡ L N (a1 , a 2 , ϕ ) ≤ 4 − 2u N sin
2

∑ C (a )
N −1
(8) E Nj (a j ,θ ) =
1 k
j , b kj
N k =0

avec b j = cosθ a j + sin θ a ⊥j et la notation c k = (R N , j ) c (la rotation de πN autour de n j ). Cela


k

définit 2N et 4N dispositions de chaque côté. Pour un état singulet pur, la prédiction de la


mécanique quantique pour L N (a1 , a 2 , ϕ ) est
(9) Lψ − (ϕ ) = 2(1 + cos ϕ )
indépendamment de N et du choix de a1 , a 2 puisque l'état est invariant par rotation.

L'inégalité pour N = 1 ne peut pas être violée car u1 = 0 . Mais déjà pour N = 2, la mécanique
quantique viole l'inégalité : cela ouvre la possibilité pour falsifier le modèle de Leggett sans
hypothèse supplémentaire. Pour N → ∞ , u N → π2 : on retrouve l'inégalité (3). L'arrangement
approprié des angles de différence ϕ pour sonder une violation des inégalités (7) peut être identifié
dans la figure ci-dessous.

La plus grande violation pour un état singulet idéal se produirait pour sin ϕ2 =
uN
4 , c'est-à-dire à
ϕ = 14.4° pour N = 2, il croît avec N jusque ϕ = 18.3° pour N → ∞ .
III.1.3. Expérience
Nous commençons avec une source de conversion paramétrique traditionnelle pour des paires de
photons avec polarisation intriquée avec des fibres optiques à un seul mode à géométrie optimisée
(figure ci-dessous).

Les paires de photons intriqués sont générées par conversion paramétrique dans du bêta borate de
baryum (BBO) à partir d'un laser à argon (PL). Après compensation (CC), la lumière est collectée
derrière des filtres à interférence IF dans des fibres optiques simple mode à biréfringence
compensée (FPC). Les mesures de polarisation sont effectuées avec une combinaison de lame quart
d'onde et de filtres polarisants (PF) en face de détecteurs de photons D1, 2 . La base de mesure pour
chaque bras (1, 2) est choisie par rotation des lames et des filtres polarisants d'angles α 1, 2 , β 1, 2 .

La lumière est émise par un laser à argon à 351 nm et envoyée dans un cristal de bêta borate de
baryum de 2 mm d'épaisseur pour générer des photons de 702 nm avec une distribution spectrale
gaussienne de 5 nm. Une puissance d'environ 40 mW a été choisie pour assurer à la fois l'opération
de fréquence unique du laser et pour éviter les effets de saturation des détecteurs de photons. La
collection des photons dans les fibres optiques monomodes assure une intrication raisonnement
forte de la polarisation. Dans cette configuration, il y a une visibilité des corrélations de
polarisation supérieures à 98 % (moins de 2 % de photons perdus) à la fois dans la base horizontale
- verticale et dans la base à ± 45° des filtres polarisants localisés avant les fibres. Afin d'éviter une
modulation de l'efficacité de la collection des photons avec les composants optiques due aux effets
de bords dans les lames, des éléments d'analyse de polarisation supplémentaires ont été placés
derrière les fibres.

Les mesures de polarisation pour les différentes dispositions des deux observateurs ont été réalisées
en utilisant des lames quart d'ondes, tournées par étapes avec un moteur d'angles respectifs α 1, 2 et
des filtres polarisants absorbants tournés d'un angle β 1, 2 de manière similaire avec une précision de
0.1 degré. Cette combinaison permet de projet des états de polarisation elliptique arbitraires.
Finalement, la photodétection est faite avec des diodes au silicium et les paires de photons étaient
identifiées par détection de coïncidence. Les cristaux compensateurs CC et la compensation de
biréfringence FPC a été ajustée pour être capable de détecter les paires de photons dans un état
singulet.

Après la compensation de biréfringence des fibres optiques, les expérimentateurs ont observé les
corrélations des polarisations entre les deux bras avec une visibilité de 99.5 ± 0.2% dans la base
horizontal - vertical, 99.0 ± 0.2% dans la base linéaire ± 45° et 98.2 ± 0.2% dans la base de
polarisation circulaire. Les taux de comptage typiques étaient de 10100 s −1 et 8000 s −1 pour des
événements seuls dans les deux bras et environ 930 s −1 pour les coïncidences pour des positions
orthogonales des polariseurs. Ils ont mesuré un taux de coïncidence accidentel en utilisant un
détecteur de signal avec un délai de 0.41 ± 0.07 s −1 , correspondant à une fenêtre temporelle de 5 ns.

Les deux plans orthogonaux qui ont été utilisés dans la sphère de Poincaré incluaient toutes les
polarisations linéaires pour l'un et les polarisations linéaires horizontales, verticales et circulaires
pour l'autre. De cette manière, on s'attend à prendre avantage des meilleures corrélations de
polarisation dans la base "naturelle" horizontal - vertical pour le cristal de conversion. Chacun des
4N coefficients de corrélations C (a, b ) a été obtenu à partir de quatre dispositions des filtres de
polarisation via
n a , b + n − a , − b − n − a ,b − n a , − b
(1) C (a, b ) =
n a ,b + n − a , − b + n − a ,b + n a , − b
à partir des quatre comptages de coïncidences n ± a, ± b obtenus pour un temps fixe d'intégration T = 4
seconde chacun. Pour N = 2, 3 et 4 les expérimentateurs ont testé l'ensemble générique complet des
8, 12 et 16 groupes de disposition, respectivement, avec chaque E jN (0) contenant un dispositif
d'analyse horizontal - vertical.

Un résumé des valeurs de N correspondant aux inégalités pour N = 2, 3 et 4 est montré dans la
figure ci-dessous avec les bornes correspondantes pour la théorie à variable cachées et la
mécanique quantique pour un état singulet pur.
Les déviations standard correspondantes des résultats ont été obtenues par la propagation des
erreurs habituelles en supposant une statistique de comptage poissonnienne et des fluctuations
indépendantes sur les dispositifs. Pour N = 2, nous observons déjà une violation claire de la théorie
à variables cachées. La plus grande violation qui a été trouvée est pour N = 4 avec environ 17
déviations standards au-dessus de la limite de la théorie à variables cachées. Comme attendu, la
violation expérimentale s'accroît avec le nombre croissant N. Les combinaisons sélectionnées de
(N , ϕ ) violant la limite des variables cachées sont résumées dans la table ci-dessous.
N ϕ LVar .cach. Lexp ± σ Ecart
2 12.5° 3.8911 3.9127 ± 0.0033 6.45 σ
2 15° 3.8695 3.8970 ± 0.0036 7.59 σ
2 17.5° 3.8479 3.8638 ± 0.0042 3.83 σ
3 12.5° 3.8743 3.9140 ± 0.0027 14.77 σ
3 15° 3.8493 3.8930 ± 0.0030 14.58 σ
3 17.5° 3.8243 3.8608 ± 0.0034 10.67 σ
3 20° 3.7995 3.8400 ± 0.0036 11.15 σ
4 12.5° 3.8686 3.9091 ± 0.0024 17.01 σ
4 15° 3.8424 3.8870 ± 0.0026 16.84 σ
4 17.5° 3.8164 3.8656 ± 0.0029 17.11 σ

Ces résultats sont bien décrits en supposant un bruit corrélé résiduel dans la préparation de l'état
singulet. La petite asymétrie de Lexp en ϕ est attribuée à la précision de l'alignement des
polariseurs.

Résumé et perspectives
Après la motivation très générale soulignée dans l'introduction, nous nous sommes concentrés sur
le modèle de Leggett. Nous avons posé ce modèle dans un cadre plus large. La non-localité ayant
été démontrée, le seul mécanisme classique qui reste pour expliquer les corrélations quantiques est
l'échange d'un signal. Il est donc naturel de supposer, comme modèle alternatif à la mécanique
quantique, que la source produit des particules indépendantes qui plus tard échangent une certaine
forme de communication. Bien sur, cette communication devrait voyager plus vite que la lumière,
ainsi le modèle a un repère particulier dans lequel le signal se propage : ce peut être un repère
privilégié ("éther quantique"), auquel cas même cette communication n'est pas logiquement
contradictoire, ou un repère défini par les appareils de mesure, auquel cas le modèle s'écarte des
prédictions quantiques lorsque les appareils sont en mouvement relatif. Evidemment, il y a des
modèles à variables cachées non locales qui reproduisent exactement les prédictions quantiques.
Des exemples explicites sont la théorie de Bohm et, dans le cas de deux qubits, le modèle de Toner
-Bacon. Les deux sont déterministes. Maintenant, dans la théorie de Bohm, si la première particule
est mesurée en A, la première probabilité conditionnelle donnée dans l'introduction (équation (2))
est satisfaite mais l'autre relation (équation (3)) ne l'est pas. Cette remarque apporte un éclairage
nouveau sur le modèle de Leggett où les deux hypothèses sont imposées : la particule qui reçoit la
communication peut prendre cette information en compte pour produire les corrélations non
locales, mais il est également exigé qu'elle produise des résultats qui respectent les probabilités
conditionnelles attendues pour le paramètre local seul.

Comme conclusion, on doit signaler que le large but souligné dans l'introduction c'est-à-dire pointer
l'essence de la mécanique quantique, n'as pas encore été atteint. Cependant, le modèle de Leggett,
et son expérience de falsification réussie a ajouté une nouvelle pièce dans ce but.
III.2. Théorème de Malament

III.2.1. Introduction
Est-ce que la mécanique quantique relativiste des champs nous dit que le monde est fait de champs
ou de particules ou de quelque chose d'autres ? Une difficulté pour répondre à cela est que les
théories physiques ne sélectionnent typiquement pas une seule ontologie privilégiée. Cela peut être
vu en mécanique classique que nous utilisons depuis environ 350 ans et pour laquelle nous n'avons
pas quelque chose comme une métaphysique canonique pour la théorie. Est-ce que les entités
fondamentales de la mécanique sont les particules ponctuelles ou les objets étendus ? Est-ce que la
théorie nous dit qu'il y a un espace pondérable absolu ou les positions sont-elles relatives aux autres
objets ? Bien sûr, une partie du problème est ici que la nature de la mécanique classique n'est pas
entièrement claire. Mais même si on fait le travail de reconstruction qui nous donnerait une théorie
formelle précise, on peut toujours fournir des interprétations métaphysiques alternatives. Cela peut
être vu comme un aspect d'un problème général d'indétermination : non seulement les théories
physiques sont typiquement indéterminées par l'évidence empirique mais les engagements
ontologiques sont typiquement indéterminés par les théories physiques qu'on adopte.

Si nos théories physiques sont en fait toujours sujettes à interprétation, alors on peut prendre le
débat sur l'ontologie propre de la théorie quantique relativiste des champs comme futile. Bien qu'il
y ait quelque chose de correct dans cette réaction, les considérations métaphysiques ont dans le
passé prouvé l'importance de comprendre et formuler clairement les théories physiques et nous
pourrions certainement utiliser toute la clarté que nous pouvons avoir en trouvant une formulation
satisfaisante de la théorique quantique relativiste des champs. Si on pouvait cuisiner une ontologie
satisfaisante pour une certaine formulation de la théorie quantique relativiste des champs, alors cela
signifierait que la formulation de la théorie pourrait être vue comme une description du monde
physique et dans le contexte de la théorie quantique relativiste des champs, cela serait quelque
chose de nouveau. Ce qui est requit ici n'est pas juste de montrer que la théorie particulière est
logiquement consistante en fournissant un modèle. Ce que nous désirons est de montrer que la
théorie pourrait décrire notre monde physique.
Une des propriétés de notre monde est que nous avons des enregistrements déterminés des mesures.
Nous effectuons des expériences, enregistrons les résultats, puis comparons ces résultats aux
prédictions de nos théories physiques. Les enregistrements des mesures ressortiraient alors quelque
peu dans l'ontologie que nous associons à notre meilleure théorie physique. En effet, sinon pour
l'existence de tels enregistrements, il serait difficile d'expliquer tout simplement la possibilité de la
science empirique.

Nous mentionnons cet aspect de notre monde car l'existence d'enregistrements déterminés est
quelque chose qu'il est difficile d'avoir en mécanique quantique non relativiste et plus difficile
encore en mécanique quantique relativiste. Le problème pour avoir des enregistrements déterminés
est le problème de la mesure quantique sur lequel nous reviendrons.

La métaphysique fait typiquement un travail réel dans les solutions au problème de la mesure
quantique en fournissant le matériel pour expliquer comment est-ce que nous avons des
enregistrements déterminés des mesures. Nous voyons cela dans des solutions au problème de la
mesure quantique en mécanique quantique non relativiste. Dans la théorie de Bohm c'est la position
toujours déterminée des particules qui fournit les enregistrements déterminés des mesures. Dans les
interprétations des mondes multiples, ce sont les faits déterminés dans le monde habité par un
observateur particulier qui détermine le contenu de ce que l'observateur enregistre.

Le point ici est juste qu'en mécanique quantique l'engagement métaphysique doit être sensible à
comment on résout le problème de la mesure. En effet, il nous semble qu'aucune métaphysique
pour la théorie quantique relativiste des champs ne peut être considérée comme satisfaisante si les
enregistrements déterminés des mesures ne ressortent pas dans la description du monde. Dit d'une
autre manière, on doit avoir une solution du problème de la mesure quantique avant d'espérer toute
interprétation spécifique de la théorie quantique relativiste des champs.
III.2.2. Le problème de la mesure
Le problème de la mesure est soulevé en mécanique quantique non relativiste quand on essaie
d'expliquer comment est-ce que nous avons des enregistrements définis des mesures. Si la
dynamique unitaire déterministe (l'équation de Schrödinger dépendant du temps en mécanique
quantique non relativiste) décrit toutes les interactions physiques, alors une mesure devrait
typiquement résulter en une superposition intriquée des résultats mutuellement contradictoires des
enregistrements des appareils de mesure. Si on a un bon appareil de mesure qui commence déjà à
faire une mesure, la dynamique linéaire prédit qu'on devrait typiquement terminer avec quelque
chose comme :

(1) ∑a i pi S
[ pi ] M

C'est un état où (le système mesuré S a la propriété p1 et l'appareil de mesure M enregistrant que le
système mesuré a la propriété p1 ) est superposé avec (le système mesuré S a la propriété p 2 et
l'appareil de mesure M enregistre que le système mesuré a la propriété p 2 ), etc. Et cela ne décrit
clairement pas l'appareil de mesure M comme enregistrant un enregistrement bien défini de mesure.

Ce problème d'indétermination est résolu dans la formulation standard de von Neumann - Dirac de
la mécanique quantique non relativiste en stipulant que l'état du système mesuré se réduit
aléatoirement en un état propre de l'observable mesuré quant on fait une mesure, où la probabilité
de réduction dans l'état p k S
[ pk ] M 2
est a k . C'est cette réduction de l'état qui génère un
enregistrement déterminé de la mesure ( p k S
[ pk ] M est un état où S a la propriété définie p k et
M un enregistrement déterminé que S a la propriété p k ). Mais il est notoirement connu difficile de
fournir une explication de quand et comment la réduction se produit qui ne semble pas ad hoc de
manière flagrante et il est même encore plus dur de fournir une explication qui est consistante avec
la relativité.

S'il n'y a pas de réduction de l'état quantique avec la mesure, alors on peut essayer d'ajouter quelque
chose à l'état quantique habituel qui représente les valeurs des enregistrements physiques bien
définis. Ces variables dites cachées détermineraient la valeur d'un enregistrement déterminé de
mesure même quand l'état quantique habituel représente une superposition intriquée
d'enregistrements incompatibles. Mais il est également peu clair comment décrire l'évolution de ces
composantes supplémentaires de l'état physique d'une manière qui est compatible avec la relativité.
Il y a beaucoup de littérature sur ce sujet qui tente de trouver une version de la théorie de Bohm qui
est compatible avec la relativité ou essayer d'expliquer pourquoi une stricte compatibilité entre les
deux théories n'est pas nécessaire.

C'est un dogme orthodoxe qu'il est seulement possible de réconcilier la mécanique quantique et la
relativité dans le contexte d'une théorie quantique des champs, où les entités fondamentales sont
des champs plutôt que des particules. C'est la position exprimée par exemple par Steven Weinberg
ou David Malament. Bien qu'il puisse y avoir d'autres raisons pour croire que nous avons besoin
d'une théorie des champs afin de réconcilier la mécanique quantique et la relativité (et nous en
considérerons certaines brièvement), la théorie quantique relativiste des champs ne fait rien pour
résoudre le problème de la mesure quantique et il est facile de voir pourquoi.

En théorie quantique des champs relativiste, on commence en adoptant une généralisation


relativiste appropriée de la dynamique unitaire. La dynamique relativiste décrit les relations qui
doivent exister entre les champs quantiques dans un voisinage de l'espace-temps. En connaissant
comment les états des champs sont reliés, on peut faire des prédictions statistiques concernant les
corrélations attendues entre les mesures effectuées sur différentes quantités du champ. Mais la
théorie quantique relativiste des champs ne fournit pas d'explication sur comment les
enregistrements déterminés des mesures peuvent être générés.

Le problème ici est analogue au problème qui se pose en mécanique quantique non relativiste. Si
les enregistrements déterminés des mesures sont supposés être représentés par les éléments d'un
certain ensemble de configurations orthogonales des champs, alors il n'y a typiquement pas
d'enregistrement déterminé des mesures puisque (étant donné la dynamique unitaire) l'état du
champ dans une région donnée de l'espace-temps sera typiquement une superposition intriquée des
différents éléments de l'ensemble orthogonal des configurations des champs. Une réduction
appropriée des champs générera une configuration locale déterminée des champs qui peut en retour
représenter un résultat déterminé des mesures, mais une telle évolution de l'état violerait la
dynamique relativiste unitaire. Et, comme cela est habituellement présenté, la théorie quantique
relativiste des champs n'a rien à dire sur les conditions sous laquelle une telle réduction peut se
produire ni sur comment une telle évolution peut être rendue compatible avec la relativité. On peut
essayer d'ajouter de nouveaux paramètres physiques qui représentent la valeur des enregistrements
déterminés des mesures à l'état habituel de la mécanique quantique. Mais la théorie quantique
relativiste des champs n'a rien à dire sur comment faire cela ou comment on peut alors donner une
dynamique compatible avec la relativité pour les nouveaux paramètres physiques. Le fait qu'on
puisse prédire les corrélations statistiques entre les résultats des mesures mais qu'on ne puisse pas
expliquer les résultats déterminés des mesures a conduit certains (Rovelli, Mermin, par exemple) à
en conclure que la théorie quantique relativiste des champs (et plus généralement la mécanique
quantique) prédit des corrélations statistiques sans qu'il y ait quelque chose qui est en fait
statistiquement corrélé - "les corrélations sans correla" L'objection naturelle est que toute les
notions étant des corrélations statistiques entre des enregistrements des mesures nécessite
probablement qu'il y ait des enregistrements déterminés des mesures.

Ainsi, la théorie quantique relativiste des champs ne fait rien pour résoudre le problème de la
mesure. En effet, à cause des contraintes relativistes supplémentaires, l'explication pour des
enregistrements déterminés des mesures est plus difficile que jamais.

Dans ce qui suit, nous expliquerons un autre sens dans lequel la métaphysique de la mécanique
quantique relativiste doit être sensible aux considérations des mesures et pourquoi nous sommes
loin d'avoir une explication claire des mesures en mécanique quantique relativiste.
III.2.3. Théorème de Malament
David Malament (1996) présenta sont théorème contre l'existence d'entités locales dans la défense
du dogme qu'une ontologie des champs (plutôt qu'une ontologie des particules) est appropriée pour
la mécanique quantique relativiste. Le théorème découle de quatre conditions apparemment faibles
que la plus part des physiciens s'attendraient à être satisfaites par la structure qu'on utiliserait pour
représenter l'état d'une seule particule en mécanique quantique relativiste. Si ces conditions sont
satisfaites, alors le théorème implique que la probabilité de trouver la particule dans toute région
spatiale fermée doit être zéro et cela viole probablement l'hypothèse qu'il y a la moindre particule
(détectable) Malament en conclut donc qu'une ontologie particule est inappropriée pour la
mécanique quantique relativiste.

Une version du théorème de Malament peut être prouvée qui s'applique aussi bien aux particules
ponctuelles qu'à des objets étendus. Nous décrirons cette version du théorème sans preuve. La
preuve de cette version du théorème est essentiellement la même que la preuve de Malament. La
seule différence est l'interprétation physique de P∆ . Le théorème de Malament se rattache au
lemme de Borchers. Le compte rendu du théorème ci-dessous et son interprétation physique suit
Malament avec quelques commentaires.

Soit M l'espace-temps de Minkowski et H un espace de Hilbert où un rayon dans H représente l'état


pur de l'objet S (un rayon pouvant être vu comme la direction d'un vecteur d'état, c'est-à-dire
l'ensemble des vecteurs d'états identiques à un facteur près, étant donnée la normalisation, cela
correspond à un seul état physique). Soit P∆ le projecteur sur H qui représente la proposition que
l'objet S serait détecté entièrement dans l'ensemble spatial ∆ si une expérience de détection était
effectuée. La mécanique quantique relativiste nécessite probablement de satisfaire au moins les
quatre conditions suivantes.

(1) Condition de covariance à la translation de la dynamique.

Pour tout vecteur a dans M et pour tout ensemble spatial ∆


P∆ + a = U (a )P∆U (− a )
où a → U (a ) est une représentation unitaire, uniformément continue dans H du groupe de
translation dans M et ∆ + a est l'ensemble qui résulte de la translation de delta par le vecteur a.

Cette condition stipule que la dynamique est représentée par une famille d'opérateurs unitaires.
Plus précisément, elle dit que le projecteur qui représente la proposition que l'objet sera détecté
dans une région spatiale ∆ + a peut être obtenu par une transformation unitaire qui dépend
seulement de a et du projecteur qui représente la proposition que l'objet soit détecté dans la
région ∆ . Notons que si cette condition est universellement satisfaite, alors il ne peut pas y
avoir de réduction de l'état quantique !
(2) Condition de l'énergie finie.

Pour tout vecteur de type temps vers le futur a dans M, si H (a ) est l'unique opérateur
hermitique satisfaisant
U (t , a ) = exp{− itH (a )}
alors le spectre de H (a ) est borné inférieurement.

H (a ) est l'hamiltonien du système S. Il représente la propriété énergie du système et détermine


la dynamique unitaire (par la relation ci-dessus). Supposer que le spectre de l'hamiltonien est
borné inférieurement revient à supposer que S a un état de base (d'énergie) fini.
(3) Condition de localisation par hyperplan.

Si ∆ 1 et ∆ 2 sont des ensembles spatiaux disjoints dans le même hyperplan, alors les deux
opérateurs de localisation dans ces ensembles commutent et
P∆1 P∆ 2 = P∆ 2 P∆1 = 0̂
où 0̂ est l'opérateur zéro sur H.

Cette condition est supposée capturer l'intuition qu'un seul objet ne peut pas être entièrement
dans deux régions distinctes en même temps (relativement à tout repère inertiel). Cela est
probablement la partie de ce qui voudrait dire qu'il y a juste un objet spatialement étendu.
(4) Condition de localisation générale.

Si ∆ 1 et ∆ 2 sont deux ensembles spatiaux disjoints qui sont reliés spatialement (peut-être pas
dans le même hyperplan !) alors les deux opérateurs de localisation dans ces ensembles
commutent
P∆1 P∆ 2 = P∆ 2 P∆1

La relativité avec ce que cela signifie être un objet nécessite probablement que si un objet est
détecté entièrement dans une région spatiale, alors, puisqu'un objet ne peut pas voyager plus vite
que la lumière, il ne peut pas aussi être détecté être entièrement dans une région disjointe reliée
spatialement dans tout repère inertiel. Si cela est correct, alors on s'attend à ce que ce qui suit soit
valable.

(*) Condition d'un objet relativiste.

Pour toutes régions spatiales reliées spatialement ∆ 1 et ∆ 2 (pas seulement deux dans le
même hyperplan)
P∆1 P∆ 2 = P∆ 2 P∆1 = 0̂

La condition (*) est beaucoup plus forte que la conjonction des conditions (3) et (4). L'idée derrière
la condition (4) est que même s'il était possible de détecter S entièrement dans deux régions
spatiales distinctes séparées spatialement et si la condition (3) était encore satisfaire (car les deux
détecteurs sont dans des repères inertiels différents et par conséquent ∆ 1 et ∆ 2 ne sont pas dans le
même hyperplan), alors la probabilité de détecter l'objet entièrement dans ∆ 1 sera au moins
statistiquement indépendante de la probabilité de le détecter entièrement dans ∆ 2 . C'est-à-dire
qu'en prouvant le théorème pour les conditions (3) et (4) plutôt que la condition strictement plus
forte (mais très plausible) (*) on autorise la possibilité que la détection de la particule dans une
région particulière de l'espace-temps puisse être dépendante de l'hyperplan. Bien que cela soit
certainement quelque chose que Malament désirait autoriser (car il répondait à la formulation
dépendante de l'hyperplan de Fleming de la mécanique quantique), ce n'est probablement pas une
possibilité qui inquiéterait la plus part des physiciens. Si c'est vrai, alors on peut parfaitement
remplacer les conditions (3) et (4) par la condition (*).

Le théorème est que si les conditions (1) à (4) sont satisfaites (ou les conditions (1), (2) et (*)),
alors P∆ = 0̂ pour tout ensemble spatial fermé ∆ . Cela signifie que les seuls objets étendus
possibles (ou, peut-être mieux, les seuls objets étendus détectables possibles) sont ceux avec une
extension infinie. Et cette conclusion est prise en faveur d'une ontologie des champs. Elle peut aussi
avoir de curieuses implications pour la nature de l'enregistrement des mesures en mécanique
quantique relativiste. Ou peut-être qu'avoir des enregistrements déterminés des mesures en
mécanique quantique relativiste nécessite de violer une ou plusieurs de ces quatre conditions qui
rendent le théorème possible.
III.2.4. Enregistrement des mesures
Dans le sens le plus large, une bonne mesure consiste à corréler l'état d'un enregistrement avec la
propriété qui est mesurée. Le but est de produire une détection fiable et un enregistrement stable.
Cela peut être fait en terme de marqueurs d'encre sur du papier, la position finale de l'aiguille sur un
dispositif de mesure, l'état biochimique du cerveau d'un observateur ou l'arrangement des
mégalithes sur la plaine de Salisbury, mais quel que soit le médium, les enregistrements utiles des
mesures doivent être détectables (tel qu'on peut connaître la valeur de l'enregistrement), fiables (tel
qu'on peut correctement en déduire la valeur de la propriété physique que l'on désire mesurer) et
stables (tel qu'on peut faire des déductions fiables concernant l'état physique à différents moments).
De tels enregistrements de mesures fournissent l'évidence sur laquelle la science empirique est
fondée.

Considérons l'expérience simple suivante où nous testons notre habilité à frapper avec une main.
Cette expérience implique, comme pour tout, une mesure.

Le temps que cela nous prend pour taper cette phrase à une main (car nous tenons un chronomètre
dans l'autre main) jusqu'aux deux-points suivant : 41.29 secondes.

Nous sommes en effet un lent dactylographe, mais ce n'est pas la question. L'important est que nous
avons mesuré puis enregistré combien de temps cela nous a pris pour taper le fragment de phrase
ci-dessus à une main, et comme nous avons un enregistrement témoin déterminé, détectable, fiable
et stable, nous savons combien de temps cela nous prend pour taper le fragment de phrase et vous
aussi si vous avez interagit avec l'enregistrement témoin de mesure ci-dessus d'une manière
appropriée.

En mettant de coté la question de ce que peut signifier exactement un enregistrement de mesure


fiable et stable, considérons la condition de détectabilité. Pour qu'un enregistrement témoin soit
détectable, il doit probablement être une sorte de chose qu'on peut trouver. Et afin d'être la sorte de
chose qu'on peut trouver, la présence ou l'absence de l'enregistrement témoin détectable R doit
probablement être quelque chose qui peut être représenté en mécanique quantique comme un
projecteur sur une région spatiale finie. C'est-à-dire qu'il doit y avoir un projecteur P∆ qui
représente la proposition qu'il y a un enregistrement R dans la région ∆ . C'est apparemment juste
une partie de ce que cela signifie pour un enregistrement d'être détectable en mécanique quantique
relativiste.

Considérons maintenant l'enregistrement témoin de vitesse de frappe ci-dessus. Il est détectable.


Non seulement vous pouvez le trouver et le lire mais vous pouvez le trouver et le lire en un temps
fini. Si nous écartons les effets supraluminiques, alors il semble que l'enregistrement témoin détecté
doive occuper une région spatiale finie. Etant donné la manière dont ces observables sont
représentés en mécanique quantique relativiste, cela signifie qu'il doit y avoir un projecteur RS qui
représente la proposition qu'il y a un témoin de l'enregistrement 41,29 secondes dans la région S.

Le problème avec cela est que le théorème de Malament nous dit qu'il ne peut y avoir un tel
opérateur de détection de l'enregistrement. Plus spécifiquement, il nous dit que R∆ = 0̂ pour tout
ensemble fermé ∆ , ce qui signifie que la probabilité de trouver l'enregistrement témoin dans la
zone spatiale S est zéro. En effet, la probabilité de trouver l'enregistrement témoin (ci-dessus !?)
quelque part est zéro. Mais comment cela peut être s'il n'y a pas d'enregistrement témoin du tout ?
Et s'il n'y a pas d'enregistrement témoin détectable, alors comment pouvez-vous et moi savoir le
résultat de ma mesure de vitesse de frappe comme nous l'avons probablement fait ?

Une réaction naturelle serait de rejeter l'hypothèse qu'un enregistrement témoin détectable est une
entité détectable qui occupe une région spatiale finie et insister pour qu'en mécanique quantique
relativiste des champs on devrait s'attendre à ce que tout enregistrement témoin déterminé soit
représenté par la configuration déterminée d'un certain champ non borné. Remercions Rob Clifton
pour sa défense de cette ligne d'argument éminemment raisonnable. Après tout, cela est
probablement de cette manière que les enregistrements devraient être représentés dans toute théorie
des champs. Un enregistrement déterminé de mesure ne pourrait-il pas être représenté, disons, dans
la configuration locale d'un champ non borné ? Bien sûr, mais il y a quelques problèmes que l'on
devrait encore résoudre afin d'avoir une explication satisfaisante des enregistrements déterminés de
mesure.

Un problème, bien sûr, est l'ancien. Etant donné la dynamique unitaire et l'interprétation standard
des états, la mécanique quantique relativiste des champs ne prédirait pas typiquement une
configuration locale déterminée des champs dans une région spatio-temporelle. Mais mettons le
problème traditionnel de la mesure de coté pour le moment et supposons que nous puissions
concocter une certaine formulation de la théorie où on a typiquement des configurations
déterminées locales des champs à la fin de la mesure.

Si on pouvait avoir d'une certaine manière des configurations déterminées locales des champs qui
sont corrélés de manière appropriée, alors on pourrait expliquer comment il est possible pour nous
de connaître notre vitesse de frappe en stipulant que notre état mental correspond à la valeur
déterminée d'une certaine quantité du champ dans une certaine région spatiale déterminée qui, en
retour, est fiablement corrélée avec notre vitesse de frappe. Ainsi, non seulement il est possible
pour une configuration locale des champs de représenter un résultat déterminé de mesure mais on
peut expliquer comment il est possible pour un observateur de connaître la valeur de
l'enregistrement en stipulant une relation appropriée entre les états mentaux et physiques. Que
pourrait-on désirer de plus ?

Il nous semble qu'on pourrait ultimement désirer expliquer comment notre mesure réelle peut
conduire à des enregistrements déterminés. Mais pour faire cela, on a besoin d'une explication de
l'enregistrement de mesure qui donne un sens aux expériences que nous effectuons en fait et le
problème est que nos enregistrements semblent être des choses spatio-temporelles. Ils semblent être
la sorte de chose qui ont une localisation. La sorte de chose qu'on peut trouver, perdre et déplacer
d'une place à l'autre. En effet, nous utilisons leurs propriétés spatio-temporelles pour individualiser
nos enregistrements. Afin de savoir à quelle vitesse nous tapons la phrase, nous devons être
capables de trouver le bon enregistrement et cela implique (apparemment) de le rechercher à la
bonne place. Il semble que lorsque nous savons où sont nos enregistrements, et cela est bien car,
étant donné la manière dont nous individualisons nos enregistrements, on doit savoir où est un
enregistrement afin de le lire et de savoir ce qu'on lit ! C'est juste un point sur notre pratique
expérimentale et nos conventions.

Ainsi il semble que nos enregistrements réels sont en fait détectables dans une région spatio-
temporelle particulière. Mais si c'est vrai, alors il doit y avoir des opérateurs de "détection d'un
enregistrement à un endroit" R∆ qui représentent la proposition qu'il y a un enregistrement dans la
région ∆ . Et s'ils sont sujet au théorème de Malament, alors nous avons une énigme : ils ne peuvent
apparemment pas être des enregistrements détectables du type que nous considérons avoir.

Cela est particulièrement énigmatique quand on considère le type d'enregistrement qu'est supposé
fournir le support de la théorie quantique relativiste des champs elle-même. Ces enregistrements
sont supposés inclure des choses telle que des photographies de trajectoires des particules
fondamentales, mais s'il n'y a pas d'entités spatio-temporelles détectables alors comment pourrait-il
y avoir un enregistrement photographique des trajectoires avec une forme détectable ? La forme de
la trajectoire est supposée représenter l'évidence empirique que l'on a, mais il semble, au moins au
premier abord, qu'il ne peut pas y avoir d'entité détectable qui ont des formes déterminées étant
donné le théorème de Malament.

Bien que le théorème de Malament n'interdise pas à une entité d'avoir une position déterminée, il
semble interdire quelque chose d'avoir une position détectable. Mais les positions détectables sont
justement ce que nos enregistrements ont apparemment : ils sont typiquement individualisés par la
position, ainsi on doit être capable de trouver un enregistrement à une position pour le lire et savoir
ce qu'on lit et, étant donné nos pratiques et conventions, les enregistrements eux-mêmes sont
typiquement supposés être fait en termes de position ou de forme détectable de quelque chose.

On peut affirmer qu'on n'a pas besoin de savoir où est l'enregistrement afin d'obtenir les
corrélations appropriées afin de lire l'enregistrement ou qu'on peut savoir où est l'enregistrement et
donc obtenir les corrélations appropriées pour lire l'enregistrement sans que la position de
l'enregistrement lui-même soit détectable. Et bien qu'on puisse facilement voir comment chacune
de ces lignes d'argument marcherait, il nous semble que c'est notre pratique réelle qui rend
ultimement de tels arguments non plausibles. Si nous oublions qu'elle était notre vitesse de frappe,
alors nous avons besoin de trouver un enregistrement stable fiable et étant donné la manière dont
nous l'avons enregistré et la manière dont nous individualisons nos enregistrements, afin d'en
trouver un nous devons faire une série d'observations de détection de position : c'est seulement si
nous pouvons trouver où l'enregistrement témoin est que nous pouvons alors déterminer ce qu'il est.

La situation est rendue encore plus énigmatique par le fait que nous utilisons aussi pour traiter les
observateurs eux-mêmes comme des entités localisables afin d'avoir des prédictions empiriques
spécifiques de nos théories physiques. Considérons, par exemple, Galilée comparant le mouvement
des planètes avec les prédictions théoriques. Que lui, l'observateur, a une position relative
spécifiable est nécessaire pour que la théorie fasse des prédictions empiriques et sans comparer de
telles prédictions à ce qu'il voit réellement, il ne serait jamais capable de juger des mérites
empiriques de la théorie. La localisation qu'occupe un observateur fournit à l'observateur la
perspective spatio-temporelle que nous utilisons pour expliquer pourquoi le monde apparaît de la
manière qu'il le fait à cet observateur et pas de la manière qu'il peut le faire à un autre. Nous
utilisons aussi le fait qu'un observateur occupe une localisation pour expliquer pourquoi sa
connaissance empirique a des contraintes spatio-temporelles. Si nous sommes représentés dans la
configuration d'un champ relativiste non borné, alors pourquoi est-ce nous ne connaissons pas ce
qui se passe actuellement autour d'alpha de centaure (dans notre repère inertiel - quoi qu'il puisse
être si nous n'avons pas une position totalement déterminée) ? Après tout, sur cette représentation
de nous, nous serions là maintenant. Ou, pour cette raison, pourquoi ne saurions-nous pas ce qui se
passera ici dans deux minutes ?

Si les objets spatio-temporels détectables sont incompatibles avec la mécanique quantique


relativiste, alors le défi est d'expliquer pourquoi il semble que nous et les objets physiques dont
nous avons l'accès épistémique le plus direct (nos enregistrements de mesure), sont juste de tels
objets. Notons que le problème d'expliquer comment nous aurions l'enregistrement que nous avons
sans qu'il y ait des objets spatio-temporels détectables est plus basique que le problème d'expliquer
pourquoi il y a des particules détectables ou d'autres objets étendus puisque la seule manière que
nous connaissions des autres objets spatio-temporels est via nos enregistrements de ces objets (en
termes de taches de pigments photographiques ou de figures de neurones déclenchés sur notre
rétine, etc.). Pour autant que nous puissions dire, il est possible que tous les observateurs et leurs
enregistrements soient quelque chose de représenté dans la configuration des champs; il est juste
peu clair comment faire, trouver et lire de tels enregistrements est supposer marcher en théorie
quantique relativiste des champs. Peut-être qu'on pourrait affirmer que les observateurs et leurs
enregistrements ont seulement des positions approchées et que c'est suffisant pour nous les
individualiser (et donner un sens à ce que veut dire pour la théorie d'être empiriquement adéquate
pour un observateur donné) puis affirmer qu'il n'y a rien d'analogue au théorème de Malament en
mécanique quantique relativiste qui empêche d'avoir des entités détectables qui ont seulement des
positions approximativement déterminées. Notre discours standard d'objets localisés détectables
peut alors être traduit en physique de tels objets quasi détectables et quasi localisés. Mais cela
nécessiterait une certaine explication prudente.

Mais il se pourrait bien qu'aucune de ces possibilités ne soit valide après tout. Le problème réel,
celui dont la solution des autres doit dépendre est celui que nous avons mit de coté au début de
cette section.

Bien que les théorèmes comme celui de Malament puissent être pertinents pour la morale
métaphysique qu'on devrait tirer de la mécanique quantique relativiste, que de tels théorèmes soient
valables ou pas est en soit contingent de comment résoudre le problème de la mesure quantique.
Une formulation avec réduction de la mécanique quantique, par exemple, violerait typiquement la
première condition : la condition de covariance par translation de la dynamique est une hypothèse
concernant comment les états physiques dans différentes régions de l'espace-temps sont reliés et
cela est incompatible avec la réduction de l'état quantique avec la mesure. Mais si nous pouvons
devoir violer l'hypothèse apparemment faible et évidente qui est utilisée pour prouver le théorème
de Malament afin d'avoir une solution satisfaisante du problème de la mesure, alors tous les paris
sont annulés concernant l'applicabilité du théorème des entités détectables qui habitent notre
monde. La possibilité de devoir violer une telle condition peut être prise pour illustrer combien il
est difficile de résoudre le problème de la mesure et satisfaire les contraintes relativistes.

Le résultat est que nous sommes très clairement revenus d'où nous sommes partis : on ne peut pas
espérer une conclusion métaphysique spécifique en théorie quantique relativiste des champs sans
une solution au problème de la mesure quantique et nous avons toutes les raisons de supposer que
les contraintes imposées par la relativité rendront plus difficile que jamais de trouver une solution
satisfaisante.
III.2.5. Conclusions
Une résolution adéquate du problème de la mesure quantique expliquerait comment il se fait que
nous avons des enregistrements déterminés de mesure. Il a été prouvé difficile de trouver une
résolution satisfaisante au problème de la mesure dans le contexte de la mécanique quantique non
relativiste et la mécanique quantique relativiste ne fait rien pour rendre la tâche plus facile. En effet,
les contraintes imposées par la relativité rendent encore plus difficile comment terminer avec des
enregistrements physiques déterminés, détectables.

Puisqu'un engagement ontologique fait typiquement le travail dans les résolutions proposées au
problème de la mesure quantique en mécanique quantique non relativiste, il serait erroné de croire
arriver à des conclusions concernant l'ontologie correcte de la théorie quantique relativiste des
champs sans une résolution particulière du problème de la mesure à l'esprit. Ce point est rendu clair
par le fait qu'on ne peut même pas savoir si les théorèmes négatifs des entités dites locales sont
pertinent pour la théorie si on ne sait pas quoi faire du problème de la mesure quantique.
IV. Logique quantique
Dans son cœur, la mécanique quantique peut être vue comme un calcul de probabilité non classique
reposant sur une logique des propositions non classique. Plus spécifiquement, en mécanique
quantique, chaque proposition, portant une probabilité, de la forme "la valeur de la quantité
physique A est dans le domaine B" est représentée par un opérateur projection sur un espace de
Hilbert H. Cela forme un réseau orthocomplémenté booléen, en particulier, non distributif. Les
états de la mécanique quantique correspondent exactement aux mesures de probabilité (définies de
manière appropriée) sur ce réseau.

Qu'allons nous faire de cela ? Certains ont affirmé que le succès empirique de la mécanique
quantique nous appelle à une révolution de la logique elle-même. Ce point de vue est associé avec
la demande d'une interprétation réaliste de la mécanique quantique, c'est-à-dire une interprétation
non fondée sur toute notion primitive de mesure. Contre cela, il y a une longue tradition
d'interprétation opérationnelle de la mécanique quantique, c'est-à-dire comme étant précisément
une théorie de la mesure. Selon ce dernier point de vue, il n'est pas surprenant qu'une "logique" des
résultats des mesures, dans un système où toutes les mesures ne sont pas compatibles, puisse être
prouvée non booléenne. En réalité, le mystère est pourquoi doit-elle avoir la structure non
booléenne particulière qu'elle a en mécanique quantique ? Une littérature substantielle a grandit
autour du programme de donner une certaine motivation indépendante pour cette structure,
idéalement, en la dérivant d'axiomes plus primitifs et plausibles gouvernant une théorie des
probabilités généralisée.
IV.1. La mécanique quantique comme un calcul des probabilités
Il est indubitable (bien que remarquable) que l'appareil formel de la mécanique quantique se réduit
proprement à une généralisation des probabilités classiques dans laquelle le rôle joué par l'algèbre
booléenne d'événements dans cette dernière est remplacé par la "logique quantique" des opérateurs
projections sur un espace de Hilbert. De plus, l'interprétation statistique habituelle de la mécanique
quantique nous demande assez littéralement cette théorie des probabilités quantiques généralisée -
c'est-à-dire pas simplement comme un analogue formel de sa contrepartie classique mais comme
une doctrine véritable des chances. Ici, nous examinerons cette théorie des probabilités quantiques
et sa logique quantique de support.

Pour une plus grande connaissance sur les ensembles ordonnés et les réseaux, nous renvoyons à la
section IV.8 ou nous donnons un complément mathématique nécessaire à leur compréhension. Les
espaces de Hilbert sont supposés connus. Les concepts et résultats expliqués dans cette section
seront utilisés librement dans ce qui suit.

Les probabilités quantiques en bref


Le formalisme probabiliste quantique, développé par von Neumann [1932], suppose que chaque
système physique est associé à un espace de Hilbert (séparable) H dont les vecteurs unités
correspondent aux états physiques possibles du système. Chaque quantité aléatoire à valeurs réelles
"observable" est représentée par un opérateur hermitique A sur H dont le spectre est l'ensemble des
valeurs possibles de A. Si u est un vecteur unité dans le domaine de A, représentant un état, alors la
valeur moyenne de l'observable représenté par A dans cet état est donnée par le produit scalaire
Au, u . Les observables représentés par deux opérateurs A et B sont commensurables si et
seulement si A et B commutent, c'est-à-dire si AB = BA .

La "logique" des projecteurs


Comme mis en évidence par von Neumann, les observables à valeur [0,1] peuvent être vus comme
encodant des propositions sur l'état du système ou, pour utiliser ses mots, les propriétés du système.
Il n'est pas difficile de montrer qu'un opérateur hermitique P avec le spectre contenu dans
l'ensemble à deux éléments [0,1] doit être un projecteur; c'est-à-dire que P 2 = P . De tels
opérateurs sont en correspondance bijective avec les sous-espaces fermés de H. En effet, si P est un
projecteur, son domaine est fermé et tout sous-espace fermé est le domaine d'un projecteur unique.
2
Si u est un vecteur unité, alors Pu, u = Pu est la valeur moyenne de l'observable correspondant
dans l'état représenté par u. Puisque ce résultat est évalué [0,1], nous pouvons interpréter cela
comme la probabilité qu'une mesure de l'observable produise la réponse "affirmative" 1. En
particulier, la réponse affirmative aura la probabilité 1 si et seulement si Pu = u , c'est-à-dire que u
est dans le domaine de P. Von Neumann en conclu que :

...la relation entre les propriétés d'un système physique d'un coté et les projecteurs de l'autre,
rendent possible une sorte de calcul logique avec eux. Cependant, par contraste avec les concepts
de la logique ordinaire, ce système est étendu par le concept de "décidabilité simultanée" qui est
caractéristique de la mécanique quantique.
[1932, p.253].

Examinons ce "calcul logique" des projecteurs. Ordonné par l'inclusion des ensembles, les sous-
espaces fermés de H forment un réseau complet dans lequel la conjonction (la plus grande borne
supérieure) d'un ensemble de sous-espaces est leur intersection tandis que leur disjonction (la plus
petite borne supérieure) est l'espace généré par leur union. Puisqu'un sous-espace fermé typique a
une infinité de sous-espaces fermés complémentaires, ce réseau n'est pas distributif; cependant, il
est orthocomplémenté par l'application
(1) M → M ⊥ = {v ∈ H | ∀uM ( v, u = 0)}

Notons que : conjonction = "ET", disjonction = "OU", orthocomplément = "NON".

En vue de la bijection mentionnée ci-dessus entre les espaces fermés et les projecteurs, nous
pouvons imposer sur l'ensemble L(H ) la structure d'un réseau complet orthocomplémenté en
définissant P ≤ Q , où ran(P ) ⊆ ran(Q ) et P ′ = 1 − P (tel que ran(P ′) = ran(P ) ). Il est immédiat

que P ≤ Q juste dans le cas PQ = QP = P . Plus généralement, si PQ = QP , alors PQ = P ∧ Q , la


conjonction de P et Q dans L(H ) , et dans ce cas leur disjonction est donnée par
P ∨ Q = P + Q − PQ .
1.1 Lemme :
Soit P et Q les opérateurs projections sur l'espace de Hilbert H. Les points suivants sont équivalents
:
a. PQ = QP .
b. Le sous réseau de L(H ) généré par P, Q, P' et Q' est booléen.
c. P, Q appartiennent à un sous-orthoréseau booléen commun de L(H ) .

En adhérant à l'idée que les observables commutant, en particulier les projecteurs, sont
simultanément mesurables, nous en concluons que les membres de "blocs" booléens (c'est-à-dire un
sous-orthoréseau booléen) de L(H ) sont simultanément testables. Cela suggère que nous pouvons
maintenir une interprétation logique classique de leur conjonction, disjonction et orthocomplément
appliqués aux projecteurs commutants.

Mesures de probabilité et théorème de Gleason


La discussion précédente motive la suite. Appelons les projecteurs P et Q orthogonaux et écrivons
P⊥Q si et seulement si P ≤ Q ′ . Notons que P⊥Q si et seulement si PQ = QP = 0 . Si P et Q sont
des projecteurs orthogonaux, alors leur disjonction est simplement leur somme. Traditionnellement
cela est noté P+Q. Nous notons l'application identité sur H par 1.

1.2 Définition
Une mesure de probabilité (dénombrablement additive) sur L(H ) est une application µ : L → [0,1]
telle que µ (1) = 1 et pour toute séquence de paires de projecteurs orthogonaux Pi , i = 1, 2,...
µ (⊕ i Pi ) = ∑ µ (Pi ) .
i

Voici une manière avec laquelle nous pouvons construire une mesure de probabilité sur L(H ) . Soit
u un vecteur unité de H et posons µ u (P ) = Pu, u . Cela donne la recette habituelle de la
mécanique quantique pour la probabilité que P aie la valeur 1 dans l'état u. Notez que nous pouvons
aussi exprimer µ u comme µ u (P ) = Tr (PPu ) où Pu est le projecteur à une dimension associé au
vecteur unité u.

Plus généralement, si µ i , i = 1, 2, ... sont des mesures de probabilité sur L(H ) , alors également
toute "mixture" ou combinaison convexe µ = ∑ t i µ i où 0 ≤ t i ≤ 1 et ∑t i = 1 . Etant donné une
i i

séquence u1 , u 2 ,... de vecteurs unités, posons µ i = µ ui et Pi = Pui . En formant l'opérateur


W = t1 P1 + t 2 P2 + L on voit que µ (P ) = t1 Tr (PP1 ) + t 2 Tr (PP2 ) + L = t1 Tr (WP ) .

Un opérateur qu'on peut exprimer de cette manière comme une combinaison convexe de
projecteurs à une dimension est appelé un opérateur densité. Donc, tout opérateur densité W
conduit à une mesure de probabilité additive sur L(H ) . Le strict inverse suivant dû à A. Gleason
[1957] montre que la théorie des mesures de probabilité sur L(H ) est co-extensive avec la théorie
des états (mixtes) de la mécanique quantique sur H :

1.3.Théorème de Gleason
Soit H de dimension supérieure à 2. Alors toute mesure de probabilité additive sur L(H ) a la forme
µ (P ) = Tr (WP ) pour un opérateur densité sur H.

Une conséquence importante du théorème de Gleason est que L(H ) n'admet pas de mesure de
probabilité ayant seulement les valeurs 0 et 1. Pour le voir, notons que pour tout opérateur densité
W, l'application u → W , u est continue sur la sphère unité de H. Mais puisque cette dernière est
connexe, aucune fonction continue de peut prendre seulement les valeurs 0 et 1. Ce résultat est
parfois utilisé pour exclure la possibilité des "variables cachées", comme nous l'avons vu.

La reconstruction de la mécanique quantique


A partir du simple prémisse que les "propositions expérimentales" associée à un système physique
sont encodées par les projecteurs de la manière indiquée ci-dessus, on peut reconstruire le reste de
l'appareil formel de la mécanique quantique. La première étape est, bien sûr, le théorème de
Gleason qui nous dit que les mesures de probabilité sur L(H ) correspondent à des opérateurs
densité. Il reste à retrouver, par exemple, la représentation des "observables" par des opérateurs
hermitiques et la dynamique (l'évolution unitaire). La première peut être retrouvée avec l'aide du
théorème spectral et la dernière avec l'aide d'un profond théorème de E. Wigner sur la
représentation projective des groupes. Voir aussi R. Wright [1980]. Une esquisse détaillée de cette
reconstruction (qui implique quelques mathématiques manifestement non triviales) peut être
trouvée dans le livre de Varadarajan [1985]. Le point à garder à l'esprit est que, une fois que le
squelette L(H ) de la logique quantique est en place, le reste de l'appareil statistique et dynamique
de la mécanique quantique est essentiellement fixé. Dans ce sens, alors, la mécanique quantique ou,
en tout cas, son cadre mathématique se réduit à la logique quantique et sa théorie des probabilités
attenante.
IV.2. Interprétations de la logique quantique
La réduction de la mécanique quantique à la théorie des probabilités basée sur L(H ) est
mathématiquement attirante mais que nous dit-elle sur la mécanique quantique ou, en supposant
que la mécanique quantique soit une théorie physique correcte et complète, sur le monde ?
Comment, en d'autres mots, pouvons-nous interpréter la logique quantique L(H ) ? La réponse
s'avère être comment débobiner la phrase, librement utilisée ci-dessus,

(*) La valeur de l'observable A est dans le domaine B

Une lecture possible de (*) est opérationnelle : "la mesure de l'observable A conduirait (ou conduira
ou a conduit) à une valeur dans l'ensemble B". De ce point de vue, les projecteurs représentent des
affirmations sur les résultats possibles des mesures. Cela s'accorde assez mal avec le réalisme de
certains qui, esquivant la référence à la "mesure", préfèrent comprendre (*) comme une attribution
de propriété : "le système a une certaine propriété catégorie qui correspond à l'observable A ayant,
indépendamment de toute mesure, une valeur dans l'ensemble B". On doit cependant être prudent
sur la manière de comprendre cette dernière phrase : interprétée sans précaution, elle semble poser
une interprétation à variables cachées de la mécanique quantique du type exclu par le théorème de
Gleason.

Logique quantique réaliste


L'interprétation des opérateurs de projection comme représentant les propriétés d'un système
physique est déjà explicite dans la Grundlagen de von Neumann. Cependant, les opérations
logiques discutées dedans s'appliquent seulement aux projecteurs commutant qui sont identifiés
avec des propositions simultanément décidables. En [1936] von Neumann et Birkhoff firent un pas
plus loin en proposant d'interpréter les rencontres et disjonctions de la théorie des réseaux des
projecteurs comme leur conjonction et disjonction qu'ils commutent ou pas. Cette proposition fait
immédiatement face au problème que le réseau L(H ) n'est pas distributif, rendant impossible de
donner à ces connecteurs "quantiques" une interprétation de vérité fonctionnelle. Intrépides, von
Neumann et Birkhoff suggérèrent que le succès empirique de la mécanique quantique comme cadre
de la physique mettait en doute la validité universelle de la loi distributive de la logique des
propositions. Leurs propos restent prudents :

Tandis que les logiciens ont habituellement supposé ces propriétés... de négation où les
dernier capables de résister à une analyse critique, l'étude de la mécanique indique les
identités distributives... comme le lien le plus faible de l'algèbre de la logique.
[1937, P.839]

Dans les années 60 et au début des années 70, cette thèse fut avancée plus agressivement par
certains auteurs incluant particulièrement David Finkelstein et Hilary Putnam qui ont affirmé que la
mécanique quantique nécessite une révolution de notre compréhension de la logique, de fait. Selon
Putnam [1968], "la logique est aussi empirique que la géométrie... Nous vivons dans un monde
avec une logique non classique."

Pour Putnam, les éléments de L(H ) représentent les propriétés catégories qu'un objet possède ou
non indépendamment de si nous le regardons ou pas. D'autant plus que cette image des propriétés
physiques est confirmée par le succès empirique de la mécanique quantique, nous devons, selon
cette vue, accepter que la manière avec laquelle les propriétés physiques s'unissent n'est pas
booléenne. Puisque la logique est, pour Putnam, essentiellement l'étude de comment les propriétés
physiques s'unissent, il en conclut que la logique classique est simplement erronée : la loi
distributive n'est pas universellement valide.

Classiquement, si S est l'ensemble des états d'un système physique, alors tout sous-ensemble de S
correspond à une propriété catégorie du système et vice versa. En mécanique quantique, l'espace
d'état est la sphère unité (projective) S = S (H ) d'un espace de Hilbert. Cependant, tous les sous-
ensembles de S ne correspondent pas à des propriétés de la mécanique quantique du système. Ces
dernières correspondent seulement aux sous-ensembles de la forme particulière S ∩ M pour M un
sous-espace linéaire fermé de H. En particulier, seuls les sous-ensembles de cette forme ont des
probabilités attribuées. Cela nous laisse deux positions. Une est de prendre seulement ces propriétés
particulières comme "réelles" (ou "physique" ou "significatives") en voyant les sous-ensembles
plus généraux de S comme ne correspondant pas du tout à des propriétés catégories réelles. L'autre
est de voir les propriétés "quantiques" comme un petit sous-ensemble de l'ensemble de toutes les
propriétés raisonnables physiques (ou tout au moins métaphysiques) mais pas nécessairement
observables du système. Selon cette dernière vue, l'ensemble de toutes les propriétés d'un système
physique est entièrement classique dans sa structure logique mais nous déclinons d'attribuer des
probabilités aux propriétés non observables.

La seconde position bien que certainement non inconsistante avec le réalisme fait une distinction
impliquant une notion "d'observation", de "mesure", de "test" ou quelque chose de cette sorte, une
notion que les réalistes ont souvent de la peine à éviter en relation avec la théorie physique
fondamentale. Bien sûr, toute description réaliste d'une théorie physique statistique telle que la
mécanique quantique devra finir par donner certaines explications de comment les mesures sont
supposées se passer. C'est-à-dire qu'elle donnera une description de quelles interactions physiques
entre "objets" et "sondes" sont des mesures et comment ces interactions provoquent l'évolution de
la sonde dans un "état de résultat" final qui correspond à, et a les mêmes probabilités, que les
résultats prédits par la théorie. C'est le célèbre problème de la mesure.

En fait, Putnam avança sa version du réalisme logique quantique comme offrant une dissolution
(radicale) du problème de la mesure : selon Putnam, le problème de la mesure (et en effet tout autre
"paradoxe" de la mécanique quantique) vient d'une application impropre de la loi distributive et
donc disparaît une fois que cela est reconnu. Cette proposition, cependant, est largement considérée
comme erronée.

Comme mentionné ci-dessus, les interprétations réalistes de la mécanique quantique doivent être
prudentes sur comment comprendre la phrase "l'observable A a une valeur dans l'ensemble B". La
proposition la plus simple et la plus traditionnelle, souvent traduite "le lien état propre - valeur
propre" (Fine, 1973), est que (*) est valable si et seulement si une mesure de A donne une valeur
dans l'ensemble B avec certitude, c'est-à-dire avec une probabilité (quantique !) 1. Bien que cette
certitude donne une interprétation réaliste de (*), elle ne fournit pas une solution au problème de la
mesure. En effet, nous pouvons l'utiliser pour donner une formulation précise de ce problème :
même si A conduit avec certitude à une valeur dans B quand elle est mesurée, à moins que l'état
quantique soit un état propre de l'observable A mesuré, le système ne possède aucune propriété
catégorie correspondant à une valeur spécifique de A dans l'ensemble B. Putnam semble supposer
qu'une interprétation réaliste de (*) consisterait à assigner à A une certaine valeur inconnue dans B
pour laquelle la mécanique quantique conduit à une probabilité non triviale. Cependant, une
tentative pour faire de telles assignations simultanément pour tous les observables est écartée par le
théorème de Gleason.

Logique quantique opérationnelle


Si nous mettons de coté nos scrupules sur la "mesure" comme un terme primitif en physique
théorique et si nous acceptons une distinction de principe entre propriétés "testables" et non
testables, alors le fait que L(H ) n'est pas booléen est non remarquable et ne porte de fait aucune
implication sur la logique. La mécanique quantique est, selon cette vue, une théorie sur les
distributions statistiques possibles de résultats de certaines mesures et sa "logique" non classique
reflète le fait que tous les phénomènes observables ne peuvent pas être observés simultanément. A
cause de cela, l'ensemble des événements portant une probabilité (ou proposition) est moins riche
qu'il ne le serait en théorie classique des probabilités et donc l'ensemble des distributions
statistiques possibles moins étroitement contraints. Le fait que ces distributions de probabilité
quelque peu "non classiques" permise par cette théorie sont réellement manifestée dans la nature est
peut-être surprenant mais ne nécessite en aucune manière un profond changement de notre
compréhension de la logique ou, dans ce cas, des probabilités.

Cela est difficilement le dernier mot. En ayant accepté ce qui précède, il reste encore la question de
pourquoi la logique des résultats de mesure devrait avoir la forme très particulière L(H ) et jamais
quelque chose de plus général. Cette question entretient l'idée que la structure formelle de la
mécanique quantique peut être déterminée de manière unique par un petit nombre d'hypothèses
raisonnables, ainsi que peut-être avec certaines régularités manifestes dans les phénomènes
observés. Cette possibilité est déjà présente dans le Grundlagen de von Neumann (et aussi dans sont
travail ultérieur en géométrie continue), mais devient pour la première fois explicite, et
programmatique, dans le travail de Georges Mackey [1957, 1963]. Mackey présente une séquence
de six axiomes, encadrant une théorie des probabilités généralisée très conservative qui est à la base
de la construction d'une "logique" des propositions expérimentales ou, dans sa terminologie, ayant
la structure d'un ensemble partiellement ordonné σ -orthomodulaire. Le problème marquant, pour
Mackey, était d'expliquer pourquoi cet ensemble partiellement ordonné doit être isomorphe à L(H )
:
Presque tout la mécanique quantique moderne est basée implicitement ou explicitement sur
l'hypothèse suivante que nous établirons comme un axiome :

Axiome VII: l'ensemble partiellement ordonné de toutes les questions en mécanique


quantique est isomorphe à l'ensemble partiellement ordonné de tous les sous-espaces
fermés d'un espace de Hilbert séparable de dimension infinie.

Cet axiome a un caractère assez différent des axiomes I à VI. Ils ont tous un certain degré
de naturel physique et de plausibilité. L'axiome VII semble entièrement ad hoc. Idéalement,
on aimerait avoir une liste d'hypothèses physiquement plausibles dont on pourrait déduire
l'axiome VII. En bref, on aimerait une liste à partir de laquelle on pourrait déduire un
ensemble de possibilités pour la structure.... toutes sauf une serait montrée inconsistante
avec des expériences appropriées.
[19, p.71-72].

Depuis l'article de Mackey, il y a une littérature technique extensive croissante explorant les
variantes de ce cadre axiomatique dans un effort de fournir l'hypothèse manquante.
IV.3. Théorie des probabilités généralisée
Plutôt que de reformuler les axiomes de Mackey, nous le paraphraserons dans le contexte d'une
approche de la théorie des probabilités généralisée due à D.J. Foulis et C.H. Randall ayant, parmi
les approches plus ou moins homogènes disponibles, certains avantages de simplicité et flexibilité.

Théorie classique discrète des probabilités


Il sera utile de commencer par un rappel de la théorie classique des probabilités. Dans sa
formulation la plus simple, la théorie classique des probabilités travaille avec un ensemble E
(discret) de résultats mutuellement exclusifs, comme de certaines mesures, expériences, etc., et
avec les différents poids de probabilité que l'on peut définir dessus, c'est-à-dire avec une application
ω : E → [0,1] de somme égale à 1 sur E.

Notons que l'ensemble ∆(E ) de tous les poids probabilités sur E est convexe, c'est-à-dire qu'étant
donné toute séquence ω1 , ω 2 de poids de probabilité et toute séquence t1 , t 2 ,… de nombres réels
non négatifs de somme égale à 1, la somme convexe ou "mixture" t1ω1 + t 2ω 2 + L est à nouveau
un poids de probabilité. Les points extrêmes de cet ensemble convexe sont exactement les "masses
ponctuelles" δ ( x ) associées avec les résultats x ∈ E :
(1) δ ( x ) y = 1 si x = y et 0 autrement.

Donc ∆(E ) est un simplexe : chaque point ω ∈ ∆(E ) est représentable de manière unique comme
une combinaison convexe des points extrêmes, c'est-à-dire
(2) ω = ∑ ω ( x )δ ( x )

Nous avons aussi besoin de rappeler le concept de variable aléatoire. Si E est un ensemble résultat
et V un certain ensemble de "valeurs" (nombres réels ou autre), une variable aléatoire à valeur dans
V est simplement une application f : E → V . L'heuristique (mais il n'y a pas besoin de la prendre
comme ça) est qu'on "mesure" une variable aléatoire f en "effectuant" l'expérience représentée par
E et en obtenant le résultat x ∈ E , enregistrant f ( x ) comme la valeur mesurée. Notez que si V est
un ensemble de nombres réels ou plus généralement un sous-ensemble d'un espace vectoriel, nous
pouvons définir la valeur moyenne de f dans un état ω ∈ ∆(E ) par :
(3) E ( f , ω ) = ∑ f (x )ω ( x )
x∈E

Espaces de tests
Une direction très naturelle vers laquelle généraliser la théorie classique discrète des probabilités
est d'autoriser la multiplicité des ensembles de résultat, chacun représentant une "expérience"
différente. Pour le formaliser, définissons un espace de tests comme une collection non vide A
d'ensembles non vides E, F,... chacun construit comme un ensemble de résultats discrets comme
dans la théorie classique des probabilités. Chaque ensemble E ∈ A est appelé un test. L'ensemble
X = ∪ A de tous les résultats de tous les tests appartenant à A est appelé l'espace des résultats de
A . Notez que nous autorisons des tests distincts à se chevaucher, c'est-à-dire avoir des résultats en
commun.

Si A est un espace de tests avec un espace de résultats X, un état sur A est une application
ω : X → [0,1] telle que ∑ ω ( x ) = 1 pour tout test E ∈ A . Donc, un état est une attribution
x∈E
consistante d'un poids de probabilité à chaque test, consistant en ce que si deux tests partagent un
résultat commun, l'état assigne à ce résultat la même probabilité qu'il soit obtenu comme le résultat
d'un test ou de l'autre (cette manière peut être vue comme une nécessité normative sur
l'identification des résultats implicite dans la structure de A : si les résultats de deux tests ne sont
pas équiprobables dans tous les états, ils ne devraient pas être identifiés). L'ensemble de tous les
états sur A est noté ω ( A ) . C'est un ensemble convexe mais par contraste avec la situation en
théorie classique discrète des probabilités, ce n'est généralement pas un simplexe.

Le concept de variable aléatoire admet plusieurs généralisations dans le cas des espaces tests.
Définissons une variable aléatoire simple (à valeurs réelles) sur un espace de tests A comme une
application f : E → R où E est un test dans A . Nous définissons la valeur moyenne de f dans un
état ω ∈ ω ( A ) de la manière évidente, c'est-à-dire comme la valeur moyenne de f par rapport au
poids de probabilité obtenu en restreignant ω à E (pourvu, bien sûr, que cette valeur moyenne
existe). On peut continuer et définir des classes plus générales de variables aléatoires en prenant des
limites adéquates (pour les détails, voir [Younce, 1987]).

En théorie classique des probabilités (et particulièrement en statistique classique), on se concentre


habituellement non sur l'ensemble de tous les poids de probabilité possibles mais sur un certain
sous-ensemble désigné (par exemple, ceux appartenant à une famille donnée de distributions). De
même, par modèle probabiliste, nous voulons dire une paire ( A , ∆ ) consistant en un espace de tests
A et un ensemble désigné d'états ∆ inclus dans ω ( A ) sur A . Nous nous référerons à A comme
l'espace de tests et à ∆ comme l'espace d'états du modèle.

Nous allons indiquer maintenant comment ce cadre peut s'accommoder à la fois du formalisme
habituel de la théorie de la mesure de la théorie classique des probabilités et du formalisme de
l'espace de Hilbert de la théorie des probabilités quantiques.

Théorie des probabilités de Kolmogorov


Soit S un ensemble construit pour le moment comme l'espace d'états d'un système physique et soit
Σ un champ sigma de sous-ensembles de S. Nous pouvons voir chaque partition E de S en un sous-
ensemble dénombrable Σ -mesurable de paires disjointes comme représentant une approximation
"grossière" d'une expérience parfaite imaginaire qui révélerait l'état du système. Soit A l'espace de
tests consistant en toutes ces partitions. Notons que l'ensemble des résultats de A est l'ensemble
X = B − {∅} des sous-ensembles non vides Σ -mesurables de S. Evidemment, les poids de
probabilité sur A correspondent exactement aux mesures de probabilité additives sur Σ .

Théorie des probabilités quantiques


Soit H un espace de Hilbert complexe et soit A la collection des bases orthonormales (non
ordonnées) de H. Donc, l'espace résultat X de ∪ A sera la sphère unité de H. Notez que si u est un
vecteur unité de H et E ∈ A une base orthonormale, nous avons

2
= u =1
2
(4) u, X
X ∈E
Donc, chaque vecteur unité de H détermine un poids de probabilité sur A . La mécanique
quantique nous demande de le prendre littéralement : tout observable discret "maximal" quantique
est modélisé par une base orthonormale et tout état quantique pur par un vecteur unité exactement
de cette manière. Inversement, toute base orthonormale et tout vecteur unité correspondent à une
telle mesure et un tel état.

Le théorème de Gleason peut maintenant être invoqué pour identifier les états sur A avec les
opérateurs densité sur H : à chaque état ω dans ω ( A H ) correspond un unique opérateur densité W
tel que, pour tout vecteur unité x de H, ω (x ) = Wx, x Tr (WPx ) , Px étant le projecteur à une
dimension associé à x. Inversement, bien sûr, tout opérateur densité de ce type défini un état unique
par la formule ci-dessus. Nous pouvons aussi représenter de simples variables aléatoires à valeurs
réelles par des opérateurs. Chaque variable aléatoire simple f bornée conduit à un opérateur
hermitique borné Z = ∑ f (x )Px . Le théorème spectral nous dit que tout opérateur hermitique sur
x∈E
H peut être obtenu en prenant la limite appropriée d'opérateurs de cette forme.
IV.4. Logiques associées à des modèles probabilistes
A tout modèle statistique ( A , ∆ ) est associé plusieurs ensembles partiellement ordonnés, chacun
ayant certaines affirmations pour le statut d'une "logique empirique" associée au modèle. Dans cette
section, nous en discuterons de deux : la logique dite opérationnelle Π ( A ) et le réseau de
propriétés L( A , ∆ ) . Sous des conditions relativement bénignes sur A , le premier est une
orthoalgèbre. Le deuxième est toujours un réseau complet et, sous des hypothèses supplémentaires
plausibles, atomique. De plus, il y a un ordre naturel préservant l'application de Π sur L. Ce n'est
pas généralement un isomorphisme d'ordre mais quand il l'est nous obtenons un réseau
orthomodulaire complet et donc nous rapprochons du réseau de projecteurs d'un espace de Hilbert.

Logiques opérationnelles
Si A est un espace de tests, un A -événement est un ensemble de A -résultats qui est contenu dans
un certain test. En d'autres mots, un A -événement est simplement un événement dans le sens
classique pour un des tests compris dans A . Maintenant, si a et b sont deux A -événements, nous
disons que a et b sont orthogonaux, et nous écrivons a⊥b , s'ils sont disjoints et que leur union est
aussi un événement. Nous disons que deux événements a et b sont complémentaires l'un de l'autre
si leur union est un test. Nous disons que deux événements a et b sont des perspectives et nous
écrivons a~b, s'ils partagent un complément commun (notons que deux tests E et F sont des
perpectives puisqu'ils sont tous les deux complémentaires à l'événement vide).

4.1. Définition
Un espace de tests A est dit algébrique si pour tout événements a, b, c de A, a~b et b⊥c implique
a⊥c .

Bien qu'il soit possible de construire des exemples parfaitement plausibles d'espaces de tests qui
soient non algébrique, la plus part des espaces de tests qu'on rencontre "dans la nature", incluant les
espaces de tests de Borel et quantique décrit dans la section précédente, semblent jouir de cette
propriété. Le point le plus important est que, en tant qu'axiome, l'algébricité est relativement
bénigne dans le sens que beaucoup d'espaces tests peuvent être "complétés" pour devenir
algébriques. En particulier, si tout résultat a une probabilité plus grande que 0.5, dans au moins un
des états, alors A est contenu dans un espace de tests algébriques B ayant les mêmes résultats et
les mêmes états que A (voir [Gudder, 1985] pour les détails).

Supposons maintenant que A soit algébrique. Il est facile de voir que la relation ~ de perspective
est alors une relation d'équivalence sur l'ensemble des A -événements. Plus encore, si A est
algébrique, alors ~ est une congruence pour l'opération binaire partielle de formation des unions des
événements orthogonaux : en d'autres mots, a~b et b⊥c impliquent que a ∪ c ~ b ∪ c pour tous les
A -événements a, b et c.

Soit Π ( A ) l'ensemble des classes d'équivalences des A -événements sous la perspective et notons
la classe d'équivalence d'un événement a par p(a ) . Nous avons alors une opération binaire partielle
naturelle sur Π ( A ) définie par p(a ) ⊕ p(b ) = p(a ∪ b ) pour des événements orthogonaux a et b. En
posant 0 ≡ p(∅ ) et 1 ≡ p(E ) , E un élément de A , nous obtenons une structure algébrique partielle
(Π ( A ),⊕,0,1) appelée la logique de A . Elle satisfait les conditions suivantes :
a. ⊕ est associatif et commutatif
- Si a ⊕ (b ⊕ c ) est défini, alors également (a ⊕ b ) ⊕ c et les deux sont égaux
- si a ⊕ b est défini, alors aussi b ⊕ a et les deux sont égaux
b. 0 ⊕ a = a pour tout a ∈ L
c. Pour tout a ∈ L , il existe un unique a ′ ∈ L avec a ⊕ a ′ = 1
d. a ⊕ a existe seulement si a = 0

Nous pouvons maintenant définir :

4.2. Définition
Une structure (L,⊕,0,1) satisfaisant les conditions (a) à (d) ci-dessus est appelée une orthoalgèbre.

Donc, la logique d'un espace de tests algébrique est une orthoalgèbre. On peut montrer que,
inversement, toute orthoalgèbre résulte de la logique Π ( A ) d'un espace de tests algébrique A
(Golfin [1988]). Notez que des espaces de tests non isomorphes peuvent avoir des logiques
isomorphes.
Orthocohérence
Toute orthoalgèbre L est partiellement ordonnée par la relation a ≤ b si et seulement si
b = a ⊕ c pour un certain c⊥a . Relativement à cet ordre, l'application a → a ′ est une
orthocomplémentation et a⊥b si et seulement si a ≤ b ′ . Il peut être montré que a ⊕ b est toujours
une borne supérieure minimale pour a et b, mais elle n'est généralement pas la plus petite borne
supérieure. En effet, nous avons ce qui suit :

4.3. Lemme :
Pour une orthoalgèbre (L,⊕,0,1) , ce qui suit est équivalent.
a. a ⊕ b = a ∨ b pour tout a, b dans L.
b. Si a ⊕ b , b ⊕ c et c ⊕ a existent, alors également a ⊕ b ⊕ c
c. L'orthoensemble partiellement ordonné (L, ≤, ') est orthomodulaire, c'est-à-dire que pour tout
a, b ∈ L , si a ≤ b alors (b ∧ a ′) ∨ a ′ existe et est égal à b.

Une orthoalgèbre satisfaisant la condition (b) est dite orthocohérente. En d'autres mots : une
orthoalgèbre est orthocohérente si et seulement si les sous-ensembles finis sommables de paires
sont disjonction sommables. Le lemme nous dit que toute orthoalgèbre orthocohérente est
automatiquement un ensemble partiellement ordonné orthomodulaire. Inversement, un ensemble
partiellement ordonné orthocomplémenté est orthomodulaire si et seulement si a ⊕ b = a ∨ b est
défini pour toutes les paires avec a ≤ b ′ et l'opération binaire partielle résultante est associative,
auquel cas la structure résultante (L,⊕,0,1) est une orthoalgèbre orthocohérente dont l'ordre
canonique est en accord avec l'ordre donné sur L. Donc, les ensembles partiellement ordonnés
orthomodulaires (le cadre de la version de Mackey de la logique quantique) sont équivalents à des
orthoalgèbres orthocohérentes.

Certaines versions de l'orthocohérence furent prises par Mackey et plusieurs de ses successeurs
comme un axiome (il apparaît, sous une forme infinitaire, comme l'axiome V de Mackey, une
condition reliée mais plus forte apparaît dans la définition d'une algèbre booléenne partielle dans le
travail de Kochen et Specker [1965]). Cependant, il est assez facile de construire des modèles
d'espaces de tests simples ayant des interprétations parfaitement immédiates et même classiques
dont la logique n'est pas orthocohérente. Pour autant que nous le sachions, on n'a jamais donné une
raison totalement forcée pour voir l'orthocohérence comme une propriété essentielle de tout modèle
physique raisonnable. De plus, certaines constructions apparemment assez bien motivées qu'on
désire effectuer avec des espaces de tests tendent à détruire l'orthocohérence.

Réseaux de propriétés
La décision d'accepter les mesures et leurs résultats comme concepts primitifs dans notre
description de systèmes physiques ne signifie pas que nous devons oublier de parler des propriétés
physiques d'un tel système. En effet, un tel discours est facilement accommodé à notre formalisme
actuel. Dans l'approche que nous avons suivie, un système physique est représenté par un modèle
probabiliste ( A , ∆ ) et les états du système sont identifiés avec les poids de probabilité dans ∆ .
Classiquement, tout sous-ensemble Γ de l'espace d'état ( A , ∆ ) correspond à une propriété
catégorie du système. Cependant, en mécanique quantique, et même classiquement, toutes les
propriétés ne seront pas testables (ou "physiques") (en mécanique quantique, les seuls sous-
ensembles de l'espace d'état correspondant à des sous-espaces fermés de l'espace de Hilbert sont
testables, on prend habituellement seulement, par exemple, les ensembles de Borel pour
correspondre à des propriétés testables : la différence est que les propriétés testables dans ce dernier
cas forment encore une algèbre booléenne des ensembles alors qu'ils ne le font pas dans le cas
précédent).

Une manière de structurer cette distinction est comme suit. Le support d'un ensemble d'états Γ
inclus dans ∆ est l'ensemble S (Γ ) = {x ∈ X | ∃ω ∈ Γ(ω ( x ) > 0)} des résultats qui sont possibles
quand la propriété Γ est obtenue. Il y a un sens dans lequel deux propriétés sont empiriquement
indistinguables si elles ont le même support : nous ne pouvons pas les distinguer par l'utilisation
d'une seule exécution d'un seul test. Nous pouvons donc désirer identifier les propriétés physiques
avec les classes de propriétés classiquement physiquement indistinguables ou, de manière
équivalente, avec leurs supports associés. Cependant, si nous voulons adhérer au programme de
représentation des propriétés physiques comme des sous-ensembles (plutôt que des classes
d'équivalence de sous-ensembles) de l'espace des états, nous pouvons faire aussi comme suit.
Définissons une application F : P ( X ) → P (∆ ) par F ( J ) = {ω ∈ ∆ | S (ω ) ⊆ J }. L'application
Γ → F (S (Γ )) est alors un opérateur de fermeture sur P (∆ ) et la collection des ensembles fermés
(c'est-à-dire le domaine de F) est un réseau complet d'ensembles, fermé sous l'intersection
arbitraire. Evidemment, les propriétés classiques, sous-ensembles de ∆ , ont le même support si et
seulement si elles ont la même fermeture, ainsi nous pouvons identifier les propriétés physiques
avec les sous-ensembles fermés de l'espace des états.

4.4. Définition
Le réseau de propriétés du modèle ( A , ∆ ) est le réseau complet L = L( A , ∆ ) de tous les sous-
ensembles de ( A , ∆ ) de la forme F(J), J étant un ensemble de résultats.

Nous avons maintenant deux "logiques" différentes associées à une entité ( A , ∆ ) avec A
algébrique : une "logique" Π ( A ) de propositions expérimentales qui est une orthoalgèbre mais
généralement pas un réseau et une "logique" L( A , ∆ ) de propriétés qui est un réseau complet mais
rarement orthocomplémenté d'une manière naturelle (Randall et Foulis, 1983). Les deux sont reliés
par une application naturelle [ ] : Π → L donnée par p → [ p ] = F (J p ) où pour chaque p ∈ Π ,
J p = {x ∈ X | p ( x ) ≤ p ′}. C'est-à-dire que J p est l'ensemble des résultats qui sont consistants avec
p et [p] est la plus grande (c'est-à-dire la plus faible) propriété physique rendant p certain d'être
confirmé si testé.

L'application p → [ p ] préserve l'ordre. A la fois pour les modèles classiques et quantiques


considérés ci-dessus, c'est en fait un isomorphisme d'ordre. Notez que lorsque c'est le cas, Π hérite
de L la structure d'un réseau complet qui sera alors automatiquement orthomodulaire suite au
Lemme 4.3. En d'autres mots, dans de tels cas nous avons seulement une logique qui est un réseau
orthomodulaire complet. Tandis qu'il est certainement trop d'attendre que tout système physique
concevable jouisse de cette propriété, en effet nous pouvons facilement construire des modèles
élémentaires du contraire, la condition est au moins raisonnablement transparente dans sa
signification.
IV.5. Théorème de Piron
Supposons que la logique et le réseau de propriétés d'un modèle soient isomorphes, tel que la
logique des propositions/propriétés soit un réseau orthomodulaire complet. La question se pose
alors : comment cela nous rapproche-t-il de la mécanique quantique, c'est-à-dire du réseau des
projecteurs L(H) d'un espace de Hilbert ?

La réponse est : sans hypothèse supplémentaire, pas beaucoup. Le réseau L(H) a plusieurs
propriétés d'ordre assez spéciales. Premièrement, il est atomique, tout élément est la disjonction
d'éléments non nuls minimaux (c'est-à-dire, des sous-espaces à une dimension). Deuxièmement, il
est irréductible, il ne peut pas être exprimé comme un produit direct non trivial de réseaux
orthomodulaires plus simples. Et finalement et le plus important, il satisfait la loi dite de
recouvrement atomique : si p ∈ L(H ) est un atome et p ≤/ q , alors p ∨ q recouvre q (aucun
élément de L(H) n'est strictement entre p ∨ q et q).

Ces propriétés ne sont pas suffisantes pour capturer L(H) mais elles nous donnent le bon panier.
Soit V un espace produit scalaire sur un anneau division involutif D. Un sous-espace M de V est dit
être ⊥ -fermé si et seulement si M = M ⊥⊥ où M ⊥ = {v ∈ V | ∀m ∈ E ( v, m = 0)}. Ordonné par
l'inclusion des ensembles, la collection L(V) de tous les sous-espaces ⊥ -fermés de V forme un
réseau atomique complet, orthocomplémenté par l'application M → M ⊥ . Un théorème de
Amemiya et Araki [1965] montre qu'un espace produit scalaire V réel, complexe ou quaternionique
avec L(V) orthomodulaire est nécessairement complet. Pour cette raison, un espace produit scalaire
V sur un anneau division involutif est appelé un espace de Hilbert généralisé si son réseau de sous-
espaces fermés L(V) est orthomodulaire. Le théorème de représentation suivant est dû à C. Piron
[1964] :

5.1. Théorème
Soit L un réseau orthomodulaire complet, atomique, irréductible satisfaisant la loi de recouvrement
atomique. Si L contient au moins 4 atomes orthogonaux, alors il existe un anneau division involutif
D et un espace produit scalaire V sur D tel que L est isomorphe à L(V).
On notera que des espaces de Hilbert généralisés ont été construits sur des anneaux divisions assez
exotiques. Donc, bien qu'il nous amène de manière tentante près de la solution, le théorème de
Piron ne nous fait pas parcourir tout le chemin vers la mécanique quantique orthodoxe.

Conditionnement et loi de recouvrement


Appelons un réseau orthomodulaire complet satisfaisant les hypothèses du théorème de Piron un
réseau de Piron. Pouvons nous donner une raison générale pour supposer que le réseau de
logiques/propriétés d'un système physique (un auquel ils sont isomorphes) est un réseau de Piron ?
Ou, sinon, pouvons-nous au moins attribuer un certain contenu physique clair à ces hypothèses ?
L'atomicité de L s'ensuit si nous supposons que tout état pur représente une "propriété physique".
C'est une hypothèse forte mais son contenu semble suffisament clair. L'irréductibilité est
habituellement vue comme une hypothèse bénigne car un système réductible peut être décomposé
en parties irréductibles, le théorème de Piron s'appliquant à chacune.

La loi de recouvrement présente un problème plus délicat. Bien qu'il soit probablement prudent de
dire qu'aucun argument simple et entièrement satisfaisant n'ait été donné pour supposer sa validité
générale, Piron [1964, 1976] et d'autres (par exemple Beltrametti et Cassinelli [1981] et Guz
[1980]) ont dérivé la loi de recouvrement à partir d'hypothèses sur la manière dont les résultats des
mesures autorisent l'inférence à partir d'un état initial vers un état final. Voici un bref résumé de
comment cet argument fonctionne. Supposons qu'il y ait une certaine manière raisonnable de
définir, pour un état initial q du système, représenté par un atome du réseau logiques/propriétés L,
un état final ϕ p (q ) , ou un autre atome ou peut-être 0, conditionné à la proposition p ayant été
confirmée. Différents arguments ont été fournis suggérant que le seul candidat raisonnable pour une
telle application est la projection de Sasaki ϕ p : L → L , définie par ϕ p (q ) = (q ∨ p ′) ∧ p . On peut
montrer qu'un réseau orthomodulaire atomique satisfait la loi de recouvrement atomique juste
quand la projection de Sasaki projette des atomes sur des atomes ou 0. Une autre vue intéressante
de la loi de recouvrement est développée par Cohen et Svetlichny [1987].
IV.6. Représentations classiques
L'éternelle question dans l'interprétation de la mécanique quantique est de savoir si oui ou non une
explication essentiellement classique est disponible, même en principe, pour les phénomènes
quantiques. La logique quantique a joué un grand rôle en mettant en forme (et en clarifiant) cette
discussion, en particulier en nous permettant d'être assez précis sur ce que nous voulons dire par
une explication classique.

Plongements classiques
Supposons que nous ayons un modèle statistique ( A , ∆ ) . Une approche très directe pour construire
une "interprétation classique" de ( A , ∆ ) commencerait par essayer de plonger A dans un espace de
test de Borel B avec l'espoir d'alors prendre en compte les états statistiques de ∆ comme des
moyennes sur des états classiques, c'est-à-dire sans dispersion, "cachés". Donc, nous désirons
trouver un ensemble S et une application X → P (S ) assignant à chaque résultat x de A un
{ }
ensemble x ∗ inclus dans S de telle manière que pour chaque test E ∈ A , x ∗ | x ∈ E forme une
partition de S. Si cela peut être fait, alors chaque résultat x de A enregistre simplement le fait que
le système est dans un des états d'un certain ensemble d'états, c'est-à-dire x ∗ . Soit Σ la Σ -algèbre
{ }
des ensembles générés par les ensembles de la forme x ∗ | x ∈ E , nous trouvons que chaque
( )
mesure de probabilité µ sur Σ ramène à un état µ ∗ sur A , c'est-à-dire µ ∗ ( x ) = µ x ∗ . Tant que
tout état dans ∆ est de cette forme, nous pouvons affirmer avoir donné une interprétation
entièrement classique du modèle ( A , ∆ ) .

Le candidat minimal pour S est l'ensemble de tous les états sans dispersion sur A. Poser
x ∗ = {s ∈ S | s ( x ) = 1} nous donne une interprétation classique comme ci-dessus que nous
appellerons image classique de A . Toute autre interprétation classique se factorise en celle-là.
Notez, cependant, que l'application x → x ∗ est injective seulement s'il y a suffisament d'états libres
de dispersion pour séparer les différents résultats de A . Si A n'a pas d'états sans dispersion, alors
son image classique est vide. Le théorème de Gleason nous dit que c'est le cas pour les modèles de
la mécanique quantique. Donc, ce type particulier d'explication classique n'est pas disponible pour
les modèles de la mécanique quantique.

Il est quelquefois négligé que même si un espace de tests A a un ensemble séparé d'états sans
dispersion, il peut exister des états statistiques sur A qui ne peuvent pas être réalisés comme des
mixtures de ces états. L'image classique ne fournit pas d'explication pour de tels états. Pour un
exemple très simple de cette sorte de chose, considérons l'espace de tests :
(1) A = {{a, x, b}, {b, y, c}, {c, z , a}} et l'état ω (a ) = ω (b ) = ω (c ) = 1 / 2 , ω ( x ) = ω ( y ) = ω ( z ) = 0 .
C'est un simple exercice de montrer que ω ne peut pas être exprimé comme une moyenne pondérée
d'états à valeurs [0,1] sur A . Pour des exemples supplémentaires et une discussion de ce point, voir
Wright [1980].

Variables cachées contextuelles


Le résultat de la discussion précédente est que la plus part des espaces de tests ne peuvent pas être
plongés dans un espace de test classique et ce même quand un tel plongement existe, il échoue
typiquement à prendre en compte certains états du modèle. Cependant, il y a une classe très
importante de modèles pour lesquels une interprétation classique satisfaisante est toujours possible.
Appelons un espace de tests A semi-classique si ses tests ne se recouvrent pas; c'est-à-dire si
E ∧ F = ∅ pour E, F ∈ A avec E ≠ F .

6.1. Lemme
Soit A semi-classique. Alors A a un ensemble séparé d'états sans dispersion et tout état extrême
sur A est sans dispersion.

Tant que A est localement dénombrable (c'est-à-dire qu'aucun test E dans A est non dénombrable),
tout état peut être représenté comme une combinaison convexe, dans un sens approprié, d'états
extrêmes [Wilce, 1992]. Donc, tous les états d'un espace de tests semi-classique localement
dénombrable ont une interprétation classique.

Même si ni les espaces de tests de Borel ni les espaces de tests quantiques ne sont semi-classiques,
on peut affirmer que dans toute situation réelle de laboratoire, la semi-classicalité est une règle.
Habituellement, quand on écrit dans un livre de laboratoire qu'on a effectué un test donné et obtenu
un résultat donné, on a toujours un enregistrement de quel test a été effectué. En effet, étant donné
un espace de tests A , nous pouvons toujours former un espace de test semi-classique en effectuant
simplement le co-produit (union disjointe) des tests dans A . Plus formellement :

6.2. Définition
Pour chaque test E dans A , soit E ~ = {(x, E ) | x ∈ E} . Le recouvrement semi-classique de A est
{
l'espace de tests A ~ = E ~ | E ∈ A }
Nous pouvons voir A comme venant de A ~ par élimination de l'enregistrement de quel test fut
effectué pour assurer un résultat donné. Notons que tout état dans A définit un état ω ~ dans A ~
par ω ~ ( x, E ) = ω ( x ) . L'application ω → ω ~ est totalement injective, donc nous pouvons identifier
l'espace d'états de A avec un sous-ensemble de l'espace d'états de A ~ . Notons qu'il y aura
typiquement plusieurs états de A ~ qui ne descendent pas d'états de A . Nous pouvons désirer les
voir comme "non physiques" puisqu'ils ne respectent pas l'identification des résultats
(probablement, physiquement motivé) par laquelle A est défini.

Puisqu'il est semi-classique, A ~ admet une interprétation classique. Examinons cela. Un élément
( )
de S A ~ vient d'une application f : A ~ → X assignant à chaque test E ∈ A un résultat
f (E ) ∈ E . C'est un exemple (assez brutal) de ce qu'on veut dire par une variable cachée
contextuelle (sans dispersion). La construction ci-dessus nous dit que chaque variable cachée
contextuelle de ce type sera disponible pour des modèles statistiques assez généraux. Pour d'autres
résultats du même effet, voir Kochen et Specker [1967], Gudder [1970], Holevo [1982] et, dans une
direction différente, Pitowsky [1989].

Notons que les simples variables aléatoires sur A correspondent exactement à de simples variables
aléatoires sur A ~ et que ces variables, en retour, correspondent à certaines des variables aléatoires
( )
simples (dans le sens habituel) sur l'espace mesurable S A ~ . Donc, nous avons l'image suivante :
le modèle ( A , ∆ ) peut toujours être obtenu d'un modèle classique simplement en omettant certaines
variables aléatoires et en identifiant les résultats qui ne peuvent plus être distingués par celles qui
restent.

Tout cela peut suggérer que notre théorie des probabilités généralisée ne présente pas d'écart
conceptuel significatif de la théorie classique des probabilités. D'un autre coté, les modèles
construits dans les lignes précédentes ont un caractère distinctement ad hoc. En particulier,
l'ensemble des états "physiques" dans un des modèles classiques (ou semi-classiques) construits ci-
dessus est déterminé non par un principe physique indépendant mais seulement par la consistance
avec le modèle original non semi-classique. Une autre objection est que les variables cachées
contextuelles introduites dans cette section sont fortement non locales. Il est maintenant largement
reconnu que cette non-localité est le principal nœud de la non classicalité dans les modèles
quantiques (et plus généraux) (voir le théorème de Bell et le théorème de Malament).
Exercices
1. Montrez que pour l'espace de test (1) de la section IV.6 ω ne peut pas être exprimé comme une
moyenne pondérée d'états à valeurs [0,1] sur A .
IV.7. Systèmes composites
Certaines des propriétés les plus intriguantes de la mécanique quantique viennent en relation avec
les tentatives de décrire des systèmes physiques composites. C'est dans ce contexte, par exemple,
qu'à la fois le problème de la mesure et les résultats de non localité centrés sur le théorème de Bell
se produisent. Il est intéressant que des systèmes couplés présentent aussi un défi au programme de
logique quantique. Nous conclurons avec une description de deux résultats qui montrent que le
couplage de modèles de logique quantique tend à nous éloigner plus loin de la réalité de la
mécanique quantique des espaces de Hilbert.

L'exemple de Foulis - Randall


Un résultat particulièrement frappant dans cette optique est l'observation de Foulis et Randall
[1981] que tout produit tensoriel raisonnable (et raisonnablement général) d'orthoalgèbres ne
préserve pas l'orthocohérence. Soit A 5 l'espace de tests
(1) {{a, x, b}, {b, y, c}, {c, z , d }, {d , w, e}, {e, v, s}}
consistant en cinq tests à trois résultats assemblés en boucle. Cet espace de tests n'est en rien
pathologique, il est à la fois orthocohérent et algébrique. De plus, il admet un ensemble séparé
d'états sans dispersion et donc une interprétation classique. Considérons maintenant que nous
puissions modéliser un modèle composite consistant en deux sous-systèmes séparés chacun
modélisés par A 5 . Nous aurions besoin de construire un espace de tests B et une application
⊗ : X × X → Y = ∪ B satisfaisant de manière minimale ce qui suit :

a. Pour tout résultat x, y, z ∈ X , si x⊥y alors x ⊗ z⊥y ⊗ z et s ⊗ x⊥z ⊗ y


b. Pour chaque paire d'états α , β ∈ ω ( A 5 ) , il existe au moins un état ω de B tel que
ω (x ⊗ y ) = α (x )β ( y ) pour tout résultat x, y ∈ X .

Foulis et Randall ont montré qu'aucun plongement de ce type n'existe pour lequel B est
orthocohérent.
Théorème d'Aerts
Un autre résultat ayant une force assez similaire est celui de Aerts [1982]. Si L1 et L2 sont deux
réseaux de Piron, Aerts construit d'une manière assez naturelle un réseau L représentant deux
systèmes séparés, chacun modélisé part un des réseaux donnés. Ici "séparé" signifie que chaque état
pur du grand système L est entièrement déterminé par les états des deux systèmes composants L1 et
L2 . Aerts montre alors que L est également un réseau de Piron si et seulement si au moins un des
deux facteurs L1 et L2 est classique (ce résultat a récemment été renforcé par Ischi [2000] de
plusieurs manières).

La conséquence de ces résultats négatifs est que la construction directe de modèles plausibles pour
des systèmes composites détruit les conditions de régularité (orthocohérence dans le cas du résultat
de Foulis - Randall, orthomodularité et la loi de recouvrement dans celui d'Aert) qui ont largement
été utilisés pour la reconstruction du formalisme habituel de la mécanique quantique. Cela met en
doute qu'aucune de ces conditions ne puisse être vue comme ayant l'universalité que la plus part des
versions optimistes de Mackey demandaient. Bien sûr, cela n'écarte pas la possibilité que ces
conditions puissent encore être motivées dans le cas de systèmes physiques particulièrement
simples.
IV.8. Complément sur la théorie de base des relations ordonnées
Ce qui suit est le résumé le plus bref possible des notions d'ordre utilisées dans le texte principal.
Pour une bonne introduction à cette matière, voir Davey & Priestley [1990]. Des traitements plus
avancés peuvent être trouvés dans Gratzer [1998] et Birkhoff [1967].

Ensembles ordonnés
Un ordre partiel, à fortiori, un ordre, sur un ensemble P est une relation binaire transitive,
réflexive et antisymétrique sur P. Donc, pour tout p, q, r ∈ P , nous avons
1.
2. et seulement si p = q
3. Si et , alors

Si , nous disons que p est plus petit que ou sous p et q est plus grand que ou au-dessus de p
dans l'ordre.

Un ensemble partiellement ordonné, ou poset, est une paire (P, ) où P est un ensemble et est un
ordre spécifié sur P. Il est habituel d'utiliser P à la fois pour l'ensemble et la structure, laissant
implicite quand c'est possible. Toute collection de sous-ensembles d'un certain ensemble fixé X,
ordonnée par l'inclusion des ensembles, est un poset. En particulier, l'ensemble des parties P ( X )
est un poset sous l'inclusion des ensembles.

Soit P un poset. La conjonction ou plus grande borne inférieure de p, q ∈ P , notée p ∧ q , est le


plus grand élément de P, s'il existe, sous p et q. La disjonction ou plus petite borne supérieure de p
et q, notée p ∨ q , est le plus petit élément de P, s'il existe, au-dessus de p et q. Donc, pour tout
éléments p, q, r de P, nous avons
a. Si , alors et
b. Si , alors et
Notez que p ∧ p = p ∨ p = p pour tout p dans P. Notez aussi que si et seulement si
p ∧ q = p si et seulement si p ∨ q = q .

Notez que si l'ensemble P = P ( X ) , ordonné par l'inclusion des ensembles, alors p ∧ q = p ∩ q et


p ∨ q = p ∪ q . Cependant, si P est une collection arbitraire de sous-ensembles de X ordonnés par
l'inclusion, ce n'est pas nécessairement vrai. Par exemple, considérez la collection P de tous les
sous-ensembles de X = {1,2,K, n} ayant une cardinalité paire. Alors, par exemple, {1,2} ∨ {2,3}
n'existe pas dans P puisqu'il n'y a pas de plus petit ensemble de 4 éléments contenant {1,2,3}. Pour
un exemple d'un type différent, soit X un espace vectoriel et P l'ensemble des sous-espaces de X.
Pour des sous espaces M et N, nous avons :
(1) M ∧ N = M ∩ N mais M ∨ N = span(M ∪ N )

Les concepts de conjonction et disjonction s'étendent à des sous-ensembles infinis d'un poset P.
Donc, si A ⊆ P , la conjonction de A est le plus grand élément (s'il existe) sous A tandis que la
disjonction de A est le plus petit élément (s'il existe) au-dessus de A. Nous notons la conjonction de
A par ∧ A ou par ∧ a∈A a . De même la disjonction de A est notée par ∨ A ou par ∨ a∈A a .

Réseaux
Un réseau est un poset (L, ) dans lequel chaque paire d'élément a à la fois une conjonction et une
disjonction. Un réseau complet est un réseau dans lequel tout sous-ensemble de L a une conjonction
et une disjonction. Notez que P ( X ) est un réseau complet par rapport à l'inclusion des ensembles
ainsi que l'ensemble de tous les sous-espaces d'un espace vectoriel. L'ensemble des sous-ensembles
finis d'un ensemble infini X est un réseau mais pas un réseau complet. L'ensemble des sous-
ensembles d'un ensemble fini ayant un nombre pair d'éléments est un exemple de poset qui n'est pas
un réseau.

Un réseau (L, ) est distributif si et seulement si la conjonction se distribue sur la disjonction et


vice versa :
(2) p ∧ (q ∨ r ) = ( p ∧ q ) ∨ ( p ∧ r )
et
(3) p ∨ (q ∧ r ) = ( p ∨ q ) ∧ ( p ∨ r )

Le réseau ensemble des parties P ( X ) , par exemple, est distributif (comme tout réseau d'ensembles
dans lequel conjonction et disjonction sont donnés par l'intersection et l'union des ensembles).
D'autre part, le réseau des sous-espaces d'un espace vectoriel n'est pas distributif, pour des raisons
qui deviendront claires dans un moment.

Un réseau L est dit borné si et seulement s'il contient un plus petit élément 0 et un plus grand
élément 1. Notez que tout réseau complet est automatiquement borné. Pour la suite, tous les réseaux
sont supposés bornés sauf indication contraire.

Un complément d'un élément p d'un réseau (borné) L est un autre élément q tel que p ∧ q = 0 et
p ∨ q = 1.

Dans le réseau P ( X ) , tout élément a exactement un complément, plus précisément son ensemble
complément habituel. D'autre part, dans le réseau des sous-espaces d'un espace vectoriel, un
élément aura typiquement une infinité de compléments. Par exemple, si L est le réseau des sous-
espaces de l'espace euclidien à trois dimensions, alors le complément d'un plan donné passant par
l'origine est fourni par toute ligne passant par l'origine mais qui n'est pas dans le plan.

Proposition :
Si L est distributif, un élément de L peut avoir au plus un complément.

Démonstration :
Supposons que q et r soient des compléments de p. Alors, puisque L est distributif, nous avons :
q = q ∧1
= q ∧ (p ∨ r)
(4) = (q ∧ p ) ∨ (q ∧ r )
= 0 ∨ (q ∧ r )
=q∧r
Donc, . De manière symétrique, nous avons ; donc q = r .

Donc, aucun réseau dans lequel les éléments ont de multiples compléments n'est distributif. En
particulier, le réseau des sous-espaces d'un espace vectoriel (de dimension plus grande que 1) n'est
pas distributif.

Si un réseau est distributif, il peut n'y avoir que certains de ses éléments qui ont un complément
tandis que d'autres n'en ont pas. Un réseau distributif dans lequel tous les éléments ont un
complément est appelé un réseau booléen ou une algèbre booléenne. L'exemple de base, bien sûr,
est l'ensemble des parties P ( X ) d'un ensemble X. Plus généralement, toute collection de sous-
ensembles de X fermée sous l'union, l'intersection et le complément est une algèbre booléenne; un
théorème de Stone et Birkhoff nous dit qu'à un isomorphisme près toute algèbre booléenne est
obtenue de cette manière.

Orthoréseaux
Dans certains réseaux avec des compléments multiples (donc non distributifs), il est possible de
sélectionner pour chaque élément p un complément privilégié p' de telle manière que
a. Si alors
b. p ′′ = p

Quand ces conditions sont satisfaites, on appelle l'application p → p ′ une orthocomplémentation


sur L et la structure (L, ,') un réseau orthocomplémenté ou un orthoréseau pour faire bref.

Notez à nouveau que si un réseau distributif peut être orthocomplémenté totalement, c'est une
algèbre booléenne et donc il peut être orthocomplémenté d'une seule manière. Dans le cas de L(H),
l'orthocomplémentation qu'on a à l'esprit est M → M ⊥ où M ⊥ est défini dans la section IV.1. Plus
généralement, si V est un espace produit scalaire (complet ou non), soit L(V ) l'ensemble des sous-
espaces M de V tel que M = M ⊥⊥ (un tel sous-espace est dit être algébriquement fermé). C'est à
nouveau un réseau complet orthocomplémenté par l'application M → M ⊥ .
Orthomodularité
Il y a une caractérisation frappante de l'ordre du réseau des sous-espaces fermés d'un espace de
Hilbert parmi les réseaux L(V ) de sous-espaces fermés d'espaces produits scalaires plus généraux.
Un orthoréseau L est dit orthomodulaire si et seulement si pour toute paire p, q dans L avec ,
(5) (q ∧ p ′) ∨ p = q

Notez que c'est un affaiblissement de la loi distributive. Donc, un réseau booléen est
orthomodulaire. Il n'est pas difficile de montrer que si H est un espace de Hilbert, alors L(H ) est
orthomodulaire. L'inverse frappant de ce fait est dû à Amemiya et Araki [1965] :

Théorème
Soit V un espace produit scalaire (sur R, C ou les quaternions) tel que L(V ) est orthomodulaire.
Alors V est complet, c'est-à-dire un espace de Hilbert.

Opérateurs de fermeture, opérateurs intérieurs et adjonctions


Soit P et Q des posets. Une application f : P → Q préserve l'ordre si et seulement si pour tout
p, q ∈ P , si alors .

Un opérateur de fermeture sur un poset P est une application préservant l'ordre cl = P → P telle
que pour tout p ∈ P ,
- cl (cl ( p )) = p
-

De manière duale, un opérateur intérieur sur P est une application préservant l'ordre int : P → P
sur P telle que pour tout p ∈ P ,

- int (int ( p )) = p
-
Les éléments dans le domaine de cl sont dits être fermés; ceux dans le domaine de int sont dits être
ouverts. Si P est un réseau (complet), alors l'ensemble des sous-ensembles fermés, respectivement
ouverts, sous l'application de fermeture ou intérieure est à nouveau un réseau (complet).

Comme illustration, supposons que O et C sont des collections de sous-ensembles d'un ensemble
X avec O fermé sous les unions arbitraires et C sous les intersections arbitraires. Pour tout
ensemble A inclus dans X, soit :
(6) cl ( A) = ∩{C ∈ C | A ⊆ C }
(7) int ( A) = ∪{O ∈ O| O ⊆ A}

Alors cl et int sont des opérateurs intérieurs sur P ( X ) pour lequel les ensembles fermés et ouverts
sont précisément C et O, respectivement. L'exemple le plus familier, bien sûr, est celui dans lequel
O et C sont les ensembles respectivement ouverts et fermés d'un espace topologique. Un autre cas
particulier important est celui dans lequel C est l'ensemble des sous-espaces linéaires d'un espace
vectoriel V. Dans ce cas, l'application span : P (V ) → P (V ) envoyant chaque sous-ensemble de V
sur son span est une fermeture correspondante.

Une adjonction entre deux posets P et Q est une paire ordonnée (f, g) d'applications f : P → Q et
g : Q → P reliées par la condition que pour tout p ∈ P , q ∈ Q
(8) si et seulement si

Dans ce cas, nous appelons f un adjoint gauche pour g et g un adjoint droit pour f. Deux faits de
base sur les adjonctions, facilement démontrées, sont les suivantes :

Proposition
Soit f : L → M une application préservant l'ordre entre les réseaux complets L et M. Alors
A. f préserve les disjonctions arbitraires si et seulement si c'est un adjoint droit
B. g préserve les conjonctions arbitraires si et seulement si c'est un adjoint gauche

Proposition
Soit (f, g) une adjonction entre les réseaux complets L et M. Alors
a. g o f : L → L
b. f o g : M → M
V. Applications

V.1. Cryptographie quantique


La cryptographie est une tentative de mise en œuvre des prédicats de la mécanique quantique afin
d'assurer la confidentialité, l'intégrité et/ou la non-interception de transmissions de données. C'est
aussi un sous-domaine de l'informatique quantique.

Le sujet étant vaste nous ne donnerons ici qu'une brève introduction au sujet.

Introduction
La cryptographie quantique permet à deux interlocuteurs de s'échanger une clé en toute sécurité. En
effet, cette méthode permet non seulement de démasquer toute tentative d'espionnage grâce aux
propriétés de la mécanique quantique, mais également de réduire la quantité d'information détenue
par un éventuel espion à un niveau arbitrairement bas et ce grâce à des algorithmes classiques
("privacy amplification"). On le voit donc, la cryptographie quantique constitue un outil très
précieux pour des systèmes de cryptographie symétrique où les deux interlocuteurs doivent
impérativement posséder la même clé et ce en toute confidentialité.

Les fondements de la cryptographie quantique ont été établis, entre autres, par les travaux de
Charles H. Bennett et Gilles Brassard.

Protocole
Le principe d'indétermination d'Heisenberg affirme que certaines quantités ne peuvent pas être
mesurées simultanément avec une précision arbitraire. Ainsi dans le transport de clé "quantique",
l'information est transportée par les photons, ces composants élémentaires de la lumière. Chaque
photon peut être polarisé, c'est-à-dire que l'on impose une direction à son champ électrique. La
polarisation est mesurée par un angle qui varie de 0° à 180°. Dans le protocole que nous décrivons,
dû aux canadiens C.H. Bennett et G. Brassard, la polarisation peut prendre 4 valeurs : 0°, 45°, 90°,
135°. Pour les photons polarisés à 0° ou à 90°, on parle de polarisation rectiligne, pour ceux
polarisés à 45° ou 135°, de polarisation diagonale. Il nous faut pouvoir détecter la polarisation des
photons, Pour cela, on utilise un filtre polarisant suivi d'un détecteur de photons. Si un photon
polarisé à 0° rencontre un filtre polarisant orienté à 0°, il traverse ce filtre polarisant et est
enregistré par le détecteur placé juste après. Si un photon polarisé à 90° rencontre le même filtre, il
est immédiatement stoppé et le détecteur n'enregistre rien. Maintenant, si le photon est polarisé
diagonalement (45° ou 135°), une fois sur deux, il traverse le filtre, et une fois sur deux, il est
stoppé (c'est le caractère très particulier des photons en mécanique quantique). Si on peut distinguer
entre une polarisation à 0° et à 90°, il est impossible de distinguer en même temps entre une
polarisation à 45° et à 135°. De la même façon, on peut utiliser un filtre polarisant orienté à 45° : il
laisse passer les photons polarisés à 45°, stoppe deux polarisés à 135°, et se comporte aléatoirement
avec ceux à 0° et 90°. Notons que placer deux filtres en séries ne permet pas d'améliorer la
détection. En effet, une fois que le photon passe un filtre, disons à 0°, il est alors polarisé dans cette
direction et ce quelle que soit sa polarisation initiale. Il y a réduction de la fonction d'onde. D'un
point de vue quantique, si on décrit l'état de polarisation à 45° dans la base rectiligne, on a l'état :
(1)
1
( 0° + 90° )
2
Le passage dans le filtre à 0° constitue une mesure de l'état correspondant. Si le photon passe le
2
filtre, avec une probabilité 1 / 2 = 1 / 2 , il se retrouve dans l'état 0° .

Décrivons alors le protocole qu'Alice et Bob doivent respecter pour qu'Alice envoie à Bob une clé
secrète constituée de 0 et de 1. Ils disposent de deux canaux d'échange : un canal quantique où ils
peuvent s'échanger des photons polarisés et un canal classique (par exemple en ondes radios), non
protégé, où ils peuvent discuter. Ils conviennent que les photons polarisés à 0° ou 45° représentent
0 et ceux polarisés à 90° ou 135° représentent 1. Alice émet, sur le canal quantique, une suite de
photons polarisés au hasard parmi 0°, 45°, 90° et 135°. A l'autre bout, Bob reçoit les photons et
mesure aléatoirement ou leur polarisation rectiligne (filtre placé à 0°) ou leur polarisation diagonale
(filtre placé à 45°). Si le photon traverse le filtre, Bob note 0, sinon il note 1. Bien sûr, certaines
mesures de Bob (en moyenne, une sur deux) n'ont pas d'intérêt : il a pu essayer de mesurer la
polarisation rectiligne d'un photon polarisé à 45°, ce qui donne un résultat aléatoire (par exemple, le
photon a été bloqué par le filtre, Bob note donc 1 alors qu'Alice avait envoyé 0). Pour éliminer ces
bits sans sens, il indique à Alice, par le canal radio, quelle type de mesure (rectiligne ou diagonale)
il a faite pour chaque photon. Par le même canal radio, Alice indique quelles sont les mesures
correctes (à savoir s'il a utilisé le bon type de mesure). Notons que cet échange n'apporte aucune
information à un tiers écoutant le canal classique car les 0 ou les 1 ont chacun une chance sur deux
d'être transmis par une polarisation diagonale ou rectiligne. Ainsi, Alice et Bob ont en commun un
certain nombre de bits car ils ont été mesurés de la même manière par Alice et Bob.

Il faut encore vérifier que ce protocole est sûr. Si Caroline écoute le canal quantique, elle peut faire
la même chose que Bob, c'est-à-dire intercepter les photons en plaçant un filtre polarisant tantôt
rectiligne, tantôt diagonal. Pour que Bob ne se doute de rien, elle doit réémettre un photon polarisé.
Elle va essayer d'envoyer le même photon qu'Alice, mais comme elle a une chance sur deux d'avoir
choisi le mauvais filtre et comme le photon, même lorsqu'il passe le filtre a son état modifié, elle a
une chance sur deux d'avoir un résultat différent d'avec le photon original, et finalement, pour
chaque photon intercepté par Caroline, il y a une chance sur 4 que Bob reçoive une information
erronée. Alice et Bob décident alors d'utiliser une partie des bits transférer non pour transmettre la
clé mais en matière de contrôle. Ces bits sont choisis aléatoirement par Alice et publié ensuite par
le canal radio et échangés avec Bob. S'ils sont différents, ils ont une preuve qu'ils ont été écoutés et
laissent alors tomber la clé qu'ils viennent de transférer. A noter qu'à ce stade Caroline n'a pas pu
décrypter l'information puisque ses mesures ont une chance sur deux d'être faites dans la mauvaise
direction. En comparant suffisamment de bits, ils ont une garantie presque absolue de ne pas avoir
été écoutés.

On peut également utiliser d'autres protocoles et en particulier des paires de photons intriqués
échangés préalablement. Alice et Bob effectuent alors des mesures rectilignes et diagonales
aléatoires puis échangent l'information sur la direction qu'ils ont employée. Alice indique
également les mesures qui ont donné pour résultat les bits qu'elle souhaite transmettre. Bob peut
alors en déduire les bits à partir de ses propres mesures. Le protocole est très proche du précédent
autant dans son usage que dans sa garantie de confidentialité. Ici, la perturbation introduire par
Caroline en mesurant certains des photons est la destruction de leur intrication. Vous pouvez
vérifier que si Caroline émet elle-même des paires de photons de polarisation connue, les échanges
d'Alice et Bob ne lui permettront pas d'en déduire l'information échangée.

Notons que les protocoles de cryptographie quantique sont relativement complexes et lourds et
donc lents. Ils servent ainsi essentiellement à transmettre des clés symétriques qui sont ensuite
utilisées pour une cryptographie classique réputée sûre (les protocoles classiques symétriques étant
habituellement très solides).

Amplification de la confidentialité
Les protocoles de cryptographie quantique arrivent à des résultats que la cryptographie classique
n'atteint pas. Ils permettent à Alice et Bob de générer et partager des clés aléatoires qui sont très
semblables. Dans des conditions parfaites, elles sont identiques, mais il y a en fait un taux d'erreur.
Ils leur permettent aussi d'approximer le niveau d'observation de l'observateur externe
(eavesdropper) et ainsi de calculer l'information maximale que Caroline peut posséder par rapport à
la clé partagée par Alice et Bob. Ce sont des résultats intéressants par eux-mêmes, mais ils ne
suffisent pas à résoudre le problème de la distribution des clés. En effet, il serait désastreux que
Caroline apprenne même une petite partie de la clé : elle pourrait alors tirer profit de cette
information pour arriver à casse le code de cryptage employé pour envoyer les messages à l'aide de
cette clé. Puisque les erreurs et le bruit de fond ne peuvent jamais être évités complètement, Alice
et Bob ne peuvent jamais garantir que Caroline n'a aucune information sur leurs clés. Puisque les
erreurs de communication et les effets de l'observation externe ne peuvent pas être distingués, Alice
et Bob doivent supposer que toutes les incohérences sont dues à l'action de Caroline.

Ce qui a grandement aidé au développement de la cryptographie quantique à ce stade de


développement est qu'à cette époque, Ueli Maurer et d'autres cryptologues classiques développaient
une technique appelée amplification de la confidentialité. Cette technique transforme effectivement
la cryptographie quantique en une technologie pratique pour la communication sûre. Elle est
d'ailleurs utilisée maintenant dans diverses situations (un exemple est le transfert des résultats de
vote électronique lors des élections Suisse).

L'amplification de la confidentialité est en quelque sorte une version cryptographique de la


correction d'erreur. Soit Alice et Bob qui ont initialement des clés semblables dont Caroline
possède une certaine quantité d'information. Cette technique leur permet d'en extraire des clés
aléatoires plus courtes. Ces clés sont identiques et Caroline n'a (pratiquement) aucune chance
d'obtenir des informations sur ces clés.
Bien que l'amplification de confidentialité classique puisse être utilisée par les protocoles de
Benett-Brassard et de Ekert, décrit ci-dessus, il advient que la cryptographie basée sur l'intrication
quantique permet d'utiliser l'amplification de confidentialité directement au niveau quantique. Ceci
est plus efficace et a d'autres avantages. En particulier, quand la technologie sera au point, elle
permettra d'utiliser la cryptographie quantique sur des distances arbitrairement grandes en utilisant
des stations de répétition quantique le long de la route de communication (amplification du signal
sans lecture de son contenu).
V.2. Téléportation quantique
La téléportation quantique est une technique discutée dans le cadre de la théorie quantique de
l'information pour transférer un état quantique à travers l'espace, en utilisant des états intriqués et la
transmission d'une information classique.

Indiscernabilité
Supposons qu'Alice possède un atome de rubidium (l'élément chimique préféré des physiciens pour
ce type d'expérience), qui est dans son état fondamental, que Bertrand dispose d'un atome
répondant aux mêmes caractéristiques. Il est important de noter que ces deux atomes sont
indiscernables, ce qui signifie qu'il n'y a aucune différence entre eux (en dehors de leur position).

Si Alice et Bertrand avaient par exemple deux boules de verre semblant identiques et qu'ils les
échangeaient, alors quelque chose changerait. Si on disposait d'un microscope très puissant, on
pourrait trouver une différence entre les deux boules en observant les défauts microscopiques du
verre. Avec des atomes du même type et dans le même état quantique, il n'y a réellement aucune
différence. La situation physique dans laquelle Alice a le premier atome et Bertrand le second est
exactement la même qu'en inversant les atomes. D'une certaine manière, il est même faux de dire
que les atomes sont différents l'un de l'autre, de les identifier, de leur donner une individualité en
disant que chacun est possédé par l'un de nos deux protagonistes. Il serait plus approprié de dire que
les deux emplacements dans l'espace ont la propriété que les champs quantiques fondamentaux ont
les valeurs définissant l'état fondamental de l'atome de rubidium.

La téléportation quantique : le résultat


Maintenant, imaginons que l'atome d'Alice soit dans un état quantique compliqué (excité).
Supposons de plus qu'on ne connaisse pas cet état quantique. On pourrait l'obtenir par la mesure
mais on ne le souhaite pas. Ce que nous pouvons faire est de téléporter l'état quantique vers l'atome
de rubidium de Bertrand. Après cette opération l'atome de Bertrand sera exactement dans l'état dans
lequel se trouvait celui d'Alice.

Il est à noter que l'état quantique de l'atome d'Alice sera modifié dans cette opération. C'est une
conséquence d'un théorème dit de "non-clonage" de la mécanique quantique. Si l'on pouvait copier
exactement l'état quantique d'un système, sans qu'ils soient intriqués, on serait en mesure de
déterminer plusieurs grandeurs incompatibles simultanément en effectuant la mesure sur les deux
systèmes. En un sens, la propriété (l'état excité) a réellement été téléporté.

Si l'on considère la mécanique quantique comme complète et deux particules identiques étant
indiscernables, transporter l'état quantique est équivalent à transporter la particule elle-même.

Le miracle de cette opération est qu'elle peut s'effectuer à distance en utilisant des particules
intriquées.

La méthode
En prérequis, Bertrand a produit deux particules (ou deux atomes) appelées I et II qui sont
intriquées de manière maximale pour deux états. En notant 0 et 1 les deux états, on aura
(1) ψ =
1
(
0 I ⊗ 0 II + 1 I ⊗ 1 II )
2

Ces états peuvent, par exemple, être des états de polarisation de deux photons.

Cela signifie que si les particules I et II ne sont ni dans l'état 0 ni dans l'état 1 , mais plutôt les
deux simultanément, et que si on mesure l'une d'entre elles on trouvera sa valeur comme état 0 ou
1 avec une probabilité égale à 1/2 et que la mesure de l'autre particule donnera exactement le
même résultat.

Bertrand a donné à Alice la particule I et a gardé la particule II. A partir de maintenant, Alice peut
envoyer l'état quantique de son atome à Bertrand (ou l'inverse).

Si Alice a maintenant un état qu'elle veut téléporter à Bertrand, elle effectue ce qu'on appelle une
mesure de Bell sur l'atome de rubidium et sur la particule I. Cette mesure conjointe consiste à
mesurer l'état quantique de l'atome en fonction de l'état quantique de la particule I. On mesure en
quelque sorte le produit état de l'atome * état de I. Ce qu'on mesure c'est la corrélation "atome
excité" - "état 0 de la particule I" ou "atome non excité" - "état 1 de la particule I". Il est clair que
l'on ne manipule alors qu'une information binaire et la mesure d'états plus complexes nécessite plus
de particules intriquées (plus de qubits).

Cette mesure ne permet pas de connaître l'état de l'atome car le résultat dépend de l'état de la
particule I. Mais en effectuant cette mesure, l'état qu'avait l'atome se retrouve intriqué avec la
particule II de Bertrand.

En utilisant un canal de communication ordinaire, Alice peut communiquer son résultat de mesure
à Bertrand. Bertrand peut alors utiliser ce résultat et sa particule II en les faisant interagir de
manière appropriée afin d'intriquer l'état de son atome à la particule II. Il effectue en fait une
mesure conjointe de l'état de l'atome * l'état de II ou de l'état de l'atome * l'opposé de l'état de II
selon que le résultat d'Alice a donné une valeur positive ou nulle. Ainsi l'état de son atome se
retrouve intriqué avec l'état initial de l'atome d'Alice.

Bertrand n'a plus qu'a effectuer une mesure de l'état de son atome afin de savoir quel était l'état de
l'atome d'Alice avant ces opérations.

Si au lieu d'utiliser des particules différentes des atomes initiaux on utilise des particules identiques
(par exemple trois particules de rubidium), la dernière opération est simplifiée car on a déjà une
particule II qui est intriquée avec l'état initial de l'atome d'Alice et une opération utilisant le résultat
de mesure suffit à lui donner l'état approprié.

Expérimentations
La première démonstration expérimentale fut effectuée à l'université d'Innsbruck (en Autriche) en
1997 par le groupe de Anton Zeilinger. Leur configuration permit de téléporter l'état quantique de
polarisation à travers une table optique. Une expérience ayant eu lieu quelque temps plus tôt à
Rome, par le groupe de De Martini, avait montré le principe de la téléportation, mais en impliquant
seulement deux particules au lieu de trois : une portant l'information à téléporter et deux particules
intriquées qui fournissent le canal quantique et qui doivent être indépendantes de celle portant l'état.
En 2004, un autre groupe de recherche à l'université d'Innsbruck et un groupe au NIST démontra la
téléportation d'atomes : l'état quantique électronique d'un ion de calcium fut téléporté vers un autre,
l'ensemble des ions étant contenu dans un piège à ions linéaire.

Le rayon de téléportation de Star Trek


Le fait que le terme téléportation rappelle le processus de téléportation dans la série télévisée Star
Trek peut tout à fait avoir été intentionnel. Après tout, il est possible que les physiciens aient fait
l'analogie entre leur expérimentation et le déplacement d'une particule à travers l'espace.
Néanmoins cette analogie est un peu rapide car elle ne souligne pas un point important ; seule
l'information sur l'état quantique est transmise ici, la particule recevant l'information devant déjà
être présente. Cette téléportation n'implique aucun transfert de matière ou d'énergie. La petite
phrase célèbre du capitaine Kirk pour démarrer le processus, "énergie", n'a donc pas de sens ici.

Permutation de l'intrication
Si un état en téléportation est lui-même intriqué avec un autre état, l'intrication est téléportée avec
lui. Si Alice a une particule qui est intriquée avec une particule détenue par Carole et qu'elle la
téléporte à Bertrand, à l'issue de l'opération c'est la particule de Bertrand qui est intriquée avec celle
de Carole.

Autre exemple plus symétrique : supposons qu'Alice possède une particule, Bertrand deux et Carole
une seule. La particule d'Alice et la première de Bertrand sont intriquées, de même que la seconde
de Bertrand et celle de Carole :

Alice --- Bertrand1 Bertrand2 --- Carole

Maintenant Bertrand effectue une mesure de Bell intriquant ses deux particules. Maintenant, les
deux particules d'Alice et Carole sont intriquées :
Alice --- Carole

Cet effet permet de construire un répéteur quantique utile à la cryptographie. Ces répéteurs sont
toutefois encore à l'état de recherche. Les principales difficultés étant liées à l'imperfection des
différents dispositifs et à la décohérence que nous allons maintenant voir.
VI. Décohérence
La décohérence induite par l'environnement et la supersélection ont été un sujet de recherches
intensives pendant ces deux dernières décennies. Jusqu'à présent, leurs implications pour les
problèmes de fondation de la mécanique quantique, plus particulièrement le problème de la mesure
quantique, sont restées un sujet de grande controverse.
VI.1. Matrice densité
La matrice densité est utilisée intensivement dans l'étude de la décohérence. Un rappel est donc le
bienvenu.

La matrice densité ou opérateur densité est une entité mathématique introduire par le
mathématicien et physicien John von Neumann. Elle permet de résumer en une seule matrice tout
l'ensemble possible des états quantiques d'un système physique donné à un instant donné, mariant
ainsi mécanique quantique et physique statistique.

Définition

Cas pur
La description du système se fait ici grâce à un vecteur d'état ψ (t ) que l'on peut développer sur la
base des { u n }:
(1) ψ (t ) = ∑ c (t ) u
n n
n
avec
∑ c (t ) =1
2
(2) n
n

L'opérateur densité est défini pour un état pur par :


(3) ρˆ = ψ (t ) ψ (t ) = ∑ c n∗ (t )c p (t ) p n
n, p

Mélange statistique d'états purs


En admettant qu'un certain système physique puisse être, à un certain instant t, dans un mélange
statistique (fini ou infini) d'états quantiques ψ i avec des probabilités p i (où ∑i p i = 1 ), alors la
matrice densité représentant l'ensemble de ces états est :
(4) ρ̂ = ∑ p i ψ i ψ i
i

L'aspect statistique introduit ici est de deux natures, l'une classique et l'autre quantique :
1. Classique : dû à l'estimation du ket par une distribution statistique des différents kets possibles.
Les différentes probabilités p i représentent habituellement les proportions de particules dans
l'état ψ i dans une collection d'un grand nombre de particules. Mais cette forme de statistique
peut aussi s'appliquer à un système seul. L'exemple typique étant l'état d'un dé classique après
son jet. Il est dans six états possibles avec des probabilités égales.
2. Quantique : indétermination quantique fondamentale même si le système est statistiquement
parfaitement déterminé.

Les éléments de la matrice densité valent :


(5) ρˆ pn = ∑ p i u (pi ) ρˆ i u n(i ) = ∑ pi c n(i )∗ c (pi )
i i

Propriétés
La matrice obtenue a les propriétés suivantes :
 Elle est hermitique, ρˆ = ρˆ + , elle peut donc être diagonalisée et ses valeurs propres sont
positives.
 Sa trace est égale à 1, Tr ( ρˆ ) = 1 , conservation de la probabilité totale.
 Elle doit être définie positive ou nulle.
 Dans le cas d'un état pur, l'opérateur densité est alors un projecteur : ρˆ 2 = ρˆ .
( )
 Tr ρˆ 2 ≤ 1 , avec égalité si et seulement si le système physique est dans un état pur (c'est-à-dire
que tous les p i sont nuls sauf un).

Valeur moyenne
On peut calculer la valeur moyenne d'un observable A à partir de la formule :
( )
(6) Aˆ = ψ Aˆ ψ = Tr Aˆ ρˆ = Tr ρˆAˆ ( )
N
avec ρˆ = ∑ p i ρˆ i est la matrice densité d'un mélange statistique d'états.
i

Lien avec l'entropie


Enfin, on peut définir l'entropie de von Neumann :
(7) S = − kTr ( ρˆ ln ( ρ~ ))
où k est la constante de Boltzmann.

L'entropie d'un état pur est nulle car il n'y a aucune incertitude sur l'état du système. On peut aussi
trouver une base où la matrice est diagonale, avec des 0 et un 1 sur la diagonale, ce qui donne bien
une entropie égale à 0.
VI.2. Introduction
Les implications du programme de décohérence pour les fondations de la mécanique quantique ont
été le sujet de débats continuels depuis la première formulation précise du programme au début des
années 1980. L'idée clé promue par la décohérence est basée sur le fait que des systèmes quantiques
réalistes ne sont jamais isolés mais sont immergés dans l'environnement et interagissent
continuellement avec lui. Le programme de décohérence étudie alors, entièrement dans le
formalisme quantique standard (c'est à dire sans ajouter de nouveaux éléments à la théorie
mathématique ou à ses interprétations), la formation résultante de corrélations quantiques entre les
états du système et son environnement et les effets souvent surprenant de ces interactions système -
environnement. En bref, la décohérence met en lumière une suppression locale des interférences
entre états privilégiés sélectionnés par l'interaction avec l'environnement.

Bub (1997) a décrit la partie décohérence de la "nouvelle orthodoxie" de la compréhension de la


mécanique quantique comme le chemin du physicien motivant les postulats de la mécanique
quantique à partir de principes physiques. Les partisans de la décohérence l'ont appelée un
"accident historique" (Joos, 1999, p.13) car les applications pour la mécanique quantique et pour les
problèmes de fondations associés furent ignorées pendant longtemps. Zurek (2003a, p.717) suggère
:
L'idée que l'ouverture d'un système quantique puisse avoir quelque chose à voir avec la transition
du quantique au classique a été ignorée pendant très longtemps, probablement parce que les
problèmes de physique classique fondamentalement important étaient toujours établis dans des
systèmes isolés.

Quand le concept de décohérence fut d'abord introduit pour une audience scientifique plus large par
l'article de Zurek (1991) publié dans Physics Today, il déclencha une série de commentaires
controversés de la part des lecteurs (voir la publication de Physics Today avril 1993). En réponse
aux critiques, Zurek (2003a, p.718) déclare :
Dans un champ où la controverse a régné aussi longtemps, cette résistance à un nouveau
paradigme [c'est à dire la décohérence] n'est pas surprenante.

Omnès (2003, p.2) estime :


La découverte de la décohérence a déjà beaucoup amélioré notre compréhension de la mécanique
quantique. (...) Mais ses fondations, le domaine de sa validité et sa complète signification sont
encore assez obscurs. Cela est dû probablement au fait qu'elle traite d'aspects profonds de la
physique qui ne sont pas encore entièrement analysés.

En particulier, la question de savoir si la décohérence fournit, ou au moins suggère, une solution au


problème de la mesure de la mécanique quantique a été discuté pendant plusieurs années. Par
exemple, Anderson (2001, p.492) écrit dans une revue d'essais :
Le dernier chapitre (...) traite du problème de la mesure quantique (...). Mon test principal, me
permettant de court-circuiter la discussion extensive, a été une recherche rapide et infructueuse,
dans l'index, du mot "décohérence" qui décrit le processus qui est utilisé pour la "réduction de la
fonction d'onde".

Zurek parle en différents endroits de la réduction "apparente" ou "effective" de la fonction d'onde


induite par l'interaction avec l'environnement (quand il est plongé dans un cadre d'une interprétation
minimale supplémentaire) et conclut (Zurek, 1998, p.1793) :
Une "réduction" dans le sens traditionnel n'est plus nécessaire. (...) L'émergence de "l'existence
objective" [à partir de la décohérence] (...) réduit de manière significative et élimine même peut-
être le rôle de la réduction du vecteur d'état.

D'Espagnat, qui défend une vue qui considère l'explication de nos expériences (c'est-à-dire les
"apparitions") comme la seule demande "sûre" pour une théorie physique, déclare (d'Espagnat,
2000, p.136) :
Pour les systèmes macroscopiques, les apparitions sont celles du monde classique (pas
d'interférence, etc.), même dans les circonstances, telles que celles se produisant dans les mesures
quantiques, où les effets quantiques prennent place et où les probabilités quantiques interviennent
(...). La décohérence explique les apparitions mentionnées c'est le résultat le plus important. (...)
Aussi longtemps que nous resterons dans la réalité des seules prédictions que nous observons (c'est
à dire qui nous apparaissent), et que nous évitons d'affirmer quoi que ce soit sur "les choses qui
doivent être avant que nous les observions", aucune rupture dans la linéarité de la dynamique
quantique n'est nécessaire.
Dans son livre monumental sur les fondations de la mécanique quantique, Auletta (2000, p.791)
conclu que :
La théorie de la mesure pourrait être une partie de l'interprétation de la mécanique quantique
seulement pour étendre ce qui est encore un problème ouvert, et nous pensons que ce n'est
largement plus le cas.

C'est principalement parce que pour Auletta (p.289),


La décohérence est capable de résoudre pratiquement tous les problèmes de la mesure qui ont été
discuté dans les chapitres précédents.

D'un autre coté, même les principaux adhérents de la décohérence sont prudents sur le fait que la
décohérence a résolu le problème de la mesure. Joos (1999, p.14) écrit :
Est-ce que la décohérence résout le problème de la mesure ? Clairement non. Ce que la
décohérence nous dit est que certains objets apparaissent classiques quand ils sont observés. Mais
qu'est-ce qu'une observation ? A un certain moment, nous devons encore appliquer les règles
habituelles de probabilité de la théorie quantique.

Parmi toutes ces déclarations, Kiefer et Joos (1998, p.5) avertissent que :
On trouve souvent explicitement ou implicitement des déclarations sur l'effet que les processus ci-
dessus sont équivalent à la réduction de la fonction d'onde (ou même résolvent le problème de la
mesure). De telles déclarations sont certainement non fondées.

En réponse au commentaire d'Anderson (2001, p.492), Adler (2003, p.136) déclare :


Je ne crois pas que des calculs théoriques détaillés ou que les résultats expérimentaux récents
montrent que la décohérence a résolu les difficultés associées avec la théorie quantique de la
mesure.

De même, Bacciagaluppi (2003b, p.3) écrit :


Les affirmations simultanées que le problème de la mesure est réel et que la décohérence le résout
sont au mieux des confusions.

Zeh affirme (Joos et al., 2003, Ch.2) :


La décohérence en elle-même ne résout pas encore le problème de la mesure (...). Cet argument est
néanmoins répandu dans la littérature. (...) Il semble que le problème de la mesure peut seulement
être résolu si la dynamique de Schrödinger (...) est complétée par une réduction non unitaire (...).

Les réussites clés du programme de décohérence, en dehors de leurs applications pour les
problèmes conceptuels, ne semblent pas non plus être universellement comprises. Zurek (1998,
p.1800) remarque :
L'aspect diagonal éventuel de la matrice densité (...) est un sous-produit (...) mais pas l'essence de
la décohérence. J'insiste sur cela car l'aspect diagonal de la matrice densité dans certaines bases a
été occasionnellement (mal) interprété comme un accomplissement clé de la décohérence. C'est une
erreur. Toute matrice densité est diagonalisable dans certaines bases. Cela apporte peu à
l'interprétation.

Ces remarques controversées montrent qu'une discussion équilibrée sur les aspects clés de la
décohérence et leurs implications pour les fondations de la mécanique quantique est dépassée. Le
programme de décohérence a fait de grands progrès pendant la dernière décennie et il serait
inapproprié d'ignorer sa pertinence dans les problèmes conceptuels. Cependant, il est également
important de réaliser les limites de la décohérence pour fournir des réponses consistantes et non
circulaires aux questions de fondation.

Une excellente revue du programme de décohérence a récemment été donnée par Zurek (2003). Il
traite principalement des techniques de la décohérence, bien qu'il contient quelques discussions sur
comment la décohérence peut être employée dans le contexte d'une interprétation d'états relatifs
pour motiver les postulats de base de la mécanique quantique. Utile pour une première orientation
et un premier aperçu, la section de Bacciagaluppi (2003a) dans l'encyclopédie de Standford de
philosophie fournit (par comparaison à cette présentation relativement courte) une introduction au
rôle de la décohérence dans les fondations de la mécanique quantique, incluant des commentaires
sur la relation entre la décohérence et plusieurs interprétations populaires de la théorie quantique.
En dépit de ces contributions récentes de valeur à la littérature, une discussion détaillée et complète
du rôle de la décohérence dans les fondations de la mécanique quantique semble encore en suspens.
Nous commencerons par un résumé du problème de la mesure qui illustre les difficultés clés qui
sont associées avec la description de la mesure quantique dans le formalisme quantique et qui sont
toutes traitées sous une certaine forme par le programme de décohérence. Ensuite nous introduirons
alors et discuterons les principaux aspects de la théorie de la décohérence en insistant
particulièrement sur leurs implications sur les fondations.
VI.3. Le problème de la mesure
Un des éléments les plus révolutionnaires introduit dans la théorie physique par la mécanique
quantique est le principe de superposition, mathématiquement fondé par la linéarité de l'espace de
Hilbert. Si 1 et 2 sont deux états alors la mécanique quantique nous dit que toute combinaison
linéaire α 1 + β 2 correspond aussi à un état possible. Bien que de telles superposition d'états
aient été intensivement expérimentalement vérifiées pour des systèmes microscopiques (par
exemple à travers l'observation d'effets d'interférence), l'application du formalisme aux systèmes
macroscopiques semble conduire immédiatement à plusieurs conflits avec notre expérience de la
vie de tous les jours. Un livre n'a jamais été observé être dans un état à la fois "ici" et "là" (c'est-à-
dire être une superposition de positions macroscopiques distinctes) et un chat de Schrödinger qui
est une superposition de vivant et mort n'a pas beaucoup de ressemblance avec ce que nous
percevons. Le problème est alors de réconcilier l'immensité de l'espace de Hilbert des états
possibles avec l'observation du nombre considérablement plus faible d'états macroscopiques
"classiques" définis par un petit nombre de propriétés déterminées et robustes tel que la position et
le moment. Pourquoi le monde nous apparaît-il classique en dépit de la nature quantique sous-
jacente supposée qui devrait en principe permettre des superpositions arbitraires ?
VI.3.1. Schéma de mesure quantique
Cette question est habituellement illustrée dans le contexte de la mesure quantique où des
superpositions microscopiques sont, via l'intrication quantique, amplifiées dans la réalité
macroscopique et conduisent donc à des états très "non classiques" qui ne semblent pas
correspondre à ce qui est réellement perçu à la fin de la mesure. Dans le schéma de mesure idéale
imaginé par von Neumann (1932), un système S (typiquement microscopique), représenté par une
base de vecteurs { S n } dans un espace de Hilbert H S , interagit avec un appareil de mesure A,
décrit par une base de vecteurs { An } générant un espace de Hilbert H A où les An sont supposés
correspondre à des positions "pointeurs" macroscopiquement discernables qui correspondent aux
résultats d'une mesure si S est dans l'état S n (par exemple la position d'une aiguille sur un cadran
indiquant le résultat de la mesure).

Notons que le schéma de von Neumann est en contraste abrupt avec l'interprétation de Copenhague
où la mesure n'est pas traitée comme une interaction système - appareil mais plutôt comme une
composante indépendante de la théorie, représentée entièrement en termes fondamentalement
classiques.

Maintenant, si S est dans une superposition (microscopiquement "non problématique") ∑ n


cn S n
et A est dans l'état initial "prêt" Ar , la linéarité de l'équation de Schrödinger implique que le
système total S-A, supposé être représenté par l'espace de Hilbert produit H H S ⊗ H A , évolue selon
 
:(1)  ∑ c n S n  Ar 
→
t
∑n cn S n An
 n 

Cette évolution dynamique est souvent appelée une prémesure afin d'insister sur le fait que le
processus décrit par l'équation (1) ne suffit pas pour conclure directement qu'une mesure a
réellement été effectuée. Cela pour deux raisons. Premièrement, le coté droit est une superposition
d'états système - appareil. Donc, sans fournir un processus physique additionnel (disons un certain
mécanisme de réduction de la fonction d'onde) ou en donnant une interprétation appropriée d'une
telle superposition, il n'est pas clair comment prendre en compte, étant donné l'état final composite,
les positions définies des pointeurs qui sont perçus comme le résultat d'une mesure réelle - c'est-à-
dire pourquoi percevons-nous le pointeur dans une position An mais pas dans une superposition
de positions (le problème des résultats définis) ? Deuxièmement, le développement de l'état
composite final n'est en général pas unique et donc l'observable mesuré n'est pas défini de manière
unique non plus (problème de la base privilégiée). La première difficulté est typiquement appelée
dans la littérature le problème de la mesure, mais le problème de la base privilégiée est au moins
aussi important puisqu'il n'y a même pas de sens à s'inquiéter d'un résultat spécifique si l'ensemble
des résultats possibles n'est pas clairement défini. Nous regarderons donc le problème de la mesure
comme étant composé à la fois du problème des résultats définis et du problème de la base
privilégiée et nous discuterons de ces composantes plus en détail dans la suite.
VI.3.2. Le problème des résultats définis

VI.3.2.1. Superpositions et ensembles


Le coté droit de l'équation (1) de la section précédente implique qu'après la prémesure le système
combiné S-A est dans un état pur qui représente une superposition linéaire d'états système -
pointeurs. C'est une propriété bien connue et importante de la mécanique quantique qu'une
superposition d'états est fondamentalement différente d'un ensemble classique d'états, où le système
est réellement dans seulement un des états mais nous ne savons simplement pas lequel (cela est
souvent appelé l'ensemble "ignorance interprétable" ou "propre").

Cela peut explicitement être montré spécialement à des échelles microscopiques en effectuant des
expériences qui conduisent à une observation directe des figures d'interférences au lieu de la
réalisation d'un des termes de l'état pur superposé, par exemple, dans un dispositif où des électrons
passent individuellement (un à la fois) à travers deux fentes. Comme c'est bien connu, cette
expérience montre clairement que, dans le formalisme standard de la mécanique quantique,
l'électron ne doit pas être décrit par une des fonctions d'onde décrivant le passage de l'électron à
travers une fente particulière (ψ 1 ou ψ 2 ) mais seulement par la superposition de ces fonctions
d'onde (ψ 1 + ψ 2 ) puisque la distribution de densité correcte ρ de la figure sur l'écran n'est pas
donnée par la somme des carrés des fonctions d'onde décrivant l'addition de passages individuels à
travers une seule fente ( ρ = ψ 1 + ψ 2 ) mais seulement par le carré de la somme des fonctions
2 2

d'onde individuelles ( ρ = ψ 1 + ψ 2 ).
2

En d'autres mots, si un ensemble interprétation pouvait être attaché à une superposition, cette
dernière représenterait simplement des états déterminés plus fondamentalement et basé sur la
connaissance additionnelle donnée par les résultats des mesures, nous pourrions choisir simplement
un sous-ensemble consistant en états de pointeurs définis obtenus dans la mesure. Mais alors,
puisque l'évolution dans le temps a été strictement déterministe selon l'équation de Schrödinger,
nous pourrions faire marche à arrière dans le temps à ce sous-ensemble et donc aussi spécifier l'état
initial plus complètement ("post - sélection") et donc cet état ne pourrait nécessairement pas être
identique à l'état préparé initialement sur le coté gauche de l'équation (1) de la section précédente.
VI.3.2.2. Superpositions et attribution du résultat
Dans l'interprétation standard ("orthodoxe") de la mécanique quantique, un observable
correspondant à une quantité physique a une valeur définie si et seulement si le système est dans un
état propre de l'observable. Si le système est cependant dans une superposition de tels états propres,
comme dans l'équation de mesure, il est, selon l'interprétation orthodoxe, sans signification de
parler de l'état du système comme ayant toutes les valeurs définies de l'observable à la fois (c'est
habituellement appelé "le lien valeur propre - état propre" ou "lien v-e" pour faire court). Le lien v-
e, cependant, ne nous est pas forcé par la structure de la mécanique quantique ou par des
contraintes empiriques (Bub, 1997). Le concept de "valeurs" (classiques) qui peuvent être
attribuées à travers le lien v-e basé sur les observables et l'existence d'états propres exacts de ces
observables a donc fréquemment été affaibli ou abandonné. Par exemple, les résultats des mesures
sont typiquement enregistrés dans l'espace position (pointeurs positions, etc.) mais il n'existe pas
d'état propre exact de l'opérateur position et les états pointeurs ne sont jamais exactement
mutuellement orthogonaux. On peut alors (explicitement ou implicitement) promouvoir un lien v-e
"flou" ou créer le concept d'observables et de valeurs entièrement et directement comme des
fonctions d'onde qui évoluent dans le temps (en travaillant dans le point de vue de Schrödinger) et
les matrices densité correspondantes. Aussi, s'il est considéré suffisant d'expliquer nos perceptions
plutôt que de décrire l'état "absolu" de l'univers entier (voir l'argument ci-dessous), on peut
seulement demander que le lien v-e (exact ou flou) soit valable dans un sens "relatif", c'est à dire
pour l'état du reste de l'univers relativement à l'état de l'observateur.

Alors, pour résoudre le problème des états définis, certaines interprétations (par exemple les
interprétations modales et les interprétations des états relatifs) interprètent la superposition de l'état
final de manière à expliquer l'existence, ou au moins la perception subjective, de "résultats" même
si l'état composite final a la forme d'une superposition. D'autres interprétations tentent de résoudre
le problème de la mesure en modifiant la dynamique strictement unitaire de Schrödinger. La plus
importante, l'interprétation orthodoxe postule un mécanisme de réduction qui transforme une
matrice de densité d'états purs en un ensemble ignorance interprétable d'états individuels (une
"mixture propre"). Les théories avec réduction physique de la fonction d'onde ajoutent des termes
stochastiques à l'équation de Schrödinger qui induit une réduction effective (bien qu'approximative)
pour les états des systèmes macroscopiques (Ghirardi et al., 1986, Gisin, 1984, Pearle, 1979, 1999)
tandis que d'autres auteurs suggèrent que la réduction se produit au niveau de l'esprit d'un
observateur conscient (Stapp, 1993, Wigner, 1963). La mécanique de Bohm, d'autre part, maintient
une évolution dans le temps unitaire de la fonction d'onde mais introduit une loi dynamique
additionnelle qui gouverne explicitement les positions toujours déterminées de toutes les particules
dans le système.
VI.3.2.3. Valeurs définies objectives vs subjectives
En général, la valeur définie (macroscopique), et donc une solution aux problèmes des résultats
dans la théorie quantique de la mesure, peut être obtenue à un niveau ontologique (objectif) ou
observationnel (subjectif). Les valeurs définies objectives s'efforcent d'assurer des valeurs définies
"réelles" dans le monde macroscopique tandis que les valeurs définies subjectives tentent seulement
d'expliquer pourquoi le monde macroscopique semble être défini, et donc ne tentent pas de définir
la réalité physique sous-jacente (quelle que puisse être cette réalité). Cela soulève la question de la
signification de cette distinction par rapport à la formation d'une théorie satisfaisante du monde
physique. Il peut sembler qu'une solution au problème de la mesure basée sur une valeur définie
garantie subjective, mais pas objective, est seulement bonne "pour tout usage pratique", abrégé, de
manière plutôt désobligeante, comme "FAPP" par Bell (1990) (For All Practical Purpose), et donc
n'est pas capable de résoudre le problème "fondamental" qui semblerait pertinent pour la
construction d'une théorie précise que Bell réclamait de manière si véhémente.

Il semble, cependant, que cette critique n'est pas justifiée et que les valeurs définies subjectives
pourraient être vues à l'égal des valeurs définies objectives par rapport à une solution satisfaisante
de problème de la mesure. Nous demandons des valeurs définies objectives car nous faisons
l'expérience au niveau subjectif de l'observation et cela ne devrait pas être vu comme une nécessité
a priori pour une théorie physique. Si nous savons indépendamment de notre expérience que les
valeurs définies existent dans la nature, des valeurs subjectives en suivraient probablement aussi tôt
que nous employons un modèle qui relie le phénomène physique "externe" avec notre appareil
perceptif et cognitif "interne" où la simplicité attendue d'un tel modèle peut être justifiée en se
référant à l'identité présumée des lois physiques gouvernant les processus externes et internes. Mais
puisque la connaissance est basée sur l'expérience, c'est à dire sur l'observation, l'existence de
valeurs définies objectives peut seulement être dérivée de l'observation de valeurs définies. Et de
plus, l'observation nous dit que les valeurs définies ne sont en fait pas une propriété universelle de
la nature, mais plutôt une propriété des objets macroscopiques où la ligne de démarcation de la
réalité macroscopique est difficile à tracer précisément. Des expériences d'interférence
mésoscopiques ont démontré clairement de flou de cette limite. Etant donné la perte de définition
précise de la limite, toute demande pour des valeurs définies fondamentales au niveau objectif
devrait être basé sur un engagement beaucoup plus profond et plus général vers des valeurs définies
qui s'appliquent à toute entité physique (ou système), de long en large, sans s'occuper de sa taille ou
de ses propriétés physiques.

Donc, si nous réalisons que la sensation souvent profonde que l'engagement à des valeurs définies
objectives générales est seulement basée sur notre expérience des systèmes macroscopiques et que
ces valeurs définies échouent en fait d'une manière observable pour les systèmes microscopiques et
même certains systèmes mésoscopiques, on ne voit pas de fondement astreignant sur lequel les
valeurs définies objectives doivent être exigées comme une partie d'une théorie physique
satisfaisante pourvu que la théorie puisse prendre en compte des valeurs définies subjectives
observationnelles en accord avec notre expérience. Donc, nous suggérons d'attribuer la même
légitimité aux propositions pour une solution du problème de la mesure qui réalise "seulement" des
valeurs définies subjectives mais pas objectives. Après tout, le problème de la mesure vient
seulement d'un affrontement entre notre expérience et certaines implications du formalisme
quantique. D'Espagnat (2000, pp. 134-135) a défendu un point de vue similaire :
Le fait que nous percevions des "choses" comme les objets macroscopiques en des endroits précis
est dû, au moins partiellement, à la structure de nos sens et de notre équipement intellectuel. Nous
ne devrions donc pas l'écarter de l'ensemble des connaissances sûres que nous avons pour prendre
en compte la définition d'un état quantique. (...) En fait, les scientifiques affirment avec raison que
le but de la science est de décrire l'expérience humaine et pas de décrire "ce qu'est la réalité", et
aussi longtemps que nous désirons décrire l'expérience humaine, c'est-à-dire aussi longtemps que
nous nous contentions d'être capable de prédire ce qui sera observé dans toutes les circonstances
possibles (...) nous n'aurons pas besoin de postuler l'existence, dans un certain sens absolu,
d'objets non observés (c'est à dire pas encore observés) ayant une place précise dans l'espace
ordinaire à trois dimensions.
VI.3.3. Le problème de la base privilégiée
La seconde difficulté associée à la mesure quantique est connue comme le problème de la base
privilégiée qui démontre que l'observable mesuré n'est en général pas défini de manière unique par
l'équation de mesure. Pour tout choix d'états systèmes { S n }, nous pouvons trouver des états
appareils correspondant { An } et vice versa, pour réécrire de manière équivalente l'état final
émergeant de l'interaction de prémesure, c'est-à-dire le coté droit de l'équation de mesure. En
général, cependant, pour certains choix d'états appareils, les nouveaux états systèmes
correspondants ne seront pas mutuellement orthogonaux, ainsi l'observable associé à ces états ne
sera pas hermitique ce qui n'est habituellement pas désirable (bien que non interdit, voir la
discussion de Zurek, 2003). Inversement, pour assurer des résultats distincts, nous devons en
général exiger (au moins approximativement) l'orthogonalité des états (pointeurs) appareils et il suit
alors du théorème de décomposition biorthogonal que le développement de l'état final de prémesure
système - appareil de l'équation de mesure :
(2) ψ = ∑ c n S n An
n

est unique mais seulement si tous les coefficients c n sont distincts. Autrement, nous pouvons en
général réécrire l'état en termes de vecteurs d'états différents,
(3) ψ = ∑ c n′ S n′ An′
n
et le même état de post-mesure semble correspondre à deux mesures différentes, c'est-à-dire aux
observables A = ∑n λ n S n S n et B = ∑n λ n′ S n′ S n′ du système, bien qu'en général A et B ne
commutent pas.

Comme exemple, considérons un espace de Hilbert H = H 1 ⊗ H 2 où H 1 et H 2 sont des espaces


de spin à deux dimensions avec des états correspondant au spin haut et bas le long d'un axe donné.
Supposons que nous ayons un état de spin intriqué de la forme EPR
(4) ψ =
1
(
Z+1Z− 2− Z−1 Z+ 2 )
2
où Z ± 12
représentent les états propres de l'observable σ z correspondant au spin haut et bas le
long de l'axe z des deux systèmes 1 et 2. L'état ψ peut cependant être exprimé de manière
équivalente dans la base de spin correspondant à une autre orientation dans l'espace. Par exemple,
en utilisant les états propres X ± 12 de l'observable σ x (qui représente une mesure de l'orientation
du spin le long de l'axe x) comme vecteurs de base, nous avons
(4) ψ =
1
(X+1 X− 2− X−1 X+ 2 )
2

Maintenant supposons que le système 2 agit comme un dispositif de mesure pour le spin du
système 1. Alors les équations (3) et (4) impliquent que le dispositif de mesure a établit une
corrélation avec à la fois le spin z et x du système 2. Cela signifie que, si nous interprétons la
formation d'une telle corrélation comme une mesure dans l'esprit du schéma de von Neumann (sans
supposer de réduction), notre appareil (système 2) pourrait être considéré comme ayant mesuré
aussi le spin x une fois qu'il a mesuré le spin z et vice versa, en dépit de la non-commutativité des
observables de spin correspondants σ x et σ z . De plus, puisque nous pouvons écrire l'équation (3)
d'une infinité de manière différente, il semble qu'une fois que l'appareil a mesuré le spin du système
1 le long d'une direction, il peut aussi être vu comme ayant mesuré le spin le long de toute autre
direction, à nouveau en contradiction apparente avec la mécanique quantique due à la non-
commutativité des observables de spin correspondants à différentes orientations spatiales.

Il semble donc que la mécanique quantique n'a rien à dire sur quels observables du système sont
enregistrés, via la formation des corrélations quantiques, par l'appareil. Cela peut être formulé en un
théorème général (Auletta, 2000, Zurek, 1982) : quand la mécanique quantique est appliquée à un
objet composite isolé consistant en un système S et un appareil A, elle ne peut pas déterminer quel
observable du système a été mesuré, en contradiction évidente avec notre expérience des appareils
de mesure qui semblent être "conçus" pour mesurer certaines quantités.
VI.3.4. La transition quantique - classique et la décohérence
En essence, comme nous l'avons vu ci-dessus, le problème de la mesure traite de la transition d'un
monde quantique, décrit par des superpositions essentiellement arbitraires de vecteurs d'états, à
notre perception des états "classiques" du monde macroscopique, c'est à dire un ensemble
relativement très petit d'états permis par le principe de superposition de la mécanique quantique
ayant seulement quelques propriétés déterminées et robustes tel que la position, le moment, etc. La
question de pourquoi et comment notre expérience d'un monde "classique" émerge de la mécanique
quantique réside donc au cœur des problèmes de fondation de la théorie quantique.

La décohérence a revendiqué fournir une explication de cette transition quantique - classique en


recourant à l'immersion ubiquiste de virtuellement tous les systèmes physiques dans leur
environnement ("monitoring environnemental"). Cette tendance peut aussi être joliment perçue
dans les titres de certains articles, par exemple, "l'émergence des propriétés classiques à travers
l'interaction avec l'environnement" (Joos et Zeh, 1985), "la décohérence et la transition du
quantique au classique" (Zurek, 1991) et "la décohérence et l'apparition d'un monde classique dans
une théorie quantique" (Joos et al., 2003). Nous analyserons de manière critique à quel point le
recours à la décohérence pour la transition quantique - classique est justifié.
VI.4. Le programme de décohérence
Comme remarqué plus tôt, la théorie de la décohérence est basée sur une étude des effets
occasionnés par l'interaction des systèmes physiques avec leur environnement. En physique
classique, l'environnement est habituellement vu comme une sorte de perturbation ou de bruit qui
perturbe le système considéré influençant négativement l'étude de ses propriétés "objectives". Donc
la science a établit l'idéalisation de systèmes isolés avec une physique expérimentale tentant
d'éliminer toutes les sources extérieures de perturbation autant que possible pour retrouver la
"vraie" nature sous-jacente du système étudié.

Le phénomène totalement non classique d'intrication, cependant, a démontré que la corrélation


entre deux systèmes peut être fondamentalement importante et peut conduire à des propriétés qui ne
sont pas présentes dans les systèmes individuels. En bref, cela signifie que le tout (de la mécanique
quantique) est différent de la somme de ses parties. La vision ancienne de regarder les phénomènes
venant de l'intrication quantique comme "paradoxal" a généralement été remplacée par la
reconnaissance de l'intrication comme une propriété fondamentale de la nature.

Le programme de décohérence (à partir des idées et concepts clés, voir Joos et Zeh (1985), Joos et
al. (2003), Kübler et Zeh (1973), Zeh (1970, 1973, 1995, 1996, 1999), Zurek (1981, 1982, 1991,
1993, 2003)) est basée sur l'idée que de telles corrélations sont ubiquistes, que pratiquement tous
les systèmes physiques doivent interagir d'une certaine manière avec leur environnement (par
exemple avec les photons environnant qui créent alors l'expérience visuelle de l'observateur) qui
consiste typiquement en un grand nombre de degrés de liberté qui sont difficilement totalement
contrôlés. C'est seulement dans des cas très particuliers de phénomènes typiquement
microscopiques (atomiques), tel que l'affirme le programme de décohérence, que l'idéalisation de
systèmes isolés est applicable et que les prédictions de la mécanique quantique linéaire (c'est-à-dire
une grand classe de superpositions d'états) peuvent réellement être confirmés par l'observation.
Dans la majorité des cas accessibles à notre expérience, cependant, l'interaction avec
l'environnement est si dominante qu'elle empêche l'observation du monde quantique "pur"
(Cisnerosy et al., 1998, Galindo et al., 1962, Giulini, 2000, Wick et al., 1952, 1970, Wightman,
2005) dans l'espace des états observables qui conduit à des états correspondant aux propriétés
"classiques" de notre expérience. Les interférences entre de tels états sont localement supprimées et
sont donc devenues inaccessibles à l'observateur.

L'aspect probablement le plus surprenant de la décohérence est l'efficacité des interactions système
- environnement. La décohérence a typiquement lieu sur des échelles de temps extrêmement
courtes et nécessite la présence de seulement un environnement minimal (Joos et Zeh, 1985). A
cause du grand nombre de degrés de liberté de l'environnement, il est habituellement très difficile
de démêler l'intrication système - environnement ce qui a été affirmé comme une source de notre
impression de l'irréversibilité de la nature (voir Zurek, 2003, et les références inclues). En général,
l'effet de la décohérence s'accroît avec la taille du système (des échelles microscopiques aux
macroscopiques) mais il est important de noter qu'il existe des exemples, considérés comme
quelque peu exotiques, où l'influence décohérente de l'environnement peut être suffisament
atténuée pour conduire à des superpositions mésoscopiques et même macroscopiques, par exemple
dans le cas des dispositifs supraconducteurs à interférences quantiques (SQUID) où la
superposition de courants macroscopiques devient observable. Inversement, certains systèmes
microscopiques (par exemple certaines molécules chirales qui existent dans différentes
configurations spatiales distinctes) peuvent être sujets à une décohérence remarquablement forte.

Le programme de décohérence traite des deux principales conséquences de l'interaction de


l'environnement :
1. Décohérence induite par l'environnement. La suppression locale rapide de l'interférence entre
les différents états du système. Cependant, puisque seule l'évolution unitaire dans le temps est
employée, une phase globale de cohérence n'est pas vraiment détruite. Elle devient absente de la
matrice de densité locale qui décrit le système seul mais reste entièrement présente dans la
composition totale système - environnement.

Notons que la persistance de la cohérence dans l'état total est importante pour assurer la
possibilité de décrire des cas spéciaux où des superpositions mésoscopiques ou macroscopiques
ont été expérimentalement réalisées.
2. Super sélection induite par l'environnement. La sélection des ensembles d'états privilégiés,
souvent appelée "pointeurs d'états", qui sont robustes (dans le sens de corrélations maintenues
dans le temps) en dépit de leur immersion dans l'environnement. Ces états sont déterminés par
la forme de l'interaction entre le système et son environnement et il est suggéré qu'ils
correspondent aux états "classiques" de notre expérience.

Finalement, insistons sur le fait que la décohérence vient d'une application directe du formalisme de
la mécanique quantique à une description de l'interaction des systèmes physiques avec leur
environnement. En elle-même la décohérence n'est donc ni une interprétation, ni une modification
de la mécanique quantique. Donc, les implications de la décohérence doivent être interprétées dans
le contexte des différentes interprétations de la mécanique quantique. Aussi, puisque les effets de la
décohérence ont été étudiés extensivement à la fois dans les modèles théoriques et expérimentaux
(pour un résumé, voir par exemple Joos et al., 2003, Zurek, 2003), leur existence peut être
considérée comme un fait bien confirmé.
VI.4.1. Résolution en sous systèmes
Notons que la décohérence dérive de la pré supposition de l'existence et de la possibilité d'une
division du monde en "système(s)" et "environnement". Dans le programme de décohérence, le
terme "environnement" est habituellement compris comme le "reste" du système dans le sens que
ses degrés de liberté ne sont typiquement pas (ou ne peuvent pas être ou n'ont pas besoin d'être)
contrôlés et ne sont pas directement pertinents pour l'observation considérée (par exemple, les
nombreux degrés de liberté microscopiques du système), mais que l'environnement inclut
néanmoins "tous ces degrés de liberté qui contribuent de manière significative à l'évolution de l'état
de l'appareil" (Zurek, 1981, p. 1520).

Ce dualisme système - environnement est généralement associé avec l'intrication quantique qui
décrit toujours une corrélation entre des parties de l'univers. Sans résoudre l'univers en sous
systèmes individuels, le problème de la mesure disparaît évidemment : le vecteur d'état ψ de
l'univers entier (si nous osons postuler cet état total , voir les contrarguments de Auletta (2000))
évolue de manière déterministe selon l'équation de Schrödinger ih∂ / ∂t ψ = H ψ qui ne pose
aucune difficulté d'interprétation. C'est seulement lorsque nous décomposons l'espace de Hilbert
des états totaux H de l'univers en un produit de deux espaces H 1 ⊗ H 2 et que nous formons le
vecteur d'état joint ψ = ψ 1 ψ 2 et que nous désirons décrire un état individuel (à coté de l'état
joint qui décrit une corrélation) d'un des deux systèmes (disons l'appareil) que le problème de la
mesure survient. Zurek (2003a, p. 718) pose cela comme :
En l'absence de système, le problème de l'interprétation semble disparaître. Il n'y a tout simplement
pas besoin de "réduction" dans un univers sans système. Notre expérience de la réalité classique ne
s'applique pas à l'univers comme un tout, vu de l'extérieur, mais aux systèmes contenus dedans.

De plus, des termes comme "observation", "corrélation" et "interaction" ont naturellement peu de
sens sans une division en systèmes. Zeh a suggéré que la localité de l'observateur définit une
observation dans le sens que toute observation vient de l'ignorance d'une partie de l'univers et que
cela définit aussi les "faits" qui peuvent se produire dans un système quantique. Landsman (1995,
pp. 45-46) affirme de manière similaire :
L'essence d'une "mesure", "fait", ou "événement" en mécanique quantique tient dans la non-
observation ou la non-pertinence d'une certaine partie du système en question (...) Un monde sans
parties déclarées ou forcées sans intérêt est un monde sans fait.

Cependant, la supposition d'une décomposition de l'univers en sous-systèmes, comme cela apparaît


être nécessaire pour l'émergence du problème de la mesure et pour la définition du programme de
décohérence, est définitivement non triviale. Par définition, l'univers comme un tout est un système
fermé et donc il n'y a pas de "degré de liberté non observé" d'un environnement externe ce qui
permettrait l'application de la théorie de la décohérence pour l'espace des observables quasi-
classiques de l'univers dans son entièreté. Ainsi, il n'existe pas de critère général sur comment
diviser l'espace de Hilbert en sous-systèmes, tandis qu'en même temps beaucoup de ce qui est
attribué comme une propriété du système dépendra de ses corrélations avec d'autres systèmes. Ce
problème devient particulièrement aigu si on désire la décohérence non seulement pour motiver les
explications de la perception subjective de la causalité (comme dans "l'interprétation existentielle
de Zurek", voir Zurek, 1993, 1998, 2003) mais également pour permettre la définition de "macro
faits" quasi-classiques. Zurek (1998, p. 1820) admet cette difficulté conceptuelle sévère :
En particulier, une question qui a souvent été considérée comme admise est fortement peu claire en
tant que fondation du programme de décohérence complet. C'est la question de savoir quels sont
les "systèmes" qui jouent un rôle aussi crucial dans toutes les discussions de la causalité
émergente. (...) [A] l'explication contraignante de ce que sont les systèmes, comment les définir
étant donné, disons, l'hamiltonien complet d'un espace de Hilbert suffisament grand, serait
indubitablement très utile.

Une idée fréquemment proposée est d'abandonner la notion d'une résolution "absolue" et à la place
de postuler la relativité intrinsèque des espaces d'états distincts et des propriétés qui émergent des
corrélations entre ces espaces définis relativement (voir, par exemple, les propositions, non reliées à
la décohérence, de Everett, 1957, Mermin, 1998, Rovelli, 1996). Ici, on peut utiliser la leçon
apprise de l'intrication quantique, c'est-à-dire accepter que ce soit une propriété intrinsèque de la
nature et ne pas voir ses implications contre intuitives, dans le sens non classique, comme des
paradoxes qui demandent une résolution plus importante, comme un signal que la vue relative des
systèmes et corrélations sont en effet un chemin satisfaisant afin d'arriver à une description de la
nature qui est complète et objective comme le domaine de notre expérience (qui est basée sur des
observations inévitablement locales) nous le permet.
VI.4.2. Le concept de matrice de densité réduite
Puisque les matrices de densité réduite sont un outil clef de la décohérence, il est intéressant de
résumer brièvement leurs propriétés de base et leur interprétation dans ce qui suit. Le concept de
matrice de densité réduite est relié aux débuts de la mécanique quantique (Furry, 1936, Landau,
1927, von Neumann, 1932, pour quelques remarques historiques, voir Pessoa Jr., 1998). Dans le
contexte d'un système de deux systèmes intriqués dans un état pur de type EPR :
(1) ψ
1
(
+1− 2− −1+ 2 )
2

Il a été réalisé très tôt que pour un observable O qui se rattache seulement au système 1,
Oˆ = Oˆ 1 ⊗ Iˆ2 où I est l'opérateur identité, la matrice de densité état pur ρ = ψ ψ conduit, selon la
règle de la trace O = Tr ( ρ O ) et étant donné la règle de Born usuelle pour le calcul des
probabilités, à exactement les mêmes statistiques que la matrice de densité réduite ρ1 qui est
obtenue en prenant la trace sur les degrés de liberté du système 2 (c'est à dire les états + 2
et − 2 )
(2) ρ1 = Tr2 ψ ψ = 2 + ψ ψ + 2 + 2 − ψ ψ − 2
puisque l'on montre facilement que pour cet observable O
(3) O ψ = Tr ( ρ O ) = Tr1 ( ρ1O1 )

Ce résultat est valable en général pour tout état pur ∑α φi φi 2 L φi d'une résolution d'un
{ } sont supposés former des bases orthonormales dans leurs
i i 1 N

système en N sous systèmes où les φ i j

espaces de Hilbert respectifs H j , j =1, ..., N. Pour tout observable O qui se rattache seulement au
système j, O = I 1 ⊗ I 2 L I j −1 ⊗ O j ⊗ I j +1 L ⊗ I N , les statistiques de O générées en appliquant la
règle de trace seront identiques que l'on utilise la matrice de densité d'état pur ρ = ψ ψ ou la
matrice de densité réduite ρ j = Tr1,K, j −1, j +1,K, N ψ ψ puisque à nouveau
O = Tr ( ρ O ) = Tr j (ρ j O j ).
La situation typique dans laquelle la matrice de densité réduite apparaît est la suivante. Avant une
interaction de type prémesure, les observateurs savent que chaque système individuel est dans un
certain état pur (inconnu). Après l'interaction, c'est à dire après que la corrélation entre les systèmes
est établie, l'observateur a accès seulement à un des systèmes, disons le système 1. Tout ce qui peut
être connu sur l'état du système composite doit donc être dérivé des mesures sur le système 1 qui
conduiront aux résultats possibles du système 1 et leur distribution de probabilité. Toute
information qui peut être extraite par l'observateur est alors exhaustivement et correctement
contenue dans la matrice de densité réduite du système 1 en supposant que la règle de Born pour les
probabilités quantiques soit valable.

Retournons à l'exemple type EPR, équations (1) et (2). Si nous supposons que les états du système
2 sont orthogonaux, 2 + − 2 = 0 , ρ1 devient diagonal,

(4) ρ1 = Tr2 ψ ψ =
1
(+ + )
1
+
1
( − − )1
2 2

Mais cette matrice de densité est formellement identique à la matrice de densité qui serait obtenue
si le système 1 était dans un état mixte, c'est-à-dire dans un des deux états + 1 et − 1 avec des
probabilités égales et où c'est une question d'ignorance de savoir dans quel état le système 1 est (ce
qui revient à une interprétation d'ignorance classique d'ensembles "propres"), par opposition à la
superposition ψ où les deux termes sont considérés présent ce qui pourrait en principe être
confirmé par des expériences d'interférences appropriées. Cela implique qu'une mesure d'un
observable qui se rattache seulement au système 1 ne peut pas distinguer entre les deux cas d'état
pur et mixte.

Comme discuté par Bub (1997, pp. 208-210), ce résultat est également valable pour tout observable
du système composite qui se factorise sous la forme O = O1 ⊗ O2 où O1 et O2 ne commutent pas
avec les opérateurs projections ( ± ± )
1
et ( ± ± )
2
respectivement.
Cependant, notons que l'identité formelle de la matrice de densité réduite à une matrice de densité
d'état mixte est facilement mal interprétée comme impliquant que l'état du système peut être vu
comme mixte aussi (voir aussi la discussion dans d'Espagnat, 1988). Mais les matrices de densité
sont seulement un outil de calcul pour calculer la distribution de probabilité pour l'ensemble des
résultats possibles des mesures. Elles ne spécifient donc pas l'état du système.

Dans ce contexte, nous notons que toute matrice d'état non pur peut être écrite de plusieurs
manières différentes, démontrant que toute partition dans un ensemble particulier d'états quantiques
est arbitraire.

Puisque les deux systèmes sont intriqués et que le système composite total est encore décrit par une
superposition, il suit des règles standards de la mécanique quantique qu'aucun état individuel défini
ne peut être attribué à un des systèmes. La matrice de densité réduite ressemble à une matrice de
densité mixte car si on mesure réellement un observable du système, on devrait s'attendre à avoir un
résultat défini avec une certaine probabilité. En termes de mesures statistiques, cela est équivalent à
une situation où le système était dans un des états de l'ensemble possible des résultats depuis le
début, c'est à dire avant la mesure. Comme Pessoa Jr. (1998, p. 432) le dit,
Prendre une trace partielle revient à une version statistique du postulat de projection.
VI.4.3. Un schéma de mesure de von Neumann modifié
Reconsidérons maintenant le modèle de von Neumann de la mesure quantique idéale, mais
maintenant avec l'environnement inclut. Nous désignerons l'environnement par E et nous
représenterons son état avant l'interaction de mesure par le vecteur d'état initial E 0 dans un
espace de Hilbert H E . Comme d'habitude nous supposerons que l'espace d'état de l'objet composite
système - environnement - appareil est donné par le produit tensoriel des espaces de Hilbert
individuel, H S ⊗ H A ⊗ H E . La linéarité de l'équation de Schrödinger conduit alors à l'évolution
dans le temps suivante du système entier S-A-E,
  (1)   (2 )  
(1)  ∑ c n S n  Ar E 0 →  ∑ c n S n An  E 0 →  ∑ c n S n An E n 
 n   n   n 
où les E n sont les états de l'environnement associés avec les différents états pointeurs An de
l'appareil de mesure. Notons que tandis que pour deux systèmes, disons S et A, il existe toujours
une décomposition diagonale ("Schmidt") de l'état final de la forme ∑ c n S n An , pour les trois
n

sous systèmes (par exemple S, A et E), une décomposition de la forme ∑c


n
n S n An E n n'est pas

toujours possible. Cela implique que l'hamiltonien complet qui induit une évolution dans le temps
du type ci-dessus, équation (1), doit être d'une forme spéciale.

Pour un exemple d'un tel hamiltonien, voir le modèle de Zurek (1981, 1982). Pour un commentaire
critique concernant les limitations sur la forme de l'opérateur évolution et la possibilité d'un
désaccord résultant avec l'évidence expérimentale, voir Pessoa Jr. (1998).

Typiquement, les E n seront des états produits de plusieurs états de sous-systèmes microscopiques
εn i
correspondant aux parties individuelles qui forment l'environnement, c'est-à-dire
E n = ε n 1 ε n 2 ε n 3 L . Nous voyons qu'une corrélation non séparable et, dans la plus part des
cas, dans tous les cas pratiques (à cause du nombre énorme de degrés de liberté de
l'environnement), irréversibles entre les états de la combinaison système - appareil avec les
différents états de l'environnement E a été établie. Notons que l'équation (1) implique aussi que
l'environnement a enregistré l'état de la composition système - appareil. L'environnement agit donc
comme un dispositif de mesure amplificateur d'ordre élevé (puisqu'il est composé de plusieurs
sous-systèmes).
VI.4.4. Décohérence et suppression locale d'interférence
L'interaction avec l'environnement conduit typiquement à une annulation rapide des termes
diagonaux dans la matrice de densité locale décrivant la distribution de probabilité pour le résultat
des mesures sur le système. Cet effet est maintenant connu comme la décohérence induite par
l'environnement et il a aussi fréquemment été affirmé impliquer une résolution au moins partielle
du problème de la mesure.
VI.4.4.1. Formalisme général
Plus haut, nous avons déjà introduit le concept de matrices de densité locales (ou réduites) et
indiqué leur cadre interprétatif. Dans le contexte du programme de décohérence, les matrices de
densité réduites apparaissent comme suit. Toute observation sera typiquement restreinte à la
composante système - appareil, S-A, tandis que les nombreux degrés de liberté de l'environnement
E restent inobservés. Bien sûr, typiquement certains degrés de liberté de l'environnement seront
toujours inclus dans notre observation (par exemple certains des photons diffusés par l'appareil) et
nous les inclurons donc dans "la partie S-A observée de l'univers". Le point crucial est qu'il reste un
nombre considérablement plus grand de degrés de liberté de l'environnement qui ne sont pas
observés directement.

Supposons alors que l'opérateur OSA représente un observable de S-A seulement. Sa valeur
moyenne OSA est donnée par
(1) OSA = Tr ( ρ SAE [OSA ⊗ I E ]) = TrSA ( ρ SA OSA )
où la matrice de densité ρ SAE de la combinaison totale S-A-E
(2) ρ SAE = ∑ c m c n∗ S m Am E m S n An E n
m,n

a, dans tout cas pratique de prédiction statistique, été remplacée par la matrice de densité locale (ou
réduite) ρ SA obtenue en "prenant la trace des degrés de liberté inobservés de l'environnement",
c'est-à-dire
(3) ρ SA = TrE ( ρ SAE ) = ∑ c m c n∗ S m Am S n An E n E m
m ,n

Jusqu'ici, ρ SA contient des termes caractéristiques d'interférence S m Am S n An , m ≠ n ,


puisque nous ne pouvons pas supposer a priori que les vecteurs de vase E m de l'environnement
sont nécessairement orthogonaux, c'est-à-dire que E n E m = 0 si m ≠ n . Plusieurs modèles
physiques explicites pour l'interaction d'un système avec l'environnement ont cependant montré
qu'à cause du grand nombre de sous-systèmes qui composent l'environnement, les états pointeurs
E n de l'environnement approchent rapidement de l'orthogonalité E n E m (t ) → δ n, m et ainsi la
matrice de densité réduite ρ SA devient approximativement orthogonale dans la "base de pointeurs"
{ A }, c'est-à-dire
n
(t )
(4) ρ SA → ρ SA ~ ∑ cn S n An S n An = ∑ c n Pn(S ) ⊗ Pn( A )
d 2 2

n n

Ici, Pn(S ) et Pn( A ) sont les projecteurs sur les états propres de S et A respectivement. Donc les termes
d'interférence ont disparus dans cette représentation locale, c'est-à-dire que la cohérence de phase a
été totalement perdue. C'est précisément l'effet appelé décohérence induite par l'environnement. La
matrices de densité locale décohérée décrivant la distribution de probabilité des résultats d'une
mesure sur la combinaison système - appareil est formellement (approximativement) identique à la
matrice de densité d'états mixtes. Mais comme nous l'avons signalé plus haut, nous devons
interpréter avec précaution cet état des choses car la cohérence complète est gardée dans la matrice
de densité totale ρ SAE .
VI.4.4.2. Un modèle a deux états parfaitement soluble pour la
décohérence
Pour voir comment l'orthogonalité mutuelle approximative des vecteurs d'états se produit, discutons
d'un modèle simple qui fut d'abord introduit par Zurek (1982). Considérons un système S avec des
{ }
états à deux spins ⇑ , ⇓ qui interagissent avec l'environnement E décrit par une collection de N
{ }
autres spins à deux états représentés par ↑ k , ↓ k , k = 1, ..., N. Les hamiltoniens propres H S et
H E et l'hamiltonien d'auto-interaction H EE de l'environnement sont posés égaux à zéro. Seul
l'hamiltonien d'interaction H SE qui décrit le couplage du spin du système aux spins de
l'environnement est supposé non nul et de la forme
( ) (
(1) H SE = ⇑ ⇑ − ⇓ ⇓ ⊗ ∑ g k ↑ k ↑ k − ↓ k ↓ k ⊗ I k ′ ) k ′≠ k
k

où les g k sont les constantes de couplage et I k = ↑ k ↑ k + ↓ k ↓ k est l'opérateur identité pour


le spin k de l'environnement. Appliqué à l'état initial avant que l'interaction n'intervienne,
( )⊗ (α )
N
(2) ψ (0 ) = a ⇑ + b ⇓ k ↑k + β k ↓k
k =1
cet hamiltonien conduit à une évolution dans le temps de l'état donnée par
(3) ψ (t ) = a ⇑ E⇑ (t ) + b ⇓ E ⇓ (t )
où les deux états environnements E⇑ (t ) et E ⇓ (t ) sont

( )
N
(4) E⇑ (t ) = E⇓ (− t ) = ⊗ α k exp(ig k t ) ↑ k + β exp(− ig k t ) ↓ k
k =1

La matrice de densité réduite ρ S (t ) = TrE ( ψ (t ) ψ (t ) ) est alors


(5) ρ S (t ) = a ⇑ ⇑ + b ⇓ ⇓ + z (t )ab ∗ ⇑ ⇓ + z ∗ (t )a ∗ b ⇓ ⇑
2 2

où le coefficient d'interférence z (t ) qui détermine le poids des éléments non diagonaux dans la
matrice de densité réduite est donné par
N
(6) z (t ) = E⇑ (t ) E ⇓ (t ) = ∏ α k exp(ig k t ) + β k exp(− ig k t )
2 2

k =1

Et donc
( ) − 1 sin
N
(7) z (t ) = ∏1 +  α k
2 2
− βk
2 2 2
2g k t
k =1


A t = 0, z (t ) = 1 , c'est-à-dire que les termes d'interférence sont totalement présents, comme attendu.
Si α k
2
= 0 ou 1 pour chaque k, c'est-à-dire si l'environnement est un état propre de l'hamiltonien
d'interaction H SE du type ↑1 ↑ 2 ↑ 3 L ↑ N , et/ou si 2 g k t = mπ (m = 0, 1, ...), alors z (t ) = 1 et
2

la cohérence est maintenue au cours du temps. Cependant, dans des circonstances réalistes, nous
pouvons typiquement supposer une distribution aléatoire des états initiaux de l'environnement
(c'est-à-dire des coefficients α k , β k ) et des coefficients de couplage g k . Alors, pour la moyenne à
longue durée,
( ) → 0
N
(8) z (t ) ≅ 2 − N ∏1 + α k
2 2
− βk N →∞
2 2

t →∞ k =1
ainsi les éléments non diagonaux dans la matrice de densité réduite sont fortement amortis pour de
grands N.

On peut aussi montrer qu'étant donné des hypothèses très générales, sur la distribution des
couplages g k (précisément en demandant que leur distribution initiale ait une variance finie, par
exemple une distribution statistique gaussienne), z (t ) exhibe une dépendance gaussienne du temps
( )
de la forme z (r ) ~ exp(iAt ) exp − B 2 t 2 / 2 , où A et B sont des constantes réelles (Zurek et al.,
2003). Pour le cas particulier où α k = α et g k = g pour tout k, ce comportement de z (t ) peut être
vu immédiatement en réécrivant d'abord z (t ) comme le développement binomial
(
z (t ) = α exp(igt ) + β exp(− igt )
2 2
)
N

(9) N
N 2 ( N −l )
= ∑   α β exp(ig (2l − N )t )
2l

l =0  l 

Pour de grands N, la distribution binomiale peut être approchée par une gaussienne

 N  2l 2 ( N −l )
exp − l − N α

2 2
(
/ 2 N α β 
2 2


) ( )
(10)   α β ≈
l 2πN α β
2 2

auquel cas z (t ) devient

N

(
exp − l − N α ) /(2 N α
2 2 2
β
2
)
(11) z (t ) = ∑ exp(ig (El − N )t )
2πN α β
2 2
l =0

c'est-à-dire que z (t ) est la transformée de Fourrier d'une distribution (approximativement)


gaussienne et est donc elle-même (approximativement) gaussienne.

Les calculs détaillés du modèle, où l'environnement est typiquement représenté par un modèle plus
sophistiqué consistant en une collection d'oscillateurs harmoniques (Caldeira et Leggett, 1993, Hu
et al., 1992, Joos et al., 2003, Unruh et Zurek, 1989, Zurek, 2003, Zurek et al, 2003), ont montré
que l'amortissement se produit sur des échelles de temps extrêmement courtes τ D qui sont
typiquement plusieurs ordres de grandeur plus court que la relaxation thermique. Même des
systèmes microscopiques tel que de grandes molécules perdent rapidement leur cohérence par
interaction avec le rayonnement thermique sur une échelle de temps qui est dans tous les cas
d'observation pratique beaucoup plus court que toute observation ne pourrait le résoudre. Pour des
systèmes mésoscopiques tel que des particules de poussière, le rayonnement cosmologique à 3K est
suffisant pour conduire à une décohérence forte et immédiate (Joos et Zeh, 1985, Zurek, 1991).
En τ D , z (t ) approche de zéro et reste proche de zéro, fluctuant avec une déviation standard
moyenne de type marche aléatoire σ ~ N (Zurek, 1982). Cependant, la périodicité multiple de
z (t ) implique que la cohérence et donc la pureté de la matrice de densité réduite réapparaîtra après
un certain temps τ r que l'on peut montrer être très long et du type temps de récurrence de Poincaré
avec τ r ~ N ! . Pour des environnements macroscopiques de tailles réalistes mais finies, τ r peut
excéder l'âge de l'univers (Zurek, 1982) mais rester néanmoins finie.

D'un point de vue conceptuel, la récurrence de la cohérence est de peu d'importance. Le temps de
récurrence pourrait seulement être infiniment long dans le cas hypothétique d'un environnement
infiniment grand; dans cette situation les termes non diagonaux dans la matrice de densité réduite
seraient irréversiblement amortis et perdus à la limite t → ∞ ce qui est quelque fois vu comme
décrivant une réduction physique du vecteur d'état (Hepp, 1972). Mais ni la supposition de taille ou
de temps infinis ne sont réalisés dans la nature (Bell, 1975), et l'information ne peut pas vraiment
être perdue (comme cela se produit avec une "vraie" réduction du vecteur d'état) via une évolution
unitaire du temps, la cohérence complète est toujours entièrement retenue à tout moment dans la
matrice de densité totale ρ SAE (t ) = ψ (t ) ψ (t ) .

Nous pouvons donc dire la conclusion générale que, excepté pour des systèmes microscopiques ou
mésoscopiques isolés et préparés avec précaution, l'interaction du système avec l'environnement
conduit les éléments non diagonaux de la matrice de densité locale, exprimée dans la base des
pointeurs et décrivant la probabilité de distribution des résultats possibles d'une mesure sur le
système, à devenir extrêmement petits en un temps très court et que ce processus est irréversible
dans toutes les situations pratiques.
VI.4.5. Supersélection induite par l'environnement
Revenons à la deuxième principale conséquence de l'interaction avec l'environnement, c'est-à-dire
la sélection induite par l'environnement des états de base stables privilégiés. Nous avons discuté
plus haut que le schéma de mesure de la mécanique quantique comme représenté par l'équation de
mesure ne définit pas de manière unique le développement des états après mesure, et donc laisse
ouverte la question des observables qui peuvent être considérés comme ayant été mesurés par
l'appareil. Cette situation est changée par l'inclusion des états d'environnement pour les deux
raisons suivantes :
1. Supersélection induite par l'environnement d'une base privilégiée. L'interaction entre l'appareil
et l'environnement distingue un ensemble d'observables mutuellement commutants.
2. L'existence d'un théorème d'unicité de tridécomposition (Bub, 1997, Clifton, 1995, Elby et Bub,
1994). Si un état ψ dans un espace de Hilbert H 1 ⊗ H 2 ⊗ H 3 peut être décomposé sous
forme diagonale ("Schmidt") ψ = ∑i α i φ i 1
φi 2
φi 3
, le développement est unique pourvu
{ } et {φ } soient des ensembles de vecteurs normalisés, linéairement
que les φ i 1 i 2

indépendants dans H et H , respectivement, et que {φ } soit un ensemble de vecteurs


1 2 i 3

normalisés non mutuellement colinéaires dans H 3 . Cela peut être généralisé à un théorème
d'unicité de N-décomposition où N ≥ 3 . Notez qu'il n'est pas toujours possible de décomposer
un état pur arbitraire de plus de deux systèmes ( N ≥ 3 ) sous la forme de Schmidt
| ψ = ∑i α i φ i 1 φ i 2 L φ i N , mais si la décomposition existe, son unicité est garantie.

Le théorème d'unicité de tridécomposition assure que le développement de l'état final dans


l'équation de mesure avec environnement est unique, ce qui fixe l'ambiguïté dans le choix de
l'ensemble des résultats possibles. Il démontre que l'inclusion de (au moins) un troisième "système"
(ici identifié comme l'environnement) est nécessaire pour éliminer l'ambiguïté de la base.

Bien sûr, étant donné tout état pur dans l'espace de Hilbert composite H 1 ⊗ H 2 ⊗ H 3 , le théorème
d'unicité de tridécomposition ne nous dit pas si une décomposition de Schmidt existe ni ne spécifie
le développement unique lui-même (pourvu que la décomposition soit possible) et puisque les états
précis de l'environnement ne sont généralement pas connus, un critère additionnel est nécessaire
pour déterminer quels seront les états privilégiés.
VI.4.5.1. Critère de stabilité et base de pointeurs
Le programme de décohérence a tenté de définir un tel critère basé sur l'interaction avec
l'environnement et l'idée d'une robustesse et de la préservation des corrélations. L'environnement
joue donc un double rôle en suggérant une solution au problème de la base privilégiée et en
garantissant son unicité via le théorème d'unicité de tridécomposition.

Afin de motiver l'approche de supersélection d'une base proposée par le programme de


décohérence, nous notons que dans la deuxième étape de l'équation de mesure avec environnement,
nous avons supposé tacitement que l'interaction avec l'environnement ne perturbe pas la corrélation
établie entre l'état du système, S n , et l'état pointeur correspondant An . Cette supposition peut
être vue comme une généralisation du concept de "mesure fidèle" du cas réaliste où
l'environnement est inclus. La mesure fidèle dans le sens habituel concerne l'étape (1), c'est-à-dire
la nécessité que l'appareil de mesure A agit comme un "miroir" fiable des états du système S en
formant seulement des corrélations de la forme S n An mais pas S m An avec m ≠ n . Mais
puisque des processus de mesure réaliste doivent inclure le couplage inévitable de l'appareil à son
environnement, la mesure pourrait difficilement être considérée comme totalement fidèle si
l'interaction avec l'environnement perturbe les corrélations entre le système et l'appareil.

Pour les limitations fondamentales sur la précision des mesures de von Neumann d'opérateurs qui
ne commutent pas avec une quantité globalement conservée, voir le théorème Wigner - Araki -
Yanase (Araki et Yanase, 1906, Wigner, 1952).

Il fut donc suggéré d'abord par Zurek (1981) de prendre la base de pointeurs privilégiée comme la
base qui "contient un enregistrement fiable de l'état du système S" (op.cit. p.1519), c'est-à-dire la
base dans laquelle les corrélations systèmes - appareils S n An sont laissées non perturbées par la
formation subséquente de corrélations avec l'environnement ("critère de stabilité"). Un critère
suffisant pour des états pointeurs dynamiquement stables qui préserve les corrélations système -
appareil en dépit des interactions de l'appareil avec l'environnement est alors trouvé en exigeant que
tous les opérateurs projections des états pointeurs Pn( A ) = An An commutent avec l'hamiltonien
d'interaction appareil - environnement H AE .

Pour la simplicité, nous supposons que l'environnement E interagit directement seulement avec
l'appareil mais pas avec le système S.

C'est-à-dire :
[ ]
(1) Pn( A ) , H AE = 0 pour tout n

Cela implique que toute corrélation du système mesuré (ou de tout autre système, par exemple un
observateur) avec les états propres d'un observable appareil privilégié,
(2) O A = ∑ λ n Pn( A )
n

est préservée et que les états de l'environnement reflètent fidèlement les états pointeurs Pn( A ) . Dans
ce cas, l'environnement peut être vu comme effectuant une mesure non destructive sur l'appareil.
L'exigence de commutativité, équation (1), est évidemment satisfaite si H AE est une fonction de
O A , H AE = H AE (O A ) . Inversement, les corrélations système - appareil où les états de l'appareil ne
sont pas des états propres d'un observable qui commute avec H AE seront en général rapidement
détruites par l'interaction.

Vu d'une autre manière, cela implique que l'environnement détermine à travers la forme de
l'hamiltonien d'interaction H AE un observable appareil privilégié O A , équation (2), et donc aussi
les états du système qui sont mesurés par l'appareil, c'est-à-dire fidèlement enregistré via la
formation de corrélations quantiques dynamiquement stables. Le théorème d'unicité de
tridécomposition garantit alors l'unicité du développement de l'état final ψ = ∑n c n S n An E n
(où aucune contrainte sur les c n ne doit être imposée) et donc l'unicité de la base de pointeurs
privilégiée.
A côté de l'exigence de commutativité, équation (1), d'autres critères (similaires) ont été suggérés
pour la sélection de la base de pointeurs privilégiés car il s'avère que dans les cas réalistes la simple
relation de l'équation (1) peut habituellement seulement être approximativement satisfaite (Zurek,
1993, Zurek et al, 1993). Des critères plus généraux, par exemple basés sur l'entropie de von
Neumann, − Tr ρ φ2 (t ) ln ρ φ2 (t ) , ou la pureté, − Tr ρ φ2 (t ) , qui soutiennent le but de trouver les états
les plus robustes (ou les états qui deviennent moins intriqués avec l'environnement au cours de
l'évolution), ont été suggérés (Zurek, 1993, 1998, 2003, Zurek et al, 1993). Les états pointeurs sont
obtenus par un extremum sur la mesure (c'est-à-dire en minimisant l'entropie ou en maximisant la
pureté, etc.) sur l'état initial ψ et en exigeant que les états résultant soient robustes en faisant
varier t. L'application de cette méthode conduit à un classement des états pointeurs possibles par
rapport à leur "classicalité", c'est-à-dire leur robustesse par rapport à l'interaction avec
l'environnement et permet donc la sélection de la base de pointeurs privilégiée basée sur les états
pointeurs "les plus classiques" ("crible de prédicabilité", voir Zurek, 1993, Zurek et al, 1993). Bien
que les critères proposés diffèrent quelque peu et que d'autres critères significatifs pourraient être
suggérés dans le futur, on espère que dans la limite macroscopique les états pointeurs stables
résultant obtenus selon différents critères s'avèrent être très similaires (Zurek, 2003). Pour certains
modèles élémentaires (en particulier pour les modèles d'oscillateurs harmoniques qui conduisent à
des états cohérents pour les états pointeurs), cela a déjà été vérifié explicitement (voir Joos et al,
2003, Diosi et Kiefer, 2000 et références inclues).
VI.4.5.2. Sélection et propriétés quasi classiques
Les hamiltoniens d'interaction système - environnement décrivent souvent un processus de collision
de particules environnantes (photons, molécules d'air, etc.) avec le système étudié. Puisque les lois
des forces décrivant de tels processus dépendent typiquement d'une certaine puissance de la
distance (tel que la loi en ∝ r −2 de la loi de Newton ou de Coulomb), l'hamiltonien d'interaction
commutera habituellement avec la base position, et donc, selon l'exigence de commutativité de
l'équation (1) de la section précédente, la base privilégiée sera dans l'espace position. Le fait que la
position soit fréquemment la propriété déterminée de notre expérience peut être expliqué en se
rapportant à la dépendance de la plus part des interactions avec la distance (Zurek, 1981, 1982,
1991).

Cela est valable en particulier pour les systèmes mésoscopiques et macroscopiques, comme cela fut
démontré par exemple par l'étude pionnière de Joos et Zeh (1985) où les photons environnant et les
molécules d'air sont montrés "mesurer" continûment la structure spatiale des particules de poussière
conduisant à une rapide décohérence en une mixture apparente (c'est-à-dire impropre) de paquets
d'ondes qui sont fortement concentrés dans l'espace position. Des résultats similaires sont même
quelque fois valables pour des systèmes microscopiques (qui sont habituellement trouvés dans les
états propres de l'énergie, voir ci-dessous) quand ils se produisent dans des structures spatiales
distinctes qui sont fortement couplées au médium environnant. Par exemple, les molécules chirales
tel que le sucre sont toujours observées dans des états propres de chiralité (gauche et droit) qui sont
des superpositions de différents états propres de l'énergie (Harris et Stodolsky, 1981, Zeh, 1999).
Cela est expliqué par le fait que la structure spatiale de ces molécules est "guidée" continûment par
l'environnement, par exemple à travers la diffusion de molécules d'air qui conduisent à un couplage
beaucoup plus fort que celui qui serait typiquement obtenu par un dispositif de mesure qui était
destiné à mesurer, par exemple, la parité ou l'énergie. De plus toutes tentatives pour préparer de
telles molécules dans des états propres de l'énergie conduirait immédiatement à une décohérence
vers des états propres environnalement stables ("dynamiquement robustes") sélectionnant donc la
position comme la base privilégiée.

D'un autre coté, il est bien connu que plusieurs systèmes, particulièrement dans le domaine
microscopique, sont typiquement trouvés dans des états propres de l'énergie, même si l'hamiltonien
d'interaction dépend d'un observable différent de l'énergie, par exemple la position. Paz et Zurek
(1999) ont montré que cette situation se produit quand les fréquences dominantes présentes dans
l'environnement sont significativement plus basses que la fréquence intrinsèque du système, c'est-à-
dire quand la séparation entre les états propres d'énergie du système est plus grande que la plus
grande énergie disponible dans l'environnement. Alors l'environnement sera seulement capable de
guider des quantités qui sont constantes avec le mouvement conduisant donc à une supersélection
induite par l'environnement d'états propres de l'énergie pour le système.

Un autre exemple de supersélection induite par l'environnement qui a été étudié est relié au fait que
seuls les états propres de l'opérateur de charge sont observés mais jamais de superposition de
différentes charges. L'existence des règles de supersélection correspondantes furent d'abord
seulement postulées (Wick et al, 1952, 1970) mais pourraient être effectivement expliquées dans le
cadre de la décohérence en se reportant à l'interaction de la charge avec son propre champ (lointain)
de Coulomb qui prend le rôle d'un "environnement", conduisant à la décohérence immédiate des
superpositions de charge en une mixture apparente d'états propres de la charge (Giulini, 2000,
Giulini et al, 1995).

En général, trois cas différents ont typiquement été distingués (par exemple, dans Paz et Zurek,
1999) pour les types d'observables pointeurs émergeant de l'interaction avec l'environnement selon
la force relative de l'hamiltonien du système H S et de l'hamiltonien d'interaction système -
environnement H SE :
1. Quand les dynamiques du système sont dominées par H SE , c'est-à-dire l'interaction avec
l'environnement, les états pointeurs seront des états propres de H SE (et donc typiquement des
états propres de position). Ce cas correspond au dispositif de mesure quantique typique. Voir,
par exemple, le modèle de Zurek (1981, 1982) et son résumé ci-dessus.
2. Quand l'interaction avec l'environnement est faible et que H S domine l'évolution du système
(c'est-à-dire quand l'environnement est "lent" dans le sens ci-dessus), un cas qui se produit
fréquemment dans le domaine microscopique, les états pointeurs qui apparaissent sont des états
propres de l'énergie de H S (Paz et Zurek, 1999).
3. Dans le cas intermédiaire, quand l'évolution du système est gouvernée par H SE et H S d'une
manière approximativement égale, les états privilégiés résultant représentent un "compromis"
entre les deux premiers cas, par exemple, le modèle fréquemment étudié de mouvement
brownien quantique a montré l'émergence d'états pointeurs localisés dans l'espace des phases,
c'est-à-dire à la fois du moment et de la position, dans une telle situation (Eisert, 2004, Joos et
al, 2003, Unruh et Zurek, 1989, Zurek, 2003, Zurek et al, 1993).
VI.4.5.3. Implications pour le problème de la base privilégiée
L'idée du programme de décohérence que la base privilégiée est sélectionnée par l'exigence que les
corrélations soient préservées en dépit de l'interaction avec l'environnement et donc choisi à travers
la forme de l'hamiltonien interaction système - environnement, semble certainement raisonnable
puisque seuls de tels états "robustes" seront en général observables, et après tout nous demandons
seulement une explication pour nos expériences (voir la discussion plus haut). Bien que seuls des
exemples particuliers aient été étudiés (pour un survol et des références, voir par exemple
Blanchard et al, 2000, Joos et al, 2003, Zurek, 2003), les résultats suggèrent donc fortement que les
propriétés sélectionnées sont en accord avec nos observations : pour des objets mésoscopiques et
macroscopiques les interactions de collision dépendant de la distance avec les molécules d'air
environnantes, les photons, etc. conduira en général à une décohérence immédiate en paquets
d'ondes spatialement localisés comme base privilégiée. D'un autre coté, quand l'environnement
est assez "lent", comme dans le cas fréquent des systèmes microscopiques, la supersélection induite
par l'environnement conduira typiquement à des états propres de l'énergie comme états privilégiés.

Le mérite clair de l'approche de la supersélection induite par l'environnement réside dans le fait que
la base privilégiée n'est pas choisie d'une manière ad hoc comme pour simplement rendre nos
mesures déterminées ou comme pour totalement correspondre à nos expériences de la manière dont
les quantités physiques sont habituellement perçues comme déterminées (par exemple la position).
A la place, la sélection est motivée par des bases physiques indépendantes de l'observateur,
précisément à travers l'hamiltonien d'interaction système - environnement. Le vaste espace des
superpositions possibles de la mécanique quantique est fortement réduit car les lois gouvernant les
interactions physiques dépendent seulement de quelques quantités physiques (position, moment,
charge, etc.) et le fait que ce sont précisément les propriétés qui nous apparaissent déterminées est
expliqué par la dépendance de la base privilégiée à la forme de l'interaction. L'apparence de
"classicalité" est donc basée sur la structure des lois physiques - une approche certainement très
satisfaisante et raisonnable.

L'argument ci-dessus en faveur de l'approche de la supersélection induite par l'environnement


pourrait bien sûr être considérée comme inadéquate à un niveau fondamental : toutes les lois
physiques sont découvertes et formulées par nous, ainsi elles peuvent seulement contenir les
quantités déterminées par notre expérience car ce sont les seules quantités que nous pouvons
percevoir et donc inclure dans une loi physique. Donc la dérivation du caractère déterminé à partir
de la structure de nos lois physiques peut sembler circulaire. Cependant, nous affirmons à nouveau
qu'il suffit de demander une solution subjective au problème de la base privilégiée, c'est-à-dire de
fournir une réponse à la question pourquoi nous percevons seulement un petit sous-ensemble de
propriétés comme déterminées, pas si ce sont réellement des propriétés déterminées (à un niveau
ontologique) et ce qu'elles sont (voir la remarque dans la section sur les valeurs objectives et
subjectives). Qui plus est la modification arbitraire des lois physiques, même en y incluant des
grandeurs difficilement mesurables (car non décohérées, par exemple les valeurs propres d'une base
obtenue à partir de la base position par des superpositions), donne indubitablement des résultats
différents qui sont objectivement mesurables. Les modifications mathématiques arbitraires
permettant à une loi physique donnée de conduire à des résultats identiques sont clairement
contraintes et ne laissent pas beaucoup de portes ouvertes. Cela donne une certaine confiance aux
lois physiques déduites de nos expériences. Cette possibilité mériterait toutefois une investigation
plus approfondie.

Nous pouvons aussi nous inquiéter de la généralité de cette approche. On aurait besoin de montrer
que toute supersélection induite par l'environnement conduit en fait précisément à ces propriétés
qui nous apparaissent déterminées. Mais cela nécessiterait la connaissance précise du système de
l'hamiltonien d'interaction. Pour de simples modèles élémentaires, les hamiltoniens pertinents
peuvent être écrits explicitement. Dans les cas plus compliqués et réalistes, ce sera en général très
difficile si pas impossible puisque la forme de l'hamiltonien dépendra des systèmes particuliers ou
des appareils et de l'environnement guide considéré où en plus l'environnement n'est pas seulement
difficile à définir précisément mais change aussi continuellement, est incontrôlable et par essence
infiniment grand.

Mais la situation n'est pas aussi désespérée qu'elle puisse sembler, puisque nous savons que
l'hamiltonien d'interaction sera en général basé sur l'ensemble des lois physiques connues qui en
retour emploient seulement un nombre relativement petit de quantités physiques. Aussi longtemps
que nous supposons le critère de stabilité et que nous considérons l'ensemble des quantités
physiques connues, nous pouvons automatiquement anticiper la base privilégiée comme un membre
de cet ensemble. La question restante, bien que très pertinente, est alors, cependant, quel sous-
ensemble de ces propriétés sera choisi dans une situation physique spécifique (par exemple, le
système sera-t-il trouvé de préférence dans un état propre de l'énergie ou de la position ?) et à quel
point cela correspondra-t-il à l'évidence expérimentale ? Pour donner une réponse, une
connaissance plus détaillée de l'hamiltonien d'interaction et de sa force relative par rapport à
l'hamiltonien du système sera habituellement nécessaire afin de vérifier cette approche. D'autre
part, comme mentionné plus haut, il existe d'autres critères que l'exigence de commutativité et il n'a
pas encore été totalement exploré si tous conduisent aux même propriétés déterminées.

Finalement, une difficulté conceptuelle fondamentale de l'approche basée sur la décohérence pour
le problème de la base privilégiée est le manque de critère général pour ce qui définit les systèmes
et les degrés de liberté "non observés" de "l'environnement" (voir la discussion dans la section sur
la résolution en sous-systèmes). Bien que dans plusieurs situations de type laboratoire, la séparation
entre système et environnement puisse venir naturellement, il n'est pas clair a priori comment les
observables quasi-classiques peuvent être définis à travers la supersélection induite par
l'environnement sur des échelles plus grandes et plus générales, c'est-à-dire quand une plus grande
partie de l'univers est considérée où la séparation en sous-systèmes n'est pas suggérée par une
disposition spécifique système - appareil - environnement.

Pour résumer, la supersélection induite par l'environnement d'une base privilégiée (i) propose une
explication pourquoi une base de pointeurs particulière est choisie parmi toutes, précisément, en
affirmant que seule la base de pointeurs qui conduit à un enregistrement stable et donc perceptible
quand l'interaction de l'appareil avec l'environnement est prise en compte; et (ii) elle affirme que les
bases privilégiées correspondent à un sous-ensemble de l'ensemble des propriétés déterminées de
notre expérience, puisque l'hamiltonien d'interaction qui gouverne dépendra seulement de ces
quantités. Mais elle ne nous dit pas en général quelle base de pointeurs sera précisément
sélectionnée dans toute situation physique. Il sera habituellement difficilement possible d'écrire
explicitement l'hamiltonien d'interaction pertinent dans les cas réalistes. Cela implique aussi qu'il
sera difficile d'affirmer que tout critère proposé basé sur l'interaction avec l'environnement conduira
toujours et en toute généralité aux propriétés précises que nous percevons comme déterminées.

Du travail reste donc à faire pour pleinement explorer la validité générale et l'applicabilité de
l'approche de la supersélection induite par l'environnement. Mais puisque les résultats obtenus
jusqu'ici sur des modèles élémentaires ont été trouvés en accord prometteur avec les données
empiriques, il y a peu de raison de douter que le programme de décohérence ait proposé un critère
très plausible pour expliquer l'émergence des états privilégiés et de leur robustesse. Le fait que
l'approche soit dérivée de principes physiques devrait être pris en compte en plus en sa faveur.
VI.4.5.4. Base de pointeurs vs états instantanés de Schmidt
Les bases dites de Schmidt, obtenues en diagonalisant la matrice de densité (réduite) du système à
chaque instant du temps ont été fréquemment étudiées par rapport à leur capacité à donner une base
privilégiée (voir, par exemple, Albrecht, 1992, 1993, Zeh, 1973) et a conduit certains à considérer
les bases de Schmidt comme décrivant des "états pointeurs instantanés" (Albrecht, 1992).
Cependant, comme cela a été souligné (par exemple par Zurek, 1993), toute matrice de densité est
diagonale dans une certaine base et cette base ne jouera pas en général de rôle interprétatif spécial.
Les états pointeurs qui sont supposés correspondre à des observables stables quasi-classiques
doivent être dérivés d'un critère explicite de classicalité (typiquement, le critère de stabilité). La
simple procédure de diagonalisation mathématique de la matrice de densité instantanée ne suffira
en général pas à déterminer les bases de pointeurs quasi classiques (voir les études de Barvinsky et
Kamenshchik, 1995, Kent et McElwaine, 1997).

Dans une méthode plus raffinée, on évite de calculer les états de Schmidt instantanés et on autorise
à la place un temps de décohérence caractéristique τ D durant laquelle la matrice de densité réduite
se décohère (un processus qui peut être décrit par une équation maître appropriée) et devient
approximativement diagonale dans la base de pointeurs stables, c'est-à-dire la base qui est
sélectionnée par le critère de stabilité. Les états de Schmidt sont alors calculés en diagonalisant la
matrice de densité décohérée. Puisque la décohérence conduit habituellement à diagonaliser
rapidement la matrice de densité réduite dans la base de pointeurs sélectionnée par la stabilité avec
une très bonne approximation, les états de Schmidt résultant sont pratiquement dégénérés. Cette
dernière situation est facilement illustrée en considérant la matrice de densité décohérée
approximativement diagonalisée
1 / 2 + δ ω∗ 
(1) ρ =  
 ω 1 / 2 − δ 
où ω << 1 (forte décohérence) et δ << 1 (quasi-dégénérescence) (Albrecht, 1993). Si la
décohérence conduit à une diagonalisation exacte (c'est-à-dire, ω = 0 ), les états propres seront,
pour toute valeur fixée de δ , proportionnels à (0,1) et (1,0) (correspondants aux états pointeurs
"idéaux"). Cependant, pour un ω > 0 donné (diagonalisation approximative) et ω → 0
(dégénérescence), les états propres deviennent proportionnels à (± ω / ω ,1) ce qui implique que
dans le cas de la dégénérescence, la décomposition de Schmidt de la matrice de densité réduite peut
conduire à des états privilégiés qui sont très différents des états pointeurs stables, même si c'est la
matrice de densité réduite décohérée, plutôt qu'instantanée, qui est utilisée.

En résumé, il est important d'insister sur le fait que la stabilité (ou un critère similaire) est
l'exigence pertinente pour l'émergence d'une base quasi classique privilégiées qui ne peut en
général pas être obtenues en simplement diagonalisant la matrice de densité réduite instantanée.
Cependant, les états propres de la matrice de densité réduite décohérée seront dans de nombreux
cas proches des états pointeurs stables quasi-classiques particulièrement quand ces états pointeurs
sont suffisament non dégénérés.
VI.4.5.5. Règles de supersélection exacte
L'absence stricte d'interférence peut seulement être attendue pour des quantités discrètes. Un
exemple important est la charge électrique. Cela peut-il être compris à l'aide de la décohérence ?
Nous savons de la théorie de Maxwell que toute charge porte avec elle une charge électrique
associée et ainsi une superposition de charges peut être écrite sous la forme
(1) ∑ c q ψ qtotal = ∑ c q χ qnue ψ qchamp = ∑ c q χ qlocal ψ qchamp lointain
q q q

où "nue" signifie la charge seule.

Puisque nous pouvons seulement observer la charge habillée (de son champ électrique) locale, elle
doit être décrite par la matrice densité
(2) ρ = ∑ c q
2
χ qlocal χ qlocal
q

Si les champs lointains sont orthogonaux (discernables), la cohérence serait localement absente.
Ainsi la question se pose : est-ce que le champ de Coulomb fait seulement partie de la cinématique
(implémentée par la contrainte de Gauss) ou représente-t-elle un degré de liberté dynamique
quantique et donc devons-nous considérer la décohérence via un champ de Coulomb retardé ?

Que nous disent les expériences ? Une superposition de cette forme peut être observée pour des
particules chargées (voir la contribution de Hasselbach). D'un autre coté, le champ de Coulomb
classique (retardé) contiendra de l'information sur le chemin parcouru par la particule chargée,
détruisant la cohérence. La situation n'apparaît pas très claire. Donc, une question essentielle reste :

Quel est le rôle physique quantique du champ de Coulomb ?

Une situation similaire se pose en gravité quantique où nous pouvons nous attendre à ce que les
superpositions de masses (énergies) différentes soient décohérées par la courbure de l'espace.

Une autre règle importante de supersélection exacte interdit les états superposés avec des spins
entiers et demi-entiers, par exemple
(3) | ψ = spin 1 + spin 1 / 2
qui se transformerait sous une rotation 2π en
(4) ψ 2π = spin 1 − spin 1 / 2

C'est clairement un état différent à cause de la différence relative de phase. Si on demande qu'une
telle rotation ne change rien, un tel état doit être exclu. C'est un argument standard en faveur de la
règle de supersélection de "univalence". D'un autre coté, on a observé le changement de signe des
particules de spin 1/2 sous une rotation (relative) de 2π dans certaines expériences. Donc, il nous
reste deux options : ou nous voyons le groupe SO(3) comme le groupe de rotation propre aussi en
théorie quantique. Alors rien ne doit changer si nous tournons le système d'un angle 2π . Donc
nous pouvons dériver cette règle de supersélection de la symétrie. Mais cela peut seulement être un
préjugé classique. L'autre choix est d'utiliser SU(2) au lieu de SO(3) comme groupe de rotation.
Alors nous avons en effet besoin d'expliquer pourquoi ces étranges superpositions ne se produisent
jamais. Ce dernier choix revient à garder le principe de superposition comme principe fondamental
de la théorie. En termes plus techniques, nous devrions éviter d'utiliser des groupes avec des
représentations non uniques tel que SO(3). Dans les théories de supersymétrie les bosons et les
fermions sont traités sur un pied d'égalité ainsi il serait naturel de superposer leurs états (ce qui ne
se fait apparemment jamais en théorie des particules).

L'argument largement utilisé que les états physiques doivent être représentés par des rayons, pas
par des vecteurs, dans l'espace de Hilbert car la phase d'un vecteur d'état ne peut pas être observée
est trompeur. Puisque les phases relatives sont certainement pertinentes, on devrait préférer un
vecteur comme concept d'état physique fondamental plutôt qu'un rayon. Les rayons ne peuvent pas
être superposés sans utiliser (implicitement) des vecteurs.

D'une manière similaire on pourrait déduire l'argument bien connu conduisant de la symétrie
galiléenne de la mécanique quantique non relativiste à la règle de supersélection de la masse. Dans
ce cas, nous pourrions maintenir le principe de superposition et remplacer le groupe de Galilée par
un groupe plus large. Comment cela peut être fait est montré par Domenico Giulini.

La question ouverte finale pour cette section est alors :


Les règles de supersélection peuvent-elles toutes être vues comme des effets de la décohérence ?
VI.4.6. Exemples

VI.4.6.1. Localisation
L'exemple maintenant standard de la décohérence est la localisation d'objets macroscopiques.
Pourquoi les objets macroscopiques apparaissent-ils toujours localisés dans l'espace ? La cohérence
entre différentes positions macroscopiques est détruite très rapidement à cause de la forte influence
du processus de diffusion. La description formelle peut être la suivante. Soit x l'état propre
position d'un objet macroscopique et χ l'état de la particule entrante. Suivant le schéma de von
Neumann, la diffusion de telles particules par un objet localisé à la position x peut être écrit comme
(1) x χ  → t
x χ x = x Sx χ
où l'état diffusé peut être calculé en pratique par l'utilisation d'une matrice S appropriée. Pour l'état
initial le plus général d'un paquet d'ondes, nous avons alors
(2) ∫ d 3 xϕ ( x ) x χ →t
∫ d xϕ (x ) x S x χ
3

Donc, la matrice de densité réduite décrivant notre objet change en


(3) ρ ( x, x ′) = ϕ ( x )ϕ ∗ ( x ′) χ S x+ S x χ

Bien sûr, un seul processus de diffusion ne résoudra habituellement pas une petite distance, ainsi
dans la plus part des cas, les éléments de matrice sur le coté droit de (3) seront proches de un. Si
nous ajoutons les contributions de plusieurs processus de diffusion, un amortissement exponentiel
de la cohérence spatiale en résulte :
{ }
(4) ρ ( x, x ′, t ) = ρ ( x, x ′,0 ) exp − Λt ( x − x ′)
2

La force de cet effet est décrite par un seul paramètre Λ qui peut être appelé "taux de localisation".
Il est donné par
k 2 Nvσ eff
(5) Λ =
V
Ici, k est le nombre d'onde des particules entrantes, Nv / V le flux et σ eff est de l'ordre de la section
efficace totale. Certaines valeurs de Λ sont données dans la table suivante.

Taux de localisation Λ en cm −2 s −1 pour trois tailles de "grains de poussières" et différents types de


processus de diffusion. Cette quantité mesure la rapidité de disparition des interférences entre
différentes positions comme une fonction de la distance au cours du temps.

a = 10 −3 cm a = 10 −5 cm a = 10 −6 cm
Poussière Poussière Grosse molécule
Rayonnement cosmologique fossile 10 6 10 −6 10 −12
Photons à 300 K 1019 1012 10 6
Lumière solaire (sur Terre) 10 21 1017 1013
Molécules d'air 10 36 10 32 10 30
Vide de laboratoire 10 23 1019 1017
( 10 3 particules par cm 3 )

La plus part des nombres dans la table sont assez grands, montrant le couplage extrêmement fort
des objets macroscopiques, tel que des grains de poussière, avec leur environnement naturel. Même
dans l'espace intergalactique, le rayonnement fossile à 3K ne peut pas simplement être négligé.

Donc, la principale leçon est : les objets macroscopiques ne sont pas même approximativement
isolés.

Une description unitaire consistante doit donc inclure l'environnement et finalement l'univers
entier.

Une des premières indications de l'importance du couplage dynamique des objets macroscopiques
avec leur environnement fut Dieter Zeh qui écrivit dans son article de 1970 dans Fond. Phys. :
Puisque les interactions entre les systèmes macroscopiques sont effectives même à des distances
astronomiques, le seul "système fermé" est l'univers entier... Il est bien sûr très questionable de
décrire l'univers par une fonction d'onde qui obéit à l'équation de Schrödinger. Autrement,
cependant, il n'y a pas d'inconsistance dans la mesure où il n'y a pas de théorie.

C'est maintenant plus ou moins un lieu commun mais ce n'était pas le cas il y a 30 ans quand il
envoya une première version de cet article au journal Il Nuevo Cimento. On note dans la réponse
des referees :
L'article est complètement insensé. Il est clair que l'auteur n'a pas totalement compris le problème
et les contributions précédentes dans ce domaine.
(H.D. Zeh, communication privée).

Si nous combinons cet amortissement de la cohérence avec la dynamique "libre" de Schrödinger,


nous arrivons à une équation du mouvement pour la matrice densité qui est une bonne
approximation en ajoutant simplement ces deux contributions
∂ρ ∂ρ
(6) i = [H interne , ρ ] + i
∂t ∂t diff

Dans la représentation position, ces équations deviennent à une dimension


∂ρ ( x, x ′, t ) 1  ∂2 ∂2 
=  − 2  ρ − iΛ ( x − x ′) ρ
2
(7) i 
∂t 2m  ∂x ′ 2
∂x 

Les solutions de cette équation peuvent facilement être trouvées.

Jusqu'ici ce traitement représente la décohérence pure, suivant directement le schéma de von


Neumann. Si le recul est ajouté comme étape suivante, nous arrivons à un modèle incluant la
friction, c'est-à-dire, le mouvement brownien quantique. Il y a plusieurs modèles pour l'analogue
quantique du mouvement brownien dont certains sont même plus vieux que les premières études de
décohérence. Les premiers traitements, cependant, ne faisaient pas de distinction entre la
décohérence et la friction (la décohérence seule n'implique pas la friction). Comme exemple,
considérons l'équation du mouvement dérivée par Caldeira et Leggett,
∂ρ γ
(8) i = [H , ρ ] + [x, {p, ρ }] − imγ kT [x, [x, ρ ]]
∂t 2
(k étant ici la constante de Boltzman).

Qui se lit pour une particule "libre"


∂ρ ( x, x ′, t )  1  ∂ 2 ∂2   ∂ ∂ 
(9) i =  2 − 2  − iΛ (x − x ′)2 + iγ ( x − x ′) −  ρ ( x, x ′, t )
∂t  2m  ∂x ′ ∂x   ∂x ′ ∂x 
où γ est la constante d'amortissement et où Λ = mγ kT .

Si on compare l'effectivité des deux termes représentant la décohérence et la relaxation, on trouve


que leur rapport est donné par
2
 δx 
= mkT (δx ) ∝  
taux de décohérence 2
(10)
taux de relaxation  λth 
où λth est la longueur d'onde thermique de de Broglie de l'objet considéré. Ce rapport a pour une
situation macroscopique typique (m = 1g, T = 300K, δx = 1 cm ) la valeur énorme de 10 40 ! Cela
montre que dans ces cas la décohérence est de loin plus importante que la dissipation.

La position du centre de masse des grains de poussière devient "classique" via la décohérence. La
structure spatiale des molécules représente un autre exemple très important. Considérons un modèle
simple de molécule chirale.

Les versions droites et gauches de la molécule ont une structure spatiale assez bien définie tandis
que l'état de base est, pour des raisons de symétrie, une superposition des deux états chiraux. Ces
configurations chirales sont habituellement séparées par une barrière tunnel qui est si grande que
sous des circonstances normales l'effet tunnel est très improbable comme cela fut déjà montré par
Hund en 1929. Mais cela seul n'explique pas pourquoi (en effet la plus part) les molécules chirales
ne sont jamais trouvées dans des états propres de l'énergie !

Dans un modèle simplifié avec des états propres quasi dégénérés faiblement liés 1 et 2 , les
configurations droites et gauches peuvent être données par
L =
1
(1 + 2 )
2
(11)
R =
1
(1 − 2 )
2

Comme l'environnement reconnaît la structure spatiale via le processus de diffusion, seuls les états
chiraux sont stables contre la décohérence,
(12) R, L Φ 0  →t
R, L Φ R , L

L'instabilité quantique des états propres de l'énergie (c'est-à-dire la parité) des molécules représente
un exemple typique de "brisure spontanée de symétrie" induite par la décohérence. De plus, les
transitions entre les états orientés spatialement sont supprimées par l'effet Zeno quantique, décrit ci-
dessous.
VI.4.6.2. Effet Zeno quantique
La conséquence la plus dramatique d'une interaction forte de type mesure d'un système avec son
environnement est l'effet Zeno quantique. Il a été découvert plusieurs fois et est quelque fois appelé
"effet du chien de garde" ou "comportement de la marmite surveillée" bien que la plupart des gens
utilisent le terme d'effet Zeno. Il est surprenant seulement si on colle à une image classique où
l'observation d'un système et juste vérifier son état ne devrait pas l'influencer. Un tel préjugé est
certainement formé par notre expérience de tous les jours où l'observation des choses dans notre
environnement ne change pas leurs propriétés. Comme cela est bien connu depuis les débuts de la
mécanique quantique, l'observation peut changer de manière drastique le système observé.

L'essence de l'effet Zeno quantique peut facilement être montrée comme suit. Considérons la
"désintégration" d'un système qui est initialement préparé dans l'état "non désintégré" u . La
probabilité de trouver le système non désintégré, c'est-à-dire dans le même état u au temps t est
pour de petits intervalles de temps donné par
P(t ) = u exp(− iHt ) u
2

(1)
( )
= 1 − (∆H ) t 2 + O t 4
2

avec
(2) (∆H ) = u H 2 u − u H u
2 2

Si nous considérons le cas de N mesures dans l'intervalle [0, t ] , la probabilité de non-désintégration


est donnée par
N
 2 t 
2

(3) PN (t ) ≈ 1 − (∆H )    > 1 − (∆H ) t 2 = P(t )
2

  N  

Le résultat est toujours plus grand que la probabilité d'une seule mesure donnée par (1). A la limite
de mesures arbitrairement denses, le système ne se désintègre plus,
t2
(4) PN (t ) = 1 − (∆H ) N →∞
+ L  →1
2

Donc, nous trouvons que des mesures répétées peuvent complètement gêner l'évolution naturelle
d'un système quantique. Un tel résultat est clairement assez distinct de ce qui est observé pour des
systèmes classiques. En effet, l'exemple paradigme pour un processus stochastique classique, la
désintégration exponentielle,
(5) P(t ) = exp(− Γt )
n'est pas influencée par des observations répétées puisque pour N mesures nous avons simplement
N
  t 
(6) PN (t ) =  exp − Γ   = exp(− Γt )
  N 

Jusqu'ici nous avons traité le processus de mesure dans notre discussion de l'effet Zeno de la
manière habituelle en supposant une réduction de l'état du système sur le sous-espace
correspondant au résultat de la mesure. Un tel traitement peut être étendu en employant un modèle
de von Neumann pour le processus de mesure, par exemple, en le couplant à un état pointeur d'un
système à deux états. Un simple modèle élémentaire est donné par l'hamiltonien
(7) H = H 0 + H int = V ( 1 2 + 2 1 ) + E 2 2 + γ pˆ ( 1 1 − 2 2 )
où les transitions entre les états 1 et 2 (induites par la "perturbation" V) sont monitorées par un
pointeur (la constante de couplage γ ). Ce modèle montre déjà tous les phénomènes typiques
mentionnés ci-dessus.

La probabilité de transition commence pour de petites durées toujours quadratiquement selon le


résultat général (1). Pour des durées où le pointeur résout les deux états, un comportement similaire
trouvé pour les processus de Markov apparaît : la dépendance quadratique en le temps change pour
une linéaire. Pour des couplages forts, les transitions sont supprimées. Cela montre clairement
l'origine dynamique de l'effet Zeno.

Une extension du modèle précédent permet une analyse de la transition de l'effet Zeno à un
comportement maître (décrite par les taux de transition comme cela fut d'abord étudié en
mécanique quantique par Pauli en 1928). On peut montrer que pour plusieurs (micro-)états qui ne
sont pas suffisament résolus par l'environnement, la règle d'or de Fermi peut être retrouvée, avec
des taux de transition qui ne sont plus réduit par l'effet Zeno. Néanmoins, l'interférence entre les
macroétats est supprimée très rapidement.
Exercice
1. Il a été affirmé que l'existence de la base privilégiée était liée à l'hamiltonien d'interaction avec
l'environnement. Ainsi, si l'interaction dépend de la distance, la base position se retrouve
privilégiée. Tandis qu'à l'échelle atomique, la base énergie est privilégiée.

Nous vous proposons d'étudier un modèle simple afin d'avoir un aperçu de ce qui se passe à
l'échelle microscopique.

Considérons un atome pouvant être dans deux états d'énergie E1 et E 2 . On supposera pour
simplifier qu'il n'y a qu'un électron en orbite autour d'un proton et que les fonctions d'onde
correspondantes sont sphériques et homogènes sur un rayon respectivement R1 et R2 . Calculez
les énergies correspondantes.

Supposons maintenant que l'environnement est composé d'un gaz de photons aléatoires et que
chaque photon est caractérisé par une onde plane et un champ électrique E k (k variant de 1 à N
photons). A nouveau, pour simplifier, nous poserons égal à zéro les hamiltoniens propres de
l'atome et du gaz de photons et nous ne considérerons que l'hamiltonien d'interaction entre les
photons et l'électron de l'atome. Connaissant l'interaction entre un champ électrique et la charge
électrique de l'atome, calculez l'hamiltonien d'interaction.

En vous inspirant de la section VI.4.4.2, calculez l'état initial et l'état au cours du temps. Puis
calculez la matrice de densité réduite.

Considérez ensuite que la direction de E k est aléatoire avec une distribution uniforme et une
grandeur décrite par une distribution gaussienne.

Comment évolue la matrice de densité réduite pour N très grand ? Quelle est la base privilégiée
?
2. Dans la section VI.4.4.2 seules l'interaction entre les spins et l'environnement a été prise en
compte. Les interactions entre spins ont été négligées par facilité. Discutez qualitativement de
l'effet de ces interactions sur les résultats de cette section.
VII. Théorie de Bohm
La mécanique bohmienne, qui est aussi appelée théorie de de Broglie - Bohm, le modèle onde
pilote et l'interprétation causale de la mécanique quantique, est une version de la mécanique
quantique découverte par Louis de Broglie en 1927 et redécouverte par David Bohm en 1952. C'est
l'exemple le plus simple de ce qui est souvent appelé une interprétation à variables cachées de la
mécanique quantique. En mécanique bohmienne, un système de particules est décrit en partie par sa
fonction d'onde, évoluant, comme d'habitude, selon l'équation de Schrödinger. Cependant, la
fonction d'onde fournit seulement une description partielle du système. Cette description est
complétée par la spécification des positions réelles des particules. Ces dernières évoluent selon
l'équation guide qui exprime la vitesse des particules en terme de la fonction d'onde. Donc, en
mécanique bohmienne, la configuration d'un système de particules évolue via un mouvement
déterministe chorégraphié par la fonction d'onde. En particulier, quand une particule est envoyée
dans un appareil à deux fentes, la fente à travers laquelle elle passe et l'endroit où elle arrive sur la
plaque photographique sont complètement déterminés par sa position initiale et la fonction d'onde.

La mécanique bohmienne hérite et rend explicite la non-localité implicite dans la notion, commune
à presque toutes les formulations et interprétations de la théorie quantique, d'une fonction d'onde
sur l'espace de configuration d'un système à plusieurs particules. Elle explique tous les phénomènes
gouvernés par la mécanique quantique non relativiste, depuis les lignes spectrales et la théorie des
collisions à la supraconductivité, l'effet Hall quantique et le calcul quantique. En particulier, les
postulats habituels de mesure de la théorie quantique, incluant la réduction de la fonction d'onde et
les probabilités données par le carré des amplitudes de probabilité, émerge de l'analyse des deux
équations du mouvement, l'équation de Schrödinger et l'équation guide, sans l'invocation
traditionnelle d'un statut spécial et quelque peut obscur de l'observation.

La théorie de Bohm est un exemple réussi de théorie à variables cachées.


VII.1. La complétude de la description quantique
En dépit de ses extraordinaires succès prédictifs, la mécanique quantique a, depuis sa conception il
y a septante ans, été minée par les difficultés conceptuelles. Le problème de base, posé pleinement,
est ceci : il n'est pas clair du tout ce qu'est la mécanique quantique. Qu'est-ce que la mécanique
quantique décrit ?

Il peut sembler, puisque cela est largement accepté, que tout système quantique est complètement
décrit par sa fonction d'onde, que la mécanique quantique est basée fondamentalement sur le
comportement des fonctions d'onde. Assez naturellement, aucun physicien ne désirait que ce soit
vrai plus que ne le fit Erwin Schrödinger, le père de la fonction d'onde. Néanmoins, Schrödinger
trouva ultimement cela impossible à croire. Sa difficulté n'était pas tant la nouveauté de la fonction
d'onde (Schrödinger, 1935) :
Qu'elle soit une construction mathématique abstraite intuitive est un scrupule qui fait toujours
surface contre de nouveaux moyens de pensée et qui ne porte pas de grand message.

Mais plutôt, c'était que le "flou" suggéré par le caractère dispersé de la fonction d'onde :
Affecte macroscopiquement les choses visibles et tangibles pour lesquelles le terme "flou" semble
simplement faux.

Par exemple, dans le même article, Schrödinger nota qu'il peut arriver dans une désintégration
radioactive que :
La particule émergeante est décrite ... comme une onde sphérique ... qui se heurte de manière
continue à un écran luminescent sur son étendue complète. L'écran, cependant, ne montre pas une
surface brillante uniforme plus ou moins constante mais plutôt de la lumière à un instant en un
endroit...

Et il observe qu'on peut facilement provoquer, par exemple en incluant un chat dans le système, des
"situations assez ridicules" avec :
La fonction ψ du système entier ayant en elle le chat vivant et mort (excusez l'expression) mélangé
ou dispersé en parts égales.
C'est donc à cause du "problème de la mesure", des superpositions macroscopiques, que
Schrödinger trouva difficile de voir la fonction d'onde comme "représentant la réalité". Mais alors
qu'est-elle ? Avec une désapprobation évidente, Schrödinger décrit comme :
La doctrine régnante se sauve elle-même en ayant recours à l'épistémologie. On nous dit qu'il n'y a
pas de distinction à faire entre l'état d'un objet naturel et ce que je sais sur lui ou, peut-être mieux,
que je peux savoir sur lui si j'ai certains problèmes. En réalité, tel qu'elle le dit, il y a
intrinsèquement seulement la conscience, l'observation, la mesure.

Plusieurs physiciens rendent service à l'interprétation de Copenhague, que la mécanique quantique


est basée fondamentalement sur les observations ou les résultats des mesures. Mais il est devenu de
plus en plus difficile de trouver quelqu'un, quand on insiste, qui défend cette interprétation. Il
semble clair que la mécanique quantique concerne fondamentalement les atomes et les électrons,
les quarks et les cordes, par ces régularités macroscopiques particulières associées à ce que nous
appelons mesures des propriétés de ces choses. Mais si ces entités ne sont pas quelque peu
identifiées avec la fonction d'onde elle-même, et si parler d'elle n'est pas simplement un raccourcit
pour des affirmations élaborées sur les mesures, alors que vont-ils trouver dans la description
quantique ?

Il y a peut-être une raison très simple pour laquelle il y a tant de difficulté à discerner dans la
description quantique les objets dont nous croyons qu'ils devraient être décrit par la mécanique
quantique. Peut-être que la description quantique n'est pas l'histoire complète, une possibilité plus
habituellement associée à Albert Einstein.

En 1935 Einstein, Boris Podolosky et Nathan Rosen affirmèrent cette possibilité dans le fameux
article EPR (Einstein et al., 1935), qu'ils concluent avec ce qui suit :
Bien que nous ayons donc montré que la fonction d'onde ne fournit pas une description complète de
la réalité physique, cela laisse ouverte la question de savoir si oui ou non une telle description
existe. Nous croyons, cependant, qu'une telle théorie est possible.

L'argument donné dans l'article EPR pour cette conclusion invoque les corrélations quantiques et
une hypothèse de localité.
Plus tard, sur la base de plus ou moins les mêmes considérations que celles de Schrödinger notées
ci-dessus, Einstein conclut à nouveau que la fonction d'onde ne fournit pas une description
complète des systèmes individuels et l'idée qu'il appelait "cette interprétation pratiquement la plus
évidente" (Einstein, 1949, p.672). En relation avec une théorie incorporant une description plus
complète, Einstein remarque que :
La théorie quantique statistique prendrait ... une position approximativement analogue à celle de la
mécanique statistique dans le cadre de la mécanique classique.

Il est peut-être utile de noter ici que la mécanique bohmienne, comme nous le verrons, satisfait
exactement cette description.

Même si énormément de progrès ont été fait (interprétations, décohérence) depuis ces réflexions, il
reste intéressant de considérer la théorie de Bohm et de voir ce qu'elle peut apporter et quels sont
ses défauts.
VII.2. L'impossibilité des variables cachées ... ou la non-localité
inévitable ?
John von Neumann, un des plus grands mathématiciens du vingtième siècle, affirma avoir prouvé
mathématiquement que le rêve d'Einstein, d'une complétude ou d'une réinterprétation déterministe
de la mécanique quantique était impossible. Il en conclut que (von Neumann, 1932, p.325 de la
traduction anglaise)
Ce n'est donc pas, comme cela est souvent supposé, une question de réinterprétation de la
mécanique quantique, le système actuel de la mécanique quantique serait objectivement faux si une
autre description des processus élémentaires que la statistique était possible.

Cette affirmation de von Neumann fut presque universellement acceptée parmi les physiciens et les
philosophes de la science. Par exemple, Mas Born formula l'interprétation statistique de la fonction
d'onde, assuré que (Born, 1949, p.109)
Aucun paramètre caché ne peut être introduit avec l'aide de laquelle la description indéterministe
pourrait être transformée en une déterministe. Donc, si une théorie future serait déterministe, elle
ne peut pas être une modification de l'actuelle mais doit être essentiellement différente.

La mécanique bohmienne est, assez clairement, un contre exemple de l'affirmation de von


Neumann, ainsi quelque chose doit être faux dans l'argument de von Neumann. En fait, selon John
Bell (Mermin 1993, p.805), l'hypothèse de von Neumann (sur les relations parmi les observables
quantiques qui doivent être satisfaites dans une théorie à variables cachées) est si peu raisonnable
que "la preuve de von Neumann n'est pas seulement fausse mais folle !" Néanmoins, certains
physiciens continuent à se rattacher à la preuve de von Neumann, bien que ces dernières années il
soit plus commun de trouver des physiciens citant le théorème de Kochen et Specker et, plus
fréquemment, les inégalités de Bell, comme la base de cette réfutation. Nous trouvons encore, un
quart de siècle après la redécouverte de la mécanique bohmienne en 1952, des affirmations telle
que (Wigner, 1976) :
La preuve qu'il [von Neumann] a publiée..., bien qu'elle soit rendue beaucoup plus convaincante
par Kochen et Specker, utilise encore des hypothèses que, selon moi, on peut assez
raisonnablement remettre en question... Selon moi, l'argument le plus convaincant contre la théorie
des variables cachées fut présenté par J.S. Bell (1964).
Maintenant, il y a beaucoup plus d'affirmations d'un caractère similaire qui pourraient en être
citées. Cette citation doit sa signification au fait que Wigner n'était pas seulement un physicien
important de sa génération mais, contrairement à la plus part de ses contemporains, il était aussi
profondément concerné par les fondations conceptuelles de la mécanique quantique et écrivit sur le
sujet avec une grande clarté et profondeur.

Il y avait, cependant, un physicien qui écrivait sur ce sujet avec une plus grande clarté et
profondeur que Wigner lui-même, c'est-à-dire J.S. Bell dont Wigner loua la démonstration de
l'impossibilité d'une complétude déterministe de la théorie quantique telle que la mécanique
bohmienne. Voici comment Bell lui-même a réagit à la découverte de Bohm (Bell, 1987, p.160) :
Mais en 1952 je vis que l'impossible avait été fait. C'est un article de David Bohm. Bohm a montré
explicitement comment des paramètres pouvaient en effet être introduit, dans la mécanique
ondulatoire non relativiste, avec l'aide desquels la description indéterministe pouvait être
transformée en une déterministe. Plus important, selon moi, l'objectivité de la version orthodoxe, la
référence nécessaire à "l'observateur" peut être éliminée...

Mais alors pourquoi Born ne m'a-t-il pas parlé de cette "onde pilote" ? Est-ce seulement pour
indiquer qu'elle était fausse ? Pourquoi von Neumann ne l'a-t-il pas considéré ? Plus incroyable,
pourquoi les gens ont produit des preuves "d'impossibilités" après 1952 et aussi récemment que
1978 ? ... Pourquoi est-ce que l'image de l'onde pilote est ignorée dans les livres ? Ne devrait-elle
pas être enseignée, non comme la seule manière, mais comme un antidote à l'auto satisfaction
prévalante ? Pour nous montrer que l'approximation, la subjectivité et l'indéterminisme ne nous
sont pas imposés par les faits expérimentaux mais par des choix théoriques délibérés ?

Quoi qu'en dise Wigner, Bell n'a pas établit l'impossibilité d'une reformulation déterministe de la
théorie quantique ni jamais fait d'affirmation de ce type. Au contraire, au cours des dernières
décennies, jusqu'à sa mort en 1990, Bell fut le premier défenseur, pour une bonne partie de sa
période pratiquement le seul défenseur, de la mécanique bohmienne qu'il est supposé avoir démoli.

La mécanique bohmienne est bien sûr autant un contre exemple à l'argument de Kochen et Specker
pour l'impossibilité des variables cachées tout comme pour celui de von Neumann. C'est
évidemment un contre exemple à tout argument de ce type. Aussi raisonnables que soient les
hypothèses d'un tel argument, certaines d'entre elles doivent échouer pour la mécanique bohmienne.

Wigner avait assez raison de suggérer que les hypothèses de Kochen et Specker sont plus
convaincantes que celles de von Neumann. Elles apparaissent en fait assez raisonnables en effet.
Cependant, elles ne sont pas absolues et incontournables. L'impression qu'elles ont soulevée est une
erreur pénétrante, un réalisme naïf sur les opérateurs, qui sera discuté ci-dessous dans les sections
sur les observables quantiques, le spin et la contextualité.

Un des résultats de John Bell fut de remplacer les "axiomes arbitraires" (Bell, 1987, page 11) de
Kochen et Specker et les autres par une hypothèse de localité et de non-action à distance. Il serait
difficile d'argumenter sur le caractère raisonnable d'une telle hypothèse, même si on est porté à
douter de son inévitabilité. Bell a montré que la formulation à variables cachées de la mécanique
quantique doit être non locale comme, en effet, l'est la mécanique bohmienne. Mais il a montré
beaucoup plus.

Dans un article célèbre publié en 1964, Bell montra que la théorie quantique elle-même est
irréductiblement non locale. Ce fait sur la mécanique quantique, basé sur une analyse courte et
mathématiquement simple, pourrait avoir été reconnu immédiatement après la découverte de la
théorie quantique dans les années 20. Que cela ne se soit pas passé est sans doute dû en partie à
l'obscurité de la théorie quantique orthodoxe et à l'ambiguïté de ses engagements. C'est, en fait, son
examen de la mécanique bohmienne qui conduisit Bell à son analyse de non-localité. Au cours de
cette investigation de la mécanique bohmienne, il observa que (Bell, 1987, p.11) :
Dans cette théorie, un mécanisme causal explicite existe par lequel la disposition d'une pièce de
l'appareil affecte le résultat obtenu avec une pièce distante.

Bohm, bien sûr, fut attentif à ces propriétés de son schéma et leur a porté beaucoup d'attention.
Cependant, on doit insister sur le fait qu'à ma connaissance, il n'y a aucune preuve que toute
explication à variables cachées de la mécanique quantique doit avoir ce caractère extraordinaire.
Il serait donc intéressant, peut-être, de poursuivre encore les "preuves d'impossibilité" en
remplaçant les axiomes arbitraires objectés ci-dessus par certaines conditions de localité ou de
séparabilité des systèmes distants.
Dans une note, Bell ajoute que "depuis la fin de cet article, une telle preuve a été trouvée". Cette
preuve fut publiée dans son article de 1964, "sur le paradoxe de Einstein-Podolsky-Rosen", dans
lequel il dérive les inégalités de Bell, la base de sa conclusion de la non-localité quantique.

Il est utile d'insister sur le fait que l'analyse de Bell montre en effet que toute explication des
phénomènes quantiques doit être non locale, pas seulement les explications à variables cachées.
Bell montra que la non-localité est impliquée par les prédictions de la théorie quantique standard
elle-même. Donc, si la nature est gouvernée par ces prédictions, alors la nature est non locale [que
la nature soit ainsi gouvernée, même dans les expériences cruciales des corrélations EPR, a
maintenant été établi avec un grand nombre d'expériences, dont la plus concluante est peut-être
celle d'Aspect (Aspect et al., 1982)].

Bell a aussi insisté sur ce point (par déterminisme, Bell ici veut dire variables cachées) :
Il est important de noter que le degré limité avec lequel le déterminisme joue un rôle dans
l'argument EPR n'est pas supposé mais inféré. Ce qui est tenu pour sacré est le principe de
"causalité locale" - ou "pas d'action à distance"...

Il est remarquablement difficile de mettre ce point en évidence que le déterminisme n'est pas un
présupposé de l'analyse (Bell, 1987, p.143).

En dépit de mon insistance pour que le déterminisme soit inféré plutôt que supposé, vous pouvez
encore soupçonner quelque peu que c'est une préoccupation pour le déterminisme qui crée le
problème. Notez bien alors que l'argument suivant ne fait aucune mention de quelque que manière
que ce soit au déterminisme... Finalement vous pouvez suspecter que toute notion de particule et
d'orbite de particule... nous a quelque peu égaré... Ainsi l'argument qui suit ne mentionnera pas les
particules ni les champs ni toute autre image particulière de ce qui serait au niveau microscopique.
Ni n'impliquera l'utilisation des mots "système quantique" qui peut avoir un effet malheureux sur la
discussion. La difficulté n'est pas de créer une telle image ou une telle terminologie. Elle est créée
par les prédictions sur les corrélations dans les résultats visibles de certains dispositifs
expérimentaux concevables (Bell, 1987, p.150).
Le "problème" et la "difficulté" auquel Bell se réfère ci-dessus est le conflit entre les prédictions de
la théorie quantique et qu'elle puisse être inférée, appelons là C, à partir d'une hypothèse de localité
dans la version de Bohm de l'argument EPR, un conflit établit par les inégalités de Bell. C concerne
l'existence d'une certaine sorte de variables cachées, qui peuvent être appelées variables cachées
locales, mais ce fait est de peu d'importance substantive. Ce qui est important n'est pas tant
l'identité de C que le fait que C est incompatible avec les prédictions de la théorie quantique.
L'identité de C est, cependant, d'une grande signification historique : il est responsable de la
croyance erronée que Bell prouva que les variables cachées sont impossibles, une croyance encore
récemment presque universellement partagée par les physiciens, aussi bien pour la vue, même
maintenant presque universellement acceptée, que le résultat de Bell n'exclut pas les variables
cachées locales, une vue qui est trompeuse.

Voici à nouveau Bell, exprimant la logique de sa démonstration en deux parties de la non-localité


quantique, la première partie étant la version de Bohm de l'argument EPR :
Résumons encore une fois la logique qui conduit à l'impasse. Les corrélations EPRB sont telles que
le résultat de l'expérience d'un coté prédit immédiatement le résultat de l'autre, quand l'analyse se
fait en parallèle. Si nous n'acceptions pas l'intervention d'un coté d'une influence causale sur
l'autre, nous sommes semble-t-il obligé d'admettre que les résultats des deux cotés sont déterminés
à l'avance, indépendamment de l'intervention de l'autre coté par des signaux dont la source et par
le dispositif local des aimants. Mais cela a des implications pour le dispositif antiparallèle qui est
en conflit avec ceux de la mécanique quantique. Ainsi nous ne pouvons pas rater l'intervention d'un
coté comme une influence causale sur l'autre (Bell, 1987, p.149).

Même s'il existe maintenant des contre exemples (voir le tom VII) montrant qu'une description
locale est possible, la possibilité de la non-localité ne peut être exclue a priori. Par conséquent,
l'étude d'une version à variables cachées non locales reste intéressante.
VII.3. Histoire
L'approche de l'onde pilote de la théorie quantique fut initiée, avant même la découverte de la
mécanique quantique elle-même, par Einstein, qui espérait que les phénomènes d'interférence
impliquant des photons corpusculaires pourraient être expliqués si le mouvement des photons était
en quelque sorte guidé par le champ électromagnétique qui aurait donc joué le rôle de ce qu'il
appelait un Führungsfeld ou champ guide (Wigner, 1976, p.262). Tandis que la notion de champ
électromagnétique comme champ guide s'avéra plutôt problématique, la possibilité que pour un
système d'électrons la fonction d'onde puisse jouer ce rôle de champ guide ou d'onde pilote, fut
exploré par Max Born dans son article fondant la théorie quantique des collisions (Born, 1926), une
suggestion pour laquelle Heisenberg était profondément antipathique.

Peu de temps après la découverte de Schrödinger, en 1926, de la mécanique ondulatoire, c'est-à-


dire de l'équation de Schrödinger, Louis de Broglie découvrit en effet la mécanique bohmienne : en
1927, de Broglie trouva une équation du mouvement de la particule équivalent à l'équation guide
pour une fonction d'onde scalaire (de Broglie, 1928, p.119) et il expliqua au congrès de Solvay de
1927 comment ce mouvement pouvait expliquer les phénomènes d'interférence quantique.
Cependant, de Broglie répondit pauvrement à une objection de Wolfgang Pauli (Pauli, 1928)
concernant la diffusion inélastique, faisant sans doute mauvaise impression sur l'audience illustre
rassemblée à l'occasion.

Born et de Broglie abandonnèrent très rapidement l'approche de l'onde pilote et devinrent des
supporters enthousiastes du consensus rapidement développé en faveur de l'interprétation de
Copenhague. La mécanique bohmienne fut redécouverte en 1952 par David Bohm (Bohm, 1952),
la première personne à comprendre véritablement sa signification et ses implications. Son principal
supporter durant les années 60, 70 et 80 fut John Bell.
VII.4. Les équations de définition de la mécanique bohmienne
En mécanique bohmienne, la fonction d'onde, obéissant à l'équation de Schrödinger, ne fournit pas
une description ou représentation complète d'un système quantique. Plutôt, elle gouverne le
mouvement des variables fondamentales, les positions des particules : dans la version de Bohm de
la théorie quantique, la mécanique quantique est fondamentalement le comportement des particules.
Les particules sont décrites par leurs positions et la mécanique bohmienne prescrit comment elles
changent avec le temps. Dans ce sens, pour la mécanique bohmienne, les particules, décrites par
leurs positions, sont primaires ou primitives tandis que la fonction d'onde est secondaire ou dérivée.

La mécanique bohmienne est la complétude minimale de l'équation de Schrödinger pour un


système non relativiste de particules vers une théorie décrivant un véritable mouvement des
particules. Pour la mécanique bohmienne, l'état d'un système de N particules est décrit par sa
fonction d'onde ψ = ψ (q1 , K , q N ) = ψ (q ) , une fonction complexe (ou spinorielle) sur l'espace des
configurations possibles q du système, avec sa configuration réelle Q définie par les positions
réelles Q1 , ..., Q N de ses particules. La théorie est alors définie par les deux équations d'évolution :
l'équation de Schrödinger
∂ψ
(1) ih = Hψ
∂t
pour ψ (t ) , où H est l'hamiltonien non relativiste (de Schrödinger) contenant les masses des
particules et un terme d'énergie potentielle et une équation d'évolution du premier ordre, l'équation
guide :
dQ k ψ ∗ ∂ ψ 
Im ∗ k  (Q1 ,K, Q N )
h
(2) =
dt mk  ψ ψ 
pour Q(t ) , l'équation d'évolution du premier ordre la plus simple pour les positions des particules
qui est compatible avec la covariance galiléenne (et le renversement du temps) de l'évolution de
Schrödinger (Dürr et al., 1992 pp.852-854). Ici h est la constante de Planck divisée par 2π , mk
est la masse de la particule k et ∂ k est le gradient par rapport aux coordonnées de la particule k. Si
ψ est un spineur, les produits au numérateur et au dénominateur doivent être vus comme des
produits scalaires. Si des champs magnétiques externes sont présents, le gradient doit être vu
comme la dérivée covariante, impliquant le potentiel vecteur (puisque le dénominateur du coté droit
de l'équation guide s'annule aux nœuds de ψ , l'existence globale et l'unicité de la dynamique
bohmienne est une question non triviale. Elle est prouvée dans Berndl, Dürr et al., 1995).

Pour un système de N particules, ces deux équations (avec les spécifications détaillées de
l'hamiltonien, incluant toutes les interactions contribuant à l'énergie potentielle) définissent
complètement la mécanique bohmienne. Cette théorie déterministe des particules en mouvement
explique tous les phénomènes de la mécanique quantique non relativiste depuis les effets
d'interférence aux lignes spectrales (Bohm, 1952, pp. 175-178) jusqu'au spin (Bell, 1964, p.10) et
elle le fait d'une manière totalement ordinaire comme nous l'expliquerons dans les sections
suivantes.

La forme de l'équation guide donné ci-dessus est, pour une fonction d'onde scalaire, décrivant des
particules sans spin, un peu plus compliquée que nécessaire puisque le complexe conjugué de la
fonction d'onde apparaissant au numérateur et au dénominateur s'annulent. Si on cherche une
équation d'évolution pour la configuration compatible avec les symétries de l'espace-temps de
l'équation de Schrödinger, on arrive presque immédiatement à l'équation guide sous sa forme plus
simple comme la plus simple possibilité.

Cependant, la forme donnée ci-dessus a deux avantages : premièrement, elle a un sens pour des
particules avec spin et tous les phénomènes quantiques paradoxaux apparents associés au spin sont,
en fait, pris en compte par la mécanique bohmienne sans ajout supplémentaire. Deuxièmement, et
cela est crucial au fait que la mécanique bohmienne est empiriquement équivalente à la mécanique
quantique orthodoxe, le coté droit de l'équation d'onde est J / ρ , le rapport du courant de
probabilité quantique à la densité de probabilité quantique. Cela montre avant tout qu'il ne faut pas
d'imagination pour deviner que l'équation guide s'obtient à partir de l'équation de Schrödinger en un
regard puisque la formule classique pour le courant est la densité fois la vitesse. De plus, il suit de
l'équation de continuité quantique ∂ρ / ∂t + div J = 0 , une conséquence immédiate de l'équation de
Schrödinger, que si à un certain moment (disons l'instant initial) la configuration Q de notre
système est aléatoire avec une distribution donnée par ψ = ψ ∗ψ , cela sera vrai à tout moment
2

(aussi longtemps que le système n'interagit pas avec son environnement).

Cela démontre que toute affirmation sur l'effet que les prédictions de la mécanique quantique sont
incompatibles avec l'existence de variables cachées, avec un modèle détermine sous-jacent dans
lequel l'aléatoire quantique vient de moyennes sur l'ignorance, est fausse. La mécanique bohmienne
nous fournis justement un tel modèle : pour toute expérience quantique, nous prenons simplement
comme système bohmien pertinent le système combiné qui inclut le système sur lequel l'expérience
est effectuée ainsi que tous les instruments de mesure et autres dispositifs utilisés en effectuant
l'expérience (avec tous les autres systèmes avec lesquels ils ont une interaction significative au
cours de l'expérience). Le modèle des "variables cachées" est alors obtenu en regardant la
configuration initiale de ce grand système comme aléatoire de la manière quantique habituelle avec
une distribution donnée par ψ . La configuration initiale est alors transformée, via l'équation
2

guide pour le grand système, en la configuration finale à la conclusion de l'expérience. Il s'ensuit


alors que cette configuration finale du grand système, incluant en particulier l'orientation des
aiguilles des instruments, sera aussi distribuée de la manière quantique, tel que ce modèle bohmien
déterministe conduit aux prédictions quantiques habituelles pour les résultats des expériences.

Comme le paragraphe précédent le suggère et comme nous en discuterons plus en détail dans les
sections suivantes, en mécanique bohmienne il n'y a pas besoin, et en effet aucune place, pour tout
"postulat de mesure" ou axiomes gouvernant le comportement des autres "observables" : de tels
axiomes seraient au mieux redondants et pourraient être éventuellement inconsistants.
VII.5. Le potentiel quantique
La mécanique bohmienne a été présentée ici comme une théorie du premier ordre dans laquelle
c'est la vitesse, le taux de changement de la position, qui est fondamental : c'est la quantité, donnée
par l'équation guide, qui est spécifiée par la théorie, directement et simplement, avec les concepts
(newtonien) du second ordre d'accélération et de force, le travail et l'énergie ne jouant pas un rôle
fondamental. Elle est vue, fondamentalement, comme une théorie du second ordre décrivant des
particules se mouvant sous l'influence de forces parmi lesquelles, cependant, on doit inclure une
force venant d'un "potentiel quantique".

Dans son article sur les variables cachées de 1952 (Bohm 1952), Bohm arriva à sa théorie en
écrivant la fonction d'onde sous forme polaire ψ = R exp(iS / h ) où S et R sont réels, avec R non
négatif et en réécrivant l'équation de Schrödinger en terme de ces nouvelles variables pour obtenir
une paire d'équations d'évolution couplées : l'équation de continuité pour ρ = R 2 et une équation
modifiée de Hamilton-Jacobi pour S, différant de l'équation habituelle de Hamilton-Jacobi
seulement par l'apparition d'un terme supplémentaire, le potentiel quantique
h 2 ∂ 2k R
(1) U = −∑
k 2m k R
à coté du terme classique d'énergie potentielle.

Bohm a alors utilisé l'équation modifiée de Hamilton-Jacobi pour définir les trajectoires des
particules juste comme cela est fait pour l'équation classique de Hamilton-Jacobi, c'est-à-dire, en
identifiant ∂ k S avec mk v k , c'est-à-dire en posant
dQ k ∂ k S
(2) =
dt mk
qui est équivalente à l'équation guide pour des particules sans spin [notez que sous cette forme,
l'équation guide est déjà suggérée par la relation de de Broglie (équation pré-Schrödinger) p = hk ,
ainsi que par l'équation d'eikonal de l'optique classique]. Le mouvement résultant est précisément
ce qui serait obtenu classiquement si les particules subissent, en plus des forces habituelles, la force
générée par le potentiel quantique.
La formulation du potentiel quantique de la théorie de de Broglie - Bohm est encore assez
largement utilisée. Par exemple, la théorie est présentée de cette manière dans deux monographies
existantes, de Bohm et Hiley et de Holland. Et sans s'occuper de savoir si oui ou non on considère
le potentiel quantique comme fondamental, elle peut en fait être assez utile afin de voir le plus
facilement que la mécanique newtonienne devrait émerger en moyenne de la mécanique bohmienne
à la limite classique. On voit alors que la (taille du) potentiel quantique fournit une mesure de la
déviation de la mécanique quantique de son approximation classique. De plus, le potentiel
quantique peut aussi être utilisé pour développer des schémas d'approximation pour les solutions de
l'équation de Schrödinger (Nerukh et Frederick, 2000).

Cependant, la réécriture de Bohm de l'équation de Schrödinger en termes de variables qui semblent


interprétables en termes classiques ne vient pas sans coût. Le plus évident est l'accroissement de la
complexité : l'équation de Schrödinger est plutôt simple et même linéaire tandis que l'équation
modifiée de Hamilton-Jacobi est assez compliquée et hautement non linéaire et nécessite en plus
l'équation de continuité pour sa fermeture. Le potentiel quantique lui-même n'est ni simple ni
naturel. Même pour Bohm il a semblé "plutôt étrange et arbitraire" (Bohm 1980, p.80). Et il n'est
pas très satisfaisant de penser à la révolution quantique comme aboutissant à l'investigation que la
nature est après tout classique excepté qu'il y a dans la nature ce qui apparaît être un terme de force
additionnel plutôt ad hoc, celui venant du potentiel quantique. Le caractère artificiel suggéré par le
potentiel quantique est le prix à payer si on insiste pour mettre une théorie hautement non classique
dans un moule classique.

De plus, la relation entre mécanique classique et mécanique bohmienne qui est suggérée par le
potentiel quantique est assez trompeuse. La mécanique bohmienne n'est pas simplement de la
mécanique classique avec un terme de force additionnel. En mécanique bohmienne, les vitesses ne
sont pas indépendantes des positions comme elles le sont classiquement mais sont contraintes par
l'équation guide. Dans la théorie classique de Hamilton-Jacobi, la fonction S peut être entièrement
éliminée et la description en termes de S simplifiée et réduite à une description de dimension finie
avec les variables de base de positions et de moments (non contraints) de toutes les particules
données par les équations de Hamilton ou de Newton.
Il peut être affirmé que le défaut le plus sérieux dans la formulation du potentiel quantique de la
mécanique bohmienne est qu'elle donne une impression complètement fausse du chemin que l'on
doit parcourir afin de convertir la théorie quantique orthodoxe en quelque chose de plus rationnel.
Le potentiel quantique suggère, et en effet cela a souvent été dit, qu'afin de transformer l'équation
de Schrödinger en une théorie qui peut, dans ce qui est souvent appelé en termes "réalistes",
expliquer les phénomènes quantiques, dont plusieurs sont extrêmement non locaux, nous devons
ajouter à la théorie un potentiel quantique compliqué d'un caractère grossièrement non local. Il
devrait être clair que de tels sentiments sont inappropriés puisque le potentiel quantique n'a pas
besoin d'être mentionné dans la formulation de la mécanique bohmienne et en tout cas est
simplement un reflet de la fonction d'onde que la mécanique bohmienne n'ajoute pas mais partage
avec la théorie quantique orthodoxe.
VII.6. L'expérience à deux fentes
Selon Richard Feynman, l'expérience à deux fentes pour les électrons est (Feynman et al., 1963,
p.37-2)
Un phénomène qui est impossible, absolument impossible, à expliquer d'une manière classique et
qui est au cœur de la mécanique quantique. En réalité elle contient le seul mystère".
Cette expérience (Feynman 1867, p.130)
A été conçue pour contenir tout le mystère de la mécanique quantique, pour vous mettre face aux
paradoxes et mystères et particularités de la nature à cent pour cent".
Comme la question (Feynman 1967, p.145),
Comment cela marche-t-il réellement ? Quelle machinerie produit réellement cette chose ?
Personne ne connaît de machinerie. Personne ne peut vous donner une explication plus profonde
de ce phénomène que celle que j'ai donnée, c'est-à-dire une description.

Mais la mécanique bohmienne est justement une telle explication plus profonde. Elle résout le
dilemme de l'apparition dans le même phénomène des propriétés à la fois corpusculaires et
ondulatoires d'une manière assez directe : la mécanique bohmienne est une théorie du mouvement
décrivant une particule (ou des particules) guidée par une onde. Ici nous avons une famille de
trajectoires bohmiennes pour l'expérience à deux fentes.
Bien que chaque trajectoire passe par une seule des fentes, l'onde passe à travers les deux, le profil
d'interférence qui se développe donc dans l'onde génère une figure similaire aux trajectoires
guidées par cette onde.

Comparons la présentation de Feynman avec celle de Bell (Bell 1987, p.191) :


N'est-il pas clair à partir de la petitesse de la scintillation sur l'écran que nous ayons à faire à une
particule ? Et n'est-il pas clair à partir de la diffraction et de la figure d'interférence que le
mouvement de la particule est dirigé par une onde ? De Broglie a montré en détail comment le
mouvement d'une particule, passant à travers seulement un des deux trous de l'écran, pouvait être
influencée par des ondes se propageant à travers les deux trous. Et si influencée que la particule ne
va pas là où l'onde s'annule mais est attirée là où elles coopèrent. Cette idée me semble si naturelle
et simple pour résoudre le dilemme onde particule d'une manière si claire et ordinaire que c'est
pour moi un grand mystère que cela fut si généralement ignoré.
L'aspect le plus énigmatique de l'expérience à deux fentes et peut-être le suivant : si, par quelque
moyen que ce soit, on est capable de déterminer à travers quelle fente la particule passe, la figure
d'interférence sera détruite. Cet effet dramatique de l'observation est, en fait, une simple
conséquence de la mécanique bohmienne. Pour voir cela, on a seulement besoin de considérer ce
qui détermine la fente à travers laquelle la particule passe. En particulier, on doit reconnaître que
cela doit impliquer une interaction avec un autre système qui doit aussi être inclus dans l'analyse de
la mécanique bohmienne. Cette destruction de l'interférence est reliée, assez naturellement, à
l'analyse de la mécanique bohmienne de la mesure quantique (Bohm 1952) et elle se produit via le
mécanisme qui conduit, en mécanique bohmienne, à la "réduction de la fonction d'onde".
VII.7. Le problème de la mesure
La difficulté conceptuelle la plus souvent citée qui mine la mécanique quantique est le problème de
la mesure ou, ce qui explique plus ou moins la même chose, le paradoxe du chat de Schrödinger.
En effet, pour de nombreux physiciens, le problème de la mesure n'est pas simplement une des
difficultés conceptuelles de la mécanique quantique. C'est la difficulté conceptuelle.

Le problème est le suivant. Supposons que la fonction d'onde d'un système individuel fournisse une
description complète de ce système. Quand nous analysons le processus de mesure en termes
quantiques, nous trouvons que la fonction d'onde après la mesure pour le système et l'appareil
venant de l'équation de Schrödinger pour le système composite implique typiquement une
superposition de termes correspondant à ce que nous aimerions voir comme les différents résultats
possibles, par exemple, différentes orientations d'aiguilles. Il est difficile de discerner dans cette
description de la situation après mesure le résultat réel de la mesure, par exemple, une certaine
orientation spécifique des aiguilles. Mais le point complet de la théorie quantique et la raison pour
laquelle nous croyons en elle est que cela est supposé fournir une explication remarquable, ou au
moins efficace, de nos observations, c'est-à-dire des résultats des mesures. En bref, le problème de
la mesure est le suivant : la théorie quantique implique que la mesure échoue typiquement pour
avoir des résultats du type pour lequel la théorie fut créée pour l'expliquer.

Par contraste si, comme Einstein, nous regardons la description fournie par la fonction d'onde
comme incomplète, le problème de la mesure s'évanouit : avec une théorie ou interprétation comme
la mécanique bohmienne, dans laquelle la description de la situation après mesure inclus, en plus de
la fonction d'onde, au moins les valeurs des variables qui enregistrent le résultat, il n'y a pas de
problème de mesure. En mécanique bohmienne, les aiguilles pointent toujours sur un résultat
définis.

Le problème de la mesure est souvent exprimé un peut différemment. Il est noté que les livres de
mécanique quantique fournissent deux règles pour l'évolution de la fonction d'onde d'un système
quantique : une dynamique déterministe donnée par l'équation de Schrödinger quand le système
n'est pas "mesuré" ou observé et une réduction aléatoire de la fonction d'onde dans un état propre
de "l'observable mesuré" quand il l'est. Cependant, les objections continuent, les livres de
mécanique quantique ne fournissent pas une explication cohérente de comment ces deux règles
apparemment incompatibles peuvent être réconciliées.

Que cette formulation du problème de la mesure soit plus ou moins équivalent à la précédente
devrait être assez clair : si une fonction d'onde fournit une description complète de la situation après
mesure, le résultat de la mesure doit correspondre à une fonction d'onde décrivant le résultat réel,
c'est-à-dire une fonction d'onde "réduite". D'où la règle de réduction. Mais il est difficile de prendre
sérieusement l'idée que ces interactions entre système et appareil que nous appelons mesures soient
gouvernées par des lois différentes de celles gouvernant toutes les autres interactions. D'où
l'incompatibilité apparente des deux règles.

La seconde formulation du problème de la mesure, bien que basiquement équivalente à la première,


suggère une question importante : la mécanique bohmienne peut-elle elle-même fournir une
explication cohérente de comment les deux règles dynamiques peuvent être réconciliées ?
Comment la mécanique bohmienne justifie-t-elle l'utilisation de la fonction d'onde "réduite" à la
place de l'originale ? Cette question fut répondue dans le premier article sur la mécanique
bohmienne (Bohm 1952, partie I, section 7 et partie II, section 2). Ce qui serait maintenant appelé
les effets de la décohérence, produit par l'interaction avec l'environnement (molécules d'air, rayons
cosmiques, degrés de liberté internes microscopiques, etc.) rend extrêmement difficile pour la
composante de la fonction d'onde après mesure correspondant au résultat réel de la mesure de
développer une superposition significative, dans l'espace de configuration d'un très grand système
qui inclus tous les systèmes avec lesquels le système original et l'appareil sont en interaction, avec
les autres composantes de la fonction d'onde après mesure. Mais sans une telle superposition,
l'évolution future du système et de l'appareil est généré, avec un grand degré de précision, par la
composante elle-même. Le remplacement est donc justifié en pratique (voir aussi Dürr et al. 1992,
section 5).

On pense largement par les défenseurs de la théorie quantique orthodoxe que le problème de la
mesure lui-même est quelque peu résolu par la décohérence. Il n'est pas facile de comprendre cette
croyance. Dans la première formulation du problème de la mesure, rien ne nous empêche d'inclure
dans l'appareil toutes les sources de décohérence. Mais alors, il n'y a plus de place pour que la
décohérence soit en aucune manière pertinente pour cet argument.
VII.8. La réduction de la fonction d'onde
Dans la section précédente, il fut indiqué que la réduction de la fonction d'onde peut être vue en
mécanique bohmienne comme une chose pragmatique. Cependant, il y a un sens dans lequel la
réduction de la fonction d'onde en mécanique bohmienne est plus qu'une question de pratique. Si
nous nous concentrons sur ce qui devrait être vu comme la fonction d'onde, non du système
composite système et appareil, qui à strictement parler reste une superposition si le système
composite est traité comme fermé durant le processus de mesure, mais du système lui-même, nous
trouvons que pour la mécanique bohmienne, cela provoque en effet une réduction, exactement
comme décrit par le formalisme quantique. L'élément clé ici est la notion de fonction d'onde
conditionnelle d'un sous système d'un système plus large, décrite brièvement dans cette section et
discutée en détail, avec la notion reliée de fonction d'onde effective, dans Dürr et al., 1992, section
5.

Pour l'évolution de la fonction d'onde, la mécanique bohmienne est formulée en termes de


l'équation de Schrödinger seule. Néanmoins, la règle de réduction des livres est une conséquence de
la mécanique bohmienne. Pour apprécier cela, on doit noter d'abord que, puisque l'observation
implique l'interaction, un système sous observation ne peut pas être un système fermé mais doit
plutôt être un sous-système d'un système plus grand qui est fermé, que nous devions prendre
l'univers entier ou un système plus petit plus ou moins fermé qui contient le système observé, le
sous-système. La configuration Q de ce grand système se divise naturellement en X, la
configuration du sous système et Y, la configuration de l'environnement du sous système.

Supposons que le grand système a la fonction d'onde Ψ = Ψ (q ) = Ψ ( x, y ) . Selon la mécanique


bohmienne, le grand système est complètement décrit par Ψ , évoluant selon l'équation de
Schrödinger et par X et Y. La question alors posée, et c'est la question critique, qu'est-ce que cela
signifie pour la fonction d'onde du sous-système ?

Il y a une réponse assez évidente à cela, une fonction naturelle de x qui incorpore de manière
souhaitable la structure objective, c'est-à-dire la fonction d'onde conditionnelle
(1) ψ ( x ) = Ψ ( x, Y )
obtenue en plongeant la configuration réelle de l'environnement dans la fonction d'onde du grand
système (cette définition est appropriée seulement pour des fonctions d'onde scalaire; pour des
particules avec spin, la situation serait un peu plus compliquée). Il s'ensuit alors immédiatement que
la configuration du sous-système obéit à l'équation guide avec la fonction d'onde conditionnelle sur
le coté droit.

De plus, en prenant en compte la manière dont la fonction d'onde conditionnelle dépend du temps t
(2) ψ t ( x ) = Ψt ( x, Yt )
via la dépendance en le temps de Y ainsi que de Ψ , il n'est pas difficile de voir (Dürr et al. 1992)
que la fonction d'onde conditionnelle obéit à l'équation de Schrödinger du sous-système quand le
système est de manière souhaitable découplée de l'environnement, cela signifie en particulier que
Ψ a une forme particulière, qui peut être appelée une forme de produit effectif (similaire mais plus
générale que le produit de superposition produit dans une "mesure quantique idéale"), auquel cas la
fonction d'onde du sous-système est aussi appelée sa fonction d'onde effective, et, en utilisant
l'hypothèse de l'équilibre quantique, qu'elle se réduit aléatoirement selon les règles habituelles de la
mécanique quantique sous précisément ces conditions de l'interaction entre le sous-système et son
environnement qui définit une mesure quantique idéale.

Il est peut-être utile de noter que la théorie quantique orthodoxe n'a pas les ressources, c'est-à-dire
la configuration réelle de l'environnement, qui rend possible la définition de la fonction d'onde
conditionnelle. En effet, d'un point de vue orthodoxe, cela signifierait que la fonction d'onde d'un
sous-système est totalement obscure.
VII.9. Aléatoire quantique
Selon le formalisme quantique, la densité de probabilité pour trouver un système dont la fonction
d'onde est ψ dans la configuration q est ψ (q ) . Dans la mesure où les résultats des mesures sont
2

enregistrés dans la configuration, au moins potentiellement, il s'ensuit que les prédictions de la


mécanique bohmienne pour les résultats des mesures doivent être en accord avec celles de la
théorie quantique orthodoxe (en supposant la même équation de Schrödinger pour les deux) pourvu
qu'il soit quelque peu vrai pour la mécanique bohmienne que les configurations soient aléatoires
avec une distribution donnée par la distribution de l'équilibre quantique ψ (q ) . Maintenant, le
2

statut et la justification de cette hypothèse de l'équilibre quantique est une question assez délicate et
qui a été explorée avec beaucoup de détails (Dürr et al. 1992). Voici quelques points pertinents.

C'est maintenant un fait assez familier que les systèmes dynamiques conduisent assez généralement
au comportement de caractère statistique, avec les statistiques données par la (ou une) distribution
de probabilité stationnaire pour la dynamique. De même en mécanique bohmienne, excepté que la
stationnarité du système bohmien n'est pas le bon concept et c'est plutôt la notion d'équivariance qui
est pertinente. Une probabilité de distribution ρ ψ sur l'espace de configuration, dépendant de la
fonction d'onde ψ , est équivariante si
(1) (ρ ψ )t = ρ ψ (t )
où la dépendance en t sur le coté droit vient de l'équation de Schrödinger et sur le coté gauche de
l'évolution des distributions de probabilité venant du flot induit par l'équation guide. Donc
l'équivariance exprime la compatibilité mutuelle, relative à ρ ψ , de l'évolution de Schrödinger de la
fonction d'onde et du mouvement bohmien de la configuration. C'est une conséquence immédiate
de l'équation guide et de l'équation de continuité quantique que ρ ψ = ψ (q ) est équivariant.
2

Il est peut-être utile, en essayant de comprendre le statut en mécanique bohmienne de la distribution


d'équilibre quantique, de penser à
(2) équilibre quantique, ρ = ψ
2

comme l'analogue grossier de (classique)


(3) équilibre thermodynamique, ρ = exp(− H / kT ) / Z
la distribution de probabilité d'un point de l'espace de phase d'un système en équilibre à la
température T (Z est une constante de normalisation appelée la fonction de partition et k est la
constante de Boltzmann). Cette analogie a plusieurs facettes : dans les deux cas les distributions de
probabilité sont naturellement associées avec leurs systèmes dynamiques respectifs. En particulier,
ces distributions sont stationnaires ou, ce qui revient au même dans le cadre de la mécanique
bohmienne, équivariantes. Dans les deux cas il semble naturel d'essayer de justifier ces
distributions d'équilibre par l'utilisation d'arguments de mélange, de convergence vers l'équilibre
(Bohm 1953, Valentini 2001). Dans les deux cas, la justification ultime pour des distributions
probabilistes doit, à coup sur, être en termes d'images statistiques exhibées par des ensembles de
sous-systèmes réels dans un univers individuel typique (Bell 1987, page 129, Dürr et al. 1992) (et
dans les deux cas, le statut et la justification des distributions d'équilibre sont encore controversés).
Il peut être montré (Dürr et al. 1992) que les probabilités pour les positions données par la
distribution d'équilibre quantique émergent naturellement de l'analyse de "l'équilibre" du système
dynamique déterministe défini par la mécanique bohmienne, de la même manière que la
distribution de vitesse de Maxwell émerge de l'analyse de l'équilibre thermodynamique classique
(pour plus sur le coté thermodynamique de l'analogie, voir Goldstein 2001). Donc, avec la
mécanique bohmienne, la description statistique en théorique quantique prend en effet, comme
anticipé par Einstein, "une position approximativement analogue à la mécanique statistique dans le
cadre de la mécanique classique".
VII.10 Observables quantiques
Il semblerait que comme la théorie quantique orthodoxe nous fournit des probabilités non
seulement pour les positions mais pour une grande classe d'observables quantiques, elle est une
théorie beaucoup plus riche que la mécanique bohmienne qui semble exclusivement concernée par
les positions. Les apparences sont cependant trompeuses. A cet égard, comme pour beaucoup
d'autres dans les fondations de la mécanique quantique, la remarque cruciale a été faite par Bell
(Bell 1987, p.166) :
[E]n physique les seules observations que nous devons considérer sont les conservations des
positions, si pas seulement les positions des aiguilles des instruments. C'est un grand mérite du
point de vue de de Broglie - Bohm de nous forcer à considérer ce fait. Si vous faites des axiomes,
plutôt que des définitions et des théorèmes, sur la "mesure" de quelque chose d'autre, alors vous
introduisez de la redondance et risquez l'inconsistance.

Considérons d'abord la mécanique classique. Les observables sont des fonctions sur l'espace des
phases, des fonctions des positions et impulsions des particules. La théorie est définie par les
axiomes gouvernant le comportement des observables de base, les équations de Newton pour les
positions ou d'Hamilton pour les positions et les impulsions. Quel serait le but de faire des axiomes
additionnels pour d'autres observables ? Après tout, le comportement de tout observable est
entièrement déterminé par le comportement des observables de base. Par exemple, pour la
mécanique classique, le principe de la conservation de l'énergie est un théorème, pas un axiome.

La situation peut sembler différente en mécanique quantique car en mécanique quantique il n'y a
pas d'observables de base ayant les propriétés que tous les autres observables sont fonction d'eux.
Cela est relié au fait qu'en mécanique quantique, avec son orientation positiviste, aucun observable
n'est pris sérieusement comme décrivant des propriétés objectives, comme ayant réellement des
valeurs qu'ils soient ou non mesurés. A la place, toute affirmation sur les observables de la
mécanique quantique est supposée être comprises comme une affirmation sur la mesure des
observables.

Mais si l'en est ainsi, la situation par rapport aux autres observables de la mécanique quantique n'est
pas vraiment si différente de la mécanique classique. Quelle que soit la signification supposée en
mécanique quantique des mesures des (valeurs des) observables, que, nous affirmons croire, ne pas
avoir réellement de valeurs, elle doit au moins se rapporter à certaines expériences impliquant des
interactions entre le système "mesuré" et un appareil "de mesure" conduisant à un résultat
reconnaissable donné potentiellement par, disons, une orientation d'aiguille. Mais alors, si les
axiomes que nous avons suffisent pour le comportement des orientations des aiguilles (au moins
quand elles sont observées), les règles pour la mesure des autres observables doivent être des
théorèmes suivant de ces axiomes, pas des axiomes supplémentaires.

Il devrait être clair suite aux discussions qui précèdent que, en supposant les hypothèses de
l'équilibre quantique, toute analyse de la mesure d'un observable quantique pour la théorie
quantique orthodoxe, quelle que soit sa signification et l'expérience correspondante pouvant être
effectuée, fournit ipso facto au moins une explication adéquate en mécanique bohmienne. La seule
partie de la théorie quantique orthodoxe pertinente à l'analyse est l'évolution de Schrödinger et cela
est partagé avec la mécanique bohmienne. La principale différence dans les deux explications est
que l'orthodoxe rencontre le problème de la mesure avant d'atteindre une conclusion satisfaisante
tandis que l'explication bohmienne ne le fait pas. Cette différence vient bien sûr du fait de ce que la
mécanique bohmienne ajoute, à la théorie quantique orthodoxe, les configurations réelles.

Dans le reste de cette section, nous souhaitons toucher un mot sur la signification des observables
quantiques en mécanique bohmienne : sur comment ils émergent naturellement et ce qu'ils
signifient (il suit de ce qui a été dit dans les trois paragraphes précédents que ce que nous concluons
ici sur les observables quantiques pour la mécanique bohmienne est valable également pour la
théorie quantique orthodoxe).

Il arrive que la mécanique bohmienne conduise à une association naturelle entre les expériences et
les observables dit généralisés, donné par des mesures d'opérateurs positifs (Davies 1976) ou
POVM, O(dz ) , sur les espaces de valeurs des résultats des expériences (Berndl, Daumer et al.
1995). Cette association est telle que la distribution de probabilité du résultat Z d'une expérience,
quand elle est effectuée sur un système avec la fonction d'onde ψ , est donnée par ψ O(dz )ψ (où
est le produit scalaire habituel entre les vecteurs d'états quantiques).
De plus, cette conclusion est basiquement une conséquence immédiate de la signification d'une
expérience dans une perspective bohmienne : un couplage du système à l'appareil conduisant à un
résultat Z qui est une fonction de la configuration finale du système total, par exemple l'orientation
d'une aiguille. Analysé en termes de la mécanique bohmienne, l'expérience définit une application
de la fonction d'onde initiale du système vers la distribution du résultat. Cela suit directement de la
structure de la mécanique bohmienne et du fait que la distribution d'équilibre quantique est
quadratique en la fonction d'onde, c'est-à-dire une application bilinéaire (ou plus précisément
sesquilinéaire). Une telle application est équivalente à un POVM.

L'exemple le plus simple d'un POVM est un observable quantique standard correspondant à un
opérateur hermitique A sur l'espace de Hilbert des états quantiques (c'est-à-dire les fonctions
d'ondes). Pour la mécanique bohmienne, plus ou moins toute expérience de "type mesure" est
associée avec ce type spécial de POVM et l'axiome familier de mesure quantique que la distribution
du résultat de "la mesure de l'observable A" est donnée par la mesure spectrale de A relativement à
la fonction d'onde (dans les cas les plus simples juste le carré des amplitudes dites de probabilité)
est donc obtenu.

Pour une variété de raisons, il devient rapidement presque universel, après que la mécanique
quantique fut découverte, de parler d'une expérience associée à un opérateur A de la manière que
nous venons de décrire comme une mesure de l'observable A comme si l'opérateur correspondait à
une propriété du système qui est en un certain sens mesuré par cette expérience. C'est une grande
source de confusion sur la signification et les implications de la théorie quantique que ce réalisme
naïf sur les opérateurs (Daumer et al. 1997).
VII.11. Spin
A la fois la manière dont les observables non configurationnels sont traités en mécanique
bohmienne et certaines des difficultés causées par le réalisme naïf sur les opérateurs mentionnés ci-
dessus peuvent être illustrées joliment avec le cas du spin.

Le spin est l'observable quantique canonique n'ayant aucune contrepartie classique, réputé être
impossible à saisir d'une manière non quantique. La source de la difficulté n'est pas tant que le spin
est quantifié dans le sens que ses valeurs permises forment un ensemble discret (pour une particule
de spin 1/2, ± h / 2 ), l'énergie aussi peut être quantifiée dans ce sens, ni même précisément que les
composantes du spin dans les différentes directions ne commutent pas et ainsi ne peuvent pas être
simultanément discutées, mesurées, imaginées ou quoi que ce soit que nous soyons empêchés de
faire avec des observables non commutant. La difficulté est plutôt qu'il n'y a pas de quantité
ordinaire (non quantique) qui, comme l'observable du spin, est un vecteur et qui est aussi tel que ses
composantes dans toutes les directions possibles appartiennent au même ensemble discret. Le
problème, en d'autres mots, est que les relations vectorielles habituelles entre les différentes
composantes du vecteur spin ne sont pas compatibles avec les conditions de quantification sur les
valeurs de ces composantes.

Pour une particule de spin 1 le problème est même plus sévère. Puisque les composantes du spin
dans différentes directions ne sont pas simultanément mesurables, les relations vectorielles
impossibles pour les composantes du spin d'une particule quantique ne sont pas des relations
observables. Simon Kochen et Ernst Specker (Kochen et Specker 1967) ont montré que pour une
particule de spin 1, les carrés des composantes du spin dans les différentes directions satisfont,
selon la théorie quantique, une collection de relations, chacune individuellement observable, qui
prisent ensembles sont impossibles : les relations sont incompatibles avec l'idée que les mesures de
ces observables révèlent simplement leur valeurs préexistantes plutôt que, comme nous sommes
pressés de croire en théorie quantique, les créer. Ce théorème de Kochen - Specker continue à être
vu par de nombreux physiciens et philosophes de la physique comme un argument définitif contre
la possibilité des variables cachées.
Nous pouvons donc naturellement nous demander comment la mécanique bohmienne fait pour
traiter le spin. Mais cette question a déjà été répondue ici. La mécanique bohmienne a un sens pour
des particules avec spin, c'est-à-dire des particules dont les fonctions d'onde sont des spineurs.
Quand de telles particules sont correctement dirigées vers un appareil de Stern-Gerlach, elles
émergent en se déplaçant dans un ensemble plus ou moins discrets de directions, 2 directions
possibles pour des particules de spin 1/2, ayant 2 composantes du spin, 3 pour le spin 1 avec 3
composantes, etc. Cela se produit parce que les aimants de Stern-Gerlach sont ainsi conçus et
orientés pour qu'un paquet d'onde (une fonction d'onde localisée avec une vitesse raisonnablement
bien définie) dirigé à travers l'aimant sera, en vertu de l'évolution de Schrödinger, séparé en deux
paquets distincts, correspondant aux composantes du spin de la fonction d'onde et se déplaçant dans
un ensemble discret de directions. La particule elle-même, selon sa position initiale, finira dans un
des paquets se déplaçant dans une des directions.

La distribution de probabilité pour le résultat d'une telle expérience de Stern-Gerlach est utilement
exprimée en termes des opérateurs de spin de la mécanique quantique, pour une particule de spin
1/2 donnée par les matrices de spin de Pauli, de la manière expliquée ci-dessus. Dans une
perspective bohmienne, il n'y a pas d'indice de paradoxe dans tout cela à moins que nous soyons
séduit par le réalisme naïf sur les opérateurs en insistant, en dépit de son impossibilité évidente, que
les opérateurs de spin correspondent à de véritables propriétés des particules.
VII.12. Contextualité
Le théorème de Kochen et Specker, le théorème précédent de Gleason (Gleason 1957 et Bell 1966)
ainsi qu'une variété d'autres résultats incluant les inégalités de Bell montrent que toute formulation
à variables cachées de la mécanique quantique doit être contextuelle. Elle doit violer l'hypothèse de
non contextualité "que la mesure d'un observable doit conduire à la même valeur indépendamment
de la manière de la mesurer" (Bell 1987, p.9). Pour beaucoup de physiciens et de philosophes de la
science, la contextualité a semblé un grand prix à payer pour des bénéfices plutôt modestes,
largement psychologique pourraient-ils dire, fournis par les variables cachées.

Même plusieurs bohmiens suggèrent que la contextualité marque un écart significatif des principes
classiques. Par exemple, Bohm et Hiley (1993) écrivent que "la dépendance au contexte des
résultats des mesures est une indication supplémentaire de comment notre interprétation n'implique
pas un simple retour aux principes de base de la physique classique".

Cependant, pour comprendre la contextualité dans la perspective bohmienne il faut préciser que
presque plus rien n'a besoin d'être expliqué. Considérons un opérateur A qui commute avec les
opérateurs B et C (qui, cependant, ne commutent pas ensemble). Ce qui est souvent appelé "le
résultat de A" dans une expérience "mesurant A avec B" est habituellement en désaccord avec "le
résultat de A" dans une expérience "mesurant A avec C" car, même si tout le reste est le même, ces
expériences sont différentes et des expériences différentes ont habituellement des résultats
différents. La référence trompeuse à la mesure, avec le réalisme naïf associé sur les opérateurs, rend
la contextualité plus important qu'elle ne l'est.

Si nous évitons le réalisme naïf sur les opérateurs, la contextualité explique un peu plus que
l'observation assez peu remarquable que les résultats des expériences dépendraient de comment
elles sont effectuées même quand les expériences considérées sont associées avec le même
opérateur de la manière expliquée ci-dessus. David Albert (Albert 1992, p.153) a donné un exemple
particulièrement simple et frappant de cette dépendance pour les expériences de Stern-Gerlach
"mesurant" la composante z du spin. Si on renverse la polarité des aimants pour "mesurer" la
composante z du spin, en gardant la même géométrie, on obtient un autre aimant "mesurant" la
composante z du spin. L'utilisation de l'un ou l'autre de ces deux aimants conduira souvent à des
conclusions opposées sur la "valeur de la composante z du spin" avant la "mesure" (pour la même
valeur initiale de la position de la particule).

Comme Bell a insisté (Bell 1987, p.166) :


Une morale finale concerne la terminologie. Pourquoi de tels gens sérieux prennent si
sérieusement des axiomes qui semblent maintenant si arbitraire ? Je suspecte qu'ils furent trompés
par le mauvais usage pernicieux du mot "mesure" dans la théorie contemporaine. Ce mot suggère
très fortement l'assurance de certaines propriétés pré-existantes de certaines choses, tout
instrument impliqué jouant un rôle purement passif. Les expériences quantiques ne sont pas
seulement comme ça, comme nous l'a appris particulièrement Bohr. Les résultats doivent être vus
comme le produit joint du "système" et de "l'appareil", le dispositif expérimental complet. Mais le
mauvais usage du mot "mesure" rend facile d'oublier cela et alors d'attendre que les "résultats des
mesures" obéissent à une certaine logique simple dans laquelle l'appareil n'est pas mentionné. Les
difficultés résultantes montrent vite qu'une telle logique n'est pas la logique ordinaire. C'est mon
impression que le sujet entier de la "logique quantique" est venu de cette manière du mauvais
usage d'un mot. Je suis convaincu que le mot "mesure" a maintenant été tellement abusé que le
domaine avancerait de manière significative en bannissant son usage en faveur, par exemple, du
mot "expérience".
VII.13. Non-localité
La mécanique bohmienne est manifestement non locale : la vitesse, comme exprimée dans
l'équation guide, d'un système à une particule à un système à plusieurs particules dépendra
typiquement des positions des autres, particules, éventuellement distantes, si la fonction d'onde du
système est intriquée, c'est-à-dire par un produit de fonctions d'onde à une seule particule. Cela est
vrai, par exemple, pour la fonction d'onde EPR-Bohm décrivant une paire de particules de spin 1/2
dans l'état singulet, analysé par Bel et plusieurs autres. Donc, la mécanique bohmienne rend
explicite la propriété la plus dramatique de la théorie quantique : la non-localité quantique.

On devrait insister sur le fait que la non-localité en mécanique bohmienne dérive seulement de la
non-localité construite dans la structure de la théorie quantique standard, comme fournie par une
fonction d'onde sur l'espace de configuration, une abstraction qui, grossièrement, combine, ou lie,
des particules distantes en une seule réalité irréductible. Comme Bell (Bell 1987, p.115) l'a
souligné,
Que l'équation guide, dans le cas général, ne se propage pas dans l'espace ordinaire à trois
dimensions mais dans un espace de configuration multidimensionnel est à l'origine de la "non-
localité" notoire de la mécanique quantique. C'est un mérite de la version de de Broglie - Bohm de
montrer cela si explicitement qu'elle ne peut pas être ignorée.

Donc la relation de vitesse non locale dans l'équation guide est un des aspects de la non-localité de
la mécanique bohmienne. Il y a aussi la non-localité, ou non séparabilité, implicite dans la fonction
d'onde elle-même et dans sa propagation, une non-localité qui en fait ne suppose pas la structure,
les configurations réelles, que la mécanique bohmienne ajoute à la théorie quantique orthodoxe. Et
comme Bell l'a montré, en utilisant la relation entre la fonction d'onde et les prédictions de la
mécanique quantique concernant les résultats expérimentaux, cette non-localité ne peut pas
facilement être écartée.

La non-localité de la mécanique bohmienne peut être appréciée peut-être plus efficacement, sous
tous ses aspects, en se concentrant sur la fonction d'onde conditionnelle. Supposons, par exemple,
que dans l'expérience EPR-Bohm la particule 1 passe à travers son dispositif de Stern-Gerlach
avant que la particule 2 n'arrive à son appareil. Alors l'orientation des aimants de Stern-Gerlach
pour la particule 1 aura un effet significatif sur la fonction d'onde conditionnelle de la particule 2 :
si les aimants de Stern-Gerlach pour la particule sont orientés pour "mesurer la composante z du
spin", alors après que la particule 1 soit passée à travers son aimant, la fonction d'onde
conditionnelle de la particule 2 sera un vecteur propre (ou état propre) de la composante z du spin
(en fait, appartenant à la valeur propre qui est le négatif de celle "mesurée" pour la particule 1) et la
même chose est vraie pour toute autre composante du spin. Vous pouvez dicter le type d'état propre
de spin produit pour la particule 2 en choisissant de manière appropriée l'orientation d'un aimant
arbitrairement distant. Comme le comportement futur de la particule 2, en particulier comment elle
est affectée par son aimant, cela dépend bien sûr beaucoup du caractère de sa fonction d'onde
conditionnelle et donc est très fortement influencé par le choix d'orientation de l'aimant distant.

Cet effet non local sur la fonction d'onde conditionnelle de la particule 2 suit de la combinaison de
l'analyse standard de l'évolution de la fonction d'onde dans l'expérience EPR-Bohm avec la
définition de la fonction d'onde conditionnelle (pour la simplicité, nous ignorons la symétrie par
permutation). Avant que les aimants soient atteints, la fonction d'onde EPR-Bohm est la somme de
deux termes, correspondant aux valeurs non nulles de deux des quatre composantes de spin jointes
possibles pour les deux particules, chaque terme est un produit d'un état propre pour une
composante du spin dans une direction donnée pour la particule avec l'état propre opposé (c'est-à-
dire appartenant à la valeur propre qui est la négative de la valeur propre de la particule 1) pour la
composante du spin dans la même direction pour la particule 2. De plus, en vertu de la symétrie
sous les rotations, il se fait que la fonction d'onde EPR-Bohm a la propriété que toute composante
du spin, c'est-à-dire dans toute direction, peut être utilisée dans cette décomposition (cette propriété
est très intéressante).

En décomposant la fonction d'onde EPR-Bohm en utilisant la composante du spin dans la direction


associée a l'aimant de la particule 1, l'évolution de la fonction d'onde quand la particule 1 passe
l'aimant est facile à saisir : l'évolution de la somme est déterminée (en utilisant la linéarité) par celle
de ses termes individuels et l'évolution de chaque terme par celui de chacun de ses facteurs.
L'évolution du facteur de la particule 1 conduit à un déplacement le long de l'axe magnétique dans
la direction déterminée par (le signe de) la composante du spin (c'est-à-dire la valeur propre). Une
fois que ce déplacement s'est produit (et suffisament grand) la fonction d'onde conditionnelle pour
la particule 2 correspondra au terme dans la somme sélectionnée par la position réelle de la
particule 1. En particulier, elle sera un état propre de la composante du spin "mesuré par" l'aimant
de la particule 1.

La non-localité de la mécanique bohmienne a une propriété remarquable : elle est cachée par
l'équilibre quantique. C'est une conséquence de l'hypothèse de l'équilibre quantique que les effets
non locaux en mécanique bohmienne ne conduisent pas à des conséquences observables qui sont
aussi contrôlables, nous ne pouvons pas les utiliser pour envoyer des messages instantanés. Cela
suit du fait que, étant donné l'hypothèse de l'équilibre quantique, les conséquences observables de
la mécanique bohmienne sont les mêmes que celles de la théorie quantique orthodoxe pour laquelle
la communication instantanée basée sur la non-localité quantique est impossible (voir Eberhard
1978). L'importance de l'équilibre quantique pour obscurcir la non-localité de la mécanique
bohmienne a été soulignée par Valentini (1991).
VII.14. Invariance de Lorentz
Comme la théorie quantique non relativiste, dont elle est une version, la mécanique bohmienne est
incompatible avec la relativité restreinte, un principe central de la physique : elle n'est pas
invariante de Lorentz. La mécanique bohmienne ne peut pas non plus être facilement modifiée pour
devenir invariante de Lorentz. Les configurations, définies par les positions simultanées des
particules, jouent un rôle crucial dans sa formation, l'équation guide définissant une évolution dans
l'espace de configuration.

Cette difficulté avec l'invariance de Lorentz est intimement reliée à la non-localité de la mécanique
bohmienne. Puisque la théorie quantique elle-même, en vertu simplement du caractère de ses
prédictions concernant les corrélations EPR-Bohm, est irréductiblement non locale, on peut
s'attendre à des difficultés considérables avec l'invariance de Lorentz de la théorie quantique
orthodoxe aussi bien qu'avec la mécanique bohmienne. Par exemple, la règle de réduction des livres
de théorie quantique viole de manière flagrante l'invariance de Lorentz. De fait, la non-localité
intrinsèque de la théorie quantique présente des difficultés formidables pour le développement de
toute formulation (plusieurs particules) invariante de Lorentz qui évite l'aspect vague de la théorie
quantique orthodoxe (voir Maudlin 1994).

Une évaluation assez surprenante et peut-être correcte de l'importance du problème de l'invariance


de Lorentz fut faite par Bell dans une interview avec le philosophe Renée Weber, peu de temps
avant sa mort. Se référant aux paradoxes de la mécanique quantique, Bell observa que "ces
paradoxes sont simplement éliminés par la théorie de 1952 de Bohm, laissant la question de
l'invariance de Lorentz. Ainsi une de mes missions dans la vie est de permettre aux gens de voir
que s'ils veulent parler des problèmes de la mécanique quantique, ils doivent parler de l'invariance
de Lorentz".

La vue la plus commune sur la question de l'invariance de Lorentz et la non-localité quantique est
qu'une description détaillée des processus quantiques microscopiques, telle qu'elle serait fournie par
une extension de la mécanique bohmienne au domaine relativiste devrait violer l'invariance de
Lorentz. Dans cette vue, l'invariance de Lorentz est une symétrie émergente obéissant à nos
observations, une conséquence statistique de l'équilibre quantique qui gouverne les résultats des
expériences quantiques. C'est l'opinion de Bohm et Hiley (1993), Holland (1993) et Valentini
(2001).

Cependant, contrairement à la non-localité, la violation de l'invariance de Lorentz n'est pas


inévitable. Il devrait être possible, semble-t-il, de construire une théorie totalement invariante de
Lorentz fournissant une description détaillée des processus quantiques microscopiques. Une
manière de faire cela est par l'utilisation d'une structure dynamique invariante de Lorentz
supplémentaire, par exemple un champ quadrivectoriel de type temps approprié qui permet la
définition d'un feuilletage de l'espace-temps en hypersurfaces de type espace fournissant une notion
invariante de Lorentz de "la configuration en évolution" et le long de laquelle les effets non locaux
sont transmis. Voir Dürr et al. 1999 pour un modèle élémentaire. Une autre possibilité qui ne
devrait pas être écartée est qu'une explication totalement invariante de Lorentz de la non-localité
quantique peut être obtenue sans l'invocation d'une structure supplémentaire exploitant seulement
ce qui est déjà disponible, par exemple, la structure du cône de lumière.

Bien qu'il se peut que la non-localité invariante de Lorentz reste quelque peu énigmatique. Les
questions sont extrêmement subtiles. Par exemple Bell (1987, page 155) trouverait :
Perturbant... l'impossibilité de "messages" plus rapide que la lumière qui suit de la mécanique
quantique ordinaire qui jusqu'ici est non ambiguë et adéquate pour les procédures que nous
pouvons effectuer. L'élucidation exacte de concepts comme "message" et "nous" serait un
formidable défi.

Bien que l'équilibre quantique et l'incertitude absolue qui l'affecte (Fürr et al.) puisse être utile ici,
la situation reste énigmatique.
VII.15. Objections
Toux ceux qui ont porté des arguments sur les fondations de la mécanique quantique, quelle que
soit leur position seraient d'accord avec l'observation suivante de Tolstoy :
Je sais que la plus part des hommes, incluant ceux qui ont facile avec les problèmes de grande
complexité, peuvent rarement accepter les vérités même les plus simples et les plus évidentes sur
elles qui les obligent à admettre la fausseté des conclusions qu'ils ont pris plaisir à expliquer aux
collègues, qu'ils ont fièrement enseignés aux autres et qu'ils ont tissé fil après fil dans la fabrique
de leur vie.

Un grand nombre d'objections ont été et continuent à être soulevées contre la mécanique
bohmienne. Voici quelques-unes d'entre elles : la mécanique bohmienne fait des prédictions sur les
résultats des expériences différents de ceux de la théorie quantique orthodoxe ainsi elle est fausse.
La mécanique bohmienne fait les mêmes prédictions sur les résultats des expériences que la théorie
quantique orthodoxe ainsi elle n'est pas testable et donc sans signification. La mécanique
bohmienne est mathématiquement équivalente à la théorie quantique orthodoxe et donc n'est pas
réellement une alternative du tout. La mécanique bohmienne est plus compliquée que la théorie
quantique orthodoxe, puisqu'elle implique une équation supplémentaire (cette objection est basée
sur l'erreur surprenante commune que la théorie quantique orthodoxe est définie seulement par
l'équation de Schrödinger et n'a pas réellement besoin comme partie de sa formulation des postulats
de mesure trouvés dans les livres sur la théorie quantique. C'est seulement dans un cadre des
univers multiples que cette vue pourrait commencer à avoir un sens, mais nous doutons fortement
qu'elle ait un sens même là). La mécanique bohmienne nécessite de postuler un potentiel quantique
mystérieux et indétectable. La mécanique bohmienne nécessite l'addition à la théorie quantique
d'une mystérieuse onde pilote. La mécanique bohmienne, comme l'a montré von Neuman, ne peut
pas marcher. La mécanique bohmienne, comme Kochen et Specker l'ont montré, ne peut pas
marcher. La mécanique bohmienne, comme Bell l'a montré, ne peut pas marcher. La mécanique
bohmienne est une régression enfantine à des modes discrétisés classiques de pensée. Les
trajectoires bohmiennes sont folles puisqu'elles peuvent être courbées même quand aucune force
classique n'est présente. Les trajectoires bohmiennes sont folles puisqu'une particule bohmienne
peut être au repos dans des états quantiques stationnaires. Les trajectoires bohmiennes sont folles
puisqu'une particule bohmienne ne peut être au repos sans des états quantiques stationnaires même
quand ils sont des états propres d'énergie élevée. Les trajectoires bohmiennes sont surréalistes. La
mécanique bohmienne, puisqu'elle est déterministe, est incompatible avec l'aléatoire quantique. La
mécanique bohmienne est non locale. La mécanique bohmienne est intuitive. La mécanique
bohmienne est l'interprétation des univers multiples déguisée (pour un bout de discussion sur
certaines de ces objections, voir l'échange de lettres sur la théorie quantique sans observateurs, dans
l'édition de février 1999 de Physics Today, particulièrement les quatre dernières des huit lettres).

La plus part de ces objections ont peu ou pas de mérite. Certaines viennent d'un réalisme naïf sur
les opérateurs, certaines de l'idée que, dans la mesure ou les concepts de la physique classique
s'appliquent, les lois de la physique classique sont plus ou moins considérées valides a priori,
certaines d'une incapacité à saisir le point de la mécanique bohmienne et certaines d'une complète
ignorance.

Il est peut-être utile de mentionner qu'en dépit de l'équivalence empirique entre la mécanique
bohmienne et la théorie quantique orthodoxe, il y a une variété d'expériences et de questions
expérimentales qui ne rentrent pas confortablement dans le formalisme quantique standard mais
sont facilement manipulées par la mécanique bohmienne. Parmi elles il y a les résidences et temps
tunnels (Leavens 1996), les temps d'évasion et positions d'évasion (Daumer et al. 1997), la théorie
de la diffusion (Dürr et al., 2000) et le chaos quantique (Cushing 1994, Dürr et al., 1992).

Il y a toutefois quelques objections plus sérieuses.


 La théorie de Bohm a un caractère très artificiel. La mécanique quantique de base (sans
interprétation) reste strictement identique, c'est l'équation de Schrödinger. Et on applique
simplement au flux de probabilité une ontologie corpusculaire en identifiant ce flux à la densité
de particules.

D'ailleurs, cet ajout ontologique est vraiment restreint. La nature de la fonction d'onde n'est pas
précisée et celle-ci continue à contenir l'essentiel des propriétés quantiques comme le spin.

Cette objection n'est toutefois qu'affaire de goût, comme la plus part des interprétations de la
mécanique quantique. Et la théorie de Bohm a tout de même le mérite de montrer une
construction explicite et réussie d'une théorie à variables cachées.
De plus, il y a une propriété frappante de la mécanique quantique qui est souvent présentée
comme une objection mais est mieux regardée comme une révélation importante sur la
signification de la mécanique quantique : en mécanique bohmienne, la fonction d'onde agit sur
la position des particules mais évolue comme si elle était autonome via l'équation de
Schrödinger, elle n'est pas modifiée par les particules. Ce point est discuté dans Dürr et al. 1997
et dans Goldstein et Teufel 2001 où il est suggéré que, dans une perspective plus profonde que
celle permise par la mécanique bohmienne standard ou la théorie quantique, la fonction d'onde
devrait être vue comme nomologique, comme un objet exprimant utilement la loi du
mouvement quelque peu analogue à l'hamiltonien de la mécanique classique et qu'une équation
de type Schrödinger dépendant du temps, dans cette perspective (cosmologique) plus profonde,
est simplement phénoménologique.
 Un autre aspect souvent soulevé est le caractère hautement non classique des trajectoires des
particules. Objection reprise dans les exemples ci-dessus. Les trajectoires peuvent être
hautement saccadées. Un exemple typique est fournit par la collision d'un paquet d'ondes avec
une barrière de potentiel. Rappelez-vous la figure, la fonction d'onde a des oscillations rapides,
serrées et variant dans le temps. Cela implique, avec l'équation guide, que de nombreuses
particules suivent des trajectoires très curieuses en faisant des aller-retour dans ou aux alentours
de la barrière, sans qu'aucune raison plausible ne puisse être invoquée (autre que l'évolution de
la fonction d'onde).

Toutefois, il ne s'agit pas là d'une objection grave car la théorie de Bohm n'a pas vocation à être
une théorie classique ! Sinon, elle n'aurait plus besoin de l'équation de Schrödinger. Le
problème est plutôt à rapprocher du statut de la fonction d'onde dans la théorie.
 Un problème plus sérieux est relié à l'équivarance. La théorie de Bohm ne reproduit
correctement les résultats de la mécanique quantique que si la densité de particules (ou plutôt de
trajectoires et c'est alors une densité de probabilité statistique classique) est égale à ψ (t ) . Si
2

elle est égale, alors elle le reste et il n'y a pas d problème. Mais la difficulté est de comprendre
pourquoi, au départ, elle a justement cette densité.

Les arguments des tenants à cette approche parlent, nous l'avons vu, d'équilibre dynamique
analogue à l'équilibre thermique.
Mais ce n'est pas ce qui est observé sur des modèles simples. Si l'on considère un système
simple, un écart à la densité ψ (t ) à tendance à diverger et à s'éloigner rapidement des
2

prédictions de la mécanique quantique. L'équivariance est instable. Peut-être que dans des
situations complexes avec de nombreux sous-systèmes, de nombreuses particules et l'interaction
avec l'environnement, une telle convergence peut-elle se produire. Mais cela reste largement à
démontrer.
 Comme signalé, le statut de l'invariance de Lorentz et donc de la relativité reste peu clair.

Plusieurs fois, la non-localité est signalée comme étant incontournable en mécanique quantique.
Notamment par Bell. Mais cette affirmation est fausse car il existe des interprétations locales
comme la mécanique quantique relationnelle, ce qui constitue un contre-exemple. Le problème
est souvent amplifié par une confusion commune : la confusion entre description locale et lois
locales. Une description locale est une description où on peut décrire chaque composante d'un
système localement, sans faire référence au reste du système. Par exemple lorsque l'on décrit
une boule de verre à un instant donné, on en fait une description non locale (on décrit
l'ensemble de la boule, dans toute son extension spatiale, en un instant donné t). Mais on peut
passer à une description locale en décrivant chaque parcelle de la boule et des relations (liaisons
moléculaires) avec les parcelles voisines. Que ce ne soit pas possible en mécanique quantique
est probablement vrai, mais il faut rapprocher cela de la non séparabilité et pas de la non-
localité : on ne peut décrire isolément correctement une partie d'un système. L'intrication en est
l'exemple le plus frappant. Mais cela ne veut pas dire que les lois décrivant l'évolution du
système sont non locales. Le formalisme de l'équation de Schrödinger est parfaitement local,
c'est une équation aux dérivées partielles. Et en mécanique quantique relativiste ou en théorie
quantique des champs, la localité est garantie par les relations de commutation qui sont nulles
pour des opérateurs agissant en deux points de l'espace-temps séparés par un intervalle spatial.
La difficulté ne se situe donc qu'au niveau de l'interprétation (par exemple, la réduction) mais,
comme signalé, cette difficulté peut être contournée.

La mécanique bohmienne n'explique pas des phénomènes tels que la création et l'annihilation
caractéristiques de la théorie quantique des champs. Ce n'est pas une objection à la mécanique
bohmienne mais simplement une reconnaissance que la théorie quantique des champs explique
beaucoup plus que la mécanique quantique non relativiste, qu'elle soit sous forme orthodoxe ou
bohmienne. Elle souligne cependant le besoin de trouver une version bohmienne adéquate, si
pas attirante, de la théorie quantique des champs et des théories de jauge en particulier, un
problème qui est plutôt largement ouvert. Quelques tentatives dans cette direction peuvent être
trouvées dans Bohm et Hiley 1993, Holland 1993, Bell 1987 (p.173) et dans certains articles
dans Cushing et al. 1996 (pour une discussion générale sur cette question et du point et valeur
de la mécanique bohmienne, voir les échanges de lettres entre Goldstein et Weinberg).

Le théorème de Malament montre que la difficulté est sans doute beaucoup plus grande que l'on
ne croît.

Mais même sans faire appel à ce théorème, des difficultés sont aisément mises en évidence.
Outre le problème du nombre de particules variables (et leur création / annihilation), le nombre
de particules n'est pas invariant en théorie quantique des champs. Il dépend de l'observateur ! Il
est, par exemple, différent pour un observateur inertiel et un observateur accéléré (Unruh,
Hawking, Bogoliubov).

Un autre aspect est simplement fournit par l'analyse EPR-Bohm. La particule qui est mesurée
influence l'autre de manière non locale. Pour un autre observateur en mouvement, la relativité
montre que les mesures, si elles sont séparées par un intervalle spatial, peuvent avoir leur ordre
temporel renversé. Dans ce cas, cela signifie que l'influence de la particule est non seulement
non locale mais remonte le temps !

Il est donc clair qu'une interprétation basée sur une ontologie corpusculaire est en défaut. Il
faudrait peut-être baser les objets fondamentaux sur des champs bien que cela fasse perdre une
partie des avantages d'une telle théorie bohmienne puisque la théorie des champs a déjà ces
champs comme objets fondamentaux.

La question reste encore largement ouverte.


Exercices
1. Calculez les trajectoires des particules dans une expérience de Young avec des électrons (en
ignorant leur spin).

Calculez d'abord la fonction d'onde en tout point. Puis résolvez l'équation des trajectoires pour
différentes conditions initiales.
2. Calculez de même les trajectoires d'une particule dans un puits carré à une dimension, pour les
deux états de plus basse énergie.