Vous êtes sur la page 1sur 135

Platefor me BioStatistique

Analyse statistique des données biologiques à haut débit.


Analyse statistique des
Développement de méthodologies adaptées.
Accompagnement au montage de projets.
données d’expression
Formation au traitement et à l’analyse statistique.

A LAIN BACCINI1 , P HILIPPE B ESSE1 , S ÉBASTIEN D ÉJEAN1 ,


La plateforme BioStatistique
PASCALmutualise
M ARTINles
2 com-
, C HRIST ÈLE ROBERT-G RANI É3 & M AGALI S AN C RISTOBAL4
pétences des chercheurs en Mathématiques et Les outils développés (publications,
Biologie pour l’étude des données générées par logiciels, supports de cours) sont en
la Biologie quantitative à haut débit. libre accès sur le site de la plateforme.
Version
Elle apporte une expertise et un accompagne-
décembre www.math.univ-toulouse.fr/biostat
2008 — mises à jour et compléments :
http ://math.univ-toulouse.fr/biostat/
ment pour l’utilisation et le développement de
méthodologies statistiques et logiciels appro-
priés. Activités
• Monter et accompagner des projets
scientifiques impliquant la géné-
Expertise ration et l’analyse de tout type de
Contacts
Les animateurs de la plateforme données quantitatives à haut débit
développent leurs recherches en (transcriptomique, protéomique,
Statistique appliquée
(1) Institut dans le cadrede
de Mathématiques deToulousemétabolomique,
– UMR CNRS interactions
5219 molé-
l’Institut de Mathématiques
Laboratoire de Statistiquedeetl’Uni-
Probabilitésculaires, etc.).
versité de Toulouse
Université (UMR CNRS 5219)
de Toulouse • V
 eille scientifique et technique
ou dans l’une des unités
(2) Laboratoire de recherche
de Pharmacologie-Toxicologieautour de l’analyse
– (3) Stationstatistique des génétique des animaux
d’amélioration
des grands organismes
(4) Laboratoire (CNRS, INRA,
de génétique cellulaire données issues des technologies de
Institut de
INSERM) du National
Institut grand Toulouse. la
Ils ont Agronomique
de la Recherche biologie quantitative à haut débit. Mathématiques
tous l’expérience de l’interdisciplina- • A
 nimation scientifique : groupe de UMR CNRS 5219
travail mensuel et atelier national Université de Toulouse
rité entre Mathématiques et Biologie. INSA
annuel. F-31077 Toulouse cedex 4
• Développement de nouvelles mé-
Responsable scientifique
Accès thodes d’analyse statistique pour
répondre à de nouvelles questions
Philippe Besse
philippe.besse@math.univ-
Les activités de la plateforme de
biologiques. toulouse.fr
BioStatistique s’adressent en priorité
• Encadrement ou co-encadrement
à l’ensemble des laboratoires de re- Coordinateurs
d’étudiants sur l’analyse de données Sébastien Déjean
cherche et développement publics et
issues de la biologie à haut débit (M1, sebastien.dejean@math.univ-
privés de Midi-Pyrénées. Dans le cadre
M2R, M2P, stage ingénieur) ou sur le toulouse.fr
de nouveaux projets, la plateforme Pascal Martin
développement de nouvelles métho-
pourra également répondre à des pascal.martin@toulouse.inra.fr
des d’analyse statistique (doctorat).
besoins exprimés par des laboratoires
nationaux situés hors de la région
2
Table des matières

Avant-propos 9
Motivations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1 Introduction 11
1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2 Contenu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3 Application aux données d’expression . . . . . . . . . . . . . . . . . . . . . . . 13
3.1 Jeux de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2 Spécificités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.3 Choix méthodologiques initiaux . . . . . . . . . . . . . . . . . . . . . . 14

2 Description statistique élémentaire 17


1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2 Decription d’une variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1 Cas quantitatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Cas qualitatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3 Liaison entre variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.1 Deux variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2 Une variable quantitative et une qualitative . . . . . . . . . . . . . . . . 22
3.3 Deux variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . 23
4 Vers le cas multidimensionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.1 Matrices des covariances et des corrélations . . . . . . . . . . . . . . . . 25
4.2 Tableaux de nuages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
5 Problèmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
6 Exemple : nutrition chez la souris . . . . . . . . . . . . . . . . . . . . . . . . . 26

3 Analyse en Composantes Principales 29


1 introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3
4 TABLE DES MATIÈRES

2 Présentation élémentaire de l’ACP . . . . . . . . . . . . . . . . . . . . . . . . . 30


2.1 Les données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2 Résultats préliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3 Résultats généraux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.4 Résultats sur les variables . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.5 Résultats sur les individus . . . . . . . . . . . . . . . . . . . . . . . . . 33
3 Représentation vectorielle de données quantitatives . . . . . . . . . . . . . . . . 35
3.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Interprétation statistique de la métrique des poids . . . . . . . . . . . . . 36
3.3 La méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4 Modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.1 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2 Définition équivalente . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5 Représentations graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.1 Les individus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.2 Les variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.3 Représentation simultanée ou “biplot” . . . . . . . . . . . . . . . . . . . 42
6 Choix de dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
6.1 Part d’inertie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
6.2 Règle de Kaiser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
6.3 Éboulis des valeurs propres . . . . . . . . . . . . . . . . . . . . . . . . 44
6.4 Diagramme en boı̂te des variables principales . . . . . . . . . . . . . . . 44
7 Interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
8 Données d’expression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
8.1 Exploration élémentaire . . . . . . . . . . . . . . . . . . . . . . . . . . 46
8.2 Analyse en composantes principales . . . . . . . . . . . . . . . . . . . . 46
9 Exemple : nutrition chez la souris . . . . . . . . . . . . . . . . . . . . . . . . . 52

4 Analyse Factorielle Discriminante 57


1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
1.1 Données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
1.2 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
1.3 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.1 Modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.2 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3 Réalisation de l’AFD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
TABLE DES MATIÈRES 5

3.1 Matrice à diagonaliser . . . . . . . . . . . . . . . . . . . . . . . . . . . 60


3.2 Représentation des individus . . . . . . . . . . . . . . . . . . . . . . . . 60
3.3 Représentation des variables . . . . . . . . . . . . . . . . . . . . . . . . 60
3.4 Interprétations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4 Variantes de l’AFD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.1 Individus de mêmes poids . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.2 Métrique de Mahalanobis . . . . . . . . . . . . . . . . . . . . . . . . . 62
5 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5 Positionnement multidimensionnel 65
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2 Distance, similarités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
2.2 Distances entre variables . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3 Recherche d’une configuration de points . . . . . . . . . . . . . . . . . . . . . . 68
3.1 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.2 Explicitation du MDS . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4 Application au choix de variables . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5 Données d’expression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
6 Exemple : nutrition chez la souris . . . . . . . . . . . . . . . . . . . . . . . . . 74

6 Classification 77
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
1.1 Les données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
1.2 Les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
1.3 Les méthodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
2 Illustration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
3 Mesures d’éloignement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
3.1 Indice de ressemblance, ou similarité . . . . . . . . . . . . . . . . . . . 82
3.2 Indice de dissemblance, ou dissimilarité . . . . . . . . . . . . . . . . . . 82
3.3 Indice de distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
3.4 Distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
3.5 Distance euclidienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
3.6 Utilisation pratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
3.7 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4 Classification ascendante hiérarchique . . . . . . . . . . . . . . . . . . . . . . . 84
4.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.2 Distance, ou dissemblance, entre deux classes . . . . . . . . . . . . . . . 84
6 TABLE DES MATIÈRES

4.3 Algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.4 Graphes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5 Agrégation autour de centres mobiles . . . . . . . . . . . . . . . . . . . . . . . 85
5.1 Principes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.2 Principale méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.3 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.4 Variantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.5 Combinaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
6 Données d’expression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
7 Exemple : nutrition chez la souris . . . . . . . . . . . . . . . . . . . . . . . . . 91

7 Modèle linéaire et régression 95


1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
2 Le modèle de régression simple . . . . . . . . . . . . . . . . . . . . . . . . . . 95
2.1 Ecriture et hypothèses du modèle . . . . . . . . . . . . . . . . . . . . . 96
2.2 Le modèle linéaire gaussien . . . . . . . . . . . . . . . . . . . . . . . . 97
2.3 Estimation des paramètres β1 et β2 . . . . . . . . . . . . . . . . . . . . 98
2.4 Propriétés des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . 100
2.5 Estimation ponctuelle de σ 2 . . . . . . . . . . . . . . . . . . . . . . . . 100
2.6 Tests d’hypothèse et intervalles de confiance . . . . . . . . . . . . . . . 100
2.7 Vérification des hypothèses . . . . . . . . . . . . . . . . . . . . . . . . 101
3 Régression lineaire multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
3.1 Multicolinéarité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
3.2 Critères de sélection de modèle . . . . . . . . . . . . . . . . . . . . . . 107

8 Modèle linéaire : analyse de variance 109


1 ANOVA à un facteur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
1.1 Un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
1.2 Diverses paramétrisations . . . . . . . . . . . . . . . . . . . . . . . . . 110
1.3 Vérification des hypothèses - Diagnostics . . . . . . . . . . . . . . . . . 111
1.4 Estimation des paramètres . . . . . . . . . . . . . . . . . . . . . . . . . 112
1.5 Intervalle de confiance et tests d’hypothèses . . . . . . . . . . . . . . . . 112
2 ANOVA à deux facteurs croisés . . . . . . . . . . . . . . . . . . . . . . . . . . 114
3 Analyse de covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
4 Tests multiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
4.1 Rappels sur les risques de première et seconde espèce . . . . . . . . . . . 117
4.2 Tests multiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
5 Modèle linéaire mixte gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
TABLE DES MATIÈRES 7

5.1 Exemple 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119


5.2 Exemple 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.3 Exemple 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
5.4 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
6 Exemple : nutrition chez la souris . . . . . . . . . . . . . . . . . . . . . . . . . 122
6.1 Analyses de variance et modèle mixte . . . . . . . . . . . . . . . . . . . 122
6.2 Principe des analyses de variance . . . . . . . . . . . . . . . . . . . . . 122
6.3 Synthèse des tests multiples . . . . . . . . . . . . . . . . . . . . . . . . 123
6.4 Modèle mixte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

En guise de conclusion 129

A Annexes 133
1 Analyse canonique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
2 Modèle linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
8 TABLE DES MATIÈRES
Avant-propos

Motivations
Le développement des moyens informatiques de stockage (bases de données) et de calcul
permet le traitement et l’analyse d’ensembles de données très volumineux. De plus, le perfec-
tionnement des interfaces offre aux utilisateurs, statisticiens ou non, des possibilités de mise en
œuvre très simples des outils logiciels. Dans ce contexte, le biologiste dispose d’un corpus rela-
tivement sophistiqué de techniques statistiques utilisables sur les données d’expression des gènes
produites par PCR, macro ou microarrays (biopuces). Les logiciels commerciaux ou non offrent
des éventails plus ou moins larges d’accès à ces techniques dans une présentation plus ou moins
explicite voire “boı̂te noire”. Intentionnellement ce cours a fait le choix d’illustrer les techniques
par un logiciel, le plus complet et le plus explicite possible : R. Même s’il ne semble pas le plus
simple d’utilisation par rapport à certains produits commerciaux privilégiant une interface gra-
phique “conviviale”, son utilisation incite à l’indispensable compréhension des méthodes et de
leurs limites. Il fait bien admettre qu’il ne suffit pas d’obtenir des résultats, il faut leur donner du
sens. Rien ne nous semble en effet plus dangereux que des résultats ou des graphiques obtenus
à l’aide de quelques clics de mulot dont ni les techniques, ni les options, ni leurs limites ne sont
clairement explicitées ou contrôlées par l’utilisateur. Il est par ailleurs risqué de se laisser enfermer
par les seules méthodes et options offertes par “un” logiciel. En pratique, le réagencement ou la
réorganisation de quelques commandes R offrent une combinatoire très ouvertes de possibilités
contrairement à un système clos de menus prédéfinis. Il offre par ailleurs, grâce à de nombreuses
boı̂tes à outils librement accessibles et continuellement mises à jour, un ensemble exhaustif des
techniques et de leurs options ainsi que des interfaces à des gestionnaires de bases de données ou
des outils spécifiques à l’étude des biopuces (Bioconductor).

Objectifs généraux
Ce cours se place en aval d’une présentation des problèmes de planification, d’acquisition et
de transformation (traitement d’image, normalisation) des données d’expression. D’autres cours
et références existent sur ces points (voir page web), ils ne sont pas développés ici même s’ils sont
tout aussi influents sur la pertinence et la qualité des résultats obtenus. Les méthodes sélectionnées
sont celles paraissant les plus adaptées à la représentation graphique des données d’expression et
à la construction de modèles explicatifs. Il s’agit de rechercher les représentations graphiques
les plus éclairantes pour la compréhension de ce type de données, de leurs structures, puis de
rechercher ou d’inférer des hypothèses spécifiques.
Ce cours se propose donc d’introduire deux grandes familles de méthodes sous une forme
homogène, synthétique et relativement intuitive en privilégiant la mise en œuvre pratique aux
développements théoriques. Sont ainsi traités des exemples simples, académiques, et d’autres plus

9
10 TABLE DES MATIÈRES

complexes mais provenant d’expériences réelles de mesures d’expressions.


i. Techniques statistiques exploratoires dites multidimensionnelles recouvrant d’une part les
méthodes factorielles et d’autre part les méthodes de classification ou apprentissage non-
supervisé.
ii. Méthodes statistiques dites inférentielles et de modélisation : tests, tests multiples et le
modèle linéaire sous différentes formes (régression, analyse de variance, modèle mixte).
D’autres techniques plus récentes avec un objectif de discrimination et issues de la théorie de
l’apprentissage (agrégation de modèles, support vector machine...) ont volontairement été laissées
de côté. Elles nécessiteraient plus de temps pour être abordées.
Ce déroulement pédagogique linéaire ne doit pas faire perdre de vue que la réalité d’une ana-
lyse est plus complexe et nécessite différentes étapes en boucle afin, par exemple, de contrôler
l’influence possible des choix parfois très subjectifs opérés dans les étapes de normalisation pour
éventuellement les remettre en cause.
L’objectif principal est donc de faciliter la mise en œuvre, la compréhension et l’interprétation
des résultats des techniques décrites pour en faciliter une utilisation pertinente et réfléchie à l’aide
d’un logiciel (R) largement répandus dans la communauté scientifique. Ce cours ne peut se conce-
voir sans une mise en œuvre pratique au cours de séances de travaux dirigés sur machine.

Remerciements
Un grand merci à Agnès Bonnet, Heinrick Laurell, Pascal Martin, Gwenola Tosser-Klopp et
Nathalie Viguerie pour les discussions scientifiques autour de leurs données respectives.
Chapitre 1
Introduction

1 Objectifs
Toute étude sophistiquée d’un corpus de données et leur modélisation sont précédées d’une
étude exploratoire à l’aide d’outils, certes rudimentaires mais robustes, en privilégiant les représentations
graphiques. C’est la seule façon de se familiariser avec des données et surtout de dépister les
sources de problèmes :
• valeurs manquantes, erronées ou atypiques,
• modalités trop rares,
• distributions “anormales” (dissymétrie, multimodalité, épaisseur des queues),
• incohérences, liaisons non linéaires.
• ...
C’est ensuite la recherche de pré-traitements des données afin de les rendre conformes aux tech-
niques de modélisation ou d’apprentissage qu’il sera nécessaire de mettre en œuvre afin d’atteindre
les objectifs fixés :
• transformation : logarithme, puissance, centrage, réduction, rangs. . . des variables,
• codage en classe ou recodage de classes,
• imputations ou non des données manquantes,
• réduction de dimension, classification et premier choix de variables,
• classification ou typologie des observations.
Attention, le côté rudimentaire voire trivial de ces outils ne doit pas conduire à les négliger au pro-
fit d’une mise en œuvre immédiate de méthodes beaucoup plus sophistiquées, donc beaucoup plus
sensibles aux problèmes cités ci-dessus. S’ils ne sont pas pris en compte, ils réapparaı̂tront alors
comme autant d’artefacts susceptibles de dénaturer voire de fausser toute tentative de modélisation.
Plus précisément, ces méthodes descriptives ne supposent, a priori, aucun modèle sous-jacent,
de type probabiliste. Ainsi, lorsqu’on considère un ensemble de variables quantitatives sur les-
quelles on souhaite réaliser une Analyse en Composantes Principales, il n’est pas nécessaire de
supposer que ces variables sont distribuées selon des lois normales. Néanmoins, l’absence de
données atypiques, la symétrie des distributions sont des propriétés importantes des séries ob-
servées pour s’assurer de la qualité et de la validité des résultats.
La démarche traditionnelle consiste ensuite à enchaı̂ner sur des techniques dites d’inférence
statistique visant à tester les hypothèses retenues. Selon le nombre de variables explicatives ou à
expliquer, leur nature qualitative ou quantitative, différents types de modèles et tests associés sont
à considérer.

11
12 CHAPITRE 1. INTRODUCTION

En théorie, contrairement à l’approche exploratoire, l’approche inférentielle nécessite une hy-


pothèse probabiliste sur la distribution des observations ou des erreurs qui est, le plus souvent,
l’hypothèse de normalité : la loi est supposée gaussienne. En pratique, cette hypothèse n’est de
toute façon guère prouvable, les tests effectués sur les résidus estimés sont peu puissants (risque
d’accepter à tord l’hypothèse mal maı̂trisé). Cette hypothèse est néanmoins implicitement utilisée
par les logiciels qui produisent systématiquement les résultats de tests. Plus rigoureusement, ces
résultats sont justifiés par les propriétés des distributions asymptotiques des estimateurs, propriétés
qui ne sont pas développées dans ce cours. En conséquence, du moment que les échantillons sont
de taille “raisonnable”, hypothèse on non de normalité, les distributions des estimateurs et donc
les statistiques de test sont considérées comme valides.
En revanche, d’autres aspects des hypothèses, inhérentes aux méthodes développées et qui,
en pratique, conditionnent fortement la qualité des estimations, doivent être évalués avec soin :
tests multiples, linéarité, colinéarité, homoscédasticité, points influents ou atypiques (outliers).
Les différents diagnostics ainsi que le problème du choix des variables explicatives, c’est-à-dire
du choix de modèle, sont également fondammentaux.

2 Contenu
Ce cours se propose tout d’abord d’introduire brièvement les techniques permettant de résumer
les caractéristiques (tendance centrale, dispersion, diagramme en boı̂te , histogramme, estimation
non paramétrique) d’une variable statistique ou les relations entre variables de même type quanti-
tatif (coefficient de corrélation, nuage de points), ou qualitatif (χ2 , Cramer, Tchuprow) ou de types
différents (rapport de corrélation, diagrammes en boı̂tes parallèles). Les notions présentées sont
illustrées sur des jeux de données d’expression.
Après cette approche uni puis bi-dimensionnelle, les techniques multidimensionnelles1 sont
décrites et illustrées. Elles diffèrent selon le type des variables considérées mais permettent toutes
de réduire la dimension par un ensemble de facteurs afin de résumer un tableau (n × p) de
grande dimension et révéler ses caractéristiques. L’analyse en composantes principales (ACP)
pour les variables quantitatives ; l’analyse des correspondances simples ou multiples (AFCM)
pour les variables qualitatives ainsi que l’analyse factorielle discriminante sont laissées de côté.
L’analyse canonique compare deux tableaux quantitatifs correspondant aux observations de deux
groupes de variables sur les mêmes individus. Les méthodes de classification (hiérarchiques ou
par réallocation dynamique) déterminent une variable qualitative définissant une partition de l’en-
semble des données. D’autres techniques sont plus spécifiques, le positionnement multidimension-
nel ou ACP sur tableau de distances est adapté à des données particulières mais permet également
de structurer un ensemble de variables trop important.
Les outils inférentiels sont ensuites introduits en insistant tout particulièrement sur le modèle
linéaire et ses adaptations : régression linéaire simple pour introduire les concepts principaux :
les tests et diagnostics, son extension à la régression linéaire multiple d’une variable à expliquée
quantitative par plusieurs autres explicatives également quantitatives. Le cas de variables explica-
tives qualitatives est toujours un modèle de type linéaire : ANOVA ou analyse de variance. Enfin
un dernier modèle est introduit prenant en compte des variables explicatives aléatoires. Il s’agit du
modèle mixte.
Ce cours ne couvre pas, loin s’en faut, l’éventail des techniques statistiques utilisables pour
détecter les gènes pertinents (différentiellement exprimés) en relation avec d’autres variables bio-

1
Elles constituent un ensemble communément appelé en France “Analyse de Données”.
3. APPLICATION AUX DONNÉES D’EXPRESSION 13

logiques. Il manque la description des techniques de discrimination classiques (analyse discimi-


nante décisionnelle, régression logistique) et surtout celles récentes émergeant à la frontière de
la Statistique et de l’Informatique (machine learning) dans le cadre de la théorie de l’apprentis-
sage (Vapnik 1999). Suppport Vector machine (SVM), bagging, boosting, random forest en sont
les principales représentantes (cf. Hastie et col. 2001 pour une revue ou Besse 2003 pour une
introduction et Baccini et col. (2005) pour une première utilisation.

3 Application aux données d’expression


Pour se montrer réaliste et dépasser les exemples académiques pour lesquels tout marche (trop)
bien, les données utilisées pour illustrer ce cours sont effectivement des données d’expression
recueillies dans le cadre du Génopôle de Toulouse. Trois exemples de données transcriptomiques
sont utilisées. Le premier a été obtenu par PCR (Polymerase Chain Reaction), les deux suivants
par puces à ADN sur membrane de nylon (macroarray). Dans chaque cas, le nombre de gènes
étudiés est limité : entre 36 et 871, alors que l’homme, comme la souris, en comporte environ
30000. Les données nous ont été fournies après normalisation, de sorte que ce problème ne sera
pas abordé ici. De même, les gènes considérés ayant été au préalable sélectionnés, le problème
de la détection des gènes sur-exprimés (ou sous-exprimés) ne sera pas abordé directement, mais
seulement à travers les analyses statistiques réalisées.

3.1 Jeux de données


Nutrition chez la souris
(T. Pineau, P. Martin, Unité de Pharmacologie-Toxicologie, INRA Toulouse)
Pour cette étude de nutrition, nous disposons de 40 souris réparties selon un plan à 2 fac-
teurs (génotype à 2 niveaux et régime à 5 niveaux) avec 4 observations par cellule. Les mesures
effectuées sont, d’une part, les mesures d’expression de 10 gènes relevées sur macroarray et,
d’autre part, les proportions de 21 acides gras mesurées dans le foie.
La question du praticien concerne l’existence de corrélations entre certains gènes ou groupes
de gènes et certains acides gras hépatiques.
Cet exemple est plus particulièrement développé au cours des travaux pratiques et joue un
rôle de fil rouge tout au long de ce document afin d’en illustrer les principaux aspects ou point
de vue. Les résultats décrits ici sont repris d’un article (Baccini et col. 2005) qui en font une
analyse relativement exhaustive. C’est article est à paraı̂tre dans un numéro spécial du Journal de
La Société Française de Statistique consacré aux données d’expression.
Obésité humaine
(D. Langin, N. Viguerie, Unité de recherche sur les Obésités - INSERM U586, Toulouse)
Pour cette étude, 50 patients répartis sur 8 sites européens ont été soumis à 2 régimes différents :
plus ou moins riche en lipides et glucides avec même apport calorique. Nous disposons des expres-
sions de 36 gènes pré-sélectionnés mesurées par PCR avant le régime et au bout de 10 semaines.
Ces données sont complétées par les relevés (avant et après) de quelques paramètres cliniques di-
rectement reliés à l’amaigrissement (masse, masse grasse...). Ces données sont par ailleurs traitées
par Viguerie et col. (2005).
Le problème consiste à trouver un modèle tenant compte des différents facteurs afin d’en
extraire les gènes différentiellement exprimés.
14 CHAPITRE 1. INTRODUCTION

Cancer pancréatique humain


(H. Laurell, Unité de biologie et pathologie digestive - INSERM U531, Toulouse)
L’étude a pour but d’améliorer le diagnostic du cancer pancréatique dont le pronostic est
très mauvais. Nous disposons de l’expression de 871 gènes “spécifiques” du cancer mesurée via
une membrane nylon sur 65 souches différentes : 49 cellules (26 pancréatiques, 18 coliques et
5 leucémiques) et 16 tissus (3 pancréas normaux et 13 tumeurs). Ces données sont traitées par
Laurell et col. (2005).
L’objectif est de représenter au mieux ces données afin d’en extraire des informations en
termes de groupe de gènes et/ou de souches.

3.2 Spécificités
Ce cours est délibérément orienté vers un type particulier de données qui se caractérise par,
en général, un nombre très important de gènes dont l’expression est observée sur un nombre re-
lativement restreint d’échantillons biologiques. De façon formelle, le problème se pose comme
l’observation d’une variable, l’expression (ou quantité d’ARN messager produite) dans des situa-
tions expérimentales croisant deux facteurs : le gène et le type d’échantillon biologique (tissus
sain ou pathologique, culture cellulaire ...). Le premier facteur peut présenter quelques centaines
voire dizaines de milliers de niveaux tandis que le second, pour des raisons évidentes de coûts, ne
présente en général que quelques dizaines de niveaux.
Nous nous intéressons donc à l’analyse d’un tableau de données dont on cherche des représentations
graphiques pertinentes quant à l’expression des gènes, puis une approche de type “analyse de va-
riance” donnera un autre regard, par des tests, sur la significativité des expressions observées. La
difficulté majeure rencontrée, voire même le défi au statisticien, est posé par le nombres de gènes
(ou variables) considérés au regard du nombre d’échantillon biologiques. Ces valeurs sont en rup-
ture brutale avec les habitudes prises avec des tableaux de taille raisonnable, qui font généralement
jouer un rôle dissymétrique aux lignes (“individus”) et colonnes (“variables”) du tableau. Cette si-
tuation induit des difficultés importantes à tous les niveaux de l’analyse. Il faut noter également
la présence possible d’autres variables biologiques observées sur les mêmes échantillons avec le
souci de vouloir comparer ou relier expressions et valeur prises par ces variables.
Dans la plupart des méthodes considérées, de nombreux choix sont laissés à l’utilisateur qui
doit les conduire en connaissance de cause ou “tâtonner” pour arriver à des représentation satisfai-
sante, des tests significatifs, compte tenu de ses a priori et surtout de ses conditions expérimentales.
Ces choix doivent bien sûr être connectés à ceux relatifs aux problèmes de normalisation dus à la
technique de marquage et à la présence de “gènes” témoins ou calibrés sur les biopuces.

3.3 Choix méthodologiques initiaux


Voici une tentative de présentation synthétique de ces choix. Cette liste n’est sans doute pas
exhaustive, elle devra être complétée avec l’acquisition d’une meilleure expertise du traitement de
ces données. Nous pouvons déjà insister sur l’indispensable dialogue entre biologiste et statisti-
cien pour opérer ces choix en connaissance de cause tant sur les aspects techniques que sur leurs
implications biologiques. Ces choix ne pourront bien sûr pas tous être discutés en détail dans le
cadre restreint de ce cours et nous nous proposons d’en illustrer les principaux sur les jeux de
données rencontrés.
3. APPLICATION AUX DONNÉES D’EXPRESSION 15

Transformations
Les données traitées sont issues des procédures de normalisation afférentes aux techniques de
marquage ou peuvent encore subir des transformations. Voici les plus courantes en pratique :
logarithme cette fonction corrige une distribution de variable trop dissymétrique (skewness)
et réduit l’influence de grandes valeurs qui pourraient être atypiques. Ceci se justifie en
considérant que dans certains systèmes naturels, des effets peuvent être modélisés par des
facteurs multiplicatifs plutôt qu’additifs.
centrage les données se présentent sous la forme d’une matrice, il est habituel, par exemple lors
d’une analyse en composantes principales, de centrer les colonnes. Chaque variable est
translatée de la valeur de sa moyenne empirique qui devient donc nulle. L’information liée
à la “moyenne” peut être utile en soi mais est rarement très informative : cela concerne l’ex-
pression moyenne d’un gène pour toutes les puces ou celle d’une puce pour tous les gènes.
On verra que le rôle des lignes et colonnes ou la distinction entre variables et individus
n’étant pas toujours explicite, il peut être intéressant de procéder à un double centrage à la
fois en lignes et en colonnes du tableau des données.
réduction dans le même ordre d’idée, l’unité de mesure utilisée n’est pas toujours à prendre en
compte surtout si elle change d’une variable à l’autre ou encore si les variances sont très
hétérogènes. Pour éliminer l’effet des variances dépendant directement des choix d’unité
de mesure, il est d’usage de réduire, c’est-à-dire de diviser par son écart-type chacune des
variables qui deviennent ainsi des quantités sans unité. Attention, pour des données d’ex-
pression, cette transformation n’est pas toujours pertinente. En ramenant à un les variances
de gènes, les effets de sur ou sous-expressions de certains d’entre-eux sont en effet éliminés.
marges unitaires une autre façon d’éliminer une unité de mesure consiste à diviser les lignes (ou
les colonnes) d’un tableau par ses marges ou sommes des valeurs en lignes (ou en colonnes).
C’est la pratique courante lorsque le tableau contient des effectifs : table de contingence et
cela conduit à l’analyse des correspondances. Pour les raisons évoquées ci-dessus (sur et
sous expressions), cette approche ne semble pas appropriée aux données d’expression.
rangs lorsque les données sont parsemées de valeurs atypiques sans qu’aucune transformation
fonctionnelle (logarithme, puissance) ne puisse en atténuer les effets, une façon “brutale”
ou “robuste” de s’en sortir consiste à remplacer une valeur par son rang dans la séquence
ordonnée. Ceci est à rapprocher des coefficients de corrélation calculés sur les rangs (Spear-
man).
Distances et pondérations
Il peut être utile d’introduire des pondérations sur les lignes ou colonnes du tableau des
données. Cette pratique permet de redresser un échantillon lors d’un sondage. Il peut s’agir, par
exemple, d’équiliblre l’importance de groupes qui se trouveraient sous représentés à cause “d’inci-
dents techniques” ou d’affecter des poids nuls à des lignes ou colonnes dites alors supplémentaires.
Ils n’interviennent pas dans les calculs mais restent représentés dans les graphiques. Par défaut les
poids sont 1/n pour les lignes et 1 pour les variables ou colonnes. Chaque ligne (chaque colonne)
est considérée comme un vecteur d’un espace vectoriel muni d’un produit scalaire induisant une
norme euclidienne et donc une distance entre ces vecteurs. Par défaut, cette distance est celle clas-
sique dont le carré est la somme des carrés des écarts entre les coordonnées de deux vecteurs.
Introduire des pondérations sur les lignes (les colonnes) conduit à pondérer le calcul de cette dis-
tance. La matrice de produit scalaire associée est alors une matrice diagonale faisant intervenir les
pondérations (leur carré) sur la diagonale en lieu et place de la matrice identité.
16 CHAPITRE 1. INTRODUCTION

D’autres matrices carrées symétriques définies positives sont également utilisables de façon
plus générale. Citons l’inverse de la variance résiduelle ou intra en analyse discriminante, la
matrice diagonale des inverses des fréquences marginales en analyse des correspondances
p qui
définissent encore des distances euclidiennes de même que la matrice terme général 1 − cor(X j , X k )2 .
D’autres matrices définissent des dissemblances entre variables : 1 − cor(X j , X k ) faisant inter-
venir la corrélation linéaire (Pearson) ou celle calculée sur les rangs (Spearman).
Factorisation et projections
Beaucoup des méthodes proposées proposent la recherche de facteurs associés à la construc-
tion de nouvelles variables décorellées obtenues par combinaison linéaires des variables initiales
et optimisant un critère : la variance pour l’analyse en composantes principales. La décomposition
ainsi obtenue a-t-elle un sens pour les données considérées ? Combien de facteurs sont nécessaires
pour ”résumer l’information” et fournir des représentations graphiques pertinentes des nuages de
points (individus et variables) dans cette nouvelle base ? Sur le plan mathématique, ces facteurs
sont simplement les vecteurs propres associés aux plus grandes valeurs propres d’une matrice (va-
riance, corrélation, produits scalaire...) carrée symétrique positive relativement à des métriques à
définir dans les espaces vectoriels des individus et des variables.
Classification
Une approche classique dans toute discipline scientifique consiste à faire de la taxinomie c’est-
à-dire à rechercher des classes homogènes des objets étudiés (gènes, échantillons biologiques) au
sens d’un critère qui se définit par une matrice de distances ou dissemblances. Le choix de ce
critère est évidemment prépondérant pour la signification et l’interprétation des résultats.
Test multiples
La pratique statistique usuelle vise à tester une hypothèse H0 : le gène considéré n’a pas d’ex-
pression différentielle significative. Cela conduit à calculer une statistique de test dont la valeur
est comparée aux quantiles de la loi de probabilités (Student ou Fisher) sous-jacente à cette statis-
tique. Plus précisément, si la valeur calculée de la statistique de test est supérieure à un α-quantile
(par exemple, α = 5%), on dit que l’hypothèse H0 est rejeté avec un risque de première espèce
de 5%. EN d’autres termes et pour cet exemple, nous avons moins de 5 chances sur 100 de nous
tromper en affirmant que le gène en question est différentiellement exprimé.
Le problème qui se pose alors est celui dit des faux positifs dus à la très grande multiplicité des
tests. En effet, en réalisant simultanément autant de tests que de gènes, par exemple 1000, rien que
du fait du hasard, il est naturel de trouver qu’en moyenne, 5% (soit ici 50) des statistique de ces
tests dépassent la valeur critique sans pour autant que les gènes se soient réellement exprimés d’un
point de vue biologique. Ce sont les 5% d’erreurs associés au risque de première expèce induisant
donc des faux positifs. Evidemment des correctifs sur les valeurs seuils sont apportés pour tenir
compte de la multiplicité des tests. Bonferronni est la plus classique mais, très contraignante, elle
semble peu adaptée à l’étude des données d’expression. D’autres approches sont proposées : FDR
(false discovery rate, local FDR...) et une littérature très volumineuse est consacrée à ce problème.
L’utilisateur est donc confronté au choix d’une stratégie de correction des valeurs critiques. Les
autres corrections, bibliographie.
Chapitre 2
Description statistique élémentaire

1 Introduction
l’objectif des outils de Statistique descriptive élémentaire est de fournir, si possible graphique-
ment, des résumés synthétique de séries de valeurs, adaptés à leur type (qualitatives ou quantita-
tives), et observées sur une population ou un échantillon.
Dans le cas d’une seule variable, Les notions les plus classiques sont celles de médiane,
quantile, moyenne, fréquence, variance, écart-type définies parallèlement à des représentations
graphiques : diagramme en bâton, histogramme, diagramme-boı̂te, graphiques cumulatifs, dia-
grammes en colonnes, en barre ou en secteurs.
Dans le cas de deux variables, on s’intéresse à la corrélation, au rapport de corrélation ou en-
core à la statistique d’un test du χ2 associé à une table de contingence. Ces notions sont associées
à différents graphiques comme le nuage de points (scatterplot), les diagrammes-boı̂tes parallèles,
les diagrammes de profils ou encore en mosaı̈que.
Les définitions de ces différentes notions se trouvent dans n’importe quel ouvrage élémentaire
de Statistique1 , nous nous proposons simplement de rappeler dans ce chapitre certains outils moins
classiques mais efficaces et présents dans la plupart des logiciels statistiques. Cela nous permettra
également d’illustrer les premières étapes exploratoires à réaliser sur un jeu de données.

2 Decription d’une variable


2.1 Cas quantitatif
Une variable quantitative prend des valeurs entières ou réelles, elle est dite alors discrète ou
continue. Cette propriété ayant des incidences sur la nature de sa distribution et donc sur les gra-
phiques associés. Nous nous intéresserons surtout aux variables continues.
La distribution d’un variable statistique quantitative
Pn est résumée par différents indicateurs em-
piriques de tendance centrale (moyenne x = i=1 wi xi , médiane) ou de dispersion (écart-type
σ, intervalle inter-quartiles). D’autres indicateurs s’intéressent à la dissymétrie (skeeness, associée
au moment d’ordre 3) ou encore à l’aplatissement (kurtosis à partir du moment d’ordre 4)
Deux graphiques permettent de rendre compte précisément de la nature de la distribution.
La statistique de Kolmogorov est la plus couramment utilisée pour tester l’adéquation à une loi
(normale).

1
Un support de cours accessible à la page www-sv.cict.fr/lsp/Besse.

17
18 CHAPITRE 2. DESCRIPTION STATISTIQUE ÉLÉMENTAIRE

0 500000 1500000 2500000

F IG . 2.1 – Obésité : Diagramme-boı̂te illustrant la distribution dissymétrique de l’expression d’un


gène.
CPT1
CIDEA
B11HD
APM1

0e+00 1e+05 2e+05 3e+05 4e+05 5e+05 6e+05

F IG . 2.2 – Obésité : Diagrammes-boı̂tes parallèles représentant simultanément les distributions


de plusieurs gènes.

Diagramme-boı̂te (box-and-whiskers plot)


Il s’agit d’un graphique très simple qui résume la série à partir de ses valeurs extrêmes, de ses
quartiles et de sa médiane.
Histogramme
Dans le cas d’un échantillon, on cherche à approcher par une estimation empirique le graphe
de la densité de la loi théorique associée à la population. L’histogramme en est un exemple. Une
fois déterminée un découpage en classes de l’ensemble des valeurs et les fréquences f` d’occur-
rences de ces classes, un histogramme est la juxtaposition de rectangles dont les bases sont les
amplitudes des classes considérées (a` = b` − b`−1 ) et dont les hauteurs sont les quantités
f`
b` −b`−1 , appelées densités de fréquence. L’aire du `-ème rectangle vaut donc f` , fréquence de la
classe correspondante.
2. DECRIPTION D’UNE VARIABLE 19

50 8e−07

Percent of Total 40 6e−07

Density
30
4e−07
20
2e−07
10

0 0e+00

0e+00 1e+06 2e+06 3e+06 −1e+06 0e+00 1e+06 2e+06 3e+06 4e+06
obes1[, 8] obes1[, 8]

F IG . 2.3 – Obésité : Histogramme et estimation fonctionnelle par la méthode du noyau de la


distribution de l’expression d’un gène.

Estimation fonctionnelle
La qualité de l’estimation d’une distribution par un histogramme dépend beaucoup du découpage
en classe. Malheureusement, plutôt que de fournir des classes d’effectifs égaux et donc de mieux
répartir l’imprécision, les logiciels utilisent des classes d’amplitudes égales et tracent donc des
histogrammes parfois peu représentatifs. Ces 20 dernières années, à la suite du développement
des moyens de calcul, sont apparues des méthodes d’estimation dites fonctionnelles ou non-
paramétriques qui proposent d’estimer la distribution d’une variable ou la relation entre deux
variables par une fonction construite point par point (noyaux) ou dans une base de fonctions
splines. Ces estimations sont simples à calculer (pour l’ordinateur) mais nécessitent le choix d’un
paramètre dit de lissage.
L’estimation de la densité par la méthode du noyau se met sous la forme générale :
n  
1 X x − xi
gbλ (x) = K
nλ λ
i=1

où λ est le paramètre de lissage optimisé par une procédure automatique qui minimise une ap-
proximation de l’erreur quadratique moyenne intégrée (norme de l’espace L2 ) ; K est une fonction
symétrique, positive, concave, appelée noyau dont la forme précise importe peu. C’est souvent la
fonction densité de la loi gaussienne réduite :
1
K(t) = √ exp(−t2 /2)

qui possède de bonnes propriétés de régularité. Le principe consiste simplement à associer à
chaque observation un “élément de densité” de la forme du noyau K et à sommer tous ces
éléments. Un histogramme est une version particulière d’estimation dans laquelle l”’élément de
densité” est un “petit rectangle” dans la classe de l’observation.

2.2 Cas qualitatif


Par définition, les observations d’une variable qualitative ne sont pas des valeurs numériques,
mais des caractéristiques, appelées modalités. Lorsque ces modalités sont naturellement ordonnées
(par exemple, la mention au bac ou une classe d’âge), la variable est dite ordinale. Dans le cas
20 CHAPITRE 2. DESCRIPTION STATISTIQUE ÉLÉMENTAIRE

10

06KI
05UM
8

02FHE
08UNOTT
6
4

12UNAV
09CS
2

11INSERM
10BHD
0

02FHE 06KI 09CS 11INSERM

F IG . 2.4 – Obésité : Diagramme en barres et camembert de la répartition des centres.

contraire (par exemple, la profession dans une population de personnes actives ou la situation
familiale) la variable est dite nominale.
Les représentations graphiques que l’on rencontre avec les variables qualitatives sont assez
nombreuses. Les trois plus courantes, qui sont aussi les plus appropriées, sont les diagrammes en
colonnes, en barre, en secteurs. Tous visent à représenter la répartition en effectif ou fréquences
des individus dans les différentes classes ou modalités.

3 Liaison entre variables


Dans cette section, on s’intéresse à l’étude simultanée de deux variables X et Y . L’objectif
essentiel des méthodes présentées est de mettre en évidence une éventuelle variation simultanée
des deux variables, que nous appellerons alors liaison. Dans certains cas, cette liaison peut être
considérée a priori comme causale, une variable X expliquant l’autre Y ; dans d’autres, ce n’est
pas le cas, et les deux variables jouent des rôles symétriques. Dans la pratique, il conviendra de bien
différencier les deux situations et une liaison n’entraı̂ne pas nécessairement une causalité. Sont
ainsi introduites les notions de covariance, coefficient de corrélation linéaire, régression linéaire,
rapport de corrélation, indice de concentration, khi-deux et autres indicateurs qui lui sont liés.
De même, nous présentons les graphiques illustrant les liaisons entre variables : nuage de points
(scatter-plot), diagrammes-boı̂tes parallèles, diagramme de profils, tableau de nuages (scatter-plot
matrix).

3.1 Deux variables quantitatives


Nuage de points
Il s’agit d’un graphique très commode pour représenter les observations simultanées de deux
variables quantitatives. Il consiste à considérer deux axes perpendiculaires, l’axe horizontal représentant
la variable X et l’axe vertical la variable Y , puis à représenter chaque individu observé par les co-
ordonnées des valeurs observées. L’ensemble de ces points donne en général une idée assez bonne
3. LIAISON ENTRE VARIABLES 21

60
50
obes[, "CHOEPBL"]

40
30

25 30 35 40 45 50

obes[, "FATEPBL"]

F IG . 2.5 – Obésité : Nuage de points illustrant la liaison linéaire entre deux variables biologiques.

de la variation conjointe des deux variables et est appelé nuage. On notera qu’on rencontre parfois
la terminologie de diagramme de dispersion, traduction plus fidèle de l’anglais scatter-plot.
Le choix des échelles à retenir pour réaliser un nuage de points peut s’avérer délicat. D’une
façon générale, on distinguera le cas de variables homogènes (représentant la même grandeur
et exprimées dans la même unité) de celui des variables hétérogènes. Dans le premier cas, on
choisira la même échelle sur les deux axes (qui seront donc orthonormés) ; dans le second cas, il
est recommandé soit de représenter les variables centrées et réduites sur des axes orthonormés, soit
de choisir des échelles telles que ce soit sensiblement ces variables là que l’on représente (c’est en
général cette seconde solution qu’utilisent, de façon automatique, les logiciels statistiques).
Indice de liaison
le coefficient de corrélation linéaire est un indice rendant compte numériquement de la manière
dont les deux variables considérées varient simultanément. Il est défini à partir de la covariance
qui généralise à deux variables la notion de variance :
n
X
cov(X, Y ) = wi [xi − x][yi − y]
i=1
Xn
= [ wi xi yi ] − x y.
i=1

La covariance est une forme bilinéaire symétrique qui peut prendre toute valeur réelle et dont la
variance est la forme quadratique associée. Elle dépend des unités de mesure dans lesquelles sont
exprimées les variables considérées ; en ce sens, ce n’est pas un indice de liaison “intrinsèque”.
C’est la raison pour laquelle on définit le coefficient de corrélation linéaire (parfois appelé coeffi-
cient de Pearson ou de Bravais-Pearson), rapport entre la covariance et le produit des écarts-types :

cov(X, Y )
corr(X, Y ) = .
σX σY
22 CHAPITRE 2. DESCRIPTION STATISTIQUE ÉLÉMENTAIRE

Le coefficient de corrélation est égal à la covariance des variables centrées et réduites res-
Y −y
pectivement associées à X et Y : corr(X, Y ) = cov( X−x σX , σY ). Par conséquent, corr(X, Y ) est
indépendant des unités de mesure de X et de Y . Le coefficient de corrélation est symétrique et
prend ses valeurs entre -1 et +1.

3.2 Une variable quantitative et une qualitative


Notations
Soit X la variable qualitative considérée, supposée à r modalités notées

x1 , . . . , x` , . . . , xr

et soit Y la variable quantitative de moyenne y et de variance σY2 . Désignant par Ω l’échantillon


considéré, chaque modalité x` de X définit une sous-population (un sous-ensemble) Ω` de Ω :
c’est l’ensemble des individus, supposés pour simplifier de poids wi = 1/n et sur lesquels on a
observé x` ; on obtient ainsi
P une partition de Ω en m classes dont nous noterons n1 , . . . , nm les
cardinaux (avec toujours m `=1 n` = n, où n = card(Ω)).
Considérant alors la restriction de Y à Ω` (l = 1, . . . , m), on peut définir la moyenne et la
variance partielles de Y sur cette sous-population ; nous les noterons respectivement y` et σ`2 :

1 X
y` = Y (ωi ) ;
n`
ωi ∈Ω`

1 X
σ`2 = [Y (ωi ) − y` ]2 .
n`
ωi ∈Ω`

Boı̂tes parallèles
Une façon commode de représenter les données dans le cas de l’étude simultanée d’une va-
riable quantitative et d’une variable qualitative consiste à réaliser des boı̂tes parallèles ; il s’agit,
sur un même graphique doté d’une échelle unique, de représenter pour Y un diagramme-boı̂te pour
chacune des sous-populations définies par X. La comparaison de ces boı̂tes donne une idée assez
claire de l’influence de X sur les valeurs de Y , c’est-à-dire de la liaison entre les deux variables.
Formules de décomposition
Ces formules indiquent comment se décomposent la moyenne et la variance de Y sur la parti-
tion définie par X (c’est-à-dire comment s’écrivent ces caractéristiques en fonction de leurs valeurs
partielles) ; elles sont nécessaires pour définir un indice de liaison entre les deux variables.
r
1X
y = n ` y` ;
n
`=1
r r
1X 1X
σY2 = 2
n` (y` − y) + n` σ`2 = σE
2 2
+ σR .
n n
`=1 `=1

Le premier terme de la décomposition de σY2 , noté σE 2 , est appelé variance expliquée (par la
2 , est appelé
partition, c’est-à-dire par X) ou variance inter (between) ; le second terme, noté σR
variance résiduelle ou variance intra (within).
3. LIAISON ENTRE VARIABLES 23

150000
100000
50000
0
apres avant

F IG . 2.6 – Obésité : diagrammes-boı̂tes parallèles illustrant les différences de distribution des


expressions d’un gène avant et après régime.

Rapport de corrélation
Il s’agit d’un indice de liaison entre les deux variables X et Y qui est défini par :
s
σE2
sY /X = ;
σY2

X et Y n’étant pas de même nature, sY /X n’est pas symétrique et vérifie 0 ≤ sY /X ≤ 1. Cet


encadrement découle directement de la formule de décomposition de la variance. Les valeurs 0 et
1 ont une signification particulière intéressante.

3.3 Deux variables qualitatives


Notations
On considère dans ce paragraphe deux variables qualitatives observées simultanément sur n
individus. On suppose que la première, notée X, possède r modalités notées x1 , . . . , x` , . . . , xr ,
et que la seconde, notée Y , possède c modalités notées y1 , . . . , yh , . . . , yc .
Ces données sont présentées dans un tableau à double entrée, appelé table de contingence,
dans lequel on dispose les modalités de X en lignes et celles de Y en colonnes. Ce tableau est
donc de dimension r × c et a pour élément générique le nombre n`h d’observations conjointes des
modalités x` de X et yh de Y ; les quantités n`h sont appelées les effectifs conjoints.
Une table de contingence se présente donc sous la forme suivante :

y1 ··· yh ··· yc sommes


x1 n11 ··· n1h ··· n1c n1+
.. .. .. .. ..
. . . . .
x` n`1 ··· n`h ··· n`c n`+
.. .. .. .. ..
. . . . .
xr nr1 ··· nrh ··· nrc nr+
sommes n+1 ··· n+h ··· n+c n
24 CHAPITRE 2. DESCRIPTION STATISTIQUE ÉLÉMENTAIRE

Les quantités n`+ (` = 1, . . . ,P


r) et n+h (h = 1, . .P
. , c) sont appelées les effectifs
Pr margi-
c r
naux
Pc ; ils sont définis par n `+ = n
h=1 `h et n +h = n
`=1 `h , et ils vérifient `=1 n`+ =
h=1 n+h = n. De façon analogue, on peut définir les notions de fréquences conjointes et de
fréquences marginales.
Représentations graphiques
On peut envisager, dans le cas de l’étude simultanée de deux variables qualitatives, d’adapter
les graphiques présentés dans le cas unidimensionnel : on découpe chaque partie (colonne, par-
tie de barre ou secteur) représentant une modalité de l’une des variables selon les effectifs des
modalités de l’autre. Mais, de façon générale, il est plus approprié de réaliser des graphiques
représentant des quantités très utiles dans ce cas et que l’on appelle les profils.
Indices de liaison
Lorsque tous les profils-lignes sont égaux, ce qui est équivalent à ce que tous les profils-
colonnes soient égaux et que
n`+ n+h
∀(`, h) ∈ {1, . . . , r} × {1, . . . , c} : n`h = ,
n
on dit qu’il n’existe aucune forme de liaison entre les deux variables considérées X et Y . Par suite,
la mesure de la liaison va se faire en évaluant l’écart entre la situation observée et l’état de non
liaison défini ci-dessus.
Khi-deux
Il est courant en statistique de comparer une table de contingence observée, d’effectif conjoint
générique n`h , à une table de contingence donnée a priori (et appelée standard), d’effectif conjoint
générique s`h , en calculant la quantité
r X
c
X (n`h − s`h )2
.
s`h
`=1 h=1

De façon naturelle, pour mesurer la liaison sur une table de contingence, on utilise donc l’indice
appelé khi-deux (chi-square) et défini comme suit :
n n
r X c (n`h − `+ +h )2
" r c #
X X n2
n
X
χ2 = n`+ n+h =n `h
−1 .
n`+ n+h
`=1 h=1 `=1 h=1
n

Le coefficient χ2 est toujours positif ou nul et il est d’autant plus grand que la liaison entre les
deux variables considérées est forte. Malheureusement, il dépend aussi des dimensions r et c de la
table étudiée, ainsi que de la taille n de l’échantillon observé ; en particulier, il n’est pas majoré.
C’est la raison pour laquelle on a défini d’autres indices, liés au khi-deux, et dont l’objectif est de
palier ces défauts.
Autres indicateurs
Nous en citerons trois.
2
• Le phi-deux : Φ2 = χn . Il ne dépend plus de n, mais dépend encore de r et de c.
4. VERS LE CAS MULTIDIMENSIONNEL 25

• Le coefficient T de Tschuprow :
s
Φ2
T = p .
(r − 1)(c − 1)

On peut vérifier : 0 ≤ T ≤ 1 .
• Le coefficient C de Cramer : r
Φ2
C= ,
d−1
avec : d = inf(r, c). On vérifie maintenant : 0 ≤ T ≤ C ≤ 1 .

4 Vers le cas multidimensionnel


L’objectif des prochains chapitres de ce cours est d’exposer les techniques de la statistique
descriptive multidimensionnelle. Or, sans connaı̂tre ces techniques, il se trouve qu’il est possible
de débuter une exploration de données multidimensionnelles en adaptant simplement les méthodes
déjà étudiées.

4.1 Matrices des covariances et des corrélations


Lorsqu’on a observé simultanément plusieurs variables quantitatives (p variables, p ≥ 3) sur
le même échantillon, il est possible de calculer d’une part les variances de toutes ces variables,
d’autre part les p(p−1)
2 covariances des variables prises deux à deux. L’ensemble de ces quantités
peut alors être disposé dans une matrice carrée (p × p) et symétrique, comportant les variances
sur la diagonale et les covariances à l’extérieur de la diagonale ; cette matrice, appelée matrice des
variances-covariances (ou encore matrice des covariances) sera notée S. Elle sera utilisée par la
suite, mais n’a pas d’interprétation concrète. Notons qu’il est possible de vérifier que S est semi
définie positive.
De la même manière, on peut construire la matrice symétrique p × p, comportant des 1 sur
toute la diagonale et, en dehors de la diagonale, les coefficients de corrélation linéaire entre les
variables prises deux à deux. Cette matrice est appelée matrice des corrélations, elle est également
semi définie positive, et nous la noterons R. Elle est de lecture commode et indique quelle est la
structure de corrélation des variables étudiées.

4.2 Tableaux de nuages


Notons X 1 , . . . , X p les p variables quantitatives considérées ; on appelle tableau de nuages le
graphique obtenu en juxtaposant, dans une sorte de matrice carrée p × p, p2 sous-graphiques ; cha-
cun des sous-graphiques diagonaux est relatif à l’une des p variables, et il peut s’agir, par exemple,
d’un histogramme ; le sous-graphique figurant dans le bloc d’indice (j, j 0 ), j 6= j 0 , est le nuage
0
de points réalisé avec la variable X j en abscisses et la variable X j en ordonnées. Dans certains
logiciels anglo-saxons, ces graphiques sont appelés splom (Scatter PLOt Matrix). Le tableau de
nuages, avec la matrice des corrélations, fournit ainsi une vision globale des liaisons entre les
variables étudiées.

5 Problèmes
Les quelques outils de ce chapitre permettent déjà de se faire une première idée d’un jeu de
données mais surtout, en préalable à toute analyse, ils permettent de s’assurer de la fiabilité des
26 CHAPITRE 2. DESCRIPTION STATISTIQUE ÉLÉMENTAIRE

0 500000 1000000 2000000 3000000

10 11 12 13 14 15

F IG . 2.7 – Obésité : La simple transformation (log(x)), de l’expression d’un gène, résout bien
les problèmes posés par l’allure “log-normale” de sa distribution avec son cortège de valeurs aty-
piques.

données, de repérer des valeurs extrêmes atypiques, éventuellement des erreurs de mesures ou de
saisie, des incohérences de codage ou d’unité.
Les erreurs, lorsqu’elle sont décelées, conduisent naturellement et nécessairement à leur cor-
rection ou à l’élimination des données douteuses mais d’autres problèmes pouvant apparaı̂tre n’ont
pas toujours de solutions évidentes.
• Le mitage de l’ensemble des données ou absence de certaines valeurs en fait partie. Faut-il
supprimer les individus incriminés ou les variables ? Faut-il compléter, par une modélisation
et prévision partielles, les valeurs manquantes ? Les solutions dépendent du taux de va-
leurs manquantes, de leur répartition (sont-elles aléatoires) et du niveau de tolérance des
méthodes qui vont être utilisées.
• La présence de valeurs atypiques peut influencer sévèrement des estimations de méthodes
peu robustes car basées sur le carré d’une distance. Ces valeurs sont-elles des erreurs ? Sinon
faut-il les conserver en transformant les variables ou en adoptant des méthodes robustes
basées sur des écarts absolus ?
• Même sans hypothèse explicite de normalité des distributions, il est préférable d’avoir af-
faire à des distributions relativement symétriques. Une transformation des variables par
une fonction monotone (log, puissance) est hautement recommandée afin d’améliorer la
symétrie de leur distribution ou encore pour linéariser (nuage de points) la nature d’une
liaison.

6 Exemple : nutrition chez la souris


Comme annoncé en introduction, ce jeu de données est repris dans chaque chapitre. Dans cet
exemple, la représentation des diagrammes en boı̂tes pour les souris, ordonnées selon le génotype
et le régime suivi (Fig. 2.8) ne donne a priori aucune tendance spécifique sur le comportement de
l’ensemble des gènes. Cette représentation atteste de la qualité de la production et de prétraitement
des données. En effet, celles-ci ont été recueillies en utilisant une membrane par souris ; ainsi,
6. EXEMPLE : NUTRITION CHEZ LA SOURIS 27

une quelconque anomalie sur un support, affectant l’ensemble des mesures relatives à une souris
particulière, apparaı̂trait nécessairement sur cette représentation. Notons seulement que quelques
gènes atypiques, facilement repérables sur la figure 2.9 comme les plus surexprimés, se retrouvent
dans les valeurs extrêmes pour chaque souris sur la figure 2.8.


● ●

● ●
PPAR


● ●

● ● ●

● ●
WT
● ●
● ●

● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ●

● ● ● ●
● ● ● ● ● ●
● ● ● ● ●
● ● ● ●
● ● ● ● ● ● ● ● ●

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ●
1

● ● ● ● ● ● ● ● ● ● ●
● ● ●
● ● ●
● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ● ● ●
● ● ● ● ● ● ● ●
● ● ● ● ●
● ● ● ● ●
● ● ● ●

● ●
● ● ● ●
● ● ●
● ●
● ● ● ●
● ● ● ● ● ● ●
● ● ● ● ● ● ●
● ●
● ● ● ● ● ● ● ● ●
● ● ● ● ● ●
● ● ● ●
● ● ● ● ● ●
● ● ● ● ●
● ● ● ●
● ● ● ●
0

● ● ● ●
● ● ● ●
● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ● ● ●
● ● ● ●
● ● ● ●
● ●
−1


● ●
● ●
● ● ● ●

● ● ● ●

dha efad lin ref tsol dha efad lin ref tsol
−2

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39

40 souris

F IG . 2.8 – Souris : iagrammes en boı̂tes pour les 40 souris. La ligne verticale et épaisse sépare
les souris selon leur génotype. Les lignes verticales et fines séparent les souris selon le régime
qu’elles ont suivi. La ligne horizontale représente la médiane de l’ensemble des valeurs.

Les diagrammes en boı̂tes pour chaque gène (Fig. 2.9) révèlent des gènes dont l’expression
est, sur l’ensemble des souris, nettement différentes des autres (par exemple, 16SR, apoA.I,
apoE). Les gènes des ARN ribosomiques comme le 16SR (ARN 16s ribosomique mitochondrial),
présentent, dans toutes les cellules de l’organisme, des niveaux d’expression plus élevés que tous
les gènes codant des ARN messagers. Ces ARN servent en effet à la traduction des ARN messagers
en protéines. Par ailleurs, on peut constater que les expressions de certains gènes varient beaucoup
plus que d’autres sur l’ensemble des souris (par exemple, FAS, S14 et THIOL). Pour ces derniers
gènes, on peut supposer qu’une part de cette variabilité est due aux facteurs considérés, ce que
nous essaierons de confirmer par la suite au moyen de techniques de modélisation.
L’intérêt de ces représentations réside davantage dans la vision synthétique qu’elles offrent
que dans l’information biologique que l’on peut en extraire. Elles nous orientent également dans
les premiers choix méthodologiques à établir avant de poursuivre l’analyse. En effet, les boı̂tes
relatives à la distribution des gènes mettent clairement en évidence un certain nombre de gènes
dont l’expression est systématiquement supérieure à celle des autres, quelles que soient les condi-
tions expérimentales. De plus, la variabilité de ces expressions est, le plus souvent, très faible. Ce
constat nous conduit à effectuer un centrage des gènes (en colonnes), afin d’éviter un effet taille
lors de la mise en œuvre de techniques factorielles. En revanche, rien dans ces représentations
ne nous pousse à centrer les échantillons (en lignes), ce qui, par ailleurs, ne se justifierait pas
28 CHAPITRE 2. DESCRIPTION STATISTIQUE ÉLÉMENTAIRE

16SR
1

SPI1.1
apoE

apoA.I

FAS ●

THIOL
0



S14



● ●

● ● ●
● ●





● ● ●
● ●

● ●


● ●
−1

● ●

● ●

● ● ●
● ● ● ●


● ●

● ● ●
● ●
● ●


−2

i.BAT

ACAT1 AM2R Bcl.3 CBS CYP26 CYP8b1 GK i.BABP Lpin LXRb MS PAL PPARd S14 Tpbeta

F IG . 2.9 – Souris : diagrammes en boı̂tes pour les 120 gènes. Quelques gènes particuliers ont été
étiquetés.

sur le plan biologique. En effet, nous travaillons sur des données acquises via des puces dédiées
sur lesquelles les gènes considérés ont été présélectionnés et sont donc, a priori, potentielle-
ment différentiellement exprimés dans les conditions étudiées. Un centrage des échantillons serait
susceptible de cacher des phénomènes biologiques. Ce raisonnement ne tiendrait pas pour une
expérimentation pangénomique, où l’on pourrait supposer que globalement les gènes s’expriment
de la même façon et que les surexprimés compensent les sous-exprimés.
Chapitre 3
Analyse en Composantes Principales

1 introduction
Lorsqu’on étudie simultanément un nombre important de variables quantitatives (ne serait-ce
que 4 !), comment en faire un graphique global ? La difficulté vient de ce que les individus étudiés
ne sont plus représentés dans un plan, espace de dimension 2, mais dans un espace de dimension
plus importante (par exemple 4). L’objectif de l’Analyse en Composantes Principales (ACP) est
de revenir à un espace de dimension réduite (par exemple 2) en déformant le moins possible la
réalité. Il s’agit donc d’obtenir le résumé le plus pertinent possible des données initiales.
C’est la matrice des variances-covariances (ou celle des corrélations) qui va permettre de
réaliser ce résumé pertinent, parce qu’on analyse essentiellement la dispersion des données considérées.
De cette matrice, on va extraire, par un procédé mathématique adéquat, les facteurs que l’on re-
cherche, en petit nombre. Ils vont permettre de réaliser les graphiques désirés dans cet espace de
petite dimension (le nombre de facteurs retenus), en déformant le moins possible la configuration
globale des individus selon l’ensemble des variables initiales (ainsi remplacées par les facteurs).
C’est l’interprétation de ces graphiques qui permettra de comprendre la structure des données
analysées. Cette interprétation sera guidée par un certain nombre d’indicateurs numériques, ap-
pelés aides à l’interprétation, qui sont là pour aider l’utilisateur à faire l’interprétation la plus juste
et la plus objective possible.
L’analyse en Composantes Principales (ACP) est un grand classique de l”’analyse des données”
en France pour l’étude exploratoire ou la compression d’un grand tableau n × p de données quan-
titatives. Le livre de Jolliffe (2002) en détaille tous les aspects et utilisations de façon exhaus-
tive. Elle est introduite ici comme l’estimation des paramètres d’un modèle, afin de préciser la
signification statistique des résultats obtenus. L’ACP est introduite d’abord intuitivement à tra-
vers l’étude de données fictives élémentaires. Elle est ensuite plus détaillée d’un point de vue
méthodologique et illustrée par deux jeux de données Le premier est constitué des moyennes sur
dix ans des températures moyennes mensuelles de 32 villes françaises. La matrice initiale X est
donc (32 × 12). Les colonnes sont l’observation à différents instants d’une même variable. Le
deuxième jeu concerne des expressions de gènes.
L’ACP joue dans ce cours un rôle central ; cette méthode sert de fondement théorique aux
autres méthodes de statistique multidimensionnelle dites factorielles qui en apparaissent comme
des cas particuliers. Cette méthode est donc étudiée en détail et abordée avec différents niveaux de
lecture. La première section présente les grands principes de façon très élémentaire, voire intuitive,
tandis que les suivantes explicitent les expressions matricielles des résultats.

29
30 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

2 Présentation élémentaire de l’ACP


2.1 Les données
Considérons les notes (de 0 à 20) obtenues par 9 élèves dans 4 disciplines (mathématiques,
physique, français, anglais) :

MATH PHYS FRAN ANGL


jean 6.00 6.00 5.00 5.50
alan 8.00 8.00 8.00 8.00
anni 6.00 7.00 11.00 9.50
moni 14.50 14.50 15.50 15.00
didi 14.00 14.00 12.00 12.50
andr 11.00 10.00 5.50 7.00
pier 5.50 7.00 14.00 11.50
brig 13.00 12.50 8.50 9.50
evel 9.00 9.50 12.50 12.00

Nous savons comment analyser séparément chacune de ces 4 variables, soit en faisant un
graphique, soit en calculant des résumés numériques. Nous savons également qu’on peut regarder
les liaisons entre 2 variables (par exemple mathématiques et français), soit en faisant un graphique
du type nuage de points, soit en calculant leur coefficient de corrélation linéaire, voire en réalisant
la régression de l’une sur l’autre.
Mais comment faire une étude simultanée des 4 variables, ne serait-ce qu’en réalisant un gra-
phique ? La difficulté vient de ce que les individus (les élèves) ne sont plus représentés dans un
plan, espace de dimension 2, mais dans un espace de dimension 4 (chacun étant caractérisé par
les 4 notes qu’il a obtenues). L’objectif de l’Analyse en Composantes Principales est de revenir à
un espace de dimension réduite (par exemple, ici, 2) en déformant le moins possible la réalité. Il
s’agit donc d’obtenir le résumé le plus pertinent des données initiales.

2.2 Résultats préliminaires


Tout logiciel fournit la moyenne, l’écart-type, le minimum et le maximum de chaque variable.
Il s’agit donc, pour l’instant, d’études univariées.

Statistiques élémentaires

Variable Moyenne Ecart-type Minimum Maximum

MATH 9.67 3.37 5.50 14.50


PHYS 9.83 2.99 6.00 14.50
FRAN 10.22 3.47 5.00 15.50
ANGL 10.06 2.81 5.50 15.00

Notons au passage la grande homogénéité des 4 variables considérées : même ordre de gran-
deur pour les moyennes, les écarts-types, les minima et les maxima.
Le tableau suivant est la matrice des corrélations. Elle donne les coefficients de corrélation
linéaire des variables prises deux à deux. C’est une succession d’analyses bivariées, constituant
un premier pas vers l’analyse multivariée.
2. PRÉSENTATION ÉLÉMENTAIRE DE L’ACP 31

Coefficients de corrélation

MATH PHYS FRAN ANGL

MATH 1.00 0.98 0.23 0.51


PHYS 0.98 1.00 0.40 0.65
FRAN 0.23 0.40 1.00 0.95
ANGL 0.51 0.65 0.95 1.00

Remarquons que toutes les corrélations linéaires sont positives (ce qui signifie que toutes
les variables varient, en moyenne, dans le même sens), certaines étant très fortes (0.98 et 0.95),
d’autres moyennes (0.65 et 0.51), d’autres enfin plutôt faibles (0.40 et 0.23).

2.3 Résultats généraux


Continuons l’analyse par celui de la matrice des variances-covariances, matrice de même
nature que celle des corrélations, bien que moins “parlante” (nous verrons néanmoins plus loin
comment elle est utilisée concrètement). La diagonale de cette matrice fournit les variances des
4 variables considérées (on notera qu’au niveau des calculs, il est plus commode de manipuler la
variance que l’écart-type ; pour cette raison, dans de nombreuses méthodes statistiques, comme en
A.C.P., on utilise la variance pour prendre en compte la dispersion d’une variable quantitative).

Matrice des variances-covariances

MATH PHYS FRAN ANGL

MATH 11.39 9.92 2.66 4.82


PHYS 9.92 8.94 4.12 5.48
FRAN 2.66 4.12 12.06 9.29
ANGL 4.82 5.48 9.29 7.91

Les valeurs propres données ci-dessous sont celles de la matrice des variances-covariances.

Valeurs propres ; variances expliquées

FACTEUR VAL. PR. PCT. VAR. PCT. CUM.

1 28.23 0.70 0.70


2 12.03 0.30 1.00
3 0.03 0.00 1.00
4 0.01 0.00 1.00
----- ----
40.30 1.00

Interprétation
Chaque ligne du tableau ci-dessus correspond à une variable virtuelle (voilà les facteurs) dont
la colonne VAL . PR . (valeur propre) fournit la variance (en fait, chaque valeur propre représente la
variance du facteur correspondant). La colonne PCT. VAR, ou pourcentage de variance, correspond
32 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

au pourcentage de variance de chaque ligne par rapport au total. La colonne PCT. CUM . représente
le cumul de ces pourcentages.
Additionnons maintenant les variances des 4 variables initiales (diagonale de la matrice des
variances-covariances) : 11.39 + 8.94 + 12.06 + 7.91 = 40.30. La dispersion totale des individus
considérés, en dimension 4, est ainsi égale à 40.30.
Additionnons par ailleurs les 4 valeurs propres obtenues : 28.23+12.03+0.03+0.01 = 40.30.
Le nuage de points en dimension 4 est toujours le même et sa dispersion globale n’a pas changé.
Il s’agit d’un simple changement de base dans un espace vectoriel. C’est la répartition de cette
dispersion, selon les nouvelles variables que sont les facteurs, ou composantes principales, qui se
trouve modifiée : les 2 premiers facteurs restituent à eux seuls la quasi-totalité de la dispersion du
nuage, ce qui permet de négliger les 2 autres.
Par conséquent, les graphiques en dimension 2 présentés ci-dessous résument presque par-
faitement la configuration réelle des données qui se trouvent en dimension 4 : l’objectif (résumé
pertinent des donnée en petite dimension) est donc atteint.

2.4 Résultats sur les variables


Le résultat fondamental concernant les variables est le tableau des corrélations variables-
facteurs. Il s’agit des coefficients de corrélation linéaire entre les variables initiales et les facteurs.
Ce sont ces corrélations qui vont permettre de donner un sens aux facteurs (de les interpréter).

Corrélations variables-facteurs

FACTEURS --> F1 F2 F3 F4

MATH 0.81 -0.58 0.01 -0.02


PHYS 0.90 -0.43 -0.03 0.02
FRAN 0.75 0.66 -0.02 -0.01
ANGL 0.91 0.40 0.05 0.01

Les deux premières colonnes de ce tableau permettent, tout d’abord, de réaliser le graphique
des variables (version SAS) donné ci-dessous.
Mais, ces deux colonnes permettent également de donner une signification aux facteurs (donc
aux axes des graphiques).
On notera que les deux dernières colonnes ne seront pas utilisées puisqu’on ne retient que deux
dimensions pour interpréter l’analyse.
Interprétation
Ainsi, on voit que le premier facteur est corrélé positivement, et assez fortement, avec chacune
des 4 variables initiales : plus un élève obtient de bonnes notes dans chacune des 4 disciplines,
plus il a un score élevé sur l’axe 1 ; réciproquement, plus ses notes sont mauvaises, plus son score
est négatif. En ce qui concerne l’axe 2, il oppose, d’une part, le français et l’anglais (corrélations
positives), d’autre part, les mathématiques et la physique (corrélations négatives). Il s’agit donc
d’un axe d’opposition entre disciplines littéraires et disciplines scientifiques, surtout marqué par
l’opposition entre le français et les mathématiques. Cette interprétation peut être précisée avec les
graphiques et tableaux relatifs aux individus que nous présentons maintenant.
2. PRÉSENTATION ÉLÉMENTAIRE DE L’ACP 33

0.6
MATH
PHYS

0.2
Axe 2

−0.2
ANGL

−0.6
FRAN

−0.2 0.2 0.6 1.0

Axe 1

F IG . 3.1 – Données fictives : Représentation des variables

2.5 Résultats sur les individus


Le tableau ci-dessous contient tous les résultats importants sur les individus.

Coordonnées des individus ; contributions ; cosinus carrés

POIDS FACT1 FACT2 CONTG CONT1 CONT2 COSCA1 COSCA2

jean 0.11 -8.61 -1.41 20.99 29.19 1.83 0.97 0.03


alan 0.11 -3.88 -0.50 4.22 5.92 0.23 0.98 0.02
anni 0.11 -3.21 3.47 6.17 4.06 11.11 0.46 0.54
moni 0.11 9.85 0.60 26.86 38.19 0.33 1.00 0.00
didi 0.11 6.41 -2.05 12.48 16.15 3.87 0.91 0.09
andr 0.11 -3.03 -4.92 9.22 3.62 22.37 0.28 0.72
pier 0.11 -1.03 6.38 11.51 0.41 37.56 0.03 0.97
brig 0.11 1.95 -4.20 5.93 1.50 16.29 0.18 0.82
evel 0.11 1.55 2.63 2.63 0.95 6.41 0.25 0.73

On notera que chaque individu représente 1 élément sur 9, d’où un poids (une pondération) de
1/9 = 0.11, ce qui est fourni par la première colonne du tableau ci-dessus.
Les 2 colonnes suivantes fournissent les coordonnées des individus (les élèves) sur les deux
premiers axes (les facteurs) et ont donc permis de réaliser le graphique des individus. Ce dernier
permet de préciser la signification des axes, donc des facteurs.
Interprétation
On peut ainsi voir que l’axe 1 représente le résultat d’ensemble des élèves (si on prend leur
score – ou coordonnée – sur l’axe 1, on obtient le même classement que si on prend leur moyenne
générale). Par ailleurs, l’élève “le plus haut” sur le graphique, celui qui a la coordonnée la plus
élevée sur l’axe 2, est Pierre dont les résultats sont les plus contrastés en faveur des disciplines
littéraires (14 et 11.5 contre 7 et 5.5). C’est exactement le contraire pour André qui obtient la
moyenne dans les disciplines scientifiques (11 et 10) mais des résultats très faibles dans les disci-
34 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

3
2
andr brig

1
jean didi
Axe 2
alan

−1 0
moni
anni evel
−3 pier

−3 −1 0 1 2 3

Axe 1

F IG . 3.2 – Données fictives : Représentation des individus

plines littéraires (7 et 5.5). On notera que Monique et Alain ont un score voisin de 0 sur l’axe 2
car ils ont des résultats très homogènes dans les 4 disciplines (mais à des niveaux très distincts, ce
qu’a déjà révélé l’axe 1).
Les 3 colonnes suivantes du tableau fournissent des contributions des individus à diverses
dispersions : CONT 1 et CONT 2 donnent les contributions des individus à la variance selon les axes
1 et 2 (rappelons que c’est la variance qui caractérise la dispersion) ; CONTG les contributions à la
dispersion en dimension 4 (il s’agit de ce que l’on appelle l’inertie du nuage des élèves ; la notion
d’inertie généralise celle de variance en dimension quelconque, la variance étant toujours relative
à une seule variable). Ces contributions sont fournies en pourcentages (chaque colonne somme à
100) et permettent de repérer les individus les plus importants au niveau de chaque axe (ou du
nuage en dimension 4). Elles servent en général à affiner l’interprétation des résultats de l’analyse.
Ainsi, par exemple, la variance de l’axe 1 vaut 28.23 (première valeur propre). On peut la
retrouver en utilisant la formule de définition de la variance :
9
1X 1 2
V ar(C 1 ) = (ci )
9
i=1

(il faut noter que, dans une A.C.P., les variables étant centrées, il en va de même pour les facteurs ;
ainsi, la moyenne de C 1 est nulle et n’apparaı̂t pas dans la formule de la variance). La coordonnée
de Jean (le premier individu du fichier) sur l’axe 1 vaut c11 = −8.61 ; sa contribution est donc :
1 2
9 (−8.61)
× 100 = 29.19 %.
28.23
À lui seul, cet individu représente près de 30 % de la variance : il est prépondérant (au même titre
que Monique) dans la définition de l’axe 1 ; cela provient du fait qu’il a le résultat le plus faible,
Monique ayant, à l’opposé, le résultat le meilleur.
Enfin, les 2 dernières colonnes du tableau sont des cosinus carrés qui fournissent la (* qualité
de la représentation *) de chaque individu sur chaque axe. Ces quantités s’additionnent axe par
3. REPRÉSENTATION VECTORIELLE DE DONNÉES QUANTITATIVES 35

axe, de sorte que, en dimension 2, Évelyne est représentée à 98 % (0.25 + 0.73), tandis que les 8
autres individus le sont à 100 %.
Lorsqu’on considère les données initiales, chaque individu (chaque élève) est représenté par
un vecteur dans un espace de dimension 4 (les éléments – ou coordonnées – de ce vecteur sont
les notes obtenues dans les 4 disciplines). Lorsqu’on résume les données en dimension 2, et donc
qu’on les représente dans un plan, chaque individu est alors représenté par la projection du vecteur
initial sur le plan en question. Le cosinus carré relativement aux deux premières dimensions (par
exemple, pour Évelyne, 0.98 ou 98 %) est celui de l’angle formé par le vecteur initial et sa projec-
tion dans le plan. Plus le vecteur initial est proche du plan, plus l’angle en question est petit et plus
le cosinus, et son carré, sont proches de 1 (ou de 100 %) : la représentation est alors très bonne. Au
contraire, plus le vecteur initial est loin du plan, plus l’angle en question est grand (proche de 90
degrés) et plus le cosinus, et son carré, sont proches de 0 (ou de 0 %) : la représentation est alors
très mauvaise. On utilise les carrés des cosinus, parce qu’ils s’additionnent suivant les différentes
dimensions.

3 Représentation vectorielle de données quantitatives


3.1 Notations
Soit p variables statistiques réelles X j (j = 1, . . . , p) observées sur n individus i (i =
1, . . . , n) affectés des poids wi :

n
X
∀i = 1, . . . , n : wi > 0 et wi = 1 ;
i=1
∀i = 1, . . . , n : xji j
= X (i), mesure de X j sur le ième individu.

Ces mesures sont regroupées dans une matrice X d’ordre (n × p).

X1 ··· Xj ··· Xp
1 x11 ··· xj1 ··· xp1
.. .. .. ..
. . . .
i x1i ··· xji ··· xpi
.. .. .. ..
. . . .
n x1n ··· xjn ··· xpn

• À chaque individu i est associé le vecteur xi contenant la i-ème ligne de X mise en colonne.
C’est un élément d’un espace vectoriel noté E de dimension p ; nous choisissons IRp muni
de la base canonique E et d’une métrique de matrice M lui conférant une structure d’espace
euclidien : E est isomorphe à (IRp , E, M); E est alors appelé espace des individus.
• À chaque variable X j est associé le vecteur xj contenant la j-ème colonne centrée (la
moyenne de la colonne est retranchée à toute la colonne) de X. C’est un élément d’un
espace vectoriel noté F de dimension n ; nous choisissons IRn muni de la base canonique
F et d’une métrique de matrice D diagonale des poids lui conférant une structure d’espace
euclidien : F est isomorphe à (IRn , F, D) avec D = diag(w1 , . . . , wn ); F est alors appelé
espace des variables.
36 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

3.2 Interprétation statistique de la métrique des poids


L’utilisation de la métrique des poids dans l’espace des variables F donne un sens très parti-
culier aux notions usuelles définies sur les espaces euclidiens. Ce paragraphe est la clé permettant
de fournir les interprétations en termes statistiques des propriétés et résultats mathématiques.

0
Moyenne empirique de X j : Xej , 1n D = ej X0 D1n .


xj =
Barycentre des individus : x = X0 D1n .
Matrice des données centrées : X = X − 1n x0 .
0
Ecart-type de X j : σj = (xj Dxj )1/2 = xj D .
0
Covariance de X j et X k : xj Dxk

j k
= x ,x D.
Pn 0 0
Matrice des covariances : S = i=1 wi (xi − x)(xi − x) = X DX.
hxj ,xk iD
Corrélation de X j et X k : kxj kD kxk kD
= cos θD (xj , xk ).

Attention : Par souci de simplicité des notations, on désigne toujours par xj les colonnes de la
matrice centrée X. On considère donc que des vecteurs “variables” sont toujours centrés.
Ainsi, lorsque les variables sont centrées et représentées par des vecteurs de F :
• la longueur d’un vecteur représente un écart-type,
• le cosinus d’un angle entre deux vecteurs représente une corrélation.

3.3 La méthode
Les objectifs poursuivis par une ACP sont :
• la représentation graphique “optimale” des individus (lignes), minimisant les déformations
du nuage des points, dans un sous-espace Eq de dimension q (q < p),
• la représentation graphique des variables dans un sous-espace Fq en explicitant au “mieux”
les liaisons initiales entre ces variables,
• la réduction de la dimension (compression), ou approximation de X par un tableau de rang
q (q < p).
Les derniers objectifs permettent d’utiliser l’ACP comme préalable à une autre technique préférant
des variables orthogonales (régression linéaire) ou un nombre réduit d’entrées (réseaux neuro-
naux).
Des arguments de type géométrique dans la littérature francophone, ou bien de type statistique
avec hypothèses de normalité dans la littérature anglo-saxonne, justifient la définition de l’ACP.
Nous adoptons ici une optique intermédiaire en se référant à un modèle “allégé” car ne nécessitant
pas d’hypothèse “forte” sur la distribution des observations (normalité). Plus précisément, l’ACP
admet des définitions équivalentes selon que l’on s’attache à la représentation des individus, à celle
des variables ou encore à leur représentation simultanée.

4 Modèle
Les notations sont celles du paragraphe précédent :
• X désigne le tableau des données issues de l’observation de p variables quantitatives X j
sur n individus i de poids wi ,
• E est l’espace des individus muni de la base canonique et de la métrique de matrice M,
• F est l’espace des variables muni de la base canonique et de la métrique des poids D =
diag(w1 , . . . , wn ).
4. MODÈLE 37

F IG . 3.3 – Principe de l’ACP dans l’espace des individus avec p = 3.

De façon générale, un modèle s’écrit :

Observation = Modèle + Bruit

assorti de différents types d’hypothèses et de contraintes sur le modèle et sur le bruit.


En ACP, la matrice des données est supposée être issue de l’observation de n vecteurs aléatoires
indépendants {x1 , . . . , xn }, de même matrice de covariance σ 2 Γ, mais d’espérances différentes
zi , toutes contenues dans un sous-espace affine de dimension q (q < p) de E. Dans ce modèle,
E(xi ) = zi est un paramètre spécifique attaché à chaque individu i et appelé effet fixe. Ceci s’écrit
en résumé :
{xi ; i = 1, . . . , n}, n vecteurs aléatoires indépendants de E,
E(εi ) = 0, var(εi ) = σ 2 Γ,

xi = zi + εi , i = 1, . . . , n avec (3.1)
σ > 0 inconnu, Γ régulière et connue,
∃Aq , sous-espace affine de dimension q de E tel que ∀i, zi ∈ Aq (q < p).

Soit z = ni=1 wi zi . Les hypothèses du modèle entraı̂nent que z appartient à Aq . Soit donc Eq le
P
sous-espace vectoriel de E de dimension q tel que :

Aq = z + Eq .

Les paramètres à estimer sont alors Eq et zi , i = 1, . . . , n, éventuellement σ ; zi est la part


systématique, ou effet, supposée de rang q ; éliminer le bruit revient donc à réduire la dimension.

4.1 Estimation
P ROPOSITION 3.1. — L’estimation des paramètres de (3.1) est fournie par l’ACP de (X, M, D)
c’est-à-dire par la décomposition en valeurs singulières de (X, M, D) :
q
X 1/2 0
Z
cq = λk uk vk = Uq Λ1/2 Vq0 .
k=1
38 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

0
• Les uk sont les vecteurs propres D-orthonormés de la matrice XMX D associés aux va-
leurs propres λk rangées par ordre décroissant.
• Les vk , appelés vecteurs principaux, sont les vecteurs propres M-orthonormés de la ma-
0
trice X DXM = SM associés aux mêmes valeurs propres ; ils engendrent des s.e.v. de
dimension 1 appelés axes principaux.
Les estimations sont donc données par :

z
b = x,
q
0
cq 0 ,
X
Z
cq = λ1/2 uk vk = Uq Λ1/2 Vq0 = XP
k=1

où P
cq = Vq Vq0 M est la matrice de projection
M-orthogonale sur E
cq ,
E
cq = vect{v1 , . . . , vq },
E
c2 est appelé plan principal,
zbi = Pq xi + x.
c

Remarques
i. Les solutions sont emboı̂tées pour q = 1, . . . , p :

E1 = vect{v1 } ⊂ E2 = vect{v1 , v2 } ⊂ E3 = vect{v1 , v2 , v3 } ⊂ . . .

ii. Les espaces principaux sont uniques sauf, éventuellement, dans le cas de valeurs propres
multiples.
iii. Si les variables ne sont pas homogènes (unités de mesure différentes, variances disparates),
elles sont préalablement réduites :
e = XΣ−1/2 où Σ = diag (σ 2 , . . . , σ 2 ), avec σ 2 = Var (X j ) ;
X 1 p j

e est alors la matrice R = Σ−1/2 SΣ−1/2 des corrélations.


S

4.2 Définition équivalente


On considère p variable statistiques centrées X 1 , . . . , X p . Une combinaison linéaire de coef-
ficients fj de ces variables,
X p
c= fj xj = Xf ,
j=1

définit une nouvelle variable centrée C qui, à tout individu i, associe la “mesure”

C(i) = (xi − x)0 f .

P ROPOSITION 3.2. — Soient p variables quantitatives centrées X 1 , . . . , X p observées sur n in-


dividus de poids wi ; l’ACP de (X, M, D) est aussi la recherche des q combinaisons linéaires
normées des X j , non corrélées et dont la somme des variances soit maximale.

• Les vecteurs f k = Mvk sont les facteurs principaux. Ils permettent de définir les combi-
naisons linéaires des X j optimales au sens ci-dessus.
5. REPRÉSENTATIONS GRAPHIQUES 39

• Les vecteurs ck = Xf k sont les composantes principales.


• Les variables C k associées sont centrées, non corrélées et de variance λk ; ce sont les va-
riables principales ;
0 0
cov(C k , C ` ) = (Xf k ) DXf ` = f k Sf `
0 0
= vk MSMv` = λ` vk Mv` = λ` δk` .
• Les f k sont les vecteurs propres M−1 -orthonormés de la matrice MS.
• La matrice
C = XF = XMV = UΛ1/2
est la matrice des composantes principales.
• Les axes définis par les vecteurs D-orthonormés uk sont appelés axes factoriels.

5 Représentations graphiques
5.1 Les individus
Les graphiques obtenus permettent de représenter “au mieux” les distances euclidiennes inter-
individus mesurées par la métrique M.
Projection
Chaque individu i représenté par xi est approché par sa projection M-orthogonale zbi q sur le
sous-espace Ecq engendré par les q premiers vecteurs principaux {v1 , . . . , vq }. En notant ei un
vecteur de la base canonique de E, la coordonnée de l’individu i sur vk est donnée par :
D E
xi − x, vk = (xi − x)0 Mvk = e0i XMvk = cki .
M

P ROPOSITION 3.3. — Les coordonnées de la projection M-orthogonale de xi − x sur E cq sont


les q premiers élément de la i-ème ligne de la matrice C des composantes principales.

Mesures de “qualité”
La “qualité globale” des représentations est mesurée par la part de dispersion expliquée :
Pq
trSMP cq λk
rq = = Ppk=1 .
trSM k=1 λk

Remarque. — La dispersion d’un nuage de points unidimensionnel par rapport à sa moyenne se


mesure par la variance. Dans le cas multidimensionnel, la dispersion du nuage N par rapport à
son barycentre x se mesure par l’inertie, généralisation de la variance :
n
X 2 0
Ig (N ) = wi kxi − xk2M = X M,D = tr (X DXM) = tr (SM).
i=1

La qualité de la représentation de chaque xi est donnée par le cosinus carré de l’angle qu’il
forme avec sa projection :
2
Pq (xi − x) Pq
c
k 2
q 2 M k=1 (ci )
[cos θ(xi − x, zbi )] = = p .
kxi − xk2M k 2
P
k=1 (ci )
40 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

4
2 stra lyon
embr dijogren nime
mars
nanc besa mont perp
reim cler
vichpari tlse bord
0

orle tour nice


stqu limoangeango
Axe 2

lill roue nant ajactoul


renn
−2

biar
−4

bres
−6

−4 −2 0 2 4 6

Axe 1

F IG . 3.4 – Températures : premier plan des individus.

Pour éviter de consulter un tableau qui risque d’être volumineux (n lignes), les étiquettes de
chaque individu peuvent être affichées (macro SAS) sur les graphiques avec des caractères dont la
taille est fonction de la qualité. Un individu très mal représenté est à la limite de la lisibilité.
Contributions
Les contributions de chaque individu à l’inertie de leur nuage

wi kxi − xk2M wi pk=1 (cki )2


P
γi = = Pp ,
trSM k=1 λk

ainsi qu’à la variance d’une variable principale

wi (cki )2
γik = ,
λk
permettent de déceler les observations les plus influentes et, éventuellement, aberrantes. Ces points
apparaissent visiblement lors du tracé des diagrammes-boı̂tes parallèles des composantes princi-
pales qui évitent ainsi une lecture fastidieuse de ce tableau des contributions. En effet, ils se sin-
gularisent aussi comme “outliers” hors de la boı̂te (au delà des moustaches) correspondant à une
direction principale. Les individus correspondants, considérés comme individus supplémentaires,
peuvent être éliminés lors d’une nouvelle analyse.
Individus supplémentaires
Il s’agit de représenter, par rapport aux axes principaux d’une analyse, des individus qui n’ont
pas participé aux calculs de ces axes. Soit s un tel vecteur, il doit être centré, éventuellement réduit,
5. REPRÉSENTATIONS GRAPHIQUES 41

puis projeté sur le sous-espace de représentation. Les coordonnées sont fournies par :
0 0
D E
vk , Vq Vq0 M(s − x) = vk MVq Vq0 M(s − x) = ek Vq0 M(s − x).
M
Les coordonnées d’un individu supplémentaire dans la base des vecteurs principaux sont donc :
Vq0 M(s − x).

5.2 Les variables


Les graphiques obtenus permettent de représenter “au mieux” les corrélations entre les va-
riables (cosinus des angles) et, si celles-ci ne sont pas réduites, leurs variances (longueurs).
Projection
Une variable X j est représentée par la projection D-orthogonale Qcq xj sur le sous-espace Fq
engendré par les q premiers axes factoriels. La coordonnée de x sur uk est :
j

D E
0 1 0 1 0 0 p
x j , uk = xj Duk = √ xj DXMvk = √ ej X DXMvk = λk vjk .
D λk λk

P ROPOSITION 3.4. — Les coordonnées de la projection D-orthogonale de xj sur le sous-espace


Fq sont les q premiers éléments de la j-ème ligne de la matrice VΛ1/2 .

Mesure de “qualité”
La qualité de la représentation de chaque xj est donnée par le cosinus carré de l’angle qu’il
forme avec sa projection :
c j 2

i2 Q qx
Pq j 2
k=1 λk (vk )
h
j c j D
cos θ(x , Qq x ) = = .
kxj k2D p j 2
P
k=1 λk (vk )

Corrélations variables×facteurs
Ces indicateurs aident à l’interprétation des axes factoriels en exprimant les corrélations entre
variables principales et initiales.

j k √
j k j k j k
x ,u D λk k
cor(X , C ) = cos θ(x , c ) = cos θ(x , u ) = = v ;
kxj kD σj j
ce sont les éléments de la matrice Σ−1/2 VΛ1/2 .
Cercle des corrélations
ej = σj−1 xj , x
j
Dans le cas de variables réduites x e D = 1, les x ej sont sur la sphère unité
Sn de F . L’intersection Sn ∩ F2 est un cercle centré sur l’origine et de rayon 1 appelé cercle des
ej et xj sont colinéaires, celle de x
corrélations. Les projections de x ej étant à l’intérieur du cercle :

c j
Q2 xe = cos θ(xj , Q c2 xj ) ≤ 1.
D

Ainsi, plus Q ej est proche de ce cercle, meilleure est la qualité de sa représentation. Ce graphique
c2 x
est commode à interpréter à condition de se méfier des échelles, le cercle devenant une ellipse si
elles ne sont pas égales. Comme pour les individus, la taille des caractères est aussi fonction de la
qualité des représentations.
42 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

Variables Variables
1.0

1.0
0.5

0.5
juil
juin
mai
aout
sept
avri
Axe 2

Axe 3
noveocto sept aout
juil
0.0

0.0
dece
janv
fevr juin
mai
octo
mars mars avri
nove
fevr
−0.5

−0.5
dece
janv
−1.0

−1.0
−1.0 −0.5 0.0 0.5 1.0 −1.0 −0.5 0.0 0.5 1.0

Axe 1 Axe 2

F IG . 3.5 – Températures : Premier et deuxième plan des variables.

5.3 Représentation simultanée ou “biplot”


À partir de la décomposition en valeurs singulières de (X, M, D), on remarque que chaque
valeur
X p h ij
xji − xj = λk uki vkj = UΛ1/2 V0
p
i
k=1
s’exprime comme produit scalaire usuel des vecteurs
h i h i
ci = UΛ1/2 et vj ou encore ui et VΛ1/2 .
i j

Pour q = 2, la quantité zbi j en est une approximation limitée aux deux premiers termes.
Cette remarque permet d’interpréter deux autres représentations graphiques en ACP projetant
simultanément individus et variables.
i. la représentation isométrique ligne utilise les matrices C et V ; elle permet d’interpréter les
distances entre individus ainsi que les produits scalaires entre un individu et une variable
qui sont, dans le premier plan principal, des approximations des valeurs observées X j (ωi ) ;
ii. la représentation isométrique colonne utilise les matrices U et VΛ1/2 ; elle permet d’in-
terpréter les angles entre vecteurs variables (corrélations) et les produits scalaires comme
précédemment.
Remarques
i. Dans le cas fréquent où M = Ip et où les variables sont réduites, le point représentant X j , en
superposition dans l’espace des individus se confond avec un pseudo individu supplémentaire
qui prendrait la valeur 1 (écart-type) pour la variable j et 0 pour les autres.
ii. En pratique, ces différents types de représentations (simultanées ou non) ne diffèrent que
par un changement d’échelle sur les axes ; elles sont très voisines et suscitent souvent les
mêmes interprétations.
5. REPRÉSENTATIONS GRAPHIQUES 43

−10 −5 0 5 10 15 20
0.6

20
bres

15
0.4

10
biar
renn
0.2
Comp.2

roue
janv
dece nant
ange lill

5
toul
fevr
ajac
nove ango limo stqu
mars
octo tourorle
0.0

pari reim

0
nice bord
septavri tlse cler
perp
vich
mai nanc
besa

−5
juin
aoutmont
−0.2

juil dijoembr
mars gren
nime lyon stra
−10

−0.2 0.0 0.2 0.4 0.6

Comp.1

F IG . 3.6 – Températures : Représentation simultanée du premier plan.


44 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

6 Choix de dimension
La qualité des estimations auxquelles conduit l’ACP dépend, de façon évidente, du choix de
q, c’est-à-dire du nombre de composantes retenues pour reconstituer les données, ou encore de la
dimension du sous-espace de représentation.
De nombreux critères de choix pour q ont été proposés dans la littérature. Nous présentons ici
ceux, les plus courants, basés sur une heuristique et un reposant sur une quantification de la sta-
bilité du sous-espace de représentation. D’autres critères, non explicités, s’inspirent des pratiques
statistiques décisionnelles ; sous l’hypothèse que l’erreur admet une distribution gaussienne, on
peut exhiber les lois asymptotiques des valeurs propres et donc construire des tests de nullité
ou d’égalité de ces dernières. Malheureusement, outre la nécessaire hypothèse de normalité, ceci
conduit à une procédure de tests emboı̂tés dont le niveau global est incontrôlable. Leur utilisation
reste donc heuristique.

6.1 Part d’inertie


La “qualité globale” des représentations est mesurée par la part d’inertie expliquée :
Pq
λk
rq = Ppk=1 .
k=1 λk

La valeur de q est choisie de sorte que cette part d’inertie expliquée rq soit supérieure à une valeur
seuil fixée a priori par l’utilisateur. C’est souvent le seul critère employé.

6.2 Règle de Kaiser


On considère que, si tous les éléments de Y sont indépendants, les composantes principales
sont toutes de variances égales (égales à 1 dans le cas de l’ACP réduite). On ne conserve alors
que les valeurs propres supérieures à leur moyenne car seules jugées plus “informatives” que les
variables initiales ; dans le cas d’une ACP réduite, ne sont donc retenues que celles plus grandes
que 1. Ce critère, utilisé implicitement par SAS/ASSIST, a tendance à surestimer le nombre de
composantes pertinentes.

6.3 Éboulis des valeurs propres


C’est le graphique (figure 6.3) présentant la décroissance des valeurs propres. Le principe
consiste à rechercher, s’il existe, un “coude” (changement de signe dans la suite des différences
d’ordre 2) dans le graphe et de ne conserver que les valeurs propres jusqu’à ce coude. Intuitive-
ment, plus l’écart (λq − λq+1 ) est significativement grand, par exemple supérieur à (λq−1 − λq ),
et plus on peut être assuré de la stabilité de E
cq .

6.4 Diagramme en boı̂te des variables principales


Un graphique (figure 6.4) présentant, en parallèle, les boı̂tes-à-moustaches des variables prin-
cipales illustre bien leurs qualités : stabilité lorsqu’une grande boı̂te est associée à de petites mous-
taches, instabilité en présence d’une petite boı̂te, de grandes moustaches et de points isolés. Intui-
tivement, on conserve les premières “grandes boı̂tes”. Les points isolés ou “outliers” désignent
les points à forte contribution, ou potentiellement influents, dans une direction principale. Ils
nécessitent une étude clinique : une autre analyse dans laquelle ils sont déclarés supplémentaires
(poids nuls) afin d’évaluer leur impact sur l’orientation des axes.
6. CHOIX DE DIMENSION 45

temp.acp

40
30
Variances

20
10
0

Comp.1 Comp.5 Comp.9

F IG . 3.7 – Températures : éboulis des valeurs propres.


5
0
−5
−10

Comp.1 Comp.3 Comp.5 Comp.7 Comp.9 Comp.12

F IG . 3.8 – Températures : composantes en boı̂tes.


46 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

7 Interprétation
Les macros SAS décrites en exemple, de même que la plupart des logiciels, proposent, ou
autorisent, l’édition des différents indicateurs (contributions, qualités, corrélations) et graphiques
définis dans les paragraphes précédents.
• Les contributions permettent d’identifier les individus très influents pouvant déterminer à
eux seuls l’orientation de certains axes ; ces points sont vérifiés, caractérisés, puis éventuellement
considérés comme supplémentaires dans une autre analyse.
• Il faut choisir le nombre de composantes à retenir, c’est-à-dire la dimension des espaces de
représentation.
• Les axes factoriels sont interprétés par rapport aux variables initiales bien représentées.
• Les graphiques des individus sont interprétés, en tenant compte des qualités de représentation,
en termes de regroupement ou dispersions par rapport aux axes factoriels et projections des
variables initiales.
Les quelques graphiques présentés suffisent, dans la plupart des cas, à l’interprétation d’une
ACP classique et évitent la sortie volumineuse, lorsque n est grand, des tableaux usuels d’aide à
l’interprétation. On échappe ainsi à une critique fréquente, et souvent justifiée, des anglo-saxons
vis-à-vis de la pratique française de “l’analyse des données” qui, paradoxalement, cherche à
“résumer au mieux l’information” mais produit plus de chiffres en sortie qu’il n’y en a en entrée !
Remarque. — L’ACP est une technique linéaire optimisant un critère quadratique ; elle ne tient
donc pas compte d’éventuelles liaisons non linéaires et présente une forte sensibilité aux valeurs
extrêmes.

8 Données d’expression
Les exemples illustratifs précédents ont l’avantage d’être simples et d’interprétation triviale.
La réalité des données d’expression est tout autre et ce, en particulier, en raison du nombre de
gènes en présence, c’est-à-dire en faite du nombre de variables d’expression observées p sur un
nombre en général beaucoup plus réduit n d’individus. C’est le cas des données sur le cancer du
pancréas pour lesquels 871 gènes sont observés pour seulement 65 tissus ou lignées cellulaires.
L’incitation est évidemment forte à considérer les gènes comme des individus ce qui n’est pas sans
conséquence.

8.1 Exploration élémentaire


Il n’est pas question de tracer 871 histogrammes. En revanche il est possible de représenter
simultanément ces distributions par des diagrammes en boı̂tes même si celles-ci, les boı̂tes, de-
viennent très squelettiques compte tenu de leur nombre. La figure 8.1 affiche ces distributions
qui se caractérisent par une certaine dérive des moyennes qui apparaissent pour le moins peu
homogènes d’un gène à l’autre.

8.2 Analyse en composantes principales


Diverses options peuvent être mises en œuvre correspondant à plusieurs questions : quelles
sont les variables (tissus, gènes) ? Quel centrage ? Faut-il réduire les variables ? Quelle représentation
simple ou biplot faut-il privilégier ?
Dans R comme dans Splus, deux fonctions (prcomp, princomp), trois si l’on considère
la librairie multidim de Carlier et Croquette, sont disponibles pour calculer des analyses en
composantes principales. Deux extraient les valeurs propres et vecteurs propres de la matrice des
8. DONNÉES D’EXPRESSION 47

G1 G94 G208 G332 G456 G580 G704 G828

−5 0 5

F IG . 3.9 – Pancréas : diagrammes boı̂te affichant globalement les distributions des 871 gènes.
48 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

covariances ou des corrélations tandis qu’une (prcomp) calcule directement la décomposition


en valeurs singulières (SVD) de la matrice X des données centrées. L’ACP est donc centrée par
défaut mais pas réduite par défaut sauf pour la fonction acp. Ces considérations techniques ont
des conséquences importantes sur le soin à apporter dans le choix des options et sur le choix de
la fonction : prcomp accepte un nombre p de colonnes supérieur au nombre n de lignes de la
matrice ce qui n’est pas le cas de (princomp) . Tous les programmes sont détaillés dans les
séances de travaux pratiques.
Quelques essais systématiques fournissent les graphiques de la figure 8.2 avec les différentes
options de centrage et réduction. De toute façon, l’ACP centre par défaut les colonnes. Il apparaı̂t
important de centrer les gènes sinon (fig. 8.2 a) un effet taille, masque l’essentiel des données :
certains gènes s’expriment de toute façon plus pour l’ensemble des tissus et emportent la définition
du premier axe. Un centrage préalable des gènes ou lignes de la matrice (fig. 8.2 b) remédie à ce
problème. Une réduction des “variables” tissus (fig. 8.2 c) n’apporte rien de mieux alors qu’une
réduction des “variables” gènes (fig. 8.2 d) augmente sérieusement la confusion. C’est logique
dans la mesure où cela revient à négliger la variance de l’expression des gènes qui affichent donc
tous la même capacité d’expression. Cette réduction a un sens lorsqu’un sous-ensemble réduit de
gènes sont considérés : ceux dont on sait a priori qu’ils sont différentiellement exprimés. La struc-
ture de corrélation fournit alors des informations sur les possibles co-régulations ou inhibitions.

Nous retiendrons plus particulièrement le graphique de la figure 8.2 croisant les tissus en
ligne et les gènes en colonne qui sont donc centrés. Elle semble la plus explicite et informative
compte tenu du problème posé. Ce graphe est strictement équivalent à celui de la figure 8.2 b qui
nécessite un centrage préalable des lignes. Pour cette ACP, la décroissance des valeurs propres ou,
plus précisément, les distributions des composantes principales (fig. 8.2) suggère de considérer 4
composantes nécessitant ainsi des graphiques et des interprétations plus élaborées.
À ce niveau de l’analyse on voit combien le nombre de gènes est susceptible de compliquer
lecture et interprétation des graphiques. Diverses approches sont envisageables afin de se limiter
aux plus ”pertinents”. Plusieurs répétitions permettent de tester d’un gène s’il est significativement
différentiellement exprimé mais la répétition de ce test à chaque gène rend le procédé peut fiable.
Une réflexion approfondie doit accompagner cette démarche pour le dépistage des ”faux positifs”
qui, sur le seul fait du hasard, rend 5% de tests significatifs en moyenne. C’est l’objet d’un autre
cours.
Dans le cadre de l’analyse en composante principale, il est cohérent de rechercher quels sont
les gènes contribuant le plus à la définition des axes retenus. Une adaptation de l’expression de la
contribution d’un individu (section 5.1) :
P4 k 2
wi k=1 (ci )
γi = P4 ,
k=1 λk

permet de rechercher les, par exemples, 5% des gènes contribuant le plus à la définition de l’espace
propre à 4 dimensions jugé pertinent. La figure 8.2 ne représentant que ces gènes sélectionnés dans
le premier plan factoriel devient beaucoup plus lisible. Naturellement, une ACP calculée sur ces
seuls gènes les plus influents varie peu de celle calculée sur l’ensemble. La lecture de ce graphique
permet, en particulier, de repérer les gènes contribuant le plus à une sorte de double discrimination :
• entre les échantillons biologiques issues des lignées cellulaires et les échantillons prélevés
sur les patients,
• et, pour ces derniers échantillons, une distinction entre pancréas sains et pièces tumorales.
8. DONNÉES D’EXPRESSION 49

−20 −10 0 10 −20 −10 0 10 20

10

20
K562.1A1
HCT116.1.1 G272
G273 G366
G267 G719 G571 K562.1A1
HCT116.1.2
CACO2.1.1
K562.2A3
K562.2A2
K562.1A2 G484
G438
G257
G39 G466
G367
G479
0.05

K562.2A4 G122 G385 K562.2A3


K562.2A4
CACO2.1.2
HT29.3.1
CACO2.2
HT29.4
HCT116.2
HT29.3.2
SW620.1.1 G88G118
G185
G280
G424
G262
G474
G290G477
G364G485
G405
G413
G371
G241
G504
G468
G463
G378
G483
G488
G188
G263 G486
G518
G406
G283
G288
G434
G278
G254 G707 K562.2A2
K562.1A2
SW620.2.1
SW620.1.2
PANC1.1. G116 G186G91
G1
G168G13G489
G492
G281
G414
G469
G274
G307
G490 G365
G482
G429
G426
G379 G648
G306
G388
G308
G511 G264
G622
G245
G289
G369
SW620.1.3
SW480.2.1
Bx.PC3.5. G79G4
G219G117
G276
G207
G209G29
G217G311
G412
G402
G501
G161
G143 G458G291
G256
G478
G356
G467
G473 G368
G389
G236
G401
G508
G390
G277
G415
G248
G357
G410 G846 G184

0.1
SW620.2.2
SW480.2.2
CAPAN2.2.
PANC1.2.
CAPAN1.1. G171
G75 G87
G205 G416
G200
G517
G178
G8
G51 G464
G358
G380
G25
G495
G444
G55 G284
G417
G282
G260
G286 G249
G327
G312 G384
G338
G451
G314
G515
G252
G398
G269
G104 G454
G465
G298
G502
G324
G350
G315G355
G387
G334
G285
G275
G300G496
G333 G807
G198
ASPC1.2.
SW480.1.2
MIA.1.
MIA.3.4.
SW480.1.3 G98
G44
G67 G89
G187 G56
G2
G172G92
G49 G352
G5
G151
G206
G83
G35 G261
G363
G203
G246
G19
G452
G470
G237
G251
G310
G407
G419
G113
G323
G259
G505
G374
G321 G589
G266
G630
G271
G322
G243
G514
G440
G377
G319
G493
G328
G400
G382
G347
G250
G38 G344
G599
G595
G376
G332
G386
G462
G475
G299G497
G279
G336
G617
G268
G510
G480
G584
ASPC1.2bis.
MIA.3.3.
CAPAN2.3.3.
CAPAN2.1.
Bx.PC3.4.1. G119
G7 G134
G189
G184
G150G37
G85
G121
G58G297
G373
G244
G294
G47 G342
G295
G519
G247
G199 G491
G391
G340
G375
G443 G445
G471
G337
G582
G586
G341
G588
G335
G316
G258
G302
G450
G603
G494
G707
G372
G457
G498 G833

10
CAPAN2.3.2.
CAPAN1.3.4.
MIA.3.2.
CAPAN1.3.3.
CAPAN2.3.4.
CAPAN1.3.2.
ASPC1.1.
Bx.PC3.4.2. G40
G152
G140 G96G223
G222
G59
G70
G114
G202
G571 G435
G313
G370
G255
G97
G32G472
G339
G137
G428
G93
G156
G133 G239
G587
G303
G396
G331
G513
G359G583
G612
G658
G553
G360
G309G351
G558
G579
G809
G348
G824
G455G868
G826
G810
G575
G329
G585
G620
G317
G293
G362
G655
G536 G787
G449
G604
G597
G320
G631
G487
G270
G544
G381
G456
G649
G507
G476
G409
G516 G830
G609
G346
G481
G296G788
G637
G795
G641
G361G794
G594
G436G640
G512
G238
G287
G499
G546
G325
G628
G395
G221 G815
G349
G423
G393G600
G576
G621
0.00

NP29.1.
CAPAN1.2. G64
G229 G11
G218
G54 G220
G141
G197 G425
G127
G204
G164
G190 G397
G432
G383
G63
G353
G195
G136
G431
G421
G227
G305
G115
G30
G446
G109 G652
G399
G326
G623
G805
G598
G506G836
G818
G632
G771
G605
G802
G700
G581
G738
G354
G615
G503
G577
G500
G301
G698
G411G806
G653
G845
G651
G723
G811
G840
G846
G608
G448
G235
G624G606
G541
G611
G509
G551
G537
G292
G459
G427
G439 G861
G828
G752
G758
G460
G614
G616
G240G650
G782
G646
G633
G596
G610
G657
G304G726
G656
G817
G607
G50 G798
G265
G741
G851
G619
G591
G716
G543
G618
G422
G613 PancNorm2A G599
G833
G193
G86 G61
G74
G73 G574
G573
G545
G404
G441
G560
G208
G345
G639
G330
G638
G242 G800
G643
G789
G799
G812
G706
G626
G654 G793
G627
G556
G853
G814
G578
G871
G777
G635
G844
G699
G821
G661
G772
G745
G791
G838
G841
G642
G433 G835
G721

0
G42
G60 G183
G215G191
G14 G76
G62
G101
G131
G225
G128 G95
G157
G106G71G852
G533
G567
G549
G418
G447
G26
G132
G111
G542
G20
G142
G48 G535
G52 G843
G755
G816
G592
G742
G392
G394
G430
G234 G778
G702
G857
G732
G713
G593 G792
G837
G831
G720
G855
G813
G863
G705
G552
G645G756
G559
G773
G796
G847
G343
G827
G823
G318
G736
G548
G807
G819
G634
G602
G747
G712
G625
G601
G403
G859
G860
G786
G703
G808
G864
G408
G727
G550
G659
G803
G865
G785
G820
G856
G420 G737
G804
G797
G701
G854
G822 PancNorm2B G135
G592
G305 CACO2.2
CACO2.1.2
NP29.2. G139
G214G124
G28 G84
G144 G179
G105
G80
G68
G120 G563
G27
G149 G539
G123 G866
G790
G532
G437
G554 G776
G759
G743
G858
G783
G762
G842
G709
G749
G629G761
G725
G561
G729
G784
G524
G704
G540
G568
G31 G760
G770
G538
G660G862
G754
G733
G590
G453 G722
G779
G834
G739
G751
G717
G715
G461
G636
G253
G33 G731
G768
G728
G708
G647
G557
G849
G870
G735
G730
G767 PancNorm1 G668 G706 G651
G589
G698
G802
G563 G622
G63
SW480.1.2
G577
G418 G254
G291 CACO2.1.1
G12G126G108
G169
G94G90G22
G158G81
G57 G45
G166 G644
G82
G46
G112
G167
G41
G534
G520
G147 G774
G734
G442G763
G766
G580
G781
G848
G832
G764
G740
G719 G780
G850
G744
G839
G750
G829
G775
G753
G748
G825
G572G746
G801 G649
G793
G721 G382
G598
G258
SW480.1.3
G274
G469
G275
G76 G414
G401
G355 G406
G416
Bx.PC3.2. G99
G65 G72
G69
G211 G154 G10
G555
G146 G765
G670G724
G667
G869
G714
G757
G867
G523G710
G547
G522
G160 TP440.g2ex G678 G718
G562 G839 G567
G819
G841
G697
G861
G801
G799
G715 G454
G239
G818 G390
G372
G132
G182 G289
G387
G810
G270
G794
G586
G620
G536G398 G484
SW620.1.2
G369
G485
SW480.2.2
G648
G256
G407
G337 G13
Bx.PC3.1. G231
G15 G192
G24 G148
G135
G182G9
G155
G526
G78
G180
G77 G676
G662
G711
G564
G769
G665
G529 G569
G671 G789
G138
G750
G673
G665
G683 G788
G600
G652
G868
G806
G714
G804
G847
G699
G608
G803 G284
G445
G101
G632
G167
G845 G341
G266
G628G507
G493
G579
G512
G605
G548
G843
G713
G705
G730
G6 G335
G376
G375
G279 G288
G260
G252
G306 G207
G434
G86
G478
G462
G255
MIA.3.2.
G157 G75
G171 SW480.2.1
MIA.1.
G153 G194 G53
G103 G224
G528
G66 G677
G565
G697 G773
G762
G523
G752
G829 G353
G815
G744G591
G590
G709
G619
G771
G867 G615
G604
G107
G732
G779
G739
G770
G748
G125 G506
G46
G411
G595
G584
G658
G568
G766
G800
G676 MIA.3.3.
G508
G410
G380
G470
G285
G609
G726
G253
G720 G264
G334
G384
G465 G385
G483
SW620.1.1
G486G474
G118
G188
G379
G358G91
G366
G511
MIA.3.4.
G489
G356
−0.05

G159 G110G145 G43 G664


G694
G663
G679
G673 TP440.g3ex
TP3.225.g
TP3.125.g
TP240.g G688
G176 G666
G16
G692 G644
G580
G832
G734G610
G831
G704
G871
G774
G754
G746
G725
G677
G796
G772
G858
G711
G733
G710
G664
G757
G767
G769
G696
G737 G480
G787
G573
G601
G722G657
G556
G826
G634
G791
G756
G857
G537
G855
G703
G755
G778
G759 G314
G320
G851
G585
G386
G795
G475
G238
G603
G836
G777G395
G702
G863
G862 G24
G643
G860
G835
G712
G499
G798G342
G583
G660 G38
G37
G127
G494
G510
G497
G136
G348
G646
G811
G717G809
G700
G797G575
G637 G277
G332
G612G90 G89
G327
G100 G371
G365
G368G473
G419
G373
G501
G357
G211
G388
G93
G417
G250
G304
G370
G824G451
G502 G122
G119HCT116.1.2
SW620.1.3
G29
G11 G7
SW620.2.2
G280
G79
G463
G311
G241
G308G67
G3 G21G130 G674
G675 TP540.g2ex
TP3.325.g
TP1.225.g
TP1.325.g G691
G690 G686
G679 G645
G66
G842
G776
G763G607
G743G235
G653
G805
G821
G823
G729G655
G650
G758
G844
G724 G654
G828
G865
G782
G825
G853
G761
G749
G864
G708
G808
G572
G817
G674
G629
G834
G775G814
G701
G647
G735
G822
G854G633
G783
G760
G731
G792
G827
G837
G627
G849G142
G602
G866
G786
G848
G859 G232
G498G21
G233
G588
G268
G449
G852
G408 G338
G505
G261
G328
G515
G303
G259
G339
G346
G491
G361
G618
G146
G31
G723
G781 G80
G487
G545 G
G30
G271 G140
G492
G70
G263
G504
G518
G124
363
G150
G389
G299
G362 G458
G415
G248
G350 G479 G39 HCT116.1.1
G219
G262
G117
G267
G209
G468
G424
G172
G312G413
G28
G290
G60
HCT116.2

0.0
G163
G107
G175 G181
G521G680
G525
G682 TP540.g3ex
TP1.125.g G669
G566G662
G682
G672
G681
G663
G684 G747
G813
G751
G850
G740
G564
G675
G780
G694 G326
G812
G330
G816
G820 G319
G450
G481
G611
G154
G738
G534 G457
G381
G333
G574
G578G293
G630
G287
G716
G659
G728
G82
G785
G784
G614
G764
G533 G5
G223
G249
G297
G32
G94
G216
G336
G359
G295
G322
G626 G321
G587
G329
G243
G391
G48
G638
G656
G77
G736G240 G161
G405
G464
G477
G412
G402
G97G490
G315
G519G133
G269
G113
G251
G190
G213
G514
G496
G500 G92G42
G281
G495
G228 G1
G367
G278
G282 G185
G257
G214 SW620.2.1

0
G233 G34
G17 G693
G696
G683
G681
G672 G570 G838
G753
G680 G456
G621
G460
G318
G441
G742
G181 G360
G554
G349
G448
G639
G856G446
G392
G593
G870
G520
G526
G869
G529 G409
G503
G436
G551
G617
G616
G175
G830
G597
G383
G581
G453
G147
G343
G641 G210
G400
G199
G247
G191
G582
G344
G179
G606 G85
G
G452
G115G56
G83 G98
G151
G364
G12G44
G186
PANC1.2.
G55
G99
G244
G158 G283
200
G212
G222
G187
G218
G206 G273
G438
G4G116
Comp.2

Comp.2
G173
G129
G174 G138 G689
G687 G693
G687
G689 G394
G148
G565
G18 G631
G430
G33
G538 G62
G594
G596
G265
G635
G561G208
G301
G447
G667
G433
G234
G399
G539
G741
G790
G543
G636
G23G404
G541
G840 G74
G347
G428
G61
G120
G237
G310
G108
G440
G50
G546
G294
Bx.PC3.4.2.
G393
G509G84
G144
G377 G139
G104
G47
G226
G323
G298
G374
G396
G642 G467G51
G307
G488
G466
G217
G168
G49
G178
G189
G517
G2G3 G272
G88
G229
G212 PancNorm1
PancNorm2A G162 G684
G566 G695 G9G
G555
G43
G160
G78
G524
G540G131
10
G423
G36
G106
G45
G149
G544
G102
G613
G397
G111 G126
G435
G439 G156
G472
G292 G444
G316
G227
G58 G96
G203
G143
G15
G286
G300 G64
G35
G87G40 PANC1.1.
G213 G102
PancNorm2B
G216 G230 G36G125 G530
G201 G668
G666
G686
G718 −10 G180
G640
G623
G768
G661
G559
G745
G625
G461
G532
G670
G137
G624
NP29.2.G317
G558 G482
G141
G215
G516
G352
G204
G221
G431
G476G114
G425
G324
G471
G20
HT29.4
G205
G236
G302 G231HT29.3.2
G276
G59G8
G134
G121
G153
G210
G232
G228
G226 G6 G569
G695 TP225.g G17
G162G727
G765
G165 G52
G27
G242
G552
Bx.PC3.1.
G112
G41
G549 G69
G340
G105
G459G14
G513
G427
Bx.PC3.2. G73G429
G25
G164
G19
G57 G378
Bx.PC3.4.1.
G123 G202
−0.10

G23 G170
G531 G16G692 G530G224G354
G155 G455
G325
G553
G103
G542
G437
G576
G528 G195
G421
G109
G95
G351 G193
G165 G560
G557 G53 G183 HT29.3.1
G100 G196 G671
G669 TP640.gG685 G201 G420
G110
G145
G547
G550
G522
G521
G432
G71
G296
G345 G54
CAPAN2.3.2.
G26
G173
G225
Bx.PC3.5.
ASPC1.2bis.
G245
G197
CAPAN2.2.G152
G166NP29.1.
G130

−10
TP225.g
TP640.g G198 G562
G18 G570 G192G331
G22 ASPC1.2.
G159CAPAN1.1.
G246
CAPAN1.3.2.
G422 G426
CAPAN2.3.4.
CAPAN2.3.3.
ASPC1.1.
G685 G177 G403
G34G163
G230 G72G65
CAPAN1.2.
G313
CAPAN1.3.3.

−0.1
TP540.g2ex G527 G535 CAPAN1.3.4.
G309
G129
−0.15

TP1.325.g
TP540.g3ex
TP440.g2ex
TP440.g3ex
TP1.225.g G691 G68
G443
TP1.125.g
TP3.225.g
TP240.g
TP3.125.g G678 G527 G525G442G174 CAPAN2.1.
G220
−20

TP3.325.g G81
G194
G177 G128
G169

−20
G690 G196
−0.20

G688
G170

−0.2
G176 G531

−0.20 −0.15 −0.10 −0.05 0.00 0.05 −0.2 −0.1 0.0 0.1

Comp.1 Comp.1

−20 −10 0 10 20 −0.10 −0.05 0.00 0.05 0.10


0.2

20

G571
30

G198
SW480.1.2
G184
SW480.1.3

0.10
SW480.2.2
K562.1A2
K562.1A1 G589
0.1

SW480.2.1 K562.1A1
10

G135 K562.2A2 K562.2A3


K562.2A4
20

G562G138G191 K562.2A3
K562.2A4 K562.2A2 G707
G270 G833
G846
G719
G125G6 G199
G707 SW620.1.1
SW620.1.3
MIA.1.
SW620.2.2 K562.1A2
G622G372
G599
G418 SW620.1.2
G416CACO2.2
CACO2.1.2 G355
G401
G275
G291
G569G674 G305
G592
G36
G445
G719 G382
G101
G599
G587
G132 MIA.3.3.
MIA.3.2.
G649
G651
G563
G568 G254G75 CACO2.1.1 G289
G414 G387
G337 G620
G577
G598
G807 G706
G567
G600
G802
G846
G818
G807G46G407
G369
G274 G484
MIA.3.4.
G485 SW620.2.1
HCT116.1.2 G390
G469 G258 G810 G819
PancNorm2A G671G673 G676G698
G181
G18 G512
G10
G721
G77
G146G63
G579
G341
G577
G779
G697 G86
G291
G406
G252
G454
G794 G67
G260
G207
G60 HCT116.2
PANC1.1.
PANC1.2. HCT116.1.1 G493
G284
G274
G285 G586
G868G861
G683
G678G668 G603
G660
G858
G320
G586
G575G306
G478
G264
G380
G622 G465
G454G506

0.05
PancNorm2B
TP3.225.g
TP440.g2ex
PancNorm1
TP3.125.g G688 G665
G566
G669
G666 G376
G353
G628
G536
G167
G453
G699
G841 G423
G62
G411
G609
G771
G793
G618
G833
G66
G643
G645
G644
G605
G652
G744
G573
G801
G564G620
G540
G590
G861
G610
G799
G629
G860
G740
G787 G469
G648
G390
G589
G646
G266
G608
G335 G188
G13
G124
G158
G379
G213
G90
G255
G370
G507
G315
G256
G284
G375G358
G223
G275
G584
G372
G289
G303
G304
G190
G470
G655
G515
G270G94
G136
G102
G24G493 G171
G89G219
G70
G486
G211
G505
G222
G373G483 G434G314G76
G266 G592
GG793
G608
G788 G713
789G803 PancNorm2A
TP3.325.g
TP440.g3ex G176 G692
G691 G16 G706
G839
G565
G696 G404
G650
G750
G634
G637
G330
G804
G548
G774
G769
G664G712
G607
G845
G705
G717
G819
G752
G704
G677
G681 G852
G867
G825
G667 G384
G638
G639G428
G387
G337
G328
G591
G45
G334
G491
G604
G770
G545
G733 G48
G574
G595
G800
G762
G602
G778
G619
G430
G756
G714
G803 G37
G100
G365
G386
G632
G238
G182 G38
G410
G281
G508
G338
G809
G615
G76
G395
G726
G355
G588
G297
G658
G381
G795
G580
G772
G154
G160G498
G831
G657
G702
G815
G715 G475
G471
G157
G581
G601
G578
G647
G642
G730 G93
G494
G326
G720
G497
G811
G585
G27
G810
G732
G633
G318
G864 G366
G504
G473
G262
G311
G133
G417
G21
G510 G119
G288
G412
G11
G511
G209
G371
G140
G113
G248
G617 G122 G406
G254 G382
G388G375
G480
G279
G305 G651
G605
G563
G632
G845
G815
G591 G847
G806
G799
10

TP240.g G690 G827


G843
G679
G725
G847
G789
G758
G766G292
G773
G777
G785
G711
G739
G871
G817
G746G805
G792
G836
G857
G722 G282
G295
G61
G612
G120
G583
G806 G414
G501
G327
G363
G232
G400
G462G518
G210
G250
G314
G598
G480
G476
G519
G514
G329
G868
G835
G408 G91
G28
G172
G307
G308
G29
G263
G492
G233
G55 G39
G118
G477
G104 G7
G468
G474
G463
G489 G451
G357
G288 G462
G334
G255 G348
G239
G652
G499
G698 G794
G721
G604
G619 G715
0.0

TP540.g2ex
TP540.g3ex
TP1.225.g G718
G686
G695
G684G749
G757
G662
G776
G743
G694
G672
G570 G362
G703
G710
G729
G165
G737
G735
G798
G724
G796
G797
G763
G829
G748
G821
G734
G808
G529 G421
G533
G593
G863
G753
G107
G728
G848
G709
G701
G682
G832
G663
G754
G680 G368
G826
G870G487
G80
G506
G614
G572G450
G239
G865 G356
G206
G359
G336
G346
G332
G360
G791
G279
G339
G641
G433
G500
G862
G713
G849
G761G31
G736
G635
G626
G659 G127
G347
G496
G258
G33
G654
G523G361
G627
G723
G814
G828
G555
G731
G780 G290
G228
G216
G30G5
G126
G350
G582G99
G151
G401
G259
G235
G456
G520 G92
G251
G503
G115
G271
G383
G788
G834
G653
G781 G51
G323
G299
G435
G149
G342
G357
G261
G150
G277
G348
G499
G631 G47
G409
G624
G822 G285 G79
G479
G385
G8G185
G1
G40
G257
G44
G2
G178 G116
G280
G272 G184
CACO2.1.2
G369
G356
G241
G32
G419 G386
G398
G410
G571 G595
G658
G851
G612
G253
G615
G238
G649 G795G804
G841
G839 PancNorm2B
0

TP1.325.g
TP225.g G693
G767
G670
G253
G823
G759
G43
G842G594
G751
G675 G460
G859
G436
G556
G481
G611
G813
G747
G838
G855
G551
G742
G854
G853
G561
G775G812
G850
G528
G534
G816
G616
G755
G837 G458
G465
G472
G293
G142
G82
G844 G502
G333
G322
G394
G820
G708
G343 G84
G268
G97
G319
G131
G397
G621
G783
G786 G249G466
G212
G405
G419
G389
G276
G490
G83
G15
G231
G467
G451
G243
G226 G88
G424
G134
G42
G464G367
G273
G186
G117
G193
G495 G267
G229
G214
G402
G415
G283
G438 CACO2.1.1 G485
G13 G256
G341
G508
G100
G277 G648 G449
G802
G579 G556
G826G657
G628
G585
G824 G714
G843
G863
G752
G855 PancNorm1
Comp.2

TP1.125.g G162
TP640.g G689
G687 G349
G782
G147
G768
G784G391
G661
G208
G537
G392
G606
G53
G824
G234
G625
G741
G760
G636
G148
G700
G441
G764 G221
G613
G543
G449
G461
G596
G399
G554
G830
G526
G9 G139
G425
G377G217
G59
G247
G344
G597
G656
G538
G716 G244
G310
G156
G153
G108
G215
G630
G265
G287
G866
G166 G85
G393
G457
G180
G790G50 G98
G364
G434
G269
G237
G106 G35
G482
G398
G56
G64
G114
G69
G312
G321
G105G12
Bx.PC3.4.2.
G738
G532 G161
G121
G286
G388
G316
G144 G4
G205
G189
G200
G240G241
G446
G41
G78
G317
G374G49
G218
G429 G489
CACO2.2
G327
G511
G385 G332
G252
G268
G470
G501
G473
G474
G308 G335
G342
G494
G63
G507
G368
G384 G818
G182
G536
G376
G157
G475G395
G584 G705
G782
G700
G583 G750
G796
G709
G801
G828
G871
G800
G739
G762
G730
G773
G699
G720
G829
G718
G844
G726G580
G832
G869G640
G448
G396
G301
G558
G509
G155
G145 G452
G298
G294
G130
G103 G87
G444G378
G202
G203
G340G143
G517
G278
G3
Bx.PC3.4.1.
G164 G29
G483
G484
G366
G280
G91
G118 G407
G413G232 G319
G457
G567
G287G771
G787 G831
G777
G791
G805
G610
G853
PC2

G530 G539
G745G513
G541
G123
G840 G183
G459
G175
G109
G179
G437
G727 G32
G129
G225
G73
G227
G57
G52
G195
G455
G204
G20
G552
G110
G856G516 G413
G197
G74G187
G25
G300
G352
G553
G302
ASPC1.2bis. G171G371
G38
G117
G122
G278
G207
G267
G463 G339
G261
G127
G389
G502
G417
G478
G486
G358
G373
G312 G497
G346 G235
G132
G630G590
G836
G107 G835
G755
G653
G867
G766
G722
G702
G760
G862
G823
G811 G759
G797
G744
G716
G725
G783
G770 TP440.g2ex
G17
G112
G851
G549
Bx.PC3.1. G141
G427
G440
G324
G431
G354
G546
G351
G111
G447
G559
G765 G488
G245
G426
G96
G54
G19
G14
G159 ASPC1.2.
G168 HT29.4 G161
G89
G79
G188
G492 G264
G380
G7G250
G260
G93
G365
G416
G311
G37
G379
G150 G271
G97
G518
G350
G458
G464
G11
G211G306
G402 G498
G588
G391
G353
G510
G321G322 G411
G609
G600
G361 G738
G809
G167 G703
G814
G601
G754
G774
G786
G859
G772
G798
G523 G748
G808
G746
G757
G857
G775
G665
G837
G758
G548 G668
G821
G677
G325
G524 G137
G71
G439
G296
G26
G560
Bx.PC3.2.G246
G173
G95
G550
G544G236
G58 G65 HT29.3.2
HT29.3.1
Bx.PC3.5. G468
G168
G367
G75
G488
G119
G479
G263
HCT116.1.2
G39
G257
G140
G405
G187
G424
G214G249G333
G338
G30
G299
G233
G415
G259G243
G440
G328 G418
G537
G481
G362
G179 G656
G448
G633
G655 G756
G732
G611
G723
G627
G865
G866
G637
G607
G856G767
G822
G842
G761
G776
G743
G731
G729
G708
G704
G701
G854
G644G763
G717
G834
G747
G817G749
G784
G724
G23
G201
NP29.2. G420
G224
G230
G163
G242
G623
G576 HCT116.1.1 G504
G262
G98
G364
G5
G28
G172
G490
G185 G248
G21
G363
G452
G85
G12
G96
G70 G86
G269
G216 G512
MIA.3.2.
G137
G336
G445
SW620.1.2
G58
G136
G491
G603 G573
G24
G46
G135
G447
SW480.1.2
G240
G487G320 G712
G734
G864
G643 G778
G816
G820
G572
G737
G813
G710
G849
G733
G860
G812
G634
G408
G659
G697 G735
G792
G626
G554 G751 TP440.g3ex
TP1.325.g
TP1.225.g
TP240.g
G174
G331ASPC1.1. G209
G273
G1 MIA.3.4.
G495
G477 G370
G247
G90 G344
G80
G441
G546 G621
G623 G848
G781
G683
G711
G764
G678 TP540.g2ex

0.00
G685 G34
G522
G557
G547
G442 G309
G68 G56
G290
G186
G283
G219
G4 SW620.2.2
G200
G438
G218
MIA.1.
G116
G88
G42 G303
MIA.3.3.
G228
G505
G298
G515
G251
G49 G496
G359
SW620.1.1
HT29.3.2 G654
G575
G450
G175
G349
G446
G409
SW480.1.3
G439
G101 G779
G830
G142G31
G500
G645
G539G827
G534G850
G673
G682
G852
G647 G728
G780
G825 TP1.125.g
G192G194 HCT116.2
G236
G517 G74 G646
G436
G304
G326 G616
G198
G736 G769
0

G345G72
G443G152 G44
G217
G151
G272G3
G244
G412
SW480.2.2
G124 G293 G597
G503
G329G614
G542
G301 G578
G606 G686
G16
G692
−0.1

G422 G92
G212 G650
G869
G596G460
G629G666
G691 TP540.g3ex
−10

G432
G22
G403 SW620.2.1 G113
G223
HT29.4
G67
G60
G282
SW620.1.3
G203
G143
G51
G139 G94
G466
G281G115 G544
G582
G295
G519
G514 G23
G638
G381
CAPAN2.3.2. G82
G399
G396G456 G664
G602
G840 G176
G696
G858
G742G688
G838
G392
Bx.PC3.4.2. G671
G690
G535 G313
G220
G128
G542 G229
SW480.2.1 G210
G467
G189
G99 G374
G141
G133
G55 G297
G83
G310 G108
G400
G190
G227
CAPAN2.3.3.
G587G641
G208
G360
G50 G538
G662
G618
G524G562
NP29.2.
G741
G551
G541
G569
G526
G660
G635
G574
G265
G570
G545
G790
G148
G509
G870
G785 G672
G663
G684
G675
G676
G66
G636
G533 G753
G529
G679
G566
Bx.PC3.1. TP3.225.g
G525 G81 CAPAN2.3.4.
HT29.3.1 G307
G104
G40 G2
G178
G156 G294
G300
G144
G377
G237
G323
G226
G315 G111
G215G383 G568
G242 G521
G639 G147
G6
G234 G687
G694
Bx.PC3.2.
G17 G689
G669
G559
G561 TP3.325.g
TP3.125.g
NP29.1.
G169 G444
G87
G152
G205
G47G19
CAPAN2.2.
G206
PANC1.2.
G231G302 G617
CAPAN1.3.2.
G213 G516G52
G393
G432 G318
G330
G154
G292
G594
G138
G146
G631
G576G78
G593
G394G680
G530
G343
G740G681
G693
G177
G527G521
G177 CAPAN1.1.
G378
G286 G347
G313
CAPAN1.3.3.
G431
Bx.PC3.4.1.
G276 G48 G543
G613
G640 G520
CAPAN1.1. G64
G15
G482G8G204
G222
G324
CAPAN1.3.4.
G352
G121
G25
G429
G35
Bx.PC3.5.
G397
G340
G195
G316
G125
G581
G20
CAPAN1.2.
G199
G224
G33
G557
G433
G430
G453 G564
G765
G685
G201
G745
G181
G674G9
G768
G547G695
G196 G14
G61
G126 G221
G158G423
NP29.1.
G428 G191G351
G36
G95
G106
G472 G661
G77
G160
G354 G43
G642
−10

CAPAN2.2.
CAPAN1.2. PANC1.1.G134
G164
G193
G114G84
G73 G120
G62
G471
G317
G131
G476G41
G624 G555
G540
G180G565
G162
G727
G437
G558
G553 G667 −0.05
G59
G153
CAPAN2.1. G57
G435
G69G105 G420
G325
G102 G404
G345
G422
G10 G18 TP225.g
G549
G443
ASPC1.2bis.
G202 G72 G535
G552
G192
G155
G532
G461
−0.2

−20

CAPAN2.1. G54
G197G246
G425
G245
G65G22G45
G68 G112
G625
G34
G560
G27
G427 G527
G522
G550
G165
G531
G528
CAPAN2.3.4.
CAPAN2.3.3. ASPC1.2.
G183 G149
G331
G421G123
G459
G296 G670
G145
G170CAPAN2.3.2.
CAPAN1.3.4.
CAPAN1.3.2.
CAPAN1.3.3. G426 G513
ASPC1.1.
G130
G169 G71
G109
G403
G26
G103
G455 G525
G163
G81 G442
G170
G196
G110
G159 G53
G309
G173
G225
G128G166 TP640.g
G129
−20

G194
G220 G230
−0.10

G531 G174

−0.2 −0.1 0.0 0.1 0.2 −20 −10 0 10 20 30

Comp.1 PC1

F IG . 3.10 – Pancréas : différentes options de l’ACP. a : gènes X tissus centrés. b : gènes centrés X
tissus centrés. c : gènes centrés X tissus centrés réduits. d : tissus X gènes centrés réduits.
50 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

−0.2 −0.1 0.0 0.1 0.2 0.3

0.3
20

K562.1A1

0.2
K562.2A3
K562.2A4
K562.2A2
K562.1A2
G571 G719
G707
10

G184 G846

0.1
G807
G198 PancNorm2A
CACO2.2
CACO2.1.2 PancNorm2B
CACO2.1.1 SW480.1.3
SW480.1.2
G599
G833 PancNorm1
SW620.1.2 G135
G592
G305
PC2

SW480.2.2 G622
G254 G651
G589
G698
G802
G63
G291 G563
G577
G418
G382
G274
G469
G414 G706
G649
G598
G258 G668 TP440.g2ex
SW480.2.1
MIA.1.
SW620.1.1G406
G484G416
G13G275
G355
G369
G387
G398
G648
MIA.3.3.
G256
G407 G793
G76
G401G721
G567
G454
G239
G818
G390
G289 G839
G819
G372
G132
G182
MIA.3.2.
G485 G841
G810
G270 G697
G861
G794
G586
G620G801
G799
G536
G337
G284
G445G715
G788
G789
G600 G718
G678
G562
HCT116.1.2
SW620.1.3 G288
MIA.3.4.
G260
G252
G207
G75
G434
G86
SW620.2.2
G171
G385
G483
G474
G118
G188
G379
G358
G91
G366 G652
G101
G279
G157
G508
G410
G486
G380
G285
G264
G511 G138
G632
G341G167
G845
G868
G266
G507
G493
G579
G306
G608
G512
G478 G750
G806
G714
G804
G665
G699
G605
G462
G255
G335
G376
G375
G548
G705
G353
G46
G411
G595
G584
G658
G609G730
G6
G773
G762
G815
G744
G591
G523
G590
G709
G619
G771
G615
G470 G867
G604
G752
G107
G506G732
G779
G829
G739
G770 G569
G673
G847
G628 G683
G803
G843
G713 G671 TP440.g3ex
TP3.225.g
HCT116.1.1 G122
G7
G79
G39 G489
G29
G11
G371
G67
G140
G219 G334
G384
G465
G356
G38
G37
G89
G327
G473
G280
G119 G368
G419
G373
G501
G357
G211
G127
G90
G388
G463 G93
G311
G250
G21
G492
G263G233
G70
G504
G262 G568
G766
G726
G253
G787
G320
G700
G809
G332 G748
G125
G800
G676
G720
G644
G580
G610
G831
G480
G314 G704
G851
G585
G386 G871
G238
G603 G832
G795
G475
G836
G777
G395
G100
G365 G774
G754
G746
G702
G863
G862
G725
G24
G643
G657
G510
G497
G136
G348
G277
G646
G797
G575
G637
G612
G791
G756
G537
G417
G241
G308 G855
G583
G304
G370
G451
G502
G232 G769
G703
G660
G607
G235
G268
G338
G505
G117G261
G518G328
G303 G743
G805
G653
G763
G821
G655
G758
G650
G844
G654
G498 G724
G828
G865
G823
G588
G782
G825
G853
G761
G749
G864
G708
G808
G572
G817
G674
G629
G834
G449
G515 G852
G408 G666
G677
G860
G835
G772
G796
G858
G712
G499
G342
G573G711
G798
G601
G722
G556
G826
G494 G734
G733
G710
G664
G757
G634
G811
G717 G16
G767
G857 G692
G696
G737
G755
G778
G824G759
G645
G66
G842
G776 G688
G691 TP3.125.g
TP240.g
TP540.g2ex
G176 TP540.g3ex
TP3.325.g
TP1.225.g
TP1.325.g
HCT116.2 G479G259
G124G339
G363
G271
G150
G267
G209
G468 G30
G346
G389
G299 G775
G729
G814
G701
G647
G735
G822
G633
G854
G783
G760
G731
G792
G827
G362

0.0
SW620.2.1 G185
G257G458
G415
G424
G367G248
G350
G172
G413
G28
G290
G60
G312
G405
G161 G5
G223
G319
G94
G278
G412
G402
G490
G42
G214 G837
G627
G142
G450
G249
G297
G32
G464
G477
G1 G293
G216
G630
G336
G359
G295
G322
G282
G97
G315
G243
G391
G251
G228
G151
G98
G364 G48
G190
G213
G92 G849
G602
G491
G361
G618
G866
G786
G848
G859
G146
G31
G80
G487
G723
G545
G747
G326
G812
G813
G330
G751
G816
G820
G481
G611
G738
G154
G457
G333
G381
G534
G626
G287
G321 G716
G659
G587
G519
G133 G728
G740
G82
G785
G329
G269
G113 G784
G614
G514
G281
G495 G656
G77
G240
G496
G500
G838
G456
G621
G460 G686
G679
G781
G662
G682
G669
G566
G672
G850
G574
G578 G681
G663
G564
G764
G533
G638 G684
G675
G780
G736G694 G690 TP1.125.g
0

G186
G273
G438
G4
G116
G272
G88 G12
G44
G210
G99
G283
PANC1.2. G85
G200
G56
G187
G218
G206
G139
G104
G51
G307
G488
G323 G318
G441
G400
G360
G554
G199
G247
G55 G742
G349
G448
G639
G446
G191G856
G582
G244
G344
G158 G181
G179
G606
G115G392
G593
G409
G436
G452
G617
G83
G222
G212 G870
G503
G383
G298
G466
G217
G168 G753
G520
G551
G581
G
G374
G467
G428
G49
G178G61
G189 453
G147
G343
G641
G394
G631
G62
G74
G47 G430
G347
G594
G596
G226G33
G538
G265
G635
G208
G301
G561
G447
G396
G642
G667
G433
G234
G148
G399 G570
G680
G526
G616
G175G869
G529
G830
G597 G693
G565
G539 G687
G229 G3
G96
G143
G40
G64
G87 G120
G237
G310
G517
G2G108
G440
G435
G156
G444
G15
G286 G741
G790
G636
G543
G50
G294
G439
G472
G292
G45
G316
G149
G227
G300
G58
G35 G23
G404
G546
G541
G840
G393
G84
G144G509
G377
G203G131
G10
G423
G126 G36
G106 G9
G555G689
G18
G43G695
G160
G78
G544
G524
G102
G540
Bx.PC3.4.2.
G482 G613
G397
G111
G137
G640
G180
PANC1.1. G205
G236
G8 G302
G231
G141
G215
G276
G59
G324
G134
G121
G429
HT29.4G378 G69G623
G768
G661
G624
G317
G559
G558
G516
G352
G204G745
G221
G431
G114
G425G625
G461
G476
G153 G532
G471
G20
G52G670
G27
G242
G340 G17
G727
G765
HT29.3.2 G25G105
G513
G73
G164
G19
G57
G202
G193 G165
G459
G14G552
G112
G41G162
NP29.2.
G549
G427
G123
G354
G455
G325
G553
G103
G195 G155
G542
G437
G576 G530
G224
G54 G528
G421
G109
G95
G351
G183G560
G53
G432G557
G201G685
Bx.PC3.1.
G420
G110
G71
G145 TP225.g
Bx.PC3.4.1.
G152 G296
G245
G197 G26
G173
G225 G547
G550
Bx.PC3.2.
G345G522
G521
HT29.3.1 G166
G130
G331
G246
G159
G426 G422
G22G192
G72G403
G34 G177 TP640.g
−0.1
Bx.PC3.5.G65 G163
ASPC1.2bis.G230
G313
CAPAN2.3.2.
G535
G309
ASPC1.2. G129
CAPAN2.2.
NP29.1.
G68
G443
−10

CAPAN1.1.
CAPAN1.3.2.
CAPAN2.3.4.
CAPAN2.3.3.
ASPC1.1.G174
G220
CAPAN1.2.G525
G442 G527
CAPAN1.3.3. G81
G194
G128
CAPAN1.3.4.
G169
CAPAN2.1. G196
−0.2

G170
G531

−10 0 10 20

PC1

F IG . 3.11 – Pancréas : ACP du tableau mesurant les expressions de 871 gènes (variables centrées)
sur 65 échantillons biologiques.
8. DONNÉES D’EXPRESSION 51

20
10
0
−10

PC1 PC7 PC13 PC20 PC27 PC34 PC41 PC48 PC55 PC62

F IG . 3.12 – Pancréas : Distribution des composantes principales dans l’ordre décroissant de leur
variance. Quatre composantes ou dimensions semblent pertinentes à retenir sur les 65 initiales
(pas 871) qui est le rang de la matrice diagonalisée.
52 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

−0.2 0.0 0.2 0.4

15

0.4
G531
G170
10

G196
G169
G128
G194
CAPAN2.1. G525 G527

0.2
CAPAN1.3.4.
CAPAN1.3.3.
G65 G313
CAPAN1.2.
ASPC1.1.
CAPAN2.3.3.
CAPAN2.3.4. G177
CAPAN1.3.2.
5

CAPAN1.1.
ASPC1.2.
NP29.1.
CAPAN2.2.
CAPAN2.3.2.
ASPC1.2bis.
G152 Bx.PC3.5. G521
TP640.g
PC2

HT29.3.1 G685
Bx.PC3.2.
Bx.PC3.4.1. TP225.g
Bx.PC3.1.
HT29.3.2
HT29.4
PANC1.1. NP29.2.
Bx.PC3.4.2.
G23 G695
G88
G272
G116

0.0
G273 G191
PANC1.2.
G199 TP1.125.g
G570
TP540.g3ex
0

G185 SW620.2.1
HCT116.2
G39HCT116.1.1 TP1.325.g
TP1.225.gG669G691G690
TP3.325.g
TP540.g2ex
TP240.g
TP3.125.g
G674
G122 SW620.2.2
SW620.1.3
HCT116.1.2
MIA.3.4. G125 G692
TP3.225.g
TP440.g3ex G176
G688
SW620.1.1
MIA.3.3.
MIA.3.2. G138
MIA.1.
SW480.2.1 G569
TP440.g2exG671
G484 SW480.2.2
SW620.1.2 G562
G718 G678
SW480.1.3
SW480.1.2 PancNorm1
CACO2.1.1
CACO2.1.2
CACO2.2 PancNorm2B
PancNorm2A
−5

−0.2
G198
G184
G707
K562.1A2
K562.2A2
K562.2A4
K562.2A3
G571 G719
−10

K562.1A1

−10 −5 0 5 10 15

PC1

F IG . 3.13 – Pancréas : Représentation dans le premier plan des 46 gènes contribuant le plus à la
définition des 4 premiers axes.

Bien évidemment, cette dernière distinction est la plus intéressante et ouvre des pistes de re-
cherches ciblées sur ces gènes. Néanmoins, l’introduction des lignées cellulaire semble apporter
une contribuation intéressante sous la forme d’une “calibration” des anbalyses.
D’autres approches sont possibles qu’il serait intéressant de comparer pour apporter ainsi plus
de ”confiance” dans l’analyse des résultats. Des tests liés à un modèle d’analyse de variance plus
ou moins sophistiqué (à effet aléatoire) ou la recherche d’un modèle susceptible de discriminer
au mieux certains facteurs. Le choix des gènes s’apparente, dans ce dernier cas, à un choix de
variables en régression ; les forêts aléatoires de Breiman (2001) ou d’autres méthodes issues de la
théorie de l’apprentissage (cf. Besse, 2003 pour une introduction) semblent apporter des réponses
intéressantes. Cela sort du strict cadre exploratoire de ce cours.

9 Exemple : nutrition chez la souris


Nous donnons pour cet exemple le graphique des premières valeurs propres (figure 3.14) qui
conduit à considérer trois dimensions représentant environ les deux tiers de l’inertie globale.
Les figures 3.15 et 3.16 donnent la représentation des souris et celle des gènes, d’abord
9. EXEMPLE : NUTRITION CHEZ LA SOURIS 53

0.4
0.3
Variances

0.2
0.1
0.0
F IG . 3.14 – Souris : éboulis des dix premières valeurs propres de l’ACP.

dans le premier plan principal, ensuite dans celui correspondant aux dimensions 1 et 3. Dans
le cadre de cette ACP, il est cohérent de rechercher quels sont les 25% des gènes contribuant
le plus à la définition de l’espace propre à trois dimensions jugé pertinent. Avec cette sélection,
la représentation des variables ainsi restreinte à 30 gènes est plus facilement lisible sur les fi-
gures 3.15 et 3.16. Toutefois, dans le cas d’une puce pangénomique, avec potentiellement plusieurs
milliers de gènes, une telle représentation ne serait pas exploitable.
Le premier plan (Fig. 3.15) doit être interprété globalement puisque sa première bissectrice
sépare exactement les souris WT des souris PPAR. Les gènes à coordonnées négatives sur l’axe 1 et
positives sur l’axe 2 sont sensiblement plus exprimés chez les souris WT, en particulier CYP3A11,
CYP4A10, CYP4A14, THIOL, PMDCI, GSTpi2, L.FABP et FAS. À l’inverse, les gènes à forte
coordonnée négative sur l’axe 2 s’expriment davantage chez les souris PPAR, par exemple, S14,
PAL et CAR1. Ceci est en partie connu des biologistes (Aoyama et al., 1998).
Le phénomène le plus marquant concernant l’axe 3 (Fig. 3.16) est l’opposition, chez les souris
WT, entre les régimes dha (1), dont les coordonnées sont toutes positives, et efad (2), dont
les coordonnées sont toutes négatives. Les gènes les plus exprimés dans le premier cas (régime
dha chez les souris WT) sont CYP3A11, CYP4A10, CYP4A14, CYP2c29 et CAR1 ; dans le
second cas (régime efad chez les mêmes souris), il s’agit des gènes FAS, S14, Lpin et Lpin1.
Parmi ces régulations, on note une opposition entre les CYP4A, connus pour être impliqués dans
le catabolisme des acides gras, et les gènes FAS et S14 impliqués eux dans la synthèse des lipides.
Par ailleurs, la régulation de CYP3A11 par le DHA a déjà été décrite dans Berger et al. (2002).
54 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

1.5

CYP3A11
1.0

0.2

3 5 4 PMDCI GSTpi2
31 3 THIOL
CYP4A10
1 CYP4A14
4 L.FABP
0.5

2 G6Pase
GSTmu
5 FAS mHMGCoAS
1 AOX
4 1 PECI
Dimension 2

Dimension 2

0.0

GK
BIEN
5 5
1 1 CYP2c29
LPK
2 4
0.0

3 54 HMGCoAred
5 2 1 cHMGCoASMCAD
1 5 ACOTH
2 4 3 NGFiB
Lpin1
ACC2
SHP1
3 5 4
2 Lpin
TRa CAR1
2 S14
−0.5

PAL
−0.2

3
3
2
−1.0

4 2
−0.4
−1.5

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 −0.4 −0.2 0.0 0.2

Dimension 1 Dimension 1

F IG . 3.15 – Représentations de l’ACP sur le premier plan principal. À gauche : individus-souris


identifiés par leur génotype (WT en gras, PPAR en italique) et leur régime (1-dha, 2-efad, 3-lin
, 4-ref, 5-tsol). À droite : 30 variables-gènes qui contribuent le plus aux trois premiers axes.
9. EXEMPLE : NUTRITION CHEZ LA SOURIS 55

1.5

CYP4A14
1.0

0.2
CYP4A10
1 1 CYP3A11 CYP2c29 CAR1
1 MCAD
ACOTH
0.5

PECI GSTpi2
mHMGCoAS SHP1
3 PMDCIGSTmu TRa
BIEN
AOX
3 5 5 G6PaseNGFiB
0.0

55 3
Dimension 3

Dimension 3

1 5 PAL
3 2 314 2 THIOL
3 L.FABP
2 3
0.0

4 5 2 1
4 4 1 LPK
ACC2
5 1 cHMGCoAS
HMGCoAred
4 4 GK
35 4
−0.2
−0.5

2 Lpin1
Lpin
2 4
2
S14
−1.0

2
−0.4
−1.5

FAS

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 −0.4 −0.2 0.0 0.2

Dimension 1 Dimension 1

F IG . 3.16 – Représentations de l’ACP sur le plan composé des axes principaux 1 et 3 avec les
mêmes conventions que pour la figure 3.15.
56 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES
Chapitre 4
Analyse Factorielle Discriminante

1 Introduction
1.1 Données
Les données sont constituées de
• p variables quantitatives X 1 , . . . , X p jouant le rôle de variables explicatives comme dans le
modèle linéaire,
• une variable qualitative T , à m modalités {T1 , . . . , Tm }, jouant le rôle de variable à expli-
quer.
La situation est analogue à celle de la régression linéaire multiple mais, comme la variable à
expliquer est qualitative, on aboutit à une méthode très différente. Les variables sont observées sur
l’ensemble Ω des n individus affectés des poids wi > 0, ( ni=1 wi = 1), et l’on pose
P

D = diag(wi ; i = 1, . . . , n).

La variable T engendre une partition {Ω` ; ` = 1, . . . , m} de l’ensemble Ω des individus dont


chaque élément est d’effectif n` .
On note T (n × m) la matrice des indicatrices des modalités de la variable T ; son terme
général est 
` ` 1 si T (ωi ) = T`
ti = t (ωi ) = .
0 sinon
En posant X
w` = wi ,
i∈Ω`
il vient
D = T0 DT = diag(w1 , . . . , wm ).

1.2 Objectifs
Deux techniques cohabitent sous la même appellation d’analyse discriminante :
descriptive : cette méthode recherche, parmi toutes les ACP possibles sur les variables X j , celle
dont les représentations graphiques des individus discriminent “au mieux” les m classes
engendrées par la variable T (e.g. recherche de facteurs de risque en statistique médicale) ;
décisionnelle : connaissant, pour un individu donné, les valeurs des Y j mais pas la modalité de
T , cette méthode consiste à affecter cet individu à une modalité (e.g. reconnaissance de
formes). Cette méthode est décrite dans la partie modélisation de ce cours.

57
58 CHAPITRE 4. ANALYSE FACTORIELLE DISCRIMINANTE

Remarque. — Lorsque le nombre et les caractéristiques des classes sont connues, il s’agit d’une
discrimination ; sinon, on parle de classification ou encore, avec des hypothèses sur les distribu-
tions, de reconnaissance de mélanges.

1.3 Notations
On note X la matrice (n × p) des données quantitatives, G la matrice (m × p) des barycentres
des classes :
g1 0
 
1 X
G = D T0 DX =  ...  où g` =
−1
wi x i ,
 
w `
gm 0 i∈Ω`

et Xe la matrice (n × p) dont la ligne i est le barycentre g` de la classe Ω` à laquelle appartient


l’individu i :
Xe = TG = PG ;
−1
P = TD T0 D est la matrice de projection D-orthogonale sur le sous-espace engendré par les
indicatrices de T ; c’est encore l’espérance conditionnelle sachant T .
Deux matrices “centrées” sont définies de sorte que X se décompose en

X = Xr + Xe

avec
Xr = X − Xe et Xe = Xe − 1n x 0 .
On note également G la matrice centrée des barycentres :

G = G − 1m x 0 .

On appelle alors variance intraclasse (within) ou résiduelle :


m X
X
Sr = Xr 0 DXr = wi (xi − g` )(xi − g` )0 ,
`=1 i∈Ω`

et variance interclasse (between) ou expliquée :


m
0 0 X
Se = G DG = X e DX e = w` (g` − x)(g` − x)0 .
`=1

P ROPOSITION 4.1. — La matrice des covariances se décompose en

S = Se + Sr .

2 Définition
2.1 Modèle
Dans l’espace des individus, le principe consiste à projeter les individus dans une direction
permettant de mettre en évidence les groupes. À cette fin, Il faut privilégier la variance interclasse
au détriment de la variance intraclasse considérée comme due au bruit.
3. RÉALISATION DE L’AFD 59

En ACP, pour chaque effet zi à estimer, on ne dispose que d’une observation xi ; dans le cas
d’une même classe Ω` sont les observations répétées n`
de l’AFD on considère que les éléments P
fois du même effet z` pondéré par w` = i∈Ω` wi . Le modèle devient donc :

{xi ; i = 1, . . . , n}, n vecteurs 


indépendants de E,
E(εi ) = 0, var(εi ) = Γ,
∀`, ∀i ∈ Ω` , xi = z` + εi avec
Γ régulière et inconnue, (4.1)
∃Aq , sous-espace affine de de dimension q de E tel que
∀`, z` ∈ Aq , (q < min(p, m − 1)).

Remarque. — Soit z = m
P
`=1 w` z` . Le modèle entraı̂ne que z ∈ Aq . Soit Eq le sous-espace de
dimension q de E tel que Aq = z + Eq . Les paramètres à estimer sont Eq et {z` ; ` = 1, . . . , m} ;
w` est un paramètre de nuisance qui ne sera pas considéré.

2.2 Estimation
L’estimation par les moindres carrés s’écrit ainsi :
 
Xm X 
min wi kxi − z` k2M ; dim(Eq ) = q, z` − z ∈ Eq .
Eq ,z`  
`=1 i∈Ω`

Comme on a
m X
X m X
X m
X
wi kxi − z` k2M = wi kxi − g` k2M + w` kg` − z` k2M ,
`=1 i∈Ω` `=1 i∈Ω` `=1

on est conduit à résoudre :


(m )
X 2
min w` kg` − z` kM ; dim(Eq ) = q, z` − z ∈ Eq .
Eq ,z`
`=1

La covariance σ 2 Γ du modèle (4.1) étant inconnue, il faut l’estimée. Ce modèle stipule que
l’ensemble des observations d’une même classe Ωl suit une loi (inconnue) de moyenne ze ll et
de variance Γ. Dans ce cas particulier, la matrice de covariances intraclasse ou matrice des co-
variances résiduelles empiriques Sr fournit donc une estimation “optimale” de la métrique de
référence :
M=Γ b −1 = S−1
r

P ROPOSITION 4.2. — L’estimation des paramètres Eq et z` du modèle 4.1 est obtenue par l’ACP
de (G, S−1
r , D). C’est l’Analyse Factorielle Discriminante (AFD) de (X|T, D) .

3 Réalisation de l’AFD
Les expressions matricielles définissant les représentations graphiques et les aides à l’in-
terprétation découlent de celles de l’ACP.
60 CHAPITRE 4. ANALYSE FACTORIELLE DISCRIMINANTE

3.1 Matrice à diagonaliser


L’ACP de (G, S−1 −1
r , D) conduit à l’analyse spectrale de la matrice positive Sr -symétrique :

G 0 D GS−1 −1
r = Se Sr .

Comme S−1 r est régulière, cette matrice est de même rang que Se et donc de même rang que G
qui est de dimension (m × p). Les données étant centrées lors de l’analyse, le rang de la matrice
à diagonaliser est
h = rang(Se S−1
r ) ≤ inf(m − 1, p),

qui vaut en général m − 1 c’est-à-dire le nombre de classes moins un.


On note λ1 ≥ · · · ≥ λh > 0 les valeurs propres de Se S−1
r et v1 , . . . , vh les vecteurs
−1
propresSr -orthonormés associés. On pose

Λ = diag(λ1 , . . . , λh ) et V = [v1 , . . . , vh ].

Les vecteurs vk sont appelés vecteurs discriminants et les sous-espaces vectoriels de dimension 1
qu’ils engendrent dans IRp les axes discriminants.

3.2 Représentation des individus


L’espace des individus est (IRp , b. c., S−1
r ). Une représentation simultanée des individus xi
et des barycentres g` des classes par rapport aux mêmes axes discriminants est obtenue dans cet
espace au moyen des coordonnées :

C = XS−1
r V pour les individus et
−1
C = GS−1
r V =D T0 DC pour les barycentres.

Les individus initiaux sont projetés comme des individus supplémentaires dans le système des
axes discriminants. Comme en ACP, on peut calculer des cosinus carrés pour préciser la qualité de
représentation de chaque individu.
Il est utile de différencier graphiquement la classe de chaque individu afin de pouvoir apprécier
visuellement la qualité de la discrimination.

3.3 Représentation des variables


L’espace des variables est (IRm , b. c., D). Chaque variable X j est représenté par un vecteur
dont les coordonnées dans le système des axes factoriels est une ligne de la matrice VΛ1/2 .

3.4 Interprétations
Les interprétations usuelles : la norme est un écart-type, un cosinus d’angle est un coefficient
de corrélation, doivent être faites en termes d’écarts-types et de corrélations expliquées par la
partition.
La représentation des variables est utilisée pour interprétée les axes en fonction des variables
initiales conjointement avec la matrice des corrélations expliquées variables×facteurs : Σ−1 e VΛ
1/2
.
−1 j
La matrice Σe étant la matrice diagonale des écarts-types expliqués σe c’est-à-dire des racines
carrées des éléments diagonaux de la matrice Se .
Le point pratique essentiel est de savoir si la représentation des individus-barycentres et des
individus initiaux permet de faire une bonne discrimination entre les classes définies par la variable
4. VARIANTES DE L’AFD 61

T . Si ce n’est pas le cas, l’AFD ne sert à rien, les X j n’expliquent pas T . Dans le cas favorable,
le graphique des individus permet d’interpréter la discrimination en fonction des axes et, celui des
variables, les axes en fonction des variables initiales. La synthèse des deux permet l’interprétation
de T selon les X j .

4 Variantes de l’AFD
4.1 Individus de mêmes poids
L’AFD peut être définie de différentes façon. Dans la littérature anglo-saxonne, et donc dans
la version standard d’AFD du logiciel SAS (procédure candisc), ce sont les estimations sans
biais des matrices de variances “intra” (within) et “inter” (between) qui sont considérées dans le
cas d’individus de mêmes poids 1/n.
Dans ce cas particulier,
1 1
D= In et D = diag(n1 , . . . , nm ) où n` = card(Ω` )
n n
et les matrices de covariances empiriques ont alors pour termes généraux :
n
1X j
(S)kj = (xi − xj )(xki − xk ),
n
i=1
m
1X
(Se )kj = n` (g`j − xj )(g`k − xk ),
n
`=1
m
1XX j
(Sr )kj = (xi − g`j )(xki − g`k ).
n
`=1 i∈Ω`

Du point de vue de le Statistique inférentielle, on sait que les quantités calculées ci-dessus ont
respectivement (n − 1), (m − 1) et (n − m) degrés de liberté. En conséquence, ce point de vue
est obtenu en remplaçant dans les calculs
n
S par S∗ = S,
n−1
n
Se par S∗e = B = Se ,
m−1
n
Sr par S∗r = W = Sr .
n−m

Les résultats numériques de l’AFD se trouvent alors modifiés de la façon suivante :


– matrice à diagonaliser : S∗e S∗−1
r = n−m −1
m−1 Se Sr ,
– valeurs propres : Λ∗ = n−m
m−1 Λ,
q
– vecteurs propres : V∗ = n
n−m V,
q
∗ n−m
– représentation des barycentres : C = n C,
q
– représentation des variables : V∗ Λ∗1/2 = n
m−1 VΛ
1/2
,
– corrélations variables-facteurs : Σ∗−1 ∗ ∗1/2 =
e V Λ Σ−1
e VΛ
1/2
.
Ainsi, les représentations graphiques sont identiques à un facteur d’échelle près tandis que les
parts de variance expliquée et les corrélations variables-facteurs sont inchangées.
62 CHAPITRE 4. ANALYSE FACTORIELLE DISCRIMINANTE

4.2 Métrique de Mahalanobis


L’AFD est souvent introduite dans la littérature francophone comme un cas particulier d’Ana-
lyse Canonique entre un ensemble de p variables quantitatives et un ensemble de m variables indi-
catrices des modalités de T . La proposition suivante établit les relations entre les deux approches :

P ROPOSITION 4.3. — l’ACP de (G, S−1 r , D) conduit aux mêmes vecteurs principaux que l’ACP
de (G, S−1 , D). Cette dernière est l’ACP des barycentres des classes lorsque l’espace des in-
dividus est muni de la métrique dite de Mahalanobis M = S−1 et l’espace des variables de la
métrique des poids des classes D.

Les résultats numériques de l’AFD se trouvent alors modifiés de la façon suivante :

– matrice à diagonaliser : Se S−1 ,


– valeurs propres : Λ(I + Λ)−1 ,
– vecteurs propres : V(I + Λ)1/2 ,
– représentation des barycentres : C(I + Λ)−1/2 ,
– représentation des variables : VΛ1/2 ,
– corrélations variables-facteurs : Σ−1
e VΛ
1/2
.

Les représentations graphiques des individus (voir ci-dessus) ne diffèrent alors que d’une ho-
mothétie et conduisent à des interprétations identiques, les corrélations variables-facteurs ainsi que
les représentations des variables sont inchangées.

5 Exemples
Ce chapitre est illustré par une comparaison des sorties graphiques issues d’une ACP et d’une
AFD. Les données décrivent trois classes d’insectes sur lesquels ont été réalisées 6 mesures ana-
tomiques. On cherche à savoir si ces mesures permettent de retrouver la typologie de ces insectes.
Ce jeu de données est très “scolaire” mais il montre bien le rôle joué par la métrique en AFD qui
a tendance à rendre les classes plus sphériques autour de leur barycentre.
Cette technique n’est pas très adaptée aux problèmes liés aux données d’expression. En effet,
le nombre de paramètre discriminants y très important et conduit le plus souvent à un problème
d’indétermination. Plus précisément, avec le nombre de variables/gènes présents, il est toujours
possible de trouver un ou des axes discriminants différents types d’échantillons biologiques. Le
problème est en fait mal posé (plus d’inconnues que d’équations). Une sélection drastique du
nombre de gènes préalable à l’AFD doit donc être réalisée ; elle a été ici conduite à la l’aide de la
procédure discrim de SAS qui recherche avec un algorithme de type backward les variables
les plus discriminantes. Cela conduit aux résultats de la figure 5.
5. EXEMPLES 63

A 0
x
e
2
-1

-2

-3

-4

-4 -3 -2 -1 0 1 2 3 4
Axe 1

F IG . 4.1 – Insectes : premier plan factoriel de l’ACP.

2
A
x 1
e
2 0

-1

-2

-3

-4
-8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7
Axe 1

F IG . 4.2 – Insectes : premier plan factoriel de l’AFD.


64 CHAPITRE 4. ANALYSE FACTORIELLE DISCRIMINANTE

F IG . 4.3 – Souris : premier plan factoriel de l’AFD. Représentation des gènes participant le plus
à la discrimination des régimes des souris sauvages.

F IG . 4.4 – Souris : premier plan factoriel de l’AFD. Représentation des souris sauvages en fonc-
tion de leur classe de régime.
Chapitre 5
Positionnement multidimensionnel

1 Introduction
Considérons n individus. Contrairement aux chapitres précédents, on ne connaı̂t pas les obser-
vations de p variables sur ces n individus mais dans certains cas les n(n − 1)/2 valeurs d’un in-
dice (de distance, dissimilarité ou dissemblance) observées ou construites pour chacun des couples
d’individus. Ces informations sont contenues dans une matrice (n × n) D. L’objectif du position-
nement multidimensionnel (multidimensional scaling, ou MDS, ou ACP d’un tableau de distances)
est de construire, à partir de cette matrice, une représentation euclidienne des individus dans un
espace de dimension réduite q qui approche au “mieux” les indices observés. Autrement dit, vi-
suellement le graphique obtenu représente en dimension (en général) 2 la meilleure approximation
des distances observées entre les individus pouvant être des gènes ou des échantillons biologiques.
Le principal intérêt de cette technique est donc de pouvoir observer graphiquement le même
ensemble de données à travers différentes ”optiques” et même d’en comparer les représentations ;
chaque optique est définie par la façon dont on mesure des distances ou dissimilarités entre les
objets.
Citons trois exemples typiques dans le cas spécifique de gènes décrits par leurs transcrits :
• chaque gène est un vecteur dans un espace vectoriel muni de la distance euclidienne clas-
sique (racine de la somme des carrés des écarts). Le MDS ou ACP du tableau des distances
qui en découle est équivalent à l’ACP dans laquelle les gènes sont les individus (les lignes).
• On mesure la dissimilarité entre deux gènes X j et X k par 1−cor(X j , X k ) faisant intervenir
la corrélation linéaire de Pearson ou celle robuste sur les rangs de Spearman. Les gènes
co-régulés (fortement positivement corrélés) sont très proches, les gènes associés dans un
mécanisme d’inhibition (fortement négativement p corrélés) seront aussi proches.
• On mesure la distance entre deux gènes par 1 − cor(X j , X k )2 . Elle vérifie, dans ce cas,
les propriétés qui en font une distance euclidienne. Co-régulés ou inhibés, les gènes corrélés
positivement ou négativement sont proches dans les représentations graphiques.
Exemple élémentaire : Considérons un tableau contenant les distances kilométriques par route
(Source : IGN) entre 47 grandes villes en France et dans les pays limitrophes. Toutes ces valeurs
sont rangées dans le triangle inférieur d’une matrice carrée avec des 0 sur la diagonale. La structure
du réseau routier, le relief, font que cette matrice de distances n’est pas euclidienne qui, dans ce
cas, correspondrait à la distance à ”vol d’oiseau”. Mais, comme le montre le graphique issu d’un
positionnement multidimensionnel, l’approximation euclidienne en est très proche.
Le MDS étant encore une technique factorielle, comme en ACP il est nécessaire de déterminer
le nombre de dimensions fixant la taille de l’espace de représentation. Le graphique représentant

65
66 CHAPITRE 5. POSITIONNEMENT MULTIDIMENSIONNEL

hend
bres
lour
400

laba
bord roya
stma
ando toul nant renn

poit ange cher


200

limo lema caen


tour

perp leha
orle
roue
cp2

bour
clem
0

mont pari
boul
amie
cala
lill
troy
−200

mars lyon reim


gren dijo
nice brux
gene
besa
cham nanc
−400

metz
luxe
mulh
bale
stra

−800 −600 −400 −200 0 200 400

cp1

F IG . 5.1 – Villes : Positionnement de 47 villes à partir de la matrice de leurs distances ki-


lométriques.
2. DISTANCE, SIMILARITÉS 67

la décroissance des valeurs propres aide à ce choix.


Les preuves et développements théoriques sont omis dans cet exposé succinct, ils sont à cher-
cher dans la bibliographie. Voir par exemple Mardia et col. (1979).

2 Distance, similarités
Rappelons quelques propriétés et définitions élémentaires mais basiques à propos de la notion
de distance.

2.1 Définitions
D ÉFINITION 5.1. —
• Une matrice (n × n) D est appelée matrice de distance si elle est symétrique et si :

djj = 0 et ∀(j, k), j 6= k, dkj ≥ 0.

• Une matrice (n × n) C est appelée matrice de similarité si elle est symétrique et si

∀(j, k), ckj ≤ cjj .

Une matrice de similarité se transforme en matrice de distance par :

dkj = (cjj + ckk − 2ckj )−1/2 .

D ÉFINITION 5.2. — Une matrice de distance est dite euclidienne s’il existe une configuration de
vecteurs {x1 , . . . , xn } dans un espace vectoriel euclidien E de sorte que

2
dkj = hxj − xk , xj − xk i .

2
On note A la matrice issue de D de terme général dkj = −dkj /2 et H la matrice de centrage :

H = I − 110 D,

qui est la matrice de projection sur le sous-espace D-orthogonal au vecteur 1 dans l’espace eucli-
dien F des variables muni de la métrique des poids.

P ROPOSITION 5.3. —
• Soit D une matrice de distance et B la matrice obtenue par double centrage de la matrice
A issue de D :
B = HAH0 ,

alors D est une matrice euclidienne si et seulement si B est positive (toutes ses valeurs
propres sont positives ou nulles).
• Si la matrice de similarité C est positive alors la matrice de distance D déduite est eucli-
dienne.
68 CHAPITRE 5. POSITIONNEMENT MULTIDIMENSIONNEL

2.2 Distances entre variables


L’un des intérêts pratiques du positionnement multidimensionnel est d’aider à comprendre,
visualiser, les structures de liaison dans un grand ensemble de variables. On obtient ainsi des
indications pour guider le choix d’un sous-ensemble de variables, par exemple les plus liées à une
variable à expliquer. Cette approche nécessite la définition d’indices de similarité entre variables.
Beaucoup sont proposés dans la littérature et concrètement utilisés pour les données d’expression.
Les gènes étant considérés comme des variables, on s’intéresse alors à différents critères basés sur
la corrélation linéaire usuelle de Pearson ou robuste (non paramétrique de Spearman).
On note X et Y deux variables statistiques dont les observations sur les mêmes n individus
sont rangées dans les vecteurs centrés x et y de l’espace euclidien F muni de la métrique des
poids D. On vérifie facilement :

cov(X, Y ) = x0 Dy
σX = kxkD
x0 Dy
cor(X, Y ) = .
kxkD kykD

La valeur absolue ou le carré du coefficient de corrélation définissent des indices de similarité


entre deux variables quantitatives. Il est facile d’en déduire des distances. Le carré du coefficient
de corrélation linéaire a la particularité d’induire une distance euclidienne :

d2 (X, Y ) = 2(1 − cor2 (X, Y )).

P ROPOSITION 5.4. — La distance entre variables quantitatives d2 (X, Y ) est encore le carré de
la distance kPx − Py kD entre les projecteurs D-orthogonaux sur les directions engendrées par
les vecteurs x et y.

Des indices de dissimilarité peuvent également être définis pour un couple de variables qualitatives
(à partir de l’indice de Tschuprow) ou pour une variable quantitative et une variable qualitative (à
parti du rapport de corrélation). Ils ont moins d’intérêt pour des données d’expression et sont
laissés de côté.

3 Recherche d’une configuration de points


Le positionnement multidimensionnel est la recherche d’une configuration de points dans un
espace euclidien qui admette D comme matrice de distances si celle-ci est euclidienne ou, dans le
cas contraire, qui en soit la meilleure approximation à un rang q fixé (en général 2) au sens d’une
norme sur les matrices. Nous ne nous intéressons dans ce chapitre qu’à la version “métrique” du
MDS, une autre approche “non métrique” construite sur les rangs est développée dans la biblio-
graphie.
Ainsi posé, le problème admet une infinité de solutions. En effet, la distance entre deux vec-
teurs xi et xk d’une configuration est invariante par toute transformation affine zi = Fxi + b dans
laquelle F est une matrice orthogonale quelconque et b un vecteur de IRp . Une solution n’est donc
connue qu’à une rotation et une translation près.
3. RECHERCHE D’UNE CONFIGURATION DE POINTS 69

3.1 Propriétés
La solution est donnée par les résultats (Mardia et col.79) ci-dessous :

P ROPOSITION 5.5. — Soit D une matrice de distance et B = HAH la matrice centrée en lignes
et colonnes associée.
• Si D est la matrice de distance euclidienne d’une configuration {x1 , . . . , xn } alors B est
la matrice de terme général
bkj = (xj − x)0 (xk − x)

qui se met sous la forme


B = (HX)(HX)0 .

Elle est donc positive et appelée matrice des produits scalaires de la configuration centrée.
• Réciproquement, si B est positive de rang p, une configuration de vecteurs admettant B
pour matrice des produits scalaires est obtenue en considérant sa décomposition spectrale
B = U∆U0 . Ce sont les lignes de la matrice centrée X = U∆1/2 qui fournissent les
coordonnées des vecteurs de la représentation euclidienne.

3.2 Explicitation du MDS


Pour résumé, dans le cas d’une matrice D euclidienne supposée de rang q, le MDS est obtenu
en exécutant les étapes suivantes :
2
i. construction de la matrice A de terme général −1/2dkj ,
ii. calcul de la matrice des produits scalaires par double centrage B = HAH0 ,
iii. diagonalisation de B = U∆U0 ;
iv. les coordonnées d’une configuration, appelées coordonnées principales, sont les lignes de
la matrice X = U∆1/2 .
Dans le cas euclidien, ACP et MDS sont directement connectés.

P ROPOSITION 5.6. — Soit Y la matrice des données habituelles en ACP. L’ACP de (Y, M, 1/nI)
fournit les mêmes représentations graphiques que le positionnement calculé à partir de la matrice
de distances de terme général kyi − yj kM . Si C désigne la matrice des composantes principales,

alors les coordonnées principales sont nC.

L’intérêt du MDS apparaı̂t évidemment lorsque les observations Y sont inconnues ou en-
core si l’on cherche la meilleure représentation euclidienne de distances non-euclidiennes entre
les individus ; c’est l’objet du théorème suivant. En ce sens, le MDS “généralise” l’ACP et per-
met, par exemple, de considérer une distance de type robuste à base de valeurs absolues mais la
représentation des variables pose alors quelques problèmes car le “biplot” n’est plus linéaire.

P ROPOSITION 5.7. — Si D est une matrice de distance, pas nécessairement euclidienne, B la


matrice de produit scalaire associée, alors, pour une dimension q fixée, la configuration issue du
2
MDS a une matrice de distance D b qui rend Pn ({dk }2 − dbk ) minimum et, c’est équivalent,
j,k=1 j j
2
une matrice de produit scalaire B qui minimise B − B .
b b
70 CHAPITRE 5. POSITIONNEMENT MULTIDIMENSIONNEL

4 Application au choix de variables


La sélection d’un sous-ensemble de variables pour la mise en œuvre de techniques factorielles
(Jolliffe 2002) n’est pas aussi claire que dans le cadre de la recherche d’un modèle linéaire parci-
monieux. Le problème vient souvent de la confusion de deux objectifs :
• supprimer des variables très liées, donc redondantes, et dont la multiplicité vient renforcer
artificiellement l’influence de certains phénomènes,
• supprimer des variables afin de simplifier l’interprétation des axes tout en conservant au
mieux les représentations graphiques.
Le premier objectif modifie donc les représentations en visant à être plus proche de la “réalité” ou
au moins d’une réalité moins triviale tandis que, par principe, le deuxième objectif recherche le
sous-ensemble restreint de variables susceptibles d’engendrer le même sous-espace de représentation.
Il n’existe pas de solution miracle, néanmoins les outils présentés dans ce chapitre : indices
de similarité entre variable et positionnement multidimensionnel, peuvent aider à ces choix sur-
tout lorsque l’analyse d’un grand nombre de variables nécessite de segmenter l’analyse en sous-
groupes. Les algorithmes de classification (hiérarchique ou centres mobiles) appliqués sur les
mêmes tableaux de distance apportent un éclairage complémentaire.

5 Données d’expression
Une analyse en composantes principales (cf. chapitre 3) fournit un premier aperçu de la
représentation de gènes relativement aux échantillons biologiques par l’intermédiaire d’un biplot.
Le but ici est de s’intéresser aux éventuelles co-régulations ou inhibitions entre gènes. Le cas
échéant, ceux-ci apparaı̂tront corrélés positivement ou négativement.
Deux options sont possibles :
• utiliser une dissimilarité d’un moins la corrélation rend proches deux gènes co-régulés et
éloigne deux gènes dont on peut considérer que l’un inhibe l’autre.
• utiliser un moins la corrélation au carré rapproche deux gènes liés qu’il y ait co-régulation
ou inhibition.
En cas de problème de robustesse (valeurs atypiques) encore présent après transformation en lo-
garithme, remplacer la corrélation linéaire de Pearson par celle sur les rangs de Spearman peut
s’avérer utile.
Dans l’exemple des données d’obésité, plusieurs options sont possibles pour la représentation
des gènes. La première utilise l’ACP dans laquelle les gènes sont les variables. La figue 5 montre
une sorte d’effet taille. Les expressions de tous les gènes sont corrélées positivement avec une
direction particulière sans soute associée à la ”taille” des cellules des sujets.
Cette représentation n’est donc pas ”optimale”, influencée par un artefact relativement fort.
Une autre approche est préférable. Le double centrage, en lignes et colonnes, implicitement contenu
dans le MDS, élimine cet artefact.
Comme en ACP, un graphique représentant la décroissance des valeurs propres aide au choix
de la dimension. Dans le cas de la matrice calculée avec les carrés des corrélations, deux dimen-
sions, au moins dans une première approche, s’avèrent suffisantes (cf. figure 5-b). A la vue de ces
graphique (figure 5 et 5), seul le biologiste peut juger de la pertinence des résultats ; il choisira, en
connaissance de cause, le graphique le plus explicite.
D’autres représentations sont possibles sous forme d’arbres. C’est l’objet du chapitre suivant.
5. DONNÉES D’EXPRESSION 71

−5 0 5

X77
X52

0.2
anpra
X27
X15 X20 adnr2
adnr1
X86
pi3k
X25
X83 lxra
X5X37X2

5
X33
X87
Cidea
X56
X36
X89 X75 X29ppara leptin
0.1 X79 alpha2AR
X6 cebpa
pparb X72
X67
X70 X39 X14
tnfa
il6X55 fabppm
X97 foxc2 X48
X64 anp fatp1asp
Comp.2

X49 pgc1a X51


X21
X47 X98X78 X11bhd
X99X7 X65
angiotensinogen
cd36
X38
ppargtot
X66 fas lpl
0.0

hsl
X63 pparg2

0
X45X35X61 cpt1mu
X8
cyclophilin
X24X73 X19 pai1
X40 X28
X81 ucp2
srebp1c
X88
X23 X69
X17 glut4 X22 X1
X16 X91
X57 X31 X80mcad
X9 cox4
X58
−0.1

X85X68
X43
X53 X13X60X12
X10
X59 X82X11
apm1
X50 X41 X18
X62X44pde3b
sparc X34
X94X3X4
X30
fabp4

−5
X100
X93 X32
X95 X84
−0.2

X54

−0.2 −0.1 0.0 0.1 0.2

Comp.1

F IG . 5.2 – Obésité : Représentation du premier plan de l’analyse en composantes principales


faisant apparaı̂tre un certain “effet taille”.
2.5
mdsScree$eig

1.5
0.5

2 4 6 8 10 14

Index

F IG . 5.3 – Obésité : Décroissance des valeurs propres et choix de la dimension de l’espace dans
lequel rechercher une représentation euclidienne des gènes la plus conforme à leurs distances au
sens de la corrélation au carré.
72 CHAPITRE 5. POSITIONNEMENT MULTIDIMENSIONNEL

rac(1−cor^2)

ppara
0.4

cebpa
fabppm leptin

pparb

fatp1

ppargtot
cd36 adnr2
0.2

adnr1lxra
asp
pparg2

fasangiotensinogen
cp2

lpl
cpt1mu X11bhd
0.0

cyclophilin hsl anpra


alpha2AR
anp
pai1 pi3k
foxc2
ucp2 Cidea
glut4
srebp1c il6
pgc1a
−0.2

tnfa

fabp4
pde3b
sparc
mcad
cox4

apm1

−0.2 0.0 0.2 0.4

cp1

F IG . 5.4 – Obésité : représentation des gènes en fonction de leur proximité au sens de la


corrélation au carré.
5. DONNÉES D’EXPRESSION 73

1−cor, k=2
0.8

pai1
0.6

sparc
0.4

foxc2
pde3b

pgc1a
fabp4
anp
0.2

apm1 ucp2 il6


tnfa
cox4
X11bhd

mcad
0.0

srebp1c
cyclophilin
glut4 pi3k
Cidea
cpt1mu hsl
angiotensinogen
lpl asp alpha2AR
lxra
pparg2 cd36
fas
ppargtot
−0.2

pparb adnr1
adnr2
fabppm
fatp1
leptin

cebpa
anpra
−0.4

ppara

−0.4 −0.2 0.0 0.2 0.4 0.6

F IG . 5.5 – Obésité : représentation des gènes en fonction de leur proximité au sens de la


corrélation.
74 CHAPITRE 5. POSITIONNEMENT MULTIDIMENSIONNEL

CYP4A14 GSTpi2 CYP4A14


CYP4A14 THB
Tpalpha
CYP4A10
PECI MCAD
CYP2c29

0.4
ACOTH mHMGCoAS
CYP3A11 Tpbeta
0.5

Pex11a CAR1

0.2
CYP3A11 MCAD PMDCI THB RXRb2
CYP4A10 CYP3A11 AOX CACP C16SR LXRb
IL.2 ACAT1
ACOTH PPARg
GSTpi2 CYP2c29
CAR1 BIEN Pex11a
PPARd IL.2
apoB PONM.CPT1
RXRa FXR
CYP4A10 apoE
GSTmu AM2R PXR VLDLr
LCE
PPARd ACAT1PON THIOL cMOAT
i.BABP

0.2
MCADACOTH G6Pase X36b4 ADISP
PMDCI PECI THB SPI1.1 PECI C16SR apoB RXRb2
LXRb ALDH3
CBS
CPT2 SPI1.1 CAR1 MTHFR OCTN2
GS LPL
MDR1
CIDEA
mHMGCoAS
GSTmu Tpalpha LCEPex11a
apoE
Tpbeta M.CPT1
apoB
IL.2
RXRb2PON
RXRa
VLDLr
LXRb
FXR GSTmu Tpalpha
mHMGCoAS
apoE M.CPT1 G6Pase BACT
CYP2c29
PPARa LXRa
i.BAT SIAT4c
G6Pase
AOX CACP
BIEN SPI1.1 AM2R
PPARa
C16SR
PPARdACAT1
PPARg
PXR
MTHFR
X36b4 GS
LPL
ADISP
OCTN2
MDR1
CIDEA
i.BABPi.BAT
RARaSHP1
NURR1
SIAT4c
Lpin3
TRa
Bcl.3 PMDCI CACP LCE i.BABP X36b4
RXRa
L.FABP Bcl.3 SHP1
SR.BI CYP26 NURR1 Lpin3
COX2
ap2
LXRa
0.0

CBS cMOAT hABC1 VLDLr


ALDH3CPT2 PPARg

0.0
CYP26 CYP27b1
TRb MS
UCP3
RXRg1
CYP2b13
ADSS1
i.NOS
c.fos
CYP7a SR.BI Tpbeta
AM2R GSTpi2
BACT
MDR2 COX1
CYP2b10 VDR PXRFXR
MTHFR
LPL ADISP HPNCL Ntcp ap2 hABC1 CYP27b1
TRa MS
UCP3
MRP6 mABC1
ACC1NGFiB FAT Ntcp
PDK4
Waf1
apoC3UCP2 AOX OCTN2
CIDEA
Dimension 2

Dimension 2

Dimension 2
HPNCLCYP27a1ACAT2FDFT eif2g
CYP24
RARb2 MDR1i.BAT GSTa RARaVDR
CYP2b10 RXRg1
THIOL BSEP
GSTa i.FABP CBS ACAT2 GS CYP7a i.NOS
L.FABP ACBP G6PDH BIEN BACT SHP1
LXRa Bcl.3 ACAT2 COX1 TRb
CYP2b13
apoA.I PAL cMOAT SIAT4c ACBP MDR2 COX2

0.0
Lpin2 PLTP PPARa
COX1 hABC1 NURR1
ap2 TRa ACC1 c.fos
ADSS1
LDLr CPT2 CYP26 CYP27b1 Lpin3 Waf1 PDK4 UCP2
ALDH3 MRP6 mABC1 NGFiB
CYP8b1 BSEP
LPK THIOL HPNCL ACC1 RARa
TRb
CYP2b10
CYP7a
i.NOS MSSR.BI
UCP3
RXRg1
CYP2b13 CYP27a1 apoC3 FAT RARb2 eif2g
CYP24
MDR2mABC1 Waf1
c.fos
ADSS1 VDR
GSTa COX2 PAL
GK
HMGCoAred
ACC2 L.FABP NGFiBPDK4 FDFT

−0.2
cHMGCoAS apoC3 RARb2 Ntcp Lpin2 i.FABP
−0.5

ACBP CYP27a1MRP6
BSEP UCP2
FDFT PAL eif2g apoA.I

−0.2
Lpin2 CYP24
i.FABP CYP8b1
Lpin1 FAT
Lpin G6PDH G6PDH
apoA.I GKFAS
LPK
CYP8b1
LPK Lpin
Lpin1
LDLr LDLr

−0.4

−0.4
GK
−1.0

S14 PLTPLpin1
Lpin
FAS ACC2
cHMGCoAS
HMGCoAred PLTP
cHMGCoAS
HMGCoAred

−0.6
FAS S14 S14 ACC2

−1.0 −0.5 0.0 0.5 −0.5 0.0 0.5 −0.6 −0.4 −0.2 0.0 0.2 0.4

Dimension 1 Dimension 1 Dimension 1

F IG . 5.6 – Souris : positionnement multidimensionnel des gènes sur les axes 1 et 2 selon 3 dis-
tances différentes : distance euclidienne (d1 à gauche), corrélation (d3 au centre), corrélation
carrée (d2 à droite).

6 Exemple : nutrition chez la souris


Appliqué à ces données, le positionnement multidimensionnel permet de considérer différentes
façon de prendre en compte des distancesp inter-gènes
Pn :
• distance euclidienne, d1 (X, Y ) = i=1 (X i − Yi )2 ,p
positive ou nulle ;
• distance associée à la corrélation carrée, d2 (X, Y ) = 1 − cor(X, Y )2 , comprise entre 0
et 1 ;
• distance associée à la corrélation, d3 (X, Y ) = 1 − cor(X, Y ), comprise entre 0 et 2.
Remarquons tout d’abord que dans les trois cas, plus la valeur est petite, plus les gènes dont on
mesure l’éloignement sont proches. Ensuite, pour d2 et d3 , une valeur proche de 1 caractérise deux
gènes non corrélés, ce qui n’est pas nécessairement le cas de la distance euclidienne. Enfin, il est
important de noter qu’une corrélation forte et négative entre deux gènes conduit à deux résultats
opposés selon d2 (valeur proche de 0) et d3 (valeur proche de 2).
La figure 5.6 illustre les trois possibilités avec le positionnement multidimensionnel des gènes.
L’analyse conjointe de ces trois graphiques conduit à de nombreuses interprétations sur le plan
biologique. Sans rentrer dans les détails, nous noterons que ces trois graphiques tendent à séparer
deux groupes de gènes qui interviennent dans deux fonctions biologiques opposées : les CYP4A,
PMDCI, PECI, AOX, BIEN, THIOL, CPT2, mHMGCoAS, Tpalpha et Tpbeta sont impliqués
dans le catabolisme des lipides et la cétogénèse alors que les gènes FAS, S14, ACC2, cHMGCoAS,
HMGCoAred et, plus indirectement, GK et LPK sont impliqués dans la synthèse de lipides au ni-
veau hépatique. On observera qu’aucun des trois graphiques de la figure 5.6, analysé individuel-
lement, ne conduit à la totalité de cette interprétation mais que c’est bien l’analyse conjointe de
ces représentations qui permet d’affiner la connaissance du biologiste sur ces données. Succinte-
ment, notons également que d’autres gènes tendent à participer à ces groupes. Par exemple, le gène
Lpin1 est proche des gènes impliqués dans la lipogénèse. Bien que sa fonction soit actuellement
inconnue, Peterfy et al. (2001) ont observé que la lignée de souris déficiente pour Lpin1 présente
des altérations du métabolisme des lipides.
Les gènes dont la position sur le graphique sera le plus modifié en passant de la distance d2 à
la distance d3 seront ceux présentant des corrélations négatives et importantes avec de nombreux
6. EXEMPLE : NUTRITION CHEZ LA SOURIS 75

autres gènes. Un cas typique dans notre exemple est celui de CAR1 dont l’ACP (ainsi, que la ma-
trice des corrélations) a montré qu’il était négativement corrélés avec des gènes tels que GSTpi2,
CYP3A11, FAS... La position relative des couples de gènes ainsi obtenus change de façon impor-
tante entre les deux graphiques. On observera en particulier le couple CAR1-GSTpi2 totalement
opposé sur l’axe 1 selon d3 et relativement proche selon d2 (tandis qu’il présente une opposi-
tion moins marquée selon d1 ). La surexpression du gène CAR1 et la sous-expression du gène
GSTpi2 chez les souris déficientes en récepteur PPARα n’a pas été décrite et constitue l’un des
résultats originaux de ce travail. L’étude d’un lien potentiel entre ces deux modifications d’expres-
sion nécessitera la mise en œuvre d’expériences complémentaires.
D’une manière générale, on peut retenir que l’utilisation de la distance euclidienne tend à
rapprocher des gènes dont les expressions sont proches. En revanche, les deux autres indicateurs
considèrent que deux gènes sont proches si leur expression varie dans le même sens selon les
conditions expérimentales. La corrélation (d3 ) distingue les gènes corrélés négativement, ce que
ne permet pas la corrélation carrée (d2 ) qui doit donc être utilisée en connaissance de cause.
Notons que la distance d1 est plus courante en statistique alors que d3 l’est davantage dans
les études relatives aux biopuces. Autant que possible une comparaison des trois distances est
recommandée. On se référera à Draghici (2003, chapitre 11) pour une discussion plus détaillée sur
le sujet.
76 CHAPITRE 5. POSITIONNEMENT MULTIDIMENSIONNEL
Chapitre 6
Classification

1 Introduction
1.1 Les données
Comme dans le cas du chapitre précédent (MDS), les données peuvent se présenter sous
différentes formes ; elles concernent n individus supposés affectés, pour simplifier, du même
poids :
• un tableau de distances (ou dissimilarités, ou mesures de dissemblance), n × n, entre les
individus pris deux à deux ;
• les observations de p variables quantitatives sur ces n individus ;
• les observations, toujours sur ces n individus, de variables qualitatives ou d’un mélange de
variables quantitatives et qualitatives.
D’une façon ou d’une autre, il s’agit, dans chaque cas, de se ramener au tableau des distances
deux à deux entre les individus (c’est-à-dire au premier cas). Le choix d’une matrice de produit
scalaire permet de prendre en compte simplement un ensemble de variables quantitatives tandis
que le troisième cas nécessite plus de développements ; il n’est pas présenté ici car de peu d’intérêt
pour des données d’expression.

1.2 Les objectifs


L’objectif d’une méthode de classification déborde le cadre strictement exploratoire. C’est la
recherche d’une typologie, ou segmentation, c’est-à-dire d’une partition, ou répartition des indivi-
dus en classes, ou catégories. Ceci est fait en optimisant un critère visant à regrouper les individus
dans des classes, chacune le plus homogène possible et, entre elles, les plus distinctes possible.
Cet objectif est à distinguer des procédures de discrimination, ou encore de classement (en anglais
classification) pour lesquelles une typologie est a priori connue, au moins pour un échantillon
d’apprentissage. Nous sommes dans une situation d’apprentissage non-supervisé, ou en anglais de
clustering1 .

1.3 Les méthodes


Un calcul élémentaire de combinatoire montre que le nombre de partitions possibles d’un
ensemble de n éléments croı̂t plus qu’exponentiellement avec n. Ainsi, pour n = 20, il est de
l’ordre de 1013 . Il n’est donc pas question de chercher à optimiser le critère sur toutes les partitions

1
Faire attention aux faux amis français / anglais : discrimination / classification (supervisée) et classification / clus-
tering (non-supervisée)

77
78 CHAPITRE 6. CLASSIFICATION

possibles. Les méthodes se limitent à l’exécution d’un algorithme itératif convergeant vers une
“bonne” partition qui correspond en général à un optimum local. Même si le besoin de classer des
objets est très ancien, seule la généralisation des outils informatiques en a permis l’automatisation
dans les années 1970. Celeux et col. (1989) décrivent en détail ces algorithmes.
Différents choix sont laissés à l’initiative de l’utilisateur :
• une mesure d’éloignement (dissemblance, dissimilarité ou distance) entre individus ;
• le critère d’homogénéité des classes à optimiser : il est, dans le cas de variables quantitatives,
généralement défini à partir de la trace d’une matrice de variances-covariances ; soit les
variances et covariances interclasses (la trace correspond alors à l’inertie de la partition),
soit les variances et covariances intraclasse ;
• la méthode : la classification ascendante hiérarchique et celle par réallocation dynamique
sont les plus utilisées, seules ou combinées ;
• le nombre de classes : c’est un point délicat.
Enfin, différents outils recherchent une interprétation, ou des caractérisations, des classes obte-
nues.
On notera que les principes algorithmiques de ces méthodes sont relativement élémentaires.
Classification ascendante hiérarchique, ou CAH
Il s’agit de regrouper itérativement les individus, en commençant par le bas (les deux plus
proches) et en construisant progressivement un arbre, ou dendrogramme, regroupant finalement
tous les individus en une seule classe, à la racine (cf. figure 2 qui reprend les données élémentaires
du chapitre précédent). Ceci suppose de savoir calculer, à chaque étape ou regroupement, la dis-
tance entre un individu et un groupe ainsi que celle entre deux groupes. Ceci nécessite donc,
pour l’utilisateur de cette méthode, de faire un choix supplémentaire : comment définir la distance
entre deux groupes connaissant celles de tous les couples d’individus entre ces deux groupes.
Différents choix, appelés saut en français et linkage en anglais, sont détaillés plus loin. Le nombre
de classes est déterminé a posteriori, à la vue du dendrogramme ou d’un graphique représentant
la décroissance de la hauteur de chaque saut, ou écart de distance, opéré à chaque regroupement.
Classification par réallocation dynamique
Dans ce cas, le nombre de classes, k, est fixé a priori. Ayant initialisé k centres de classes
par tirage aléatoire, tous les individus sont affectés à la classe dont le centre est le plus proche
au sens de la distance choisie (en principe, euclidienne pour cette méthode). Dans une deuxième
étape, l’algorithme calcule des barycentres de ces classes qui deviennent les nouveaux centres. Le
procédé (affectation de chaque individu à un centre, détermination des centres) est itéré jusqu’à
convergence vers un minimum (local) ou un nombre d’itérations maximum fixé.
Classification mixte
La CAH nécessite impérativement la construction d’un tableau de distances n × n et son
stockage en mémoire ; le nombre maximum d’individus traités peut s’en trouver limité. Ce n’est
pas le cas dans l’algorithme de réallocation, d’où l’intérêt possible d’une approche mixte pour, à
la fois, classer de grands volumes de données et sélectionner le nombre de classes par CAH.
Dans le cas plus spécifique de données d’expression, et comme pour le chapitre précédent
(MDS), le choix principal est celui de la distance (ou dissimilarité) utilisée. S’ajoute en plus le
choix du critère de saut en CAH et celui du nombre de classes (a priori avec la réallocation dyna-
mique, ou a posteriori avec la CAH). La plupart des logiciels dédiés à ces données proposent une
2. ILLUSTRATION 79

5000
4000
Hauteur

3000
2000
1000
5 10 15

nb de classes

F IG . 6.1 – Villes : Décroissance de la variance interclasses à chaque regroupement dans le cas du


saut de Ward.

double CAH des lignes (gènes) et des colonnes (échantillons biologiques) dans une représentation
graphique habilement colorée.

2 Illustration
En guise de première illustration sur les méthodes de classification, nous reprenons l’étude des
mêmes données que dans le chapitre précédent : un tableau contenant les distances kilométriques
par route (Source : IGN) entre 47 grandes villes en France et dans les pays limitrophes. Toutes ces
valeurs sont rangées dans le triangle inférieur d’une matrice carrée avec des 0 sur la diagonale.
Il s’agit donc de regrouper au mieux ces villes, en tenant compte de leurs proximités relatives au
sens de cette distance routière.
À l’issue de l’exécution, la classification ascendante hiérarchique fournit les deux graphiques
précisés ci-dessous.
• Un graphique d’aide au choix du nombre de classes (cf. figure 2). Il représente à rebours, en
fonction du nombre de classes, la décroissance de la distance interclasses. La présence d’une
rupture importante dans cette décroissance aide au choix du nombre de classes comme dans
le cas du choix de dimension en ACP, avec l’éboulis des valeurs propres. Dans ce cas, il
faut lire le graphe de droite à gauche et s’arrêter avant le premier saut jugé significatif. Avec
l’indice de Ward, cela revient à couper l’arbre avant une perte, jugée trop importante, de la
variance interclasses. Dans le cas des villes repérées par leurs distances kilométriques, le
choix de 5 classes semble raisonnable.
• Le dendrogramme (cf. figure 2) est une représentation graphique, sous forme d’arbre bi-
naire, des agrégations successives jusqu’à la réunion en une seule classe de tous les indi-
vidus. La hauteur d’une branche est proportionnelle à l’indice de dissemblance ou distance
entre les deux objets regroupés. Dans le cas du saut de Ward, c’est la perte de variance
interclasses.
Une fois un nombre de classes sélectionné à l’aide du premier graphique, une coupure de
l’arbre fournit, dans chaque sous-arbre, la répartition des individus en classes. Ces classes peuvent
ensuite être représentées dans les axes d’une analyse factorielle, en général une ACP ou un MDS
(figure 2).
Signalons qu’il est courant, dans la pratique, de mettre en œuvre, à l’issue d’une CAH, une
méthode de réallocation dynamique avec pour nombre de classes celui choisi par CAH et pour
Height 80
0 1000 2000 3000 4000 5000

luxe
metz

saut de Ward.
nanc
reim
troy
besa
dijo
stra
bale
mulh
mars
nice
cham
gene
gren
lyon
hend
bord
roya
mont
perp
ando
lour
toul
boul
cala
brux
lill
caen
cher
leha
roue
amie
pari
bres
renn
stma
laba
nant
clem
limo
poit
ange
lema
tour
bour
orle

F IG . 6.2 – Villes : Exemple d’un dendrogramme issu de la classification des données par CAH et
CHAPITRE 6. CLASSIFICATION
2. ILLUSTRATION 81

hend
bres
lour
400

bord roya laba


ando toul nant rennstma

poit ange cher


200

limo lema caen


tour
perp leha
orle
cp2

bour roue
clem
0

mont pari
amie boul
cala
lill
−200

mars lyon troy


reim
gren dijo
nice brux
gene
cham besa
nanc
−400

metz
luxe
mulh
bale
stra

−800 −600 −400 −200 0 200 400

cp1

F IG . 6.3 – Villes : Représentation des classes (couleurs) obtenues par CAH dans les coordonnées
du MDS.
82 CHAPITRE 6. CLASSIFICATION

centres initiaux les barycentres des classes obtenues : on stabilise ainsi les classes.
Notons également que l’exemple présenté ici est relativement simple et bien structuré. Modi-
fier le critère de saut ne change pas grand chose dans ce cas. Mais, attention, il est facile de vérifier
expérimentalement qu’une classification ascendante est un objet très sensible. En effet, il suffit de
modifier une distance dans le tableau, par exemple de réduire sensiblement la distance de Grenoble
à Brest, pour que la classification (nombre de classes, organisation) devienne très sensible au choix
du critère de saut. En revanche, la structure des données fait que la représentation factorielle de
l’ACP du tableau de distance (MDS) est très robuste à ce type d’“erreur de mesure”.

3 Mesures d’éloignement
Notons Ω = {i = 1, . . . , n} l’ensemble des individus. Cette section se propose de définir sur
Ω × Ω différentes mesures d’éloignement entre deux individus. Les hypothèses et propriétés étant
de plus en plus fortes.

3.1 Indice de ressemblance, ou similarité


C’est une mesure de proximité définie de Ω × Ω dans IR+ et vérifiant :

s(i, j) = s(j, i), ∀(i, j) ∈ Ω × Ω : symétrie ;


s(i, i) = S > 0, ∀i ∈ Ω : ressemblance d’un individu avec lui-même ;
s(i, j) ≤ S, ∀(i, j) ∈ Ω × Ω : la ressemblance est majorée par S.

Un indice de ressemblance normé s∗ est facilement défini à partir de s par :

1
s∗ (i, j) = s(i, j), ∀(i, j) ∈ Ω × Ω ;
S

s∗ est une application de Ω × Ω dans [0, 1].

3.2 Indice de dissemblance, ou dissimilarité


Une dissimilarité est une application d de Ω × Ω dans IR+ vérifiant :

d(i, j) = d(j, i), ∀(i, j) ∈ Ω × Ω : symétrie ;


d(i, i) = 0, ∀i ∈ Ω : nullité de la dissemblance d’un individu avec lui-même.

Les notions de similarité et dissimilarité se correspondent de façon élémentaire. Si s est un indice


de ressemblance, alors
d(i, j) = S − s(i, j), ∀(i, j) ∈ Ω × Ω

est un indice de dissemblance. De façon réciproque, si d est un indice de dissemblance avec D =


sup(i,j)∈Ω×Ω d(i, j), alors s(i, j) = D − d(i, j) est un indice de ressemblance. Comme s∗ , un
indice de dissemblance normé est défini par :

1
d∗ (i, j) = d(i, j), ∀(i, j) ∈ Ω × Ω
D

avec d∗ = 1 − s∗ et s∗ = 1 − d∗ . Du fait de cette correspondance immédiate, seule la notion de


dissemblance, ou dissimilarité, normée est considérée par la suite.
3. MESURES D’ÉLOIGNEMENT 83

3.3 Indice de distance


Un indice de distance est, par définition, un indice de dissemblance qui vérifie de plus la
propriété :
d(i, j) = 0 =⇒ i = j.
Cette propriété évite des incohérences pouvant apparaı̂tre entre dissemblances, par exemple :

∃ k ∈ Ω : d(i, k) 6= d(j, k), avec pourtant i 6= j et d(i, j) = 0.

3.4 Distance
Une distance sur Ω est, par définition, un indice de distance vérifiant en plus la propriété
d’inégalité triangulaire. Autrement dit, une distance d est une application de Ω × Ω dans IR+
vérifiant :

d(i, j) = d(j, i), ∀(i, j) ∈ Ω × Ω ;


d(i, i) = 0 ⇐⇒ i = j ;
d(i, j) ≤ d(i, k) + d(j, k), ∀(i, j, k) ∈ Ω3 .

Si Ω est fini, la distance peut être normée.

3.5 Distance euclidienne


Dans le cas où Ω est un espace vectoriel muni d’un produit scalaire, donc d’une norme, la
distance définie à partir de cette norme est appelée distance euclidienne :

d(i, j) = < i − j, i − j >1/2 = ki − jk.

La condition pour qu’une matrice donnée de distances entre éléments d’un espace vectoriel
soit issue d’une distance euclidienne est explicitée dans le chapitre précédent. Toute distance n’est
pas nécessairement euclidienne ; voir, par exemple, celle construite sur la valeur absolue.

3.6 Utilisation pratique


Concrètement, il peut arriver que les données à traiter soient directement sous la forme d’une
matrice d’un indice de ressemblance ou de dissemblance. Il est alors facile de la transformer en
une matrice de dissemblances normées avant d’aborder une classification.
Nous précisons ci-dessous les autres cas.
Données quantitatives
Lorsque les p variables sont toutes quantitatives, il est nécessaire de définir une matrice M de
produit scalaire sur l’espace IRP . Le choix M = Ip , matrice identité, est un choix élémentaire et
courant ; mais il est vivement conseillé de réduire les variables de variances hétérogènes, comme
en ACP, ce qui revient à considérer, comme matrice de produit scalaire, la matrice diagonale
composée des inverses des écarts-types :
1 1
M = Σ−1 = diag ( · · · ).
σ1 σp
La métrique dite de Mahalanobis (inverse de la matrice des variances-covariances) peut aussi être
utilisée pour atténuer la structure de corrélation.
84 CHAPITRE 6. CLASSIFICATION

Données qualitatives
Dans le cas très particulier où toutes les variables sont binaires (présence ou absence de ca-
ractéristiques), de nombreux indices de ressemblances ont été proposés dans la littérature. Ils ne
sont pas détaillés dans le cadre d’un cours spécifique aux données d’expression.

3.7 Bilan
Une fois ces préliminaires accomplis, nous nous retrouvons donc avec
• soit un tableau de mesures quantitatives n × p, associé à une matrice de produit scalaire
p × p (en général Ip ) définissant une métrique euclidienne,
• soit directement un tableau n × n de dissemblances ou de distances entre individus.
Attention, si n est grand, la deuxième solution peut se heurter rapidement à des problèmes de
stockage en mémoire pour l’exécution des algorithmes.

4 Classification ascendante hiérarchique


4.1 Principe
L’initialisation de cet algorithme consiste, s’il n’est déjà donné, à calculer un tableau de dis-
tances (ou de dissemblances) entre les individus à classer. L’algorithme démarre alors de la parti-
tion triviale des n singletons (chaque individu constitue une classe) et cherche, à chaque étape, à
constituer des classes par agrégation des deux éléments les plus proches de la partition de l’étape
précédente. L’algorithme s’arrête avec l’obtention d’une seule classe. Les regroupements succes-
sifs sont représentés sous la forme d’un arbre binaire ou dendrogramme.

4.2 Distance, ou dissemblance, entre deux classes


À chaque étape de l’algorithme, il est nécessaire de mettre à jour le tableau des distances (ou
des dissemblances). Après chaque regroupement, de deux individus, de deux classes ou d’un in-
dividu à une classe, les distances entre ce nouvel objet et les autres sont calculées et viennent
remplacer, dans la matrice, les distances des objets qui viennent d’être agrégés. Différentes ap-
proches sont possibles à ce niveau, donnant lieu à différentes CAH.
Notons A et B deux classes, ou éléments, d’une partition donnée, wA et wB leurs pondérations,
et di,j la distance entre deux individus quelconques i et j.
Le problème est de définir d(A, B), distance entre deux éléments d’une partition de Ω.
Cas d’une dissemblance
Les stratégies ci-dessous s’accomodent d’un simple indice de dissemblance défini entre les
individus. Elles s’appliquent également à des indices plus structurés (distance) mais n’en utilisent
pas toutesles propriétés.

d(A, B) = min (dij ) (saut minimum, single linkage),


i∈A,j∈B
d(A, B) = sup (dij ) (saut maximum ou diamètre, complete linkage),
i∈A,j∈B
1 X
d(A, B) = dij (saut moyen, group average linkage).
card(A)card(B)
i∈A,j∈B
5. AGRÉGATION AUTOUR DE CENTRES MOBILES 85

Cas d’une distance euclidienne


Les stratégies suivantes nécessitent la connaissance de représentations euclidiennes des indi-
vidus : matrice n × p des individus afin, au minimum, de pouvoir définir les barycentres notés gA
et gB des classes.

d(A, B) = d(gA , gB ) (distance des barycentres, centroı̈d),


wA wB
d(A, B) = d(gA , gB ) (saut de Ward).
wA + wB

Important
Le saut de Ward joue un rôle particulier et est la stratégie la plus courante ; c’est même l’option
par défaut (SAS) dans le cas d’une distance euclidienne entre individus. En effet, ce critère induit,
à chaque étape de regroupement, une minimisation de la décroissance de la variance interclasse.

4.3 Algorithme
A LGORITHME 6.1 :
classification ascendante hiérarchique
• Initialisation Les classes initiales sont les singletons. Calculer la matrice de leurs
distances deux à deux.
• Itérer les deux étapes suivantes jusqu’à l’agrégation en une seule classe :
i. regrouper les deux classes les plus proches au sens de la “distance” entre classes
choisie,
ii. mettre à jour le tableau de distances en remplaçant les deux classes regroupées par la
nouvelle et en calculant sa “distance” avec chacune des autres classes.

4.4 Graphes
Les graphes obtenus à l’issue d’une CAH ont été présentés et illustrés dans le paragraphe 2. Il
s’agit du graphique d’aide au choix du nombre de classes et du dendrogramme.

5 Agrégation autour de centres mobiles


5.1 Principes
Différents types d’algorithmes ont été définis autour du même principe de réallocation dy-
namique des individus à des centres de classes, eux-mêmes recalculés à chaque itération. Ces
algorithmes requièrent une représentation vectorielle des individus dans IRp muni d’une métrique,
généralement euclidienne. Une adaptation de cet algorithme, PAM (pour Partitioning — clustering
— of the data into k clusters Around Medoı̈ds ; Kaufman & Rousseeuw, 1990), en est une version
robuste, également adaptée à une matrice de dissimilarités. Ce dernier algorithme est en revanche
limité au niveau du nombre d’observations (200).
Il est important de noter que, contrairement à la méthode hiérarchique précédente, le nombre
de classes k doit être déterminé a priori.
Ces méthodes sont itératives : après une initialisation des centres consistant, le plus souvent,
à tirer aléatoirement k individus, l’algorithme répète deux opérations jusqu’à la convergence d’un
critère :
86 CHAPITRE 6. CLASSIFICATION

i. Chaque individu est affecté à la classe dont le centre est le plus proche.
ii. Calcul des k centres des classes ainsi constituées.

5.2 Principale méthode


Il s’agit de la méthode (kmeans) proposée dans Forgy (1965).

A LGORITHME 6.2 :
• Initialisation Tirer au hasard, ou sélectionner pour des raisons extérieures à la
méthode, k points dans l’espace des individus, en général k individus de l’ensemble, appelés
centres ou noyaux.
• Itérer les deux étapes suivantes, jusqu’à ce que le critère de variance interclasses ne
croisse plus de manière significative, c’est-à-dire jusqu’à la stabilisation des classes.
i. Allouer chaque individu au centre (c’est-à-dire à la classe) le plus proche au sens de
la métrique euclidienne choisie ; on obtient ainsi, à chaque étape, une classification
en k classes, ou moins si, finalement, une des classes devient vide.
ii. Calculer le centre de gravité de chaque classe : il devient le nouveau noyau ; si une
classe s’est vidée, on peut éventuellement retirer aléatoirement un noyau complémentaire.

5.3 Propriétés
Convergence Le critère (la variance interclasses) est majoré par la variance totale. Il est simple
de montrer qu’il ne peut que croı̂tre à chaque étape de l’algorithme, ce qui en assure la
convergence. Il est équivalent de maximiser la variance interclasses ou de minimiser la va-
riance intraclasse. Cette dernière est alors décroissante et minorée par 0. Concrètement, une
dizaine d’itérations suffit généralement pour atteindre la convergence.
Optimum local La solution obtenue est un optimum local, c’est-à-dire que la répartition en classes
dépend du choix initial des noyaux. Plusieurs exécutions de l’algorithme permettent de s’as-
surer de la présence de formes fortes, c’est-à-dire de classes, ou partie de classes, présentes
de manière stable dans la majorité des partitions obtenues.

5.4 Variantes
Algorithme kmeans
Il s’agit d’une modification de l’algorithme précédent, proposée par Mac Queen (1967). Les
noyaux des classes, ici les barycentres des classes concernées, sont recalculés à chaque alloca-
tion d’un individu à une classe. L’algorithme est ainsi plus efficace, mais il dépend de l’odre des
individus dans le fichier.
Nuées dynamiques
La variante proposée par Diday (1971) consiste à remplacer chaque centre de classe par un
noyau constitué d’éléments représentatifs de cette classe. Cela permet de corriger l’influence
d’éventuelles valeurs extrêmes sur le calcul du barycentre.
Partitionning Around Medoı̈ds
Cet algorithme, proposé par Kaufman & Rousseeuw (1990), permet de classifier des données
de façon plus robuste, c’est-à-dire moins sensible à des valeurs atypiques. Il permet également de
5. AGRÉGATION AUTOUR DE CENTRES MOBILES 87

hend
bres
lour

400
bord roya laba
ando toul nant rennstma

poit ange cher


200

limo lema caen


tour
perp leha
orle
cp2

bour roue
clem
0

mont pari
amie boul
cala
lill
−200

mars lyon troy


reim
gren dijo
nice brux
gene
cham besa
nanc
−400

metz
luxe
mulh
bale
stra

−800 −600 −400 −200 0 200 400

cp1

F IG . 6.4 – Villes : Représentation des classes (couleurs) obtenues par PAM dans les coordonnées
du MDS.

traiter des matrices de dissimilarités. Les résultats sont fournis dans la figure 5.4, pour lequels le
nombre de classe est fixé a priori à 5, comme le suggère la CAH, mais pour lesquels les classes
obtenues sont sensiblement différentes.

5.5 Combinaison
Chaque méthode précédente peut être plus ou moins adaptée à la situation rencontrée. La
classification hiérarchique, qui construit nécessairement la matrice des distances, n’accepte qu’un
nombre limité d’individus ; de son côté, la réallocation dynamique nécessite de fixer a priori le
nombre de classes. La stratégie suivante, adaptée aux grands ensembles de données, permet de
contourner ces difficultés.

i. Exécuter une méthode de réallocation dynamique en demandant un grand nombre de classes,


de l’ordre de 10% de n.
ii. Sur les barycentres des classes précédentes, exécuter une classification hiérarchique puis
déterminer un nombre “optimal” k de classes.
iii. Exécuter une méthode de réallocation dynamique sur tout l’ensemble en fixant à k le nombre
de classes. Pour initialiser l’algorithme, il est habituel de choisir pour noyaux les barycentres
(calculés en pondérant par les effectifs de classes) des classes de l’étape précédente.
88 CHAPITRE 6. CLASSIFICATION

TP3.125.g
TP3.225.g
TP3.325.g
TP640.g
TP225.g
TP540.g3ex
TP540.g2ex
TP240.g
TP1.225.g
TP1.125.g
TP1.325.g
TP440.g3ex
TP440.g2ex
PancNorm1
PancNorm2B
PancNorm2A
CAPAN1.1.
CAPAN2.1.
CAPAN2.2.
CAPAN2.3.4.
CAPAN2.3.3.
CAPAN2.3.2.
CAPAN1.2.
CAPAN1.3.4.
CAPAN1.3.3.
CAPAN1.3.2.
K562.2A2
K562.2A4
K562.2A3
K562.1A1
K562.1A2
SW480.1.3
SW480.1.2
SW480.2.1
SW480.2.2
ASPC1.2bis.
ASPC1.2.
ASPC1.1.
MIA.1.
MIA.3.2.
MIA.3.4.
MIA.3.3.
NP29.2.
NP29.1.
Bx.PC3.1.
Bx.PC3.2.
Bx.PC3.4.1.
Bx.PC3.4.2.
Bx.PC3.5.
CACO2.1.1
CACO2.1.2
CACO2.2
PANC1.2.
PANC1.1.
SW620.1.1
SW620.1.2
SW620.1.3
SW620.2.2
SW620.2.1
HCT116.2
HCT116.1.2
HCT116.1.1
HT29.3.1
HT29.3.2
HT29.4
G198
G674
G138
G125
G707
G719
G571
G199
G191
G184
G116
G484
G88
G39
G122
G185
G273
G272
G313
G194
G169
G65
G128
G152
G690
G688
G176
G691
G678
G562
G569
G570
G718
G695
G669
G671
G692
G685
G177
G531
G527
G525
G170
G23
G521
G196

F IG . 6.5 – Pancréas : Double classification ascendante hiérarchique des gènes et échantillons


biologiques avec saut de Ward. La représentation utilise des fausses couleurs pour visualiser les
proximités.

6 Données d’expression
Pour ce type de données, les biologistes apprécient particulièrement de construire une double
classification hiérarchique opérant à la fois sur les lignes et sur les colonnes. Une représentation
en fausses couleurs fournit une lecture susceptible de prendre en compte les “distances” respec-
tives des lignes (gènes) d’une part et des colonnes (échantillons biologiques) d’autre part, et de
se faire ainsi une idée des gènes pouvant influencer la hiérarchie obtenue pour les échantillons.
Néanmoins, cette lecture, même en se limitant à une sélection des gènes proposés par l’analyse en
composantes principales (chapitre 3), n’est pas très aisée (figure 6).
Le choix de la distance est prépondérant dans les résultats d’une classification. Les figure 6 et
6 fournissent les dendrogrammes de la CAH dans le cas d’une dissimilarité calculée à partir de
la corrélation et dans celui d’une distance basée sur la corrélation au carré. Comme pour le MDS
(chapitre précédent), c’est au biologiste de choisir la ou les représentations aidant au mieux sa
compréhension des régulations et/ou inhibitions entre gènes.
Comme pour les données considérant les distances entre villes, il serait facile de coupler pour
6. DONNÉES D’EXPRESSION 89

F IG . 6.6 – Obésité : Classification ascendante hiérarchique des gènes avec saut de Ward
considérant la corrélation.
90 CHAPITRE 6. CLASSIFICATION

F IG . 6.7 – Obésité : Classification ascendante hiérarchique des gènes avec saut de Ward
considérant le carré de la corrélation.
7. EXEMPLE : NUTRITION CHEZ LA SOURIS 91

les données d’expression une représentation des classes par des couleurs dans le graphe du MDS,
ou encore de celui d’une ACP. Nous laissons au lecteur l’appréciation sur le nombre de combinai-
sons d’options possibles (centrage, réduction, distance, critère de saut, projection, classification)
qui sont offertes par l’ensemble de ces outils.

7 Exemple : nutrition chez la souris


Pour ce type de données, les biologistes apprécient particulièrement de construire une double
classification hiérarchique opérant à la fois sur les lignes et sur les colonnes (gènes et échantillons).
Une représentation en fausses couleurs fournit une lecture susceptible de prendre en compte les
“distances” respectives des lignes (gènes) d’une part et des colonnes (échantillons biologiques)
d’autre part, et de se faire ainsi une idée des gènes pouvant influencer la hiérarchie obtenue pour
les échantillons. Néanmoins, cette lecture, même en se limitant à une sélection des gènes proposés
par l’analyse en composantes principales (chapitre 3), n’est pas très aisée (figure 6).
Le choix de la distance est évidemment important. La plus fréquemment rencontrée pour
l’étude du transcriptome est du type de d3 , basée sur la corrélation. Il nous semble pertinent d’uti-
liser les trois types de distances et d’en apprécier leur complémentarité quant à l’interprétation des
résultats. Nous avons fait le choix de limiter cette comparaison des distances au MDS et nous nous
contenterons ici de présenter une classification basée sur la distance euclidienne d1 . Le deuxième
choix intervenant en classification concerne le critère d’agglomération, c’est-à-dire la façon dont
est définie la distance entre deux groupes, et n’a pas d’interprétation biologique simple. Ce choix a
plus une implication géométrique, sur la forme des classes obtenues. Nous avons utilisé le critère
de Ward parce qu’il favorise la construction de classes relativement “sphériques” et qu’on peut lui
associer des critères guidant la détermination du nombre de classes.
L’interprétation de la double classification (Fig. 6.8) présente des analogies avec celle de l’ACP
sur le premier plan principal. Si l’on s’intéresse aux individus-souris, on peut constater que les
deux génotypes sont différenciés en deux groupes, à l’exception de trois souris de type PPAR
ayant suivi les régimes efad (pour deux d’entre elles) et ref. Ce sont ces trois mêmes individus
que l’on retrouve projetés dans la partie négative du premier axe de l’ACP (Fig. 3.15). Pour les
variables-gènes, on peut distinguer deux grandes classes correspondant, d’après les données, à
deux niveaux d’expressions : à gauche, les gènes dont l’expression est relativement faible, à droite
les gènes dont l’expression est globalement plus élevée. Dans cette seconde classe, un groupe
attire particulièrement l’attention sur l’image : sur une bande verticale correspondant à 14 gènes,
les couleurs sont nettement plus variables que sur le reste de l’image. Il s’agit des gènes

CYP4A10, CYP4A14, CYP3A11, L.FABP, THIOL, PMDCI, S14,


Lpin1, Lpin, FAS, GSTmu, GSTpi2, CYP2c29, G6Pase

qui apparaissent tous parmi les gènes les plus corrélés aux deux premiers axes principaux de l’ACP
(Fig. 3.15).
MDS et classification apparaissent donc comme des techniques complémentaires, mais elles
ne sont pas sensibles de la même façon aux perturbations. La perturbation d’une donnée peut for-
tement influencer la structure d’un dendrogramme alors qu’en MDS, la prise en compte conjointe
de toutes les distances deux à deux assure une certaine robustesse pour le calcul des coordonnées
principales. Pour cette raison, il est utile de représenter les classes dans une projection sur des axes
factoriels obtenus soit par MDS soit par ACP. L’éboulis des valeurs propres (Fig. 6.9) nous oriente
vers une représentation du MDS en deux dimensions.
92 CHAPITRE 6. CLASSIFICATION

PPAR − efad
PPAR − efad
PPAR − ref
WT − efad
WT − efad
WT − efad
WT − dha
WT − dha
WT − dha
WT − dha
WT − tsol
WT − tsol
WT − lin
WT − lin
WT − lin
WT − lin
WT − ref
WT − ref
WT − tsol
WT − efad
WT − tsol
WT − ref
WT − ref
PPAR − tsol
PPAR − tsol
PPAR − lin
PPAR − lin
PPAR − ref
PPAR − lin
PPAR − dha
PPAR − lin
PPAR − ref
PPAR − tsol
PPAR − tsol
PPAR − efad
PPAR − efad
PPAR − dha
PPAR − dha
PPAR − dha
PPAR − ref
SIAT4c

FAT

i.BAT

ACAT1

GSTa

cMOAT
AOX
Pex11a
COX2

COX1
ACOTH

Waf1

G6Pase
c.fos
SR.BI
Ntcp
CAR1
PAL
TRb
VLDLr
RARa
i.NOS
CYP2b13
eif2g
ADSS1
UCP2
CYP2b10
NGFiB
CYP26
RARb2
CYP27b1
CYP24
UCP3
RXRg1
Lpin3
GS
PON
NURR1
M.CPT1
PXR
MS
VDR
PDK4
RXRa
MCAD
CIDEA
OCTN2
ACC1
PPARg
FXR
MDR1
apoC3
SHP1
TRa
i.BABP
C16SR
X36b4
Bcl.3
LXRa
LXRb
LPL
hABC1
ADISP
RXRb2
MTHFR
ap2
CYP7a
mABC1
IL.2
THB
PPARd
CYP4A10
CYP4A14
CYP3A11
L.FABP
THIOL
PMDCI
GSTmu
GSTpi2
CYP2c29
S14
Lpin1
Lpin
FAS
HMGCoAred
PLTP
LDLr
FDFT
G6PDH
ACC2
PPARa
i.FABP
LPK
cHMGCoAS
CYP8b1
CPT2
CACP
PECI
ALDH3
mHMGCoAS
BIEN
GK
HPNCL
Lpin2
ACBP
CBS
SPI1.1
apoA.I
MDR2
CYP27a1
BSEP
BACT
Tpbeta
Tpalpha
MRP6
LCE
apoB
AM2R
apoE

F IG . 6.8 – Souris : double classification ascendante hiérarchique des individus-souris et des


variables-gènes selon la méthode de Ward, avec la distance euclidienne.
14
12
10
Valeurs propres

8
6
4
2
0

1 2 3 4 5 6 7 8 9 10

Dimension

F IG . 6.9 – Souris : éboulis des valeurs propres pour le MDS de la matrice de distance euclidienne
intergènes.
7. EXEMPLE : NUTRITION CHEZ LA SOURIS 93

1.0

CYP4A14
0.5

CYP3A11
CYP4A10
GSTpi2 CYP2c29
CAR1
MCAD ACOTH
PMDCI mHMGCoAS
PECI THB
Pex11a
GSTmu Tpalpha LCE
apoE
Tpbeta M.CPT1
apoB
IL.2 PON
RXRa
RXRb2
G6Pase
AOX CACP
SPI1.1 AM2R
PPARa
C16SR VLDLr
LXRb
FXR
ACAT1
PPARgGS
LPL
PXR
MTHFR SIAT4c
BIEN PPARd
X36b4ADISP
OCTN2
MDR1
i.BABP SHP1
CIDEA
RARa
ap2
COX2
LXRa Lpin3
i.BAT
NURR1TRa
Bcl.3
CBScMOAT hABC1
0.0

ALDH3CPT2 CYP26CYP27b1
COX1 MS
UCP3
RXRg1
TRb
CYP2b13
ADSS1
i.NOS
c.fos
CYP7a SR.BI
Dimension 2

BACT
MDR2 CYP2b10 VDR
HPNCL MRP6mABC1
ACC1
ACAT2
CYP27a1
BSEP FDFT FATNtcp
PDK4
Waf1
NGFiB
apoC3
UCP2
eif2g
CYP24
RARb2
THIOL GSTa
ACBP i.FABP
L.FABP apoA.I G6PDH
Lpin2 PAL
LDLr
PLTP
CYP8b1
LPK

GK HMGCoAred
ACC2
cHMGCoAS
−0.5

Lpin1
Lpin
−1.0

S14

FAS

−1.0 −0.5 0.0 0.5 1.0

Dimension 1

F IG . 6.10 – Souris : représentation par positionnement multidimensionnel (distance euclidienne)


des 5 groupes issues de la classification hiérarchique des gènes.
94 CHAPITRE 6. CLASSIFICATION

La représentation de la figure 6.10 est analogue à celle déjà présentée (Fig. 5.6). Elle est
complétée par un codage en couleurs des gènes, selon leur appartenance à une classe issu de la
classification hiérarchique. Pour cela, nous avons coupé l’arbre afin d’en extraire 5 classes.
Brièvement, on peut noter que l’axe 1 met en évidence l’opposition précédemment évoquée
entre CAR1 (surexprimé chez les souris PPAR) et un groupe de gènes (CYP3A10, CYP4A10,
CYP4A14, PMDCI, THIOL et L-FABP) qui est surexprimé chez les souris WT. De manière simi-
laire, l’axe 2 oppose les gènes induits par le régime dha (valeurs positives, gènes impliqués dans le
catabolisme des lipides et dans le métabolisme des xénobiotiques) aux gènes induits par le régime
efad (valeurs négatives, gènes principalement impliqués dans la synthèse de lipides). En remon-
tant vers les feuilles de l’arbre de classification, on notera que le groupe des gènes représentés en
vert est séparé en deux sous-groupes qui conservent une cohérence vis-à-vis des fonctions bio-
logiques de catabolisme et de synthèse des lipides respectivement. Une observation des données
individuelles révèle que ces régulations opérées par les régimes semblent plus marquées chez les
souris WT. Baccini et col. (2005) montrent que d’autres techniques (forêts aléatoires par exemple)
permettent de confirmer ces observations de manière plus objective.
Chapitre 7
Modèle linéaire et régression

1 Introduction
Ce chapitre fait suite aux précédents sur les analyses descriptives en adoptant un esprit différent
puisqu’abordant la statistique inférentielle.
Un modèle linéaire est une expression qui relie une variable quantitative (la variable à expli-
quer) à des variables, quantitatives et/ou qualitatives (les variables explicatives).
Les analyses des modèles linéaires portent des noms différents selon la nature des variables
explicatives utilisées dans le modèle. Le tableau suivant contient le nom des différentes analyses
par nature des variables explicatives.

Variables explicatives Nom de l’analyse


1 quantitative régression simple
plusieurs quantitatives régression multiple
plusieurs qualitatives analyse de variance
1 ou plusieurs quantitatives et plusieurs qualitatives analyse de covariance

Il existe cependant une théorie statistique englobant ces divers types de modèles : le modèle
linéaire.
Notons que si non plus une, mais plusieurs variables quantitatives sont à expliquer conjoin-
tement, on se place dans le cadre de la régression multivariée, qui est fortement liée à l’analyse
canonique. D’autre part, si la variable à expliquer est qualitative plutôt que quantitative, d’autre
modèles sont à mettre en place comme la régression logistique ou la régression loglinéaire qui
s’intègrent dans la famille du modèle linéaire général.
Dans la suite, nous aborderons en détail le modèle de régression simple, puis nous passerons
en revue les autres modèles avec leurs spécificités en gardant en mémoire que les méthodes d’es-
timation des paramètres, les tests et les analyses diagnostics sont identiques.

2 Le modèle de régression simple


Le but d’une analyse de régression est d’étudier les relations qui existent entre des facteurs/variables
mesurables à partir d’observations (données) prises sur ces facteurs. Des objectifs plus précis d’une
telle analyse peuvent être :
• la prévision (ex : étant donné l’âge, fumeur/non fumeur, le poids, etc ..., combien d’années

95
96 CHAPITRE 7. MODÈLE LINÉAIRE ET RÉGRESSION

un individu devrait-il survivre ?) ;


• la sélection de variables (ex : Parmi la température, l’ensoleillement, la pluie, l’altitude, le
bruit ambiant, etc ..., quels facteurs ont une influence significative sur la croissance des pins
des landes ?) ;
• la spécification de modèle (ex : Comment la durée de vie de transformateurs électriques
varie-t-elle en fonction de leur grosseur ?) ;
• l’estimation de paramètres (ex : la luminosité en fonction de la distance des étoiles d’une
certaine galaxie est de la forme L = K1 + K2 d + σ, où K1 , K2 et σ sont des paramètres
inconnus à estimer à partir des observations).
Données pH. On veut étudier sur des carpes le pH (x) du milieu ambiant et le pH (y) de leur
sang (données simulées) :
R ¿ x<- round(runif(30)*5+1,1)
R ¿ y<-2+3*x+rnorm(30,0,1)
Les données consistent en 30 unités statistiques (u.s.). Pour l’u.s. i, on a (xi , yi ). Au vu de la
20
15
y

10

2 3 4 5 6

F IG . 7.1 – Données pH : le pH sanguin de 30 carpes vs. le pH ambiant.

figure 7.1, on pressent qu’il existe une relation linéaire entre x et y : y =β


˙ 1 + β2 x. On écrit donc le
modèle de régression suivant, expliquant y par une combinaison linéaire de paramètres à estimer
(β1 et β2 ) :
yi = β1 + β2 xi + ei , pour i = 1, ...30; (7.1)
où ei est un résidu que l’on espère le plus petit possible. La variable y est appelée variable en-
dogène (variable réponse, variable dépendante) ; les variables xi sont appelées variables exogènes
(variables explicatives, facteurs, covariables, variables indépendantes).
Hypothèses : Les observations yi sont des réalisations de 30 variables aléatoires indépendantes
Yi de moyenne β1 + β2 xi et de variance σ 2 . De manière équivalente, les résidus ei sont des
réalisations de 30 variables aléatoires indépendantes Ei de moyenne 0 et de variance σ 2 .

2.1 Ecriture et hypothèses du modèle


Nous observons n paires (y1 , x1 ), ..., (yn , xn ) et supposons que :
2. LE MODÈLE DE RÉGRESSION SIMPLE 97

yi = β1 + β2 xi + ei , i = 1, ..., n;

où
y1 , y2 , ..., yi , ..., yn sont les n observations de la variable endogène (ou variable à expliquer),
x1 , ..., xn sont les n observations de la variable exogène (ou variable explicative),
e1 , ..., en sont les n termes d’erreur,
β1 est le paramètre d’ordonnée à l’origine (la valeur moyenne de y lorsque x prend la valeur 0),
β2 est le paramètre de pente (si x augmente d’une unité, alors y augmente de β2 unités en
moyenne).
Trois hypothèses sont essentielles à faire sur la distribution des termes d’erreur :
(i) les résidus sont de moyenne nulle (hypothèse de linéarité)

E(ei ) = 0, ∀i = 1, ..., n

(ii) les ei ont une variance identique (homoscédasticité)

Var(ei ) = σ 2 , ∀i = 1, ..., n

(iii) les ei sont indépendants (donc non corrélés)

Cov(ei , ej ) = 0, ∀i 6= j

En supposant les valeurs xi , (i = 1, ..., n) comme étant non aléatoires (déterministes), les
hypothèses ci-dessus impliquent que E(yi ) = β1 + β2 xi ; Var(yi ) = σ 2 et Cov(yi , yj ) = 0. On
voit bien que quelle que soit la valeur de la variable explicative, seule l’espérance de y dépend
de x, c’est à dire que la variance de y et la covariance entre deux observations de la variable à
expliquer ne dépendent pas de la valeur de la variable explicative.
La droite de régression (β1 +β2 x) représente la valeur attendue de y en fonction de la valeur de
x. Les valeurs observées de y sont distribuées de façon aléatoire autour de cette droite. Les termes
d’erreur sont les différences entre les valeurs observées de y et la droite. Comme la variance de
ces termes d’erreur est constante en x, la distance moyenne des points à la droite est la même pour
toute valeur de x. Finalement la non-corrélation entre les termes d’erreur signifie que la valeur
d’un terme d’erreur n’est pas influencée par la valeur des autres termes d’erreur.
L’expression 2.1 se décompose de manière classique en :

observation = modèle + résidu.

2.2 Le modèle linéaire gaussien


Dans le modèle linéaire expliqué au paragraphe précédent, seuls les deux premiers moments
des termes d’erreur (espérance et variance) sont supposés connus. Dans un modèle linéaire gaus-
sien, on se donne une hypothèse supplémentaire : la distribution des résidus est supposée normale.

ei ∼ N (0, σ 2 )

Cette hypothèse implique que les variables aléatoires yi sont normalement distribuées.
98 CHAPITRE 7. MODÈLE LINÉAIRE ET RÉGRESSION

2.3 Estimation des paramètres β1 et β2


Dans cette partie, la variance σ 2 est supposée connue. Les paramètres inconnus sont β1 et β2
et ils sont estimés à partir des données observées (yi , xi , i = 1, ..., n). Deux grandes méthodes
sont utilisées :
• la méthodes des moindres carrés, qui ne suppose connues que l’espérance et la variance de
y;
• la méthode du maximum de vraisemblance, qui suppose les résidus gaussiens.
On notera classiquement les estimations avec un ”chapeau”. Par exemple, β̂1 désigne l’estimation
de β1 , c’est-à-dire une fonction de y (et de x). Rappelons ici que x est supposé connu, alors que y
est une variable aléatoire (ou sa réalisation).
On appelle ième valeur ajustée ou prédite ou attendue la fonction de y suivante :

ŷi = β̂1 + β̂2 xi

et le résidu correspondant vaut :


êi = yi − ŷi .

Les moindres carrés ordinaires


L’idée est de trouver la droite qui explique la plus grande partie possible de la relation entre
la variable endogène et la variable exogène, c’est à dire trouver la droite qui minimise la partie
inexpliquée ou la partie due à la fluctuation aléatoire. On cherche donc la droite qui passe le plus
près possible de tous les points ou, en d’autres termes, la droite qui minimise la distance des points
à la droite (les termes d’erreurs).
La méthode des moindres carrés consiste à trouver les valeurs de β̂1 et β̂2 (estimateurs de β1
et β2 ) qui minimisent la somme des carrés des écarts entre les valeurs observées et les valeurs
ajustées (somme des carrés des résidus) :
n
X n
X n
X
min ê2i = min (yi − ŷi )2 = min (yi − β̂1 − β̂2 xi )2
β̂1 ,β̂2 i=1 β̂1 ,β̂2 i=1 β̂1 ,β̂2 i=1

Puisque la fonction à minimiser a de bonnes propriétés (lisse, convexe), elle se minimise en


prenant les dérivées de la somme par rapport à β̂1 et β̂2 , en posant ces dérivées égales à zéro et en
résolvant le système de deux équations à deux inconnues. On obtient :

β̂1 = ȳ − β̂2 x̄

et Pn
(y − ȳ)(xi − x̄) Sxy
Pn i
β̂2 = i=1 2
=
i=1 (xi − x̄) Sxx
Prenons l’exemple des données pH. Avec le logiciel R, on peut ajuster le modèle (7.1) :
> reg1 <- lm(y ∼ x)

Coefficients :
(Intercept) x
5.572096 0.1951841

Degrees of freedom : 7 total ; 5 residual


Residual standard error : 0.05754663
2. LE MODÈLE DE RÉGRESSION SIMPLE 99

> plot(x,y,xlab="pH ambiant (x)",ylab="pH sanguin (y)")


> lines(x,reg1$fitted.values)

On vérifie graphiquement que l’ajustement est cohérent en comparant valeurs observées et


valeurs ajustées (figure 7.2)

18
16
14
reg$fitted.values

12
10
8
6

10 15 20

F IG . 7.2 – Données pH : droite de régression du modèle (7.1).

La méthode du maximum de vraisemblance


. Cette méthode nécessite l’ajout de l’hypothèse de normalité des résidus : ei ∼ iidN (0, σ 2 ),
ce qui implique que les yi sont des variables aléatoires normales indépendantes :

yi ∼ N (β1 + β2 xi , σ 2 ).

Cette méthode repose sur l’idée suivante : si les données de l’échantillon ont été observées,
cela provient du fait que ces données sont les plus vraisemblables. Les estimateurs des paramètres
inconnus du modèle sont donc calculés en maximisant une quantité (vraisemblance) qui mesure
la probabilité d’observer l’échantillon. Dans le cadre de la régression linéaire simple, on cherche
donc à maximiser la fonction de vraisemblance :

n
Y
2
L(β1 , β2 , σ ) = f (yi ; xi )
i=1
n
1 1 2
e− 2σ2 (yi −β1 −β2 xi )
Y
= √
i=1 2πσ 2
n
( )
1 X
= (2π)−n/2 (σ 2 )−n/2 exp − 2 (yi − β1 − β2 xi )2

i=1
100 CHAPITRE 7. MODÈLE LINÉAIRE ET RÉGRESSION

Le logarithme de la vraisemblance, multiplié par (-2), s’écrit


n
X
2 2 2 −2
l(β1 , β2 , σ ) = −2 ln L(β1 , β2 , σ ) = n ln(2π) + n ln σ + σ (yi − β1 − β2 xi )2
i=1

Maximiser la vraisemblance équivaut donc à faire des moindres carrés.

2.4 Propriétés des estimateurs


Pour le modèle de régression simple, on peut montrer que :

E(βˆ1 ) = β1 et E(βˆ2 ) = β2

On dit alors que les estimateurs des paramètres sont sans biais. Rappelons que l’espérance est
calculée par rapport à la loi de y.

D’autre part,
Sxy σ2
Var(β̂2 ) = Var( )=
Sxx Sxx
1 x̄2
Var(β̂1 ) = Var(ȳ − β̂2 x̄) = σ 2 ( + )
n Sxx
x̄σ 2
Cov(β̂1 , β̂2 ) = Cov(ȳ − β̂2 x̄, β̂2 ) = −
Sxx
On remarque ici que les deux estimateurs peuvent être très fortement corrélés. Pour éviter cela, on
peut opérer une reparamétrisation :
β0 + β2 (xi − x̄)
avec β0 = β1 + β2 x̄. Les estimateurs de ces deux paramètres ne sont pas corrélés : Cov(β̂0 , β̂2 ) =
0, et la variance d’estimation de β0 est plus faible que celle de β1 : Var(β̂0 ) = σ 2 /n < Var(β̂1 ).
Cette remarque souligne l’importance d’une bonne paramétrisation sur la précision des estima-
tions. Des problèmes numériques sont aussi évités.

2.5 Estimation ponctuelle de σ 2


En général, on ne connait pas la valeur de σ 2 , il faut alors l’estimer. Comme les résidus êi =
yi − ŷi peuvent être vus comme des estimateurs des ei , la variance d’échantillonnage des êi est un
estimateur raisonnable de σ 2 = Var(ei ). Un estimateur sans bais est donné par :
Pn
(yi − ŷi )2 SSE
s2 = i=1 =
n−2 n−2
où SSE = ni=1 ê2i est la somme des carrés résiduels.
P

2.6 Tests d’hypothèse et intervalles de confiance


Si les yi sont des variables aléatoires normales, puisque les β̂ sont des combinaisons linéaires
des yi , alors ces estimateurs sont donc aussi des variables alétoires normales. Plus particulièrement :

1 x̄2
β̂1 ∼ N (β1 , σ 2 ( + ))
n Sxx
2. LE MODÈLE DE RÉGRESSION SIMPLE 101

σ2
β̂2 ∼ N (β2 , ).
Sxx
On peut donc standardiser les estimateurs pour obtenir :

β̂ − β1
q1 ∼ N (0, 1)
2
σ n1 + Sx̄xx

β̂2 − β2
√ ∼ N (0, 1)
σ/ Sxx

Comme σ 2 n’est pas connue, nous remplaçons dans les expressions ci-dessus σ 2 par son esti-
mation s2 . Ce faisant, on doit corriger la distribution (cf. Annexe D, plus le fait que s2 ∼ χ2n−2 )
afin d’obtenir :
β̂ − β1
q1 ∼ tn−2
2
s n1 + Sx̄xx

β̂2 − β2
√ ∼ tn−2
s/ Sxx

Les deux équations ci-dessus nous mènent aux intervalles de confiance à (1−α)100% suivants
pour β1 et β2 :  
s
1 x̄ 2
β̂1 ± tα/2;n−2 s + 
n Sxx
h p i
β̂2 ± tα/2;n−2 s/ Sxx

On peut aussi tester l’hypothèse de nullité d’un des paramètres. Par exemple, pour tester l’hy-
pothèse nulle H0 : β1 = 0 vs l’hypothèse alternative H1 : β1 6= 0, on utilise la statistique :

β̂1
t1 = q ∼ tn−2
x̄2
s n1 + Sxx

qui est distribuée selon une loi de Student à n − 2 degrés de liberté.


On rejettera donc l’hypothèse nulle si t1 > tα/2;n−2 au niveau α. Il est clair que ce test correspond
à la présence (H0 ) ou à l’absence (H1 ) de 0 dans l’intervalle de confiance.

2.7 Vérification des hypothèses


Tous les résultats (estimation, tests, intervalle de confiance) du modèle linéaire reposent sur des
hypothèses fondamentales faites sur la distribution des termes d’erreur. Les résidus du modèle sont
donc des outils privilégiés pour vérifier ces hypothèses. Voici un plan de vérification qu’il serait
bon de suivre après chaque analyse (les hypothèses à vérifier sont classées par ordre d’importance
décroissante) :
i. Vérifier que les résidus sont centrés : E(e) = 0 (hypothèse de linéarité) ;
ii. Vérifier l’homoscédasticité (la variance des résidus doit être constante) ;
iii. Vérifier l’indépendance des observations (hypothèse de non corrélation) ;
iv. Vérifier la normalité des résidus.
102 CHAPITRE 7. MODÈLE LINÉAIRE ET RÉGRESSION

Plusieurs versions de ces résidus existent :


Résidus ordinaires : le i ème résidu (ordinaire) est défini comme étant ei = yi − ŷi . Si
l’hypothèse 1) est vraie, alors E(ei ) = 0. Si les hypothèses 2) et 3) sont vraies, alors

Var(ei ) = (1 − hii )σ 2 etCov(ei , ej ) = −hij σ 2 ,

où hij = 1/n + (xi − x̄)(xj − x̄)/Sxx .


Enfin, si l’hypothèse iv) est vraie, ei ∼ N (0, σ 2 (1 − hii )).
Avec le logiciel R, ces résidus sont obtenus avec la commande monmodele$residuals,
où monmodele est le résultat de la fonction lm : monmodele <- lm(y ∼ x)
Résidus standardisés : le i ème résidu standardisé est défini comme étant ri = √ ei .
s 1−hii
Avec le logiciel R, on obtient ces résidus par la commande rstandard(monmodele).
ei
Résidus studentisés : ce sont de légères modifications des précédents : ti = s √1−h , où s2i
i ii
est une estimations sans biais de V ar(êi). On montre que les ti suivent une loi de Student à n − 3
degrés de liberté.
Avec le logiciel R, on obtient ces résidus par la commande rstudent(monmodele).
Vérification de la linéarité
Graphique des résidus vs valeurs ajustées : ŷi vs êi (figure 7.3)
Ce graphique permet surtout de cerner les problèmes avec l’hypothèse 1) de linéarité. Si l’hy-
pothèse est raisonnable, ce graphique devrait montrer un nuage de points centrés horizontalement
autour de 0. Le graphique devrait avoir une allure complètement aléatoire, c’est à dire qu’il ne de-
vrait y avoir aucune tendance discernable (ei croissant ou décroissant avec ŷi , graphique à l’allure
quadratique, etc...). Ce graphique peut également cerner des problèmes avec les autres hypothèses,
mais les graphiques basés sur les résidus studentisés sont plus appropriés dans ces cas.

Residuals vs Fitted

2
14
2
1
Residuals

0
−1

17
−2

6 8 10 12 14 16 18

Fitted values
lm(formula = y ~ x)

F IG . 7.3 – Données pH : plot des résidus vs valeurs ajustées, pour le modèle (7.1).

Graphique des résidus vs variable explicative : xi vs êi (figure 7.4)


2. LE MODÈLE DE RÉGRESSION SIMPLE 103

Encore une fois, ce type de graphique permet de détecter des problèmes avec l’hypothèse de
linéarité ; il devrait avoir l’air d’un nuage de points dispersés horizontalement de façon aléatoire
autour de 0.

2
1
reg$residuals

0
−1
−2

2 3 4 5 6

F IG . 7.4 – Données pH : plot des résidus vs variable explicative, pour le modèle (7.1).

Vérification de l’homoscédasticité
Cette hypothèse est importante. Une forte violation de cette dernière entraı̂ne des conséquences
désastreuses sur : les erreurs standards des paramètres, les risques des tests, les intervalles de
confiance. La méthode la plus couramment utilisée est la vérification graphique. Elle consiste à
représenter les résidus en fonction des valeurs ajustées, des valeurs observées ou des valeurs de
x. On peut également utiliser les résidus studentisés pour vérifier l’hypothèse d’homoscédasticité.
Un graphique ayant une apparence d’entonnoir indique que la variance ne semble pas constante
(problème d’hétéroscédasticité). Si certains résidus ont des valeurs plus grandes que 2 en valeur
absolue, ceci peut indiquer un manque de normalité ou la présence de données atypiques.
Vérification de l’indépendance
Graphique des résidus vs numéro d’observations : êi vs i
Ce graphique sert à vérifier l’hypothèse de non corrélation des résidus. Si les résidus de grande
(faible) valeur ont tendance à suivre des résidus de grande (faible) valeur, alors il y a un problème
d’autocorrélation positive. Si les résidus de grande (faible) valeur ont tendance à suivre des résidus
de faible (grande) valeur, alors il y a un problème d’autocorrélation négative.
Quand la régression est réalisée sur des données qui varient au cours du temps, les observations
peuvent ne pas être indépendantes. Pour vérifier l’indépendance, un test est habituellement utilisé :
le test de Durbin-Watson. Il est basé sur la statistique :
Pn
(ei − ei−1 )2
d = i=2Pn 2
i=1 ei

Les ei sont les résidus de la régression


Pn
et n est le nombre d’observations. On peut montrer que
(ei ei−1 )2
0 ≤ d ≤ 4 et que d ' 2 − 2 Pn e2 i=2
' 2 − 2ρe où ρe est le coefficient d’autocorrélation
i=1 i
104 CHAPITRE 7. MODÈLE LINÉAIRE ET RÉGRESSION

d’ordre 1 des résidus. Il est obtenu en calculant la corrélation entre la série des résidus et la même
série décalée de 1. Si ρe = 0 soit d ' 2 alors les résidus sont non corrélés. Si par contre ρe 6= 0
ou encore d 6= 2 alors les résidus sont corrélés.
Vérification de la normalité
Cette étape n’est pas aussi importante qu’on le croit généralement. La normalité est une pro-
priété qui permet aux estimateurs de converger rapidement. Le théorème central limite nous as-
sure que pour des échantillons assez grands, les estimateurs que nous utilisons sont normalment
distribués. La symétrie des distributions observées est un critère important qui assure une conver-
gence rapide vers la loi normale. Les méthodes pour vérifier la normalité sont nombreuses, parmi
celles-ci on peut citer les méthodes graphiques (QQplot, PPplot, histogrammes, boxplot, etc...) et
les tests (Chi2, Shapiro-Wilk, Kolmogorov-Smirnov, ...).
Graphique des résidus studentisés vs quantiles de la loi normale : ti vs ui (figure 7.5) Ce
graphique permet de détecter les problèmes avec le postulat de normalité. Il est parfois appelé
QQplot normal ou droite de Henry, tout dépend de la forme utilisée pour les ui . Dans le QQplot,
il s’agit des quantiles de la loi normale standard. Dans le cas de la droite de Henry, il s’agit de
l’espérance des statistiques d’orde de la loi normale standard. Dans les deux cas, si l’hypothèse de
normalité est raisonnable, le graphique devrait avoir la forme d’une ligne droite de pente positive.
Des graphiques à l’allure de courbe concave ou convexe indiquent une distribution non symétrique
des résidus, alors qu’un graphique en forme ”d’intégrale inversée couchée” indique que les résidus
proviennent d’une distribution ayant des queues plus épaisses que celles de la loi normale.

Normal Q−Q plot

2
14
2
Standardized residuals

1
0
−1
−2

17

−2 −1 0 1 2

Theoretical Quantiles
lm(formula = y ~ x)

F IG . 7.5 – Données pH : QQplot du modèle (7.1).

Boxplot des résidus : Le Boxplot des résidus (ordinaires ou studentisés) sert à déterminer si
ces derniers proviennent d’une distribution symétrique et si certains résidus sont de valeur extrême.
Une distribution non symétrique est indiquée par une moustache plus longue que l’autre, ou une
ligne médiane proche d’une extremité de la boı̂te. Un résidu extrême est indiqué par un point à
l’extérieur des moustaches.
2. LE MODÈLE DE RÉGRESSION SIMPLE 105

Détection et élimination de valeurs atypiques


Un examen critique des données est une étape importante en statistique. Il existe deux grands
types de données généralement classées comme atypiques : les données qui ne sont pas habituelles,
et les données qui violent une hypothèse de l’analyse statistique utilisée. Différentes attitudes de-
vraient être adoptées suivant la nature du problème rencontré. Les données provenant d’erreurs
grossières de mesures ou d’erreurs de frappe doivent être supprimées de l’analyse. Seul un ju-
gement biologique permet de déclarer une valeur comme aberrante. Souvent, après un examen
attentif des données on trouve des valeurs inhabituelles. Un expérimentateur prudent doit alors
rechercher la (les) causE(s) de telles valeurs. Deux cas de figures se présentent alors : soit la cause
est identifiée et il faut changer la donnée ou la méthode d’analyse ; soit la cause n’est pas identifiée
et un test statistique peut être utilisée pour détecter une valeur atypique.
L’examen graphique des résidus est un bon outil (graphique des ê en fonction de ŷ). Une autre
technique consiste à calculer des indices pour chaque résidu. La plupart des indices calculés par
les logiciels de statistique ont une signification inférentielle. Les trois les plus couramment usités
sont : les résidus standardisés, les distances de Cook, les contributions.
Avec les résidus standardisés, il est donc possible de tester l’”aberrance” de chaque résidu en
utilisant un test de Student. Attention toutefois aux tests multiples (voir plus loin).
Les contributions (leverage) et les mesures de Cook mesurent la contribution de chaque résidu
à la variance résiduelle (non expliquée par le modèle). Sous les hypothèses usuelles (hypothèses
du modèle), les distances de Cook suivent une loi de Fisher à p et n − p degrés de liberté. Elles
s’obtiennent par :
hii
Di = r2 ,
2(1 − hii ) i

tenant compte ainsi de l’importance du résidu i et de l’influence hii de l’observation i sur la droite
de régression (effet ”levier”). Une méthode pour identifier les observations qui contribuent trop à
la variance résiduelle consiste à réaliser un test de Fisher sur le résidu de Cook (i.e. de comparer
sa valeur limite à un seuil donné d’une loi de Fisher à p et n − p ddl).
Pour des données gaussiennes, les leverage devraient être voisines de np ; p représente le
nombre de paramètres indépendants estimés dans le modèle. Si pour un résidu, le leverage corres-
pondant est supérieur à 2p
n , la donnée peut être considérée comme suspecte.

Comment régler les problèmes ?


Manque de linéarité : Ceci est en général dû à une mauvaise spécification de la forme de la
relation entre la variable endogène et la variable exogène. Le problème peut être réglé par une ou
plusieurs options suivantes :
• transformer la variable exogène, ajouter au modèle des termes en x2i , x3i , ... ;
• ajouter au modèle de nouvelles variables exogènes ;
• transformer la variable endogène.
Hétéroscédasticité : La transformation de Box-Cox pourra souvent prescire une transforma-
tion de la variable endogène qui règlera ce problème (transformation stabilisatrice de la variance).
Si la transformation de Box-Cox ne fonctionne pas, alors la régression pondérée ou l’utilisation
d’une autre méthode statistique peut être utile.
Méthode de Box-Cox : Cette méthode suppose un modèle de régression général de la forme :
g(yi ; λ) = β1 + β2 xi + ei où λ est un paramètre inconnu et qu’il faut estimer à partir des données ;
λ
g(y; λ) = y λ−1 si λ 6= 0 et g(y; λ) = ln λ si λ = 0. On estime λ en même temps que les autres
106 CHAPITRE 7. MODÈLE LINÉAIRE ET RÉGRESSION

Cook’s distance plot

14

0.3
Cook’s distance

0.2
2

20
0.1
0.0

0 5 10 15 20 25 30

Obs. number
lm(formula = y ~ x)

F IG . 7.6 – Distance de Cook pour le modèle (7.1) sur les données pH.

paramètres par la méthode du maximum de vraisemblance.


Auto-corrélation des résidus : ce problème est plus difficile à régler. Il est parfois possible
de le régler en ajoutant une variable exogène qui explique pourquoi il y a autocorrélation (par
exemple, si les premières mesures sont faites sur l’individu A, les mesures suivantes sur l’individu
B, etc., alors peut-être ajouter une variable exogène dénotant l’individu sur lesquelles les mesures
ont été faites pourra régler le problème). Mais en général, il faut avoir recours à un modèle plus
complexe que le modèle linéaire simple (séries temporelles, modèle linéaire mixte).
Manque de normalité : Encore une fois, la transformation de Box-Cox règle souvent le
problème. Parfois, le manque de normalité est tout simplement dû à quelques observations extrêmes.
Dans ces cas, nous pourrons réglér le problème en traitant ces observations de façon appropriée.
Une autre option consiste à utiliser des méthodes de régression robustes ou non paramétriques
(non abordées dans ce cours).

3 Régression lineaire multiple


Quand on dispose de plusieurs variables explicatives, on peut mettre en oeuvre un modèle
de régression linéaire multiple. Supposons que l’on dispose de n observations sur une variable
continue y et p variables continues x1 , ..., xj , ...xp . On note yi (resp. xj,i ) la ième observation de
y (resp. xj ). Le modèle suivant :

yi = β1 x1,i + β2 x2,i + ... + βj xj,i + ... + βp xp,i + ei

est un modèle de régression multiple, cherchant à expliquer la variable y par p variables explica-
tives x1 , ...xj , ...xp , à l’aide d’un échantillon de taille n.
Les résidus ei sont supposés de moyenne nulle, de variance égale σ 2 , et mutuellement indépendants,
éventuellement gaussiens.

Les paramètres inconnus β1 , ...βj , ...βp (et éventuellement σ 2 ) sont estimés par moindres
3. RÉGRESSION LINEAIRE MULTIPLE 107

carrés (la somme des carrés des résidus la plus petite possible), ou par maximum de vraisemblance
si les résidus sont supposés gaussiens, exactement comme dans le cas de la régression simple.

3.1 Multicolinéarité
Des problèmes d’estimation des paramètres et de variance peuvent arriver lorsque dans le
modèle de régression, on utilise des variables explicatives corrélées entre elles. On parle alors de
multicolinéarité et cela conduit à des estimations biaisées des paramètres avec des variances im-
portantes. Pour diagnostiquer ces situations, une des méthodes est de faire la régression de chaque
variable en fonction des autres variables explicatives et de mesurer les liaisons à l’aide du coef-
ficient Rj2 de chacune de ces régressions (où Rj est le coefficient de corrélation multiple obtenu
en régressant la variable xj sur les (k − 1) autres variables explicatives). On appelle tolérance, la
valeur 1 − Rj2 . Une tolérance qui est proche de 1 signifie une absence de multicolinéarité entre les
variables explicatives. En revanche, si la tolérance tend vers 0, alors on détecte un problème de
multicolinéarité entre les variables explicatives.

3.2 Critères de sélection de modèle


Pour obtenir un compromis satisfaisant entre un modèle trop simple (grands résidus) et un
modèle faisant intervenir beaucoup de variables (donc très instable), on dispose de plusieurs
critères qui ne donnent pas nécessairement le même résultat.
Coefficient de détermination et ses variantes
Pour mesurer la qualité d’un modèle de régression linéaire, ou pour comparer des modèles de
régression linéaire entre eux, on définit le coefficient de détermination :
Pn
2 SSReg SSE (Ŷi − Ȳi )2 Var(ŷ)
R = =1− = Pi=1
n 2
= = corr2 (y, ŷ)
SST ot SST ot i=1 (Y i − Ȳ i ) Var(y)

On a que 0 ≤ R2 ≤ 1. Quand R2 = 0, toute la variabilité est due à l’erreur aléatoire et le


modèle n’explique absolument rien de la valeur de yi . Quand R2 = 1, tous les points tombent sur
la droite de régression, c’est à dire que l’ajustement du modèle est parfait et que la valeur de yi est
une fonction exacte de xi .
Le coefficient de détermination R2 peut donc être interprété comme la proportion de la varia-
bilité dans les yi qui est expliquée par le modèle de régression.
Bien que facilement interprété et naturellement attrayant, le coefficient de détermination souffre
de quelques problèmes qui font qu’il ne peut pas être utilisé pour comparer n’importe quels
modèles de régression l’un avec l’autre. L’inconvénient principal est que dès que l’on ajoute un
terme à un modèle de régression, le coefficient de détermination augmente. Afin de circonscrire à
ce problème, nous pouvons utiliser le coefficient de détermination ajusté :

2 (n − 1) (n − 1)R2 − p
Rajust =1− (1 − R2 ) =
(n − p − 1) n−p−1

avec n le nombre d’observations et p le nombre de paramètres. Avec le Rajust 2 , l’ajout d’une


variable explicative peut aussi résulter en une diminution de la statistique. La comparaison de
modèles sur la base de ce critère revient à comparer deux modèles sur la base de leur estimé de la
variance des termes d’erreur s2 . Le meilleur modèle sera celui ayant le Rajust
2 le plus grand.
108 CHAPITRE 7. MODÈLE LINÉAIRE ET RÉGRESSION

Cp de Mallows
Une autre critère appelé, le coefficient Cp de Mallows peut être utilisé. Il est défini par :

SSE
Cp = − n + 2p
σ̂ 2
où SSE est la somme des carrés résiduels du modèle et σ̂ 2 est l’estimation de la variance résiduelle
sous le modèle complet. On choisira la modèle pour lequel le coefficient Cp est minimum.
Test de Fisher pour modèles emboités
Il se peut qu’on veuille tester si le modèle à p variables explicatives peut être réduit à q (q petit
devant p) variables ; c’est à dire que l’on veut tester si un sous-modèle plus simple explique une
partie suffisamment grande de la variabilité dans les yi pour qu’il ne soit pas nécessaire d’utiliser
le modèle le plus complexe (car trop de paramètres à estimer). Cela revient à tester l’hypothèse de
nullité de k(= p − q) paramètres du modèle :

H0 : β1 = β2 = ... = βk = 0 avec k petit devant p

Sous l’hypothèse alternative, au moins un des paramètres β1 , ..., βk est non-nul.


Ce test peut être formulé comme la comparaison de deux modèles emboités, l’un à p + 1
paramètres et l’autre à q+1 paramètres. L’hypothèse H0 peut être testée au moyen de la statistique :
SSE0 − SSE1 n − p − 1
Fcal = ∼ F (k, n − p − 1)
SSE1 k

où SSE0 est la somme des carrés résiduelles du modèle réduit sous H0 et SSE1 est la somme des
carrés résiduelles du modèle de référence (modèle complet à p variables explicatives).
On compare Fcal à la valeur limite de la statistique d’une loi de Fisher Fα (k, n − p − 1). Si
Fcal > Fα (k, n − p − 1) alors on rejette H0 .
Remarque : Dans le cas où k = 1, on teste la nullité d’un seul paramètre du modèle. Etant
donné la propriété selon laquelle une variable aléatoire distribuée selon une loi F (1, m) est le carré
d’une variable aléatoire de Student à m degré de liberté ; le test de Fisher ci-dessus et le test de
Student donnent les mêmes conclusions.
Chapitre 8
Modèle linéaire : analyse de variance

L’analyse de variance est un cas particulier de la régression. La différence essentielle est la


structure que possèdent les variables explicatives. L’objectif de l’analyse de variance est la re-
cherche de relations entre une variable quantitative et des variables qualitatives (appelées aussi
facteurs de variation). Quand un seul facteur de variation est utilisé pour expliquer les variations
de Y , on réalise une analyse de la variance à un facteur (à une voie). Dans le cas général, plusieurs
facteurs (p) sont présents pour expliquer les variations de Y , on parle alors d’analyse de variation
à p facteurs.

1 ANOVA à un facteur
1.1 Un exemple
Données Ampoules. On considère maintenant plusieurs procédés de fabrication de lampes à
ultra-violets : On numérote les u.s. (i, j), où i est le numéro du procédé de fabrication et j est le

TAB . 8.1 – Observations de durées de vie d’ampoules échantillonnées pour 6 procédés de fabrica-
tion.
F1 1602 1615 1624 1631
F2 1472 1477 1485 1493 1496 1504 1510
F3 1548 1555 1559 1563 1575
F4 1435 1438 1448 1449 1454 1458 1467 1475
F5 1493 1498 1509 1516 1521 1523
F6 1585 1592 1598 1604 1609 1612

numéro de la lampe à i fixé. On note yij la durée de vie de la j ème lampe fabriquée suivant le
procédé i, et µi la durée de vie moyenne d’une lampe fabriquée suivant le procédé i.
Le modèle s’écrit :
yij = µi + eij , i = 1, ...6 j = 1, ...ni (8.1)

où eij est un résidu tel que eij ∼ N (0, σ 2 ) et ni le nombre d’observations pour le procédé i. Les
résidus sont supposés être indépendantes. Le modèle peut également s’écrire comme celui d’une
régression linéaire multiple :

yij = β1 x1 + β2 x2 + ... + β6 x6 + eij

109
110 CHAPITRE 8. MODÈLE LINÉAIRE : ANALYSE DE VARIANCE

avec xi = 1 si yij est une observation faite dans la classe i et xi = 0 sinon. On a la relation
suivante entre l’écriture des deux modèles d’analyse de variance : βi = µi .

1.2 Diverses paramétrisations


Analysons les données Ampoules.
Avec le logiciel R
> options(contrasts="contr.treatment")

> reg2 <-lm(dvie ∼ proc)

> summary(reg2)

Call : lm(formula = dvie proc)


Residuals :
Min 1Q Median 3Q Max
-19 -9 4.996e-15 9.5 22
Coefficients :
Value Std.Error t value Pr(>|t|)
(Intercept) 1618.0000 6.2022 260.8773 0.0000
procF2 -127.0000 7.7748 -16.3348 0.0000
procF3 -58.0000 8.3211 -6.9703 0.0000
procF4 -165.0000 7.5961 -21.7218 0.0000
procF5 -108.0000 8.0069 -13.4883 0.0000
procF6 -18.0000 8.0069 -2.2480 0.0321
Residual standard error : 12.4 on 30 degrees of freedom
Multiple R-Squared : 0.9644
F-statistic : 162.7 on 5 and 30 degrees of freedom, the p-value is 0
¿ reg2$fitted.values

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
1618 1618 1618 1618 1491 1491 1491 1491 1491 1491 1491 1560 1560 1560 1560
16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
1560 1453 1453 1453 1453 1453 1453 1453 1453 1510 1510 1510 1510 1510 1510
31 32 33 34 35 36
1600 1600 1600 1600 1600 1600

Avec le logiciel SAS


proc glm data=ampoules ;
class proc ;
model dvie=proc / solution p ;
run ;

The GLM Procedure

Dependent Variable : dvie


Sum of
Source DF Squares Mean Square F Value Pr > F
Model 5 125144.7500 25028.9500 162.67 <.0001
Error 30 4616.0000 153.8667
Corrected Total 35 129760.7500
1. ANOVA À UN FACTEUR 111

R-Square Coeff Var Root MSE dvie Mean


0.964427 0.812021 12.40430 1527.583
Source DF Type I SS Mean Square F Value Pr > F
proc 5 125144.7500 25028.9500 162.67 <.0001
Source DF Type III SS Mean Square F Value Pr > F
proc 5 125144.7500 25028.9500 162.67 <.0001
Standard
Parameter Estimate Error t Value Pr > |t|
Intercept 1600.000000 B 5.06403440 315.95 <.0001
proc F1 18.000000 B 8.00694143 2.25 0.0321
proc F2 -109.000000 B 6.90111562 -15.79 <.0001
proc F3 -40.000000 B 7.51117686 -5.33 <.0001
proc F4 -147.000000 B 6.69908783 -21.94 <.0001
proc F5 -90.000000 B 7.16162613 -12.57 <.0001
proc F6 0.000000 B . . .
NOTE : The X’X matrix has been found to be singular, and a generalized inverse
was used to solve the normal equations. Terms whose estimates are followed
by the letter ’B’ are not uniquely estimable.

Observation Observed Predicted Residual


1 1602.0000000 1618.0000000 -16.0000000
2 1615.0000000 1618.0000000 -3.0000000
3 1624.0000000 1618.0000000 6.0000000
4 1631.0000000 1618.0000000 13.0000000
5 1472.0000000 1491.0000000 -19.0000000
6 1477.0000000 1491.0000000 -14.0000000
7 1485.0000000 1491.0000000 -6.0000000
8 1493.0000000 1491.0000000 2.0000000
9 1496.0000000 1491.0000000 5.0000000
10 1504.0000000 1491.0000000 13.0000000
etc ...
On observe que les valeurs ajustées (reg2$fitted.values pour R et colonne Predicted pour SAS)
sont les mêmes avec R et SAS, et pourtant les estimations des β (Value pour R, Estimate pour
SAS) sont différentes. Pourquoi ?
Explication
En fait, il existe plusieurs paramétrisations possibles, que nous allons décrire.
• Paramétrisation du modèle : les paramètres sont les µ Pi pour i = 1, ...p.
• Décomposition centrée : on écrit µi = µ + αi avec αi = 0.
• Décomposition SAS/R : une cellule de référence. On écrit µi = µp + ai avec ap = 0 : dans
SAS, le dernier niveau du facteur sert de référence ; soit ai = (µi − µp ) le contraste entre le
niveau i et le niveau p. Ou encore µi = µ1 + ai avec a1 = 0 dans R, le premier niveau du
facteur sert de référence ; soit ai = (µi − µ1 ).
Toutes ces paramétrisations sont équivalentes car on peut passer de l’une à l’autre par une bijection.

1.3 Vérification des hypothèses - Diagnostics


Comme dans le cadre de la régression, des vérifications sont à effectuer : normalité des résidus,
homoscédasticité, valeurs aberrantes ...
112 CHAPITRE 8. MODÈLE LINÉAIRE : ANALYSE DE VARIANCE

Residuals vs Fitted

24

20
11

10
Residuals

0
−10
−20

1450 1500 1550 1600

Fitted values
lm(formula = dvie ~ as.factor(amp))

F IG . 8.1 – Données Ampoules : visualisation des résidus.

1.4 Estimation des paramètres


Comme pour la régression, les paramètres du modèle d’analyse de variance peuvent être es-
timés par la méthode des moindre carrés ou par la méthode du maximum de vraisemblance.
µi est estimé par la moyenne empirique :
ni
1 X
µ̂i = yi. = yij .
ni
j=1

Cette estimation est d’autant plus précise que le nombre d’observations pour la cellule i est grand :
σ2
V ar(µ̂i ) = .
ni
La variance résiduelle est estimée par :
ni
I X
2
X (yij − yi.2 )
σ̂ = .
n−p
i=1 j=1

1.5 Intervalle de confiance et tests d’hypothèses


Soit le modèle yij = µi + eij où les eij sont iid suivant une loi centrée de variance σ 2 qui sera
supposée N (0, σ 2 ) pour la construction des tests. Dans le cadre général du modèle gaussien, on a
montré que les estimateurs des paramètres du modèle sont distribués selon une loi normale, donc :

µ̂i ∼ N (µi , σ 2 /ni )

On peut en déduire un intervalle de confiance de µi de sécurité 1 − α :


 s 
2
µ̂i ± t(n−I),(1−α/2) σ̂ 
ni
1. ANOVA À UN FACTEUR 113

Normal Q−Q plot

2
24

11

1
Standardized residuals

0
−1

−2 −1 0 1 2

Theoretical Quantiles
lm(formula = dvie ~ as.factor(amp))

F IG . 8.2 – Données Ampoules : QQplot des résidus.

L’hypothèse H0 : µ1 = ... = µI revient à dire que la moyenne est indépendante du niveau ou


encore que le facteur n’a pas d’effet et l’hypothèse alternative H1 est définie par ∃(i, k) tel que
µi 6= µk . Cette dernière hypothèse revient à reconnaı̂tre un effet ou une influence du facteur sur la
variable Y . L’étude de cette hypothèse revient à comparer par un test de Fisher un modèle com-
plet (les moyennes sont différentes) avec un modèle réduit supposant la nullité des paramètres et
donc l’égalité des moyennes à celle de la dernière cellule ou à la moyenne générale. Les résultats
nécessaires à la construction du test qui en découle sont résumés dans la table d’analyse de va-
riance :

Source de variation ddl Somme des carrés Variance F


Modèle (inter) p-1 SSB MSB=SSB /(p-1) MSB/MSW
Erreur (intra) n-p SSW MSW=SSW/(n-p)
Total n-1 SST

Avec SSB= i,j (yi. − y.. )2 ; SSW= i,j (yij − yi. )2 ; SST= i,j (yij − y.. )2 ; un point à la
P P P

place d’un indice veut dire la moyenne sur l’indice considéré (yi. = n1i nj=1
P i
yij ).
La statistique F peut s’interpréter comme le rapport de la variabilité inter-groupe sur la variabi-
lité intra-groupe. En effet, le carré moyen du modèle mesure l’écart des moyennes des groupes à la
moyenne générale (c’est une mesure de variabilité inter). Le carré moyen résiduel mesure l’écart
de chaque unité statistique à la moyenne du groupe (c’est une mesure de la variabilité intra). Si le
facteur a un effet sur la variable à expliquer, la variation INTER sera importante par rapport à la
variation INTRA.

Dans le cas d’un facteur à 2 classes (p = 2), on retrouve un test équivalent au test de Student
de comparaison des moyennes de deux échantillons indépendants.
114 CHAPITRE 8. MODÈLE LINÉAIRE : ANALYSE DE VARIANCE

Scale−Location plot

1.4
24

5
11

1.2
1.0
Standardized residuals

0.8
0.6
0.4
0.2
0.0

1450 1500 1550 1600

Fitted values
lm(formula = dvie ~ as.factor(amp))

F IG . 8.3 – Données Ampoules : recherche de liaison moyenne-variance.

2 ANOVA à deux facteurs croisés


La considération de deux (ou plus) facteurs explicatifs dans un modèle d’analyse de variance
engendre plusieurs complications dont en particulier la notion d’interaction entre variables expli-
catives. La présence d’interaction atteste du fait que les effets d’un des facteurs dépend des effets
de l’autre facteur.
Les niveaux du premier facteur sont notés par un indice i variant de 1 à p, ceux du deuxième
facteur par un indice j variant de 1 à q. Pour chaque combinaison, on observe un même nombre
nij = c > 1 de répétitions, ce qui nous place dans le cas particulier d’un plan équilibré ou
équirépété. Cecntroduit des simplifications importantes dans les estimations des paramètres ainsi
que dans la décomposition des variances.
Le modèle général s’écrit :

yijk = µij + eijk

On suppose que les termes d’erreur eijk sont mutuellement indépendants et de même loi gaus-
sienne. Le modèle d’analyse de variance à deux facteurs s’écrit également de la manière suivante :

yijk = µ + αi + βj + γij + eijk

Pp Pq Pp Pq
avec les contraintes : i=1 αi = j=1 βj = 0, ∀j, i=1 γij = 0 et ∀i, j=1 γij = 0.
Lorsque les paramètres d’interaction γij sont tous nuls, le modèle est dit additif , ce qui cor-
respond à une situation très particulière. Ceci signifie que les écarts relatifs au premier facteur sont
indépendants du niveau k du 2ème facteur et vice versa. Dans le cas équirépété, les tests des effets
sont résumés dans la table d’analyse de variance suivante :
2. ANOVA À DEUX FACTEURS CROISÉS 115

Cook’s distance plot

0.12
0.10
24

0.08
4

Cook’s distance

0.06
0.04
0.02
0.00

0 5 10 15 20 25 30 35

Obs. number
lm(formula = dvie ~ as.factor(amp))

F IG . 8.4 – Données Ampoules : distance de Cook pour détection d’observations aberrantes.

Source de variation ddl Somme des carrés Variance F


1er facteur p-1 SS1 MS1=SS1/(p-1) MS1/MSE
2ème facteur q-1 SS2 MS2=SS2/(q-1) MS2/SSE
Interaction (p-1)(q-1) SSI MSI=SSI/(p-1)(q-1) MSI/MSE
Erreur n-pq SSE MSE=SSE/(n-pq)=σ̂ 2
Total n-1 SST

avec
X
SS1 = qc (yi.. − y... )2 ;
i
X
SS2 = pc (y.j. − y... )2 ;
j
X
SSI = c (yij. − yi.. − y.j. + y... )2 ;
ij
X
SSE = (yijk − yij. )2 ;
ijk
X
SST = (yijk − y... )2 .
ijk

Ici aussi, plusieurs paramétrisations sont possibles et sont en correspondance bijective.


• Paramétrisation du modèle : les paramètres sont ici µij pour iP = 1, ...p P
et j = 1, ...q.
centrée : On écrit µij = µ+αi +αj +αij avec i αi = j αjl = j αij
l c x l
P x
• Décomposition
P x =
α
i ij = 0.
• Décomposition SAS/R. On écrit : µij = µpq + ali + acj + axij avec alp = acq = apj = aiq = 0
(dans SAS), ou µij = µ11 + ali + acj + axij avec al1 = ac1 = a1j = ai1 = 0 (dans R).
L’estimation et l’inférence sur les paramètres, ainsi que les analyses post-modélisations sont les
mêmes que dans le cadre de la régression.
On peut se faire une idée de la présence d’interactions en traçant le graphe des moyennes
116 CHAPITRE 8. MODÈLE LINÉAIRE : ANALYSE DE VARIANCE

empiriques ȳij en fonction de i, pour chaque j (figure 2). Si les droites sont parallèles, l’effet du
premier facteur s’additionne à l’effet du deuxième, il n’y a donc pas d’interaction. Si par contre
des droites se croisent, on peut suspecter la présence d’interactions.

Pas d’interactions Interactions


5

5
4

4
j=2
3

3
mu

mu

j=2

j=3
2

j=3

j=1 j=1
1

1
0

1 2 3 4 5 6 7 1 2 3 4 5 6 7

i i

3 Analyse de covariance
L’analyse de covariance se situe encore dans le cadre général du modèle linéaire et où une
variable quantitative est expliquée par plusieurs variables à la fois quantitatives et qualitatives.
Dans les cas les plus complexes, on peut avoir plusieurs facteurs (variables qualitatives) avec une
structure croisée ou hiérarchique ainsi que plusieurs variables quantitatives intervenant de manière
linéaire ou polynomiale. Le principe général est toujours d’estimer des modèles intra−groupes et
de faire apparaı̂tre (tester) des effets différentiels inter − groupes des paramètres des régressions.
Ainsi, dans le cas simple où seulement une variable parmi les explicatives est quantitative, nous
sommes amenés à tester l’hétérogénéité des constantes et celle des pentes (interaction) entre
différents modèles de régression linéaire.
Prenons un cas simple, le modèle est explicité dans le cas élémentaire où une variable quan-
titative Y est expliquée par une variable qualitative T à q niveaux et une variable quantitative,
appelée encore covariable, X. Pour chaque niveau j de T , on observe nj valeurs x1j , ..., xnj j de
X et nj valeurs y1j , ..., ynj j de Y ; n est la taille de l’échantillon. Le modèle s’écrit :

yij = β0j + β1j xij + eij


4. TESTS MULTIPLES 117

où les eij sont iid suivant une loi centrée de variance σe2 qui sera supposée N (0, σe2 ) pour la
construction des tests.
Différentes hypothèses peuvent alors être testées par un test de Fisher :

i. Test des interactions : les droites partagent la même pente ;


ii. Test de l’influence du facteur quantitatif ;
iii. Test de la significativité des différences des termes constants.

On commence par tester l’hypothèse (i), si le test n’est pas significatif, on regarde (ii) qui s’il n’est
pas non plus significatif, conduit à l’absence d’effet de la variable X. De même, toujours si (i)
n’est pas significatif, on s’intéresse à (iii) pour juger de l’effet du facteur T .

4 Tests multiples
4.1 Rappels sur les risques de première et seconde espèce
Risque de première espèce : noté α. Le risque de première espèce est le risque de rejeter (avec la
règle décision) l’hypothèse H0 alors qu’en réalité cette hypothèse est vraie.
Risque de seconde espèce : noté β. Le risque de seconde espèce est le risque d’accepter (avec la
règle de décision) l’hypothèse H0 alors qu’en réalité cette hypothèse est fausse.

Décision
Réalité H0 H1
H0 1−α α
H1 β 1−β

La quantité 1 − β est une probabilité de bonne décision appelé puissance du test.


Remarque : Accepter H0 ne signifie pas que cette hypothèse est vraie mais seulement que
les observations disponibles ne sont pas incompatibles avec cette hypothèse et que l’on n’a pas de
raison suffisante de lui préférer l’hypothèse H1 compte tenu des résultats expérimentaux.

4.2 Tests multiples


Supposons que p moyennes (m1 , m2 , ..., mp ) soient à comparer et que ces p moyennes soient
respectivement estimées par : X̄1 , X̄2 , ..., X̄p et que ces moyennes soient estimées sur des échantillons
de tailles respectives n1 , n2 , ..., np . En comparant les moyennes deux à deux, il faut faire p(p−1)2
comparaisons. Chaque comparaison de 2 moyennes est effectuée en utilisant la règle de décision
suivante : si
|X̄i − X̄j |
p > t1−α/2;ni +nj −2
2
σ̂ (1/ni + 1/nj )

alors on rejette l’hypothèse H0 : mi = mj .


Si deux comparaisons sont réalisées avec un risque de première espèce de α, il est faux de
penser que la décision globale peut être prise avec un risque α. Cela provient du fait qu’une
succession de tests de risque α ne permet pas de prendre une décision globale avec ce même
risque.
118 CHAPITRE 8. MODÈLE LINÉAIRE : ANALYSE DE VARIANCE

2 3 4 5 6
Erreur nominale de type I 5% 5% 5% 5% 5%
Erreur globale de type I 5% 12.2 % 20.3 % 28.6% 36.6%

La méthode de Bonferroni est une méthode qui ne permet pas un strict contrôle de α mais en
revanche elle en donne une majoration. L’idée de Bonferroni est de se placer dans le pire des cas
(pour α). Par exemple si on a p = 5 moyennes à comparer, il faut effectuer 10 comparaisons. Pour
avoir un risque global α, il faut que chacune des 10 comparaisons soit effectuée avec un risque
α0 = α/10.
En pratique, Bonferroni fournit une liste de gènes différentiellemnt exprimés dans laquelle on
contrôle le nombre de faux positifs. Quand le nombre des gènes est grand, cette liste est souvent
vide.
A l’opposé, le LSD (Least Square Difference), c’est à dire le test de Student sans correction,
est le plus laxiste : il va détecter des gènes différentiellement exprimés qui en fait ne le sont pas.
En général, on présente ces taux d’erreurs dans le tableau suivant :

Réalité Décision
H0 vraie H1 vraie Total
H0 vraie U V m0
H1 vraie T S m1
W R m

où m tests sont effectués. Pour une analyse de biopuces dans laquelle on teste les effets
différentiels de m gènes, m1 est le nombre de gènes déclarés différentiellement exprimés, alors
que R est le nombre réel (mais inconnu) de gènes différentiellement exprimés.
Diverses méthodes sont proposées pour contrôler ces divers taux d’erreurs.
Le FWER (Family Wise Error Rate) représente la probabilité d’effectuer au moins une erreur
de première espèce sur l’ensemble des comparaisons :
P [V ≥ 1] = m0 α.
On prend donc un seuil nominal de α0 = α/m0 .
Au même titre que Bonferroni, plus il y a de tests (soit de gènes à tester), moins on rejette
H0 (moins de gènes déclarés différentiellement exprimés). La notion suivante est très utile pour
pallier à cet inconvénient.
La FDR (False Discovery Rate) contrôle l’espérance du taux de faux positifs, ou le nombre
de faux positifs parmi les différences déclarées significatives. Pratiquement, on ordonne les m
p-values des m tests (les gènes) et on recherche le plus haut rang k des p-values tel que p −
value(k) ≥ αk/m..
Il existe d’autres approches récentes ou en cours de développement pour contrôler la FDR
positive, le nombre moyen d’erreurs, etc ...

5 Modèle linéaire mixte gaussien


Dans les modèles linéaires classiques (cf. chapitre 7), toutes les variables explicatives sont
supposées déterministes. La plupart du temps, cette situation simple ne permet pas de répondre de
façon effective aux questions posées. Pour illustrer cette insuffisance, prenons quelques exemples.
5. MODÈLE LINÉAIRE MIXTE GAUSSIEN 119

5.1 Exemple 1
Supposons que l’on cherche à comparer 2 traitements A et B ; 4 élevages ont été sélectionnés
pour participer à cet essai. Dans chaque élevage un échantillon d’animaux a été tiré au hasard,
une moitié des animaux de l’échantillon ont reçu le traitement A et l’autre moitié le traitement
B. Les données brutes ont été analysées et les analyses ont montré que le traitement B a une plus
grande efficacité que le traitement A. Que peut-on conclure ?. Pour répondre convenablement à
cette question, il est nécessaire de préciser la nature du facteur élevage :
• si les élevages ont été choisis, le facteur élevage est un facteur fixe et les résultats de l’ana-
lyse ne peuvent pas être extrapolés à d’autres élevages,
• si les élevages ont été tirés au hasard parmi tous les élevages susceptibles d’utiliser ces
produits, le facteur élevage est alors un facteur aléatoire et les résultats de cette analyse
peuvent être extrapolés aux autres élevages.
Dans une analyse de variance, on s’intéresse à l’effet particulier de chacun des niveaux de la
variable explicative sur la variable à expliquer. Cette façon de procéder suppose que l’on introduise
dans le modèle tous les niveaux du facteur susceptibles d’avoir un intérêt. Mais cela n’est pas tou-
jours possible. Par exemple, si on s’intéresse aux performances au champ d’une variété de blé,
ou aux performances de croissance (ou production laitière) des animaux d’une race particulière,
il est impossible de tester ces performances sur tous les champs ou animaux possibles. On peut
également vouloir s’intéresser à l’effet d’un régime alimentaire sur la croissance des porcs, on ne
pourra pas le tester sur tous les porcs. A chaque fois, pour réaliser l’expérience, il faudra prendre
quelques individus (ici, des champs ou des porcs) et chercher à étendre les résultats obtenus à la
population entière. Si on suppose que les individus ont été tirés au hasard dans la population, on ne
s’intéresse plus à l’effet particulier associé à tel individu particulier, mais à la distribution de l’en-
semble des effets possibles. L’effet associé à l’individu n’est plus un effet fixe mais devient un effet
aléatoire et il faut en tenir compte dans l’analyse. Le modèle linéaire étudié contient un mélange
d’effets fixes et d’effets aléatoires, on parle alors de modèle linéaire mixte. Le modèle linéaire
mixte constitue une extension du modèle linéaire classique. D’une manière générale, on pourra
y faire appel chaque fois que l’on désirera étendre à une population toute entière des résultats
obtenus sur quelques individus pris au hasard dans cette population.

5.2 Exemple 2
On a relevé les durées de gestation de 16 filles de 30 taureaux qui avaient été tirés au sort dans
la population devant être étudiée. On voudrait savoir dans quelle mesure la durée de gestation
est un caractère héréditaire. On considère que ce caractère se transmet (aussi) par les pères : un
taureau ayant de bons gènes les transmettra à ces filles, qui seront donc meilleures en moyenne
que des vaches descendantes de ”mauvais” taureaux. Il s’agit de répondre, grâce à un échantillon
comportant peu de taureaux, à une question concernant toute la population. Pour pouvoir étendre
les résultats obtenus sur l’échantillon, il faut que celui-ci soit représentatif de toute la population
et donc qu’il ait été obtenu par tirage au sort (indépendants et équiprobables). Il en découle que
les taureaux de l’échantillon sont aléatoires et leurs effets sur leurs descendants sont a fortiori
aléatoires.
Le modèle s’écrira
yij = µ + ai + eij j = 1, ...16 i = 1, ...30
où yij représente la durée de gestation de la fille j du père i, µ est la moyenne générale, ai est
l’effet du père i, supposé aléatoire puisque le père est un individu tiré aléatoirement, eij est le
résidu.
120 CHAPITRE 8. MODÈLE LINÉAIRE : ANALYSE DE VARIANCE

On suppose les distributions suivantes :


ai ∼ N (0, σa2 )
eij ∼ N (0, σe2 )
Les ai et les eij sont supposés mutuellement indépendants.
σa2
On appelle σa2 et σe2 les composantes de la variance. La quantité σa2 +σe2
est la part de variance
”génétique” de la variance totale.
Il faut bien comprendre que µ + ai n’est pas l’espérance de y, mais son espérance condition-
nelle : E(yij |ai ) = µ +ai . De la même manière, la variance conditionnelle de y vaut Var(yij |ai ) =
σe2 .

5.3 Exemple 3
Une compagnie pharmaceutique veut tester les performances d’une méthode de spectroscopie
(NIR = Near Infrared Reflectance) permettant de déterminer le contenu en substance active de
comprimés. La méthode utilisée en routine (HPLC) est plus coûteuse et laborieuse. Pour cela, 10
comprimés ont été tirés au hasard et les 2 méthodes ont été utilisées sur chacun des comprimés.
Comprimé HPLC NIR Différence
1 10.4 10.1 0.3
2 10.6 10.8 -0.2
3 10.2 10.2 0.0
4 10.1 9.9 0.2
5 10.3 11.0 -0.7
6 10.7 10.2 0.2
7 10.3 10.2 0.1
8 10.9 10.9 0.0
9 10.1 10.4 -0.3
10 9.8 9.9 -0.1
ȳ1 = 10.34 ȳ2 = 10.36 d¯ = 0.05
s1 = 0.3239 s2 = 0.4033 sd = 0.2953
Text de Student
L’analyse la plus simple consiste à considérer les données comme un échantillon apparié et
d’utiliser le test de Student correspondant. La moyenne et l’écart-type des différences d sont
égaux à d¯ = 0.05 et sd = 0.2953 respectivement. La statistique du test de Student vaut t =
d¯ −0.05

SE ¯ = = −0.535 qui donne une p-value égale à 0.61. On en conclut qu’il n’y a pas
d 0.2953/ (10)
différence significative entre les 2 méthodes de mesure. L’intervalle de confiance à 95% du biais
de la méthode vaut d¯ ± t0.975 (9)SEd¯ = −0.05 ± 0.21.
Sous R, par exemple, on obtient
> t.test(d)
One-sample t-Test
data : d
t = -0.5354, df = 9, p-value = 0.6054
alternative hypothesis : true mean is not equal to 0
95 percent confidence interval :
-0.2612693 0.1612693
sample estimates :
5. MODÈLE LINÉAIRE MIXTE GAUSSIEN 121

mean of x
-0.05
Anova
Le modèle d’analyse de variance pour cette situation s’écrit :

yij = µ + αi + βj + eij eij ∼ N (0, σ 2 )

avec µ la moyenne générale, αi l’effet du ième comprimé, βj l’effet de la méthode j.


La statistique du test F de Fisher est égal au carré de la statistique de Student : F = t2 =
(−0.535)2 = 0.29.

= 0.209 = 2sd . L’incertitude sur la
L’estimation de l’écart-type résiduel est donnée par σ̂ p
moyenne des différences est donnée par SE(ȳ1 − ȳ2 ) = σ 2 (1/10 + 1/10) = 0.0934, exacte-
ment comme dans l’approche simple.
Si maintenant on √
s’intéresse à la précision de la valeur moyenne pour la méthode NIR, l’ANOVA
donne SE(ȳ1 ) = σ̂/ 10 = 0.066. D’un autre côté, si on√ considère l’échantillon des 10 mesures
de NIR, on obtient s1 = 0.4012, et donc SE(ȳ1 ) = s1 / 10 = 0.127, valeur très différente de
0.066.
L’ANOVA sous-estime beaucoup l’incertitude sur l’estimation de l’effet moyen de NIR. C’est
ainsi parce que la variance σ 2 mesure la variabilité résiduelle après que les effets des comprimés
ont été corrigés. La différence conceptuelle entre les 2 approches est que l’ANOVA considère que
les 10 comprimés n’ont pas été tirés au hasard, alors que la seconde (échantillon des 10 mesures
NIR) si. L’ANOVA n’est valide que si l’on s’intéresse aux effets spécifiques des 10 comprimés.
L’idée du modèle mixte est de combiner les 2 approches : utiliser un modèle linéaire et y
considérer certains facteurs comme aléatoires.
Modèle mixte
On considère maintenant le modèle linéaire mixte

yij = µ + ai + βj + εij

où ai est l’effet aléatoire du ième comprimé. Ses effets sont supposés indépendants et identique-
ment distribués : ai ∼ N (0, σa2 ).
On peut montrer que
ANOVA Modèle mixte
E(yij ) µ + αi + β j µ + βj
V ar(yij ) σ2 σ 2 + σa2
Cov(yij , yi0 j 0 ), j 6= j 0 0 σa2 si i = i’et 0 sinon
L’écart-type attendu de la moyenne des valeurs de NIR vaut dans le cadre du modèle linéaire
mixte : p √
SE(ȳ1 ) = σ̂a2 + σ̂ 2 / 10 = 0.115,
ce qui est conforme à ce que l’on attendait.
Notons que les mesures HPLC et NIR sur un même comprimé sont corrélées dans le modèle
mixte. Un modèle linéaire mixte permet donc aussi de prendre en compte de façon simple des
corrélations entre observations.
122 CHAPITRE 8. MODÈLE LINÉAIRE : ANALYSE DE VARIANCE

5.4 Définition
Un modèle linéaire mixte se définit comme un modèle linéaire dans lequel toute ou partie des
paramètres associés à certaines unités expérimentales sont traités comme des variables aléatoires
du fait de l’échantillonnage de ces unités dans une population plus large.

6 Exemple : nutrition chez la souris


6.1 Analyses de variance et modèle mixte
6.2 Principe des analyses de variance
L’analyse de variance (ANOVA) permet d’apprécier l’effet d’une ou plusieurs variables qua-
litatives (les facteurs) sur une variable quantitative (la variable réponse, ici le niveau d’expres-
sion des gènes). Dans le domaine de l’analyse transcriptomique, cette approche a été largement
développée, en particulier par Kerr et al. (2000). Pour l’analyse de nos données, un modèle
d’ANOVA à trois facteurs (génotype, régime, gène) permet de mettre en évidence des effets d’in-
teraction d’ordre 3 très significatifs à l’aide du test de Fisher. Cela signifie qu’il existe des gènes
régulés simultanément par le régime et le génotype, les effets du régime et du génotype étant non
additifs. Le modèle d’ANOVA considéré s’écrit

yijkl = gi + rj + Gk + grij + gGik + rGjk + grGijk + eijkl (8.2)


où yijkl représente le logarithme du niveau d’expression du gène k (k = 1, ..., 120), pour le
régime j (j = 1, ..., 5) et le génotype i (i = 1, 2), mesuré chez la souris l (l = 1, ..., 4) ; gi
représente l’effet du génotype i, rj celui du régime j, Gk celui du gène k, grij représente l’effet
de l’interaction du génotype i et du régime k, gGik l’effet de l’interaction du génotype i et du
gène k, rGjk l’effet de l’interaction du regime j et du gène k et grGijk représente l’interaction
d’ordre 3 combinant le génotype i, le régime j et le gène k. On suppose que les résidus eijkl du
modèle sont indépendants et identiquement distribués suivant une loi normale de moyenne nulle
et de variance σ 2 . L’écriture d’un tel modèle suppose que les gènes sont tous de même variabilité.
Cette hypothèse est discutable (en effet la figure 2.9 montre clairement quelques gènes fortement
variables) ; nous verrons par la suite comment lever cette hypothèse. À partir de ce modèle, on
peut estimer les effets principaux des 120 gènes, effectuer des comparaisons de moyennes à l’aide
du test de Fisher, puis opérer des corrections pour des tests multiples afin de repérer les gènes
surexprimés ou sous-exprimés selon le génotype et le régime.
Dans cette séquence de tests, les variances des gènes sont supposées égales, contrairement aux
tests de Student de comparaison de moyennes par régime et génotype pour un gène fixé. Ce dernier
cas revient à écrire une modèle d’ANOVA par gène, sous la forme suivante

yijl = gi + rj + grij + eijl (8.3)


où les notations utilisées ici sont identiques à celles du modèle (8.2). Ici, il est nécessaire de
faire autant d’analyses de variance que de gènes étudiés (soit 120 dans notre exemple) mais nous
disposerons d’une variance estimée par gène. Toutefois une telle analyse n’est pas toujours recom-
mandée car en règle générale le nombre d’observations par gène est très faible, ce qui conduit à
des estimations de variance très peu précises. Notons cependant que ces 120 analyses conduisent
à 120 estimations des 10 effets genotypei × regimej . Un modèle équivalent, mais utilisant simul-
tanément l’ensemble des données pour estimer les paramètres, s’écrit comme le modèle (8.2) en
posant
6. EXEMPLE : NUTRITION CHEZ LA SOURIS 123

2
var(eijkl ) = σe,k . (8.4)

D’autre part, entre le modèle (8.2), supposant toutes les variances des gènes égales, et le
modèle (8.4) supposant une variance différente pour chaque gène, il est possible d’ajuster un
modèle intermédiaire prenant en compte les hétérogénéités de variances de l’expression des gènes,
en définissant simplement des groupes de gènes de variabilité homogène (Robert-Granié et al.,
1999 ; Foulley et al., 2000 ; San Cristobal et al., 2002). Ainsi, sur les 120 gènes analysés, un
histogramme des variances nous a conduit à définir trois groupes de gènes ayant des variabi-
lités très différentes : un groupe contenant les gènes FAS, G6Pase, PAL et S14, présentant
des variabilités résiduelles importantes (variances supérieures à 0.02) ; un deuxième groupe à
variabilité modérée (variances comprises entre 0.009 et 0.02), comprenant les gènes CYP2c29,
CYP3A11, CYP4A10, CYP4A14, CYP8b1, GSTmu, GSTpi2, L-FABP, Lpin, Lpin1, TRa et
cHMGCoAS ; enfin un dernier groupe à faible variabilité (variances inférieures à 0.009), contenant
l’ensemble des autres gènes. À partir de ces trois groupes de gènes, nous pouvons construire un
modèle dont la variance dépend de cette nouvelle variable à trois classes. Le modèle s’écrit encore
comme les modèles (8.2) et (8.4) en posant cette fois

var(eijkl ) = σh2 , (8.5)


où h = {1, 2, 3} représente l’indice d’hétérogénéité de variance.
Nous pouvons ainsi comparer les gènes différentiellement exprimés selon les 3 modèles :
• Modèle (8.2), modèle d’ANOVA avec une unique variance pour l’ensemble des gènes ;
• Modèle (8.4), modèle d’ANOVA avec une variance différente par gène ;
• Modèle (8.5), modèle d’ANOVA avec trois groupes de variances différentes.
Notons que le modèle (8.4) implique l’estimation de 120 variances différentes, alors que le
modèle (8.5) ne nécessite l’estimation que de trois paramètres de variances ; ce dernier est donc
beaucoup plus économe en nombre de paramètres à estimer. Enfin, d’un point de vue technique et
opérationnel, la mise en oeuvre de ces modèles peut être réalisée en utilisant la fonction lme du
logiciel statistique R ou la procédure mixed du logiciel SAS.

6.3 Synthèse des tests multiples


L’objectif de l’analyse statistique est de déterminer quels sont les gènes différentiellement
exprimés entre les 2 génotypes et les 5 régimes. Quelle que soit la méthode statistique utilisée,
il existera une probabilité non nulle (risque de première espèce α) de détecter des faux positifs
(gènes déclarés différentiellement exprimés alors qu’ils ne le sont pas) et une autre probabilité
non nulle (risque de deuxième espèce β) de ne pas être capable de détecter des gènes réellement
différentiellement exprimés (faux négatifs). Il est bien entendu souhaitable de minimiser ces deux
probabilités d’erreur sachant que, toutes choses égales par ailleurs, la seconde augmente quand
la première diminue et réciproquement. Le test de Student est couramment utilisé pour tester
l’égalité de deux moyennes (l’hypothèse nulle étant de considérer que les moyennes des intensités
des signaux d’un gène donné dans chaque condition 1 et 2 sont égales). Ainsi, quand la statistique
de Student excède un certain seuil (dépendant du risque de première espèce α choisi, généralement
5%), les niveaux d’expression du gène étudié entre les deux populations testées sont considérées
comme significativement différentes. Lorsque l’on souhaite tester plus de deux conditions, le test
de Fisher, qui est une extension du test de Student, est utilisé. L’hypothèse nulle constitue l’absence
d’expression différentielle d’un gène entre les diverses conditions et l’hypothèse alternative montre
une différence d’expression.
124 CHAPITRE 8. MODÈLE LINÉAIRE : ANALYSE DE VARIANCE

Enfin, prendre un risque de 5% dans une expérimentation où 10 000 gènes, par exemple, sont
étudiés simultanément peut conduire à obtenir 500 faux positifs, ce qui est parfaitement inaccep-
table. C’est pourquoi ont été proposées des modifications du test de Student adaptées à l’analyse
du transcriptome (méthodes de Bonferroni, FWER, FDR...). Le lecteur souhaitant des détails sur
ces approches peut se référer, par exemple, à Benjamini & Hochberg (1995), Bland & Altman
(1995), Dudoit et al. (2002) ou Speed (2003).
La méthode de Bonferroni, rappelons le, est une méthode qui ne permet pas un strict contrôle
de α, mais qui en donne une majoration. Pour avoir un risque global α, il faut que chacune des
p comparaisons soit effectuée avec un risque α0 = α/p. En pratique, Bonferroni fournit une liste
de gènes différentiellemnt exprimés dans laquelle on contrôle le nombre de faux positifs. Mais,
lorsque le nombre des gènes est grand, cette liste est souvent vide.
En général, on présente ces taux d’erreurs dans le tableau 4.2.
Pour revenir à notre étude, à partir de chaque modèle proposé dans le paragraphe précédent,
nous pouvons rechercher les gènes différentiellement exprimés entre les deux génotypes à régime
fixé (120 comparaisons pour chacun des 5 régimes) ou entre régime à génotype fixé (1200 com-
paraisons par génotype), ce qui conduit à effectuer 3000 comparaisons. Le tableau 8.2 présente le
nombre de gènes sélectionnés selon les trois modèles considérés et selon le test ou l’ajustement
utilisée (Student, Bonferroni, Benjamini-Hochberg qui correspond à l’approche FDR).

TAB . 8.2 – Nombre de gènes sélectionnés selon le modèle et le test utilisés.

Tests Modèle (8.2) Modèle (8.4) Modèle (8.5)


Student à 5% 85 103 97
Student à 1% 55 65 67
Benjamini-Hochberg à 5% 44 56 59
Benjamini-Hochberg à 1% 35 40 38
Bonferroni à 5% 53 62 65
Bonferroni à 1 pour mille 18 19 21

On peut remarquer que le nombre de gènes sélectionnés est peu différent selon le modèle
utilisé et que, globalement, les trois modèles sélectionnent le même groupe de gènes. Les petites
différences sont principalement liées à l’ordre de sélection de ces gènes.
D’autre part, on peut, à partir de critères de sélection de modèle tels que le critère d’Akaike
(AIC ; Akaike, 1974) ou le critère de Schwarz (BIC ; Schwarz, 1978), ou encore en effectuant un
test du rapport de vraisemblance, choisir le modèle le plus adéquat.
Le tableau 8.3 présente les valeurs des critères AIC et BIC pour les trois modèles mis en
compétition.

TAB . 8.3 – Valeurs des critères AIC et BIC.

Modèles -2AIC -2BIC


(8.2) -6576.9 -6570.7
(8.4) -6946.6 -6612.1
(8.5) -7044.5 -7036.2
6. EXEMPLE : NUTRITION CHEZ LA SOURIS 125

−100 −50 0 50

0.4

50
CYP4A14
dha

0.2
PECI CYP4A10
mHMGCoASPMDCI
BIEN
CPT2
Tpbeta
CACP
ALDH3
Tpalpha
AOX L.FABP THIOL
GSTmu
GSTpi2
HPNCL

0.0
ACAT2
COX1
Lpin2
GS Lpin
GSTa
SPI1.1
PLTP
Lpin1
PAL
ACC2

0
G6PDH
SR.BI
CYP8b1
Ntcp
ACOTH
SHP1
ACBP ref CYP3A11
cHMGCoAS
HMGCoAre
G6Pase

Comp.2
tsol
CAR1
CYP2c29
GK lin

−0.2
S14 efad

−50
−0.4
−0.6

−100
−0.8
FAS

−0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4

Comp.1

F IG . 8.5 – Souris : représentation sur le premier plan principal de l’ACP du logarithme des p-
value des gènes différentiellement exprimés entre les deux génotypes à régime fixé.

Le meilleur modèle est celui pour lequel les valeurs des critères -2AIC ou -2BIC sont les plus
petits. Dans les deux cas, il s’agit du modèle (8.5).
Le test du rapport de vraisemblance consiste, quant à lui, à comparer deux modèles emboı̂tés
(par exemple, (8.2) vs (8.4)) ; l’hypothèse nulle considérée suppose alors que toutes les variances
sont égales. La statistique du rapport de vraisemblance nécessite de calculer la différence entre
les logarithmes des vraisemblances sous chacun des deux modèles. Sous l’hypothèse nulle, cette
statistique suit asymptotiquement une loi de khi-deux dont le nombre de degré de liberté est égal
à la différence des nombres de paramètres à estimer sous chacun des deux modèles considérés. Si
nous effectuons ces différents tests du rapport de vraisemblance ((8.2) vs (8.4), (8.2) vs (8.5), (8.4)
vs (8.5)), il en ressort que le modèle (8.5), avec trois groupes de variances, est encore le meilleur.
À partir de ce modèle (8.5), on peut estimer les différents effets du modèle, et s’intéresser
aux différences d’expression des gènes entre génotypes à régime fixé ou encore aux différences
d’expression des gènes entre régimes à génotype fixé.
En raison de la multiplicité des tests, la correction proposée par Benjami & Hochberg (1995)
a été utilisée. Lorsque nous considérons les différences d’expression des gènes entre génotypes
à régime fixé, l’hypothèse nulle représente l’absence d’expression différentielle d’un gène entre
les deux génotypes. On peut visualiser l’ensemble des résulats des p-values de ces différents tests
en effectuant une ACP centrée sur le logarithme des p-values, les gènes en ligne et les régimes
en colonne. La figure 8.5 présente le premier plan principal des gènes différentiellement exprimés
entres les deux génotypes à régime fixé. Les deux premiers axes principaux représentent 93%
de la variance totale. Pour des raisons de visibilité, les résultats sont présentés sur les 59 gènes
différentiellement exprimés selon le modèle (8.5) et en utilisant la correction de Benjamini &
Hochberg à 5% (Tab. 8.2).
On observe que les gènes CYP3A11, CYP4A10, CYP4A14, L.FABP, PMDCI et THIOL
différencient les deux génotypes pour les régimes dha, lin et tsol. Certains de ces gènes
présentent des expressions constitutives différentielles entre les souris des deux génotypes. De plus
ces gènes sont régulés positivement par ces trois régimes riches en acides gras polyinsaturés d’une
126 CHAPITRE 8. MODÈLE LINÉAIRE : ANALYSE DE VARIANCE

−50 0 50 −40 −20 0 20 40

40
S14

0.6
0.6

0.4
0.4

20
50
FAS
Lpin Lpin

0.2
efadref lintsol
Lpin1
G6Pase
0.2

dhaefad efadtsol
Lpin1 CYP3A11 dhatsol
Comp.2

Comp.2
Tpbeta
SPI1.1
G6PDH
HMGCoAreLpin2
CYP8b1
Tpalpha
SHP1
mHMGCoAS
PAL
Ntcp
SR.BI
ACOTH
ALDH3
CYP4A14
efadlin ACC2 PECI
PLTP
PMDCI
CACP
CPT2
GSTa
GS
CYP4A10
cHMGCoAS

0.0
CAR1
GSTpi2
COX1
HPNCL
dhaefad
AOX
ACC2
BIEN

0
HMGCoAre ACBP
GKdharef
GSTpi2 GK
G6PDH
cHMGCoAS
PLTP efadref
GSTmu
0.0

Lpin2
SR.BI
SPI1.1 S14

0
reftsol
ACAT2
dhalin ANtcp
CBP
HPNCL
CYP8b1
CACP
GSTa
GS
Tpalpha
ALDH3
CPT2
CAR1
PMDCI
COX1
PAL
ACOTH
L.FABP
lintsol
SHP1 dhalin
CYP2c29
L.FABP efadtsol
Tpbeta
PECI
mHMGCoAS

−0.2
linref AOX
BIEN
THIOL efadlin reftsol
CYP4A10 G6Pase
dhatsol
−0.2

CYP2c29GSTmu linref
THIOL

−20
−0.4
dharef
CYP3A11
CYP4A14
ACAT2

−50
−0.4

−0.6

−40
FAS

−0.4 −0.2 0.0 0.2 0.4 0.6 −0.6 −0.4 −0.2 0.0 0.2 0.4 0.6

Comp.1 Comp.1

F IG . 8.6 – Souris : représentation sur le premier plan principal de l’ACP du logarithme des p-
value des gènes différentiellement exprimés entre les régimes pour le génotype WT à gauche et
PPAR à droite.

famille particulière (Oméga 3 pour dha et lin et Oméga 6 pour tsol) chez les souris WT alors
que la régulation de plusieurs de ces gènes est altérée chez les souris PPAR. Les gènes mHMGCoAS,
PECI et BIEN apparaissent dans le contraste entre génotypes pour le régime dha, alors que les
gène S14 et FAS apparaissent pour le régime efad. Les souris des deux génotypes présentent là
encore des régulations différentielles de ces gènes, soulignant ainsi le rôle du récepteur PPARα
dans ces modulations d’expression provoquées par les régimes alimentaires.
La même approche sur les effets différentiels entre couples de régimes, à génotype fixé,
est réalisée. Les représentations de la figure 8.6 présentent le premier plan principal des gènes
différentiellement exprimés entre régime pour le génotype WT (à gauche) et pour le génotype
PPAR (à droite). Les deux premiers axes, pour chacune des figures, représentent respectivement
79% et 78% de la variance totale. Les gènes Lpin et Lpin1 apparaissent dans des contrastes
impliquant le régime efad pour le génotype WT, et le régime tsol pour le génotype PPAR. Le
gène CYP3A11 est impliqué dans le régime dha, quel que soit le génotype. Les gènes FAS et
S14 apparaissent dans les contrastes impliquant le régime efad pour le génotype WT, alors que
le même gène FAS apparaı̂t dans les contrastes impliquant le régime ref pour le génotype PPAR.
L’ensemble de ces résultats confirme les résultats obtenus pour l’ACP.

6.4 Modèle mixte


Les souris étant issues d’une lignée consanguine, elles ont été considérées dans un premier
temps comme des répétitions indépendantes et identiquement distribuées. Cependant, à l’aide d’un
modèle linéaire mixte, chaque souris peut être considéree comme un tirage aléatoire dans une
population plus large de souris. Le modèle linéaire mixte mis en oeuvre s’écrit

yijkl = gi + rj + Gk + grij + gGik + rGjk + grGijk + sourisl + e0ijkl , (8.6)

où sourisl représente l’effet aléatoire de la souris l, avec sourisl ∼ N (0, σs2 ), les différentes
réalisations étant indépendantes, et eijkl représente les résidus, avec e0ijkl ∼ N (0, σe2 ), les résidus
étant indépendants entre eux et indépendants de l’effet aléatoire souris.
6. EXEMPLE : NUTRITION CHEZ LA SOURIS 127

Dans ce cas, les estimations des composantes de la variance sont pour la variance « souris » de
0.001 et pour la variance résiduelle de 0.007. La variabilité indivuelle est très faible. La variance
des observations est identique à celle obtenue à l’aide d’une ANOVA (modèle à effets fixes)
puisque nous sommes dans le cadre d’un plan équilibré et que la méthode d’estimation pour le
modèle mixte est la méthode du maximum de vraisemblance restreinte (REML). Nous pouvons
également étendre ce modèle aux cas de variances résiduelles hétérogènes, comme c’était le cas
dans le modèle (8.5).
L’application du modèle linéaire mixte est beaucoup plus appropriée dans le cas où les varia-
bilités dues à la technique, à la diversité génétique, aux gènes de la biopuce, ont un intérêt. C’est
le cas dans l’étude transcriptomique décrite dans Bonnet et al. (2004) dans laquelle le logarithme
du signal est modélisé en fonction des facteurs membrane, truie, aiguille (ou bloc), jour d’hybri-
dation, et des covariables logarithme de l’intensité du bruit de fond et de l’hybridation en sonde
vecteur. Après une étape de choix de modèle (à l’aide du test de Fisher), le modèle linéaire mixte
permet d’appréhender et de quantifier la part de variabilité due aux différentes sources de varia-
tion. La part de variabilité due à la diversité génétique représente 8%, celle due à la technique 4%
et celle due aux gènes 75%. Toute inférence basée sur ce modèle sera valide pour tout animal,
toute membrane... car l’échantillonnage des animaux, des membranes... de cette étude, dans une
population plus large d’animaux, membranes... est pris en compte. Considérer les membranes (par
exemple) comme effets fixes dans ce modèle aurait entraı̂né des conclusions valides uniquement
sur les membranes de l’expérience. De plus, une structure de covariance non diagonale est prise
en compte par ce modèle mixte puisque deux signaux d’une même membrane seront corrélés, la
2
corrélation étant égale à σmembrane 2
/σtotale .
128 CHAPITRE 8. MODÈLE LINÉAIRE : ANALYSE DE VARIANCE
En guise de conclusion

Ce document explore déjà une grande variétés d’approches statistiques en tâchant de les adap-
ter au mieux aux caractéristiques très particulières des données d’expression. Néanmoins, beau-
coup d’autres approches sont encore possibles mais, faute de place ou de compétences, elles ont
été laissées de côté comme les modèles de mélange. Baccini et col. (2005) proposent d’ailleurs, sur
le même jeu de données, d’autres approchent à base de discrimination : plutôt que de rechercher
quelles sont les gènes dont on peut dire qu’ils sont significativement différenciellement exprimés,
on peut rechercher un sous-ensemble de gènes permettant la construction d’un meilleur modèle de
prédiction des groupes d’échantillons. Par exemple quels sont les gènes qui permettent de discri-
miner au mieux les deux génotypes de souris ou encore, plus difficle, les différents régimes.
Déjà au niveau de ce cours, l’étude déroulée sur l’exemple des données de nutrition permet
de mettre en exergue le fait qu’il n’existe pas “une” méthode unique qui permettraient de traiter
des données d’expression. La question ”Quelle méthode dois-je utiliser pour traiter mes données
d’expression ?” n’a pas de sens. En revanche, à une question précise du type ”Puis-je effectuer une
partition des gènes ?”, une méthode statistique (ici la classification) peut apporter des éléments de
réponses par des sorties numériques et/ou des graphiques mais la réponse précise à la question
ne peut être apportée que par le praticien qui sait interpréter les résultats statistiques en termes
biologiques. Finalement, chaque méthode ou technique statistique associée à différents jeux d’op-
tions (comme différentes métriques) fournit différentes optiques pour appréhender les données.
Seule une forte interaction entre le biologiste et le statisticien est susceptible d’aboutir à des in-
terprétations cohérentes des résultats afin d’ébaucher des nouvelles pistes de recherche pertinentes
et prometteuses.

129
130 CHAPITRE 8. MODÈLE LINÉAIRE : ANALYSE DE VARIANCE
Bibliographie

[1] A. BACCINI et P. B ESSE : Data mining : 1. exploration statistique, 2000. www.ups-


tlse.fr/Besse/enseignement.html.
[2] Y. B ENJAMINI et Y. H OCHBERG : Controlling the false discovery rate : a practical and
powerful approach to multiple testing. Journal of the Royal Statistical Society, (85):289–
300, 1995.
[3] P. B ESSE : Pratique de la modélisation statistique, 2000. www.ups-
tlse.fr/Besse/enseignement.html.
[4] P. B ESSE : Data mining : 2. modélisation statistique et apprentissage, 2004. www.ups-
tlse.fr/Besse/enseignement.html.
[5] J. B LAND et D. A LTMAN : Multiple significance tests : the bonferroni method. British
medical Journal, (310), 1995.
[6] A. B ONNET, F. B ENNE, C. DANTEC, N. G OBERT, P.O. F RAPPART, M. S AN C RISTOBAL,
F. H ATEY et G T OSSER -K LOPP : Identification of genes and gene networks involved in pig
ovarian follicular development, by using c-dna microarrays. In III International Workshop
on the Development and Function of Reproductive organs, 2004.
[7] L. B REIMAN : Random forests. Machine Learning, 45:5–32, 2001.
[8] L. B REIMAN, J. F RIEDMAN, R. O LSHEN et C. S TONE : Classification and regression trees.
Wadsworth & Brooks, 1984.
[9] P.B. B ROCKHOFF : Statistical models with random effects, 2004.
www.dina.dk/ per/Netmaster/courses/st113/Intro/index.html.
[10] P. DALGAARD : Introductory Statistics with R. Springer, 2003.
[11] S. D RAGHICI : Data Analysis Tools for DNA Microarrays. Mathematical Biology and
Medicine Series. Chapman & Hall/CRC, 2003.
[12] S. D UDOIT, Y. YANG, T. S PEED et M. C ALLOW : Statistical methods for identifying diffe-
rentially expressed genes in replicated cdna microarray experiments. Statistica Sinica, pages
111–139, 2002.
[13] J.J. FARAWAY : Practical regression and anova using r, 2002. www.stat.lsa.umich.edu/ fara-
way/book/.
[14] J.-L. F OULLEY, F. JAFFREZIC et C. ROBERT-G RANI É : Em-reml estimation of covariances
parameters in gaussian mixed models for longitudinal data analysis. Genetics Selection Evo-
lution, (32):129–141, 2000.
[15] T. H ASTIE, R. T IBSHIRANI et J F RIEDMAN : The elements of statistical learning : data
mining, inference, and prediction. Springer, 2001.
[16] I. J OLLIFFE : Principal Component Analysis. Springer-Verlag, 2nd edition édition, 2002.

131
132 BIBLIOGRAPHIE

[17] L. K AUFMAN et J. ROUSSEEUW, P. : Finding groups in data. Wiley, 1990.


[18] Churchill G. K ERR K., Martin M. : Analysis of variance for gene expression microarray
data. Journal of Computational Biology, pages 819–837, 2000.
[19] S.S. L EE, T. P INEAU, J. D RAGO, E.J. L EE, J.W. OWENS, D.L. K ROETZ, P.M. F ERNANDEZ -
S ALGUERO, H. W ESTPHAL et F.J. G ONZALEZ : Targeted disruption of the alpha isoform
of the peroxisome proliferator-activated receptor gene in mice results in abolishment of the
pleiotropic effects of peroxisome proliferators. Molecular and Cellular Biology, 15(6):3012–
22, 1995.
[20] K.V. M ARDIA, J.T. K ENT et J.M. B IBBY : Multivariate Analysis. Academic Press, 1979.
[21] P.G.P. M ARTIN et COL . : A nutrigenomic approach in mice reveals new aspects of pparα-
deficient phenotype with important implications in pharmacology. Gene Expression, à
paraı̂tre.
[22] P.G.P. M ARTIN, F. L ASSERRE, C. C ALLEJA, A. VAN E S, A. ROULET, D. C ONCORDET,
M. C ANTIELLO, R. BARNOUIN, B. G AUTHIER et T. P INEAU : Transcriptional modulations
by rxr agonists are only partially subordinated to pparalpha signaling and attest additional,
organ-specific, molecular cross-talks. Gene Expression, à paraı̂tre.
[23] G.J. M C L ACHLAN, K.-A. D O et C. A MBROISE : Analysing microarray gene expression
data. Wiley, 2004.
[24] C. ROBERT-G RANI É, B. B ONAITI, D. B OICHARD et Barbat A. : Accounting for variance
heterogeneity in french dairy cattle genetic evaluation. Livestock Production Science, (60):
343–357, 1999.
[25] M. S AN C RISTOBAL, C. ROBERT-G RANI É et JL. F OULLEY : Hétéroscédasticité et modèles
linéaires mixtes : théorie et applications en génétique quantitative. Journal de la Société
Française de Statistique, (143), 2002.
[26] S.R. S EARLE : Linear Models. Wiley, 1971.
[27] T. S PEED : Statistical Analysis of Gene Expression Microarray Data. Interdisciplinary
Statistics. Chapman & Hall/CRC, 2003.
[28] V.N. VAPNIK : Statistical learning theory. Wiley Inter science, 1999.
Chapitre A
Annexes

1 Analyse canonique
A : Corrélations entre gènes
PMDCI THIOL CYP3A11 CYP4A10 CYP4A14

PMDCI 1.00 0.84 0.79 0.85 0.75


THIOL 0.84 1.00 0.74 0.80 0.70
CYP3A11 0.79 0.74 1.00 0.76 0.74
CYP4A10 0.85 0.80 0.76 1.00 0.89
CYP4A14 0.75 0.70 0.74 0.89 1.00
Lpin -0.15 0.07 -0.02 -0.23 -0.29
Lpin1 -0.12 0.09 -0.03 -0.20 -0.28
GSTmu 0.42 0.57 0.62 0.44 0.53
GSTpi2 0.44 0.36 0.60 0.42 0.42
S14 0.09 0.33 -0.03 0.08 -0.11

Lpin Lpin1 GSTmu GSTpi2 S14

PMDCI -0.15 -0.12 0.42 0.44 0.09


THIOL 0.07 0.09 0.57 0.36 0.33
CYP3A11 -0.02 -0.03 0.62 0.60 -0.03
CYP4A10 -0.23 -0.20 0.44 0.42 0.08
CYP4A14 -0.29 -0.28 0.53 0.42 -0.11
Lpin 1.00 0.97 0.11 -0.15 0.58
Lpin1 0.97 1.00 0.06 -0.12 0.59
GSTmu 0.11 0.06 1.00 0.45 0.09
GSTpi2 -0.15 -0.12 0.45 1.00 -0.27
S14 0.58 0.59 0.09 -0.27 1.00

B : Corrélations entre acides gras


C16_0 C18_0 C18_1n_9 C18_1n_7 C18_2n_6 C20_4n_6

C16_0 1.00 0.56 -0.20 0.11 -0.66 0.18


C18_0 0.56 1.00 -0.84 -0.57 -0.08 0.55
C18_1n_9 -0.20 -0.84 1.00 0.80 -0.23 -0.36
C18_1n_7 0.11 -0.57 0.80 1.00 -0.56 -0.17
C18_2n_6 -0.66 -0.08 -0.23 -0.56 1.00 0.15
C20_4n_6 0.18 0.55 -0.36 -0.17 0.15 1.00
C22_5n_6 -0.06 0.27 -0.23 -0.03 0.28 0.83
C18_3n_3 -0.37 -0.08 -0.22 -0.31 -0.06 -0.37
C22_6n_3 0.45 0.57 -0.60 -0.57 -0.03 -0.18

133
134 ANNEXE A. ANNEXES

C20_5n_3 0.26 0.44 -0.56 -0.46 -0.19 -0.39


C22_5n_3 0.18 0.29 -0.41 -0.38 -0.22 -0.44

C22_5n_6 C18_3n_3 C22_6n_3 C20_5n_3 C22_5n_3

C16_0 -0.06 -0.37 0.45 0.26 0.18


C18_0 0.27 -0.08 0.57 0.44 0.29
C18_1n_9 -0.23 -0.22 -0.60 -0.56 -0.41
C18_1n_7 -0.03 -0.31 -0.57 -0.46 -0.38
C18_2n_6 0.28 -0.06 -0.03 -0.19 -0.22
C20_4n_6 0.83 -0.37 -0.18 -0.39 -0.44
C22_5n_6 1.00 -0.32 -0.39 -0.44 -0.44
C18_3n_3 -0.32 1.00 -0.02 0.48 0.40
C22_6n_3 -0.39 -0.02 1.00 0.59 0.59
C20_5n_3 -0.44 0.48 0.59 1.00 0.70
C22_5n_3 -0.44 0.40 0.59 0.70 1.00

C : Corrélations entre gènes et acides gras


C16_0 C18_0 C18_1n_9 C18_1n_7 C18_2n_6 C20_4n_6

PMDCI 0.70 0.68 -0.41 -0.14 -0.48 0.33


THIOL 0.75 0.41 -0.06 0.13 -0.62 0.19
CYP3A11 0.62 0.59 -0.52 -0.36 -0.34 -0.01
CYP4A10 0.60 0.51 -0.33 -0.16 -0.33 0.15
CYP4A14 0.45 0.39 -0.30 -0.19 -0.24 0.01
Lpin 0.18 -0.23 0.38 0.28 -0.46 -0.36
Lpin1 0.19 -0.21 0.38 0.27 -0.45 -0.31
GSTmu 0.48 0.14 -0.04 0.13 -0.35 -0.16
GSTpi2 0.35 0.55 -0.55 -0.53 0.07 0.12
S14 0.33 -0.19 0.44 0.48 -0.49 -0.05

C22_5n_6 C18_3n_3 C22_6n_3 C20_5n_3 C22_5n_3

PMDCI 0.07 -0.08 0.41 0.34 0.17


THIOL 0.01 -0.24 0.29 0.23 0.12
CYP3A11 -0.17 0.06 0.72 0.60 0.51
CYP4A10 0.03 -0.08 0.44 0.38 0.10
CYP4A14 -0.08 -0.04 0.53 0.36 0.15
Lpin -0.45 0.16 0.01 -0.02 0.29
Lpin1 -0.45 0.15 -0.00 -0.05 0.23
GSTmu -0.13 -0.33 0.49 0.15 0.38
GSTpi2 -0.14 -0.09 0.66 0.42 0.36
S14 0.01 -0.07 -0.37 -0.16 -0.04

2 Modèle linéaire
D : Quelques rappels sur les lois
Loi du Chi-deux
Si X1 , X2 , . . . , Xn sont des variables aléatoires N (0, 1) et indépendantes alors

n
X
Qn = Xi2 ∼ χ2n
i=1
2. MODÈLE LINÉAIRE 135

avec E(Qn ) = n et Var(Qn ) = 2n

Remarques :
La somme de 2 chi-deux indépendantes est aussi un chi-deux.
Une variable du chi-deux est toujours positive.
Loi de Student
Si X ∼ N (0, 1) et Q ∼ χ2n avec X et Q deux variables indépendantes alors

X
Tn = p ∼ tn
Q/n

Remarque :
Si n → +∞, tn tend vers une loi normale réduite.
Loi de Fisher
Si Q1 ∼ χ2n1 et Q2 ∼ χ2n2 avec Q1 et Q2 deux variables indépendantes alors

Q1 /n1
Fn1 ;n2 = ∼ Fnn21
Q2 /n2

Théorème de Cochran
Soient X ∼ N (µ, Σ) ; A et B deux matrices carrées, symétriques (A0 = A et B 0 = B) et
idempotentes (AA = A et BB = B) d’ordre n ; a un vecteur aléatoire de IRn ; Q1 = X 0 AX et
Q2 = X 0 BX, deux formes quadratiques,
Alors,
i. AΣB = 0 =⇒ Q1 et Q2 indépendantes,
ii. AΣa = 0 =⇒ Q1 et a0 X indépendantes,
iii. k X − µ k2 ∼ χ2n ,
iv. Si rang(A) = r, Σ = I et µ = 0 alors X 0 AX ∼ χ2r .