Vous êtes sur la page 1sur 24

Les Cahiers de la

Statistique et de
l'Economie Applique

Ecole Nationale d'Economie Applique - Dpartement STADE


BP 5084 - DAKAR - SENEGAL
Ecole Nationale de Statistique et d'Economie Applique
08 BP 3 - ABIDJAN 08 - RCI

L'Analyse
Discriminante
2me dition, revue et augmente

par Xavier BRY


Professeur de Statistique l'ENEA

Introduction gnrale

L'Analyse Factorielle Discriminante forme avec l'Analyse de la Variance ( 1 ou plusieurs facteurs) un


corpus de mthodes d'tude des rapports entre variables quantitatives et variables qualitatives. La situation est
au dpart la suivante:
On suppose tre en prsence d'un certain nombre d'units statistiques (appeles individus) dcrites par
des variables quantitatives. Ces descriptions sont mises sous forme de tableau statistique:

individus

var j
(ge)

variables

xij

indiv i

Par ailleurs, on dispose, sur ces mmes units statistiques, de groupement en classes (ou ce qui
revient au mme, d'observations qualitatives)
variable de classe
(catgorie socioprofessionnelle)

classe k
(ouvrier)

individus
...........
.....

......

indiv i

.....
...........

......

Pour chacune de ces mthodes, il y a une variable cense tre explicable partir des autres. En
Analyse de la Variance, il n'y a qu'une variable quantitative, et c'est cette variable que l'on cherche
"expliquer" partir des variables de classe (qualitatives), tandis qu'en Analyse Discriminante, c'est la
variable de classe qui est seule, et que l'on essaie d'"expliquer" partir des variables quantitatives.
Le principe est en dfinitive globalement le mme dans les deux cas de figure:
On cherche les rapports pouvant exister entre la dispersion des individus du point de vue
des variables quantitatives et les groupements de ces individus en classes.

En Analyse Discriminante, la variable de classe est censment explicable, donc prdictible, partir
des variables quantitatives. Une fois dgags les rapports entre ces variables, on cherchera
naturellement, connaissant la description d'un nouvel individu l'aide des variables quantitatives, en
prdire la classe de manire plausible.

Ces techniques semblent donc "explicatives" au sens o elles essaient d'"expliquer" les groupements par les
descriptions quantitatives ou l'inverse. En ralit, comme toutes les techniques proches de la rgression
linaire, l'Analyse de Variance et l'Analyse Discriminante peuvent tre utilises de manire plutt
exploratoire, ou plutt comme des techniques d'estimation de modles statistiques explicatifs. Car ce n'est pas
la technique en soi qui est explicative, mais seulement ventuellement le modle sous-jacent, s'il est conu
pour tre explicatif, ce qui lui suppose d'abord un fondement logique (il prtend traiter des causes et des
effets!).
Dans la situation exploratoire, les variables explicatives candidates sont nombreuses, et l'on cherche
empiriquement y distinguer celles qui sont pertinentes pour la construction d'un modle de type linaire.
Dans la situation d'un modle statistique, on est cens avoir franchi cette tape de slection, et disposer d'un
nombre plus rduit de variables explicatives, qui sont "les bonnes", ainsi que de la forme fonctionnelle de la
dpendance entre la variable expliquer (dite variable dpendante) et les variables explicatives, cette liaison
fonctionnelle ayant t mise sous forme linaire. On ne s'intresse plus alors qu' l'estimation des effets de ces
variables sur la variable dpendante.
Nous nous intresserons ici essentiellement l'utilisation exploratoire de l'Analyse Discriminante, et
examinerons comment l'on peut dgager les variables explicatives pertinentes. Cette utilisation est la plus
courante, et il faut bien se garder d'interprter d'emble les rsultats qu'elle fournit comme de vritables
modles explicatifs des donnes. Une telle interprtation n'est ventuellement licite qu'en phase finale de
modlisation, aprs une justification logique consistante.
Ajoutons qu'avant de disposer d'un vritable modle explicatif des donnes, c'est--dire tant que l'on est en
phase d'exploration, il convient de se dfier absolument de toutes les applications dcisionnelles que ces
techniques semblent permettre d'emble (et qui sont trs tentantes).

Analyse Discriminante

1 - Introduction:
Prenons un exemple. Un conomiste dispose d'un certain nombre d'indicateurs quantitatifs mme
(pense-t-il) de dcrire une conomie (PNB / habitant ; Dette / PNB ; taux de chmage ...). Il a calcul
les valeurs de ces indicateurs pour un ensemble de pays dont il a class a priori les conomies en 4
catgories: conomies sauvages-librales, conomies sociales-dmocrates, conomies planification
centralise, conomies en voie de dveloppement. L'conomiste s'interroge sur les rapports entre cette
classification a priori et leur description quantitative l'aide des indicateurs. Autrement dit, il se
demande si ces indicateurs permettent de discerner les 4 types d'conomie les uns des autres.
La mthode d'Analyse Discriminante consiste chercher des combinaisons linaires (donc des
fonctions ultra-simples !) des indicateurs quantitatifs qui permettent de retrouver peu ou prou le
classement pos a priori.
On constate dj qu'on cherche des fonctions bien particulires de ces indicateurs quantitatifs: en gros,
des sommes pondres! Or, force est de constater que bien peu de choses sont additives dans la nature.
En particulier (comme nous l'ont serin - juste titre - nos instituteurs l'cole primaire) il est toujours
extrmement gnant de se permettre a priori d'additionner les carottes et les poireaux... Que dire alors
de l'addition d'un PNB/habitant, d'un taux de croissance et d'un taux de chmage! On est donc mal
parti sur le plan logique pour construire un vrai modle explicatif. Ceci dit, notre recherche de
combinaisons linaires pourra nous aider oprer un tri grossier dans les ventuelles liaisons entre les
variables explicatives (les indicateurs conomiques) et la variable dpendante (le classement).
2 - Les donnes:
On dispose ici d'une description d'un certain nombre d'units statistiques l'aide de plusieurs variables
quantitatives (que nous dsignerons commodment par "symptmes").

individus

variables

indiv i
(pays i)

var j
(Dette/PNB)

var J

xij

Par ailleurs, on dispose, sur ces mmes units statistiques, d'un groupement en classes, ou ce qui
revient au mme, d'une seule variable qualitative, ou variable de groupe (ou de classe, ou variable
catgorielle... que nous dsignerons sous le terme "diagnostic").

variable de classe
(type d'conomie)

classe k
(sociale-

classe K

dmocrate)

individus
...........
.....

......

indiv i
(pays i)

.....
...........

......

Note: les termes symptmes et diagnostic renvoient bien sr une utilisation de la mthode dans un
contexte particulier: celui ou la variable de groupe est susceptible d'tre prdite pour un individu au vu
des valeurs prises sur lui par les variables quantitatives. Cette utilisation dcisionnelle de la mthode
appelle de nombreux commentaires, dont nous ne nous priverons pas dans la suite.
3 - Le problme:
On essaie de voir si l'on peut mettre en rapport certaines combinaisons linaires des symptmes avec
la variable de groupe.
De telles combinaisons linaires des variables quantitatives d'origine sont de nouvelles variables
quantitatives appeles facteurs, interprtables l'aide des symptmes originaux, et qui sont plus aptes
que ces derniers montrer ce que chaque groupe de diagnostic a de spcifique.
Une reprsentation graphique construite l'aide de ces facteurs devrait donc faire apparatre bien
distinctement les diffrents groupes.
Dans notre exemple, si deux facteurs - construits opportunment partir des indicateurs conomiques
quantitatifs dcrivant les pays - suffisaient expliquer les diffrences entre les 4 types d'conomies
distingus a priori, on obtiendrait quelque chose comme:
facteur 2

co planification centralise
co sociales-dmocrates

co en voie de dveloppement

co sauvages-librales
facteur 1

Chaque facteur devrait alors tre interprt en fonction de ses corrlations avec les symptmes originels. Pour
ce faire, on ditera des graphiques du type:

facteur 2
1
active
o %dspop
fonction publique
o
% pop active
o aide sociale/hbt
ds industrie

dette/hbt

0.16

0.87
o

corrlation (PIB/hbt , facteur 1) = 0.87


corrlation (PIB/hbt , facteur 2) = 0.16

PIB/habt

1 facteur 1

% pop active
ds agriculture
% pop active
ds services

chmage

Considrons la traduction gomtrique des observations dans l'espace des symptmes:


Dette / PNB

pays i

PNB / hbt

taux de chmage
Note: on a fait ci-dessus une reprsentation graphique dans un espace des symptmes 3 dimensions
pour l'intelligibilit. Il est clair que si l'on a J variables symptmes, l'espace en question a J dimensions
(qui ne peuvent tre reprsentes sur un dessin).
Schmatiquement, s'intresser des combinaisons linaires des variables d'origine au lieu de ces
dernires revient changer de base dans l'espace des symptmes.

Dette / PNB
facteur 3

pays i
facteur 2
facteur 1

PNB / hbt

taux de chmage
Notre problme est donc ici de trouver quelques facteurs (le plus petit nombre possible, pour arriver
une "explication" trs synthtique de la variable de groupe par les ymptmes) tels que la reprsentation
des observations sur ces facteurs fasse apparatre les groupes le mieux possible.
Cela revient chercher la "photographie" des observations dans l'espace des symptmes qui fait
le mieux apparatre les groupes.

mauvaise photo: tous les groupes se mlangent

Dette / PNB

facteur 2
PNB / hbt

taux de chmage

facteur 1

bonne photo: les groupes sont bien distincts

4 - Le critre
a) Pour un seul facteur (une seule variable quantitative), on a vu, en Analyse de la variance 1 facteur,
que le critre de discrimination des groupes tait:
dispersion entre les groupes
variance entre les groupes

dispersion dans les groupes


variance dans les groupes
b) notations:

On note Ik le nombre d'observations dans le groupe k, et xi le point reprsentant l'observation i dans


l'espace des symptmes. Le point xi a pour coordonnes les valeurs xij des symptmes j pour
l'observation i.
l'ide: dans le cas d'un sous-espace de plusieurs facteurs, on gnralise le critre ci-dessus en prenant
pour mesure de la dispersion l'inertie.
Rappelons que l'inertie d'un nuage de n points xi (pondrs de poids pi dont la somme
fait 1) par rapport un point de rfrence y et une distance d est dfinie comme la
distance carre moyenne des xi y:

Inertie y ( x i , pi )i 1 n

d 2 ( xi , y )

i 1

On utilisera donc le critre:


inertie entre les groupes
inertie dans les groupes
calcul des inerties:
On dote toutes les I observations xi du mme poids, valant donc 1/I .
On calcule le point moyen (ou centre de gravit) gk du groupe k comme suit:

gk

1
. xi
I k i groupe k

Le point moyen d'un groupe a videmment pour caractristiques les valeurs moyennes des variables
dans ce groupe.
Le point moyen g de l'ensemble des observations est bien sr aussi le point moyen des gk pondrs par
les effectifs Ik correspondants:

1 I
xi
I i 1

Ik 1
(

Ik
k 1 I

xi )

i groupe k

Ik
. gk
k 1 I

g2

g1

g
g3
Inertie dans les groupes:
Elle est simplement calcule en prenant comme point de rfrence, pour chaque observation xi , le
point moyen du groupe auquel elle appartient:

In d

1 K
d 2 ( xi , g k )
I k 1 i groupe k

On remarque que ce serait l'inertie par rapport g du nuage obtenu en superposant tous les gk en g.

Inertie entre les groupes:


C'est simplement l'inertie des points moyens des diffrents groupes (pondrs par les effectifs de ces
groupes) autour du point moyen global:

In e

k 1

Ik 2
d ( gk ,g )
I

g2

g1

g
g3

On va donc chercher un sous-espace Ep de dimension rduite p (p = 1 pour le facteur le plus


discriminant, p = 2 pour le plan factoriel le plus discriminant, etc...) dans lequel on ait:
Inertie entre groupes projet s
maximum
Inertie dans les groupes projet s

5 - rsultats:
On dmontre que ce problme revient faire l'Analyse Factorielle du nuage des centres gk des
classes, en utilisant une faon bien particulire de mesurer la distance - diffrente de la distance
euclidienne usuelle - appele Mtrique de Mahalanobis.

Cette mtrique a un effet assez intressant. Fondamentalement, elle revient transformer la dispersion
globale l'intrieur des classes en distribution "sphrique", c'est--dire n'ayant aucune direction
d'allongement particulire:

L'emploi de cette mtrique revient en quelque sorte gommer l'effet de cette dispersion "intrinsque"
dans la dispersion globale. Considrons par exemple le cas suivant:
variable 3

plan de plus grand talement du nuage des


centres de gravit, au sens de la distance usuelle:
variable 2

variable 2
variable 1

variable 1

... mais on remarque que la dispersion dans la direction de la variable 2 est forte l'intrieur des
classes. Le fait que les centres de gravit des classes soient disperss dans la direction de la variable 2
est peut-tre mettre au compte d'une dispersion intrinsque des observations dans cette direction
(variance de la variable 2 intrinsquement forte) et non d'une forte discriminabilit naturelle des classes
dans cette direction.
Pour "gommer" cet effet, on est amen galiser la dispersion globale dans les classes dans toutes les
directions, autrement dit, "sphriciser" cette dispersion. Pour ce faire, on "comprime" certaines
dimensions (ici, la direction de la variable 2):
variable 3

variable 3

plan de plus grand talement du nuage des centres


de gravit, au sens de la distance de Mahalanobis
variable 2

variable 1

variable 1

En faisant cette analyse factorielle, on obtient des axes factoriels 1, 2, 3, ... p, ... tels que la meilleure
discrimination en dimension p soit obtenue sur les p premiers axes factoriels. Le facteur 1 est donc le
plus discriminant, le facteur 2 est celui qui complte le mieux le facteur 1, etc...
Le pouvoir discriminant d'un axe est dfini comme le rapport de la dispersion entre les groupes la
dispersion dans les groupes, en projection sur l'axe. Soit:
Inertie entre groupes projet ssur l ' axe
Inertie dans les groupes projet ssur l ' axe

6 - Interprtation des facteurs:


L'ordinateur donne le coefficient aj de chaque variable Xj dans le calcul de chaque facteur F:
J

F b aj . X

j 1

Les variables Xj sont souvent prises rduites (divises par leur cart-type) afin que leurs coefficients
soient comparables en valeur absolue. En effet, on voit que changer l'unit d'une variable (en
multipliant par exemple la variable par 100) change le coefficient (le divise par 100). Rduire toutes les
variables avoir la mme dispersion gale 1 est un moyen de supprimer cet effet arbitraire des units.
Comment interprter alors ces coefficients? On pourrait penser d'emble que plus ce coefficient est
lev, en valeur absolue, plus la variable correspondante intervient dans le facteur, positivement ou
ngativement. En fait, une telle conclusion est beaucoup trop htive, et conduit trs souvent en pratique
des interprtations totalement erronnes.
La raison profonde est la suivante: il peut exister des interdpendances statistiques entre les variables
explicatives elles-mmes. Un tel phnomne est appel multicolinarit, et empche l'interprtation des
coefficients ci-dessus. Chacun de ces coefficients aj demande tre interprt comme l'effet, sur le
facteur, de l'augmentation d'une unit de la variable explicative Xj toutes les autres variables
explicatives restant inchanges. Or, comment imaginer que la variable Xj varie sans que les autres
bougent s'il existe entre elles des liaisons?
Supposons par exemple que l'on ait obtenu:
F1 = 5 + 3 PIB/hbt - 0.5 dette/hbt + 1.2 aide sociale/hbt + 1.1 % pop active ds les services
... mais qu'au plan statistique on constate que la dette/hbt est presque parfaitement corrle avec le
PNB/hbt, autrement dit que ces variables rduites vrifient pratiquement une relation de la forme:
PIB/hbt = c - dette/hbt
Alors, il est clair qu'en remplaant le PIB/hbt par l'expression c - dette/hbt dans la formule du facteur,
on obtient:
F1 = 5 + 3c - 3.5 dette/hbt + 1.2 aide sociale/hbt + 1.1 % pop active ds les services
Mais, on aurait galement pu, pour n'importe quelle valeur du coefficient a du PIB/hbt, crire:
F1 = (5 + (3-a)c) + a PIB/hbt + (a - 3.5) dette/hbt + 1.2 aide sociale/hbt
+ 1.1 % pop active ds les services
... par consquent, les coefficients de PIB/hbt et dette/hbt ne veulent absolument rien dire! Ils peuvent
mme avoir le signe qu'on veut!
Pour pouvoir interprter grosso modo les coefficients des variables comme leur effet spar sur le
facteur, il faut que ces variables soient deux deux pratiquement dcorrles (ainsi peut-on imaginer
chacune variant de manire linairement indpendante des autres).
Lorsque les variables explicatives sont nombreuses, elles n'ont aucune chance de ne pas prsenter entre
elles une structure de corrlations varie, contenant des corrlations assez fortes en valeur absolue. Il
est mme certain que les variables satisferont pratiquement entre elles des relations de dpendance
linaire pas ncessairement faciles prvoir a priori. L'interprtation des rsultats de l'Analyse
Discriminante via les coefficients aj a donc toutes les chances d'tre caduque.

Il est donc ncessaire d'interprter les facteurs en utilisant leurs corrlations avec les variables
explicatives (ceci permet indirectement de juger d'une partie des corrlations des variables explicatives
entre elles).
On peut montrer que si l'on trace le cercle de rayon 1 et de centre O, toutes les variables explicatives se
projettent l'intrieur. Et que d'autre part, si deux variables se projettent prs du cercle, on peut juger
de leur corrlation d'aprs leur position relative:
- Si les variables apparaissent trs proches, elles ont une corrlation proche de +1 (corrlation
parfaite). Par exemple, le % de la population active dans l'industrie et l'aide sociale par habitant
apparaissent ci-dessous bien corrles.
- Si les variables apparaissent diamtralement opposes, elles ont une corrlation proche de -1
(anticorrlation parfaite). C'est par exemple ci-dessous le cas du PIB/habitant et de la
Dette/habitant.
- Si les variables apparaissent faire un angle droit, elles ont une corrlation proche de 0
(dcorrlation). C'est par exemple ci-dessous le cas de l'aide sociale par habitant et du % de la
population active dans les services.

facteur 2
1
active
o %dspop
fonction publique
o
% pop active
o aide sociale/hbt
ds industrie

dette/hbt

0.16

0.87
o

corrlation (PIB/hbt , facteur 1) = 0.87


corrlation (PIB/hbt , facteur 2) = 0.16

PIB/habt

1 facteur 1

% pop active
ds agriculture
% pop active
ds services

chmage

Lepremierfacteurdiscriminant apparat treunfacteurderichesseetd'endettement (qu'iloppose),


tandisquelesecondopposechmageetimportancedelafonctionpubliquedanslemondedutravail.
On peut montrer que toute variable se projetant prs du cercle dans cette reprsentation est
pratiquementexprimablecommeunecombinaisonlinairedesdeuxfacteursduplan.Onditqu'une
tellevariableestbienreprsentedansceplandiscriminant.Rciproquement,sideuxvariablessont
trs bien reprsentes dans un plan discriminant, et ne sont pas trop corrles (positivement ou
ngativement), chaque facteur de ce plan est exprimable comme combinaison linaire deces deux
variables.Onpeutdoncconcevoir,danschaqueplandiscriminant,deremplacerlesdeuxfacteursdu
planpardeuxvariablesexplicativesbienreprsentesdansleplanetpeucorrlesentreelles.Detelles
variablesengendrentlammecapacitdediscriminationquelesfacteursduplan,ettantpeucorrles,
leurseffetssurladiscriminationsontbiensparables.Ceseront donc,siellesontunsensfort par
rapportlavariabledeclasse,debonnesvariablesretenirdansunvritablemodleexplicatif.
Ayant ainsi retenu un nombre rduit de bons symptmes reprsentant les meilleurs plans
discriminants,onpeutprocderunenouvelleAnalyseDiscriminante.Lesfacteursserontcettefois
interprtablesl'aidedescoefficients aj qu'ontlesvariables Xj dansleurexpression,cescoefficients
tantassimilablesdeseffetssparsdecesvariables.

Mais attention: pour obtenir des effets spars pour lesdiffrentes variables du modle, via une
suppression totale de la multicolinarit, on a d rduire le nombre des variables explicatives.
L'explication du diagnostic risque fort de ce fait de perdre en richesse, puisque l'on limine de
nombreusespossibilitslogiques.Parexemple,lorsqu'entredeuxvariablestrscorrlesonenlimine
une,estonvraimentsrquec'estlabonne,oummequecen'estpasvritablementl'ensembledeces
deuxvariablesquiauneffetsurleclassement,pluttquel'uneoul'autre?

7 - Affectation empirique d'une nouvelle observation un groupe de diagnostic:


a) Le problme:
On dispose d'une nouvelle observation dcrite par les symptmes quantitatifs, et on dsire l'affecter au
groupe de diagnostic le plus vraisemblable empiriquement.
Note: la vraisemblance ne devrait pas tre quelque chose d'empirique mais de bien dfini et quantifi.
De plus, on s'est visiblement plac dans le cadre d'un problme de diagnostic automatique, ce qui
devrait plutt inciter la rigueur, compte tenu des ventuelles consquences.
b) Une "mthode":
... consiste affecter cette observation au groupe dont le centre de gravit est le plus proche. Pour
mesurer cette distance, on utilise la mtrique de Mahalanobis pour les mmes raisons qui nous ont fait
faire l'analyse factorielle avec elle: supprimer l'effet de la dispersion intrinsque l'intrieur des
classes. Prenons l'exemple suivant:
var 3

classe 3

classe 1
observation
classer
classe 2
var 2

centre le plus proche au sens de la distance usuelle


var 1
On voit trs bien que le centre le plus proche au sens de la distance ordinaire (celui de la classe 2) n'est
pas celui de la classe la plus satisfaisante (intuitivement, la classe 1), cause de la distribution allonge
des classes dans la direction de la variable 2. L'loignement dans la direction de la variable 2 peut tre
impute la dispersion intrinsque des observations dans cette direction. En comprimant l'espace dans
cette direction afin de redonner globalement aux classes une distribution sphrique, on obtient:
classe 1

centre de classe le plus proche

var 3

var 2

var 1
Cette fois, affecter l'observation la classe dont le centre est le plus proche conduit la classe 1,
intuitivement plus satisfaisante.

8 - critique de la mthode:
Chercher les facteurs sous la forme de combinaisons linaires des symptmes d'origine est commode
au plan gomtrique, mais ne permet pas de discriminer des classes (pourtant clairement discernables
l'oeil) situes l'une par rapport l'autre de la manire suivante:

classe 1

classe 2
En effet, les centres de gravit de telles classes sont trs proches, et il n'existe pas d'axe sur lequel les
classes soient bien spares en projection. On dit que les classes ne sont pas linairement sparables.
Par contre, il est ais de trouver un critre quadratique qui les spare. Soit g un point proche des
centres de gravit des deux classes (par exemple le centre de gravit global). On remarque que les
lments de la classe 1 sont situs dans un rayon limit de g, tandis que ceux de la classe 2 sont assez
nettement au del.
r"
r'
r

classe 1
g

classe 2

On peut donc crire:


i classe 1, d 2 ( x i , g ) r

i classe 2, r ' d 2 ( x i , g ) r "

L'affectation d'une nouvelle observation la classe dont le centre est le plus proche au sens de
Mahalanobis ne permet pas de tenir compte de la dispersion particulire de chaque classe (il n'y a gure
de raison que la dispersion l'intrieur de chaque classe soit grossirement la mme). Considrons
l'exemple suivant:

classe 1
classe 2

observation classer

L'observation va tre affecte la classe 2, selon le critre de la distance la plus courte (en imaginant
que c'est celle de Mahalanobis que l'on voit). Or, intuitivement, elle devrait plus vraisemblablement
tre rattache la classe 1. En effet, la classe 1 est plus disperse "rtisse plus large" dans sa direction.
Une solution ce problme consiste calculer la distance de l'observation au centre de chaque classe
avec une mtrique qui "sphricise" la dispersion de cette seule classe.
Plus grave que tout: faute de vritable modle explicatif, on se permet de prendre une dcision
d'affectation (diagnostic) empirique sans avoir vraiment modlis au plan logique le rle de chaque
symptme dans l'laboration du diagnostic. En effet, une telle modlisation est ncessairement fonde
sur des arguments logiques fondamentaux, et non a priori sur des combinaisons linaires dtermines
empiriquement. Sur le plan des principes, c'est assez scandaleux! Comme on le verra dans l'exemple cidesous (volontairement discutable), la dcision n'a rien de logiquement fond tant que l'on s'est
cantonn cette analyse exploratoire.
Dans ce type d'analyse linaire en effet, n'importe quelle variable peut tre formellement remplace par
une variable qui lui est trs corrle, mais qui, elle, n'a pas ncessairement de sens en tant que
symptme.
Par exemple, un diagnostic d'orientation scolaire vers une filire scientifique dpend du niveau en
mathmatiques. S'il se trouve que dans l'ensemble des lves, le niveau en mathmatique est anticorrl
avec le niveau en langues (i.e. varie presque systmatiquement en sens inverse), la fonction de dcision
d'orientation vers la filire scientifique peut contenir, la place de la note en mathmatiques pondre
avec un fort coefficient positif, la note en langues pondre avec un fort coefficient ngatif. Utiliser une
telle fonction pour l'orientation automatique peut alors conduire affecter la filire sciences toute
nouvelle personne mauvaise en langues ... quel que soit son niveau en mathmatiques! Ce qui est bien
sr une absurdit totale.
9. En pratique
Il est intressant de parvenir bien expliquer la variable de classe avec peu de symptmes. La
technique expose ci-dessus permet de slectionner, sur les plans du sous-espace de dimension p le plus
discriminant, les variables qui ont un bon pouvoir discriminant: ce sont globalement celles qui y sont
bien reprsentes.
A quelle dimension p arrter l'analyse? Empiriquement, on choisira le sous-espace de la plus petite
dimension possible qui, d'une part, semble fournir des plans sur lesquels les classes se sparent
visuellement de manire satisfaisante, et d'autre part, soit engendr par des variables ayant un pouvoir
explicatif fort1. Ayant slectionn de tels symptmes, on teste leur pouvoir prdictif sur le diagnostic en
1Si l'on dsire interprter chaque facteur comme combinaison linaire des symptmes en utilisant les coefficients de ces derniers dans la
combinaison, on aura soin de choisir des symptmes pas trop corrls deux deux.

procdant une AD dcisionnelle (on calcule la mtrique de Mahalanobis partir de ces seuls
symptmes et on l'utilise pour reclasser les observations). On comparera le taux de bons reclassements
obtenu celui des AD ralises de faon analogue partir des sous-espaces de dimension
immdiatement infrieure et suprieure.
L'Analyse Discriminante pas--pas:
Une technique alternative consiste introduire itrativement les symptmes un par un, le premier tant
le plus discriminant (i.e. de rapport variance entre classes / variance dans les classes maximum), le
second tant celui qui le complte le mieux (i.e. donnant un rapport inertie entre / inertie dans
maximum) etc. On peut arrter l'algorithme lorsqu' l'introduction d'un symptme supplmentaire, ce
rapport baisse. Les L symptmes introduits ce stade ne sont pas ncessairement le lot qui permet la
meilleure discrimination, mais au moins en permettent-ils une empiriquement assez bonne, tout en
tant peu nombreux. Alternativement, on peut remplacer le rapport ci-dessus par le pourcentage
d'observations bien reclasses par l'AD dcisionnelle. On arrte alors l'algorithme ds que ce
pourcentage gale 100 ou baisse au pas suivant.
Cette technique a un aspect dplaisant: l'introduction automatique des symptmes par l'ordinateur ne
prend pas en compte le contenu logique des variables. On devrait donc lui prfrer leur choix raisonn
des variables efficaces partir du sous-espace discriminant de dimension p. Celui-ci tant le meilleur
dans l'espace engendr par tous les symptmes, il est trivialement meilleur que celui qu'on obtiendra
dans l'espace d'un sous-ensemble des symptmes.

10 - Exemple (volontairement dlicat): orientation scolaire


On dispose des notes d'un certain nombre d'individus dans diverses matires. Tous sauf trois (Baba, Flore et
Rose) sont passs devant un conseiller d'orientation qui a pour chacun donn un verdict d'orientation. Il y a
trois orientations possibles: 1: Sciences & Techniques, 2: Sciences Economiques, et 3: Arts & Littrature.
Les individus orients sont donc rpartis en 3 groupes correspondant aux diffrents verdicts.
Les donnes sont les suivantes:
nom

orientation maths

John
Pape
Nabou
Zulu
Mathieu
Soraya
Awa
Gabriel
Georges
Sofia
Nora
Hela
William
Ma
Tewfik
Omar
Lna
Guy
Baba
Flore
Rose

1
1
1
1
1
1
2
2
2
2
2
2
3
3
3
3
3
3

physique

18
13.5
15
15
19
14
12
16
11
16
8
7
4
8
13
8
7
5
7
17
8

11
16.5
15.5
9
13
14
11
3
16
9
10
10
5.5
5
8
5
2
9
12
11
5

statistique anglais

14
17
10
17
14
13
14
10
12
12
14
13
3
9
9
11
6
9
13
14
7

15
12
14
16
8
18
14
19
8
15.5
13
12
13.5
18
15
13
15
12
8
17
14

philosophie conomie littrature arts


musique
plastiques

5
11
12
13
16
14
8
11
5
14
16
12
10
13
17
15
8
17
17
15
12

10
14
16
9
9
10
15
13
14
17
17
16
8
9
11
14
8
12
15
12
8

8
9
11
12
7
13
10
8
9
11.5
15
14
15
14
16
15
16
17
16
11
17

6
5
14
18
6
10
5
8
6
2
11
10
16
10
15
6
11
13
15
7
15

13
17
6
8
15
15
8
12
3
3
13
10
8
11
9.5
11
15
13
15
16
19

On peut calculer les moyennes par groupe des notes correspondant aux diffrentes matires. Il s'agit
bien sr des coordonnes des trois centres de gravit des groupes dans l'espace des notes (symptmes).
Groupe = 1
maths
physique
statistique
anglais
philosophie
conomie
littrature
arts plastiques
musique

15.75
13.166666
14.166666
13.833333
11.833333
11.333333
10
9.833333
12.333333

Groupe = 2

11.666666
9.833333
12.5
13.583333
11
15.333333
11.25
7
8.166666

Groupe = 3

7.5
5.75
7.833333
14.416666
13.333333
10.333333
15.5
11.833333
11.25

Le logiciel procde ensuite l'Analyse Discriminante proprement dite. Il fait donc l'ACP du nuage
des trois centres de classes avec la mtrique de Mahalanobis-Fisher. Ce nuage ne contenant que trois
points, il est plan, et par consquent il ne peut avoir que deux axes principaux d'allongement.
Autrement dit, on ne peut avoir que deux axes discriminants.

La projection des individus sur le plan de ces deux axes donne la photo suivante:
F2
+2Sofia
+2Awa
+2Hela
+2Nora

+3Omar

+2Gabriel
+2Georges

+1Nabou

+3Ma

+1John
+1Zulu

+3Guy

+3William

F1

+1Pape

+Baba

+Flore

+3Lna
+1Mathieu

+3Tewfik

+1Soraya

+Rose

Les classes y apparaissent assez bien spares les unes des autres. A titre de confirmation de leur
sparabilit, le logiciel entreprend de raffecter chaque individu la classe dont il s'approche le plus du
centre, au sens de Mahalanobis. Si les classes sont difficilement sparables, il y aura beaucoup d'erreurs
de classement, alors que si les classes sont bien sparables, cette raffectation automatique devrait
redonner un classement proche du classement initial.
Individu
John
Pape
Nabou
Zulu
Mathieu
Soraya
Awa
Gabriel
Georges
Sofia
Nora
Hela
William
Ma
Tewfik
Omar
Lna
Guy

Groupe initial

Facteur 1

1
1
1
1
1
1
2
2
2
2
2
2
3
3
3
3
3
3

13.256375
14.072705
12.683578
12.730452
12.580864
12.209938
10.593915
10.232194
10.565641
8.428235
9.283473
8.654386
4.724833
6.619138
8.219929
5.584279
5.001585
6.301035

Facteur 2

Groupe estim

-3.908829
-3.227784
-2.773295
-4.154119
-5.214546
-6.043787
-0.926159
-1.293077
-1.433319
-0.621674
-1.795398
-1.324137
-4.42255
-3.887545
-5.261341
-1.99791
-4.92766
-4.385413

1
1
1
1
1
1
2
2
2
2
2
2
3
3
3
3
3
3

On constate ici qu'il n'y a pas une seule divergence entre le classement initial et le classement
automatique. Cela ne veut pas dire que la logique du classement a t trouve, mais qu'il y a de l'espoir
dans la mesure o l'on dispose d'une rgle empirique qui ne fonctionne pas trop mal.
Les centres de gravit des groupes ont dans le plan discriminant les coordonnes suivantes:

groupe 1

facteur 1
facteur 1
facteur 1
facteur 2
facteur 2
facteur 2

groupe 2
groupe 3
groupe 1
groupe 2
groupe 3

moyenne
moyenne
moyenne
moyenne
moyenne
moyenne

12.922318
9.626306
6.075134
-4.220393
-1.232294
-4.14707

Les coefficients aj des variables explicatives (notes, ici centres rduites) dans chaque facteur sont les
suivants:
variables centres rduites

vecteur canonique
1
0.650833
0.916014
0.554209
0.411483
-0.355927
0.25116
-0.678184
0.909635
0.53564

maths
physique
statistique
anglais
philosophie
conomie
littrature
arts plastiques
musique

2
-0.556441
-0.631284
0.282492
0.040551
-0.109969
0.963518
-0.698752
-0.086176
-0.476907

Mais sont-ils interprtables directement?


Examinons la matrice des corrlations des notes correspondant aux diffrentes matires:
Matrice de
corrlation
maths
physique
statistique
anglais
philosophie
conomie
littrature
arts plastiques
musique

maths

1.00
0.41
0.57
0.10
-0.08
0.03

-0.79
-0.35
-0.01

physique statistique anglais

0.41
1.00

0.60
-0.49
-0.11
0.35
-0.48
-0.22
-0.09

0.57
0.60
1.00
-0.17
0.02
0.34
-0.53
-0.36
0.14

0.10
-0.49
-0.17
1.00
0.05
-0.19
0.17
0.21
0.08

philosophie conomie littrature arts


plastiques

-0.08
-0.11
0.02
0.05
1.00
0.09
0.45
0.27
0.21

0.03
0.35
0.34
-0.19
0.09
1.00
-0.11
-0.41
-0.37

-0.79
-0.48
-0.53
0.17
0.45
-0.11
1.00
0.55
0.05

-0.35
-0.22
-0.36
0.21
0.27
-0.41
0.55
1.00
-0.02

musique

-0.01
-0.09
0.14
0.08
0.21
-0.37
0.05
-0.02
1.00

Cette matrice fait apparatre quelques corrlations non ngligeables (on a mis en gras celles qui
dpassent 0.5 en valeur absolue). Les coefficients sont donc difficilement interprtables en tant qu'effets
spars des notes sur la discrimination.
Par contre, l'examen des corrlations que font les notes avec les facteurs discriminants est assez
parlant, et permet d'interprter ces facteurs:
- Le premier facteur spare les plus forts des plus faibles en mathmatique et en physique,
clivage qui recoupe largement celui qui existe entre les plus littraires et les moins littraires.
- Le second facteur permet de sparer les "artistes" des "conomistes".
On remarque en outre que bien que la littrature et les arts plastiques n'aient pas une corrlation
excellente avec chacun des facteurs pris sparment, ces deux variables se projettent proximit du
cercle, et qu'elles sont donc situes pratiquement dans le plan discriminant (chacune de ces variables
peut presque tre obtenue par combinaison linaire des facteurs). Par consquent, ces variables jouent
un rle important dans l'interprtation du plan discriminant.

F2

+ECONOMIE

+STATISTIQUE

+PHYSIQUE

F1
+MATHS
+ANGLAIS
+PHILOSOPHIE
+LITTERATURE

+ARTS PLASTIQUES
+MUSIQUE

Situons alors les trois groupes d'orientation par rapport ces facteurs, ceux-ci ayant t rapidement
interprts:
- Le groupe 1 est celui des lves les plus forts en maths et/ou physique et statistique, lesquels
sont en gnral les moins bons en littrature et en arts plastiques.
- Le groupe 2 est form des lves les meilleurs en conomie, lesquels sont en gnral au dessus
de la moyenne en statistique, faibles en arts, et moyens en maths/physique.
- Le groupe 3 est meilleur que les autres en littrature et en arts plastiques. Il est globalement
faible en maths, physique statistique et conomie.
La projection des individus sur les plans discriminants permet non seulement de situer les groupes,
mais aussi de voir certaines particularits individuelles. Par exemple, Soraya, oriente dans la filire
scientifique, apparat tre une bonne musicienne! On peut dpister de cette manire trs rapidement les
cas tangents d'orientation: ces individus occupent des positions assez intermdiaires entre les groupes.
Dans notre cas, par exemple, Omar a t orient en arts & littrature, mais il est loin des autres
membres de son groupe, et se rapproche du groupe des conomistes. L'examen des donnes originelles
permet de voir qu'il a de bonnes notes en conomie (contrairement la majorit des gens du groupe 3),
et que c'est visiblement sa faiblesse en maths qui l'a conduit dans ce groupe. Ces cas tangents doivent
attirer une grande attention, car ce sont eux qui permettent de mettre en lumire les mcanismes les
plus fins du classement observ, voire d'en souligner les ventuelles incohrences.
On pourrait slectionner les deux variables reprsentant le mieux les deux facteurs discriminants (les
maths pour le facteur 1, et la musique pour le facteur 2) et faire une deuxime AD rien qu'avec ces
variables. Elles permettront videmment une discrimination peu prs quivalente la prcdente
entre les groupes d'orientation, et ce, avec beaucoup moins de variables. Mais d'un autre ct,
l'interprtation des axes sera beaucoup moins riche! En outre, la rgle d'affectation ne prenant plus en
compte que deux notes, elle parat insupportablement partielle, et risque de produire des orientations
trs injustes: un lve moyen en maths, mais excellent en physique, tandis qu'assez bon en musique
mais totalement nul en arts plastiques (il est donc assez atypique par rapport aux autres) se retrouvera
probablement orient - au seul vu de ses notes en maths et en musique - dans la filire artistique alors
qu'on le verrait mieux dans la section scientifique. Le ct trs partiel de la rgle d'affectation entrane
videmment un manque total de robustesse du classement: si au lieu de prendre les maths comme
reprsentant du facteur 1, on avait pris la physique, et si l'on avait slectionn l'conomie pour

reprsenter le facteur 2, il aurait suffi que le mme lve soit moyen en conomie pour l'orienter sans
hsitation vers la filire scientifique.
Il est donc fortement conseill de conserver toutes les variables qui paraissent pertinentes pour la
discrimination, c'est--dire celles qui sont bien reprsentes (proches du cercle unit) dans le plan
discriminant. Dans notre exemple, on pourra liminer l'anglais et la philosophie des variables
explicatives, car elles sont trs peu corrles avec les deux facteurs. Un bref examen des donnes de
base le confirme: il y a des bons et des mauvais en ces deux matires dans chacun des groupes.
Affectation des trois individus non orients.
La rgle de Mahalanobis (affectation la classe dont le centre est le plus proche, au sens de la mtrique
de M-F) conduit l'orientation suivante:
Individu

Baba
Flore
Rose

Facteur 1

9.304445
12.300755
6.91047

Facteur 2

-3.672458
-4.53586
-6.598624

Groupe estim

2
1
3

Bien entendu, il est ncessaire de justifier ce classement sur le plan logique. On s'aide pour cela de la
reprsentation de ces individus sur les plans discriminants, et on examine leur position par rapport aux
classes existantes.
Il n'y a apparemment gure d'hsitation avoir pour Rose et Flore, respectivement trs proches des
classes 3 (Arts & Littrature) et 1 (Sciences & Techniques). Rose apparat mme dans une position
assez extrme, ce qui indique qu'elle pousse les particularits de sa classe plus loin que les autres
membres de celle-ci. L'examen de leurs notes confirme tout cela (excellentes notes de Rose en arts et
littrature, allies des rsultats trs mdiocres en sciences; notes de Flore proches des notes moyennes
de la classe 1).
Par contre, le cas de Baba est nettement moins clair. Il semble occuper une position plutt
intermdiaire entre les trois groupes d'orientation! L'examen de ses rsultats montre un lve
globalement bon en tout, sauf en maths, et en anglais (mais cette matire n'a ici aucun rle
discriminant). On comprend bien que l'orientation soit assez difficile dans un tel cas. Le classement
automatique de Baba est donc prendre avec beaucoup de prcaution. Est-il vraiment justifiable d'un
point de vue logique? Si l'on considre que malgr de bons rsultats en physique et en statistique, un
faible niveau en maths est rdhibitoire pour une orientation scientifique, alors son exclusion de la
filire Sciences & Techniques est justifie. Quant au choix entre les deux orientations restantes, il parat
bien ardu! En fait, entre ces deux filires, le classement de Baba est trs instable. On montre par
exemple que si l'on exclut des variables la matire philosophie, il se retrouve class dans le groupe 3
(Arts & Littrature). Alors que la philosophie a fort peu voir avec le classement (c'est une variable
trs mal reprsente sur le plan discriminant)! On voit sur cet exemple que si l'AD est une aide
apprciable pour l'analyse du mcanisme d'orientation observ, elle ne saurait en aucun cas remplacer
la dcision d'un expert (conseiller d'orientation), laquelle est argumente sur le plan fondamental. Ici,
ce qu'un vritable conseiller aurait de mieux faire serait probablement de laisser Baba choisir
l'orientation qu'il prfre, entre Economie et Arts & Littrature, ce qu'une machine ne fera
jamais!

10. Analyse Discriminante sur symptmes qualitatifs:


Si l'on reprsente les symptmes qualitatifs par les indicatrices de leurs modalits, on obtient des symptmes
linairement dpendants. En effet, la somme des indicatrices des modalits d'un mme caractre fait toujours
la constante 1. Dans le cas de symptmes linairement dpendants, on montre que la mtrique de
Mahalanobis-Fisher n'est plus calculable, ce qui rend impossible la ralisation directe de l'Analyse
Discriminante. Pourtant, les observations continuent d'tre traduisibles en nuage dans l'espace des symptmes,
et y restent photographiables sous tous les angles. Dans ce cas, il y a bien une photo plus discriminante que les
autres. Seul son calcul direct est empch par la dpendance entre symptmes.
Il y a deux techniques qui fournissent les sous-espaces discriminants que l'on ne peut obtenir directement:

Supprimer une modalit de chaque caractre romprait apparemment la symtrie de traitement de ces
modalits: pourquoi telle plutt que telle autre? En fait, pour ce qui est de la dtermination du sous-espace de
dimension p le plus discriminant, peu importe: le sous-espace engendr par les modalits restantes de
l'ensemble des variables est celui qu'engendrent les indicatrices des J modalits, c'est donc le mme quelles
que soient les modalits tes. Si ces dernires n'apparaissent plus spontanment sur les graphiques, on peut
les y projeter en supplmentaire.
Le programme d'Analyse Discriminante fournit l'expression de chaque facteur comme combinaison linaire
des symptmes, c'est--dire ici des indicatrices des modalits conserves. Cela revient une combinaison
linaire des indicatrices de toutes les modalits, dans laquelle on aurait impos un coefficient nul aux
modalits tes des symptmes. Ces modalits tes deviennent alors des modalits de rfrence: l'effet aj
d'une modalit j sur le facteur discriminant est la part apporte ce facteur par la possession de la modalit
j par rapport la possession de la modalit de rfrence du mme caractre.
Ceci dit, il faut toujours rester d'une grande prudence dans l'interprtation de ces coefficients, impossible ds
qu'il existe de fortes corrlations entre symptmes.
Une autre manire (quivalente) de faire est de faire l'ACM pralable des symptmes, et de prendre les
facteurs comme nouvelles variables explicatives.
Les facteurs d'ACM sont simplement les coordonnes des individus sur la base factorielle de RJ. En les
utilisant la place des indicatrices, on ne fait que rapporter le nuage des individus cette autre base de RJ.
Mais il s'agit du mme nuage, qu'il faut projeter de manire discriminante.
L'indpendance des facteurs d'ACM permet cette fois le calcul. On obtient alors les facteurs discriminants
comme combinaisons linaires des facteurs d'ACM. Ceux-ci tant eux-mmes des combinaisons linaires des
indicatrices, on obtient en dfinitive les facteurs discriminants comme combinaisons de celles-ci. Il s'agit bien
sr d'une combinaison linaire parmi une infinit donnant le mme rsultat. Le coefficient d'une modalit
dans cette combinaison linaire ne veut strictement rien dire dans l'absolu: il doit tre compar aux
coefficients des autres modalits du mme caractre.
Comment reprsenter les indicatrices des modalits dans la base des facteurs discriminants? Lorsque les
symptmes taient quantitatifs, on les reprsentait l'aide de leurs corrlations avec les facteurs, ce qui n'est
pas aussi pertinent ici. On se souvient alors qu'en ACM, en superposant un graphique direct et son homologue
dual, une modalit occupe la position moyenne des individus qui la possdent, ce qui est la cl de
l'interprtation de ces graphiques. On pense donc naturellement ici placer d'office une modalit j sur les
graphiques directs au barycentre des individus qui la possdent en lui donnant comme coordonne sur
j

chaque axe la moyenne F des coordonnes de ces individus.


facteur

classe 1
1

o
1
1
1

modalit partage
entre des individus
des classes 1 et 2

o = modalits du symptme 1

classe 3
3

3 3
j
3 o
3

3
3

modalits
caractristiques
de la classe 3

facteur

classe 2
2 2
2
2 2
2
2
=

modalits du symptme 2

Bibliographie

BASTIN C. et collaborateurs: Pratique de l'Analyse des Donnes - Dunod 1980.


BERTIER P., BOUROCHE J.M.: L'analyse des donnes multidimensionnelles - PUF 1975.
BOUROCHE J-M., SAPORTA G.: L'Analyse des Donnes - coll. Que sais-je? - PUF 1980.
BRY X.: Analyses Factorielles Simples - Economica (Techniques Quantitatives Poche) 1994.
Analyses Factorielles Multiples - Economica (Techniques Quantitatives Poche) 1995
CAILLEZ F., PAGES J-P.: Introduction l'analyse des donnes - Smash 1976.
KLECKA W.R.: Discriminant Analysis - SAGE university papers (Quantitative Applications in the Social
Sciences, n19) 1980.
LEBART L., MORINEAU A., FENELON J-P.: Traitement des donnes statistiques - Dunod 1979.
LEBART L., MORINEAU A., TABARD N.: Techniques de la description statistique. Mthodes et logiciels
pour l'analyse des grands tableaux - Dunod 1977.
LEFEBVRE J.: Introduction aux analyses statistiques multidimensionnelles - Masson 1976.
SAPORTA G.: Thories et mthodes de la statistique - Technip 1978.
Probabilits, Analyse des Donnes et Statistique - Technip 1989.
VOLLE M.:

Analyse des Donnes - Economica 1978.

LOGICIELS:
STATBOX (Grimmer logiciels, Paris);
STATLAB (SLP Statistiques, Ivry);
SPADN (CISIA, St Mand);
LADDAD (ADDAD, Paris)

Vous aimerez peut-être aussi