Vous êtes sur la page 1sur 13

Exposé 1

https://www.statsoft.fr/concepts-statistiques/analyse-discriminante/analyse-
discriminante.phpTechniques Exploratoires Multivariées :

Analyse Discriminante

 Concepts fondamentaux

 Exemple

 Vidéos

 Méthodes de data mining

Sommaire :

 Principes Fondamentaux

 Approche Statistique

 Analyse Discriminante Pas-à-Pas

 Interpréter une Fonction Discriminante avec Deux Groupes

 Fonctions Discriminantes avec Plusieurs Groupes

 Hypothèses

 Classification

 Généralités

 Formules

 Tester des Hypothèses Complexes à l'aide de SEPATH

Principes Fondamentaux

L'analyse discriminante est utilisée pour déterminer les variables qui permettent de discriminer deux
ou plusieurs groupes se produisant naturellement. Par exemple, un enseignant peut souhaiter faire
des études sur les variables qui discriminent les diplômés du cycle secondaire décidant de poursuivre
vers l'université, (2) d'intégrer une école professionnelle ou de commerce, ou (3) d'abandonner leurs
études ou leurs stages. Dans cette optique, le chercheur peut collecter des données sur de
nombreuses variables précédant l'obtention du diplôme par les étudiants. Une fois le baccalauréat
obtenu, la plupart des étudiants vont naturellement rentrer dans l'une des trois catégories. L'Analyse
Discriminante permet de savoir quelles sont les variables qui vont permettre de prédire le mieux
possible le choix ultérieur des étudiants en matière d'éducation.

Un chercheur en médecine peut enregistrer différentes variables relatives aux antécédents médicaux
des patients afin de savoir quelles variables risquent de prédire au mieux si un patient a de bonnes
chances de se rétablir complètement (groupe 1), partiellement (groupe 2), ou pas du tout (groupe 3).
Un biologiste pourrait enregistrer différentes caractéristiques de types (groupes) similaires de fleurs,
et effectuer une analyse discriminante pour déterminer l'ensemble de caractéristiques permettant la
meilleure discrimination possible entre les différents types.

Approche Statistique

Du point de vue des calculs, l'analyse discriminante est très proche de l'analyse de variance (ANOVA).
Considérons un exemple simple. Supposons que nous mesurons la taille en centimètres dans un
échantillon aléatoire de 50 hommes et de 50 femmes. Les femmes sont, en moyenne, plus petites
que les hommes, et cette différence va se refléter dans les moyennes (de la variable Taille). Par
conséquent, la variable "taille" nous permet de mieux discriminer les hommes des femmes que le
simple hasard : si une personne est grande, il s'agit plus probablement d'un homme ; en revanche, si
elle est petite, il s'agit plus vraisemblablement d'une femme.

Il est possible de généraliser ce raisonnement à des groupes et des variables moins "triviales". Par
exemple, supposons que nous ayons deux groupes de bacheliers jeunes diplômés : ceux qui
choisissent de poursuivre vers l'université après le baccalauréat et ceux qui envisagent une autre
orientation. Nous pourrions avoir demandé aux étudiants leur intention de poursuivre ou non à
l'université un an avant l'obtention de leur diplôme. Si les moyennes des deux groupes (ceux qui sont
effectivement allés à l'université et ceux qui n'y sont pas allés) sont différentes, nous pouvons alors
dire que l'intention de rejoindre l'université exprimée un an avant l'obtention du diplôme nous
permet de bien discriminer entre ceux qui sont et ceux qui ne sont pas aux portes de l'université
(cette information peut être utilisée par des conseillers d'orientation pour offrir des pistes
appropriées aux étudiants respectifs).

Pour résumer la présentation faite jusqu'à présent, l'idée de base d'une analyse discriminante est de
déterminer si des groupes sont différents par rapport à la moyenne qu'ils prennent sur une variable
particulière, et d'utiliser cette variable pour prédire l'appartenance à un groupe (par exemple, pour
de nouvelles observations).

Analyse de la variance. Posé ainsi, le problème peut être reformulé comme un problème d'analyse
de variance à un facteur (ANOVA). Plus précisément, on peut se demander si deux ou plusieurs
groupes possèdent une moyenne significativement différente pour une certaine variable. Pour savoir
comment tester la significativité statistique de différences entre les moyennes dans différents
groupes, vous pouvez lire la rubrique Introduction de l'ANOVA/MANOVA. Toutefois, il est clair que si
les moyennes d'une variable sont significativement différentes entre différents groupes, nous
pouvons en conclure que cette variable discrimine bien les groupes.

Dans le cas d'une seule variable, le test de significativité final, pour savoir si la variable discrimine ou
non les groupes, est le test du F. Comme cela vous est décrit dans les Concepts Élémentaires et dans
l'ANOVA/MANOVA, le F est calculé comme le ratio entre la variance inter-classes (entre les groupes)
dans les données et la variance intra-classe (à l'intérieur des groupes ; vous trouverez également le
terme de variance résiduelle). Si la variance inter-classe est grande (c'est-à-dire que les classes sont
bien distinctes les unes des autres), il doit y avoir des différences significatives entre les moyennes.

Plusieurs variables. Souvent, une étude comporte plusieurs variables afin de voir laquelle ou
lesquelles contribuent à la discrimination entre les groupes. Dans ce cas, nous avons une matrice des
covariances et variances totales ; de la même manière, nous avons une matrice des covariances et
variances intra-classes par groupes. Nous pouvons comparer ces deux matrices par des tests
multivariés du F afin de déterminer s'il y a ou non des différences significatives (par rapport à toutes
les variables) entre les groupes. Cette procédure est identique à une analyse de variance multivariée
ou MANOVA. Tout comme dans une MANOVA, on peut tout d'abord effectuer le test multivarié, et,
s'il est statistiquement significatif, poursuivre pour voir quelles sont les variables qui ont des
moyennes significativement différentes entre les groupes. Ainsi, bien que les calculs avec plusieurs
variables soient plus complexes, le raisonnement demeure le même, c'est-à-dire que nous
recherchons les variables qui discriminent les groupes, ce qui est mis en évidence par les différences
entre les moyennes observées. En fait, vous pouvez effectuer l'analyse discriminante avec le
module ANOVA/MANOVA ; toutefois, différents types de statistiques sont habituellement calculés et
interprétés dans l'analyse discriminante (cf. infra).

Analyse Discriminante Pas-à-Pas

L'application la plus courante de l'analyse discriminante consiste à inclure de nombreuses mesures


dans une étude, afin de déterminer celles qui discriminent les groupes. Par exemple, un enseignant,
intéressé par la prévision des choix des nouveaux bacheliers en matière d'éducation va
probablement inclure autant de mesures de personnalité, de motivation, de performances scolaires,
etc... que possible afin de savoir quelles sont celles qui donnent la meilleure prévision.

Modèle. En d'autres termes, nous souhaitons construire un "modèle" qui nous donnera la meilleure
prévision de l'appartenance d'une observation à un groupe. Par la suite, nous utiliserons les termes
"dans le modèle" (ou inclues/présentes dans le modèle) pour désigner les variables qui sont prises en
compte dans la prévision de l'appartenance à un groupe, et "pas dans le modèle" (ou
exclues/absentes du modèle) pour celles qui ne le sont pas.

Analyse pas-à-pas ascendante. Dans l'analyse discriminante pas-à-pas, STATISTICA "construit" un


modèle de discrimination pas-à-pas. Plus précisément, à chaque étape, STATISTICA examine toutes
les variables et évalue celle qui contribue le plus à discriminer les groupes. Cette variable est alors
introduite dans le modèle, puis STATISTICA passe à l'étape suivante.

Analyse pas-à-pas descendante. Il est également possible de procéder en sens inverse ; dans ce
cas, STATISTICA va tout d'abord inclure toutes les variables dans le modèle, puis, à chaque étape,
éliminer la variable qui contribue le moins à la prévision d'appartenance à un groupe. Par
conséquent, une analyse discriminante réussie doit conserver, en dernier ressort, les variables
"importantes" dans le modèle, c'est-à-dire celles qui contribuent le plus à discriminer les groupes.

F d'inclusion, F d'exclusion. La procédure pas à pas est "guidée" par les valeurs respectives
du F d'inclusion et du F d'exclusion. La valeur du F d'une variable indique sa significativité statistique
dans la discrimination des groupes, c'est-à-dire qu'il s'agit d'une mesure du degré auquel une
variable contribue, de façon unique (à elle seule) à la prévision de l'appartenance à un groupe. Si
vous êtes familiarisé(e) avec les procédures de régression multiple pas-à-pas (voir la Régression
Multiple), vous pouvez interpréter les valeurs du F d'inclusion/d'exclusion de la même manière que
dans une régression pas à pas.

D'une manière générale, STATISTICA continue à intégrer des variables dans le modèle, tant que les
valeurs respectives du F pour ces variables demeurent supérieures à la valeur du F d'inclusion que
vous aurez spécifiée ; et STATISTICA exclut (supprime) les variables du modèle si leur significativité
est inférieure au F d'exclusion spécifié.

Tirer parti de la chance. Une mauvaise interprétation courante des résultats de l'analyse


discriminante pas-à-pas consiste à prendre les niveaux de significativité statistique "pour argent
comptant". Lorsque STATISTICA décide de la variable à inclure ou à exclure à l'étape suivante de
l'analyse, il va en fait calculer la significativité de la contribution de chaque variable considérée. Ainsi,
par nature, les procédures pas-à-pas vont tirer profit de la chance puisqu'elles "ont le choix" des
variables à inclure dans le modèle de façon à produire la discrimination maximale. Par conséquent,
lors de l'utilisation de l'approche pas-à-pas, le chercheur doit être conscient que les niveaux de
significativité ne reflètent pas le taux d'erreur alpha réel, c'est-à-dire la probabilité de
rejeter H0 (l'hypothèse nulle qu'il n'y a aucune discrimination entre les groupes) en se trompant.

Interpréter une Fonction Discriminante avec Deux Groupes

Dans le cas de deux groupes, l'analyse discriminante peut s'appréhender comme (et elle est d'ailleurs
analogue à) une régression multiple (voir le module Régression Multiple ; l'analyse discriminante
avec deux groupes est également appelée analyse discriminante linéaire de Fisher d'après Fisher,
1936 ; du point de vue des calculs, toutes ces approches sont analogues). Si nous codifions les deux
groupes de l'analyse en 1 et 2, et que nous utilisons cette variable comme la variable dépendante
d'une régression multiple, nous obtiendrons des résultats analogues à ceux obtenus dans le
module Analyse Discriminante. D'une manière générale, dans le cas de deux groupes, on ajuste une
équation linéaire du type :

Groupe = a + b1*x1 + b2*x2 + ... + bm*xm

où a représente une constante et b1 à bm sont les coefficients de régression. L'interprétation des


résultats d'un problème avec deux groupes est assez simple et suit fidèlement la logique de la
régression multiple : les variables avec les coefficients de régression (centrés-réduits) les plus forts
sont ceux qui contribuent le plus à la prévision d'appartenance à un groupe.

Fonctions Discriminantes avec Plusieurs Groupes

Lorsqu'il y a plus de deux groupes, il est possible d'estimer plusieurs analyses discriminantes comme
celle présentée ci-dessous. Par exemple, si nous avons trois groupes, nous pouvons estimer (1) une
fonction pour discriminer le groupe 1 des groupes 2 et 3 ensemble, et (2) une autre fonction pour
discriminer le groupe 2 du groupe 3. Par exemple, nous pourrions avoir une fonction qui discrimine
les jeunes bacheliers diplômés optant pour l'université et ceux qui optent pour une autre orientation
(exercer un emploi ou entrer en école de commerce ou professionnelle), et une seconde fonction
pour discriminer les diplômés qui entrent en école de commerce ou professionnelle de ceux qui
choisissent d'entrer dans la vie active. Les coefficients b de ces fonctions discriminantes
s'interprètent comme précédemment.

Analyse canonique. Lorsque nous effectuons une analyse discriminante sur plusieurs groupes, nous
n'avons pas à spécifier la manière de combiner les groupes pour former différentes fonctions
discriminantes. STATISTICA détermine automatiquement des combinaisons optimales de variables de
manière à ce que la première fonction fournisse la plus grande discrimination globale entre les
groupes, la deuxième fonction fournisse la seconde plus grande, et ainsi de suite. En outre, les
fonctions seront indépendantes ou orthogonales, c'est-à-dire que leur contribution à la
discrimination entre les groupes sera indépendante. Du point de vue des calculs, STATISTICA va
effectuer une analyse canonique (voir également le module Analyse Canonique) qui va déterminer les
fonctions successives et les composantes canoniques (le terme "composantes" fait référence aux
valeurs propres associées à la fonction canonique respective). Le nombre maximum de fonctions
que STATISTICA va calculer sera égal au nombre de groupes moins un, ou au nombre de variables de
l'analyse s'il est inférieur.

Interprétation des fonctions discriminantes. Comme précédemment, nous allons prendre des


coefficients b (et des Bêta standardisés) pour chaque variable de chaque fonction discriminante
(également appelée canonique), et allons pouvoir les interpréter comme d'habitude : plus le
coefficient standardisé sera fort, et plus la contribution de la variable respective à la discrimination
entre les groupes sera forte (notez que vous pouvez également interpréter les coefficients de
structure ; voir ci-dessous). Toutefois, ces coefficients ne nous renseignent pas sur les groupes que
les fonctions respectives discriminent. Nous pouvons identifier la nature de la discrimination de
chaque analyse discriminante (canonique) en regardant les moyennes des fonctions selon les
groupes. Nous pouvons également visualiser dans quelle mesure ces deux fonctions discriminent les
groupes en traçant les résultats des observations individuelles pour les deux fonctions
discriminantes.

Matrice de la structure factorielle. Une autre manière d'identifier les variables qui "font" ou
définissent une analyse discriminante particulière consiste à examiner la structure factorielle. Les
coefficients de structure factorielle sont les corrélations entre les variables présentes dans le modèle
et les fonctions discriminantes ; si vous êtes familiarisé(e) avec l'analyse factorielle (voir le
module Analyse Factorielle) vous pouvez voir ces corrélations comme les poids factoriels des
variables sur chaque fonction discriminante.

Certains auteurs ont proposé d'utiliser ces coefficients de structure pour donner un "sens" aux
fonctions discriminantes. Les raisons invoquées par ces auteurs sont (1) que les coefficients de
structure seraient plus stables, et (2) qu'ils permettraient d'interpréter les facteurs (fonctions
discriminantes) comme dans une analyse factorielle. Toutefois, les recherches ultérieures de Monte-
Carlo (Barcikowski et Stevens, 1975 ; Huberty, 1975) ont montré que les coefficients des fonctions
discriminantes et les coefficients de structure sont sensiblement aussi instables, sauf si le n est
vraiment grand (par exemple, avec 20 fois plus d'observations que de variables). Sachez que les
coefficients des fonctions discriminantes indiquent la contribution unique (partielle) de chaque
variable à la ou aux fonctions discriminantes, tandis que les coefficients de structure n'indiquent que
les simples corrélations entre les variables et la ou les fonctions. Si on souhaite "donner un sens" aux
fonctions discriminantes (comme pour interpréter les facteurs d'une analyse factorielle), ce sont les
coefficients de structure qui doivent être utilisés (interprétés)  ; si on souhaite savoir quelle est la
contribution unique de chaque variable à l'analyse discriminante, il faut alors utiliser les coefficients
des fonctions discriminantes (pondérations).

Significativité des fonctions discriminantes. On peut tester le nombre de racines qui


ajoutent significativement à la discrimination entre les groupes. Seules celles qui sont
statistiquement significatives doivent être utilisées pour l'interprétation ; les fonctions
(composantes) non significatives doivent être ignorées.

Synthèse. Pour résumer, lors de l'interprétation de plusieurs fonctions discriminantes, qui résultent


d'analyses avec plus de deux groupes et plus d'une variable, il faut préalablement tester la
significativité statistique des différentes fonctions, et ne considérer que les fonctions significatives
pour un examen plus approfondi. Ensuite, il faut examiner les coefficients b standardisés de chaque
variable pour chacune des fonctions significatives. Plus le coefficient b standardisé sera important, et
plus la contribution unique de la variable respective à la discrimination spécifiée par l'analyse
discriminante respective sera importante. Pour "donner un sens" aux fonctions discriminantes, il est
également possible d'examiner la matrice de structure factorielle représentant les corrélations entre
les variables et les fonctions discriminantes. Enfin, il faut étudier les moyennes des fonctions
discriminantes significatives afin de déterminer quels sont les groupes que les fonctions respectives
semblent discriminer.

Hypothèses

Comme nous l'avons déjà mentionné, l'analyse discriminante est, du point de vue des calculs, très
similaire à la MANOVA, et toutes les hypothèses de la MANOVA mentionnées dans le
module ANOVA/MANOVA s'appliquent. En fait, vous pouvez utiliser toute la gamme de diagnostics
et tests statistiques et diagnostics d'hypothèses du module ANOVA/MANOVA pour étudier les
données de votre analyse discriminante (pour éviter toute redondance des explications, les fonctions
offertes dans l'ANOVA/MANOVA ne seront pas à nouveau décrites dans l'Analyse Discriminante).

Hypothèse de normalité. Il est supposé que les données (contenues dans les variables) représentent
un échantillon d'une distribution normale multivariée. Notez que il est très simple de produire des
histogrammes de distributions à partir des feuilles de données, grâce au menu contextuel.
L'utilisateur peut ainsi examiner si les variables sont ou non distribuées normalement. Notez
toutefois que la violation de l'hypothèse de normalité est rarement "dramatique", dans la mesure où
les tests de significativité statistique demeurent "fiables". L'ANOVA/MANOVA offre des tests
spécifiques de normalité.

Homogénéité des variances/covariances. Les matrices de variance/covariance des variables sont


supposées homogènes entre les groupes. À nouveau, des écarts mineurs ne sont pas dramatiques,
puisque préalablement à l'acceptation des conclusions finales d'une étude importante, il apparaît
judicieux d'étudier les variances intra-classes et les matrices de corrélations. En particulier, le nuage
de points matriciel qui peut être produit à partir de l'onglet Probabilités & Nuages de Points de la
boîte de dialogue Statistiques Descriptives offre une aide appréciable pour cela. En cas de doute,
essayez de relancer vos analyses en excluant un ou deux groupes qui présentent le moins d'intérêt. Si
les résultats globaux (interprétations) demeurent cohérents, vous n'avez sans doute pas de
problème. Vous pouvez en outre utiliser les nombreux tests et fonctions du
module ANOVA/MANOVA pour examiner la validité de cette hypothèse dans vos données.
Toutefois, comme cela vous est mentionné dans l'ANOVA/MANOVA, le test multivarié du M de Box
d'homogénéité des variances/covariances est particulièrement sensible aux écarts à la normalité
multivariée, et ne doit pas être utilisé trop "rigoureusement".

Corrélations entre les moyennes et les variances. La principale menace "réelle" quant à la validité
des tests de significativité survient lorsque les moyennes des variables par groupe sont corrélées aux
variances (ou écarts-types). Intuitivement, s'il existe une forte dispersion dans un groupe avec des
moyennes particulièrement élevées pour certaines variables, ces fortes moyennes seront alors peu
fiables. Toutefois, les tests de significativité globale sont basés sur des variances groupées, c'est-à-
dire la variance moyenne de tous les groupes. Par conséquent, les tests de significativité des
moyennes relativement les plus fortes (avec les variances importantes) sont basés sur les variances
groupées relativement les plus faibles, induisant une significativité statistique erronée. En pratique,
cette situation peut se présenter lorsqu'un groupe de l'étude comporte quelques points atypiques
(aberrants), ayant un fort impact sur les moyennes, et contribuant à augmenter la dispersion. Pour se
prémunir contre ce problème, examinez avec soin les statistiques descriptives, et tout
particulièrement les corrélations entre les moyennes et les écarts-types ou variances.
L'ANOVA/MANOVA vous permet également de représenter les moyennes et les variances (ou écarts-
types) dans un nuage de points.

Le problème de multicollinéarité. Une autre hypothèse de l'analyse discriminante stipule que les


variables utilisées pour faire la discrimination entre les groupes ne sont pas complètement
redondantes. Du point de vue des calculs dans l'analyse discriminante, STATISTICA inverse la matrice
de variance/covariance des variables du modèle. Si l'une des variables est complètement redondante
avec les autres variables, la matrice est dite mal conditionnée, et ne pourra être inversée. Par
exemple, si une variable représente en fait la somme de trois autres variables (c'est-à-dire que c'est
combinaison linéaire de 3 autres variables), également présentes dans le modèle, la matrice est alors
mal conditionnée.

Valeurs de tolérance. Pour prévenir le problème de multicollinéarité, STATISTICA va, de façon


systématique, vérifier la valeur dite de tolérance de chacune des variables. Cette valeur est
également systématiquement affichée lorsque vous demandez l'examen des statistiques de synthèse
des variables présentes ou exclues du modèle. Cette valeur de tolérance se calcule comme 1 moins le
R² de la variable respective avec toutes les autres variables du modèle. Par conséquent, il s'agit de la
part de la variance propre à la variable respective. Vous pouvez également vous reporter au
module Régression Multiple pour en savoir plus sur la régression multiple et l'interprétation de la
valeur de tolérance. D'une manière générale, lorsqu'une variable est presque complètement
redondante (et donc que le problème de multicollinéarité risque de se produire), la valeur de
tolérance de cette variable va tendre vers 0. La valeur par défaut de la tolérance acceptable
minimum est de 0,01 dans l'Analyse Discriminante. STATISTICA va produire le message de
multicollinéarité (matrice mal conditionnée) lorsque la tolérance d'une variable deviendra inférieure
à cette valeur de tolérance, c'est-à-dire lorsqu'une variable sera redondante à plus de 99% avec les
autres (vous pouvez modifier cette valeur par défaut en cochant l'option Options avancées (analyse
pas-à-pas) dans l'onglet Base de la boîte de dialogue Analyse Discriminante (Panneau de Démarrage),
puis en ajustant la valeur de Tolérance dans l'onglet Avancé de la boîte de dialogue Définition du
Modèle).
Classification

Un autre objectif majeur de l'analyse discriminante consiste à établir une classification prédictive des
observations. Une fois qu'un modèle a été finalisé et que les fonctions discriminantes ont été
déduites, pouvons-nous bien prévoir à quel groupe particulier une observation va appartenir ?

Prévisions a priori et post hoc. Avant d'entrer dans le détail des différentes procédures d'estimation,
il faut que cette distinction soit bien claire. En effet, si nous estimons, sur la base de nos données, les
fonctions qui discriminent le mieux les groupes, et que nous utilisons les mêmes données pour
évaluer la précision de notre prévision, nous tirons profit de la chance. D'une manière générale, nous
obtenons toujours une plus mauvaise classification en réalisant une prévision sur des observations
qui n'étaient pas utilisées dans l'analyse discriminante. En d'autres termes, les prévisions post
hoc sont toujours meilleures que les prévisions a priori (le problème en prévoyant le futur a priori est
que nous ne savons pas ce qui va se passer ; en revanche, il est beaucoup plus simple de prévoir ce
que nous savons déjà s'être produit). Par conséquent, il ne faut pas se fier à une classification
correcte des observations lorsque cette classification est basée sur les mêmes données que celles qui
ont servi à calculer les fonctions discriminantes ; en revanche, si l'on souhaite classifier les
observations de façon prédictive, il est nécessaire de collecter de nouvelles données pour vérifier
(validation croisée) la validité des fonctions discriminantes.

Fonctions de classification. L'analyse discriminante calcule automatiquement  les fonctions de


classification. Elles ne doivent pas être confondues avec les fonctions discriminantes. Les fonctions de
classification peuvent être utilisées pour déterminer à quel groupe chaque observation a le plus de
chances d'appartenir. Il existe autant de fonctions de classification qu'il y a de groupes. Chaque
fonction nous permet de calculer des résultats de classification pour chacune des observations de
chaque groupe, en appliquant la formule :

Si = ci + wi1*x1 + wi2*x2 + ... + wim*xm

Dans cette formule, l'indice i représente le groupe respectif ; les indices 1, 2, ..., m représentent


les m variables ; ci est une constante pour le i-ième groupe, wij est la pondération de la j-ième
variable dans le calcul du résultat de classification du i-ième groupe ; xj xj est la valeur observée de
l'observation respective pour la j-ième variable. Si est le résultat de classification obtenu.

Nous pouvons utiliser les fonctions de classification pour calculer directement les résultats de
classification de nouvelles observations (par exemple, ces fonctions peuvent être spécifiées dans les
formules de la feuille de données pour calculer de nouvelles variables ; lorsque de nouvelles
observations sont ajoutées au fichier, les résultats de classification sont alors automatiquement
calculés).

Classification des observations. Une fois que nous avons calculé les résultats de la classification
d'une observation, il est facile de décider comment classifier l'observation : d'une manière générale
nous affectons l'observation au groupe pour lequel elle obtient le plus fort résultat de classification
(sauf si les probabilités de classification a priori sont largement disparates ; voir ci-dessous). Ainsi, si
nous menons une étude sur les choix vie active/poursuite des études de jeunes bacheliers diplômés
(par exemple, entrée à l'université, entrée en école de commerce ou professionnelle, ou recherche
d'emploi) sur la base de plusieurs variables estimées un an avant l'obtention du diplôme, nous
pouvons utiliser les fonctions de classification pour prévoir quelle option chaque étudiant est le plus
susceptible de choisir. Toutefois, nous voudrions également connaître la probabilité que l'étudiant
fasse le choix prévu. Ces probabilités sont appelées probabilités a posteriori et peuvent également
être calculées. Pour comprendre la manière dont sont obtenues ces probabilités, penchons-nous un
instant sur ce que l'on appelle les distances de Mahalanobis.

Distances de Mahalanobis. Vous pouvez avoir déjà lu des informations sur ces distances dans
d'autres rubriques du Manuel Électronique de STATISTICA (par exemple, dans la Régression
Multiple). D'une manière générale, la distance de Mahalanobis est une mesure de la distance entre
deux points d'un espace défini par deux variables (ou plus) corrélées entre elles. Par exemple, si nous
avons deux variables non corrélées, nous pouvons représenter les points (observations) dans un
nuage de points standard à deux dimensions ; les distances de Mahalanobis entre les points sont
alors identiques aux distances Euclidiennes, c'est-à-dire la distance que nous pouvons mesurer, par
exemple, à l'aide d'une règle. Si nous avons trois variables non corrélées, nous pouvons tout aussi
simplement utiliser une règle (dans un tracé en 3D) pour déterminer les distances entre les points. Si
maintenant nous avons plus de 3 variables, nous ne pouvons plus représenter les distances dans un
tracé. En outre, lorsque les variables sont corrélées, les axes des tracés ne sont pas orthogonaux
c'est-à-dire qu'ils ne forment pas d'angle droit. Dans ce cas, la distance euclidienne simple n'est plus
appropriée, alors que la distance de Mahalanobis permet de prendre en compte de manière
adéquate ces corrélations.

Distances de Mahalanobis et classification. Pour chaque groupe de notre échantillon, nous pouvons


déterminer la position du point représentant les moyennes de toutes les variables de l'espace
multivarié défini par les variables présentes dans le modèle. Ces points sont appelés barycentres de
groupes ou centres de gravité. Pour chaque observation, nous pouvons alors calculer les distances de
Mahalanobis (des observations respectives) à chacun des centres de gravité. À nouveau, nous allons
classer les observations dans le groupe dont elles sont les plus proches, c'est-à-dire avec la distance
de Mahalanobis la plus faible.

Probabilités de classification a posteriori. En utilisant les distances de Mahalanobis pour réaliser la


classification, nous pouvons maintenant déduire les probabilités. La probabilité qu'une observation
appartienne à un groupe particulier est, approximativement, inversement proportionnelle à la
distance de Mahalanobis au centre de gravité de ce groupe (elle n'est pas exactement inversement
proportionnelle puisque nous considérons une distribution normale multivariée autour de chaque
barycentre). Puisque nous calculons la position de chaque observation à partir de notre connaissance
préalable des valeurs de cette observation pour les variables du modèle, ces probabilités sont
appelées probabilités a posteriori. En résumé, la probabilité a posteriori est la probabilité que
l'observation respective appartienne à un groupe particulier, sur la base de notre connaissance des
valeurs des autres variables. Bien évidemment, le module Analyse Discriminante calcule
automatiquement ces probabilités pour toutes les observations (ou pour les observations
sélectionnées uniquement pour la validation croisée).

Probabilités de classification a priori. Il est un facteur supplémentaire à intégrer lors de la


classification des observations. Parfois, nous savons d'avance qu'il y a plus d'observations dans un
groupe que dans un autre ; par conséquent, la probabilité a priori qu'une observation appartienne à
ce groupe est supérieure. Par exemple, si nous savons par avance que 60% des nouveaux bacheliers
se dirigent habituellement vers l'université (contre 20% vers une école professionnelle, et 20% vers la
vie active), il nous faudra ajuster notre prévision en conséquence : a priori, et toutes choses égales
par ailleurs, il est plus probable qu'un étudiant projette d'entrer à l'université plutôt que d'opter pour
l'une des deux autres solutions. Le module Analyse Discriminante vous permet de spécifier
différentes probabilités a priori, qui seront alors utilisées pour ajuster la classification des
observations (et le calcul des probabilités a posteriori) en conséquence.

En pratique, le chercheur doit se demander si un nombre différent d'observations dans les différents
groupes de l'échantillon est le reflet de la vraie distribution dans la population, ou si ce n'est que le
résultat (aléatoire) de la procédure d'échantillonnage. Dans le premier cas, nous allons définir des
probabilités a priori proportionnelles aux tailles des groupes de notre échantillon, et dans le second
cas, nous allons spécifier des probabilités a priori égales pour chaque groupe. La spécification des
différentes probabilités a priori peut fortement affecter la précision de la prévision.

Synthèse de la prévision. Il est intéressant d'étudier la matrice de classification pour déterminer la


qualité avec laquelle les fonctions de classification permettent de prévoir l'appartenance des
observations à un groupe. La matrice de classification nous indique le nombre d'observations qui ont
été correctement classées (sur la diagonale de la matrice) et celles qui ont été mal classées.

Encore un mot d'avertissement. Au risque de nous répéter, réaliser une prévision post hoc sur ce qui
s'est déjà produit n'est pas très difficile. Il n'est pas rare d'obtenir de très bonnes classifications en
utilisant les mêmes observations que celles qui ont servi à calculer les fonctions de classification. Afin
d'avoir une bonne idée de la performance de nos fonctions de classification, il faut classifier (a priori)
d'autres observations, c'est-à-dire des observations qui n'ont pas été utilisées pour estimer les
fonctions de classification. Dans le module Analyse Discriminante, vous pouvez utiliser les filtres de
sélection afin d'inclure ou d'exclure des observations des calculs ; ainsi, la matrice de classification
peut être calculée pour les "anciennes" observations comme pour les "nouvelles". Seule la
classification des nouvelles observations nous permet d'estimer la valeur prédictive (voir aussi
validation croisée) des fonctions de classification ; la classification des anciennes observations ne
nous fournit qu'un outil diagnostique pour identifier les points atypiques (aberrants) ou les zones
pour lesquelles la fonction de classification semble être moins adéquate.

Synthèse. D'une manière générale, l'analyse discriminante est un outil très utile (1) pour détecter les
variables permettant au chercheur de discriminer différents groupes (se produisant naturellement),
et (2) pour classifier des observations dans différents groupes avec de meilleurs résultats que par
simple chance (hasard).

Généralités

Le module Analyse Discriminante utilise les formules standard pour calculer les fonctions


discriminantes, effectuer l'analyse canonique, et pour le calcul des statistiques de classification. Vous
trouverez une présentation détaillée des calculs dans l'ouvrage de Jennrich (1977), qui décrit
également les calculs des coefficients des fonctions de classifications de groupe et les probabilités de
classification a posteriori.

Formules
Les formules de calcul des distances de Mahalanobis et de la classification d'observations, avec des
probabilités a priori, sont décrites dans Lindeman, Merenda, et Gold (1980, Chapitre 6). Vous
trouverez une description détaillée des formules de calcul, agrémentées d’exemples dans les
ouvrages de Cooley et Lohnes (1971, Chapitre 9 et 10) et Pedhazur (1973, Chapitre 17 et 18).

Lambda de Wilk. Le Lambda de Wilk représentant la discrimination globale, se calcule comme le


ratio du déterminant (dét) de la matrice de variance/covariance intra-classe sur le déterminant de la
matrice de variance/covariance totale :

Lambda de Wilk = dét(W)/dét(T)

L'approximation F du Lambda de Wilk se calcule en suivant les formules de Rao (1951).

Lambda partiel. Le Lambda partiel se calcule comme l'incrément multiplicatif dans Lambda qui


résulte de l'ajout de la variable respective :

Lambda partiel = Lambda(après)/Lambda(avant)

En d'autres termes, le Lambda partiel représente le ratio du Lambda de Wilk après avoir ajouté la
variable respective, sur le Lambda de Wilk avant l'ajout de la variable.

La statistique correspondante du F (voir Rao, 1965, 0. 470) se calcule ainsi :

F = [(n-q-p)/(q-1)]*[(1-lambda partiel)/lambda partiel]

Où :

n représente le nombre d'observations

q représente le nombre de groupes

p représente le nombre de variables

Tester des Hypothèses Complexes à l'aide de SEPATH

Afin de tester des hypothèses complexes quant aux relations entre les variables dans différents
groupes, vous pouvez utiliser le module Modélisation d'Équations Structurelles (SEPATH). Dans ce
module, vous pouvez ajuster des modèles d'hypothèses quant aux relations entre variables par des
matrices de corrélations (covariances) dans un ou plusieurs groupes. Le module SEPATH vous permet
de placer des contraintes (d'égalité) sur les paramètres entre les groupes, et il permet d'analyser les
matrices des moments afin de tester des hypothèses sur les différences de

2éme exposé
https://www.ibm.com/support/knowledgecenter/fr/SSLVMB_25.0.0/statistics_mainhelp_ddita/
spss/base/idh_disc.html

L'analyse discriminante crée un modèle de prévision de groupe d'affectation. Le modèle est composé
d'une fonction discriminante (ou, pour plus de deux groupes, un ensemble de fonctions
discriminantes) basée sur les combinaisons linéaires des variables de prédicteur qui donnent la
meilleure discrimination entre groupes. Les fonctions sont générées à partir d'un échantillon
d'observations pour lesquelles le groupe d'affectation est connu. Les fonctions peuvent alors être
appliquées aux nouvelles observations avec des mesures de variables de prédicteur, mais de groupe
d'affectation inconnu.

Remarque : La variable de groupe peut avoir plus de deux valeurs. Les codes de la variable de
regroupement doivent cependant être des nombres entiers, et vous devez spécifier leur valeur
minimale et maximale. Les observations dont les valeurs se situent hors des limites sont exclues de
l'analyse.

Exemple : En moyenne, les habitants des pays des zones tempérées consomment plus de calories par
jour que ceux des tropiques, et une plus grande proportion de ces habitants vit en ville. Un chercheur
veut combiner ces informations en une fonction pour déterminer comment un individu peut être
différencié selon les deux groupes de pays. Le chercheur pense que la taille de la population et des
informations économiques peuvent aussi être importantes. L'analyse discriminante vous permet
d'estimer les coefficients de la fonction discriminante linéaire, qui ressemble à la partie droite d'une
équation de régression linéaire multiple. Ainsi, en utilisant les coefficients a, b, c et d, la fonction est :

D = a * climat + b * urbain + c * population + d * Produit National Brut par habitant

Si ces variables sont utiles pour établir la différence entre les deux zones climatiques, les valeurs
de D seront différentes pour les pays tempérés et les pays tropicaux. Si vous utilisez une méthode de
sélection des variables étape par étape, vous pouvez découvrir que vous n'avez pas forcément besoin
d'inclure les quatre variables dans la fonction.

Statistiques : Pour chaque variable : moyennes, écarts types, ANOVA à 1 facteur. Pour chaque
analyse : Test M de Box, matrice de corrélations intra-groupe, matrice de covariance intra-groupe,
matrice de covariance de chaque groupe, matrice de covariance totale. Pour chaque fonction
discrimante canonique : valeur propre, pourcentage de la variance, corrélation canonique, lambda de
Wilks, khi-carré. Pour chaque pas : probabilités a priori,coefficients de fonction de Fisher, coefficients
de fonction non standardisés, lambda de Wilks pour chaque fonction canonique.

Remarques sur les données de l'analyse discriminante

Données : La variable de regroupement doit avoir un nombre limité de catégories distinctes,
codifiées sous forme de nombres entiers. Les variables indépendantes nominales doivent être
recodées en variables muettes ou de contraste.

Hypothèses : Les observations doivent être indépendantes. Les variables de prédicteur doivent avoir
une distribution gaussienne multivariée, et les matrices de variance-covariance intra-groupes doivent
être égales entre groupes. On part de l'hypothèse que les groupes d'affectation sont mutuellement
exclusifs (c'est-à-dire qu'aucune observation n'est affectée à plus d'un groupe) et collectivement
exhaustifs (c'est-à-dire que toutes les observations sont affectées à un groupe). La procédure est la
plus efficace lorsque l'affectation à un groupe est une variable réellement catégorielle. Si l'affectation
à un groupe est basée sur les valeurs d'une variable continue (par exemple, QI élevé contre QI bas),
vous devez envisager d'utiliser la régression linéaire pour exploiter les informations plus riches
données par la variable continue elle-même.
Pour obtenir une analyse discriminante

Cette fonction nécessite Statistics Base Edition.

1. A partir des menus, sélectionnez :

Analyse > Classification > Analyse discriminante...

2. Sélectionnez une variable de regroupement à valeur entière et cliquez sur Définir plage pour


spécifier les catégories à considérer.

3. Sélectionnez les variables indépendantes, ou de prédicteur. (Si votre variable de


regroupement n'a pas de valeurs entières, la procédure de recodification automatique du
menu Transformer permettra d'en créer un avec des valeurs entières.)

4. Sélectionnez la méthode de saisie des variables indépendantes.

o Entrer les variables simultanément : Entre simultanément toutes les variables


indépendantes qui satisfont aux critères de tolérance.

o Utiliser la méthode détaillée étape par étape : Utilise l'analyse étape par étape pour
contrôler l'entrée et la suppression de variables.

5. Vous pouvez également sélectionner les observations avec une variable de sélection.

Cette procédure reproduit la syntaxe de commande DISCRIMINANT.

 Définition de plages pour l'analyse discriminante

 Sélection des observations pour l'analyse discriminante

 Statistiques de l'analyse discriminante

 Méthode détaillée étape par étape de l'analyse discriminante

 Classement de l'analyse discriminante

 Enregistrement de l'analyse discriminante

 Fonctions supplémentaires de la commande DISCRIMINANT

Vous aimerez peut-être aussi