Vous êtes sur la page 1sur 21

Analyse Discriminante

Qu’est-ce qu’une analyse


discriminante?
 Permet d’étudier la différence entre 2 ou
plusieurs groupes en tenant compte de
multiples variables simultanément

 Groupes mutuellement exclusifs

 Nécessite 2 groupes ou plus, qui diffèrent sur


plusieurs variables
Qu’est-ce qu’une analyse
discriminante? (suite)

 Le but d’une analyse discriminante est


d’étudier les relations entre une variable
qualitative et un ensemble de variables
explicatives quantitatives

 Aide à analyser les différences entre les


groupes et/ou donne les moyens pour
classifier les individus dans les groupes qui
leur ressemblent le plus
Objectifs de l’analyse
discriminante
 Déterminer les variables explicatives les plus
discriminantes vis à vis des classes déterminées

 Déterminer à quel groupe appartient un individu à


partir de ses caractéristiques

 Mais surtout à valider une classification ou à faire


un choix entre plusieurs classifications pour
savoir laquelle est la plus pertinente. (L’analyse
discriminante intervient donc à posteriori d’une
analyse typologique).
Quand utiliser l’analyse
discriminante? (suite)
 Variables discriminantes: caractéristiques
pour distinguer les groupes (intervalle et
ratio)

 Aucunes limites pour le nombre de variables


discriminantes
Quand utiliser l’analyse
discriminante? (suite)
 Quelques limites:

1- Les variables explicatives doivent être métriques ou binaires

2- Aucune variable ne peut être une combinaison linéaire


d’autres variables discriminantes

3- La matrice de covariance de la population est égale pour


chaque groupe

4- Chaque groupe est tiré d’une population ayant une


distribution multivariée normale

 Si les données ne les respectent pas, les résultats statistiques ne


reflèteront pas bien la réalité
En résumé…c’est quoi?

Analyse discriminante est utilisée pour étudier


la différence entre 2 ou + groupes et un
ensemble de variables discriminantes

 Cette technique relie 1 variable nominale à


plusieurs variables quantitatives
En résumé…conditions
1. 2 ou plusieurs groupes

2. Minimum de 2 cas par groupe

3. N’importe quel nombre de variables discriminantes,

4. Variables discriminantes: niveau de mesure d’intervalle

5. Aucune variable discriminante n’est pas une combinaison linéaire


d’autres variables discriminantes

6. Chaque groupe est tiré d’une population avec une distribution


multivariée normale des variables discriminantes
Statistiques liées à l’ AD
 Corrélation canonique: Mesure l’étendu de
l’association entre les scores discriminants
(fonction discriminante) et les classes

 Matrice de confusion ou matrice de


classification: Elle contient le nombre
d’individus correctement et incorrectement
classés: les premiers apparaissent sur la
diagonale
Hit ratio: % d’individus bien classée
Statistiques liées à l’ AD
 Coefficients de la fonction discriminante: Cœfficients multiplicateurs
des variables explicatives (ai)

 Score discriminant (D): C’est le produit des coefficients non


standardisés et les valeurs des variables plus la constante

 Valeurs propres:
Variance interclasses/Variance intraclasse qui doit tendre vers….

 Lambda de Wilks: Statistique U


Variance intraclasse/Variance totale qui doit tendre vers…

 Coefficients de structure: « Canonical loadings »: Corrélation


simple entre variables explicatives et la fonction discriminante: %
de la variance que la variable explicative partage avec la fonction
discriminante
Analyse des résultats
Une analyse discriminante se déroule en 4
étapes:
1. On vérifie l’existence de différences entre les
groupes.
2. On valide l’étude.
3. On vérifie le pouvoir discriminant des axes.
4. On juge la qualité de la représentation du
modèle.
Exemple: Quelles sont les caractéristiques des clients qui
répondent aux mailings ?

 Le responsable marketing d’une entreprise cherche à connaître les caractéristiques


des clients qui répondent aux mailings et celles de ceux qui ne répondent pas. Pour
trouver une réponse à cette question une étude a été menée auprès d’un échantillon
représentatif de la cible (dans ce cas 20 clients) dont les questions se présentent
comme suit :
 - Vous répondez habituellement aux mailings (Réponse) ? Oui (1)
Non (2)
 - Quel est votre revenu mensuel (Revenu)? …………………………………………..
 - Quel est votre dépense mensuelle (Dépense)?
……………………………………….
 - Quelle est votre fréquence d’achat ? Faible (1) Moyenne (2) Forte
(3)
 - Quel est votre degré de sensibilité aux promotions : Faible (1) Moyen (2)
Fort (3)
 Quel est votre âge?................................
Tableau de données de l’étude

Réponse Revenu Dépense Fréquence sensibilité Age


1 4000 3000 1 1 45
2 4000 1000 1 1 25
2 5000 2000 1 2 30
2 5500 1500 2 1 50
1 7000 3000 3 3 60
1 6700 3300 3 1 65
2 8000 5000 3 1 40
1 5678 2345 3 1 50
2 3500 1000 1 3 25
1 14000 9000 2 2 55
1 13000 7000 2 3 55
1 12500 8500 2 3 40
2 6000 2500 1 3 24
2 5000 3000 1 3 26
1 9000 4500 3 1 37
2 6000 1500 1 2 55
1 6700 4567 3 1 65
1 10000 9000 2 1 65
1 9000 6565 3 1 32
1 9500 4565 2 3 37
Analyse discriminante
Tests d'égalité des moyennes des groupes

Lambda de
Wilks F ddl1 ddl2 Signification
REVENU ,662 9,185 1 18 ,007

DÉPENSE ,609 11,554 1 18 ,003

FRÉQUENS ,628 10,664 1 18 ,004

SENSIBIL ,982 ,332 1 18 ,571

ÂGE ,683 8,374 1 18 ,010


Analyse 1
Récapitulatif des fonctions discriminantes canoniques
Valeurs propres

Fonctio Valeur % de la % Corrélation


n propre variance cumulé canonique
1
1,587(a) 100,0 100,0 ,783
a Les 1 premières fonctions discriminantes canoniques ont été utilisées pour l'analyse.
Lambda de Wilks

Test de la ou Lambda de
des fonctions Wilks Khi-deux ddl Signification
1
,387 14,733 5 ,012
Coefficients des fonctions discriminantes
canoniques standardisées

Fonction

1
REVENU -,281
DÉPENSE ,868
FRÉQUENS ,631
SENSIBIL ,234
ÂGE ,456
Matrice de
structure

Fonction

1
DÉPENSE ,636
FRÉQUENS ,611
REVENU ,567
ÂGE ,541
SENSIBIL -,108

Les corrélations intra-groupes combinés entre variables discriminantes et


les variables des fonctions discriminantes canoniques standardisées
sont ordonnées par tailles absolues des corrélations à l'intérieur de la
fonction.
Statistiques de classement
Récapitulatif du classement

Traitées 20
Exclues Codes de
groupes
manquants 0
ou hors
intervalle
Au moins une
variable
discriminante 0
manquante
Utilisées dans le résultat 20
Probabilités à priori des groupes

A Observations
RÉPONS pri utilisées dans
E ori l'analyse
Po
nd
éré
Non pondérées es
Oui ,50 12,
12
0 00
Non ,50 8,0
8
0 00
Total 1,0 20,
20
00 00
Résultats du classementa

Classe(s) d'affectation
prévue(s)
RÉPONSE Oui Non Total
Original Effectif Oui 11 1 12
Non 1 7 8
% Oui 91,7 8,3 100,0
Non 12,5 87,5 100,0
a. 90,0% des observations originales classées correctement.

Vous aimerez peut-être aussi