Vous êtes sur la page 1sur 10

I.

La Classification Ascendante Hiérarchique (CAH)

» La CAH fournit une typologie d’un ensemble


d’individus décrits sur des variables quantitatives
ou qualitatives ;
» Elle consiste à aller d’une partition où chaque
individu forme sa propre classe à une partition où
tous les individus appartiennent à une même classe,
à l’aide d’une mesure de dissimilarité.

17
I. La Classification Ascendante Hiérarchique (CAH)
1. Principe de la CAH
Le principe est le suivant :
» Etape 0: chaque individu forme sa propre classe
» La variance intra est nulle et la variance inter est maximale et égale à
la variance totale ;
» Etape 1: on construit une matrice de dissimilarité entre les n éléments et
l’on cherche les deux les plus proche.
» On obtient alors (n-1) classes. Cette fois, l’inertie intra > 0 et
l’inertie inter est supérieure l’inertie intra.

18
I. La Classification Ascendante Hiérarchique (CAH)
1. Principe de la CAH

» Etape k: avec la même procédure réitéré, on aura (n-k) classes


» l’inertie intra est de plus en plus grande et l’inertie inter de plus en
plus petite et faible par rapport à l’inertie totale.

» Etape n-1: on calcul la nouvelle matrice et on réitère la procédure pour


n’avoir qu’une seule classe
» l’inertie intra est maximale et égale à l’inertie totale et l’inertie
inter est minimale et nulle.

19
I. La Classification Ascendante Hiérarchique (CAH)
Exemple

20
I. La Classification Ascendante Hiérarchique (CAH)

» Notions de nœud et de niveau


Soit deux classes d’individus.
» On appelle nœud d’agrégation, le point , centre de gravité
de .
, ∪
∪ ∪ ∪
∈ ∪ ∈ ∪
» La valeur de résultant de l’agrégation entre
est appelée niveau d’agrégation.
» Les deux éléments réunis par un nœud sont appelés l’un l’aîné
et l’autre le benjamin.
21
I. La Classification Ascendante Hiérarchique (CAH)
» Arbre ou dendrogramme » Histogramme des indices de niveau
Niveaux Niveaux Pourcentage
Classes Nœuds
d’agrégation d’agrégation (%) cumulé

1 (7) 4,4 44,0 44,0

2 (6) 3,2 32,0 76,0

3 (5) 2,4 24,0 100,0

Total 10 100,0 -

La CAH n’est pas une méthode


optimale : la partition obtenue
à une étape donnée dépend de
celle à l’étape précédente. 1 2 3

22
II. Les méthodes de classification descendante
Les méthodes de classification ont pour point de départ, un ensemble où tous
les individus forment la même classe. La procédure est la suivante:
» On part de la partition où tous les individus forment une seule
classe ;
» Pour chaque variable, on calcule un critère et on sélectionne celle
qui maximise ce critère ( = argmax ) ;
» On divise la population en deux groupes, selon la variable ;
» On obtient alors les classes et . On réitère la procédure sur
chaque classe.
On a généralement deux méthodes de classification descendante: la méthode
de williams-Lambert et la méthode de segmentation.

23
II. Les méthodes de classification descendante
Méthode de Williams-Lambert
Cette méthode s’applique sur des variables qualitatives ou transformées en
variables qualitatives.
On utilise le critère de liaison globale défini par :

» Recherche de la variable la plus liée à toutes les autres variables


( = argmax ).

24
II. Les méthodes de classification descendante
Méthodes de segmentation
Elle cherche à constituer des classes homogènes à partir d’une variable Y qui
sera privilégiée par rapport aux autres (le fait d’avoir ou pas un ordinateur
peut jouer un rôle privilégié sur l’étude du marché des ordinateurs et des
nouvelles technologies).
Selon la nature de la variable Y, on distingue deux approches:
» ELISEE (Exploration des Liaisons et Interactions par Segmentation ou
Expérience): lorsque Y est qualitative

A l’aide de l’algorithme de Williams-Lambert appliqué au critère ,


chaque classe sera associée à une modalité de la variable = argmax .

25
II. Les méthodes de classification descendante
Méthode de segmentation
» AID (Automatic Interact Detect): lorsque Y est quantitative
On suppose les variables dichotomiques.
La classification est effectuée à l’aide de l’inertie inter-classe résultant de la
partition de la population en deux classes, par la variable .

» : effectifs des individus prenant la modalité j;


» : centre de gravité des individus de la modalité j;
» Remarque: d correspond généralement à la distance de Mahalanobis,
définie par l’inverse de la matrice de variance covariance.
26

Vous aimerez peut-être aussi