Académique Documents
Professionnel Documents
Culture Documents
Classification Ascendante Hiérarchique (CAH) est l'une des méthodes de regroupement les
plus populaires. Disponible en Excel grâce au logiciel statistique XLSTAT.
On travaille à partir des dissimilarités entre les objets que l'on veut regrouper. On peut
donc choisir un type de dissimilarité adapté au sujet étudié et à la nature des données.
L'un des résultats est le dendrogramme, qui permet de visualiser le regroupement
progressif des données. On peut alors se faire une idée d'un nombre adéquat de classes
dans lesquelles les données peuvent être regroupées.
Similarity Dissimilarity
Distance euclidienne Distance du khi’²
Corrélation de Pearson Corrélation de
Distance de Manhattan Dissimilarité
Quantitative Spearman Corrélation de Kendall
de Pearson Dissimilarité de Spearman
data Inertie Covariance (n) Covariance (n-
Dissimilarité de Kendall Dissimilarité
1) Similarité générale
générale
Similarité/Dissimilarité Indice de Similarité/Dissimilarité Indice de
Jaccard Indice de Dice Indice de Sokal Jaccard Indice de Dice Indice de Sokal
& Sneath (2) Indice de Rogers & & Sneath (2) Indice de Rogers &
données
Tanimoto Indice de Sokal & Michener Tanimoto Indice de Sokal & Michener
binaires (0/1)
Indice de Sokal & Sneath (1) Phi de Indice de Sokal & Sneath (1) Phi de
Pearson Indice de Ochiai Indice de Pearson Indice de Ochiai Indice de
Kulczinski Kulczinski
Remarque : pour les variables qualitatives non binaires il est préférable d'effectuer au
préalable une analyse des correspondances multiples (ACM) et de considérer les
coordonnées des individus sur les axes factoriels comme de nouvelles variables.
Résultats pour la Classification Ascendante Hiérarchique
dans XLSTAT
Statistiques des nœuds : dans ce tableau sont affichées les informations concernant les
nœuds successifs du dendrogramme. Le premier nœud a pour indice le nombre
d'objets augmenté de 1. Ainsi, il est aisé de repérer à quel moment un objet ou un
groupe d'objets est regroupé avec un autre objet ou groupe d'objets au niveau d'un
nouveau nœud dans le dendrogramme.
Diagramme des niveaux : dans ce tableau sont affichées les statistiques des nœuds du
dendrogramme.
Dendrogrammes : le dendrogramme complet permet de visualiser le regroupement
progressif des objets. Si une troncature a été demandée, un trait en pointillé marque le
niveau auquel est effectuée la troncature. Le dendrogramme tronqué permet de
visualiser les classes après la troncature.
Barycentres des classes : dans ce tableau sont affichées les coordonnées des
barycentres des classes pour les différents descripteurs.
Distances entre les barycentres des classes : dans ce tableau sont affichées les
distances euclidiennes entre les barycentres des classes pour les différents
descripteurs.
Objets centraux : dans ce tableau sont affichées pour chaque classe les coordonnées de
l'objet le plus proche du barycentre de la classe.
Distances entre les objets centraux : dans ce tableau sont affichées les distances
euclidiennes entre les objets centraux des classes pour les différents descripteurs.
Résultats par classe : les statistiques descriptives des classes (nombre d'objets, somme
des poids, variance intra-classe, distance minimale au barycentre, distance maximale
au barycentre, distance moyenne au barycentre) sont affichées dans la première partie
du tableau. Les objets sont affichés dans la seconde partie.
Résultats par objet : dans ce tableau est indiquée pour chaque objet sa classe
d'affectation dans l'ordre initial des objets.
Analyse des Correspondances Multiples
(ACM ou AFCM)
Analyse des Correspondances Multiples (ACM ou AFCM) vous permet d'explorer de vastes
ensembles de données de variables qualitatives. Faites-le dans Excel avec le logiciel
statistique complémentaire XLSTAT.
L’Analyse des Correspondances Multiples est aux variables qualitatives ce que l'Analyse en
Composantes Principales est aux variables quantitatives. Elle permet en effet d'aboutir à des
cartes de représentation sur lesquelles on peut visuellement observer les proximités entre les
catégories des variables qualitatives et les observations.
A partir du tableau disjonctif complet sont calculées les coordonnées des modalités des
variables qualitatives, ainsi que les coordonnées des observations dans un espace de
représentation optimal pour le critère d'inertie. Dans le cas de l’Analyse des Correspondances
Multiples on montre que l'inertie est égale au nombre moyen de modalités moins un. Elle ne
dépend donc pas uniquement de l'association entre les variables. Greenacre (1993) a proposé
une mesure ajustée de l'inertie, inspirée de la Joint Correspondence Analysis (JCA). Cet
ajustement permet d'avoir des pourcentages plus élevés et plus informatifs pour les axes de
représentation.
Une série de résultats est ensuite affichée, d'abord pour les variables, puis pour les
observations :