Vous êtes sur la page 1sur 95

FACULTE DES SCIENCES REPUBLIQUE DU CAMEROUN

FACULTY OF SCIENCE REPUBLIC OF CAMEROON


Peace-Work-Fatherland
Département de Mathématiques et ********
Informatique UNIVERSITE DE DSCHANG
Department of mathematics and Computer UNIVERSITY OF DSCHANG
Science Scholae Thesaurus Dschangensis Ibi Cordum
BP 96, DSc hang (Cameroun)
BP 96, Dschang (Cameroun)
Tél. /Fax (237) 233 45 13 81
Tél. /Fax (237) 233 45 13 81
Website : http://fs.univ-dschang.org.
Website : http://www.univ-dschang.org.
E-mail : dept.math-info@univ-dschang.org
E-mail : udsrectorat@univ-dschang.org

COURS DE DATA MINING: THEME 2


CHAPITRE 2: MODELISATION NON SUPERVISEE: CLASSIFICATION
AUTOMATIQUE
CHAPITRE 3 : MODELISATION NON SUPERVISE : LES ANALYSES
FACTORIELLES
CHAPITRE 4 : MODELISATION SUPERVISEE : LES ARBRES DE
DECISION

Noms et prénoms des membres du groupe Matricules SPECIALITE

FOAM TOUKAM CINDY LENA CM-UDS-18SCI0092 IA

KENGNE WAMBO DARIL RAOUL CM-UDS-18SCI0131 IA

NGANFANG VICTOIRE CABRELLE CM-UDS-18SCI1828 IA

TEMFACK DERICK CM-UDS-18SCI0797 IA

Enseignant : Pr. KENGNE TCHENDJI VIANNEY

Année académique
2021/2022
TABLE DE MATIERES

TABLE DE MATIERES ............................................................................................................................ i


Table des figures ...................................................................................................................................... iii
INTRODUCTION .................................................................................................................................... 1
Chapitre 2 : MODELISATION NON-SUPERVISEE : Classification automatique ................................. 2
I- GENERALITES................................................................................................................................ 2
1-DEFINITION ET PRINCIPES .......................................................................................................... 2
2- Groupe de classification ................................................................................................................... 3
a- Classification binaire................................................................................................................. 3
b- Classification multi-classe ........................................................................................................ 3
II- METHODES DE CLASSIFICATION NON SUPERVISEE (CLUSTERING) .............................. 3
1. Classification ascendante hiérarchique( CAH ) ........................................................................ 5
a. Principe ................................................................................................................................. 5
b. Dissimilarité et similarité ...................................................................................................... 6
 Le saut minimum ou lien simple ...................................................................................... 6
 Lien complet (Plus grande distance) ................................................................................. 7
 Méthode de la moyenne (average linkage) ........................................................................... 7
 Méthode du centroïde ....................................................................................................... 8
 Méthode de la médiane ..................................................................................................... 8
 Méthode de Ward .............................................................................................................. 8
c. Variantes de la CH (Classification Hiérarchique) .................................................................... 9
c.1. La CH descendante (devise ou TOP-DOWN ) ................................................................ 9
c.2. La CH ascendante (BOTTOM-UP) ........................................................................... 10
i. Application naïve en utilisant les partitions .......................................................... 10
ii. Application de la CAH en utilisant le dendogramme ........................................... 12
iii. Application en utilisant la méthode de Ward ........................................................ 14
2. Méthode des K-means ............................................................................................................. 16
2.1. Principe ................................................................................................................................ 16
2.2. Illustration de la méthode de k-means .............................................................................. 17
2.3. Avantages et inconvénients de k-means ............................................................................ 21
CHAPIITRE 3 : MODELISATION NON SUPERISEE : METHODE FACTORIELLE ...................... 22
I. GENERALITE ............................................................................................................................ 22
II. Les différentes analyses ou techniques d’analyses factorielles ..................................................... 23

I
1. Analyse factorielle par correspondances (AFC) ..................................................................... 24
2. L’analyse factorielle par correspondances multiple (ACM ou AFCM) .................................. 25
3. L’analyse factorielle discriminante (AFD) ............................................................................. 26
4. Les techniques de l’ACP (Analyse par composantes Principales) .......................................... 27
a. Les étapes ............................................................................................................................ 28
1) Examen de la matrice des composantes (sans rotation) ........................................... 31
2) Examen de la matrice des composantes après rotation ........................................... 32
3) Identification du poids le plus élevé pour chaque variable ..................................... 33
4) Étiqueter les facteurs ................................................................................................... 33
b. Exemple d’application ........................................................................................................ 34
c. UTILITE DE L’ACP .......................................................................................................... 41
c.1. Avantage et inconvénients........................................................................................... 41
c.2. Inconvénients de l’usage de l’ACP............................................................................. 41
c.3. Domaines d’application .............................................................................................. 42
c.3.1. Compression d’images ......................................................................................... 42
c.3.2. Analyse de série d’images .................................................................................... 44
c.3.3. Analyse d'images multi spectrales....................................................................... 45
c.3.4. Évolution de la topographie ................................................................................. 45
c.3.5. Apprentissage automatique .................................................................................... 45
Chapitre 4 : MODELISATION SUPERVISE: Les arbres de décision ................................................... 46
I. Arbres de décision/classification/régression ............................................................................... 46
1. Construction d’un premier arbre par séparation itérative des nœuds .......................................... 46
2. Elagage ........................................................................................................................................ 48
II. Forêts aléatoires .............................................................................................................................. 48
1. Principe ....................................................................................................................................... 48
2. Erreur out-of-bag......................................................................................................................... 49
3. Importance des variables ............................................................................................................. 49
4. Conclusion .................................................................................................................................. 50
III. CLASSIFICATION PAR ARBRE DE DÉCISION ............................................................... 50
1- CONSTRUCTION DE L’ARBRE DE DÉCISION ............................................................... 51
a) Méthodes ................................................................................................................................. 51
b) Cas des arbres de classification .............................................................................................. 51
c) Cas des arbres de régression ................................................................................................... 52
2. Avantages et inconvénients de la méthode ............................................................................. 52
a. Avantages ............................................................................................................................ 52
b. Inconvénients ...................................................................................................................... 53

II
CONCLUSION ....................................................................................................................................... 55
REFERENCES........................................................................................................................................ 56
BIBLIOGRAPHIE .............................................................................................................................. 56
WEBOGRAPHIE................................................................................................................................ 56
FICHE DE TD CHAPITRE 2 : CLASSIFICATION AUTOMATIQUE ................................................ 57
Série d’exercices 1 .............................................................................................................................. 57
Série d’exercice 2 ................................................................................................................................ 57
CORRECTION DES EXERCICES CHAPITRE 2: CLASSIFICATION AUTOMATIQUE ............... 58
SERIE 1............................................................................................................................................... 58
SERIE 2............................................................................................................................................... 64
FICHE DE TD CHAPITRE 3 : ANALYSE FACTORIELLE ................................................................ 71
CORRIGÉ FICHE DE TD CHAPITRE 3 : ANALYSE FACTORIELLE .............................................. 81
FICHE DE TD : CHAPITRE 4 : LES ARBRES DE DECISON............................................................ 89
CORRIGÉ CHAPITRE 4 : LES ARBRES DE DECISON .................................................................... 90
TRAVAUX PRATIQUE SUR L’ACM ET CAH .................................................................................... 91
1. Création du compte DataCamp et mise en place de l ´environnement ....................................... 91
2. Création du compte DataCamp et mise en place de l’environnement ....................................... 91

Table des figures

Figure 1: Mesure de similarité dans le clustering ..................................................................................... 4


Figure 2: Saut mimimum ou lien simple ................................................................................................... 7
Figure 3: Lien complet .............................................................................................................................. 7
Figure 4: Tableau disjonctif obtenu ........................................................................................................ 25
Figure 5: Tableau de contingence initial ................................................................................................. 25
Figure 6: Table de Burt ........................................................................................................................... 26
Figure 7: Représentation d’une projection orthogonale (6 variables ) [Source de l'image] ................... 32
Figure 8: Matrice de corrélation.............................................................................................................. 35
Figure 9:Image initale de Lena à compresser par l'ACP ......................................................................... 43
Figure 10:Image de Lena compressée par l'ACP .................................................................................... 43

III
INTRODUCTION

Depuis les années 50, les chercheurs essaient de mettre sur pied le fonctionnement du cerveau
humain dans une machine ou alors de le traduire en fonctions mathématiques ou en algorithme. Bien plus
loin, améliorer certaines tâches qui pas évidentes à faire par un humain, à l’aide de la puissance et la
rapidité des ordinateurs que l’on dispose aujourd’hui : c’est l’intelligence artificielle qui immerge
réellement en 1957 lorsque FRANK ROSENBLATT découvre le perceptron. De là, une pléthore de
recherches émerge en occurrence dans la classification qui très naturelle chez l´humain, consiste à ranger
un ensembles d´éléments dans des groupes ou classes dépendant des caractères qui les rapprochent.
Nombreux sont les logiciels ou programmes qui l´implémente déjà et ces derniers trouvent des
applications très impressionnantes dans la vie quotidienne et dans plusieurs domaines spécifiques à
l´instar de la reconnaissance faciale et certaines prédictions. Ceci dit, quel est le mécanisme de
classification derrière ces algorithmes ? C’est ce dont nous expliciterons dans un premier chapitre en
s’attardant sur la classification non supervisée ou automatique où l’on ne connaît pas au préalable les
classes qui pourront exister. Par la suite encore, l´on présentera dans un second chapitre : l’analyse
factorielles qui elle, vient simuler et aiguiser le caractère humain à établir des règles de corrélations entre
plusieurs éléments dépendant de leurs caractéristiques. Et enfin dans un dernier chapitre, nous mettrons
en lumière l´utilisation des arbres de décisions dans la classification supervisée (où l’on connaît
à l’avance les différentes classes des éléments), ceux-ci illustrant d´une manière plus précise et
intrinsèque le fonctionnement du cerveau humain :la construction et transmission des informations et
raisonnements entre les neurones à l’aide de la back propagation.

Page | 1
Chapitre 2 : MODELISATION NON-SUPERVISEE : Classification automatique

I- GENERALITES

La classification non supervisée désigne un corpus de méthodes ayant pour objectif de dresser ou
de retrouver une typologie existante caractérisant un ensemble de 𝑛 observations, à partir de 𝑝
caractéristiques mesurées sur chacune des observations. Par typologie, on entend que les observations,
bien que collectées lors d’une même expérience, ne sont pas toutes issues de la même population
homogène, mais plutôt de K populations. Deux exemples peuvent être considérés :
 L’ensemble des clients d’une banque est une collection de 𝑛 observations, chacune de ces
observations étant caractérisée par la nature des 𝑝 transactions bancaires qu’elle réalise. Il existe
certainement différents K ”profils types” de clients. L’objectif est alors d’une part de retrouver
ces profils types à partir de l’information sur les transactions bancaires, et d’autre part de
déterminer pour chaque observation, à quel profil type elle correspond.

 Une cohorte de patients représente un ensemble de 𝑛 observations, chacune décrite par 𝑝 mesures
physiologiques. Bien qu’ayant tous la même pathologie, ces patients n’ont pas tous le même
historique médical. On souhaite donc dans un premier temps établir une typologie de ces patients
en K groupes selon leurs caractéristiques physiologiques. Dans un deuxième temps, on
étudiera si la réponse au traitement diffère pour des patients issus de groupes différents.

Comme le montrent ces deux exemples, la classification peut être un objectif en soi (exemple 1), ou ne
représenter qu’une étape de l’analyse statistique (exemple 2). En classification non supervisée,
l’appartenance des observations à l’une des K populations n’est pas connue d’avance. C’est justement
cette appartenance qu’il s’agit de retrouver à partir des 𝑝 descripteurs disponibles.
C’est ainsi qu’intervient la classification automatique (cluster analysis ou clustering en anglais) qui a
pour but de chercher à répartir un ensemble donné de 𝑛 observations en groupes (catégories, classes,
taxons, clusters) de façon à regrouper les observations similaires et à séparer les observations
dissimilaires.

1-DEFINITION ET PRINCIPES

La classification est la plus répandue des techniques descriptives. Il existe de très nombreux
algorithmes de classification. L’objectif de celle-ci est de distinguer des sous-ensembles (ou classes)

Page | 2
distincts dans la population de départ. Rappelons qu’elle se distingue du classement par le fait que les
critères de classification ne sont pas connus a priori (avant étude de la population). C’est la population
qui détermine les critères.
La classification est le plus souvent un préalable à d’autres opérations de data mining. Elle permet
de limiter le nombre de variables par sous-ensemble. Les variables très discriminantes ou trop peu
discriminantes peuvent être éliminées.
La classification permet de rechercher des corrélations propres à chaque classe et donc plus
précises. Attention : il n’existe pas une solution unique au problème de la classification. Autrement dit,
il n’y a pas « LA » bonne classification, mais plusieurs classifications possibles.

2- Groupe de classification

Soit X un ensemble de données ayant chacune p caractéristiques. Le but est de trouver un


ensemble Y de classes dans lesquelles rangé chacune des données de X.

a- Classification binaire

La classification binaire (ou la classification binomiale) est une transformation de données qui
vise à répartir les membres d'un ensemble dans deux groupes disjoints selon que l'élément possède ou
non une propriété/fonctionnalité donnée. Dans ce cas, le cardinal de l’ensemble Y trouvé est 2.

b- Classification multi-classe

En apprentissage automatique, la classification en classes multiples est un processus de répartition d'un


lot de propositions entre plus de deux ensembles.

II- METHODES DE CLASSIFICATION NON SUPERVISEE


(CLUSTERING)

Le clustering consiste à former des groupes homogènes à l’intérieur d’une population. Plus
formellement, étant donné un ensemble de points chacun ayant un ensemble d’attributs et une mesure
de similarité définie sur eux, le clustering consiste à trouver des groupes tels que les points à l’intérieur
d’un même groupe sont très similaires entre eux et les points appartenant à des groupes différents sont
très dissimilaires. Ainsi, le choix de la mesure de similarité est important. Nous en distinguons

Page | 3
plusieurs mesure de similarite que nous présenterons au fur et à mesure dans les sections suivantes, il
s´agit notamment:

 Le saut(technique du linkage en anglais) minimum ou méthode du plus proche


voisin utilisant le plus souvent la distance euclidienne.

 Le lien complet ou méthode du voisin le plus distant qui utilise également la distance
euclidienne.

 L´indice de similarité(telque l´indice de Jackard utilisé en écologie).

 La méthode du centroide.

 La méthode de la médiane

 La méthode de la moyenne (average linkage)

 La méthode flexible

 Le critère de Ward permettant d´affiner les ressemblances entre les partitions obtenues
et qui viendra améliorer le choix du nombre de classe issue du dendogramme de la CAH
(Classification Ascendante Hierarchique).

Figure 1: Mesure de similarité dans le clustering

Les domaines d’applications du clustering sont :


 Le Text mining : Il permet d’extraire des données pour recréer de l’information à partir de
corpus de textes en les classifiant et en les analysant de manière à établir des tendances. Il est

Page | 4
employé dans le domaine du marketing, la communication, les sciences politiques et la
recherche.

 Web mining: Il désigne l’ensemble des techniques visant à explorer, traiter et analyser les
grandes masses d’informations liées à une activité web.

 Bio-informatique : gènes ressemblants.

 Marketing : segmentation de la clientèle.

 En biologie : l’élaboration de la taxonomie animale.

 En psychologie : la détermination des types de personnalités présents dans un groupe


d’individus

 Web lot analysis : profils utilisateurs

Il existe plusieurs familles de méthodes de classification non supervisée. Les plus communes sont:

 la classification hiérarchique;
 la classification non hiérarchique, par exemple la méthode des k-moyennes (k-means);
 la classification basée sur une densité (DBSCAN);
 la classification basée sur des modèles statistiques/probabilistes, par exemple un mélange de
lois normales.

 Classification par ré-allocation dynamique (k-means, partitionning around medoïds)

 méthode mixte pour les grands tableaux.

1. Classification ascendante hiérarchique( CAH )

a. Principe

Il s’agit de regrouper itérativement les individus, en commençant par le bas (les deux plus proches
la plus part du temps) et en construisant progressivement un arbre, ou dendrogramme, regroupant
finalement tous les individus en une seule classe, à la racine. Ceci suppose de savoir calculer, à chaque
étape ou regroupement, la distance entre un individu et un groupe ainsi que celle entre deux groupes. Ceci

Page | 5
nécessite donc, pour l’utilisateur de cette méthode, de faire un choix supplémentaire : comment définir
la distance entre deux groupes connaissant celles de tous les couples d’individus entre ces deux
groupes. Différents choix, appelés saut en français et linkage en anglais, sont détaillés plus loin. Le
nombre de classes est déterminé a posteriori, à la vue du dendrogramme ou d’un graphique représentant
la décroissance de la hauteur de chaque saut, ou écart de distance, opéré à chaque regroupement.

b. Dissimilarité et similarité
Pour définir l’homogénéité d’un groupe d’observations, il est nécessaire de mesurer la
ressemblance entre deux observations.

Dissimilarité : une fonction de dissimilarité est une fonction d qui a tout couple (x1, x2) associe une
valeur dans R+ telle que :

 𝑑(𝑥1 , 𝑥2 ) = 𝑑(𝑥2 , 𝑥1 ) ≥ 0

 𝑑(𝑥1 , 𝑥2 ) = 0 ⇒ 𝑥1 = 𝑥2

Similarité : une fonction de similarité est une fonction s qui a tout couple (𝑥1 ,𝑥2 ) associe une valeur
dans R+ telle que :
 𝑠(𝑥1 , 𝑥2 ) = 𝑠(𝑥2 , 𝑥1 ) ≥ 0,

 𝑠(𝑥1 , 𝑥1 ) ≥ 𝑠(𝑥1 , 𝑥2 )

Les notions de rapprochement des individus ou classes ici dépendent des méthodes énumérées plus
haut :

Le saut minimum ou lien simple


Encore appelé méthode du plus proche voisin (plus petite distance), la distance minimum entre
deux groupes est égale à la plus petite distance entre un élément du premier groupe et un élément du
second groupe. Nous pouvons donc le voir avec le trait en rouge sur la figure ci-dessous :

Page | 6
Figure 2: Saut mimimum ou lien
simple

Mathématiquement, la distance entre deux groupes A et B est définie comme suit:

𝑑(𝐴, 𝐵) = max{𝑑𝑖𝑗 ; 𝑖 ∈ 𝐴, 𝑗𝜖𝐵}

Si on travaille plutôt avec des indices de similarité, on pose 𝑑(𝐴, 𝐵) = 𝑚𝑖𝑛{𝑠𝑖𝑗 ; 𝑖 ∈ 𝐴, 𝑗𝜖𝐵}

Lien complet (Plus grande distance)


Dans ce cas, on prendra la plus grande distance entre un individu du premier groupe et un individu du
deuxième groupe.

Figure 3: Lien complet

De manière plus rigoureuse, 𝑑(𝐴, 𝐵) = min{𝑑𝑖𝑗 ; 𝑖 ∈ 𝐴, 𝑗𝜖𝐵} si l’on veut évaluer la distance entre deux
groupes A et B. Si on travaille plutôt avec des indices de similarité, on pose

𝑑(𝐴, 𝐵) = 𝑚𝑎𝑥{𝑠𝑖𝑗 ; 𝑖 ∈ 𝐴, 𝑗𝜖𝐵}.

Méthode de la moyenne (average linkage)

La distance entre deux groupes se définit comme suit pour cette méthode:

1
𝑑(𝐴, 𝐵) = 𝑛𝐴𝑛𝐵 ∑𝑖𝜖𝐴 ∑𝑗𝜖𝐵 𝑑(𝑥𝑖 , 𝑥𝑗 )

Page | 7
Où nA est le nombre d’observations dans le groupe A et nB est le nombre d’observations dans le
groupe B.

On doit donc calculer les nA×nB distances possibles entre les points des deux groupes, ensuite on
prend la moyenne de ces distances comme étant celle qui sépare les deux groupes. La méthode de la
moyenne forme des groupes de faible variance et de même variance.

Méthode du centroïde
La distance entre deux groupes se définit comme suit pour cette méthode:

La moyenne 𝑋𝐴𝐵 du nouveau groupe résultant de la fusion des groupes A et B se calcule comme suit:

Méthode de la médiane
À une étape donnée, nous avons toujours à notre disposition la distance entre les groupes déjà
formés. On fusionne les deux groupes les plus similaires, disons A et B pour obtenir un groupe AB.
Avec la méthode de la médiane, la distance entre le nouveau groupe AB et tout autre groupe C est
donnée par

Méthode de Ward
La méthode de Ward est une variante de la méthode du centroïde pour tenir compte de la taille
des groupes. Elle a été conçue de sorte à être optimale si les n vecteurs x1,…,xn suivent des lois

Page | 8
normales multi variées de K moyennes différentes, mais toutes de même matrice de variance-
covariance.
Elle est basée sur les sommes de carrés suivantes:

Où 𝑥𝐴 , 𝑥𝐵 et 𝑥𝐴𝐵 sont calculées comme dans la méthode du centroïde.


On regroupe ensuite les classes A et B pour lesquelles

c. Variantes de la CH (Classification Hiérarchique)


Il existe deux types d’algorithmes pour effectuer de la classification hiérarchique :

 Les algorithmes ascendants


 Les algorithmes descendants.

L’exécution d’un tel algorithme ne donne pas une seule partition, mais n partitions : une partition
avec un groupe, une partition avec deux groupes, …, une partition avec n groupes. Nous verrons plus
tard comment résumer de façon visuelle le résultat d’une classification hiérarchique à l’aide d’un
graphique en forme d’arbre appelé dendogramme. Nous verrons aussi des critères qui peuvent aider
à choisir l’une parmi les n partitions proposées par l’algorithme (le critère de Ward par exemple).

c.1. La CH descendante (devise ou TOP-DOWN )


Un algorithme descendant fonctionne ainsi :

Page | 9
 Au départ, toutes les observations sont dans un seul et même groupe de n observations.
 À chaque étape, on divise le groupe le moins homogène en deux groupes.
 À la fin, après n étapes, chaque observation est son propre groupe, c’est-à-dire qu’on ob-
tient n groupes contenant une seule observation.

Cette méthode n´est pas beaucoup utilisé en pratique car celle-ci demande en vue de séparer les indi-
vidus d´étudier chacune de leurs caractéristiques et possibilités à chaque étape ce qui demande exces-
sivement de computationnel.

c.2. La CH ascendante (BOTTOM-UP)

 Au départ chaque observation est son propre groupe, c’est-à-dire qu’on démarre
avec n groupes contenant chacun une seule observation ;
 A chaque étape, on fusionne les deux groupes les plus similaires ;
 A la fin des n étapes, on obtient un seul groupe contenant toutes les n observations

Comme les algorithmes descendants demandent beaucoup de temps de calcul (ce n’est pas tout de
déterminer quel groupe scinder en 2, mais on doit déterminer comment se découpage doit se faire) et
qu’ils sont peu utilisés en pratique, nous nous concentrerons sur les algorithmes ascendants.

i. Application naïve en utilisant les partitions


Illustrons l’algorithme ascendant avec la méthode du plus proche voisin. Prenons l’exemple
suivant avec deux variables et n=5 individus.

Page | 10
Étape 1 :

Au départ, chacun des 5 individus est dans son propre groupe. Il s’agit de notre première partition (P1).
Elle contient n=5 groupes.

P1=({1},{2},{3},{4},{5})

Étape 2 :

On regarde quels individus sont les plus proches dans notre matrice de distance. Il s’agit des individus
1 et 2, dont la distance est de 1. On regroupe ces deux individus ensemble pour former un seul groupe.
Nous avons maintenant notre deuxième partition. Elle contient n−1=4 groupes.

P2=({1,2},{3},{4},{5})

Étape 3 :

On poursuit en cherchant les individus les plus proches qui ne sont pas déjà dans le même groupe. Il
s’agit des individus 3 et 5, dont la distance est de 2. On regroupe ces deux individus ensemble pour
former un seul groupe. Nous avons maintenant notre troisième partition. Elle contient n−2=3 groupes.

P3=({1,2},{3,5},{4})

Étape 4 :

On poursuit, toujours en cherchant les individus les plus près qui ne sont pas déjà dans le même groupe.
Il s’agit des individus 2 et 3, dont la distance est de 2.24. Puisque l’individu 2 est déjà regroupé avec
l’individu 1 et que l’individu 3 est déjà groupé avec l’individu 5, il en résulte une fusion de ces deux
groupes. Nous obtenons notre quatrième partition. Elle contient n−3=2 groupes.

P4=({1,2,3,5},{4})

Étape 5 :

On poursuit, toujours en cherchant les individus les plus près qui ne sont pas déjà dans le même groupe.
Il s’agit des individus 4 et 5, dont la distance est de 3. Puisque l’individu 5 est déjà regroupé avec les
individus 1,2 et 3, l’individu 4 est ajouté au groupe. Nous obtenons notre cinquième et dernière
partition. Elle contient n−4=1 groupes.

P5=({1,2,3,4,5})

Évidemment, nous ne voulons pas un seul groupe. Il faut donc «arrêter» l’algorithme au bon endroit
pour obtenir le nombre de groupes désirés. Par exemple, si on avait voulu deux groupes, il aurait fallu

Page | 11
arrêter à l’étape 4. Etant donc indécis dessus, la prochaine application nous y feras voir plus claire à
l´aide du dendogramme.

Ceci nous permet donc en utilisant le théorème de l´œil d´avoir un aperçu du fonctionnement de cet
algorithme. En pratique, les distances sont calculées et comparées à l´aide du repère.

ii. Application de la CAH en utilisant le dendogramme

Considérons l’ensemble de points disposés comme suit dans le repère ci-dessous :

Les distances en utilisant le saut minimum sont récapitulées dans le tableau le plus bas de la figure
suivante ainsi que le dendogramme associe :

Page | 12
Comment obtient-on ce dendogramme ?
Tout d´abord, nous avons sur l´axe de abscisses les différentes classes et sur l´axe des ordonnées les
distances.
Comme dans l´application précédente, l´on dispose de 8 classes chacune étant constitué d´un singleton
qui est un des points que nous avons dans le repère précédant : {A}, {B}, {C}, {D}, {E}, {F}, {G},
{H}.
 Premier regroupement :L´on débute par regrouper les classes qui sont les plus proches : Ici, on peut
voir dans le tableau du premier regroupement (en rose) que la plus petite distance est celle entre les
points A et C (0.25 dans l´ellipse en rouge) l´on relie donc les deux classes à hauteur de la distance
qui les sépare:0.25.
 Deuxième regroupement : L´on essaie donc de trouver les deux prochaines classes les plus proches.
Les classes {AC} et {B} sont les plus proches car si l’on se souvient bien, selon le principe du plus
proche voisin(ou saut minimum), la distance entre {A,C} et {B} est min {d(A,B),d(C,B)} = min
{0.56, 0.50} = 0.56. on regroupe donc les deux classes à la hauteur 0.50.
 Ainsi de suite jusqu´à ce que l´on ait obtenu qu´une seule classe comme au regroupement 7.

Page | 13
Le dendogramme obtenu, on se pose la question combien de classes doit-on retenir ?
En appliquant le principe de regroupement selon lequel les éléments dans un classe doivent être e plus
proche que possible et ceux se trouvant dans les classes différentes le plus loin possible, nous devront
donc tracer une ligne horizontale traversant le dendrogramme au niveau du rectangle où la longueur est
la plus grande. Dans notre cas, il s´agit du rectangle du dernier regroupement. On obtient après cette
division deux classes {ABC} et {DCEFGH}, qui d´ailleurs avec le théorème de l´œil peut bien se voir
dans le repère précédant.
Cette procédure permettant de déterminer le nombre de classes n´étant pas très rigoureuse, en plus du
fait que, lorsque les données sont fortement corrélées et nombreuses(le saut minimum devient moins
efficace) nous allons utiliser la technique de Ward.

iii. Application en utilisant la méthode de Ward

La définition précédente d´une bonne classification se traduit mathématiquement par la variabilité


intraclasse petite et la variabilité interclasse grande.

Ainsi, une partition est d´autant plus meilleure que le ratio entre inertie intra et inertie total se
rapproche de 1.
De là pour choisir le nombre de classes, l´on sélectionnera parmi toutes les partitions possibles le
partitionnement avec une meilleure variabilité intra-classe. En d´autres termes, l´on va construire le

Page | 14
diagramme présentant l´évolution de l´inertie en fonction du nombre de classes et retenir la partition
qui présente le moins de perte d´inertie.

Face à cette difficulté de choisir le nombre de classes car ceci implique beaucoup trop de temps,
l’on va introduire une nouvelle méthode basée sur celle-ci dans laquelle on se fixe le nombre de
classes : K-means.
NB : Il est important de rappeler que la méthode de Ward est bien plus précise lorsque les données sont
grandes et beaucoup liées.

Page | 15
L’on peut voir que dans l’image ci-haut, lorsque la séparation entre les données est claire (elles
ne sont pas très corrélées), on obtient le même résultat avec les deux méthodes. Par contre, lorsqu’il y a
beaucoup trop de corrélation entre les données, la méthode de Ward est plus précise car l’inertie permet
au sens mathématique de faire de bon regroupements.

2. Méthode des K-means

Cet algorithme fut longtemps utilisé sur les grands jeux de données en raison de sa rapidité.

2.1. Principe

On suppose qu’il existe K classes distinctes. On commence par désigner K centres de classes µ1, ...,
µK parmi les individus. Ces centres peuvent être soit choisis par l’utilisateur pour leur
“représentativité”, soit désignés aléatoirement. On réalise ensuite itérativement les deux étapes
suivantes :

 Pour chaque individu qui n’est pas un centre de classe, on regarde quel est le centre de classe le
plus proche. On définit ainsi K classes C1 , ..., CK , où Ci = {ensemble des points les plus
proches du centre µi } .

Page | 16
 Dans chaque nouvelle classe Ci , on définit le nouveau centre de classe µi comme étant le
barycentre des points de Ci.

L’algorithme s’arrête suivant un critère d’arrêt fixé par l’utilisateur qui peut être choisi parmi

les suivants :

 Soit le nombre limite d’itérations est atteint,

 Soit l’algorithme a convergé, c’est-à-dire qu’entre deux itérations les classes formées restent les
mêmes,

 Soit l’algorithme a ”presque” convergé, c’est-à-dire que l’inertie intra-classe ne s’améliore


quasiment plus entre deux itérations.

Sélectionné K points comme les centres initiaux

Répéter

1. Former k clusters en assignant chaque point à son centroid le plus proche

2. Recalculer les nouveaux centres de chaque cluster

Jusqu’à Les centres ne changent plus

2.2. Illustration de la méthode de k-means

On dispose initialement des données suivantes :

Etape 1 : Initialisation

Page | 17
Etape 2 : Calcul de distance

Etape 3: Affectation de point

Page | 18
Etape 4: Calcul de nouveau centre

Etape 5 : Mise à jour des clusters

Page | 19
Etape 6 : Calcul de nouveau centre

Etape 7: Mise à jour des clusters

Page | 20
Etape 8 (Final) : calcul de nouveau centre

2.3. Avantages et inconvénients de k-means

Avantages

 Il est facile à comprendre et à implémenter

 Il est flexible : L’algorithme K-means s’adapte aux divers changements de vos données. En cas
de souci, l’ajustement du segment de cluster permettra d’apporter rapidement des modifications
nécessaires à l’algorithme.

 K-means convient à un grand nombre d’ensembles de données et est calculé beaucoup plus
rapidement que sur un plus petit nombre. Il peut également produire des clusters plus élevées.

Inconvénients

 Le nombre de clusters doit être défini à l’avance.

 Il converge souvent vers des optimums locaux, en fonction du choix des centres initiaux.

 Les centres des clusters, mis à part des centres initiaux, sont des objets inexistants puisqu’ils
correspondent à des moyennes calculées sur un sous-ensemble d’observations à chaque
itération.

 Une forte influence des valeurs aberrantes sur les résultats.

 Il donne des résultats médiocres pour les données qui ne sont pas linéairement séparables.

 Il n’est pas adapté aux données non numériques.

Page | 21
CHAPIITRE 3 : MODELISATION NON SUPERISEE :
METHODE FACTORIELLE

I. GENERALITE

Les analyses factorielles sont des techniques d'analyse de données très pertinentes dans la mise
en évidence des relations entre variables et, plus généralement, dans la compréhension des données à
modéliser. Considérons n observations décrites par d variables, représentées dans un tableau souvent
appelé matrice de données brutes (tableau de contingence), notée R comme celui qui suit :

Observation x1 x2 ... xd
01 ... ... ... ...
02 ... ... ... ...
... ... ... ... ...
0n ... ... ... ...

L’objectif général des méthodes d’analyse factorielle sera la recherche de facteurs permettant de
résumer, décorréler, réduire, débruiter les données. Les facteurs sont des variables dérivées des d
variables initiales, en général en nombre bien plus faible k tel que k ≪ d.
Les analyses factorielles permettent de :
 Représenter les données multidimensionnelles en k dimensions pour ainsi permettre une
utilisation ultérieure.
 Détecter les corrélations.
 Mettre à jour des liens ou au contraire des « répulsions ».

Pour une analyse de marché, par exemple, elles assurent l’identification des segments de clientèle à partir
de variables mesurées (types de commerce habituellement utilisés, revenu, catégorie de logement...). Le
segment apparaît alors comme une dimension supplémentaire, cachée au départ mais qui sera le critère
grâce auquel le produit pourra être positionné. Les analyses factorielles conduisent aussi à identifier
facilement des valeurs aberrantes (outliers), qu'il est alors possible d'éliminer pour reconduire l'analyse.
Enfin, elles permettent d’hiérarchiser l'importance de critères éventuellement explicatifs.

Page | 22
Les analyses factorielles produisent de nouvelles variables, les « axes factoriels » qui sont des
Combinaisons linéaires des variables initiales. Les axes factoriels sont plus ou moins corrélés aux
variables initiales.

L’interprétation des axes factoriels

Soit le responsable d’une bibliothèque qui cherche à déterminer le profil des lecteurs. Qu’ils le
veuillent ou non, ceux-ci prendront la forme peu enviable de VECTEURS dans un espace à k
dimensions. Admettons que l’on se focalise seulement sur la dimension « sujet de l’ouvrage », on retient
(entre autres) les quatre modalités jardinage, bricolage, sport et guides de voyage. S’il existe une
séparation plus ou moins nette des lecteurs entre les deux premières catégories (jardinage, bricolage) et
les deux autres (sport et guides de voyage), la réduction de dimensionnalité se traduit par un seul axe sur
lequel (ou autour duquel dans un plan factoriel) se situent d’un côté les jardiniers et les bricoleurs et de
l’autre côté les sportifs et les voyageurs. L’interprétation de cet axe factoriel est assez facile : on peut
l’appeler « type de loisir » et il sépare les lecteurs dont les loisirs se passent essentiellement à domicile
de ceux dont les loisirs sont plus extérieurs. Bien sûr, cet axe ne sera pas extraordinairement discriminant
si de nombreux lecteurs s’adonnent à différents types de loisirs...
La force des axes factoriels est donc que non seulement ils détectent les critères qualitatifs pouvant
expliquer une diversité, mais ils les quantifient. En un mot, ils font la part des choses. Les analyses
factorielles sont souvent associées à d’autres techniques statistiques ou d'analyses de données, en
particulier les classifications (voir ACM) et la régression multiple dont les variables explicatives peuvent
être des coordonnées sur des axes factoriels.

II. Les différentes analyses ou techniques d’analyses factorielles

Les techniques factorielles les plus courantes regroupent :


 L'analyse en composantes principales (ACP) sur les individus, ACP sur les variables,
 L'analyse factorielle des correspondances (AFC).
 L'analyse en composantes multiples (ACM).
 L'analyse factorielle discriminante linéaire.

Page | 23
Techniques d’analyse factorielle Type de variables Métrique
ACP sur les individus (normée) Continues Inverse des variances
ACP sur les variables Continues Matrice des corrélations (ou des
variances-covariances si ACP non
normée)
AFC Deux discrètes Phi2
ACM Plusieurs discrètes Phi2
Analyse factorielle discriminante Continues (analyse supervisée) Généralement Distance de
linéaire Mahalanobis

Tableau 1: Analyse factorielle, types de variables et métriques

N.B: Distance de Mahalanobis : permet de mesurer la distance entre les classes en tenant compte de la
structure de covariance. Dans le cas où l'on suppose les matrices de variance intra-classe égales, la
matrice des distances est calculée en utilisant la matrice de covariance intra-classe totale.

1. Analyse factorielle par correspondances (AFC)

L’analyse factorielle des correspondances, notée AFC, est une analyse destinée au traitement des
tableaux de données où les valeurs sont positives et homogènes comme les tableaux de contingence (qui
constituent la majeure partie des tableaux traités par cette méthode).

L’AFC a été introduite de façon complète dans les années 60 par JP BENZECRI. L’AFC est une
ACP. Les composantes principales sont toujours obtenues à partir de la distance entre les différents points
des nuages multidimensionnels, mais les points ont des coordonnées qui ont subis une transformation
préalable permettant de conserver une métrique identique à celle de l’ACP pour calculer ces distances.
Le but principal de l’AFC reste donc le même ; lire l’information contenue dans un espace
multidimensionnel par une réduction de la dimension de cet espace tout en conservant un maximum de
l’information contenu dans l’espace de départ.

Pour préciser la liaison existant entre les variables X et Y , on souhaite définir un modèle
statistique susceptible de fournir des paramètres dont la représentation graphique (de type biplot)
illustrera les “correspondances” entre les modalités de ces 2 variables.

Page | 24
Une autre approche, très courante dans la littérature francophone, consiste à définir l’Analyse
Factorielle des Correspondances (AFC) comme étant le résultat d’une double Analyse en Composantes
Principales • l’ACP des profils–lignes, • l’ACP des profils–colonnes, relativement à la métrique dite du
χ 2.

Remarque :

1. Toute structure d’ordre existant éventuellement sur les modalités de X ou de Y est ignorée par
l’AFC

2. Tout individu présente une modalité et une seule de chaque variable.

3. Chaque modalité doit avoir été observée au moins une fois ; sinon, elle est supprimée

2. L’analyse factorielle par correspondances multiple (ACM ou AFCM)

Méthode factorielle de réduction de dimension pour l’exploration statistique de données qualitatives


complexes. Cette méthode est une généralisation de l’Analyse Factorielle des Correspondances,
permettant de décrire les relations entre p (p > 2) variables qualitatives simultanément observées sur n
individus. Elle est aussi souvent utilisée pour la construction de scores comme préalable à une méthode
de classification (k-means) nécessitant des données quantitatives. Travaux pratiques de complexité
croissante par l’étude de données élémentaires, puis épidémiologiques avec interactions.
Cette méthode fait usage du tableau de Burt pour transformer les données qualitatives en données
quantitatives. En effet, pour chaque variable, on construit un tableau dans lequel les colonnes sont les
modalités et les lignes les individus. Si la modalité j est celle prise par l’individu i, alors l’on met 1 dans
la case indices i, j et 0 partout ailleurs dans la ligne i. Le tableau de Burt complet est obtenu en
concaténant tous les tableaux obtenus mais les lignes et colonnes sont les modalités des variables.

Figure 5: Tableau de contingence initial Figure 4: Tableau disjonctif obtenu

Page | 25
Figure 6: Table de Burt

3. L’analyse factorielle discriminante (AFD)

L’analyse factorielle discriminante (AFD) ou simplement analyse discriminante est une technique
statistique à la fois prédictive (analyse discriminante linéaire – ADL) et descriptive (analyse factorielle
discriminante – AFD) qui vise à décrire, expliquer et prédire l’appartenance à des groupes prédéfinis
(classes, modalités de la variable à prédire...) d’un ensemble d’observations (individus, exemples...) à
partir dʼune série de variables prédictives (descripteurs, variables exogènes…). Cette méthode peut être
utilisée pour :
 Vérifier sur un graphique à deux ou trois dimensions si les groupes auxquels appartiennent les
observations sont bien distincts,
 Identifier quelles sont les caractéristiques des groupes sur la base de variables explicatives,
 Prédire le groupe d'appartenance pour une nouvelle observation.

Les applications possibles de l'AFD sont très nombreuses : de l'écologie à la prévision de risque en
finance (crédit scoring).

Elle est utilisée pour déterminer les variables qui permettent de discriminer deux ou plusieurs groupes
se produisant naturellement. Par exemple, un enseignant peut souhaiter faire des études sur les variables
qui discriminent les diplômés du cycle secondaire décidant :
(1) de poursuivre vers l'université,
(2) d'intégrer une école professionnelle ou de commerce, ou
(3) d'abandonner leurs études ou leurs stages.

Page | 26
Dans cette optique, le chercheur peut collecter des données sur de nombreuses variables précédant
l'obtention du diplôme par les étudiants. Une fois le baccalauréat obtenu, la plupart des étudiants vont
naturellement rentrer dans l'une des trois catégories. L'analyse discriminante va donc permettre de savoir
quelles sont les variables qui vont permettre de prédire le mieux possible le choix ultérieur des
étudiants en matière d'éducation.
Du point de vue des calculs, l'analyse discriminante est très proche de l'analyse de variance
(ANOVA). Considérons un exemple simple: supposons que nous mesurons la taille en centimètres dans
un échantillon aléatoire de 50 hommes et de 50 femmes. Les femmes sont, en moyenne, plus petites que
les hommes, et cette différence va se refléter dans les moyennes (de la variable Taille). Par conséquent,
la variable "taille" nous permet de mieux discriminer les hommes des femmes que le simple hasard : si
une personne est grande, il s'agit plus probablement d'un homme ; en revanche, si elle est petite, il
s'agit plus vraisemblablement d'une femme.
Il est possible de généraliser ce raisonnement à des groupes et des variables moins "triviales". Par
exemple, supposons que nous ayons deux groupes de bacheliers jeunes diplômés : ceux qui choisissent
de poursuivre vers l'université après le baccalauréat et ceux qui envisagent une autre orientation. Nous
pourrions avoir demandé aux étudiants leur intention de poursuivre ou non à l'université un an avant
l'obtention de leur diplôme. Si les moyennes des deux groupes (ceux qui sont effectivement allés à
l'université et ceux qui n'y sont pas allés) sont différentes, nous pouvons alors dire que l'intention de
rejoindre l'université exprimée un an avant l'obtention du diplôme nous permet de bien discriminer entre
ceux qui sont et ceux qui ne sont pas aux portes de l'université (cette information peut être utilisée par
des conseillers d'orientation pour offrir des pistes appropriées aux étudiants respectifs).
Ainsi donc pour résumer la présentation faite jusqu'à présent, l'idée de base d'une analyse
discriminante est de déterminer si des groupes sont différents par rapport à la moyenne qu'ils
prennent sur une variable particulière, et d'utiliser cette variable pour prédire l'appartenance à
un groupe (par exemple, pour de nouvelles observations).

4. Les techniques de l’ACP (Analyse par composantes Principales)

Les techniques d’analyse factorielle, telles que l’ACP, visent trois objectifs principaux:
1. Comprendre la structure d’un ensemble de variables (dans un questionnaire, voir quelles variables
sont associées)

Page | 27
2. Concevoir et raffiner des instruments de mesure comme les tests psychométriques (tests
permettant de déterminer les caractéristiques particulières d’un individu en se reférent à une
norme) et les questionnaires basés sur des échelles de type Likert (échelle de satisfaction )
permettant de mesurer des construits latents (qu’il est impossible de mesurer directement comme
le degré de stress ou de bonheur d’une personne).

3. Condenser l’information contenue à l’intérieur d’un grand nombre de variables (d’items d’un
questionnaire ou d’un test, par exemple) en un ensemble restreint de nouvelles dimensions
composites tout en assurant une perte minimale d’informations. On cherche donc à faire émerger
les construits ou les dimensions sous-jacentes à un ensemble de variables.

a. Les étapes

Les étapes à suivre pour réaliser une analyse de PCA sont:

Étape 1: Déterminer l’approche selon le type de problème

 Approche exploratoire

Le chercheur n’a pas d’a priori théorique sur la structure sous-jacente des données et veut en
explorer la structure. À ce titre, on peut utiliser l’ACP pour deux motifs principaux: identifier la structure
sous-jacente des données et réduire le nombre de variables en quelques facteurs.

 Approche confirmatoire
Le chercheur a certains a priori théoriques et désire confirmer une structure factorielle
documentée. Il cherche donc ici à confirmer la présence de facteurs déjà connus et décrits dans la
littérature ou par d’autres analyses.

Étape 2: Préparation de l’analyse

 Nombre de variables
Normalement, on effectue une ACP sur un ensemble de variables substantiel. Extraire 8 facteurs
à partir de 12 variables ne permet pas vraiment de réduire de façon intéressante le nombre de variables
originales. Il faut donc avoir un minimum de variables.

Page | 28
 Type de variables
De plus, il est recommandé d’avoir des variables continues, malgré que quelques variables de
l’ensemble peuvent être dichotomiques (0 ou 1). La technique fonctionne également avec des variables
ordinales.

 Taille de l’échantillon
Il est recommandé d’avoir un échantillon relativement grand pour assurer une puissance
statistique minimale. On suggère 100 sujets et plus, mais Hair et al. (1998) donnent comme règle
générale d’avoir un ratio de 10 sujets par variable insérée dans l’analyse.

Étape 3: Respect des postulats

 Corrélations inter-items

On doit s’assurer qu’il existe des corrélations minimales entre les items ou les variables qui feront
l’objet de l’analyse. Dans le cas où les corrélations sont très faibles ou inexistantes, il sera très difficile
de faire émerger un ou des facteurs et l’ACP n’est probablement pas l’analyse à conseiller. À cet égard,
on peut créer une matrice de corrélation avec toutes les variables de l’analyse et examiner la magnitude
des coefficients.

 Mesure de l’adéquation de l’échantillonnage (KMO)

Cette mesure donne un aperçu global de la qualité des corrélations inter-items. L’indice
KMO varie entre 0 et 1 et donne une information complémentaire à l’examen de la matrice de
corrélation. Son interprétation va comme suit:

0,80 et plus =>Excellent


0,70 et plus => Bien
0,60 et plus => Médiocre
0,50 et plus => Misérable
Moins de 0,50 => Inacceptable

Page | 29
Cet indice augmente 1) plus la taille de l’échantillon est grande, 2) plus les corrélations inter-items sont
élevées, 3) plus le nombre de variables est grand et 4) plus le nombre de facteurs décroît.

 Test de sphéricité de Bartlett

Cette mesure indique si la matrice de corrélation est une matrice identité à l’intérieur de laquelle
toutes les corrélations sont égales à zéro. Nous espérons que le test soit significatif (p < 0,05) pour que
nous puissions rejeter l’hypothèse nulle voulant qu’il s’agisse d’une matrice identité qui signifie que
toutes les variables sont parfaitement indépendantes les unes des autres.

Étape 4: Choix de la méthode d’extraction

Il existe deux méthodes d’extraction des facteurs qui reposent sur des considérations théoriques
spécifiques reliées aux composantes de la variance totale de l’ensemble de variables de l’analyse:
l’analyse des facteurs communs (analyse factorielle) et l’analyse en composantes principales.

L’analyse des facteurs communs (Principal axis factoring) est basée sur la variance commune partagée
par les variables analysées et est appropriée lorsque le chercheur est intéressé à découvrir la structure
latente ou les construits sous-jacents aux variables. Cependant, de nombreuses limites rendent cette
méthode difficile à appliquer dans bien des cas.

L’analyse en composantes principales (Principal component) est basée sur la variance spécifique des
variables et permet d’extraire un minimum de facteurs qui expliquent la plus grande partie possible de la
variance spécifique. C’est habituellement la méthode privilégiée.

Une fois la méthode choisie, il est possible de spécifier le nombre de facteurs que l’on désire extraire des
données. On comprendra que cette décision est pertinente dans une perspective confirmatoire et non dans
une perspective exploratoire.

Deux critères reviennent fréquemment pour déterminer le nombre de facteurs à extraire:

 La valeur dite de « eigen » (eigenvalue), traduite en français par « Valeur propre initiale », est le
critère le plus largement utilisé. Plus la valeur propre initiale est élevée, plus le facteur explique
une portion significative de la variance totale. Par convention, tout facteur avec une valeur propre
initiale supérieure à 1 est considéré comme facteur significatif.

Page | 30
 Le coude de Cattell constitue un critère plus sévère pour déterminer le nombre de facteurs. Il est
possible de demander dans les options associées à l’ACP de réaliser un graphique à partir des
valeurs propres. Tous les points représentent les valeurs propres des composantes. Ils sont reliés
par une ligne. On ne retient que les facteurs qui se situent avant le changement abrupt de la pente.
Les points qui suivent ce changement, appelé rupture du coude, semblent former une ligne droite
horizontale. L’information ajoutée par les facteurs représentés par ces points est peu pertinente.

Étape 5: Interprétation des facteurs

L’interprétation des facteurs ou des composantes consiste à déterminer la combinaison de variables qui
est la plus associée à chacun des facteurs significatifs. Pour ce faire, on suggère trois étapes.

1) Examen de la matrice des composantes (sans rotation)


Cette matrice contient les poids des variables sur chaque facteur. Ces poids sont en fait la
corrélation entre la variable et le facteur. Ils servent à interpréter le rôle de chaque variable dans la
définition de chaque facteur. Ils indiquent donc le degré de correspondance entre la variable et le facteur.
Plus le poids est élevé, plus la variable est représentative du facteur.

Page | 31
De manière générale, le premier facteur extrait est celui qui explique le plus de variance et est
donc la meilleure combinaison possible de variables. Les autres facteurs ont moins de variance résiduelle
à expliquer. Par conséquent, Ils représentent des combinaisons de moins en moins optimales, jusqu’à
extinction de la variance à expliquer.

Bien qu’intéressante, cette matrice n’est pas la plus parlante en termes d’interprétation. Dans
presque tous les cas, il est nécessaire d’effectuer une rotation des facteurs pour simplifier la matrice
corrélationnelle entre les facteurs et les variables.

2) Examen de la matrice des composantes après rotation


La rotation des facteurs consiste à faire pivoter virtuellement les axes des facteurs autour du point
d’origine dans le but de redistribuer plus équitablement la variance à expliquer. La solution factorielle
alors obtenue est plus simple à interpréter et est théoriquement plus pertinente que la solution sans
rotation. La rotation peut être orthogonale lorsque les facteurs sont pressentis comme étant des
dimensions indépendantes les unes des autres ou encore oblique lorsque les facteurs peuvent être corrélés
entre eux. La figure suivante, permet de mieux comprendre la procédure de rotation orthogonale à partir
d’une solution hypothétique à deux facteurs.

Figure 7: Représentation d’une projection orthogonale (6 variables ) [Source de l'image]

Page | 32
Le but ultime de la rotation est toujours de simplifier la lecture des poids des variables sur les
facteurs. Dans la matrice de poids, ceci signifie que dans chaque rangée, on trouve un maximum de poids
près de 0 et un minimum de poids très élevés (idéalement un seul).

Dans la pratique, on utilise très régulièrement la méthode de rotation orthogonale VARIMAX. Cette
méthode est privilégiée, entre autres, lorsque l’on désire réduire le nombre de variables d’une matrice de
données en un plus petit nombre de facteurs non corrélés entre eux et utilisés, par exemple, dans le cadre
d’une régression multiple.

Par ailleurs, si le but est d’obtenir des facteurs représentant un construit théoriquement sensé, la
rotation oblique est suggérée, car il est difficile de postuler l’orthogonalité (corrélation = 0) entre des
facteurs d’un même construit.

Ultimement, on suggère de procéder à plusieurs types de rotation pour une même factorisation et
de sélectionner celle qui semble la plus intéressante à interpréter et la plus robuste au plan conceptuel.

3) Identification du poids le plus élevé pour chaque variable


La prochaine étape est de prendre chaque variable (ou item) en commençant par la première et
d’identifier sur la ligne le poids le plus élevé (en valeur absolue). Pour des échantillons de moins de 100
individus, on estime que la valeur absolue de 0,30 est le poids minimum qu’une variable peut avoir pour
être considérée significative.

Cependant, il arrive fréquemment que d’autres poids sont significatifs (plus de 0,30) sur une
même ligne. Ceci complexifie le travail du chercheur qui doit considérer ces poids dans son
interprétation. L’idéal est toujours de minimiser le nombre de poids significatifs par variable. Une
variable qui a des poids significatifs sur plusieurs facteurs mérite probablement d’être exclue de la
matrice. Ceci implique que l’analyse en composantes principales devra être exécutée de nouveau sans
ces variables.

4) Étiqueter les facteurs


Une fois que les poids ont été bien identifiés dans la matrice, la structure des facteurs est établie
à partir des variables qui ont un poids significatif à l’intérieur de la colonne de chacun de ceux-ci. À
l’aide du questionnaire et du libellé exact des items, on doit regarder les variables associées et tenter de
nommer le construit latent mesuré par le facteur.

Page | 33
Le but ultime de l’ACP est de construire des échelles qui permettront de mesurer des construits
latents. Ces échelles sont obtenues en additionnant les résultats des participants à toutes les variables qui
constituent chaque facteur. Une échelle doit être comprendre au minimum trois variables.

b. Exemple d’application

Cet exemple est réalisé avec le logiciel SPSS d’analyse statistique. Dans cet exemple, nous allons
reprendre les étapes présentées dans la section précédente pour réaliser une analyse en composantes
principales. Nous utilisons la base PCA exemple qui comprend des données provenant d’une étude sur
la clientèle des centres jeunesse. Les données portent sur un questionnaire évaluant les ressources
disponibles (logement, argent, soutien social, etc.) pour les participants de l’étude. Ce questionnaire
comprend 28 items auxquels les 231 participants ont répondu à l’aide d’une échelle de type Likert. Voici
un exemple d’items du questionnaire:

Étape 1: Déterminer l’approche selon le type de problème

Nous adoptons l’approche exploratoire, car nous n’avons pas d’idées préalables sur la structure des
données.

Étape 2: Préparation de l’analyse

Nous réalisons notre analyse sur 28 variables. Nous croyons que nous serons en
Nombre de
mesure de faire émerger des construits latents et de réduire de façon intéressante le
variables
nombre de variables originales.

Type de Puisque les réponses sont basées sur une échelle de type Likert, les données sont
variables continues.

231 personnes ont répondu au questionnaire. Nous dépassons le minimum de 100


Taille de participants au total, mais pas celui de 10 personnes par variable tel que recommandé
l’échantillon par Hair et al. (1998). Pour atteindre le nombre requis, il aurait fallu avoir 280
répondants (28 questions x 10). Nous continuons tout de même l’analyse.

Page | 34
Étape 3: Respect des postulats

Nous nous assurons ensuite de respecter les postulats avant de procéder à l’analyse proprement dite.

 Corrélations inter-items

D’abord, nous devons nous assurer que les items sont minimalement corrélés entre eux. Pour ce
faire, nous regardons la matrice de corrélation. Dans ce détail de la matrice, nous pouvons observer que
toutes les variables semblent au moins légèrement corrélées. Certaines corrélations sont plus fortes que
d’autres, nous suggérant déjà quelques associations.

Figure 8: Matrice de corrélation

 Mesure de l’adéquation de l’échantillonnage (KMO) et Test de sphéricité de Bartlett

L’indice KMO de 0,81 peut être qualifié d’excellent ou de méritoire. Il nous indique que les
corrélations entre les items sont de bonne qualité. Ensuite, le résultat du test de sphéricité de Bartlett est

Page | 35
significatif (p < 0,0005). Nous pouvons donc rejeter l’hypothèse nulle voulant que nos données
proviennent d’une population pour laquelle la matrice serait une matrice d’identité. Les corrélations ne
sont donc pas toutes égales à zéro. Nous pouvons donc poursuivre l’analyse.

Étape 4: Choix de la méthode d’extraction

Nous choisissons l’analyse en composantes principales, puisqu’elle permet d’expliquer une


grande partie de la variance avec un minimum de facteurs.

Nous devons ensuite choisir le nombre de facteurs à extraire. Pour ce faire, nous analysons le
tableau de la variance totale expliquée. En regardant la deuxième colonne, nous constatons que neuf
facteurs (ou composantes) ont une valeur propre plus élevée que 1. Nous les conservons donc pour
l’analyse. Le premier facteur explique à lui seul 24,45 % de la variance totale des 28 variables de
l’analyse. Mis en communs, les neuf facteurs permettent d’expliquer 68,77 % de la variance. Comme les
facteurs 10 à 28 n’expliquent pas suffisamment de variance, ils ne sont pas retenus.

Page | 36
Nous désirons toutefois être certains de bien choisir le bon nombre de facteurs à extraire. Nous
regardons donc le graphique des valeurs propres et examinons où se situe la rupture du coude de Cattell.
Nous voyons un changement après le sixième facteur. Nous ne retenons donc que six facteurs pour
l’analyse, puisque ce critère est plus rigoureux que celui des valeurs propres.

Puisque nous avons retenu seulement six facteurs, nous avons refait l’analyse en spécifiant que
nous désirions conserver ce même nombre de facteur dans la boite de dialogue d’extraction. Nous
pouvons à nouveau regarder la matrice de la variance totale expliquée. En fait, la seule différence est que
SPSS ne fournit pas les détails des facteurs 7 à 9. Avec nos six facteurs, nous pouvons expliquer 57,52 %
de la variance totale.

Page | 37
Étape 5: Interprétation des facteurs

Nous voulons maintenant déterminer la combinaison de variables qui est la plus associée à chacun des
facteurs significatifs. Nous allons procéder en trois étapes.

1. Examen de la matrice des composantes (sans rotation)

Avant de faire la rotation, nous observons que 17 variables saturent plus fortement sur le facteur
1 et permettent par conséquent de le définir. Entre une et trois variables saturent sur les autres facteurs.
Nous observons également que certaines corrélations se ressemblent étrangement d’un facteur à l’autre.
Par exemple, la question 6 obtient une corrélation de 0,367 sur le facteur 3 et de – 0,365 sur le facteur 4.
Il est donc difficile d’établir quelles variables vont réellement avec quel facteur.

Page | 38
2. Examen de la matrice des composantes après rotation et

3. Identification du poids le plus élevé pour chaque variable

Afin d’obtenir une représentation factorielle plus simple, nous faisons une rotation VARIMAX.
Ce type de rotation permet de préserver l’orthogonalité (l’indépendance) entre les facteurs. Nous notons
cette fois que les variables sont beaucoup mieux réparties sur les différents facteurs. De plus, l’écart entre
les corrélations est plus élevé une fois que la rotation a été effectuée. Puisqu’au moins trois variables
saturent sur chacun des facteurs, nous pourrons les conserver pour construire des échelles.

Nous remarquons aussi que certaines variables saturent de façon importante sur plus d’un facteur.
Ceci signifie qu’il faudrait probablement retirer ces variables qui ne se positionnent pas de façon adéquate
sur un seul facteur et recommencer l’analyse. Toutefois, puisque nous ne voulons ici que vous présenter
la démarche, nous allons poursuivre l’analyse.

Page | 39
4. Étiqueter les facteurs

Nous devons maintenant nommer les facteurs et tenter d’identifier le construit latent qu’ils
permettent de mesurer. Si nous prenons, par exemple, le facteur 1, nous avons les questions suivantes:

1. J’ai assez de temps pour mes activités de loisir.

2.

8. J’ai assez de temps pour faire les choses que j’ai envie de faire.

19. J’ai suffisamment de temps pour le travail domestique.

22. J’ai suffisamment de temps pour aider les autres.

Page | 40
24. J’ai assez d’énergie pour mes loisirs.

Nous voyons que la notion de temps revient dans les quatre premières questions. Nous pourrions
nommer ce facteur « temps disponible ». Probablement que finalement, la dernière question va un peu
moins avec ce facteur. Il est vrai que si nous regardons sa corrélation sur le facteur 1 et sur le facteur 4,
nous constatons qu’il n’y a pas tellement de différence entre les deux: 0,618 et 0,531. En réalité, nous
espérons qu’après la rotation, il y aura au moins 0,3 points de différence entre la corrélation entre la
variable et son facteur et sa corrélation sur les autres facteurs. Par conséquent, nous pouvons penser à
éliminer cette variable de l’analyse.

c. UTILITE DE L’ACP
L’ACP ou PCA (Principal Component Analysis) en anglais trouve une grande utilité dans de
nombreux domaines.

 Il permet la visualisation de données multidimensionnelles en 2 ou en 3 dimensions.

 Il décorrèle les variables, car il génère de nouvelles variables décorrélées.

 Il débrutie les données et donc évite aux algorithmes de machine Learning d’essayer de faire
plus de liaisons et donc leur permet d’avoir un résultat optimal.

 Effectue une réduction des dimensions de données de machine Learning.

c.1. Avantage et inconvénients

 Réduction de la dimensionnalité des données ce qui permet une meilleur visualisation

 Il ne déforme pas les positions relative des points car les opérations permisses ici sont
seulement les rotations et déplacements

 Les nouvelles variables obtenues après les projections et décorrélation sont indépendantes

c.2. Inconvénients de l’usage de l’ACP

 Il est particulièrement sensible aux outliers (données aberrantes se distanciant des autres
données)

 Il suppose une distribution gaussienne des données, ce qui n’est pas toujours le cas en pratique

Page | 41
 Il n’est pas adapté si la nature des données est non linéaire.

c.3. Domaines d’application

c.3.1. Compression d’images

Le but de la compression d'image est de stocker une image sous une forme plus compacte, c'est-
à-dire une représentation qui nécessite moins de bits pour le codage que l'image d'origine. C'est possible
pour les images car, dans leur forme « brute », elles contiennent un haut degré de données redondantes.
La plupart des images ne sont pas des collections aléatoires de transitions d'intensité arbitraires.

Chaque image que nous voyons contient une certaine forme de structure. En conséquence, il
existe une certaine corrélation entre les pixels voisins. Si l'on peut trouver une transformation réversible
qui supprime la redondance en décorrélant les données, alors une image peut être stockée plus
efficacement. La transformée de Karhunen-Loève (KLT) est la transformation linéaire qui accomplit cela.

Par ailleurs, l'analyse en Composantes Principales est usuellement utilisée comme outil de
compression linéaire. Le principe est alors de ne retenir que les n premiers vecteurs propres issus de la
diagonalisation de la matrice de corrélation (ou covariance), lorsque l'inertie du nuage projeté sur ces n
vecteurs représente qn pourcents de l'inertie du nuage original, on dit qu'on a un taux de compression de
1 - qn pourcents, ou que l'on a compressé à qn pourcents. Un taux de compression usuel est de 20 %.

Nous pouvons voir que dans l’image compressée de Lena (tire de R.D. Dony Karhunen-Loève
Transform‘The Transform and Data Compression Handbook Ed. K. R. Rao and P.C. Yip.Boca Raton,
CRC Press LLC, 2001’) ci-bas a l’aide du TKL( Transformée de Karhunen-Loève) est devenu invisible
a l’œil humain mais nécessaire pour la machine pour retrouver les autres pixels et reconstituer l’image
originale.

Page | 42
Figure 10:Image de Lena compressée par l'ACP
Figure 9:Image initale de Lena à compresser par l'ACP

Les autres méthodes de compressions statistiques habituelles sont:

 l'analyse en composantes indépendantes ou ICA( Independant Component Analysis) en


anglais qui s’est impose dans la résolution du problème du cocktail aussi connu sous le nom de
séparation de source qui voudrait retrouver la voix de chacune des N personnes parlant dans P
micros.;

 les cartes auto-adaptatives (SOM ou self organizing maps en anglais) ; appelées aussi cartes de
Kohonen : Ici, la représentation des données est inspirée de la biologie et donc ou chaque
neurone se spécialise pour reconnaître un type précis de données

 L'analyse en composantes curvilignes ;

 La compression par ondelettes.

Il est possible d'utiliser le résultat d'une ACP pour construire une classification statistique des

variables aléatoires X1, ..., XN, en utilisant la distance suivante (C(n, n') est la corrélation

entre Xn et Xn' ):

Page | 43
c.3.2. Analyse de série d’images
L'ACP, désignée en général dans le milieu du traitement du signal et de l'analyse d'images plutôt

sous son nom de Transformée de Karhunen-Loève (TKL) est utilisée pour analyser les séries dynamiques
d'images, c'est-à-dire une succession d'images représentant la cartographie d'une grandeur physique,
comme les scintigraphies dynamiques en médecine nucléaire, qui permettent d'observer par gamma-
caméra le fonctionnement d'organes comme le cœur ou les reins.

Dans une série de P images, chaque pixel est considéré comme un point d'un espace affine de
dimension P dont les coordonnées sont la valeur du pixel pour chacune des P images au cours du
temps. Le nuage ainsi formé par tous les points de l'image peut être analysé par l'ACP, (il forme un
hyper-ellipsoïde à P dimensions) ce qui permet de déterminer ses axes principaux.

En exprimant tous les points dans le repère orthogonal à P dimensions des axes de l'ACP, on
passe ainsi de la série temporelle d'origine (les pixels représentent la valeur en fonction du temps) à une
nouvelle série (également de P images) dans l'espace de Karhunen-Loève : c'est la Transformée de
Karhunen-Loève, qui est une opération réversible : on parle de « TKL » et de « TKL inverse » ou «
TLK-1 ».

La compression est possible car l'information est contenue presque entièrement sur les premiers
axes de l'ACP. Mais la notion de « compression » sous-entend que les autres images correspondant aux
autres axes sont volontairement ignorées. La TKL étant réversible, la suppression arbitraire des axes les
moins énergétiques constitue alors un filtrage permettant de réduire le bruit temporel de la série d'images.
Concrètement, l'application de TKL + suppression des axes les moins significatifs + TKL-1 permet de
supprimer le fourmillement apparent (bruit temporel) d'une série animée d'images.

En imagerie médicale fonctionnelle, on améliore ainsi la qualité visuelle de la visualisation


scintigraphie du cycle cardiaque moyen.

Par ailleurs, l'analyse de l'importance respective des valeurs propres de l'ACP permet d'approcher
le nombre de fonctionnements physiologiques différents. On a ainsi pu montrer que le cœur sain peut
être entièrement représenté avec 2 images (2 axes de l'ACP contiennent toute l'information utile), alors
que pour certaines pathologies l'information utile s'étale sur 3 images.

Page | 44
L’image ci-dessus a l’aide de différente considération des pixels et des vues analyses par TKL,
nous pouvons avoir beaucoup plus d’informations et ainsi permettre une meilleure analyse.

c.3.3. Analyse d'images multi spectrales


Comme pour l'application précédente, la longueur d'onde remplaçant juste le temps, la TKL a
été proposée à plusieurs reprises pour extraire l'information utile d'une série d'images monochromes
représentant les intensités pour des longueurs d'onde différentes. De telles images peuvent être issues
de microscopie optique classique, confocale ou SNOM (Microscope optique en champ proche).

c.3.4. Évolution de la topographie


De la même manière, la TKL permet de mettre en évidence des cinétiques différentes lors de

L’analyse topographique dynamique, c'est-à-dire l'analyse de l'évolution du relief au cours du temps.


Elle permet alors de déceler des phénomènes invisibles par simple observation visuelle, mais se
distinguant par une cinétique légèrement différente (par exemple pollution d'une surface rugueuse par
un dépôt).

c.3.5. Apprentissage automatique


L'ACP est une des techniques permettant la réduction de dimension, très utile en Apprentissage
Automatique pour améliorer la qualité des modèles, et faciliter leur calcul.

Page | 45
Chapitre 4 : MODELISATION SUPERVISE: Les arbres de décision

I. Arbres de décision/classification/régression

Un arbre de décision (Y binaire), de classification (Y discret) ou de régression (Y continu) est un


outil de classification particulièrement aisé à utiliser une fois appris et qui a l’avantage d’être relativement
simple à interpréter quand il n’est pas trop grand.

Une observation Y part de la racine de de l’arbre et suit les embranchements en fonction de la


variable concernée à chaque étape jusqu’à aboutir dans une feuille, dont l’étiquette indique la décision
prise.

La difficulté réside bien entendu dans l’apprentissage de cet arbre. L’algorithme le plus couramment
utilisé est l’algorithme CART (Classification and Regression Tree) (Breiman et al., 1984).

1. Construction d’un premier arbre par séparation itérative des nœuds

On considère un ensemble 𝛿1 de valeurs (𝑋𝑖 , 𝑌𝑖 ) d’observations issues du jeu d’apprentissage. Le


principe de construction de l’arbre est simple, à savoir que chaque feuille est séparée en deux si elle n’est
pas assez pure et de façon à obtenir deux filles les plus pures possibles. Une fois l’arbre construit, chaque
feuille se voit attribuer l’étiquette de la classe majoritaire dans le cas de la classification, la moyenne des
observations dans le cas de la régression.

Page | 46
Pour appliquer ce principe, un indice d’impureté 𝐼(𝑆) pour un noeud de valeurs 𝑆 et un critère de
séparation sont définis.

 Classification : indice d’impureté de Gini : On note (𝑝1 , … , 𝑝𝑘 ) la proportion de chaque valeur


de 𝑌 dans 𝑆.

𝐼𝐺𝑖𝑛𝑖 (𝑆) = ∑ 𝑝𝑘 (1 − 𝑝𝑘 )
𝑘

Cet indice est un indice d’impureté, dans la mesure où il d’autant plus petit que l’une des classes est
largement majoritaire dans l’ensemble (on montre sans mal qu’il est nul si l’ensemble est pur et maximal
si toutes les classes sont équireprésentées).

 Classification : indice d’impureté de l’entropie :

𝐼𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) = − ∑ 𝑝𝑘 𝑙𝑜𝑔𝑝𝑘


𝑘

Cet indice s’interprète de la même manière que l’indice de Gini.

 Régression : indice d’impureté de la variance :

𝑰(𝑺) = 𝒗𝒂𝒓(𝒀(𝑺))

où 𝑌(𝑆) désigne l’échantillon des valeurs de 𝑌 sur l’ensemble 𝑆. Plus ce critère est petit, plus les
valeurs de Y dans ce noeud sont regroupées autour de 𝑌(𝑆) et donc plus le nœud est pur.

 Critère de séparation

L’algorithme parcourt l’ensemble des variables possibles et l’ensemble (discrétisé) de leurs


valeurs possibles, et choisit le couple (Variable,Seuil) qui sépare 𝑆 en (𝑆1 , 𝑆2 ), de tailles 𝑛1 et 𝑛2
de façon à maximiser
𝑛1 𝑛2
𝐼(𝑆) − 𝑛 𝐼(𝑆1 ) − 𝑛 𝐼(𝑆2 ) dans les cas de la classification et
1 +𝑛2 1 +𝑛2

𝑣𝑎𝑟(𝑌(𝑆)) − 𝑣𝑎𝑟(𝑌(𝑆1 )) − 𝑣𝑎𝑟(𝑌(𝑆2 )) dans le cas continu

 Alternative : Une alternative à la notion d’impureté, utilisée notamment pour la régressions, est
de revenir au critère de qualité de l’apprentissage, typiquement ‖𝑌 𝑝𝑟𝑒𝑑 − 𝑌 𝑜𝑏𝑠 ‖2 . Le couple
(Variable, Seuil) choisi est alors celui qui permet la plus forte diminution de ce critère.

Page | 47
2. Elagage

Les opérations précédentes peuvent être répétées si besoin jusqu’à n’obtenir que des nœuds purs,
c’est-à-dire tels que 𝐼(𝑆) = 0 sur toutes les feuilles. On risque cependant alors de se retrouver en situation
de sur-apprentissage.

Plusieurs manières d’éviter cela ont été développées, divisées en deux familles :

 early stopping ou pre-pruning : le but est d’arrêter la construction de l’arbre avant qu’il
devienne trop grand. On peut pour cela fixer un seuil non nul pour le critère d’impureté. Le
package rpart propose par exemple cette approche avec un seuil (le paramètre cp) fixé par
validation croisée.

 post-pruning : on construit l’arbre total puis on ressupprime les branches n’apportant pas
d’amélioration du critère visé. L’approche early-stopping est cependant préférée en général.

II. Forêts aléatoires

Si l’arbre de décision a un avantage indéniable qui est sa lisibilité, il a l’inconvénient d’être


difficile à élaguer et d’être sujet à instabilité en cas de nombreuses variables candidates et/ou de variables
explicatives corrélées : un jeu très légèrement différent peut mener à un arbre très dissemblable.

Les forêts aléatoires ont été introduites pour pallier à ce désavantage (Breiman,2001). Elles font
partie de la famille des méthodes de Bagging c’est-à-dire des méthodes reposant sur la prise en compte
de plusieurs prédicteurs afin de dégager une majorité.

1. Principe

Le principe est très simple, à savoir qu’une forêt aléatoire est un ensemble d’arbres de
décision/classification/régression donnant chacun une prédiction. La prédiction finale est obtenue

 en prenant la classe la plus représentée dans le cadre décision/classification

 en moyennant les prédictions dans le cadre de la régression

Afin que les arbres de la forêt soient différents les uns des autres, de l’aléa est introduit à deux niveaux :

Page | 48
1. bootstrap des individus : chaque arbre est appris non pas sur toutes les données du jeu d’apprentissage
mais sur un échantillon bootstrap de celui-ci

2. sous-échantillonnage des variables : A chaque séparation de noeud, toutes les 𝑝 variables ne sont pas
prises en compte, mais seulement un sous-échantillon aléatoire de 𝑓(𝑝) d’entre elles. En pratique, 𝑓(𝑝) =

√𝑝 est souvent utilisé, mais 𝑓(𝑝) peut aussi être considéré comme un paramètre à régler.

Cette approche permet de régler le problème du sur-apprentissage en apprenant un grand nombre


d’arbres peu profonds (donc sans doute pas assez précis individuellement), mais dont on espère qu’ils
prendront majoritairement la bonne décision.

2. Erreur out-of-bag

Les différents paramètres (choix du nombre de variables échantillonnées, profondeur des


arbres, …) peuvent être réglés par validation croisée. Cependant, ils peuvent également l’être sans être
obligé de reséparer le jeu d’apprentissage en sous-jeu.

En effet, pour un échantillon de taille 𝑛 assez grand, chaque individu n’est pas dans l’échantillon
1 1
bootstrap avec probabilité (1 − 𝑛) ≈ 𝑒 ≈ 0.36. Plus d’un tiers des arbres contruits n’utilisent donc pas

l’observation 𝑥𝑖 dans leur apprentissage (On dit que i est out-of-bag) et peuvent être utilisés pour estimer
l’erreur faite sur 𝑥𝑖 .

On peut donc remplacer l’estimation par cross-validation de l’erreur sur l’individu 𝑖 par
(𝑦𝑖 𝑝𝑟𝑒𝑑 − 𝑦𝑖 𝑜𝑏𝑠 )2 où (𝑦𝑖 𝑝𝑟𝑒𝑑 ) est la prédiction faite par l’ensemble des arbres tels que 𝑖 est out-of-bag
(en prenant la classe majoritaire ou la moyenne suivant le type de prédiction).

3. Importance des variables

Une mesure de l’importance des variables a également été proposée dans le cadre
des forêts aléatoires.

Considérons une variable d’intérêt V. Pour chaque arbre de la forêt, on peut considérer l’ensemble
𝒜 des individus out-of-bag. En permutant les valeurs de𝑉 parmi les individus de 𝒜, on obtient un
jeu de données dans lequel 𝑉 n’a aucun pouvoir prédictif. On peut alors mesurer l’importance de la
variable en comparant le pouvoir prédictif avant et après la permutation.

Page | 49
 En considérant la perte du pourcentage de bien classés (accuracy) suite
à la permutation.
 En considérant le rapport entre l’erreur quadratique après et avant la
permutation.

Plus ces indices sont grands, plus la variables est importante dans cet arbre. En les moyennant sur
l’ensemble de la forêt, on obtient un indice global d’importance des variables, qui permet de
comparer les pouvoirs prédictifs de ces dernières.

4. Conclusion

Les forêts aléatoires sont un net gain par rapport à un arbre seul en termes de stabilité,
permettent la sélection de variables grâce à la mesure d’importance et offrent souvent un meilleur
contrôle du sur-apprentissage et donc une meilleure prédiction. Tout cela se fait cependant au
détriment de l’interprétabilité de la méthode.

III. CLASSIFICATION PAR ARBRE DE DÉCISION

C'est une technique d'apprentissage supervisé : on utilise un ensemble de données pour lesquelles
on connaît la valeur de la variable-cible afin de construire l'arbre (données dites étiquetées), puis on
extrapole les résultats à l'ensemble des données de test. L’apprentissage par arbre de décision désigne
une méthode basée sur l'utilisation d'un arbre de décision comme modèle prédictif (C‘est un outil d’aide
à la décision ou d’exploration de données qui permet de représenter un ensemble de choix sous la forme
graphique d’un arbre. ). On l'utilise notamment en fouille de données et en apprentissage automatique.

Un arbre de décision est un arbre orienté dont : Les noeuds internes sont étiquetés par un test
applicable à tout individu, généralement sur un attribut de description, les arcs contiennent les résultats
du test, les feuilles sont étiquetés par une classe par défaut.

En analyse de décision, il peut être utilisé pour représenter de manière explicite les décisions réalisées et
les processus qui les amènent. En apprentissage et en fouille de données, il décrit les données mais pas
les décisions elles-mêmes, l'arbre serait utilisé comme point de départ au processus de décision.

Page | 50
Concrètement, il modélise une hiérarchie de tests pour prédire un résultat. Il existe deux principaux types
d’arbre de décision :

• Les arbres de régression (Regression Tree) permettent de prédire une quantité réelle, une valeur
numérique (par exemple, le prix d’une maison ou la durée de séjour d’un patient dans un hôpital) ;
• Les arbres de classification (Classification Tree) permettent de prédire à quelle classe la variable
de sortie appartient (cela permet par exemple de répartir une population d’individus, comme des
clients d’une entreprise en différents types de profils).

1- CONSTRUCTION DE L’ARBRE DE DÉCISION


Les arbres de décision peuvent aider à la description, la catégorisation ou la généralisation d'un
jeu de données fixé. L'ensemble d'apprentissage est généralement fourni sous la forme d'enregistrements
du type : (x, Y) = (x1,x2,x3,…,xk,Y)

La variable Y désigne la variable-cible que l'on cherche à prédire, classer ou généraliser. Le


vecteur x est constitué des variables d'entrée x1,x2,x3 etc. qui sont utilisées dans ce but.

L'apprentissage par arbre de décision consiste à construire un arbre depuis un ensemble


d'apprentissage constitué de n-uplets étiquetés. Un arbre de décision peut être décrit comme un
diagramme de flux de données (ou flowchart) où chaque nœud interne décrit un test sur une variable
d'apprentissage, chaque branche représente un résultat du test, et chaque feuille contient la valeur de la
variable cible (une étiquette de classe pour les arbres de classification, une valeur numérique pour les
arbres de régression).

a) Méthodes
Usuellement, les algorithmes pour construire les arbres de décision sont construits en divisant
l'arbre du sommet vers les feuilles en choisissant à chaque étape une variable d'entrée qui réalise le
meilleur partage de l'ensemble d'objets, comme décrit précédemment. Pour choisir la variable de
séparation sur un nœud, les algorithmes testent les différentes variables d'entrée possibles et sélectionnent
celle qui maximise un critère donné.

b) Cas des arbres de classification


Dans le cas des arbres de classification, il s'agit d'un problème de classification automatique. Le
critère d’évaluation des partitions caractérise l'homogénéité (ou le gain en homogénéité) des sous-
ensembles obtenus par division de l'ensemble. Ces métriques sont appliquées à chaque sous-ensemble

Page | 51
candidat et les résultats sont combinés (par exemple, moyennés) pour produire une mesure de la qualité
de la séparation.

Il existe un grand nombre de critères de ce type, les plus utilisés sont l’entropie de Shannon,
l'indice de diversité de Gini et leurs variantes.

• Indice de diversité de Gini : utilisé par l'algorithme CART, il mesure avec quelle fréquence un
élément aléatoire de l'ensemble serait mal classé si son étiquette était choisie aléatoirement selon
la distribution des étiquettes dans le sous-ensemble. L'indice de diversité de Gini peut être calculé
en sommant la probabilité pour chaque élément d'être choisi, multipliée par la probabilité qu'il
soit mal classé. Il atteint sa valeur minimum (zéro) lorsque tous les éléments de l'ensemble sont
dans une même classe de la variable-cible. Pratiquement, si l'on suppose que la classe prend une
valeur dans l'ensemble 1,2,…,m et si fi la fraction des éléments de l'ensemble avec l'étiquette dans
l'ensemble, on aura:

• Gain d'information : utilisé par les algorithmes ID3 et C4.5, le gain d'information est basé sur le
concept d'entropie de Shannon en théorie de l'information 2. L'entropie permet de mesurer le
désordre dans un ensemble de données et est utilisée pour choisir la valeur permettant de
maximiser le gain d'information. En utilisant les mêmes notations que pour l'indice de diversité
de Gini, on obtient la formule suivante :

c) Cas des arbres de régression


Dans le cas des arbres de régression, le même schéma de séparation peut être appliqué, mais au
lieu de minimiser le taux d’erreur de classification, on cherche à maximiser la variance inter-classes
(avoir des sous-ensembles dont les valeurs de la variable-cible soient les plus dispersées possibles). En
général, le critère utilise le test du chi carré.

2. Avantages et inconvénients de la méthode

a. Avantages
Comparativement à d'autres méthodes de fouille de données, les arbres de décision présentent plusieurs
avantages :

• La simplicité de compréhension et d'interprétation. C'est un modèle boîte blanche : si l'on


observe une certaine situation sur un modèle, celle-ci peut être facilement expliquée à l'aide de

Page | 52
la logique booléenne, au contraire de modèles boîte noire comme les réseaux neuronaux, dont
l'explication des résultats est difficile à comprendre.

• Peu de préparation des données (pas de normalisation, de valeurs vides à supprimer, ou de


variable muette).

• Le modèle peut gérer à la fois des valeurs numériques et des catégories. D'autres techniques
sont souvent spécialisées sur un certain type de variables (les réseaux neuronaux ne sont
utilisables que sur des variables numériques).

• Il est possible de valider un modèle à l'aide de tests statistiques, et ainsi de rendre compte de la
fiabilité du modèle.

• Performant sur de grands jeux de données: la méthode est relativement économique en termes
de ressources de calcul.

b. Inconvénients
En revanche, elle présente certains inconvénients :

• L'apprentissage de l'arbre de décision optimal est NP-complet concernant plusieurs aspects de


l'optimalité12,13. En conséquence, les algorithmes d'apprentissage par arbre de décision sont
basés sur des heuristiques telles que les algorithmes gloutons cherchant à optimiser le partage à
chaque nœud, et de tels algorithmes ne garantissent pas d'obtenir l'optimum global. Certaines
méthodes visent à diminuer l'effet de la recherche gloutonne 14.

• L'apprentissage par arbre de décision peut amener des arbres de décision très complexes, qui
généralisent mal l'ensemble d'apprentissage (il s'agit du problème de sur-apprentissage
précédemment évoqué15). On utilise des procédures d'élagage pour contourner ce problème,
certaines approches comme l'inférence conditionnelle permettent de s'en affranchir16,17.

• Certains concepts sont difficiles à exprimer à l'aide d'arbres de décision (comme XOR ou la
parité). Dans ces cas, les arbres de décision deviennent extrêmement larges. Pour résoudre ce
problème, plusieurs moyens existent, tels que la proportionnalisation18, ou l'utilisation
d'algorithmes d'apprentissage utilisant des représentations plus expressives (par exemple la
programmation logique inductive).

Page | 53
• Lorsque les données incluent des attributs ayant plusieurs niveaux, le gain d'information dans
l'arbre est biaisé en faveur de ces attributs19. Cependant, le problème de la sélection de
prédicteurs biaisés peut être contourné par des méthodes telles que l'inférence conditionnelle16.

Page | 54
CONCLUSION
Parvenu au terme de notre exposé où il était question pour nous de présenter la classification
non supervisée ou automatique où l’on ne connaît pas au préalable les classes qui pourront exister,
ensuite l’analyse factorielles qui elle, vient simuler et aiguiser le caractère humain à établir des règles
de corrélations entre plusieurs éléments dépendant de leurs caractéristiques et enfin l´utilisation des
arbres de décisions dans la classification supervisée, où l’on connaît à l’avance les différentes classes
des éléments ; il en ressort que la fouille de donnée a besoin de la construction d’un modèle arborescent
permettant de prédire la classe d’une donnée(classification non supervisée) ou d’un modèle exprimé
sous forme de règles (classification supervisée) ; ce modèle obtenu est interprétable par un humain. Est-
ce donc tous les modèle qui sont interprétables par l’Homme ?

Page | 55
REFERENCES

BIBLIOGRAPHIE
[LM] E. Lebarbier, T. Mary-Huard, Classification non supervisée.

[Pr09] Ph. PREUX, Fouille de données Notes de cours, 2009.

[RDo01] R.D. Dony, Karhunen-Loève Transform, The Transform and Data Compression Handbook, Ed. K. R. Rao and
P.C. Yip.Boca Raton, CRC Press LLC, 2001

[BerLi] Bertrand LIAUDET ,COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE


CLASSIFICATIONS AUTOMATIQUES

WEBOGRAPHIE
[1] http://wikistat.fr/pdf

[2] http://wikistat.fr/pdf/st-m-explo-classif.pdf , classification non supervisée.

[3] http://wikistat.fr/pdf/st-m-explo-afc.pdf , analyse factorielles par correspondances.

[4] http://www.math.univ-toulouse.fr/~besse/Wikistat/pdf/tp_afcm.pdf, analyse factorielles par


correspondances multiples.

[5] http://www2.agroparistech.fr/IMG/pdf/ClassificationNonSupervisee-AgroParisTech.pdf

[6] https://m(th.univ-(ngers.fr › ...PDFPRINCIPALES METHODES DE CLASSIFICATION NON ...

[7] https://maths.cnam.fr › pdfPDF Classification non supervisée et modèles de mélanges

[8] https://opencl(ssrooms.com › courses Découvrez les méthodes factorielles et la classification non supervisée

[10] https://www.qualtrics.com › analyse-...Guide de l'analyse factorielle : définition et utilisation | Qualtrics

[11] https://fr.m.wikipedia.org › wiki › A...Analyse factorielle des correspondances - Wikipédia

[12] https://cedric.cnam.fr › vertigo › co...Cours - Méthodes factorielles — Cnam – UE RCP208

[13] https://www.ibm.com › spss › idh_factAnalyse factorielle – IBM

[14] https://orbi.uliege.be › 93-1-...PDFLes méthodes d'analyse factorielle : principes et applications - ORBi

[15] https://eric.univ-lyon2.fr › ~riccoCours Analyse Factorielle Analyse des Correspondances Multiples (ACM ou AFCM)
- XLSTAT

[16] https://eric.univ-lyon2.fr › A...PDFACM - Cours Analyse des Correspondances Multiple

[17] https://veroniquetremblay.github.io/analyse_de_donnees_et_apprentissage_statistique_en_R/

Page | 56
FICHE DE TD CHAPITRE 2 : CLASSIFICATION AUTOMATIQUE
Série d’exercices 1

Exercice 1: Questions de cours

1. Définir les termes et expressions suivante: Classification, Classification non supervisée,


clustering, CAH, Classification binaire, Classification multi-classe.
2. Énumérer deux domaines d’application du clustering.
3. Quelles sont les qualités d’un bon clustering? Quels sont les algorithmes de clustering?
4. Quelle est la différence entre Clustering et Classification?
5. Comment fonctionne la classification non supervisée?
6. Quand utiliser K-means?
7. Quelle est la différence entre la Classification hiérarchique et la méthode de k-means?

Exercice 2: Soit l'ensemble D des entiers suivants :


D= { 2, 5, 8, 10, 11, 18, 20 }
On veut répartir les données de D en trois (3) clusters, en utilisant l'algorithme K-means. La distance d
entre deux nombres a et b est calculé ainsi :
d (a , b) = |a – b| (la valeur absolue de a moins b)

Travail à faire :
1) Appliquez K-means en choisissant comme centres initiaux des 3 clusters respectivement : 8, 10
et 11. Montrez toutes les étapes de calcul.

Série d’exercice 2

Exercice 1 (sur les centres mobiles)


Soit les deux variables X1 et X2 et les 6 individus {𝜔 1, 𝜔 2,…, 𝜔 6} représentés par le tableauci-
dessous :

Page | 57
.
Réaliser une classification par l’algorithme des centres mobiles avec pour centres initiaux :
1. 𝑐 0 de coordonnées (-1,-1) et 𝑐 0 de coordonnées (2,3).
1 2
2. 𝑐 0 de coordonnées (-1, 2) et 𝑐 0 de coordonnées (1,1).
1 2

Exercice 2 (sur la CAH)


Soit X une matrice de données dans ℝ2 définie par

1. Appliquer l’algorithme de la CAH avec la méthode de Ward.


2. Construire le dendrogramme associé.

CORRECTION DES EXERCICES CHAPITRE 2: CLASSIFICATION AUTOMATIQUE


SERIE 1

Exercice 1: Questions de cours

1. Définir les termes et expressions suivante: Classification, Classification non supervisée, Clustering,
CAH, Classification binaire, Classification multi-classe.

Classification: technique qui sert à catégoriser ou classer les informations issues d’ensemble de données
dans le but d’établir des prédictions.
Classification non supervisée: désigne un corpus de méthodes ayant pour objectif de dresser ou de
retrouver une typologie existante caractérisant un ensemble de 𝑛 observations, à partir de 𝑝
caractéristiques mesurées sur chacune des observations
Clustering: méthode d’apprentissage automatique qui consiste à regrouper des points de données par
similarité ou par distance.
CAH: Classification Ascendante Hiérarchique.

Page | 58
Classification binaire: est une transformation de données qui vise à répartir les membres d'un ensemble
dans deux groupes disjoints selon que l'élément possède ou non une propriété/fonctionnalité donnée

Classification multi-classe: est un processus de répartition d'un lot de propositions entre plus de deux
ensembles.

2. Énumérer deux domaines d’application du clustering.

- Text mining : Il permet d’extraire des données pour recréer de l’information à partir de corpus de textes
en les classifiant et en les analysant de manière à établir des tendances. Il est employé dans le domaine
du marketing, la communication, les sciences politiques et la recherche.
- Web mining: Il désigne l’ensemble des techniques visant à explorer, traiter et analyser les grandes
masses d’informations liées à une activité web
- Bio-informatique : gènes ressemblants
- Marketing : segmentation de la clientèle
- Web lot analysis : profils utilisateurs

3. Quelles sont les qualités d’un bon clustering? Quels sont les algorithmes de clustering?
Pour évaluer un algorithme de clustering on peut s'intéresser à :
 La forme des clusters qu'il produit (sont-ils denses, bien séparés)
 la stabilité de l'algorithme ;
 la compatibilité des résultats avec des connaissances spécifiques au domaine, que l'on peut
évaluer à l'aide de mesures d'enrichissement.

Les algorithmes de clustering les plus courants sont le K-Means, les algorithmes de maximisation de
l'espérance (de type EM, comme les mixtures gaussiennes) et les partitions de graphes.

4. Quelle est la différence entre Clustering et Classification?


Contrairement aux techniques de classification, les techniques de clustering appartiennent aux techniques
d'apprentissage non supervisé : l'algorithme ne dispose pas d'exemples pour lesquels les groupes à trouver
sont connus. La classification implique de classer les données d’entrée comme l’une des étiquettes de
classe de la variable de sortie.

5. Comment fonctionne la classification non supervisée?

Page | 59
En machine learning, la classification non supervisée (ou unsupervised learning) consiste à
entraîner des modèles, sans réaliser d'étiquetage manuel ou automatique des données au préalable. Les
algorithmes regroupent les données en fonction de leur similitude, sans aucune intervention humaine.

6. Quand utiliser K-means?


K-means peut s'appliquer dans de nombreux domaines pour identifier des clusters au sein de données
similaires. Il permet par exemple de regrouper des clients en fonction de leur degré de rentabilité en vue
d'analyser leur profil.

7. Quelle est la différence entre la Classification hiérarchique et la méthode de k-means?


Contrairement au k-means, la classification hiérarchique ne nécessite pas de déterminer un nombre de
classes au préalable. En effet, en jouant sur la profondeur de l'arbre, on peut explorer différentes
possibilités et choisir le nombre de classes qui nous convient le mieux.

Exercice 2: Soit l'ensemble D des entiers suivants :


D= { 2, 5, 8, 10, 11, 18, 20 }
On veut répartir les données de D en trois (3) clusters, en utilisant l'algorithme K-means. La distance d
entre deux nombres a et b est calculée ainsi :
d (a , b) = |a – b| (la valeur absolue de a moins b)

Travail à faire :
2) Appliquez K-means en choisissant comme centres initiaux des 3 clusters respectivement : 8, 10
et 11. Montrez toutes les étapes de calcul.

Solution:

a) Initialisation :

- Initialisation des centres de gravité : μ1=8, μ2=10, μ3=11


- Initialisation des clusters : C1=Ø, C2=Ø, C3=Ø

b) Itération 1 :

 Calcul des distances

Nombres Distances

Nombre 2 d(2, μ1)=|2-8|=6


d(2, μ2)=|2-10|=8
d(2, μ3)=|2-11|=9

2 est affecté au cluster C1.

Page | 60
Nombre 5 d(5, μ1)=|5-8|=3
d(5, μ2)=|5-10|=5
d(5, μ3)=|5-11|=6

5 est affecté au cluster C1.

d(8, μ1)=|8-8|=0
Nombre 8 d(8, μ2)=|8-10|=2
d(8, μ3)=|8-11|=3

8 est affecté au cluster C1.

Nombre 10 d(10, μ1)=|10-8|=2


d(10, μ2)=|10-10|=0
d(10, μ3)=|10-11|=1

10 est affecté au cluster

Nombre 11 d(11, μ1)=|11-8|=3


d(11, μ2)=|11-10|=1
d(11, μ3)=|11-11|=0

11 est affecté au cluster C3.

Nombre 18 d(18, μ1)=|18-8|=10


d(18, μ2)=|18-10|=8
d(18, μ3)=|18-11|=7

18 est affecté au cluster C3.

Nombre 20 d(20, μ1)=|20-8|=12


d(20, μ2)=|20-10|=10
d(20, μ3)=|20-11|=9

20 est affecté au cluster C3.

Tableau 2: Calcul des distances

 Mise à jour des clusters :

C1={ 2, 5, 8}
C2={10}
C3={11, 18, 20}

 R- estimation des centres de gravité :

Page | 61
- μ1= (2+5+8)/3 μ1=5
- μ2=10/1 μ2=10
- μ3=(11+18+20)/3 μ3=16.33

c) Itération 2 :

 Calcul des distances

Nombres Distances

Nombre 2 d(2, μ1)=|2-5|=3


d(2, μ2)=|2-10|=8
d(2, μ3)=|2-16.33|=14.33

2 est affecté au cluster C1.

Nombre 5 d(5, μ1)=|5-5|=0


d(5, μ2)=|5-10|=5
d(5, μ3)=|5-16.33|=11.33

5 est affecté au cluster C1.

d(8, μ1)=|8-5|=3
Nombre 8 d(8, μ2)=|8-10|=2
d(8, μ3)=|8-16.33|=8.33

8 est affecté au cluster C2.

Nombre 10 d(10, μ1)=|10-8|=2


d(10, μ2)=|10-10|=0
d(10, μ3)=|10-11|=1

10 est affecté au cluster

Nombre 11 d(11, μ1)=|11-5|=6


d(11, μ2)=|11-10|=1
d(11, μ3)=|11-16.33|=5.33

11 est affecté au cluster C2.

Nombre 18 d(18, μ1)=|18-8|=10


d(18, μ2)=|18-10|=8
d(18, μ3)=|18-11|=7

Page | 62
18 est affecté au cluster C3.

Nombre 20 d(20, μ1)=|20-5|=15


d(20, μ2)=|20-10|=10
d(20, μ3)=|20-16.33|=3.67

20 est affecté au cluster C3.

 Mise à jour des clusters :

C1={ 2, 5}
C2={8, 10, 11}
C3={18, 20}

 R- estimation des centres de gravité :


- μ1= (2+5)/2 μ1=3.5
- μ2=(8+10+11)/3 μ2=9.66
- μ3=(18+20)/2 μ3= 19

d) Itération 3 :

 Calcul des distances

Nombres Distances

Nombre 2 d(2, μ1)=|2-3.5|=1.5


d(2, μ2)=|2-9.66|=7.66
d(2, μ3)=|2-19|=17

2 est affecté au cluster C1.

Nombre 5 d(5, μ1)=|5-3.5|=1.5


d(5, μ2)=|5-9.66|=4.66
d(5, μ3)=|5-19|=14

5 est affecté au cluster C1.

d(8, μ1)=|8-3.5|=4.5
Nombre 8 d(8, μ2)=|8-9.66|=1.66
d(8, μ3)=|8-19|=11

8 est affecté au cluster C2.

Nombre 10 d(10, μ1)=|10-3.5|=6.5

Page | 63
d(10, μ2)=|10-9.66|=0.34
d(10, μ3)=|10-19|=9

10 est affecté au cluster C2.

Nombre 11 d(11, μ1)=|11-3.5|=7.5


d(11, μ2)=|11-9.66|=1.34
d(11, μ3)=|11-19|=8

11 est affecté au cluster C2.

Nombre 18 d(18, μ1)=|18-3.5|=14.5


d(18, μ2)=|18-9.66|=8.34
d(18, μ3)=|18-19|=1

18 est affecté au cluster C3.

Nombre 20 d(20, μ1)=|20-3.5|=16.5


d(20, μ2)=|20-9.66|=10.34
d(20, μ3)=|20-19|=1

20 est affecté au cluster C3.

 Mise à jour des clusters :

C1={ 2, 5}
C2={8, 10, 11}
C3={18, 20}

 R- estimation des centres de gravité :


- μ1= (2+5)/2 μ1=3.5
- μ2=(8+10+11)/3 μ2=9.66
- μ3=(18+20)/2 μ3= 19

Stabilité : Les centres de gravité n'ont pas changé. L'algorithme s'arrête

SERIE 2

Exercice 1 (sur les centres mobiles)


Soit les deux variables X1 et X2 et les 6 individus {𝜔 1, 𝜔 2,…, 𝜔 6} représentés par le tableauci-
dessous :

Page | 64
.

Dans un premier temps, on fait une classification par l’algorithme des centres mobiles avec,pour
centres initiaux, 𝑐 0 de coordonnées (-1,-1) et 𝑐 0 de coordonnées (2,3)
1 2
Le tableau des distances entre les individus et ces centres est

Par exemple :

D’où les deux groupes :

On considère deux nouveaux centres, 𝑐 1 et 𝑐 1, lesquels sont les centres de gravité des deux
1 2
groupes A et B.
𝑐 1 a pour coordonnées
1

𝑐 1 a pour coordonnées
2

Le tableau des distances entre les individus et ces centres est

Page | 65
𝑑 (𝜔 1,𝑐 1) = √(−2 − (−1.33)2 + (2 − 0)2 = √(−2 − (−1.33)2 + 4 = 2.109 = 2.11
1

D’où les deux groupes :

On considère deux nouveaux centres, 𝑐 2 et 𝑐 2, lesquels sont les centres de gravité des deux
1 2
groupes A et B.
𝑐 2 a pour coordonnées
1

𝑐 2 a pour coordonnées
2

Le tableau des distances entre les individus et ces centres est

D’où les deux groupes :

On retrouve la même classification que l’étape précédente, on arrête l’algorithme

Dans un deuxième temps, on fait une classification par l’algorithme des centres mobiles avec,pour
centres initiaux, 𝑐 0 de coordonnées (-1,2) et 𝑐 0 de coordonnées (1,1)

Page | 66
1 2

Le tableau des distances entre les individus et ces centres est

D’où les deux groupes :

On considère deux nouveaux centres, 𝑐 1 et 𝑐 1, lesquels sont les centres de gravité des deux
1 2
groupes A et B.
𝑐 1 a pour coordonnées
1

𝑐 1 a pour coordonnées
2

Le tableau des distances entre les individus et ces centres est

D’où les deux groupes :

On retrouve la même classification que l’étape précédente, on arrête l’algorithme.

Page | 67
Conclusion : On obtient deux classifications différentes suivant les choix des centres initiaux.

Exercice 2 (sur la CAH)


On considère la matrice de données X dans ℝ2 définie par

2 2
7.5 4
X= 3 3
0.5 5

6 4

On fait l’algorithme de CAH avec la méthode de Ward.


Le tableau des écarts associé à P0= ({𝜔 1, 𝜔 2, 𝜔 3, 𝜔 4, 𝜔 5}) est

𝜔1 𝜔2 𝜔3 𝜔4 𝜔5

𝜔1 0 17.12 1 5.62 10

𝜔2 17.12 0 10.62 25 1.12

𝜔3 1 10.62 0 5.12 5

𝜔4 5.62 25 5 .12 0 15.62


𝜔5 10 1.12 5 15.62 0

Par exemple, on a

Les éléments (individus) 𝜔 1 et 𝜔 3 ont l’écart le plus petit : ce sont les éléments les plus proches.On les
rassemble pour former le groupe : A = { 𝜔 1, 𝜔 3}. On a une nouvelle partition de Γ:

L’inertie intra-classes de P1 est

Page | 68
Le centre de gravité associé à A est le point gA de coordonnées :

Le tableau des écarts associé à P1 est :

𝜔2 𝜔4 𝜔5 A

𝜔2 0 25 1.12 18.16
𝜔4 25 0 15.62 6.83

𝜔5 1.12 15.62 0 9.66

A 18.16 6.83 9.66 0

Par exemple, on a

Les éléments (individus) 𝜔 2 et 𝜔 5 ont l’écart le plus petit : ce sont les éléments les plus proches.On les
rassemble pour former le groupe : B = { 𝜔 2, 𝜔 5}. On a une nouvelle partition de Γ:

L’inertie intra-classes de P2 est

Le centre de gravité associé à B est le point gB de coordonnées gB= ((7,5+6)/2, (4+4)/2)=gB =


(6.75, 4).

Le tableau des écarts associé à P2 est

𝜔4 A B
𝜔 0 6.83 26.7
4
A 6.83 0 20.31

B 26.7 20.31 0

Page | 69
Par exemple, on a

Les éléments (individus) 𝜔 4 et A ont l’écart le plus petit : ce sont les éléments les plus proches.On les
rassemble pour former le groupe : C = { 𝜔 4, A}. On a une nouvelle partition de Γ

L’inertie intra-classes de P3 est

Le centre de gravité associé à C est le point gC de coordonnées

Le tableau des écarts associé à P3 est

B C

B 0 29.58

C 29.58 0

On a :

Il ne reste plus que 2 éléments, B et C ; on les regroupe. Cela donne la partition P4=
{𝜔 1, 𝜔 2, 𝜔 3, 𝜔 4, 𝜔 5}= Γ.

L’inertie intra-classes de P4 est

Cela termine l’algorithme de CAH.


Les éléments {𝜔 1}et {𝜔 3}ont été regroupés avec un écart de 1 Les
éléments {𝜔 2}et {𝜔 5}ont été regroupés avec un écart de 1.12

Les éléments A = {𝜔 1, 𝜔 3}et {𝜔 4} ont été regroupés avec un écart de 6.83

Page | 70
Les éléments B = {𝜔 2, 𝜔 5} et C = {𝜔 4, A}ont été regroupés avec un écart de 29.58.On

peut donc construire le dendrogramme associé.

La formule √2𝑒 (𝐴 , 𝐵 ) a été utilisée pour les hauteurs des branches du dendrogramme, on a :

FICHE DE TD CHAPITRE 3 : ANALYSE FACTORIELLE


Exercice 1 : Vrai ou Faux.
On considère une ACP normée dans laquelle le poids des individus est le même. Répondre par vrai ou
faux en justifiant la réponse.
1. Plus les variables sont corrélées entre elles plus le pourcentage d’inertie porté par les premiers axes de
l’ACP est grand.
2. Dans l’espace des individus (espace R p ), les individus éloignés du centre de gravité du nuage jouent
un rôle important dans l’analyse.
3. La variance des coordonnées des individus sur le premier axe factoriel est plus élevée que la variance
des coordonnées sur le second axe.
4. Des variables superposées sur le graphe des corrélations sont nécessairement très corrélées.

Page | 71
5. Dans R p , un individu très proche du centre de gravité a des valeurs brutes proches de zéro pour
l’ensemble des variables.

Exercice 2 :
Considérons les notes (de 0 à 20) obtenues par 9 élèves dans 4 disciplines (mathématiques, physique,
français, anglais)
MATH PHYS FRAN ANGL
Jean 6.00 6.00 5.00 5.50
Alan 8.00 8.00 8.00 8.00
Anni 6.00 7.00 11.00 9.50
Moni 14.50 14.50 15.50 15.00
Didi 14.00 14.00 12.00 12.50
Andr 11.00 10.00 5.50 7.00
Pier 5.50 7.00 14.00 11.50
Brig 13.00 12.50 8.50 9.50
Evel 9.00 9.50 12.50 12.00

Nous présentons ci-dessous quelques résultats de l’A.C.P.


1. Résultats préliminaires
Le logiciel fournit tout d’abord la moyenne (mean), l’écart-type (standard deviation), le mini-
mum et le maximum de chaque variable. Il s’agit donc, pour l’instant, d’études univariées.

Statistiques élémentaires
Variable Moyenne Ecart-type Minimum Maximum
MATH 9.67 3.37 5.50 14.50
PHYS 9.83 2.99 6.00 14.50
FRAN 10.22 3.47 5.00 15.50
ANGL 10.06 2.81 5.50 15.00

1) Que remarquez-vous ?
Le tableau suivant donne la matrice des corrélations. Il donne les coefficients de corrélation li-
néaire des variables prises deux à deux.

Page | 72
Coefficients de correlation
MATH PHYS FRAN ANGL
MATH 1.00 0.98 0.23 0.51
PHYS 0.98 1.00 0.40 0.65
FRAN 0.23 0.40 1.00 0.95
ANGL 0.51 0.65 0.95 1.00

2) Que remarquez-vous ?

2. Résultats généraux
Matrice des variances-covariances
MATH PHYS FRAN ANGL
MATH 11.39 9.92 2.66 4.82
PHYS 9.92 8.94 4.12 5.48
FRAN 2.66 4.12 12.06 9.29
ANGL 4.82 5.48 9.29 7.91

Valeurs propres ; variances expliquées


FACTEUR VAL. PR. PCT. VAR PCT. CUM
1 28.23 0.70 0.70
2 12.03 0.30 1.00
3 0.03 0.00 1.00
4 0.01 0.00 1.00
40.30 1

Ici :
PCT=pourcentage de variance
PCT= pourcentage cumulé : exemple (28, 23/40.30) × 100 = 70%.
Facteur i (ou composante principale Ci ).

3) Quelle est la relation entre λi est la variance de Ci ?


4) Comment interpréter la relation suivante qui relié la variance des variables initiales Xi avec
celle des composantes principales Ci ?

Page | 73
3. Résultats sur les variables
Le résultat fondamental concernant les variables est le tableau des corrélations variables-facteurs
(tableau des r(Xj, Ck )). Il s’agit des coefficients de corrélation linéaire entre les variables initiales
et les facteurs. Ce sont ces corrélations qui vont permettre de donner un sens aux facteurs (de les
interpréter).

Corrélations variables-facteurs : r(Xj , Ck)


FACTEURS F1 F2 F3 F4
MATH 0.81 -0.58 0.01 -0.02
PHYS 0.90 -0.43 -0.03 0.02
FRAN 0.75 0.66 -0.02 -0.01
ANGL 0.91 0.40 0.05 0.01

Les deux premières colonnes de ce tableau permettent, tout d’abord, de réaliser le graphique
des variables donné par la Fig. 3 Mais, ces deux colonnes permettent également de donner une
signification aux facteurs (donc aux axes des graphiques).

5) Comment interprétez-vous ces résultats ?

Page | 74
4. Résultats sur les individus
Le tableau donné ci-dessous contient tous les résultats importants de l’A.C.P. sur les individus

POIDS FACT1 FACT2 CONTG CONT1 CONT2 COSCA1 COSCA2


Jean 0.11 -8.61 -1.41 20.99 29.19 1.83 0.97 0.03
Alan 0.11 -3.88 -0.50 4.22 5.92 0.23 0.98 0.02
Anni 0.11 -3.21 3.47 6.17 4.06 11.11 0.46 0.54
Moni 0.11 9.85 0.60 26.86 38.19 0.33 1.00 0.00
Didi 0.11 6.41 -2.05 12.48 16.15 3.87 0.91 0.09
Andr 0.11 -3.03 -4.92 9.22 3.62 22.37 0.28 0.72
Pier 0.11 -1.03 6.38 11.51 0.41 37.56 0.03 0.97
Brig 0.11 1.95 -4.20 5.93 1.50 16.29 0.18 0.82
Evel 0.11 1.55 2.63 2.63 0.95 6.41 0.25 0.73

On notera que chaque individu représente 1 élément sur 9, d’où un poids (une pondération) de
1/9 = 0.11, ce qui est fourni par la première colonne du tableau. Les 2 colonnes suivantes fournissent les
coordonnées des individus (les élèves) sur les deux premiers axes (les facteurs) et ont donc permis de
réaliser le graphique des individus. Ce dernier (Fig. 4) permet de préciser la signification des axes, donc
des facteurs.
La signification et l’utilisation des dernières colonnes du tableau seront explicitées un peu plus
loin.
6) Interpréter les résultats obtenus sur les individus.

Exercice 3:
Une analyse en composante principale (ACP normée) a été exécutée sur 50 avions. On a déterminé, pour
chacun d’eux, la valeur de 10 variables (vitesse de croisière, rayon d’action, consommation, nombre de
places, coût de revient du transport par passager et par kilomètre, etc). On considère la représentation de
ces variables dans le cercle de corrélation ci-dessous.

Page | 75
1) Quelles sont les variables qui peuvent aider à donner une signification à l’axe 1 ?
2) Quelles sont les variables qui ne doivent pas être interprétées sur cette figure ?
3) Donner 3 groupes de variables qui, au sein d’un même groupe, sont fortement corrélées positivement
entre elles.
4) Citer deux variables qui sont peu corrélées entre elles.
5) Citer deux variables qui sont fortement corrélées négativement avec la variable V4 .
6) Quel est approximativement le coefficient de corrélation entre la variable V 1 et la première
composante principale ?
7) Citer une variable dont le coefficient de corrélation avec la deuxième composante principale vaut
presque 1.
8) Que veut le coefficient de corrélation entre la première et la deuxième composante principale.

Exercice 4
On a rassemblé les résultats de 15 enfants de 10 ans à 6 subtests du WISC (scores 0 à 5). Les variables
observées sont : CUB (Cubes de Kohs), PUZ (Assemblage d'objets), CAL (Calcul mental), MEM
(Mémoire immédiate des chiffres), COM (Compréhension de phrases), VOC (Vocabulaire). Le
protocole observé est le suivant :

Page | 76
WISC CUB PUZ CAL MEM COM VOC
I1 5 5 4 0 1 1
I2 4 3 3 2 2 1
I3 2 1 2 3 2 2
I4 5 3 5 3 4 3
I5 4 4 3 2 3 2
I6 2 0 1 3 1 1
I7 3 3 4 2 4 4
I8 1 2 1 4 3 3
I9 0 1 0 3 1 0
I10 2 0 1 3 1 0
I11 1 2 1 1 0 1
I12 4 2 4 2 1 2
I13 3 2 3 3 2 3
I14 1 0 0 3 2 2
I15 2 1 1 2 3 2
On traite ces données par une analyse en composantes principales normée. Les principaux
résultats de cette ACP sont indiqués ci-dessous :

Corrélations
CUB PUZ CAL MEM COM VOC
CUB 1,0000 0,7320 0,9207 -0,4491 0,3086 0,2735
PUZ 0,7320 1,0000 0,7510 -0,6143 0,2814 0,2850
CAL 0,9207 0,7510 1,0000 -0,3685 0,4077 0,4869
MEM -0,4491 -0,6143 -0,3685 1,0000 0,3032 0,2023
COM 0,3086 0,2814 0,4077 0,3032 1,0000 0,7819
VOC 0,2735 0,2850 0,4869 0,2023 0,7819 1,0000

Val. Propres (matrice de corrél.) & stat.


associées Variables actives seules

Val. propr % Total Cumul Cumul


variance Val. propr %
1 3,2581 54,3020 3,2581 54,3020
2 1,8372 30,6194 5,0953 84,9214
3 0,4430 7,3831 5,5383 92,3044
4 0,2538 4,2292 5,7920 96,5337
5 0,1679 2,7990 5,9600 99,3327
6 0,0400 0,6673 6,0000 100,0000

Scores, contributions et qualités de représentation des individus

Score Score Contribution Contribution Cos2 Cos2 Fact.


Fact. 1 Fact. 2 Fact.1 Fact.2 Fact.1 1&2
I1 -2,5616 3,0568 13,43 33,91 0,4078 0,5807
I2 -0,9661 0,9370 1,91 3,19 0,3907 0,3676
I3 0,6765 -0,6624 0,94 1,59 0,4446 0,4263
I4 -2,7969 -1,4636 16,01 7,77 0,7160 0,1961
I5 -1,8423 0,1211 6,95 0,05 0,8142 0,0035
I6 1,8891 0,1350 7,30 0,07 0,8426 0,0043
I7 -2,3396 -1,5487 11,20 8,70 0,6028 0,2641
I8 0,7275 -2,2054 1,08 17,65 0,0816 0,7499
I9 2,8400 0,5423 16,50 1,07 0,8745 0,0319
I10 2,1733 0,6117 9,66 1,36 0,7433 0,0589
I11 1,2940 2,0373 3,43 15,06 0,2256 0,5592
I12 -0,9947 0,8181 2,02 2,43 0,3120 0,2110
I13 -0,6099 -0,8730 0,76 2,77 0,1949 0,3994
I14 2,0150 -0,9470 8,31 3,25 0,7548 0,1667
I15 0,4957 -0,5591 0,50 1,13 0,1151 0,1464

Page | 77
Saturations, contributions et qualités de représentation des variables

Saturation Saturation Contribution Contribution Cos2 Cos2


Fact. 1 Fact. 2 Fact.1 Fact.2 Fact.1 Fact.2
CUB -0,8970 0,2018 0,25 0,02 0,8046 0,8453
PUZ -0,8652 0,2883 0,23 0,05 0,7485 0,8316
CAL -0,9458 0,0390 0,27 0,00 0,8945 0,8960
MEM 0,4449 -0,7861 0,06 0,34 0,1980 0,8160
COM -0,5382 -0,7627 0,09 0,32 0,2897 0,8714
VOC -0,5683 -0,7156 0,10 0,28 0,3229 0,8350

Représentation des individus dans le premier plan factoriel

Projection des ind. sur le plan factoriel ( 1 x 2)


Observations avec la somme des cosinus
5 carrés >= 0,00

4
I1
3
I1
2 1
I1I2
1 I1 I9
I5
I60
0
I15I
I1 3 I1
- I4 I7 3 4
1
- I
2 8
-
3

- - - - - - 0 1 2 3 4 5
Activ
5 4 3 2 1
Fact. 1 : e
54,30%

Page | 78
Projection des variables sur le plan factoriel ( 1 x 2)

1,0

0,5
PUZ
CUB

0,0 CAL
Fact. 2 : 30,62%

-0,5
VOC
COM MEM

-1,0

-1,0 -0,5 0,0 0,5 1,0


Active
Fact. 1 : 54,30%

1) Etude du tableau des valeurs propres


a) A quoi correspond la somme des valeurs propres ?
b) On choisit de n'étudier que les deux premières composantes principales. Justifier ce choix en
analysant le tableau des valeurs propres.
2) Etude du tableau des corrélations
b) Quels sont les subtests les plus fortement corrélés entre eux ?
c)Comment s'organisent les signes "+" et les signes "-" dans le tableau des coefficients de corrélation.
Commenter.

3) Etude des qualités de représentation dans le premier plan principal

Quel est l'individu le moins bien représenté par le premier plan principal ? Quel est
l'individu le mieux représenté ?

4) Etude du nuage des individus.


a) Quels sont les individus dont la contribution à la formation de la première composante
principale est supérieure à la moyenne ? Pour chacun d'eux, préciser le signe de la coordonnée
correspondante.

Page | 79
b) Même question pour la deuxième composante principale.

5) Etude du nuage des variables


a) La représentation graphique des variables montre qu'elles sont toutes très bien
représentées dans le plan (CP1, CP2). Justifier cette affirmation.
b) Quelles sont les variables qui sont corrélées positivement avec le premier facteur principal ?
Quelles sont celles qui sont corrélées négativement ? Comment peut-on caractériser cet axe par rapport
aux variables de départ ?
c)Quelles sont les variables qui ont joué un rôle dominant dans la formation du deuxième axe.
En utilisant les scores centrés-réduits des individus, on a obtenu le graphique suivant :

1) Quelle est la méthode dont les résultats sont représentés à l'aide de graphiques de ce type ?
L'examen de ce graphique suggère de réaliser une partition des sujets soit en deux classes, soit en
quatre classes. Justifier.
On retient finalement la partition en 4 classes.
Comment peut-on décrire les positions des 4 classes précédentes sur le graphique de l'ACP ?

Page | 80
On sait que la définition d'une hiérarchie de classes, avec l'indice d'agrégation correspondant, permet de
définir sur les individus une distance dite ultra métrique. Evaluer à partir du graphique la distance ultra
métrique séparant le sujet I15 et le sujet I6.

CORRIGÉ FICHE DE TD CHAPITRE 3 : ANALYSE FACTORIELLE

Exercice 1 : Vrai ou Faux.


1. Vrai.
Plus les variables sont corrélées entre elles, plus il est facile de les résumer par un petit nombre de
variables synthétiques (les composantes principales) et donc plus le pourcentage d’inertie porté par les
premières composantes principales est important. Ce pourcentage est la somme des carrés des coefficients
de corrélation entre la composante et les variables initiales.

2. Vrai.
Les individus ayant les mêmes poids, les individus très éloignés du centre de gravité du nuage contribuent
à une part importante de la variabilité (=de l’inertie). Ils "attirent" donc les axes puisque ces derniers ont
pour propriété de représenter au mieux l’inertie du nuage.

3. Vrai.
La variance des coordonnées correspond à l’inertie, et les axes sont classés par inertie décroissante ; la
variance des coordonnées sur le premier axe factoriel est donc plus élevée que la variance des
coordonnées sur le second axe.

4. Faux.
Il faut que les deux variables soient superposées mais aussi qu’elles soient bien projetées (pointes des
flèches proches du cercle des corrélations) pour qu’en puisse en déduire qu’elles sont corrélées entre elles
(notons que deux variables peuvent être mal projetées et étroitement corrélées).

5. Faux.
Un individu très proche du centre de gravité a des valeurs proches de la moyenne pour chacune des
variables.

Page | 81
Exercice 2 :
1) Que remarquez-vous ?
Réponse. Grande homogénéité des 4 variables : même ordre de grandeur pour la moyenne, les écarts-
types, les minima et les maxima

2) Que remarquez-vous ?
Réponse. Toutes les corrélations linéaires sont positives, ce qui signifie que toutes les variables varient
(en moyenne) dans le même sens

3) Quelle est la relation entre 𝜆𝑖 est la variance de 𝐶𝑖 ?


Réponse :
𝑉𝑎𝑟(𝐶𝑖 ) = 𝜆𝑖 , 𝑜ù 𝜆𝑖 est une valeur propre de la Matrice Variance-Covariance

4) Comment interpréter la relation suivante qui relié la variance des variables initiales Xi avec celle des
composantes principales Ci ?
Réponse :
Le nuage de points en dimension 4 est toujours le même et sa dispersion globale n’a pas changée. C’est
la répartition de cette dispersion, selon les nouvelles variables que sont les facteurs, ou composantes
principales, qui se trouvent modifiée :

5) Comment interprétez-vous ces résultats ?


Réponse :
On notera que les deux dernières colonnes ne seront pas utilisées puisqu’on ne retient que deux
dimensions pour interpréter l’analyse

Interprétation.
On voit que le premier facteur est corrélé positivement, et assez fortement, avec chacune des 4 variables
initiales : plus un élève obtient de bonnes notes dans chacune des 4 disciplines, plus il a un score élevé
sur l’axe 1 ; réciproquement, plus ses notes sont mauvaises, plus son score est négatif.
 L’axe 1 représente donc, en quelques sortes, le résultat global (dans l’ensemble des 4 disciplines
considérées) des élèves.
 L’axe 2, il oppose, d’une part, le français et l’anglais (corrélations positives), d’autre part, les
mathématiques et la physique (corrélations négatives). Il s’agit donc d’un axe d’opposition entre

Page | 82
disciplines littéraires et disciplines scientifiques, surtout marqué par l’opposition entre le français
et les mathématiques.
Cette interprétation peut être précisée avec graphiques et tableaux relatifs aux individus. Ce que nous
donnons ci-dessous

6) Interpréter les résultats obtenus sur les individus.


Interprétation.
On confirme que : l’axe 1 représente le résultat d’ensemble des élèves :
 si on prend leur score - ou coordonnée- sur l’axe 1, on obtient le même classement que si on prend
leur moyenne générale.
 L’élève "le plus haut" sur le graphique, celui qui a la coordonnée la plus élevée sur l’axe 2, est
Pierre dont les résultats sont les plus contrastés en faveur des disciplines littéraires (14 et 11.5
contre 7 et 5.5). C’est exactement le contraire pour André qui obtient la moyenne dans les
disciplines scientifiques (11 et 10) mais des résultats très faibles dans les disciplines littéraires (7
et 5.5).
 Monique et Alain ont un score voisin de 0 sur l’axe 2 car ils ont des résultats très homogènes dans
les 4 disciplines (mais à des niveaux très distincts, ce qu’a déjà révélé l’axe 1).

L’axe 2 oppose bien les "littéraires" (en haut) aux "scientifiques" (en bas).
 Les 3 colonnes du tableau ci-dessus fournissent des contributions des individus à diverses
dispersions :
 cont1 et cont2 donnent les contributions (en pourcentages) des individus à la variance selon les
axes 1 et 2 (rappelons que l’on utilise ici la variance pour mesurer la dispersion) ;
 Contg donne les contributions générales, c’est-à-dire à la dispersion en dimension 4 (il s’agit de
ce que l’on appelle l’inertie du nuage des élèves.

Ces contributions sont fournies en pourcentages (chaque colonne somme à 100) et permettent de repérer
les individus les plus importants au niveau de chaque axe. Elles servent en général à affiner
l’interprétation des résultats de l’analyse. Ainsi, par exemple, la variance de l’axe 1 vaut 28.23 (première
valeur propre). On peut la retrouver en utilisant la formule de définition de la variance :

Page | 83
La coordonnée de Jean (le premier individu du fichier) sur l’axe 1 vaut c11 = −8.61 ; sa contribution est
donc :

A lui seul, cet individu représente près de 30% de la variance : il est prépondérant (au même titre que
Monique) dans la définition de l’axe 1 ; cela provient du fait qu’il a le résultat le plus faible, Monique
ayant, à l’opposé, le résultat le meilleur.
 Les 2 dernières colonnes du tableau sont des cosinus carrés qui fournissent la qualité de la
représentation de chaque individu sur chaque axe. Ces quantités s’additionnent axe par axe, de
sorte que, en dimension 2, Evelyne est représentée à 98% (0.25 + 0.73), tandis que les 8 autres
individus le sont à 100%.

Exercice 3:
1) Ce sont les variables représentées par des points proches du cercle des corrélations et proches de l’axe
1. Ici : V5, V6 et V7
2) Ce sont les variables représentées par des points trop éloignés du cercle des corrélations (proches de
0). Ici : V2 et V3.
3) Les variables représentées par des points proches du cercle des corrélations et proches entre elles sont
fortement corrélées positivement.
On distingue 3 groupes :
Groupe 1 : V5 et V7 ;
Groupe 2 : V1 et V9 ;
Groupe 3 : V4, V8 et V10.
4) Deux variables représentées par des points proches du cercle des corrélations et formant avec 0 un
angle droit (ou presque droit) ne sont pas corrélées entre elles (ou sont peu corrélées entre elles).
On peut citer ici :
V7 et V8, V7 et V10 ; V7 et V4 ; V7 et V9 ; V5 et V9 ; V6 et V1 ; V6 et V10, etc.

Page | 84
5) Deux variables représentées par des points proches du cercle des corrélations et formant avec 0 un
angle plat (ou presque plat) sont fortement corrélées négativement entre elles. On observe ici que les
variables fortement corrélées négativement avec V4 sont V1 et V9.
6) Ce coefficient est égal à l’abscisse (coordonnée sur l’axe 1) du point représentant V1. Il vaut environ
−0, 33.
7) La variable V9 convient puisqu’elle est représentée par un point dont la coordonnée sur l’axe 2 vaut
presque 1.
8) On sait que les composantes principales sont toutes non corrélées deux à deux, le coefficient de
corrélation entre la première et la deuxième est donc nul.

Exercice 4
1) Etude du tableau des valeurs propres
a) A quoi correspond la somme des valeurs propres ?
La somme des valeurs propres est égale à 6. Dans le cas d'une ACP normée telle que celle qui est effectuée
ici, cette somme est égale au nombre de variables. Cette valeur correspond également à la variance du
nuage des individus.

b) On choisit de n'étudier que les deux premières composantes principales. Justifier ce choix en analysant
le tableau des valeurs propres.
On peut choisir de ne s'intéresser qu'aux valeurs propres dont la contribution à la variance est supérieure
à la moyenne. Ceci revient à étudier les composantes principales correspondant à des valeurs propres
supérieures à 1. Or, seules les deux premières valeurs propres vérifient cette propriété sur l'exemple
fourni.

2) Etude du tableau des corrélations


a) Quels sont les subtests les plus fortement corrélés entre eux ?
Les corrélations les plus fortes sont celles correspondant aux coefficients de corrélation les plus proches
de 1 ou -1. Ici, le coefficient de corrélation dont la valeur absolue est la plus proche de 1 est celui qui
relie CUB et CAL.

b) Comment s'organisent les signes "+" et les signes "-" dans le tableau des coefficients de corrélation.
Commenter.

Page | 85
La plupart des coefficients de corrélation sont positifs. Autrement dit, un bon résultat à un test est, en
règle général, lié à de bons résultats aux autres tests. On note toutefois une exception remarquable : la
variable MEM (mémoire immédiate des chiffres) est corrélée négativement à 3 autres variables : CUB,
PUZ et CAL. Mais ce sont les seuls coefficients négatifs du tableau.

3) Etude des qualités de représentation dans le premier plan principal


Quel est l'individu le moins bien représenté par le premier plan principal ? Quel est l'individu le mieux
représenté ?
Les qualités de représentation des individus dans le premier plan factoriel sont obtenues en additionnant
les résultats des deux colonnes "Cos 2 " du tableau relatif aux individus. Le sujet le mieux représenté est
I1, avec une qualité de représentation de 0,9885, le plus mal représenté est I15, avec une qualité de
0,2615.

4) Etude du nuage des individus.


a) Quels sont les individus dont la contribution à la formation de la première composante principale est
supérieure à la moyenne ? Pour chacun d'eux, préciser le signe de la coordonnée correspondante.
Les individus envisagés ici sont ceux dont la contribution est supérieure à 6,67%. Ce sont les individus
suivants :

Caractériser cet axe en termes d'opposition entre individus.


Cet axe oppose les individus I4, I1, I7 et I5 d'une part aux individus I9, I10 et I14 d'autre part.
Les sujets du premier groupe obtiennent des scores généralement plus élevés que ceux du 2è groupe,
particulièrement sur les variables CUB, PUZ et CAL.

Page | 86
b) Même question pour la deuxième composante principale.

Cet axe oppose les individus I8 et I4 d'une part aux individus I1 et I11 d'autre part. On peut noter que
l'individu I1 explique à lui seul plus du tiers de la variance de cet axe.

5) Etude du nuage des variables


a) La représentation graphique des variables montre qu'elles sont toutes très bien représentées dans le
plan (CP1, CP2). Justifier cette affirmation.
Les extrémités des vecteurs représentant les variables sont toutes très proches du cercle des corrélations,
ce qui montre que les qualités de représentation des variables sont satisfaisantes.
D'autre part la dernière colonne du tableau des résultats relatifs aux variables montre que la variable la
plus mal représentée est MEM, avec une qualité qui atteint quand même 0,8816.

b) Quelles sont les variables qui sont corrélées positivement avec le premier facteur principal ?
Quelles sont celles qui sont corrélées négativement ? Comment peut-on caractériser cet axe par rapport
aux variables de départ ?
Les corrélations peuvent être lues sur le dessin ou sur le tableau des saturations. Seule la variable MEM
est corrélée positivement avec le premier axe, toutes les autres sont corrélées négativement. Ainsi, cet
axe oppose le résultat au test MEM à tous les autres tests.

c) Quelles sont les variables qui ont joué un rôle dominant dans la formation du deuxième axe.
Les corrélations les plus fortes sont observées pour les variables MEM, COM et VOC. Ces variables sont
toutes trois corrélées négativement avec la variable CP2.

6)
a) Quelle est la méthode dont les résultats sont représentés à l'aide de graphiques de ce type ?
Il s'agit ici d'une classification ascendante hiérarchique.

b) L'examen de ce graphique suggère de réaliser une partition des sujets soit en deux classes, soit en
quatre classes. Justifier.

Page | 87
On observe un saut brutal de l'indice d'agrégation lors de la formation de la dernière classe. Le passage
de 3 à 2 classes se fait avec des indices d'agrégation peu différents. En revanche, on avait également une
forte progression de l'un indice d'agrégation lors du passage de 4 à 3 classes.

c) On retient finalement la partition en 4 classes.


Décrire en extension chacune des classes de la partition.
Classe I : I1, I2, I5, I12
Classe II : I4, I7
Classe III : I3, I13, I8, I14, I15
Classe IV : I6, I10, I9, I11

d) Comment peut-on décrire les positions des 4 classes précédentes sur le graphique de l'ACP ?
Les classes correspondent approximativement aux 4 quadrants définis par les deux premières variables
principales. Ainsi :
La classe I correspond à CP1 < 0 et CP2 > 0
La classe II correspond à CP1 < 0 et CP2 < 0, mais ne contient pas I13. Il vaudrait mieux la décrire par :
CP1 < -1, CP2 < -1
La classe III correspond à CP1 > -1, CP2 < 0
La classe IV correspond à CP1 >0 et CP2 > 0.

e) On sait que la définition d'une hiérarchie de classes, avec l'indice d'agrégation correspondant,permet
de définir sur les individus une distance dite ultramétrique. Evaluer à partir du graphique la distance
ultramétrique séparant le sujet I15 et le sujet I6.
La distance ultramétrique associée à une CAH est obtenue en considérant, pour chaque couple d'objets,
la plus petite classe les contenant et en notant l'indice d'agrégation correspondant. Pour les objets I15 et
I6, la classe correspondante est l'avant-dernière, avec un indice d'agrégation proche de 24 (valeur lue sur
le graphique).

Page | 88
FICHE DE TD : CHAPITRE 4 : LES ARBRES DE DECISON
Exercice 1:

1. Définir entropie et calculer le.


2. Définir entropie résiduelle pour l’attribut A et calculer l’entropie résiduelle pour chaque attribut
(Emplacement, Type de maison, Revenu, client antérieur)
3. Construire l’arbre de décision et l’élaguer

Exercice 2:
Soit le tableau suivant:

Page | 89
1. Calculer l’entropie de l’ensemble d’exemples par rapport à la valeur de la classe.
2. Quel le gain de l’attribut a2.

CORRIGÉ CHAPITRE 4 : LES ARBRES DE DECISON


Exercice 1:
1. Entropie : Quantité moyenne d’information pour classifier un objet.

Calcul de l’entropie :

2. Entropie résiduelle pour l’attribut A:

où v sont les valeurs possibles de l'attribut A.

Calcul de l’entropie résiduel pour l’attribue emplacement :

3. Construction de l’arbre de décision

NB : À chaque nœud, choisir l'attribut de gain (i.e I-Ires) maximal et arrêter quand l'entropie
est nulle

Exercice 2 :

1. En appliquant :

, nous avons 3 exemples positifs et trois négatifs donc I(n,p) = 1

Page | 90
2. En appliquant :

où T est un test sur l’attribut a2 on aura :

Par conséquent, le gain est égal à 0.

TRAVAUX PRATIQUE SUR L’ACM ET CAH

Ici, nous allons appliquer la CAH sur un ensemble de données dans l´optique de les classer. Nous
utiliserons le langage R et ainsi le logiciel R ou R studio. Pour des personnes ne pouvant installer ces
environnements, pas de panique! Plusieurs plateformes en ligne permettent d’exécuter du code R. Dans
le cadre de ce TP, nous ferons usage de la plateforme Datacamp.

1. Création du compte DataCamp et mise en place de l ´environnement

➢ Allez à l´adresse https://www.datacamp.com/users/sign_up et créez votre compte. Ceux ayant des


comptes Google pourront également en faire l´usage.
➢ En suite allez à l´adresse https://app.datacamp.com/workspace/dashboard
➢ Cliquez sur Create Workspace, puis donner un nom et choisissez comme langage R.

➢ Validez et l´environnement est configuré.

2. Création du compte DataCamp et mise en place de l’environnement

Tout d´abord, nous disposons d´un ensemble d´un échantillon de 2000 personnes récolté en
l´année 2003 pensant une étude en France.Il est disponible à l´adresse
https://juba.github.io/questionr/reference/hdv2003.html. Chacune des personnes est caractérisée par 20
attribut en occurrence le sexe, l´age et le niveau d´étude (nivetud), …
L´on désire dans le cadre de ce TP, savoir comment classer ces différentes personnes. Ce qui
pourrait permettre de faire une corrélation entre l´age, le sexe et le niveau d´étude, etc de ces personnes.
Dans la suite nous allons suivre le notebook que nous avons rédigé à l´effet.
https://app.datacamp.com/workspace/w/2b59fb08-8f8e-47a5-895e-a712efba34bb

Page | 91

Vous aimerez peut-être aussi