Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
Année académique
2021/2022
TABLE DE MATIERES
I
1. Analyse factorielle par correspondances (AFC) ..................................................................... 24
2. L’analyse factorielle par correspondances multiple (ACM ou AFCM) .................................. 25
3. L’analyse factorielle discriminante (AFD) ............................................................................. 26
4. Les techniques de l’ACP (Analyse par composantes Principales) .......................................... 27
a. Les étapes ............................................................................................................................ 28
1) Examen de la matrice des composantes (sans rotation) ........................................... 31
2) Examen de la matrice des composantes après rotation ........................................... 32
3) Identification du poids le plus élevé pour chaque variable ..................................... 33
4) Étiqueter les facteurs ................................................................................................... 33
b. Exemple d’application ........................................................................................................ 34
c. UTILITE DE L’ACP .......................................................................................................... 41
c.1. Avantage et inconvénients........................................................................................... 41
c.2. Inconvénients de l’usage de l’ACP............................................................................. 41
c.3. Domaines d’application .............................................................................................. 42
c.3.1. Compression d’images ......................................................................................... 42
c.3.2. Analyse de série d’images .................................................................................... 44
c.3.3. Analyse d'images multi spectrales....................................................................... 45
c.3.4. Évolution de la topographie ................................................................................. 45
c.3.5. Apprentissage automatique .................................................................................... 45
Chapitre 4 : MODELISATION SUPERVISE: Les arbres de décision ................................................... 46
I. Arbres de décision/classification/régression ............................................................................... 46
1. Construction d’un premier arbre par séparation itérative des nœuds .......................................... 46
2. Elagage ........................................................................................................................................ 48
II. Forêts aléatoires .............................................................................................................................. 48
1. Principe ....................................................................................................................................... 48
2. Erreur out-of-bag......................................................................................................................... 49
3. Importance des variables ............................................................................................................. 49
4. Conclusion .................................................................................................................................. 50
III. CLASSIFICATION PAR ARBRE DE DÉCISION ............................................................... 50
1- CONSTRUCTION DE L’ARBRE DE DÉCISION ............................................................... 51
a) Méthodes ................................................................................................................................. 51
b) Cas des arbres de classification .............................................................................................. 51
c) Cas des arbres de régression ................................................................................................... 52
2. Avantages et inconvénients de la méthode ............................................................................. 52
a. Avantages ............................................................................................................................ 52
b. Inconvénients ...................................................................................................................... 53
II
CONCLUSION ....................................................................................................................................... 55
REFERENCES........................................................................................................................................ 56
BIBLIOGRAPHIE .............................................................................................................................. 56
WEBOGRAPHIE................................................................................................................................ 56
FICHE DE TD CHAPITRE 2 : CLASSIFICATION AUTOMATIQUE ................................................ 57
Série d’exercices 1 .............................................................................................................................. 57
Série d’exercice 2 ................................................................................................................................ 57
CORRECTION DES EXERCICES CHAPITRE 2: CLASSIFICATION AUTOMATIQUE ............... 58
SERIE 1............................................................................................................................................... 58
SERIE 2............................................................................................................................................... 64
FICHE DE TD CHAPITRE 3 : ANALYSE FACTORIELLE ................................................................ 71
CORRIGÉ FICHE DE TD CHAPITRE 3 : ANALYSE FACTORIELLE .............................................. 81
FICHE DE TD : CHAPITRE 4 : LES ARBRES DE DECISON............................................................ 89
CORRIGÉ CHAPITRE 4 : LES ARBRES DE DECISON .................................................................... 90
TRAVAUX PRATIQUE SUR L’ACM ET CAH .................................................................................... 91
1. Création du compte DataCamp et mise en place de l ´environnement ....................................... 91
2. Création du compte DataCamp et mise en place de l’environnement ....................................... 91
III
INTRODUCTION
Depuis les années 50, les chercheurs essaient de mettre sur pied le fonctionnement du cerveau
humain dans une machine ou alors de le traduire en fonctions mathématiques ou en algorithme. Bien plus
loin, améliorer certaines tâches qui pas évidentes à faire par un humain, à l’aide de la puissance et la
rapidité des ordinateurs que l’on dispose aujourd’hui : c’est l’intelligence artificielle qui immerge
réellement en 1957 lorsque FRANK ROSENBLATT découvre le perceptron. De là, une pléthore de
recherches émerge en occurrence dans la classification qui très naturelle chez l´humain, consiste à ranger
un ensembles d´éléments dans des groupes ou classes dépendant des caractères qui les rapprochent.
Nombreux sont les logiciels ou programmes qui l´implémente déjà et ces derniers trouvent des
applications très impressionnantes dans la vie quotidienne et dans plusieurs domaines spécifiques à
l´instar de la reconnaissance faciale et certaines prédictions. Ceci dit, quel est le mécanisme de
classification derrière ces algorithmes ? C’est ce dont nous expliciterons dans un premier chapitre en
s’attardant sur la classification non supervisée ou automatique où l’on ne connaît pas au préalable les
classes qui pourront exister. Par la suite encore, l´on présentera dans un second chapitre : l’analyse
factorielles qui elle, vient simuler et aiguiser le caractère humain à établir des règles de corrélations entre
plusieurs éléments dépendant de leurs caractéristiques. Et enfin dans un dernier chapitre, nous mettrons
en lumière l´utilisation des arbres de décisions dans la classification supervisée (où l’on connaît
à l’avance les différentes classes des éléments), ceux-ci illustrant d´une manière plus précise et
intrinsèque le fonctionnement du cerveau humain :la construction et transmission des informations et
raisonnements entre les neurones à l’aide de la back propagation.
Page | 1
Chapitre 2 : MODELISATION NON-SUPERVISEE : Classification automatique
I- GENERALITES
La classification non supervisée désigne un corpus de méthodes ayant pour objectif de dresser ou
de retrouver une typologie existante caractérisant un ensemble de 𝑛 observations, à partir de 𝑝
caractéristiques mesurées sur chacune des observations. Par typologie, on entend que les observations,
bien que collectées lors d’une même expérience, ne sont pas toutes issues de la même population
homogène, mais plutôt de K populations. Deux exemples peuvent être considérés :
L’ensemble des clients d’une banque est une collection de 𝑛 observations, chacune de ces
observations étant caractérisée par la nature des 𝑝 transactions bancaires qu’elle réalise. Il existe
certainement différents K ”profils types” de clients. L’objectif est alors d’une part de retrouver
ces profils types à partir de l’information sur les transactions bancaires, et d’autre part de
déterminer pour chaque observation, à quel profil type elle correspond.
Une cohorte de patients représente un ensemble de 𝑛 observations, chacune décrite par 𝑝 mesures
physiologiques. Bien qu’ayant tous la même pathologie, ces patients n’ont pas tous le même
historique médical. On souhaite donc dans un premier temps établir une typologie de ces patients
en K groupes selon leurs caractéristiques physiologiques. Dans un deuxième temps, on
étudiera si la réponse au traitement diffère pour des patients issus de groupes différents.
Comme le montrent ces deux exemples, la classification peut être un objectif en soi (exemple 1), ou ne
représenter qu’une étape de l’analyse statistique (exemple 2). En classification non supervisée,
l’appartenance des observations à l’une des K populations n’est pas connue d’avance. C’est justement
cette appartenance qu’il s’agit de retrouver à partir des 𝑝 descripteurs disponibles.
C’est ainsi qu’intervient la classification automatique (cluster analysis ou clustering en anglais) qui a
pour but de chercher à répartir un ensemble donné de 𝑛 observations en groupes (catégories, classes,
taxons, clusters) de façon à regrouper les observations similaires et à séparer les observations
dissimilaires.
1-DEFINITION ET PRINCIPES
La classification est la plus répandue des techniques descriptives. Il existe de très nombreux
algorithmes de classification. L’objectif de celle-ci est de distinguer des sous-ensembles (ou classes)
Page | 2
distincts dans la population de départ. Rappelons qu’elle se distingue du classement par le fait que les
critères de classification ne sont pas connus a priori (avant étude de la population). C’est la population
qui détermine les critères.
La classification est le plus souvent un préalable à d’autres opérations de data mining. Elle permet
de limiter le nombre de variables par sous-ensemble. Les variables très discriminantes ou trop peu
discriminantes peuvent être éliminées.
La classification permet de rechercher des corrélations propres à chaque classe et donc plus
précises. Attention : il n’existe pas une solution unique au problème de la classification. Autrement dit,
il n’y a pas « LA » bonne classification, mais plusieurs classifications possibles.
2- Groupe de classification
a- Classification binaire
La classification binaire (ou la classification binomiale) est une transformation de données qui
vise à répartir les membres d'un ensemble dans deux groupes disjoints selon que l'élément possède ou
non une propriété/fonctionnalité donnée. Dans ce cas, le cardinal de l’ensemble Y trouvé est 2.
b- Classification multi-classe
Le clustering consiste à former des groupes homogènes à l’intérieur d’une population. Plus
formellement, étant donné un ensemble de points chacun ayant un ensemble d’attributs et une mesure
de similarité définie sur eux, le clustering consiste à trouver des groupes tels que les points à l’intérieur
d’un même groupe sont très similaires entre eux et les points appartenant à des groupes différents sont
très dissimilaires. Ainsi, le choix de la mesure de similarité est important. Nous en distinguons
Page | 3
plusieurs mesure de similarite que nous présenterons au fur et à mesure dans les sections suivantes, il
s´agit notamment:
Le lien complet ou méthode du voisin le plus distant qui utilise également la distance
euclidienne.
La méthode du centroide.
La méthode de la médiane
La méthode flexible
Le critère de Ward permettant d´affiner les ressemblances entre les partitions obtenues
et qui viendra améliorer le choix du nombre de classe issue du dendogramme de la CAH
(Classification Ascendante Hierarchique).
Page | 4
employé dans le domaine du marketing, la communication, les sciences politiques et la
recherche.
Web mining: Il désigne l’ensemble des techniques visant à explorer, traiter et analyser les
grandes masses d’informations liées à une activité web.
Il existe plusieurs familles de méthodes de classification non supervisée. Les plus communes sont:
la classification hiérarchique;
la classification non hiérarchique, par exemple la méthode des k-moyennes (k-means);
la classification basée sur une densité (DBSCAN);
la classification basée sur des modèles statistiques/probabilistes, par exemple un mélange de
lois normales.
a. Principe
Il s’agit de regrouper itérativement les individus, en commençant par le bas (les deux plus proches
la plus part du temps) et en construisant progressivement un arbre, ou dendrogramme, regroupant
finalement tous les individus en une seule classe, à la racine. Ceci suppose de savoir calculer, à chaque
étape ou regroupement, la distance entre un individu et un groupe ainsi que celle entre deux groupes. Ceci
Page | 5
nécessite donc, pour l’utilisateur de cette méthode, de faire un choix supplémentaire : comment définir
la distance entre deux groupes connaissant celles de tous les couples d’individus entre ces deux
groupes. Différents choix, appelés saut en français et linkage en anglais, sont détaillés plus loin. Le
nombre de classes est déterminé a posteriori, à la vue du dendrogramme ou d’un graphique représentant
la décroissance de la hauteur de chaque saut, ou écart de distance, opéré à chaque regroupement.
b. Dissimilarité et similarité
Pour définir l’homogénéité d’un groupe d’observations, il est nécessaire de mesurer la
ressemblance entre deux observations.
Dissimilarité : une fonction de dissimilarité est une fonction d qui a tout couple (x1, x2) associe une
valeur dans R+ telle que :
𝑑(𝑥1 , 𝑥2 ) = 𝑑(𝑥2 , 𝑥1 ) ≥ 0
𝑑(𝑥1 , 𝑥2 ) = 0 ⇒ 𝑥1 = 𝑥2
Similarité : une fonction de similarité est une fonction s qui a tout couple (𝑥1 ,𝑥2 ) associe une valeur
dans R+ telle que :
𝑠(𝑥1 , 𝑥2 ) = 𝑠(𝑥2 , 𝑥1 ) ≥ 0,
𝑠(𝑥1 , 𝑥1 ) ≥ 𝑠(𝑥1 , 𝑥2 )
Les notions de rapprochement des individus ou classes ici dépendent des méthodes énumérées plus
haut :
Page | 6
Figure 2: Saut mimimum ou lien
simple
Si on travaille plutôt avec des indices de similarité, on pose 𝑑(𝐴, 𝐵) = 𝑚𝑖𝑛{𝑠𝑖𝑗 ; 𝑖 ∈ 𝐴, 𝑗𝜖𝐵}
De manière plus rigoureuse, 𝑑(𝐴, 𝐵) = min{𝑑𝑖𝑗 ; 𝑖 ∈ 𝐴, 𝑗𝜖𝐵} si l’on veut évaluer la distance entre deux
groupes A et B. Si on travaille plutôt avec des indices de similarité, on pose
La distance entre deux groupes se définit comme suit pour cette méthode:
1
𝑑(𝐴, 𝐵) = 𝑛𝐴𝑛𝐵 ∑𝑖𝜖𝐴 ∑𝑗𝜖𝐵 𝑑(𝑥𝑖 , 𝑥𝑗 )
Page | 7
Où nA est le nombre d’observations dans le groupe A et nB est le nombre d’observations dans le
groupe B.
On doit donc calculer les nA×nB distances possibles entre les points des deux groupes, ensuite on
prend la moyenne de ces distances comme étant celle qui sépare les deux groupes. La méthode de la
moyenne forme des groupes de faible variance et de même variance.
Méthode du centroïde
La distance entre deux groupes se définit comme suit pour cette méthode:
où
La moyenne 𝑋𝐴𝐵 du nouveau groupe résultant de la fusion des groupes A et B se calcule comme suit:
Méthode de la médiane
À une étape donnée, nous avons toujours à notre disposition la distance entre les groupes déjà
formés. On fusionne les deux groupes les plus similaires, disons A et B pour obtenir un groupe AB.
Avec la méthode de la médiane, la distance entre le nouveau groupe AB et tout autre groupe C est
donnée par
Méthode de Ward
La méthode de Ward est une variante de la méthode du centroïde pour tenir compte de la taille
des groupes. Elle a été conçue de sorte à être optimale si les n vecteurs x1,…,xn suivent des lois
Page | 8
normales multi variées de K moyennes différentes, mais toutes de même matrice de variance-
covariance.
Elle est basée sur les sommes de carrés suivantes:
L’exécution d’un tel algorithme ne donne pas une seule partition, mais n partitions : une partition
avec un groupe, une partition avec deux groupes, …, une partition avec n groupes. Nous verrons plus
tard comment résumer de façon visuelle le résultat d’une classification hiérarchique à l’aide d’un
graphique en forme d’arbre appelé dendogramme. Nous verrons aussi des critères qui peuvent aider
à choisir l’une parmi les n partitions proposées par l’algorithme (le critère de Ward par exemple).
Page | 9
Au départ, toutes les observations sont dans un seul et même groupe de n observations.
À chaque étape, on divise le groupe le moins homogène en deux groupes.
À la fin, après n étapes, chaque observation est son propre groupe, c’est-à-dire qu’on ob-
tient n groupes contenant une seule observation.
Cette méthode n´est pas beaucoup utilisé en pratique car celle-ci demande en vue de séparer les indi-
vidus d´étudier chacune de leurs caractéristiques et possibilités à chaque étape ce qui demande exces-
sivement de computationnel.
Au départ chaque observation est son propre groupe, c’est-à-dire qu’on démarre
avec n groupes contenant chacun une seule observation ;
A chaque étape, on fusionne les deux groupes les plus similaires ;
A la fin des n étapes, on obtient un seul groupe contenant toutes les n observations
Comme les algorithmes descendants demandent beaucoup de temps de calcul (ce n’est pas tout de
déterminer quel groupe scinder en 2, mais on doit déterminer comment se découpage doit se faire) et
qu’ils sont peu utilisés en pratique, nous nous concentrerons sur les algorithmes ascendants.
Page | 10
Étape 1 :
Au départ, chacun des 5 individus est dans son propre groupe. Il s’agit de notre première partition (P1).
Elle contient n=5 groupes.
P1=({1},{2},{3},{4},{5})
Étape 2 :
On regarde quels individus sont les plus proches dans notre matrice de distance. Il s’agit des individus
1 et 2, dont la distance est de 1. On regroupe ces deux individus ensemble pour former un seul groupe.
Nous avons maintenant notre deuxième partition. Elle contient n−1=4 groupes.
P2=({1,2},{3},{4},{5})
Étape 3 :
On poursuit en cherchant les individus les plus proches qui ne sont pas déjà dans le même groupe. Il
s’agit des individus 3 et 5, dont la distance est de 2. On regroupe ces deux individus ensemble pour
former un seul groupe. Nous avons maintenant notre troisième partition. Elle contient n−2=3 groupes.
P3=({1,2},{3,5},{4})
Étape 4 :
On poursuit, toujours en cherchant les individus les plus près qui ne sont pas déjà dans le même groupe.
Il s’agit des individus 2 et 3, dont la distance est de 2.24. Puisque l’individu 2 est déjà regroupé avec
l’individu 1 et que l’individu 3 est déjà groupé avec l’individu 5, il en résulte une fusion de ces deux
groupes. Nous obtenons notre quatrième partition. Elle contient n−3=2 groupes.
P4=({1,2,3,5},{4})
Étape 5 :
On poursuit, toujours en cherchant les individus les plus près qui ne sont pas déjà dans le même groupe.
Il s’agit des individus 4 et 5, dont la distance est de 3. Puisque l’individu 5 est déjà regroupé avec les
individus 1,2 et 3, l’individu 4 est ajouté au groupe. Nous obtenons notre cinquième et dernière
partition. Elle contient n−4=1 groupes.
P5=({1,2,3,4,5})
Évidemment, nous ne voulons pas un seul groupe. Il faut donc «arrêter» l’algorithme au bon endroit
pour obtenir le nombre de groupes désirés. Par exemple, si on avait voulu deux groupes, il aurait fallu
Page | 11
arrêter à l’étape 4. Etant donc indécis dessus, la prochaine application nous y feras voir plus claire à
l´aide du dendogramme.
Ceci nous permet donc en utilisant le théorème de l´œil d´avoir un aperçu du fonctionnement de cet
algorithme. En pratique, les distances sont calculées et comparées à l´aide du repère.
Les distances en utilisant le saut minimum sont récapitulées dans le tableau le plus bas de la figure
suivante ainsi que le dendogramme associe :
Page | 12
Comment obtient-on ce dendogramme ?
Tout d´abord, nous avons sur l´axe de abscisses les différentes classes et sur l´axe des ordonnées les
distances.
Comme dans l´application précédente, l´on dispose de 8 classes chacune étant constitué d´un singleton
qui est un des points que nous avons dans le repère précédant : {A}, {B}, {C}, {D}, {E}, {F}, {G},
{H}.
Premier regroupement :L´on débute par regrouper les classes qui sont les plus proches : Ici, on peut
voir dans le tableau du premier regroupement (en rose) que la plus petite distance est celle entre les
points A et C (0.25 dans l´ellipse en rouge) l´on relie donc les deux classes à hauteur de la distance
qui les sépare:0.25.
Deuxième regroupement : L´on essaie donc de trouver les deux prochaines classes les plus proches.
Les classes {AC} et {B} sont les plus proches car si l’on se souvient bien, selon le principe du plus
proche voisin(ou saut minimum), la distance entre {A,C} et {B} est min {d(A,B),d(C,B)} = min
{0.56, 0.50} = 0.56. on regroupe donc les deux classes à la hauteur 0.50.
Ainsi de suite jusqu´à ce que l´on ait obtenu qu´une seule classe comme au regroupement 7.
Page | 13
Le dendogramme obtenu, on se pose la question combien de classes doit-on retenir ?
En appliquant le principe de regroupement selon lequel les éléments dans un classe doivent être e plus
proche que possible et ceux se trouvant dans les classes différentes le plus loin possible, nous devront
donc tracer une ligne horizontale traversant le dendrogramme au niveau du rectangle où la longueur est
la plus grande. Dans notre cas, il s´agit du rectangle du dernier regroupement. On obtient après cette
division deux classes {ABC} et {DCEFGH}, qui d´ailleurs avec le théorème de l´œil peut bien se voir
dans le repère précédant.
Cette procédure permettant de déterminer le nombre de classes n´étant pas très rigoureuse, en plus du
fait que, lorsque les données sont fortement corrélées et nombreuses(le saut minimum devient moins
efficace) nous allons utiliser la technique de Ward.
Ainsi, une partition est d´autant plus meilleure que le ratio entre inertie intra et inertie total se
rapproche de 1.
De là pour choisir le nombre de classes, l´on sélectionnera parmi toutes les partitions possibles le
partitionnement avec une meilleure variabilité intra-classe. En d´autres termes, l´on va construire le
Page | 14
diagramme présentant l´évolution de l´inertie en fonction du nombre de classes et retenir la partition
qui présente le moins de perte d´inertie.
Face à cette difficulté de choisir le nombre de classes car ceci implique beaucoup trop de temps,
l’on va introduire une nouvelle méthode basée sur celle-ci dans laquelle on se fixe le nombre de
classes : K-means.
NB : Il est important de rappeler que la méthode de Ward est bien plus précise lorsque les données sont
grandes et beaucoup liées.
Page | 15
L’on peut voir que dans l’image ci-haut, lorsque la séparation entre les données est claire (elles
ne sont pas très corrélées), on obtient le même résultat avec les deux méthodes. Par contre, lorsqu’il y a
beaucoup trop de corrélation entre les données, la méthode de Ward est plus précise car l’inertie permet
au sens mathématique de faire de bon regroupements.
Cet algorithme fut longtemps utilisé sur les grands jeux de données en raison de sa rapidité.
2.1. Principe
On suppose qu’il existe K classes distinctes. On commence par désigner K centres de classes µ1, ...,
µK parmi les individus. Ces centres peuvent être soit choisis par l’utilisateur pour leur
“représentativité”, soit désignés aléatoirement. On réalise ensuite itérativement les deux étapes
suivantes :
Pour chaque individu qui n’est pas un centre de classe, on regarde quel est le centre de classe le
plus proche. On définit ainsi K classes C1 , ..., CK , où Ci = {ensemble des points les plus
proches du centre µi } .
Page | 16
Dans chaque nouvelle classe Ci , on définit le nouveau centre de classe µi comme étant le
barycentre des points de Ci.
L’algorithme s’arrête suivant un critère d’arrêt fixé par l’utilisateur qui peut être choisi parmi
les suivants :
Soit l’algorithme a convergé, c’est-à-dire qu’entre deux itérations les classes formées restent les
mêmes,
Répéter
Etape 1 : Initialisation
Page | 17
Etape 2 : Calcul de distance
Page | 18
Etape 4: Calcul de nouveau centre
Page | 19
Etape 6 : Calcul de nouveau centre
Page | 20
Etape 8 (Final) : calcul de nouveau centre
Avantages
Il est flexible : L’algorithme K-means s’adapte aux divers changements de vos données. En cas
de souci, l’ajustement du segment de cluster permettra d’apporter rapidement des modifications
nécessaires à l’algorithme.
K-means convient à un grand nombre d’ensembles de données et est calculé beaucoup plus
rapidement que sur un plus petit nombre. Il peut également produire des clusters plus élevées.
Inconvénients
Il converge souvent vers des optimums locaux, en fonction du choix des centres initiaux.
Les centres des clusters, mis à part des centres initiaux, sont des objets inexistants puisqu’ils
correspondent à des moyennes calculées sur un sous-ensemble d’observations à chaque
itération.
Il donne des résultats médiocres pour les données qui ne sont pas linéairement séparables.
Page | 21
CHAPIITRE 3 : MODELISATION NON SUPERISEE :
METHODE FACTORIELLE
I. GENERALITE
Les analyses factorielles sont des techniques d'analyse de données très pertinentes dans la mise
en évidence des relations entre variables et, plus généralement, dans la compréhension des données à
modéliser. Considérons n observations décrites par d variables, représentées dans un tableau souvent
appelé matrice de données brutes (tableau de contingence), notée R comme celui qui suit :
Observation x1 x2 ... xd
01 ... ... ... ...
02 ... ... ... ...
... ... ... ... ...
0n ... ... ... ...
L’objectif général des méthodes d’analyse factorielle sera la recherche de facteurs permettant de
résumer, décorréler, réduire, débruiter les données. Les facteurs sont des variables dérivées des d
variables initiales, en général en nombre bien plus faible k tel que k ≪ d.
Les analyses factorielles permettent de :
Représenter les données multidimensionnelles en k dimensions pour ainsi permettre une
utilisation ultérieure.
Détecter les corrélations.
Mettre à jour des liens ou au contraire des « répulsions ».
Pour une analyse de marché, par exemple, elles assurent l’identification des segments de clientèle à partir
de variables mesurées (types de commerce habituellement utilisés, revenu, catégorie de logement...). Le
segment apparaît alors comme une dimension supplémentaire, cachée au départ mais qui sera le critère
grâce auquel le produit pourra être positionné. Les analyses factorielles conduisent aussi à identifier
facilement des valeurs aberrantes (outliers), qu'il est alors possible d'éliminer pour reconduire l'analyse.
Enfin, elles permettent d’hiérarchiser l'importance de critères éventuellement explicatifs.
Page | 22
Les analyses factorielles produisent de nouvelles variables, les « axes factoriels » qui sont des
Combinaisons linéaires des variables initiales. Les axes factoriels sont plus ou moins corrélés aux
variables initiales.
Soit le responsable d’une bibliothèque qui cherche à déterminer le profil des lecteurs. Qu’ils le
veuillent ou non, ceux-ci prendront la forme peu enviable de VECTEURS dans un espace à k
dimensions. Admettons que l’on se focalise seulement sur la dimension « sujet de l’ouvrage », on retient
(entre autres) les quatre modalités jardinage, bricolage, sport et guides de voyage. S’il existe une
séparation plus ou moins nette des lecteurs entre les deux premières catégories (jardinage, bricolage) et
les deux autres (sport et guides de voyage), la réduction de dimensionnalité se traduit par un seul axe sur
lequel (ou autour duquel dans un plan factoriel) se situent d’un côté les jardiniers et les bricoleurs et de
l’autre côté les sportifs et les voyageurs. L’interprétation de cet axe factoriel est assez facile : on peut
l’appeler « type de loisir » et il sépare les lecteurs dont les loisirs se passent essentiellement à domicile
de ceux dont les loisirs sont plus extérieurs. Bien sûr, cet axe ne sera pas extraordinairement discriminant
si de nombreux lecteurs s’adonnent à différents types de loisirs...
La force des axes factoriels est donc que non seulement ils détectent les critères qualitatifs pouvant
expliquer une diversité, mais ils les quantifient. En un mot, ils font la part des choses. Les analyses
factorielles sont souvent associées à d’autres techniques statistiques ou d'analyses de données, en
particulier les classifications (voir ACM) et la régression multiple dont les variables explicatives peuvent
être des coordonnées sur des axes factoriels.
Page | 23
Techniques d’analyse factorielle Type de variables Métrique
ACP sur les individus (normée) Continues Inverse des variances
ACP sur les variables Continues Matrice des corrélations (ou des
variances-covariances si ACP non
normée)
AFC Deux discrètes Phi2
ACM Plusieurs discrètes Phi2
Analyse factorielle discriminante Continues (analyse supervisée) Généralement Distance de
linéaire Mahalanobis
N.B: Distance de Mahalanobis : permet de mesurer la distance entre les classes en tenant compte de la
structure de covariance. Dans le cas où l'on suppose les matrices de variance intra-classe égales, la
matrice des distances est calculée en utilisant la matrice de covariance intra-classe totale.
L’analyse factorielle des correspondances, notée AFC, est une analyse destinée au traitement des
tableaux de données où les valeurs sont positives et homogènes comme les tableaux de contingence (qui
constituent la majeure partie des tableaux traités par cette méthode).
L’AFC a été introduite de façon complète dans les années 60 par JP BENZECRI. L’AFC est une
ACP. Les composantes principales sont toujours obtenues à partir de la distance entre les différents points
des nuages multidimensionnels, mais les points ont des coordonnées qui ont subis une transformation
préalable permettant de conserver une métrique identique à celle de l’ACP pour calculer ces distances.
Le but principal de l’AFC reste donc le même ; lire l’information contenue dans un espace
multidimensionnel par une réduction de la dimension de cet espace tout en conservant un maximum de
l’information contenu dans l’espace de départ.
Pour préciser la liaison existant entre les variables X et Y , on souhaite définir un modèle
statistique susceptible de fournir des paramètres dont la représentation graphique (de type biplot)
illustrera les “correspondances” entre les modalités de ces 2 variables.
Page | 24
Une autre approche, très courante dans la littérature francophone, consiste à définir l’Analyse
Factorielle des Correspondances (AFC) comme étant le résultat d’une double Analyse en Composantes
Principales • l’ACP des profils–lignes, • l’ACP des profils–colonnes, relativement à la métrique dite du
χ 2.
Remarque :
1. Toute structure d’ordre existant éventuellement sur les modalités de X ou de Y est ignorée par
l’AFC
3. Chaque modalité doit avoir été observée au moins une fois ; sinon, elle est supprimée
Page | 25
Figure 6: Table de Burt
L’analyse factorielle discriminante (AFD) ou simplement analyse discriminante est une technique
statistique à la fois prédictive (analyse discriminante linéaire – ADL) et descriptive (analyse factorielle
discriminante – AFD) qui vise à décrire, expliquer et prédire l’appartenance à des groupes prédéfinis
(classes, modalités de la variable à prédire...) d’un ensemble d’observations (individus, exemples...) à
partir dʼune série de variables prédictives (descripteurs, variables exogènes…). Cette méthode peut être
utilisée pour :
Vérifier sur un graphique à deux ou trois dimensions si les groupes auxquels appartiennent les
observations sont bien distincts,
Identifier quelles sont les caractéristiques des groupes sur la base de variables explicatives,
Prédire le groupe d'appartenance pour une nouvelle observation.
Les applications possibles de l'AFD sont très nombreuses : de l'écologie à la prévision de risque en
finance (crédit scoring).
Elle est utilisée pour déterminer les variables qui permettent de discriminer deux ou plusieurs groupes
se produisant naturellement. Par exemple, un enseignant peut souhaiter faire des études sur les variables
qui discriminent les diplômés du cycle secondaire décidant :
(1) de poursuivre vers l'université,
(2) d'intégrer une école professionnelle ou de commerce, ou
(3) d'abandonner leurs études ou leurs stages.
Page | 26
Dans cette optique, le chercheur peut collecter des données sur de nombreuses variables précédant
l'obtention du diplôme par les étudiants. Une fois le baccalauréat obtenu, la plupart des étudiants vont
naturellement rentrer dans l'une des trois catégories. L'analyse discriminante va donc permettre de savoir
quelles sont les variables qui vont permettre de prédire le mieux possible le choix ultérieur des
étudiants en matière d'éducation.
Du point de vue des calculs, l'analyse discriminante est très proche de l'analyse de variance
(ANOVA). Considérons un exemple simple: supposons que nous mesurons la taille en centimètres dans
un échantillon aléatoire de 50 hommes et de 50 femmes. Les femmes sont, en moyenne, plus petites que
les hommes, et cette différence va se refléter dans les moyennes (de la variable Taille). Par conséquent,
la variable "taille" nous permet de mieux discriminer les hommes des femmes que le simple hasard : si
une personne est grande, il s'agit plus probablement d'un homme ; en revanche, si elle est petite, il
s'agit plus vraisemblablement d'une femme.
Il est possible de généraliser ce raisonnement à des groupes et des variables moins "triviales". Par
exemple, supposons que nous ayons deux groupes de bacheliers jeunes diplômés : ceux qui choisissent
de poursuivre vers l'université après le baccalauréat et ceux qui envisagent une autre orientation. Nous
pourrions avoir demandé aux étudiants leur intention de poursuivre ou non à l'université un an avant
l'obtention de leur diplôme. Si les moyennes des deux groupes (ceux qui sont effectivement allés à
l'université et ceux qui n'y sont pas allés) sont différentes, nous pouvons alors dire que l'intention de
rejoindre l'université exprimée un an avant l'obtention du diplôme nous permet de bien discriminer entre
ceux qui sont et ceux qui ne sont pas aux portes de l'université (cette information peut être utilisée par
des conseillers d'orientation pour offrir des pistes appropriées aux étudiants respectifs).
Ainsi donc pour résumer la présentation faite jusqu'à présent, l'idée de base d'une analyse
discriminante est de déterminer si des groupes sont différents par rapport à la moyenne qu'ils
prennent sur une variable particulière, et d'utiliser cette variable pour prédire l'appartenance à
un groupe (par exemple, pour de nouvelles observations).
Les techniques d’analyse factorielle, telles que l’ACP, visent trois objectifs principaux:
1. Comprendre la structure d’un ensemble de variables (dans un questionnaire, voir quelles variables
sont associées)
Page | 27
2. Concevoir et raffiner des instruments de mesure comme les tests psychométriques (tests
permettant de déterminer les caractéristiques particulières d’un individu en se reférent à une
norme) et les questionnaires basés sur des échelles de type Likert (échelle de satisfaction )
permettant de mesurer des construits latents (qu’il est impossible de mesurer directement comme
le degré de stress ou de bonheur d’une personne).
3. Condenser l’information contenue à l’intérieur d’un grand nombre de variables (d’items d’un
questionnaire ou d’un test, par exemple) en un ensemble restreint de nouvelles dimensions
composites tout en assurant une perte minimale d’informations. On cherche donc à faire émerger
les construits ou les dimensions sous-jacentes à un ensemble de variables.
a. Les étapes
Approche exploratoire
Le chercheur n’a pas d’a priori théorique sur la structure sous-jacente des données et veut en
explorer la structure. À ce titre, on peut utiliser l’ACP pour deux motifs principaux: identifier la structure
sous-jacente des données et réduire le nombre de variables en quelques facteurs.
Approche confirmatoire
Le chercheur a certains a priori théoriques et désire confirmer une structure factorielle
documentée. Il cherche donc ici à confirmer la présence de facteurs déjà connus et décrits dans la
littérature ou par d’autres analyses.
Nombre de variables
Normalement, on effectue une ACP sur un ensemble de variables substantiel. Extraire 8 facteurs
à partir de 12 variables ne permet pas vraiment de réduire de façon intéressante le nombre de variables
originales. Il faut donc avoir un minimum de variables.
Page | 28
Type de variables
De plus, il est recommandé d’avoir des variables continues, malgré que quelques variables de
l’ensemble peuvent être dichotomiques (0 ou 1). La technique fonctionne également avec des variables
ordinales.
Taille de l’échantillon
Il est recommandé d’avoir un échantillon relativement grand pour assurer une puissance
statistique minimale. On suggère 100 sujets et plus, mais Hair et al. (1998) donnent comme règle
générale d’avoir un ratio de 10 sujets par variable insérée dans l’analyse.
Corrélations inter-items
On doit s’assurer qu’il existe des corrélations minimales entre les items ou les variables qui feront
l’objet de l’analyse. Dans le cas où les corrélations sont très faibles ou inexistantes, il sera très difficile
de faire émerger un ou des facteurs et l’ACP n’est probablement pas l’analyse à conseiller. À cet égard,
on peut créer une matrice de corrélation avec toutes les variables de l’analyse et examiner la magnitude
des coefficients.
Cette mesure donne un aperçu global de la qualité des corrélations inter-items. L’indice
KMO varie entre 0 et 1 et donne une information complémentaire à l’examen de la matrice de
corrélation. Son interprétation va comme suit:
Page | 29
Cet indice augmente 1) plus la taille de l’échantillon est grande, 2) plus les corrélations inter-items sont
élevées, 3) plus le nombre de variables est grand et 4) plus le nombre de facteurs décroît.
Cette mesure indique si la matrice de corrélation est une matrice identité à l’intérieur de laquelle
toutes les corrélations sont égales à zéro. Nous espérons que le test soit significatif (p < 0,05) pour que
nous puissions rejeter l’hypothèse nulle voulant qu’il s’agisse d’une matrice identité qui signifie que
toutes les variables sont parfaitement indépendantes les unes des autres.
Il existe deux méthodes d’extraction des facteurs qui reposent sur des considérations théoriques
spécifiques reliées aux composantes de la variance totale de l’ensemble de variables de l’analyse:
l’analyse des facteurs communs (analyse factorielle) et l’analyse en composantes principales.
L’analyse des facteurs communs (Principal axis factoring) est basée sur la variance commune partagée
par les variables analysées et est appropriée lorsque le chercheur est intéressé à découvrir la structure
latente ou les construits sous-jacents aux variables. Cependant, de nombreuses limites rendent cette
méthode difficile à appliquer dans bien des cas.
L’analyse en composantes principales (Principal component) est basée sur la variance spécifique des
variables et permet d’extraire un minimum de facteurs qui expliquent la plus grande partie possible de la
variance spécifique. C’est habituellement la méthode privilégiée.
Une fois la méthode choisie, il est possible de spécifier le nombre de facteurs que l’on désire extraire des
données. On comprendra que cette décision est pertinente dans une perspective confirmatoire et non dans
une perspective exploratoire.
La valeur dite de « eigen » (eigenvalue), traduite en français par « Valeur propre initiale », est le
critère le plus largement utilisé. Plus la valeur propre initiale est élevée, plus le facteur explique
une portion significative de la variance totale. Par convention, tout facteur avec une valeur propre
initiale supérieure à 1 est considéré comme facteur significatif.
Page | 30
Le coude de Cattell constitue un critère plus sévère pour déterminer le nombre de facteurs. Il est
possible de demander dans les options associées à l’ACP de réaliser un graphique à partir des
valeurs propres. Tous les points représentent les valeurs propres des composantes. Ils sont reliés
par une ligne. On ne retient que les facteurs qui se situent avant le changement abrupt de la pente.
Les points qui suivent ce changement, appelé rupture du coude, semblent former une ligne droite
horizontale. L’information ajoutée par les facteurs représentés par ces points est peu pertinente.
L’interprétation des facteurs ou des composantes consiste à déterminer la combinaison de variables qui
est la plus associée à chacun des facteurs significatifs. Pour ce faire, on suggère trois étapes.
Page | 31
De manière générale, le premier facteur extrait est celui qui explique le plus de variance et est
donc la meilleure combinaison possible de variables. Les autres facteurs ont moins de variance résiduelle
à expliquer. Par conséquent, Ils représentent des combinaisons de moins en moins optimales, jusqu’à
extinction de la variance à expliquer.
Bien qu’intéressante, cette matrice n’est pas la plus parlante en termes d’interprétation. Dans
presque tous les cas, il est nécessaire d’effectuer une rotation des facteurs pour simplifier la matrice
corrélationnelle entre les facteurs et les variables.
Page | 32
Le but ultime de la rotation est toujours de simplifier la lecture des poids des variables sur les
facteurs. Dans la matrice de poids, ceci signifie que dans chaque rangée, on trouve un maximum de poids
près de 0 et un minimum de poids très élevés (idéalement un seul).
Dans la pratique, on utilise très régulièrement la méthode de rotation orthogonale VARIMAX. Cette
méthode est privilégiée, entre autres, lorsque l’on désire réduire le nombre de variables d’une matrice de
données en un plus petit nombre de facteurs non corrélés entre eux et utilisés, par exemple, dans le cadre
d’une régression multiple.
Par ailleurs, si le but est d’obtenir des facteurs représentant un construit théoriquement sensé, la
rotation oblique est suggérée, car il est difficile de postuler l’orthogonalité (corrélation = 0) entre des
facteurs d’un même construit.
Ultimement, on suggère de procéder à plusieurs types de rotation pour une même factorisation et
de sélectionner celle qui semble la plus intéressante à interpréter et la plus robuste au plan conceptuel.
Cependant, il arrive fréquemment que d’autres poids sont significatifs (plus de 0,30) sur une
même ligne. Ceci complexifie le travail du chercheur qui doit considérer ces poids dans son
interprétation. L’idéal est toujours de minimiser le nombre de poids significatifs par variable. Une
variable qui a des poids significatifs sur plusieurs facteurs mérite probablement d’être exclue de la
matrice. Ceci implique que l’analyse en composantes principales devra être exécutée de nouveau sans
ces variables.
Page | 33
Le but ultime de l’ACP est de construire des échelles qui permettront de mesurer des construits
latents. Ces échelles sont obtenues en additionnant les résultats des participants à toutes les variables qui
constituent chaque facteur. Une échelle doit être comprendre au minimum trois variables.
b. Exemple d’application
Cet exemple est réalisé avec le logiciel SPSS d’analyse statistique. Dans cet exemple, nous allons
reprendre les étapes présentées dans la section précédente pour réaliser une analyse en composantes
principales. Nous utilisons la base PCA exemple qui comprend des données provenant d’une étude sur
la clientèle des centres jeunesse. Les données portent sur un questionnaire évaluant les ressources
disponibles (logement, argent, soutien social, etc.) pour les participants de l’étude. Ce questionnaire
comprend 28 items auxquels les 231 participants ont répondu à l’aide d’une échelle de type Likert. Voici
un exemple d’items du questionnaire:
Nous adoptons l’approche exploratoire, car nous n’avons pas d’idées préalables sur la structure des
données.
Nous réalisons notre analyse sur 28 variables. Nous croyons que nous serons en
Nombre de
mesure de faire émerger des construits latents et de réduire de façon intéressante le
variables
nombre de variables originales.
Type de Puisque les réponses sont basées sur une échelle de type Likert, les données sont
variables continues.
Page | 34
Étape 3: Respect des postulats
Nous nous assurons ensuite de respecter les postulats avant de procéder à l’analyse proprement dite.
Corrélations inter-items
D’abord, nous devons nous assurer que les items sont minimalement corrélés entre eux. Pour ce
faire, nous regardons la matrice de corrélation. Dans ce détail de la matrice, nous pouvons observer que
toutes les variables semblent au moins légèrement corrélées. Certaines corrélations sont plus fortes que
d’autres, nous suggérant déjà quelques associations.
L’indice KMO de 0,81 peut être qualifié d’excellent ou de méritoire. Il nous indique que les
corrélations entre les items sont de bonne qualité. Ensuite, le résultat du test de sphéricité de Bartlett est
Page | 35
significatif (p < 0,0005). Nous pouvons donc rejeter l’hypothèse nulle voulant que nos données
proviennent d’une population pour laquelle la matrice serait une matrice d’identité. Les corrélations ne
sont donc pas toutes égales à zéro. Nous pouvons donc poursuivre l’analyse.
Nous devons ensuite choisir le nombre de facteurs à extraire. Pour ce faire, nous analysons le
tableau de la variance totale expliquée. En regardant la deuxième colonne, nous constatons que neuf
facteurs (ou composantes) ont une valeur propre plus élevée que 1. Nous les conservons donc pour
l’analyse. Le premier facteur explique à lui seul 24,45 % de la variance totale des 28 variables de
l’analyse. Mis en communs, les neuf facteurs permettent d’expliquer 68,77 % de la variance. Comme les
facteurs 10 à 28 n’expliquent pas suffisamment de variance, ils ne sont pas retenus.
Page | 36
Nous désirons toutefois être certains de bien choisir le bon nombre de facteurs à extraire. Nous
regardons donc le graphique des valeurs propres et examinons où se situe la rupture du coude de Cattell.
Nous voyons un changement après le sixième facteur. Nous ne retenons donc que six facteurs pour
l’analyse, puisque ce critère est plus rigoureux que celui des valeurs propres.
Puisque nous avons retenu seulement six facteurs, nous avons refait l’analyse en spécifiant que
nous désirions conserver ce même nombre de facteur dans la boite de dialogue d’extraction. Nous
pouvons à nouveau regarder la matrice de la variance totale expliquée. En fait, la seule différence est que
SPSS ne fournit pas les détails des facteurs 7 à 9. Avec nos six facteurs, nous pouvons expliquer 57,52 %
de la variance totale.
Page | 37
Étape 5: Interprétation des facteurs
Nous voulons maintenant déterminer la combinaison de variables qui est la plus associée à chacun des
facteurs significatifs. Nous allons procéder en trois étapes.
Avant de faire la rotation, nous observons que 17 variables saturent plus fortement sur le facteur
1 et permettent par conséquent de le définir. Entre une et trois variables saturent sur les autres facteurs.
Nous observons également que certaines corrélations se ressemblent étrangement d’un facteur à l’autre.
Par exemple, la question 6 obtient une corrélation de 0,367 sur le facteur 3 et de – 0,365 sur le facteur 4.
Il est donc difficile d’établir quelles variables vont réellement avec quel facteur.
Page | 38
2. Examen de la matrice des composantes après rotation et
Afin d’obtenir une représentation factorielle plus simple, nous faisons une rotation VARIMAX.
Ce type de rotation permet de préserver l’orthogonalité (l’indépendance) entre les facteurs. Nous notons
cette fois que les variables sont beaucoup mieux réparties sur les différents facteurs. De plus, l’écart entre
les corrélations est plus élevé une fois que la rotation a été effectuée. Puisqu’au moins trois variables
saturent sur chacun des facteurs, nous pourrons les conserver pour construire des échelles.
Nous remarquons aussi que certaines variables saturent de façon importante sur plus d’un facteur.
Ceci signifie qu’il faudrait probablement retirer ces variables qui ne se positionnent pas de façon adéquate
sur un seul facteur et recommencer l’analyse. Toutefois, puisque nous ne voulons ici que vous présenter
la démarche, nous allons poursuivre l’analyse.
Page | 39
4. Étiqueter les facteurs
Nous devons maintenant nommer les facteurs et tenter d’identifier le construit latent qu’ils
permettent de mesurer. Si nous prenons, par exemple, le facteur 1, nous avons les questions suivantes:
2.
8. J’ai assez de temps pour faire les choses que j’ai envie de faire.
Page | 40
24. J’ai assez d’énergie pour mes loisirs.
Nous voyons que la notion de temps revient dans les quatre premières questions. Nous pourrions
nommer ce facteur « temps disponible ». Probablement que finalement, la dernière question va un peu
moins avec ce facteur. Il est vrai que si nous regardons sa corrélation sur le facteur 1 et sur le facteur 4,
nous constatons qu’il n’y a pas tellement de différence entre les deux: 0,618 et 0,531. En réalité, nous
espérons qu’après la rotation, il y aura au moins 0,3 points de différence entre la corrélation entre la
variable et son facteur et sa corrélation sur les autres facteurs. Par conséquent, nous pouvons penser à
éliminer cette variable de l’analyse.
c. UTILITE DE L’ACP
L’ACP ou PCA (Principal Component Analysis) en anglais trouve une grande utilité dans de
nombreux domaines.
Il débrutie les données et donc évite aux algorithmes de machine Learning d’essayer de faire
plus de liaisons et donc leur permet d’avoir un résultat optimal.
Il ne déforme pas les positions relative des points car les opérations permisses ici sont
seulement les rotations et déplacements
Les nouvelles variables obtenues après les projections et décorrélation sont indépendantes
Il est particulièrement sensible aux outliers (données aberrantes se distanciant des autres
données)
Il suppose une distribution gaussienne des données, ce qui n’est pas toujours le cas en pratique
Page | 41
Il n’est pas adapté si la nature des données est non linéaire.
Le but de la compression d'image est de stocker une image sous une forme plus compacte, c'est-
à-dire une représentation qui nécessite moins de bits pour le codage que l'image d'origine. C'est possible
pour les images car, dans leur forme « brute », elles contiennent un haut degré de données redondantes.
La plupart des images ne sont pas des collections aléatoires de transitions d'intensité arbitraires.
Chaque image que nous voyons contient une certaine forme de structure. En conséquence, il
existe une certaine corrélation entre les pixels voisins. Si l'on peut trouver une transformation réversible
qui supprime la redondance en décorrélant les données, alors une image peut être stockée plus
efficacement. La transformée de Karhunen-Loève (KLT) est la transformation linéaire qui accomplit cela.
Par ailleurs, l'analyse en Composantes Principales est usuellement utilisée comme outil de
compression linéaire. Le principe est alors de ne retenir que les n premiers vecteurs propres issus de la
diagonalisation de la matrice de corrélation (ou covariance), lorsque l'inertie du nuage projeté sur ces n
vecteurs représente qn pourcents de l'inertie du nuage original, on dit qu'on a un taux de compression de
1 - qn pourcents, ou que l'on a compressé à qn pourcents. Un taux de compression usuel est de 20 %.
Nous pouvons voir que dans l’image compressée de Lena (tire de R.D. Dony Karhunen-Loève
Transform‘The Transform and Data Compression Handbook Ed. K. R. Rao and P.C. Yip.Boca Raton,
CRC Press LLC, 2001’) ci-bas a l’aide du TKL( Transformée de Karhunen-Loève) est devenu invisible
a l’œil humain mais nécessaire pour la machine pour retrouver les autres pixels et reconstituer l’image
originale.
Page | 42
Figure 10:Image de Lena compressée par l'ACP
Figure 9:Image initale de Lena à compresser par l'ACP
les cartes auto-adaptatives (SOM ou self organizing maps en anglais) ; appelées aussi cartes de
Kohonen : Ici, la représentation des données est inspirée de la biologie et donc ou chaque
neurone se spécialise pour reconnaître un type précis de données
Il est possible d'utiliser le résultat d'une ACP pour construire une classification statistique des
variables aléatoires X1, ..., XN, en utilisant la distance suivante (C(n, n') est la corrélation
entre Xn et Xn' ):
Page | 43
c.3.2. Analyse de série d’images
L'ACP, désignée en général dans le milieu du traitement du signal et de l'analyse d'images plutôt
sous son nom de Transformée de Karhunen-Loève (TKL) est utilisée pour analyser les séries dynamiques
d'images, c'est-à-dire une succession d'images représentant la cartographie d'une grandeur physique,
comme les scintigraphies dynamiques en médecine nucléaire, qui permettent d'observer par gamma-
caméra le fonctionnement d'organes comme le cœur ou les reins.
Dans une série de P images, chaque pixel est considéré comme un point d'un espace affine de
dimension P dont les coordonnées sont la valeur du pixel pour chacune des P images au cours du
temps. Le nuage ainsi formé par tous les points de l'image peut être analysé par l'ACP, (il forme un
hyper-ellipsoïde à P dimensions) ce qui permet de déterminer ses axes principaux.
En exprimant tous les points dans le repère orthogonal à P dimensions des axes de l'ACP, on
passe ainsi de la série temporelle d'origine (les pixels représentent la valeur en fonction du temps) à une
nouvelle série (également de P images) dans l'espace de Karhunen-Loève : c'est la Transformée de
Karhunen-Loève, qui est une opération réversible : on parle de « TKL » et de « TKL inverse » ou «
TLK-1 ».
La compression est possible car l'information est contenue presque entièrement sur les premiers
axes de l'ACP. Mais la notion de « compression » sous-entend que les autres images correspondant aux
autres axes sont volontairement ignorées. La TKL étant réversible, la suppression arbitraire des axes les
moins énergétiques constitue alors un filtrage permettant de réduire le bruit temporel de la série d'images.
Concrètement, l'application de TKL + suppression des axes les moins significatifs + TKL-1 permet de
supprimer le fourmillement apparent (bruit temporel) d'une série animée d'images.
Par ailleurs, l'analyse de l'importance respective des valeurs propres de l'ACP permet d'approcher
le nombre de fonctionnements physiologiques différents. On a ainsi pu montrer que le cœur sain peut
être entièrement représenté avec 2 images (2 axes de l'ACP contiennent toute l'information utile), alors
que pour certaines pathologies l'information utile s'étale sur 3 images.
Page | 44
L’image ci-dessus a l’aide de différente considération des pixels et des vues analyses par TKL,
nous pouvons avoir beaucoup plus d’informations et ainsi permettre une meilleure analyse.
Page | 45
Chapitre 4 : MODELISATION SUPERVISE: Les arbres de décision
I. Arbres de décision/classification/régression
La difficulté réside bien entendu dans l’apprentissage de cet arbre. L’algorithme le plus couramment
utilisé est l’algorithme CART (Classification and Regression Tree) (Breiman et al., 1984).
Page | 46
Pour appliquer ce principe, un indice d’impureté 𝐼(𝑆) pour un noeud de valeurs 𝑆 et un critère de
séparation sont définis.
𝐼𝐺𝑖𝑛𝑖 (𝑆) = ∑ 𝑝𝑘 (1 − 𝑝𝑘 )
𝑘
Cet indice est un indice d’impureté, dans la mesure où il d’autant plus petit que l’une des classes est
largement majoritaire dans l’ensemble (on montre sans mal qu’il est nul si l’ensemble est pur et maximal
si toutes les classes sont équireprésentées).
𝑰(𝑺) = 𝒗𝒂𝒓(𝒀(𝑺))
où 𝑌(𝑆) désigne l’échantillon des valeurs de 𝑌 sur l’ensemble 𝑆. Plus ce critère est petit, plus les
valeurs de Y dans ce noeud sont regroupées autour de 𝑌(𝑆) et donc plus le nœud est pur.
Critère de séparation
Alternative : Une alternative à la notion d’impureté, utilisée notamment pour la régressions, est
de revenir au critère de qualité de l’apprentissage, typiquement ‖𝑌 𝑝𝑟𝑒𝑑 − 𝑌 𝑜𝑏𝑠 ‖2 . Le couple
(Variable, Seuil) choisi est alors celui qui permet la plus forte diminution de ce critère.
Page | 47
2. Elagage
Les opérations précédentes peuvent être répétées si besoin jusqu’à n’obtenir que des nœuds purs,
c’est-à-dire tels que 𝐼(𝑆) = 0 sur toutes les feuilles. On risque cependant alors de se retrouver en situation
de sur-apprentissage.
Plusieurs manières d’éviter cela ont été développées, divisées en deux familles :
early stopping ou pre-pruning : le but est d’arrêter la construction de l’arbre avant qu’il
devienne trop grand. On peut pour cela fixer un seuil non nul pour le critère d’impureté. Le
package rpart propose par exemple cette approche avec un seuil (le paramètre cp) fixé par
validation croisée.
post-pruning : on construit l’arbre total puis on ressupprime les branches n’apportant pas
d’amélioration du critère visé. L’approche early-stopping est cependant préférée en général.
Les forêts aléatoires ont été introduites pour pallier à ce désavantage (Breiman,2001). Elles font
partie de la famille des méthodes de Bagging c’est-à-dire des méthodes reposant sur la prise en compte
de plusieurs prédicteurs afin de dégager une majorité.
1. Principe
Le principe est très simple, à savoir qu’une forêt aléatoire est un ensemble d’arbres de
décision/classification/régression donnant chacun une prédiction. La prédiction finale est obtenue
Afin que les arbres de la forêt soient différents les uns des autres, de l’aléa est introduit à deux niveaux :
Page | 48
1. bootstrap des individus : chaque arbre est appris non pas sur toutes les données du jeu d’apprentissage
mais sur un échantillon bootstrap de celui-ci
2. sous-échantillonnage des variables : A chaque séparation de noeud, toutes les 𝑝 variables ne sont pas
prises en compte, mais seulement un sous-échantillon aléatoire de 𝑓(𝑝) d’entre elles. En pratique, 𝑓(𝑝) =
√𝑝 est souvent utilisé, mais 𝑓(𝑝) peut aussi être considéré comme un paramètre à régler.
2. Erreur out-of-bag
En effet, pour un échantillon de taille 𝑛 assez grand, chaque individu n’est pas dans l’échantillon
1 1
bootstrap avec probabilité (1 − 𝑛) ≈ 𝑒 ≈ 0.36. Plus d’un tiers des arbres contruits n’utilisent donc pas
l’observation 𝑥𝑖 dans leur apprentissage (On dit que i est out-of-bag) et peuvent être utilisés pour estimer
l’erreur faite sur 𝑥𝑖 .
On peut donc remplacer l’estimation par cross-validation de l’erreur sur l’individu 𝑖 par
(𝑦𝑖 𝑝𝑟𝑒𝑑 − 𝑦𝑖 𝑜𝑏𝑠 )2 où (𝑦𝑖 𝑝𝑟𝑒𝑑 ) est la prédiction faite par l’ensemble des arbres tels que 𝑖 est out-of-bag
(en prenant la classe majoritaire ou la moyenne suivant le type de prédiction).
Une mesure de l’importance des variables a également été proposée dans le cadre
des forêts aléatoires.
Considérons une variable d’intérêt V. Pour chaque arbre de la forêt, on peut considérer l’ensemble
𝒜 des individus out-of-bag. En permutant les valeurs de𝑉 parmi les individus de 𝒜, on obtient un
jeu de données dans lequel 𝑉 n’a aucun pouvoir prédictif. On peut alors mesurer l’importance de la
variable en comparant le pouvoir prédictif avant et après la permutation.
Page | 49
En considérant la perte du pourcentage de bien classés (accuracy) suite
à la permutation.
En considérant le rapport entre l’erreur quadratique après et avant la
permutation.
Plus ces indices sont grands, plus la variables est importante dans cet arbre. En les moyennant sur
l’ensemble de la forêt, on obtient un indice global d’importance des variables, qui permet de
comparer les pouvoirs prédictifs de ces dernières.
4. Conclusion
Les forêts aléatoires sont un net gain par rapport à un arbre seul en termes de stabilité,
permettent la sélection de variables grâce à la mesure d’importance et offrent souvent un meilleur
contrôle du sur-apprentissage et donc une meilleure prédiction. Tout cela se fait cependant au
détriment de l’interprétabilité de la méthode.
C'est une technique d'apprentissage supervisé : on utilise un ensemble de données pour lesquelles
on connaît la valeur de la variable-cible afin de construire l'arbre (données dites étiquetées), puis on
extrapole les résultats à l'ensemble des données de test. L’apprentissage par arbre de décision désigne
une méthode basée sur l'utilisation d'un arbre de décision comme modèle prédictif (C‘est un outil d’aide
à la décision ou d’exploration de données qui permet de représenter un ensemble de choix sous la forme
graphique d’un arbre. ). On l'utilise notamment en fouille de données et en apprentissage automatique.
Un arbre de décision est un arbre orienté dont : Les noeuds internes sont étiquetés par un test
applicable à tout individu, généralement sur un attribut de description, les arcs contiennent les résultats
du test, les feuilles sont étiquetés par une classe par défaut.
En analyse de décision, il peut être utilisé pour représenter de manière explicite les décisions réalisées et
les processus qui les amènent. En apprentissage et en fouille de données, il décrit les données mais pas
les décisions elles-mêmes, l'arbre serait utilisé comme point de départ au processus de décision.
Page | 50
Concrètement, il modélise une hiérarchie de tests pour prédire un résultat. Il existe deux principaux types
d’arbre de décision :
• Les arbres de régression (Regression Tree) permettent de prédire une quantité réelle, une valeur
numérique (par exemple, le prix d’une maison ou la durée de séjour d’un patient dans un hôpital) ;
• Les arbres de classification (Classification Tree) permettent de prédire à quelle classe la variable
de sortie appartient (cela permet par exemple de répartir une population d’individus, comme des
clients d’une entreprise en différents types de profils).
a) Méthodes
Usuellement, les algorithmes pour construire les arbres de décision sont construits en divisant
l'arbre du sommet vers les feuilles en choisissant à chaque étape une variable d'entrée qui réalise le
meilleur partage de l'ensemble d'objets, comme décrit précédemment. Pour choisir la variable de
séparation sur un nœud, les algorithmes testent les différentes variables d'entrée possibles et sélectionnent
celle qui maximise un critère donné.
Page | 51
candidat et les résultats sont combinés (par exemple, moyennés) pour produire une mesure de la qualité
de la séparation.
Il existe un grand nombre de critères de ce type, les plus utilisés sont l’entropie de Shannon,
l'indice de diversité de Gini et leurs variantes.
• Indice de diversité de Gini : utilisé par l'algorithme CART, il mesure avec quelle fréquence un
élément aléatoire de l'ensemble serait mal classé si son étiquette était choisie aléatoirement selon
la distribution des étiquettes dans le sous-ensemble. L'indice de diversité de Gini peut être calculé
en sommant la probabilité pour chaque élément d'être choisi, multipliée par la probabilité qu'il
soit mal classé. Il atteint sa valeur minimum (zéro) lorsque tous les éléments de l'ensemble sont
dans une même classe de la variable-cible. Pratiquement, si l'on suppose que la classe prend une
valeur dans l'ensemble 1,2,…,m et si fi la fraction des éléments de l'ensemble avec l'étiquette dans
l'ensemble, on aura:
• Gain d'information : utilisé par les algorithmes ID3 et C4.5, le gain d'information est basé sur le
concept d'entropie de Shannon en théorie de l'information 2. L'entropie permet de mesurer le
désordre dans un ensemble de données et est utilisée pour choisir la valeur permettant de
maximiser le gain d'information. En utilisant les mêmes notations que pour l'indice de diversité
de Gini, on obtient la formule suivante :
a. Avantages
Comparativement à d'autres méthodes de fouille de données, les arbres de décision présentent plusieurs
avantages :
Page | 52
la logique booléenne, au contraire de modèles boîte noire comme les réseaux neuronaux, dont
l'explication des résultats est difficile à comprendre.
• Le modèle peut gérer à la fois des valeurs numériques et des catégories. D'autres techniques
sont souvent spécialisées sur un certain type de variables (les réseaux neuronaux ne sont
utilisables que sur des variables numériques).
• Il est possible de valider un modèle à l'aide de tests statistiques, et ainsi de rendre compte de la
fiabilité du modèle.
• Performant sur de grands jeux de données: la méthode est relativement économique en termes
de ressources de calcul.
b. Inconvénients
En revanche, elle présente certains inconvénients :
• L'apprentissage par arbre de décision peut amener des arbres de décision très complexes, qui
généralisent mal l'ensemble d'apprentissage (il s'agit du problème de sur-apprentissage
précédemment évoqué15). On utilise des procédures d'élagage pour contourner ce problème,
certaines approches comme l'inférence conditionnelle permettent de s'en affranchir16,17.
• Certains concepts sont difficiles à exprimer à l'aide d'arbres de décision (comme XOR ou la
parité). Dans ces cas, les arbres de décision deviennent extrêmement larges. Pour résoudre ce
problème, plusieurs moyens existent, tels que la proportionnalisation18, ou l'utilisation
d'algorithmes d'apprentissage utilisant des représentations plus expressives (par exemple la
programmation logique inductive).
Page | 53
• Lorsque les données incluent des attributs ayant plusieurs niveaux, le gain d'information dans
l'arbre est biaisé en faveur de ces attributs19. Cependant, le problème de la sélection de
prédicteurs biaisés peut être contourné par des méthodes telles que l'inférence conditionnelle16.
Page | 54
CONCLUSION
Parvenu au terme de notre exposé où il était question pour nous de présenter la classification
non supervisée ou automatique où l’on ne connaît pas au préalable les classes qui pourront exister,
ensuite l’analyse factorielles qui elle, vient simuler et aiguiser le caractère humain à établir des règles
de corrélations entre plusieurs éléments dépendant de leurs caractéristiques et enfin l´utilisation des
arbres de décisions dans la classification supervisée, où l’on connaît à l’avance les différentes classes
des éléments ; il en ressort que la fouille de donnée a besoin de la construction d’un modèle arborescent
permettant de prédire la classe d’une donnée(classification non supervisée) ou d’un modèle exprimé
sous forme de règles (classification supervisée) ; ce modèle obtenu est interprétable par un humain. Est-
ce donc tous les modèle qui sont interprétables par l’Homme ?
Page | 55
REFERENCES
BIBLIOGRAPHIE
[LM] E. Lebarbier, T. Mary-Huard, Classification non supervisée.
[RDo01] R.D. Dony, Karhunen-Loève Transform, The Transform and Data Compression Handbook, Ed. K. R. Rao and
P.C. Yip.Boca Raton, CRC Press LLC, 2001
WEBOGRAPHIE
[1] http://wikistat.fr/pdf
[5] http://www2.agroparistech.fr/IMG/pdf/ClassificationNonSupervisee-AgroParisTech.pdf
[8] https://opencl(ssrooms.com › courses Découvrez les méthodes factorielles et la classification non supervisée
[15] https://eric.univ-lyon2.fr › ~riccoCours Analyse Factorielle Analyse des Correspondances Multiples (ACM ou AFCM)
- XLSTAT
[17] https://veroniquetremblay.github.io/analyse_de_donnees_et_apprentissage_statistique_en_R/
Page | 56
FICHE DE TD CHAPITRE 2 : CLASSIFICATION AUTOMATIQUE
Série d’exercices 1
Travail à faire :
1) Appliquez K-means en choisissant comme centres initiaux des 3 clusters respectivement : 8, 10
et 11. Montrez toutes les étapes de calcul.
Série d’exercice 2
Page | 57
.
Réaliser une classification par l’algorithme des centres mobiles avec pour centres initiaux :
1. 𝑐 0 de coordonnées (-1,-1) et 𝑐 0 de coordonnées (2,3).
1 2
2. 𝑐 0 de coordonnées (-1, 2) et 𝑐 0 de coordonnées (1,1).
1 2
1. Définir les termes et expressions suivante: Classification, Classification non supervisée, Clustering,
CAH, Classification binaire, Classification multi-classe.
Classification: technique qui sert à catégoriser ou classer les informations issues d’ensemble de données
dans le but d’établir des prédictions.
Classification non supervisée: désigne un corpus de méthodes ayant pour objectif de dresser ou de
retrouver une typologie existante caractérisant un ensemble de 𝑛 observations, à partir de 𝑝
caractéristiques mesurées sur chacune des observations
Clustering: méthode d’apprentissage automatique qui consiste à regrouper des points de données par
similarité ou par distance.
CAH: Classification Ascendante Hiérarchique.
Page | 58
Classification binaire: est une transformation de données qui vise à répartir les membres d'un ensemble
dans deux groupes disjoints selon que l'élément possède ou non une propriété/fonctionnalité donnée
Classification multi-classe: est un processus de répartition d'un lot de propositions entre plus de deux
ensembles.
- Text mining : Il permet d’extraire des données pour recréer de l’information à partir de corpus de textes
en les classifiant et en les analysant de manière à établir des tendances. Il est employé dans le domaine
du marketing, la communication, les sciences politiques et la recherche.
- Web mining: Il désigne l’ensemble des techniques visant à explorer, traiter et analyser les grandes
masses d’informations liées à une activité web
- Bio-informatique : gènes ressemblants
- Marketing : segmentation de la clientèle
- Web lot analysis : profils utilisateurs
3. Quelles sont les qualités d’un bon clustering? Quels sont les algorithmes de clustering?
Pour évaluer un algorithme de clustering on peut s'intéresser à :
La forme des clusters qu'il produit (sont-ils denses, bien séparés)
la stabilité de l'algorithme ;
la compatibilité des résultats avec des connaissances spécifiques au domaine, que l'on peut
évaluer à l'aide de mesures d'enrichissement.
Les algorithmes de clustering les plus courants sont le K-Means, les algorithmes de maximisation de
l'espérance (de type EM, comme les mixtures gaussiennes) et les partitions de graphes.
Page | 59
En machine learning, la classification non supervisée (ou unsupervised learning) consiste à
entraîner des modèles, sans réaliser d'étiquetage manuel ou automatique des données au préalable. Les
algorithmes regroupent les données en fonction de leur similitude, sans aucune intervention humaine.
Travail à faire :
2) Appliquez K-means en choisissant comme centres initiaux des 3 clusters respectivement : 8, 10
et 11. Montrez toutes les étapes de calcul.
Solution:
a) Initialisation :
b) Itération 1 :
Nombres Distances
Page | 60
Nombre 5 d(5, μ1)=|5-8|=3
d(5, μ2)=|5-10|=5
d(5, μ3)=|5-11|=6
d(8, μ1)=|8-8|=0
Nombre 8 d(8, μ2)=|8-10|=2
d(8, μ3)=|8-11|=3
C1={ 2, 5, 8}
C2={10}
C3={11, 18, 20}
Page | 61
- μ1= (2+5+8)/3 μ1=5
- μ2=10/1 μ2=10
- μ3=(11+18+20)/3 μ3=16.33
c) Itération 2 :
Nombres Distances
d(8, μ1)=|8-5|=3
Nombre 8 d(8, μ2)=|8-10|=2
d(8, μ3)=|8-16.33|=8.33
Page | 62
18 est affecté au cluster C3.
C1={ 2, 5}
C2={8, 10, 11}
C3={18, 20}
d) Itération 3 :
Nombres Distances
d(8, μ1)=|8-3.5|=4.5
Nombre 8 d(8, μ2)=|8-9.66|=1.66
d(8, μ3)=|8-19|=11
Page | 63
d(10, μ2)=|10-9.66|=0.34
d(10, μ3)=|10-19|=9
C1={ 2, 5}
C2={8, 10, 11}
C3={18, 20}
SERIE 2
Page | 64
.
Dans un premier temps, on fait une classification par l’algorithme des centres mobiles avec,pour
centres initiaux, 𝑐 0 de coordonnées (-1,-1) et 𝑐 0 de coordonnées (2,3)
1 2
Le tableau des distances entre les individus et ces centres est
Par exemple :
On considère deux nouveaux centres, 𝑐 1 et 𝑐 1, lesquels sont les centres de gravité des deux
1 2
groupes A et B.
𝑐 1 a pour coordonnées
1
𝑐 1 a pour coordonnées
2
Page | 65
𝑑 (𝜔 1,𝑐 1) = √(−2 − (−1.33)2 + (2 − 0)2 = √(−2 − (−1.33)2 + 4 = 2.109 = 2.11
1
On considère deux nouveaux centres, 𝑐 2 et 𝑐 2, lesquels sont les centres de gravité des deux
1 2
groupes A et B.
𝑐 2 a pour coordonnées
1
𝑐 2 a pour coordonnées
2
Dans un deuxième temps, on fait une classification par l’algorithme des centres mobiles avec,pour
centres initiaux, 𝑐 0 de coordonnées (-1,2) et 𝑐 0 de coordonnées (1,1)
Page | 66
1 2
On considère deux nouveaux centres, 𝑐 1 et 𝑐 1, lesquels sont les centres de gravité des deux
1 2
groupes A et B.
𝑐 1 a pour coordonnées
1
𝑐 1 a pour coordonnées
2
Page | 67
Conclusion : On obtient deux classifications différentes suivant les choix des centres initiaux.
2 2
7.5 4
X= 3 3
0.5 5
6 4
𝜔1 𝜔2 𝜔3 𝜔4 𝜔5
𝜔1 0 17.12 1 5.62 10
𝜔3 1 10.62 0 5.12 5
Par exemple, on a
Les éléments (individus) 𝜔 1 et 𝜔 3 ont l’écart le plus petit : ce sont les éléments les plus proches.On les
rassemble pour former le groupe : A = { 𝜔 1, 𝜔 3}. On a une nouvelle partition de Γ:
Page | 68
Le centre de gravité associé à A est le point gA de coordonnées :
𝜔2 𝜔4 𝜔5 A
𝜔2 0 25 1.12 18.16
𝜔4 25 0 15.62 6.83
Par exemple, on a
Les éléments (individus) 𝜔 2 et 𝜔 5 ont l’écart le plus petit : ce sont les éléments les plus proches.On les
rassemble pour former le groupe : B = { 𝜔 2, 𝜔 5}. On a une nouvelle partition de Γ:
𝜔4 A B
𝜔 0 6.83 26.7
4
A 6.83 0 20.31
B 26.7 20.31 0
Page | 69
Par exemple, on a
Les éléments (individus) 𝜔 4 et A ont l’écart le plus petit : ce sont les éléments les plus proches.On les
rassemble pour former le groupe : C = { 𝜔 4, A}. On a une nouvelle partition de Γ
B C
B 0 29.58
C 29.58 0
On a :
Il ne reste plus que 2 éléments, B et C ; on les regroupe. Cela donne la partition P4=
{𝜔 1, 𝜔 2, 𝜔 3, 𝜔 4, 𝜔 5}= Γ.
Page | 70
Les éléments B = {𝜔 2, 𝜔 5} et C = {𝜔 4, A}ont été regroupés avec un écart de 29.58.On
La formule √2𝑒 (𝐴 , 𝐵 ) a été utilisée pour les hauteurs des branches du dendrogramme, on a :
Page | 71
5. Dans R p , un individu très proche du centre de gravité a des valeurs brutes proches de zéro pour
l’ensemble des variables.
Exercice 2 :
Considérons les notes (de 0 à 20) obtenues par 9 élèves dans 4 disciplines (mathématiques, physique,
français, anglais)
MATH PHYS FRAN ANGL
Jean 6.00 6.00 5.00 5.50
Alan 8.00 8.00 8.00 8.00
Anni 6.00 7.00 11.00 9.50
Moni 14.50 14.50 15.50 15.00
Didi 14.00 14.00 12.00 12.50
Andr 11.00 10.00 5.50 7.00
Pier 5.50 7.00 14.00 11.50
Brig 13.00 12.50 8.50 9.50
Evel 9.00 9.50 12.50 12.00
Statistiques élémentaires
Variable Moyenne Ecart-type Minimum Maximum
MATH 9.67 3.37 5.50 14.50
PHYS 9.83 2.99 6.00 14.50
FRAN 10.22 3.47 5.00 15.50
ANGL 10.06 2.81 5.50 15.00
1) Que remarquez-vous ?
Le tableau suivant donne la matrice des corrélations. Il donne les coefficients de corrélation li-
néaire des variables prises deux à deux.
Page | 72
Coefficients de correlation
MATH PHYS FRAN ANGL
MATH 1.00 0.98 0.23 0.51
PHYS 0.98 1.00 0.40 0.65
FRAN 0.23 0.40 1.00 0.95
ANGL 0.51 0.65 0.95 1.00
2) Que remarquez-vous ?
2. Résultats généraux
Matrice des variances-covariances
MATH PHYS FRAN ANGL
MATH 11.39 9.92 2.66 4.82
PHYS 9.92 8.94 4.12 5.48
FRAN 2.66 4.12 12.06 9.29
ANGL 4.82 5.48 9.29 7.91
Ici :
PCT=pourcentage de variance
PCT= pourcentage cumulé : exemple (28, 23/40.30) × 100 = 70%.
Facteur i (ou composante principale Ci ).
Page | 73
3. Résultats sur les variables
Le résultat fondamental concernant les variables est le tableau des corrélations variables-facteurs
(tableau des r(Xj, Ck )). Il s’agit des coefficients de corrélation linéaire entre les variables initiales
et les facteurs. Ce sont ces corrélations qui vont permettre de donner un sens aux facteurs (de les
interpréter).
Les deux premières colonnes de ce tableau permettent, tout d’abord, de réaliser le graphique
des variables donné par la Fig. 3 Mais, ces deux colonnes permettent également de donner une
signification aux facteurs (donc aux axes des graphiques).
Page | 74
4. Résultats sur les individus
Le tableau donné ci-dessous contient tous les résultats importants de l’A.C.P. sur les individus
On notera que chaque individu représente 1 élément sur 9, d’où un poids (une pondération) de
1/9 = 0.11, ce qui est fourni par la première colonne du tableau. Les 2 colonnes suivantes fournissent les
coordonnées des individus (les élèves) sur les deux premiers axes (les facteurs) et ont donc permis de
réaliser le graphique des individus. Ce dernier (Fig. 4) permet de préciser la signification des axes, donc
des facteurs.
La signification et l’utilisation des dernières colonnes du tableau seront explicitées un peu plus
loin.
6) Interpréter les résultats obtenus sur les individus.
Exercice 3:
Une analyse en composante principale (ACP normée) a été exécutée sur 50 avions. On a déterminé, pour
chacun d’eux, la valeur de 10 variables (vitesse de croisière, rayon d’action, consommation, nombre de
places, coût de revient du transport par passager et par kilomètre, etc). On considère la représentation de
ces variables dans le cercle de corrélation ci-dessous.
Page | 75
1) Quelles sont les variables qui peuvent aider à donner une signification à l’axe 1 ?
2) Quelles sont les variables qui ne doivent pas être interprétées sur cette figure ?
3) Donner 3 groupes de variables qui, au sein d’un même groupe, sont fortement corrélées positivement
entre elles.
4) Citer deux variables qui sont peu corrélées entre elles.
5) Citer deux variables qui sont fortement corrélées négativement avec la variable V4 .
6) Quel est approximativement le coefficient de corrélation entre la variable V 1 et la première
composante principale ?
7) Citer une variable dont le coefficient de corrélation avec la deuxième composante principale vaut
presque 1.
8) Que veut le coefficient de corrélation entre la première et la deuxième composante principale.
Exercice 4
On a rassemblé les résultats de 15 enfants de 10 ans à 6 subtests du WISC (scores 0 à 5). Les variables
observées sont : CUB (Cubes de Kohs), PUZ (Assemblage d'objets), CAL (Calcul mental), MEM
(Mémoire immédiate des chiffres), COM (Compréhension de phrases), VOC (Vocabulaire). Le
protocole observé est le suivant :
Page | 76
WISC CUB PUZ CAL MEM COM VOC
I1 5 5 4 0 1 1
I2 4 3 3 2 2 1
I3 2 1 2 3 2 2
I4 5 3 5 3 4 3
I5 4 4 3 2 3 2
I6 2 0 1 3 1 1
I7 3 3 4 2 4 4
I8 1 2 1 4 3 3
I9 0 1 0 3 1 0
I10 2 0 1 3 1 0
I11 1 2 1 1 0 1
I12 4 2 4 2 1 2
I13 3 2 3 3 2 3
I14 1 0 0 3 2 2
I15 2 1 1 2 3 2
On traite ces données par une analyse en composantes principales normée. Les principaux
résultats de cette ACP sont indiqués ci-dessous :
Corrélations
CUB PUZ CAL MEM COM VOC
CUB 1,0000 0,7320 0,9207 -0,4491 0,3086 0,2735
PUZ 0,7320 1,0000 0,7510 -0,6143 0,2814 0,2850
CAL 0,9207 0,7510 1,0000 -0,3685 0,4077 0,4869
MEM -0,4491 -0,6143 -0,3685 1,0000 0,3032 0,2023
COM 0,3086 0,2814 0,4077 0,3032 1,0000 0,7819
VOC 0,2735 0,2850 0,4869 0,2023 0,7819 1,0000
Page | 77
Saturations, contributions et qualités de représentation des variables
4
I1
3
I1
2 1
I1I2
1 I1 I9
I5
I60
0
I15I
I1 3 I1
- I4 I7 3 4
1
- I
2 8
-
3
- - - - - - 0 1 2 3 4 5
Activ
5 4 3 2 1
Fact. 1 : e
54,30%
Page | 78
Projection des variables sur le plan factoriel ( 1 x 2)
1,0
0,5
PUZ
CUB
0,0 CAL
Fact. 2 : 30,62%
-0,5
VOC
COM MEM
-1,0
Quel est l'individu le moins bien représenté par le premier plan principal ? Quel est
l'individu le mieux représenté ?
Page | 79
b) Même question pour la deuxième composante principale.
1) Quelle est la méthode dont les résultats sont représentés à l'aide de graphiques de ce type ?
L'examen de ce graphique suggère de réaliser une partition des sujets soit en deux classes, soit en
quatre classes. Justifier.
On retient finalement la partition en 4 classes.
Comment peut-on décrire les positions des 4 classes précédentes sur le graphique de l'ACP ?
Page | 80
On sait que la définition d'une hiérarchie de classes, avec l'indice d'agrégation correspondant, permet de
définir sur les individus une distance dite ultra métrique. Evaluer à partir du graphique la distance ultra
métrique séparant le sujet I15 et le sujet I6.
2. Vrai.
Les individus ayant les mêmes poids, les individus très éloignés du centre de gravité du nuage contribuent
à une part importante de la variabilité (=de l’inertie). Ils "attirent" donc les axes puisque ces derniers ont
pour propriété de représenter au mieux l’inertie du nuage.
3. Vrai.
La variance des coordonnées correspond à l’inertie, et les axes sont classés par inertie décroissante ; la
variance des coordonnées sur le premier axe factoriel est donc plus élevée que la variance des
coordonnées sur le second axe.
4. Faux.
Il faut que les deux variables soient superposées mais aussi qu’elles soient bien projetées (pointes des
flèches proches du cercle des corrélations) pour qu’en puisse en déduire qu’elles sont corrélées entre elles
(notons que deux variables peuvent être mal projetées et étroitement corrélées).
5. Faux.
Un individu très proche du centre de gravité a des valeurs proches de la moyenne pour chacune des
variables.
Page | 81
Exercice 2 :
1) Que remarquez-vous ?
Réponse. Grande homogénéité des 4 variables : même ordre de grandeur pour la moyenne, les écarts-
types, les minima et les maxima
2) Que remarquez-vous ?
Réponse. Toutes les corrélations linéaires sont positives, ce qui signifie que toutes les variables varient
(en moyenne) dans le même sens
4) Comment interpréter la relation suivante qui relié la variance des variables initiales Xi avec celle des
composantes principales Ci ?
Réponse :
Le nuage de points en dimension 4 est toujours le même et sa dispersion globale n’a pas changée. C’est
la répartition de cette dispersion, selon les nouvelles variables que sont les facteurs, ou composantes
principales, qui se trouvent modifiée :
Interprétation.
On voit que le premier facteur est corrélé positivement, et assez fortement, avec chacune des 4 variables
initiales : plus un élève obtient de bonnes notes dans chacune des 4 disciplines, plus il a un score élevé
sur l’axe 1 ; réciproquement, plus ses notes sont mauvaises, plus son score est négatif.
L’axe 1 représente donc, en quelques sortes, le résultat global (dans l’ensemble des 4 disciplines
considérées) des élèves.
L’axe 2, il oppose, d’une part, le français et l’anglais (corrélations positives), d’autre part, les
mathématiques et la physique (corrélations négatives). Il s’agit donc d’un axe d’opposition entre
Page | 82
disciplines littéraires et disciplines scientifiques, surtout marqué par l’opposition entre le français
et les mathématiques.
Cette interprétation peut être précisée avec graphiques et tableaux relatifs aux individus. Ce que nous
donnons ci-dessous
L’axe 2 oppose bien les "littéraires" (en haut) aux "scientifiques" (en bas).
Les 3 colonnes du tableau ci-dessus fournissent des contributions des individus à diverses
dispersions :
cont1 et cont2 donnent les contributions (en pourcentages) des individus à la variance selon les
axes 1 et 2 (rappelons que l’on utilise ici la variance pour mesurer la dispersion) ;
Contg donne les contributions générales, c’est-à-dire à la dispersion en dimension 4 (il s’agit de
ce que l’on appelle l’inertie du nuage des élèves.
Ces contributions sont fournies en pourcentages (chaque colonne somme à 100) et permettent de repérer
les individus les plus importants au niveau de chaque axe. Elles servent en général à affiner
l’interprétation des résultats de l’analyse. Ainsi, par exemple, la variance de l’axe 1 vaut 28.23 (première
valeur propre). On peut la retrouver en utilisant la formule de définition de la variance :
Page | 83
La coordonnée de Jean (le premier individu du fichier) sur l’axe 1 vaut c11 = −8.61 ; sa contribution est
donc :
A lui seul, cet individu représente près de 30% de la variance : il est prépondérant (au même titre que
Monique) dans la définition de l’axe 1 ; cela provient du fait qu’il a le résultat le plus faible, Monique
ayant, à l’opposé, le résultat le meilleur.
Les 2 dernières colonnes du tableau sont des cosinus carrés qui fournissent la qualité de la
représentation de chaque individu sur chaque axe. Ces quantités s’additionnent axe par axe, de
sorte que, en dimension 2, Evelyne est représentée à 98% (0.25 + 0.73), tandis que les 8 autres
individus le sont à 100%.
Exercice 3:
1) Ce sont les variables représentées par des points proches du cercle des corrélations et proches de l’axe
1. Ici : V5, V6 et V7
2) Ce sont les variables représentées par des points trop éloignés du cercle des corrélations (proches de
0). Ici : V2 et V3.
3) Les variables représentées par des points proches du cercle des corrélations et proches entre elles sont
fortement corrélées positivement.
On distingue 3 groupes :
Groupe 1 : V5 et V7 ;
Groupe 2 : V1 et V9 ;
Groupe 3 : V4, V8 et V10.
4) Deux variables représentées par des points proches du cercle des corrélations et formant avec 0 un
angle droit (ou presque droit) ne sont pas corrélées entre elles (ou sont peu corrélées entre elles).
On peut citer ici :
V7 et V8, V7 et V10 ; V7 et V4 ; V7 et V9 ; V5 et V9 ; V6 et V1 ; V6 et V10, etc.
Page | 84
5) Deux variables représentées par des points proches du cercle des corrélations et formant avec 0 un
angle plat (ou presque plat) sont fortement corrélées négativement entre elles. On observe ici que les
variables fortement corrélées négativement avec V4 sont V1 et V9.
6) Ce coefficient est égal à l’abscisse (coordonnée sur l’axe 1) du point représentant V1. Il vaut environ
−0, 33.
7) La variable V9 convient puisqu’elle est représentée par un point dont la coordonnée sur l’axe 2 vaut
presque 1.
8) On sait que les composantes principales sont toutes non corrélées deux à deux, le coefficient de
corrélation entre la première et la deuxième est donc nul.
Exercice 4
1) Etude du tableau des valeurs propres
a) A quoi correspond la somme des valeurs propres ?
La somme des valeurs propres est égale à 6. Dans le cas d'une ACP normée telle que celle qui est effectuée
ici, cette somme est égale au nombre de variables. Cette valeur correspond également à la variance du
nuage des individus.
b) On choisit de n'étudier que les deux premières composantes principales. Justifier ce choix en analysant
le tableau des valeurs propres.
On peut choisir de ne s'intéresser qu'aux valeurs propres dont la contribution à la variance est supérieure
à la moyenne. Ceci revient à étudier les composantes principales correspondant à des valeurs propres
supérieures à 1. Or, seules les deux premières valeurs propres vérifient cette propriété sur l'exemple
fourni.
b) Comment s'organisent les signes "+" et les signes "-" dans le tableau des coefficients de corrélation.
Commenter.
Page | 85
La plupart des coefficients de corrélation sont positifs. Autrement dit, un bon résultat à un test est, en
règle général, lié à de bons résultats aux autres tests. On note toutefois une exception remarquable : la
variable MEM (mémoire immédiate des chiffres) est corrélée négativement à 3 autres variables : CUB,
PUZ et CAL. Mais ce sont les seuls coefficients négatifs du tableau.
Page | 86
b) Même question pour la deuxième composante principale.
Cet axe oppose les individus I8 et I4 d'une part aux individus I1 et I11 d'autre part. On peut noter que
l'individu I1 explique à lui seul plus du tiers de la variance de cet axe.
b) Quelles sont les variables qui sont corrélées positivement avec le premier facteur principal ?
Quelles sont celles qui sont corrélées négativement ? Comment peut-on caractériser cet axe par rapport
aux variables de départ ?
Les corrélations peuvent être lues sur le dessin ou sur le tableau des saturations. Seule la variable MEM
est corrélée positivement avec le premier axe, toutes les autres sont corrélées négativement. Ainsi, cet
axe oppose le résultat au test MEM à tous les autres tests.
c) Quelles sont les variables qui ont joué un rôle dominant dans la formation du deuxième axe.
Les corrélations les plus fortes sont observées pour les variables MEM, COM et VOC. Ces variables sont
toutes trois corrélées négativement avec la variable CP2.
6)
a) Quelle est la méthode dont les résultats sont représentés à l'aide de graphiques de ce type ?
Il s'agit ici d'une classification ascendante hiérarchique.
b) L'examen de ce graphique suggère de réaliser une partition des sujets soit en deux classes, soit en
quatre classes. Justifier.
Page | 87
On observe un saut brutal de l'indice d'agrégation lors de la formation de la dernière classe. Le passage
de 3 à 2 classes se fait avec des indices d'agrégation peu différents. En revanche, on avait également une
forte progression de l'un indice d'agrégation lors du passage de 4 à 3 classes.
d) Comment peut-on décrire les positions des 4 classes précédentes sur le graphique de l'ACP ?
Les classes correspondent approximativement aux 4 quadrants définis par les deux premières variables
principales. Ainsi :
La classe I correspond à CP1 < 0 et CP2 > 0
La classe II correspond à CP1 < 0 et CP2 < 0, mais ne contient pas I13. Il vaudrait mieux la décrire par :
CP1 < -1, CP2 < -1
La classe III correspond à CP1 > -1, CP2 < 0
La classe IV correspond à CP1 >0 et CP2 > 0.
e) On sait que la définition d'une hiérarchie de classes, avec l'indice d'agrégation correspondant,permet
de définir sur les individus une distance dite ultramétrique. Evaluer à partir du graphique la distance
ultramétrique séparant le sujet I15 et le sujet I6.
La distance ultramétrique associée à une CAH est obtenue en considérant, pour chaque couple d'objets,
la plus petite classe les contenant et en notant l'indice d'agrégation correspondant. Pour les objets I15 et
I6, la classe correspondante est l'avant-dernière, avec un indice d'agrégation proche de 24 (valeur lue sur
le graphique).
Page | 88
FICHE DE TD : CHAPITRE 4 : LES ARBRES DE DECISON
Exercice 1:
Exercice 2:
Soit le tableau suivant:
Page | 89
1. Calculer l’entropie de l’ensemble d’exemples par rapport à la valeur de la classe.
2. Quel le gain de l’attribut a2.
Calcul de l’entropie :
NB : À chaque nœud, choisir l'attribut de gain (i.e I-Ires) maximal et arrêter quand l'entropie
est nulle
Exercice 2 :
1. En appliquant :
Page | 90
2. En appliquant :
Ici, nous allons appliquer la CAH sur un ensemble de données dans l´optique de les classer. Nous
utiliserons le langage R et ainsi le logiciel R ou R studio. Pour des personnes ne pouvant installer ces
environnements, pas de panique! Plusieurs plateformes en ligne permettent d’exécuter du code R. Dans
le cadre de ce TP, nous ferons usage de la plateforme Datacamp.
Tout d´abord, nous disposons d´un ensemble d´un échantillon de 2000 personnes récolté en
l´année 2003 pensant une étude en France.Il est disponible à l´adresse
https://juba.github.io/questionr/reference/hdv2003.html. Chacune des personnes est caractérisée par 20
attribut en occurrence le sexe, l´age et le niveau d´étude (nivetud), …
L´on désire dans le cadre de ce TP, savoir comment classer ces différentes personnes. Ce qui
pourrait permettre de faire une corrélation entre l´age, le sexe et le niveau d´étude, etc de ces personnes.
Dans la suite nous allons suivre le notebook que nous avons rédigé à l´effet.
https://app.datacamp.com/workspace/w/2b59fb08-8f8e-47a5-895e-a712efba34bb
Page | 91