Académique Documents
Professionnel Documents
Culture Documents
Université Mohammed Premier Ecole Nationale Des Sciences Appliquées
Université Mohammed Premier Ecole Nationale Des Sciences Appliquées
Support de cours
2020/2021
Introduction
L'analyse des données est une technique relativement récente, qui s'est constituée dans la
décennie 1960-1970. Elle permet de décrire plus sûrement de grands gisements de
données, et constitue un outil précieux pour le chercheur qui veut extraire le maximum
de résultats des données qu'il a collectées.
Nombreuses sont les disciplines dans divers domaines qui font appel à des outils
statistiques pour traiter des centaines et des milliers de données, mais dans un univers
aléatoire, il n'est absolument pas prouvé qu'on puisse connaître avec certitude les lois et
les distributions auxquelles obéissent les phénomènes observés. Il est donc indispensable
d'utiliser les méthodes de l'analyse des données car elles s'appliquent à des faits bruts, et
le recours à des hypothèses probabilistes contestables est pratiquement absent de l'analyse
des données.
Cette technique est une branche de la statistique descriptive perfectionnée. Son propre est
de raisonner sur un nombre quelconque de données concernant un nombre quelconque de
variables, d'où le nom d'analyse multivariée qu'on lui donne souvent. Pour effectuer ce
raisonnement, l'analyse des données a fait appel aux espaces mathématiques comportant
un nombre quelconque de dimensions et aux outils informatiques.
L'analyse factorielle porte sur des nuages de points dont on cherche à trouver les
directions d'allongement maximal. Elle traite des tableaux de nombres et remplace un
tableau difficile à lire par un tableau plus simple à lire qui soit une bonne approximation
de celui-ci. Chaque méthode correspond à un procédé particulier pour construire le nuage
et mesurer son allongement. Parmi les méthodes d'analyse factorielle on cite, l'Analyse
en Composantes Principales (ACP), l'Analyse Factorielle des Correspondances (AFC),
l'Analyse des Correspondances Multiples (ACM), l'Analyse Canonique (AC), ...
La classification automatique porte sur des ensembles d'individus qu'il faut regrouper en
catégories jugées homogènes au regard de tel ou tel critère. La nature des variables
observées et le calcul de l'homogénéité des catégories varient d'une méthode à l'autre.
Parmi les méthodes de classification on trouve les méthodes ascendantes et les méthodes
descendantes. L'usage des méthodes ascendantes est plus fréquent, car les méthodes
descendantes manquent de précision.
2
constitue le noeud le plus haut. On note ici qu'un noeud est une réunion de deux classes
qui se trouve au-dessous de lui.
3
Chapitre1 Statistique descriptive élémentaire
1.2. Graphisme
Le graphique est un élément clef pour communiquer des résultats d’une analyse
statistique simple ou multivariée. La plupart des observations que l’on peut faire sur des
séries de données peuvent en général être illustrées sur la base des graphiques et les
utilisateurs de la statistique sont de plus en plus demandeurs de cet outil. C’est un outil
souvent simple à lire et à interpréter surtout s’il est représenté dans un espace de
dimension 2 ou 3. Parmi les graphes usuels on cite :
4
• Graphique temporel
Le graphique temporel est une représentation graphique de l’évolution d’une série
dans le temps. Il est parfois appelé le chronogramme.
Le codage d’un signal électrique dans le temps, à titre d’exemple, ou de l’effet d’un
appareil sur la santé peut être représenté par la série suivante :
• Surfaces de réponse
La surface de réponse est une courbe représentée dans un espace de dimension 3
(3D). Les deux axes du plan x1 , x2 représentent les variables et le dernier axe
représente la densité f x1 , x 2 . Ce dernier axe dresse en couleurs les niveaux de la
fonction pour faciliter la lecture du graphique. La projection de la courbe de f sur
le plan donne un graphique appelé Contour.
5
• Graphe d’autocorrélation
Autocorrélation
L’autocorrélation entre deux variables X i et X i k mesure la dépendance d’une
variable et son passé. L’intensité de la dépendance dans ce cas est définie par le
coefficient d’autocorrélation d’ordre k
Cov X i , X i k
k X i , X i k
V X i .V X i k
X X
. X i k X
N
i
Il est estimé par rk i k 1
2
.
X X
N
i
i 1
A titre indicatif, si les données sont décrites par un modèle Autorégressif d’ordre 1 :
X i X i 1 i , i ~ iN 0, 2 et 1 1 .
cov X i , X i k
on a k rk k .
V X i .V X i k
6
L’indépendance est assurée pour les données du graphique ci-dessus car aucune
pique ne sort de l’intervalle.
6,6
6,4
6,2
Expected Normal Value
6,0
5,8
5,6
5,4
4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0
Observed Value
7
• Histogramme
L’histogramme est un graphique qui permet de visualiser la distribution de la
variable quantitative. A la différence du diagramme en barre, l’histogramme est
constitué d’un certain ensemble de classes ai , ai 1 d’amplitudes égales, à chaque
classe on associe un effectif ni . ai , ai 1 , ni sur les axes des abscisses et des
ordonnées respectivement sont les rectangles de l’histogramme.
Le nombre de classes K : Il n’y a pas une méthode standard pour calculer le nombre
de classes dans un histogramme, mais généralement on utilise :
10 log n
K 1 ou K n
3
8
Répartition des lapins par niveau de sucre
6 7
5
4
2
2
0 N = 22,00
0
75,0 80,0 85,0 90,0 95,0 100,0 105,0 77 81 85 90 94 99 103
8
La valeur adjacente inférieure est la valeur minimum dans les données qui est
supérieure à la valeur frontière basse Q1 1.5 * Q3 Q1
La valeur adjacente supérieure est la valeur maximum dans les données qui est
inférieure à la valeur frontière haute Q3 1.5 * Q3 Q1
Les outliers ou les observations aberrantes sont des observations qui paraissent
étrangères aux valeurs de la variable. Leur détection ne sera pas traitée dans ce
cours.
Q1 Q3
**
9
Répartition des lapins par niveau de sucre
90; 0,23
85; 0,32
77 81 85 90 94 99 103
Une variable X est une série d’observations x1 , x2 ,..., xi ,..., xn , elle peut être exprimée
par un vecteur (Colonne ou Ligne)
X 1,n x1 , x2 ,..., xi ,..., xn
t
La moyenne d’un vecteur X , qui est une mesure de tendance centrale notée x , et la
variance de X qui est une mesure de dispersion notée 2 sont définies respectivement
par
1 I
E X x ni xi ,
n i 1
1 I
Var X 2 ni xi x .
2
n i 1
10
X1 Xj Xp
x11 x1 j x1 p
X n , p = xij = xi1 xij xip
x S nj xnp
n1
Un vecteur de moyennes, noté X p ,1 , est un vecteur pour lequel chaque composante est
la moyenne x de la variable correspondante.
x1
x2
X p ,1 = ,
xj
x
p
1 n
où xj xij .
n i 1
1
où I n = 1 de format n,1 et X t est de
1 t
X p ,1 peut être exprimée par X X In
n
1
format p, n .
x ki
et Cov( X i , X j ) S ij k 1
11
Il est à noter que:
i) Les éléments de la diagonale de la matrice de Covariance sont les variances des i .
n
x xi
2
ki
Par conséquent S ii S i2 k 1
n
ii) S est symétrique, alors S ij S ji et S St
1 r12 r1 p
r21 1 r2 p
=
R p , p
r rp 2 1
p1
S ij S ij
où rij = =
S i .S j S ii .S jj
1 1
R Ds 2
.S .Ds 2
S12
0
où D s p , p 2 2
diag S1 ,..., S j ,..., S p
2 2
Sj
0
S p2
1
S1
0
et
1
Ds 2 1
Sj
0
1
S p
12
Chapitre2 L’Analyse en Composantes Principales
(A.C.P.)
1. Généralités
L’A.C.P. est une méthode mathématique d'analyse des données qui consiste à rechercher
les directions de l'espace qui représentent le mieux les corrélations entre p variables
aléatoires. Elle vise à représenter graphiquement les relations entre des variables
quantitatives (ou assimilées à des variables quantitatives) et également leurs relations
avec les individus décrits par ces variables. A partir du graphique présenté par l’A.C.P.,
on analyse les axes factoriels, le plan, la proximité entre les variables et (ou) les
individus.
L'A.C.P. est généralement utilisée pour visualiser des données, mais elle est encore un
moyen de décorréler et de débruiter (supprimer le bruit) les données. En effet, ces
dernières sont décorrélées car dans la nouvelle base, constituée des nouveaux axes, les
points ont une corrélation nulle ; elles sont débuiter car les axes que l'on décide d'ignorés
sont considérés comme des axes bruités (sont un bruit).
On utilise l’A.C.P. quand on est face à un tableau ou une table de données quantitatives,
les lignes et les colonnes représentent respectivement les individus et les variables. De ce
fait, l’A.C.P. touche, alors, plusieurs domaines socio-économiques tels le commerce,
l’industrie, l’agriculture, les services, la santé, la finance, …
13
V1 V2 ... V j ... Vp J
I1 .
I2 .
.
T n p
= Ii . . . t ij . . .
,
.
.
In .
T n , p
tij / i I et jJ
T , T I
i t 1 t
1
t11 , t12 , ..., t1 j , ..., t1 p IR p ;
T , T V
j 1
1 t11 , t 21 , ..., t i1 , ..., t n1 IR n ;
t
donc, les individus sont représentés dans l’espace IR p et les variables dans l’espace IR n
L’ensemble des points représentant les individus est représenté par le Nuage I , noté
N I , et l’ensemble des points représentant les variables est représenté par le Nuage J ,
noté N J . En général, le nombre d’individus est supérieur au nombre de variables
n p .
Dans une première étape et avant d’appliquer l’A.C.P., il faut s’assurer de :
• Les variables sont homogènes (même unité de mesure ou moyennes et (ou) écart types
très proches). Dans ce cas, on applique l’A.C.P. sur le tableau initial qui est la matrice
T.
• Les variables sont hétérogènes quant à leurs moyennes et leurs dispersions. Il faut
centrer et réduire les données, ceci veut dire qu’on obtient des données de moyennes
nulles ( t j 0 ) et de variances égale à l’unité ( S j 1 ).
2
On analyse donc le tableau T ' noté pour simplification T également tel que
t ij t j
T' t ij' , i I et jJ ,
n , p
Sj n
t ij t j
noté T n , p
t ij , i I et jJ .
Sj n
14
t ij t j
E t ij E 1 E t t 1 E t t 0 , j J
S n S n ij j S n ij j
j j j
t ij t j n.S 2j
V t ij V V t
1
1, j J
S n n.S 2 ij n.S 2
j j j
On divise par S j n et non pas par S j pour des besoins de calcul. Ceci ne change rien
dans les positions relatives de individus et (ou) des variables. Donc, l’écart-type de T ,
étant une matrice centrée réduite, n’est plus 1 mais 1 / n .
L’implication géométrique de la standardisation se résume dans ce qui suit :
Les nouvelles données ne dépendent plus des unités de mesures.
Le produit scalaire entre deux variables j et k , notées T j et T k , est donné par
n t ij t j t t 1 n t ij t j tik t k S jk
T
j t
=
. ik k = . =
S = r jk
k
T
S n n S
i 1
Sj n k i 1 j k S j .S k
Ce produit scalaire n’est autre que la corrélation entre les deux variables T j et T k
qui est égale à la corrélation entre T k et T j .
1 n tij t j tij t j
T j 2
= T . T
j t j
=
n i 1 S j
.
S
j
2
1 n tij t j S S2
= = jj = j =1
S .S S .S
n i 1 S j j j j j
p, p p, n n, p
15
de terme général
n t ij t j t ij ' t j '
rjj ' .
= S . n S '. n ,
i 1
j j
c’est la matrice des corrélations linéaires entre les variables. Elle est une matrice
symétrique qui contient des valeurs réelles. R est donc diagonalisable1
P 1 .R.P D et admet des valeurs propres 1 , ..., p distinctes (Corollaire du
Théorème1 et Théorème2 ). Ces valeurs propres sont classées dans un ordre
décroissant. Pour chaque valeur propre, on cherche le vecteur propre associé. Les
vecteurs propres donnent des axes propres indépendants qui passent tous par
l’origine. Ces axes sont dits composantes, facteurs ou bien axes factoriels (on dit
facteur même pour une ACP).
1 2 ... p
V1 V2 Vp
1
P est la matrice de passage qui est une matrice inversible constituée des vecteurs propres de R .
D est la matrice diagonale constituée des valeurs propres de R .
Théorème1: A est une matrice diagonalisable si et seulement si elle admet p vecteurs propres
linéairement indépendants (les p vecteurs propres formant une base ).
Théorème2: Soient V1 , …, V p des vecteurs propres associés respectivement à des valeurs propres
1 ,.., p distinctes. Alors la famille V ,..,V est une famille libre.
1 p
p
j .V j 0 j . 0, j 1,..., p
j 1
16
2.2. La distance entre deux points
1/ La distance entre deux points individus
La distance entre deux points individus i et i ' de N I est définie par
p
d 2 i, i ' t ij t i ' j
2
j 1
d i, i
2 '
p t ij ti ' j 2
2
j 1 n.S j
2
tij t j ti' j t j
p
car d 2 i, i '
j 1 S j . n S j . n
p t ij t j t i ' j t j
2
=
j 1 n.S j
2
p t ti' j 2
ij
= 2 ,
j 1 n.S j
alors le poids de chaque variable est égal à 1 n , ce qui implique qu’on donne la
même importance à toutes les variables.
d 2 j, j ' 2. 1 r jj'
où r jj' : le coefficient de corrélation linéaire entre j et j ' .
2
t t tij' t j '
n
d j, j
2 ' ij j
i 1 S j . n S j' . n
n t t
2
ij j ij
t ' t '
j
2
tij t j . tij' t j'
= S . n
2.
i 1 j
S . n n.S j .S j '
j'
17
1 n t ij t j
2
1 n t t j'
2
1 n tij t j . tij' t j '
2.
'
ij
= 2 2
n i1 Sj n i1 S j' n i1 S j .S j '
2 2
Sj S j'
= 2
2
2.rjj' 1 1 2.rjj'
Sj S j'
=
d 2 j, j '
2 2.rjj' 2. 1 rjj'
Si r jj' = 1 les deux points j et j ' sont confondus ;
Si r jj' = -1 les deux points j et j ' sont opposés.
Il est possible d'utiliser le résultat d'une ACP pour construire une classification
statistique des variables aléatoires en utilisant la distance suivante (où r jj' n’est
autre que la corrélation entre j et j ' ):
=
d j, j '
2. 1 rjj'
2.3. Les coordonnées
1/ La coordonnée de l’individu i de N I IR p sur le 1er axe
La coordonnée de l’individu i de N I sur le 1er axe est définie par
F1 i T i , V1
= T i. V 1
1, p p,1
Donc, la coordonnée de i sur l’axe k est
Fk i T i . Vk
et les coordonnées de tous les points i sur l’axe k sont définies par les lignes
(éléments) du vecteur colonne
T. V k , i
n, p p,1
18
G1 j T j , U1 = t
T .
j
U1
1, n n,1
alors sur l’axe k on a
Gk j = t
T .
j
Uk
Gk = t
T. U k , j
Les coordonnées des points variables sur l’axe k sont les coefficients de
corrélation entre les variables et l’axe k .
La projection orthogonale des points individus (ou variables) sur le plan 1x2
peut être schématisée par la figure 1.
Cov X , Y
r
V X . V Y
19
r11 r12 r1 p
r21 r22 r2 p
R =
r rp 2 rpp
p1
1 0
On a D = est semblable à R .
0 p
où k , la variance expliquée par l’axe factoriel k , est définie par
n
k Fk2 i , k 1,...., p
i 1
p
De plus, on a : traceR traceD k I (Inertie) >0
k 1
I est dite la variance totale. Elle est donc, égale à la somme des variances
expliquées par les p axes.
Fk2 i Fk2 i
CTRk i k i
n
k
F i
i 1
k
2
avec i 1
i 1
k
100
100
(en %)
20
p
Ti G
2
i
F i
k
k
2
représentation.
2/ Pour la variable j N J
La contribution relative de l’axe k à l’excentricité de la variable j est
Cork j Cos k 2 j Gk 2 j
2
G j
2
Cork j Cosk j k2
2 2
Normalement ,
j
mais on sait dans ce cas que 2 j T j T j 2
1,
car
t ij t j
• on cherche alors la moyenne de pour le vecteur T j (le centre de
S j. n
gravité est une moyenne) :
1 n t ij t j
tij t j 1 tij n.t j 0
n n
1
n i 1 S j . n n.S j . n i 1 n.S j . n i 1
j 2
• Pour la T 1 : Voir p15.
Comme pour les individus, une variable sera d’autant mieux représentée sur un
axe, un plan ou un sous-espace que sa corrélation avec la composante principale
correspondante est en valeur absolue proche de 1.
21
Une variable sera bien représentée sur un plan si elle est proche du bord du
cercle des corrélations, car cela signifie que le cosinus de l’angle du vecteur
joignant l’origine au point représentant la variable avec le plan est, en valeur
absolue, proche de 1.
2.6. Le poids
En A.C.P. la même importance est attribuée à chaque individu, de ce fait chaque individu
1 1
a une probabilité égale à de se réaliser. , qui est donc le poids affecté à chaque
n n
individu, nous permet de définir une matrice diagonale de poids notée P1
n
1 0 0 1 0 0
n
0 1 0 1 1
P1 n 1n .Id
n 0 0 n n
0 0 1 0 0 1
n
Il est parfois recommandé, après une première ACP des données étudiées, d'éprouver la
stabilité des configurations observées en effectuant de nouvelles analyses laissant en
éléments supplémentaires les individus ou variables d'importance trop marquée, ou
encore les données douteuses.
2.8. Résultats
Dans le cas général (la possibilité d’existence de variables dépendantes), l’ACP remplace
les p variables de départ par q nouvelles composantes q p :
• Orthogonales 2 à 2, c-à-d covV j ,V j ' 0 pour tout j j ' ;
• De variances maximales telle que V21 V22 ... V2j ... V2q
• Le nombre maximum de composantes principales q p avec q p dès que l’une des
variables d’origine est une combinaison linéaire d’autres variables.
22
• Choix des r premiers axes principaux (composantes principales) :
Un nombre r p d’axes est retenu afin de réduire la dimension de l’espace tout en
gardant un maximum d’information des données initiales. La mesure appropriée de
k
cette information est le % de variance expliquée définie par k q
100 .
k 1
k
Il est à signaler également que si les variables originales sont fortement corrélées entre
elles, un nombre réduit d’axes (composantes) permet d’expliquer 80% à 90% de
variance, et la perte d’information dans ce cas est minime.
• La représentation des points variables sur les deux premiers axes (composantes), c.à.d.
sur un plan vectoriel se fait dans un cercle de rayon 1. De plus, plus les points sont
proches du cercle meilleure est la représentation (car dans ce cas l’effet des autres axes
est minime étant donné que tous les axes passent par le centre).
23
Results
Proportion of Variance 0.700467 0.2984607 0.0008095538 0.0002627896
Cumulative Proportion 0.700467 0.9989277 0.9997372104 1.0000000000
scores
Comp.1 Comp.2 Comp.3 Comp.4
a 8.612059 1.4093727 0.06752404 -0.07158969
b 3.878793 0.5022279 0.01309446 0.07093634
c 3.213388 -3.4683149 -0.17497150 -0.01065973
d -9.851807 -0.5995132 0.03680819 0.14998275
e -6.406574 2.0465857 -0.07561885 -0.19044801
f 3.033102 4.9211080 0.07749344 0.13542301
g 1.025444 -6.3771179 -0.16386970 0.02986136
h -1.953971 4.1995965 -0.20192835 -0.03907002
i -1.550436 -2.6339447 0.42146828 -0.07443601
Les individus sont représentés, puis les variables sont ajoutées sur le plan.
24
En général en ACP le plan vectoriel des deux premières composantes est
représenté car il représente le plus d’informations, mais parfois il est souhaitable
de voir si les autres plans apportent d’informations supplémentaires. Pour notre
exemple les plans possibles pour les individus sont
2.10. Exemple
2.10.1. Présentation des données
Le tableau ci-dessous dresse le comportement de consommation de 12 ménages
concernant 7 biens. Les 7 biens sont : bread, vegetables, fruits, meat, poultry, milk et
water and drinks. Les individus sont : w=manual worker, e=employee et m=manager ;
25
les lettres représentants les individus sont suivies d’un chiffre qui indique le nombre des
personnes dans le ménage (les parents + les enfants).
2
Eigenvalue
0
1 2 3 4 5 6 7
Component Number
26
Les scores des individus sur les 5 premiers axes
27
Les projections des individus sur les 5 premiers axes (F)
28
Les projections des variables sur les 5 premiers axes (G)
29
Les cos2 des individus sur les 4 premiers axes
30
Le bi-plot
Remarque1
Les signes des colonnes des vecteurs propres et des scores (coordonnées) sont arbitraires
et peuvent changés selon les programmes de l’ACP et selon les logiciels utilisés
Remarque2
Dans la pratique utilisez n VarFk pour calculer les valeurs propres et non pas
n
F i .
i 1
k
2
31
2.11. Formulation mathématique de l’ACP (directions successives d’inertie
maximale du nuage)
Soit la matrice T centrée réduite si nécessaire,
et soit le vecteur v k de IR p pour lequel la norme est égale à 1,
T.vk : Le vecteur T.vk de IR n a pour composantes les produits scalaires des observations
(centrée réduite si nécessaire) avec v k . Il représente les distances à l’origine des
projections des observations selon la direction de v k ;
v k' T 'T .v k : Le produit matriciel v k' T 'T .v k représente l’inertie totale du nuage dans cette
direction v k ;
La recherche des directions principales, c’est à dire des directions successives d’inertie
maximale du nuage, se traduit donc par le problème de maximisation sous contrainte
suivant :
Max vk T Tvk
' '
vk
s.c. vk' vk 1
32
Chapitre 3 L'analyse Factorielle des Correspondances
(A .F.C.)
Mais, vu les avantages que représente l'A.F.C., son utilisation peut être étendue à
certains cas où l'on ne dispose pas de tableaux de contingence. On cite parmi ces
cas celui du tableau de notes, très souvent utilisé pour les enquêtes d'opinion
auprès du public ; et celui du tableau logique qui ne contient que des 0 et des 1. Il
est clair que la somme des notes obtenues par un individu a un sens, et que la
somme des 0 et des 1 d'une ligne a également un sens. Ainsi, On peut les
considérer comme des faux tableaux de contingence.
K IJ {k (i, j) / i I , j J } .
Généralement, les éléments mis en ligne sont nommés individus, ceux mis en
colonne sont nommés variables. Les deux ensembles I et J jouent des rôles
symétriques, en sorte qu'on ne changerait rien aux résultats en changeant les
lignes par les colonnes. Donc, la présentation du tableau est indifférente.
33
1.2. Les marges et leurs profils
- une ligne de marge dont le je terme est la somme des nombres inscrits dans la je
colonne.
n
k ( j ) k (i, j ) . (2)
i 1
La ligne et la colonne de marge ont le même total, noté k , qui est égal à la somme
de tous les éléments k (i, j ) du tableau K IJ .
n p n p
k k (i, j ) k (i ) k ( j ) (3)
i 1 j 1 i 1 j 1
j Colonne de
marge
.
.
.
i . . . . . . . . k (i, j ) . . . . . . . . k (i)
.
.
.
ligne k ( j) k
de marge
Pour comparer deux lignes i et i ' , il faut utiliser les valeurs relatives car les
sommes par lignes sont différentes. Nous définissant alors, le tableau des
fréquences relatives.
34
En rapportant les k( i ) à leur total k, on obtient le profil de la colonne de marge:
fi = f
j 1
j = 1. (7)
i 1
j fI
.
.
i . . . . . . . . f ij . . . . . . . . fi
.
.
.
fJ fj 1
f IJ est représenté par la matrice F ={ f ij }qui est une matrice de format (n, p) .
On est amené alors, à construire le tableau des profils des lignes. Ce tableau peut
être obtenu en divisant chaque ligne i par son total k (i) .
35
Soit f ji = k (i, j ) / k (i) la part relative ou la proportion de j dans la ie ligne,
le profil de la ligne i , dit profil de i sur J , est :
De même tout élément j de J est caractérisé par son total k ( j ) et son profil
{ k (i, j ) / k ( j ) , i I }. Le tableau des profils des colonnes est obtenu en
divisant chaque colonne j par son total k ( j ) :
f i j = k (i, j ) / k ( j ) , (9)
f I = { f i / i I } = ( f1 , f 2 ,..., f i ,..., f n )
j j j j j j
(10)
f I j définit la loi conditionnelle de i pour j donnée.
Au tableau des profils des lignes, on adjoint une colonne poids f I , et au tableau
des profils des colonnes, on adjoint une ligne poids f J .
1.4. Notations
Afin de faciliter et d’alléger l’écriture, une notation matricielle est adoptée pour
décrire les différents tableaux définis précédemment. Ces notations sont dressées
dans ce point 4 de la section1 et seront utilisées dans la suite du document.
36
SECTION 2 : LES NUAGES DE PROFILS ET LEURS CENTRES DE
GRAVITE
L'ensemble I est représenté dans l'espace des profils sur J de dimension (p-1),
et l'ensemble J dans celui des profils sur I de dimension ( n-1).
n n
gJ = f
i 1
i f / fi
J
i
i 1
(17)
n
et comme f
i 1
i 1 , la formule s'écrit simplement:
n
gJ = f
i 1
i f Ji
n
= f (f
i 1
i 1
i
, f 2i ,..., f ji ,..., f pi )
n
= ( f
i 1
i 1
i
f , f i f 2i ,..., f i f ji ,..., f i f pi )
n n n n
= ( f i f1i , f i f 2i ,..., f i f ji ,..., f i f pi )
i 1 i 1 i 1 i 1
= ( g1 , g 2 ,..., g j ,..., g p )
n
gj = i 1
f i f ji
n
= (k (i) / k ).(k (i, j) / k (i))
i 1
= (1 / k ) k (i, j )
= (1 / k ).k ( j ) = fj
37
On en déduit que le centre de gravité du nuage N (I ) est la ligne f J :
p
gJ = f J = ( f1 , f 2 ,..., f j ,..., f p ) R . (18)
N (J ) = { ( f I j , f j ) / j J } Rn .
n
g I' = f I' = ( f1 , f 2 ,..., f i ,..., f n ) R . (19)
Etant donné qu’un nuage sans métrique n’a pas de forme car il n’a pas de
directions principales d’allongement, il est indispensable de définir une métrique
sur les deux nuages N (I ) et N (J ) .
Pour comparer deux lignes i et i' du nuage N (I ) , il faut définir une distance
mettant en jeu toutes les dimensions de l'espace. On utilise la distance
distributionnelle entre les profils, qui est une distance propre à l'analyse des
correspondances.
p
d 2 (i, i ' ) = d 2 ( f Ji , f Ji ' ) =
j 1
j ( f ji f ji ' ) 2 (20)
38
En prenant j 1 / f j , on trouve la formule de distance distributionnelle
appelée distance de Chi-2 :
p
d 2 ( f Ji , f Ji ' ) = (1 / f
j 1
j )( f ji f ji ' ) 2 (21)
L’égalité f IJ f I . f J signifie encore que toutes les lignes ont pour profil f J et
toutes les colonnes ont pour profil f I . L’A.F.C. a précisément pour objet de
découvrir dans quelles directions principales les données s’écartent de cette
hypothèse nulle.
'
La matrice de distance est symétrique car la distance entre f Ji et f Ji ' est
exactement la même que celle entre f Ji '' et f Ji . Elle est de diagonale nulle et de
valeur maximale généralement non limitée.
La formule de distance entre deux colonnes j et j' sur l'espace des profils sur I
est :
n
d 2 ( f I j , f I j' ) = (1/ f ).( f
i 1
i i
j
fi j' )2 (22)
Les deux formules (21) et (22) sont compatibles avec le principe d'équivalence
distributionnelle :
Dans N (I ) , si deux points f Ji et f Ji ' coïncident et reçoivent respectivement les
masses f i et f i ' , on peut les considérer comme un seul point i '' affecté de la
masse (nous traitons d’une manière similaire deux points confondus j et j ' ) :
39
SECTION 4 : LES AXES FACTORIELS ET LES FACTEURS
Les individus sont représentés par les lignes de la matrice X de format (n,p)
définie par
X = R.D p1 / 2 = Dn1 .F .D p1 / 2 (24)
40
p
0 si
U .U . f
j j
j =
si
(27)
j 1 1
Les facteurs F sont donnés par la projection des lignes de X sur l’axe factoriel
U .
F = X . U (30)
p p
alors F (i) = Uj . fij / fi f j
j 1
= U .( f
j 1
j j
i
. f j1 / 2 ) (31)
F (i) , qui est appelé facteur, mesure la distance du profil f Ji au profil moyen
f J , en projection sur l'axe :
F (i) = d ( pr ( f Ji ), f J ) . (32)
F est une fonction de moyenne 0 et de variance :
n n
i 1
f i .F (i ) 0 ; f .( F (i))
i
2
(33)
i 1
n
= f .( F (i))
i 1
i
2
mesure la dispersion globale ou l'inertie du nuage le long
de l'axe de rang .
41
Les variables sont représentées par les colonnes de la matrice Y de format (n,p)
définie par
f ij
Y Dn1 / 2 C Dn1 / 2 FD p1 (34)
f i f j
et la matrice à diagonaliser dans ce cas est une matrice de format (n,n) définie par
Les facteurs des variables G ,qui sont les projections des colonnes de Y sur V ,
sont donnés par
G = Y ' .V , 1,..., r (36)
1 - Les nuages N (I ) et N (J ) ont les mêmes valeurs propres non nulles ; et les
axes principaux d'inertie de N (J ) se déduisent de ceux de N (I ) et
réciproquement.
Démontrons que les deux nuages ont les mêmes valeurs propres non nulles. Afin
de faciliter la démonstration nous allons noter
T X ' X et W X X ' tel que X Dn1 / 2 X
Soient T la matrice à diagonaliser associée au nuage N (I ) ;
W la matrice à diagonaliser associée au nuage N (J ) ;
1 , 2 ,..., r les valeurs propres non nulles de la matrice T ;
U 1 ,U 2 ,..., U r les vecteurs propres de la matrice T ;
1 , 2 ,..., r les valeurs propres non nulles de la matrice W ;
V1 ,V2 ,..., Vr les vecteurs propres de la matrice W ;
D’une part
1 , 2 ,..., r les valeurs propres non nulles de la matrice T
(T I )U 0 , α = 1, …, r
TU U
X *' X *U U
X * ( X *' X * )U X * ( U )
( X * X *' ) X *U ( X *U )
X *U est un vecteur propre de X * X *'
or V est un vecteur propre de X * X *'
X *U et V sont colinéaires
42
V a ( X *U ) , a IR
(a)
L’ensemble des valeurs propres est un sous-ensemble
des valeurs propres ;
Les axes principaux d'inertie d’un nuage se déduisent de ceux de l’autre par
1 1
V ( X *U ) , U ( X *'V ) , α = 1, …, r (37)
Effectivement, sachant que V a ( X *U ) , V' V 1 et que
X *' X *U U ,
1
nous pouvons démontrer que a
V V 1 (a X U ) (a X U ) 1
' * ' *
43
1
V ( X *U )
1
D’une manière analogue nous pouvons démontrer que U ( X *'V )
2 - En analyse des correspondances, les valeurs propres sont comprises entre 0 et
1
( 0 1 ). (38)
Soient F les facteurs extraits de N(I) et G les facteurs extraits de N(J), on a les
deux formules suivantes, dites de transition :
p
F (i) = ( ) 1 / 2 f ji .G ( j ) , (39)
j 1
n
G ( j ) = ( ) 1 / 2 f i j .F (i) (40)
i 1
ou sous forme matricielle par :
F =
1 / 2
.R.G (41)
G =
1 / 2 '
.C .F (42)
F (i) apparaît, au coefficient ( ) 1/ 2 prés, comme la moyenne des G ( j ) , pour
j parcourant J , pondérée par les f ji . De même, G ( j ) apparaît, au
coefficient ( ) 1/ 2 prés, comme la moyenne des F (i) ) , pour i parcourant I,
pondérée par les f i j .
Ces deux expressions permettent le passage des facteurs sur I aux facteurs sur J
et réciproquement, et manifestent la parfaite symétrie des rôles que jouent les
deux ensembles I et J mis en correspondance par le tableau K I,J . Ces deux
relations de dualité sont la clé de la représentation graphique des deux nuages
N(I) et N(J) sur le même graphique.
44
5.2. La formule de reconstitution
A partir du tableau KI,J , on a pu construire les nuages N(I) et N(J). Ces nuages
sont rapportés à leurs axes principaux d'inertie, et les éléments i de I et j de J ont
comme coordonnées les facteurs F (i) et G ( j ) .
Inversement, à partir des facteurs sur les ensembles I et J , des valeurs propres
et des profils moyen f I et f J , nous pouvons reconstituer exactement le tableau
initial en utilisant la formule suivante, dite formule de reconstitution des données
en fonction des facteurs :
r
k (i, j ) / k f ij f i f j (1 ( ) 1 / 2 F (i).G ( j )) , (43)
1
6.1. Définition
k' = k (i, j) .
iI {is } jJ { js }
(44)
45
Soit s un élément supplémentaire, F(s) et G(s) sont :
p
F (s) = ( ) 1 / 2 f js .G ( j ) , (45)
j 1
n
G (s) = ( ) 1 / 2 f i s .F (i) . (46)
i 1
Les nouveaux individus introduits après avoir fait l'analyse sont considérés
comme éléments supplémentaires. Pour situer ces individus par rapport aux
autres déjà étudiés, nous calculons leurs facteurs sans refaire l'analyse.
h
k h (s, j ) k ' . f s f j (1 ( ) 1 / 2 F (s).G ( j )) (47)
1
Une formule analogue peut être donnée pour la reconstitution d'une colonne
supplémentaire.
Avant de donner les formules de calcul qui servent à l'interprétation des résultats
de l'analyse, on définit quelques notations statistiques indispensables au calcul.
7.1. Définitions
46
tu
de l'élément u à la somme S, et que le quotient est la contribution relative
S
tu
de l'élément u au total S , est compris entre 0 et 1 .
S
- Rayon polaire :
2 (i) d 2 ( f Ji , f J ) f Ji f J
2
fJ = F (i) ,
A
2
(48)
2 ( j) d 2 ( f I j , f I ) f I j f I
2
fI =
A
2
G ( j ) . (49)
L'inertie totale par rapport à fJ du nuage N(I), appelée aussi trace, s'écrit inert fJ
(N(I)), et est égale à la somme des valeurs propres.
La part relative de l'axe à l'inertie totale du nuage est définie par le rapport
( / Trace ) . Ce rapport est appelé taux d'inertie de l'axe , noté , et
exprimé généralement en pourcentage.
= / Trace . (51)
Comme les axes sont rangés dans l'ordre des valeurs propres décroissantes :
r r-1 ... ... 1 , (53)
alors r r-1 ... ... 1 . (54)
47
CTR(i) = f i .F2 (i ) / , (55)
n
avec, comme on le sait selon la formule 33, = f .( F (i))
i 1
i
2
. Le terme
7.3. La contribution relative d'un axe à l'écart d'un point au centre (COR)
Pour que les { COR(i) , A } soient définis, il faut que les facteurs ne soient
pas tous nuls. Il est à signalé aussi que COR(i) s'interprète comme le carré
d'un coefficient de corrélation, et qu'il est compris entre 0 et 1
0 COR(i) 1 . (59)
(i)
(i) axe
fJ d(pr ( fJi ) , fJ ) F(i)
48
cos( (i) ) = F (i) / d (fJi , fJ )
cos2( (i) ) = F2 (i) / d2 (fJi , fJ )
= F2 (i) / (F12 (i) + ... + F2 (i) + ... + Fr2 (i))
= F2 (i) / 2(i)
= COR(i) .
si l'angle (i) = 0 , c.à.d. si le point fJi est sur l'axe , COR(i) = 1 . Dans ce
cas on dit que l'axe explique à lui seul l'écart de i au centre.
si (i) = 90° , alors COR(i) = 0 . On dit alors que l'axe est étranger à l'écart du
point i au centre.
Pour tout élément i de I, les facteurs sont les coordonnées du profil fJi sur les r
axes principaux d'inertie. Ils décrivent la projection de fJi sur le sous-espace
engendré par ces axes. Notons cette projection pr1,...r(fJi).
La représentation sera d'autant meilleure que fJi sera plus proche de sa projection
et QLT plus voisin de 1, elle est parfaite quand QLT(i) = 1. QLT(i) = 1
quand le sous-espace est engendré par les r axes principaux d'inertie, car
En conclusion, on note qu'il existe aujourd'hui des programmes rapides et pas très
complexes qui permettent d'effectuer tous les développements mathématiques de
ce chapitre. Les valeurs propres, les facteurs, les axes factoriels, les contributions,
les corrélations, les qualités et tout autre calcul indispensable peuvent être donnés
49
par l'ordinateur, le chercheur intervient en dernier lieu pour interpréter les
résultats.
Le tableau analysé dans ce point est un tableau K91,10 , qui comprend 91 lignes
et 10 colonnes. Les lignes représentent les noms des communes, alors que les
colonnes représentent les catégories de ressources locales, regroupées en dix
catégories. On a ainsi:
L'intersection d'une ligne et d'une colonne du tableau donne le nombre k(i,j) qui
représente le montant, en dirhams, de la catégorie j correspondant à la commune
i. Par exemple, à l'intersection de la ligne 8 et de la colonne 3 , on lit la valeur
225157 qui représente, en dirhams, le montant de la patente récolté par la
commune GAFAÏT durant l’exercice1998/1999.
8.2. L'analyse
50
+------------------------------------------------+
|DIMENSION| VALEUR |POURCENTAGE | POURCENTAGE|
| | PROPRE | | CUMULE |
+---------+------------+------------+------------+
| 1 | .45303 | .573 | .573 |
| 2 | .11687 | .148 | .720 |
| 3 | .07821 | .099 | .819 |
| 4 | .04910 | .062 | .881 |
| 5 | .03138 | .040 | .921 |
| 6 | .01940 | .025 | .945 |
| 7 | .01796 | .023 | .968 |
| 8 | .01708 | .022 | .990 |
| 9 | .00821 | .010 | 1.000 |
+--------+-----------+-----------+------------
| Total | .79124 | 1.000 | 1.000 |
+--------+-----------+-----------+-----------+
Table 1
Les valeurs propres sont toutes inférieures à 1 et sont classées dans un ordre
décroissant. En général, le nombre de chiffre après la virgule est grand pour
distinguer les petites valeurs propres les unes des autres. Dans notre cas le chiffre
est égal à 5.
L'axe 1:
Les individus qui contribuent le plus à l'inertie de l'axe 1 sont décrits dans la
table2 qui résume cinq types d’informations :
51
Individu C.P Commune CTR1(i) F1(i) COR1(i)
en %
54 27 AIN LEHJER 42.2 -1.12 0.963
84 56 SELOUANE 13.5 -0.960 0.840
16 26 LAAOUINATE 7.3 -0.750 0.751
85 56 AREKMANE 1.7 0.580 0.870
89 25 BNI-CHIKER 1.3 0.550 0.662
62 49 TENDRARA 0.9 0.680 0.148
91 56 DRIOUCH 0.9 0.440 0.291
- - Total 67.8 - -
Table 2
où
Individu : L’ordre de la commune parmi 91 communes de la région orientale
classées par ordre croissant de la population.
C.P. : Le code de la préfecture ou la province à laquelle appartient la
commune.
Commune : Le non de la commune.
CTR1(i) : La contribution relative d'un point i du nuage N(I) à l'axe 1,
donnée par la formule (55).
F1(i) : La projection de la ligne i de X sur le premier axe factoriel,
donnée par la formule (39).
COR1(i) : La contribution qui permet de savoir si le point i est proche ou non
du premier axe, donnée par la formule (57).
Le premier axe qui est expliqué par six individus, oppose les communes d’AIN
LEHJER(54), SELOUNE(84) et LAAOUINATE(16) aux communes
d’AREKMANE(85), BNI-CHIKER(89), TENDRARA(62) et DRIOUCH(91). Les
communes d’AIN LEHJER, SELOUNE et LAAOUINATE, ont de fortes
corrélations, elles sont par conséquent bien représentées. Généralement, les
individus contribuant bien à l’axe, sont bien représentés sur celui-ci.
Les variables qui contribuent le plus à l'inertie de l'axe 1 sont dressées dans la
table3.
Variable CTR1(j) en % G1(j) COR1(j)
Subv.concours 24 0.41 0.928
Imp.tax.ass 23.3 -1.00 0.767
Tax.urbaine 21.7 -1.49 0.845
Patente 15.4 -0.80 0.461
Tax.édilité 11.3 -1.25 0.784
Total 95.7 - -
Table 3
52
où les colonnes représentent :
Variable : Le sigle de la catégorie de recettes.
CTR1(j) : La contribution relative d'un point j du nuage N(J) à l'axe 1,
donnée par la formule (56).
G1(j) : La projection de la colonne j de X sur le premier axe factoriel,
donnée par la formule (40)
COR1(j) : La contribution qui permet de savoir si le point j est proche ou non
du premier axe, donnée par la formule (58).
Le premier axe factoriel est expliqué par les cinq variables Subv.concours,
Imp.tax.ass, Tax.urbaine, Patente et Tax.édilité. Il oppose les subventions et
concours à la fiscalité locale. Par conséquent, l’axe peut être appelé "axe de
subvention" , "axe de fiscalité" ou "axe d’autonomie financière". Puisque, plus
une variable est corrélée avec un axe, plus elle est importante pour le décrire, à
part la patente qui a une corrélation moyenne, ces variables jouent un rôle
primordial dans la description de l’axe.
L'opposition de ces deux catégories de ressources est évidente, car moins les
communes ont de ressources propres plus elles ont besoin de subventions de
fonctionnement pour faire face à leurs dépenses de fonctionnement et de
subventions d’équipement pour financer leurs projets d'investissement. Autrement
exprimé, la commune qui souffre de la faiblesse de ses ressources propres compte
énormément sur la subvention de l’Etat. Mais conscient de cette dépendance du
financement de la commune des ressources étatiques et dans le but de la
minimiser, l'Etat a décidé depuis 1997 d’introduire les ressources propres comme
critère d’octroi de la subvention. Bien entendu, un important effort fiscal attire un
montant de subventions important.
D'une façon générale, le premier axe factoriel indique que la fiscalité occupe une
part importante dans les recettes d’AIN LEHJER(54), SELOUANE(84) et de
LAAOUINATE(16) contrairement aux communes d’AREKMANE(85), BNI-
CHIKER(89), TENDRARA(62) et DRIOUCH(91). Cet axe peut être appelé,
comme déjà cité, "axe d’autonomie financière" car il oppose les communes d’AIN
LEHJER(54) avec un taux d’autonomie de 1040%, SELOUANE(84) avec un taux
de 108% et LAAOUINATE(16) avec un taux de 449% qui ont réalisées leurs
autonomie financière à celles qui n’ont pas pu la réalisée (moins de 100%). En
outre, les communes autonomes ont reçus également un montant de subventions
très élevé car leurs ressources propres sont intéressantes.
53
Nous déduisons alors, que le nouveau système de répartition de la T.V.A. sous
forme de subventions a accentué l’écart entre les communes riches et les
communes pauvres et a détérioré la situation de ces dernières. Le problème qui se
pose est que les projets d’équipement sont presque absents dans plusieurs
communes autonomes.
L’axe 1 peut être schématisé par
axe1
0
AREKMANE(85), BNI-CHIKER(89),
TENDRARA(62), DRIOUCH(91)
Subv.concours
L'axe 2:
Les variables qui contribuent le plus à l'inertie du deuxième axe factoriel et qui
dominent l’axe sont la Patente et les Imp.tax.ass.
54
Les communes d’IKSANE(50), TIOULI(39) et LAAOUINATE(16) ont dégagé un
important montant de la patente évalué respectivement à 45.7%, 29% et 42% et un
faible montant des impôts et taxes assimilées évalué respectivement à près de
0.02%, 19% et 2% des recettes de fonctionnement. Ceci justifie l’association de
ces communes avec la patente. La part importante de la patente a permis la
réalisation des taux d’autonomies respectives de 332%, 449% et 132%. En
revanche, SELOUANE(84) et RISLANE(27) ont atteint des taux d’autonomie de
108% et 101% grâce surtout à la part de 28% et 47% des impôts et taxes assimilées
dans les recettes de fonctionnement. De ces dernières, la patente ne constitue que
15% et 0.02% .
Le plan 1x2 :
Le plan est représenté par la figure2 ci-dessous qui dresse les points des nuages
N(I) et N(J). Nous allons décrire le résultat selon les quatre quadrants du plan.
55
Globalement, L’analyse a marqué l’association des communes autonomes
d’IKSANE(50), TIOULI(39) et LAAOUINATE(16) avec la patente et celle
d’AIN LEHJER(54), SELOUANE(84), RISLANE(27) avec les impôts et taxes
assimilées, la taxe urbaine et la taxe d’édilité. En fait, le rôle de ces catégories est
important mais aucune des communes n’en dépend intégralement. En revanche, la
plupart des points représentants les communes rurales orientales se concentrent
autour du point représentant la subvention. Ce sont des entités qui souffrent de
problèmes de financement et qui dépendent fortement du concours de l’Etat
56
Chapitre 4 Classification hiérarchique (C.H.)
1. Le principe général
La classification est un problème de construction des groupes (clusters) à partir de
données multivariées. Son but est de former des groupes homogènes selon un certain
critère (la distance à titre d’exemple) telle que la différence entre les groupes est la plus
grande possible. Il faut donc, classer des objets dans des classes homogènes. Ainsi
l’analyse de classification peut être effectuée dans différents domaines notamment la
psychologie, la médecine, la biologie, l’industrie et la finance.
Pour la base de données représentée par le graphique ci-dessous, on remarque bien qu’on
peut distinguer entre deux groupes, mais le problème qui se pose c’est comment placer
les points dans telle ou telle classe ?
57
Lorsque le nombre de classes k n’est pas spécifié d’avance, un grand problème de
spécification se présente c’est celui de la détermination de k. Si l’on connaît le nombre de
classes à constituer, la classification est dite une classification supervisée, sinon elle dite
non-supervisée. Généralement, le dernier cas est plus utilisé dans le cadre de l'analyse des
données.
Faire une classification sur I c’est édifier un système de classes ou parties sur I d’après
la représentation géométrique.
b. Hiérarchie et partition
La partition est la forme la plus simple de la classification. On partage I en un système
de classes non vides, de telle sorte que tout individu i appartienne à une classe et une
seule. La classification sert aussi à désigner un système emboîté ou une hiérarchie de
classes. A titre d’exemple, en sciences naturelles les êtres vivants sont partagés en deux
grandes règnes, animal et végétal, chacun est divisé en embranchement, ainsi les animaux
sont partagés en vertébrés, mollusques, arthropodes, … ; les vertébrés sont à leur tour
subdivisés en classes (mammifères, oiseaux, reptiles, …). Cette classification est appelée
classification hiérarchique ou hiérarchie de classes.
c. Classification descendante et classification ascendante
Contrairement à la classification ascendante, la classification descendante part du sommet
jusqu’à la constitution de classes avec un seul élément. Le nœud qui prend le numéro r,
où r 2.Card( I ) 1, se scinde en deux descendants immédiats A(r) et B(r), le nœud A(r)
se scinde à son tour en deux et ainsi de suite jusqu’à la formation de classes d’un seul
élément.
En résumé
- Un algorithme descendant part du tout qu’il scinde en deux classes ; puis il scinde
chacune de ces deux classes en deux et ainsi de suite jusqu’à isoler les individus.
- Un algorithme ascendant part des individus et d’un critère de ressemblance des
individus qui s’étend aux classes, agrège les individus qui se ressemblent le plus ;
58
puis il agrège soit deux autre individus soit un individu et une classe, puis des
classes entre elles, créant ainsi des nœuds.
Dsaut C,C ' = min Di, i '
iC
i ' C '
si par exemple on trouve que min D est entre les éléments 4 et 17, alors ces deux
éléments forment une classe.
b/ Critère du diamètre
Le critère du diamètre est la distance maximale entre i C et i ' C '
Ddiam C ,C ' = max Di, i '
iC
i 'C '
Dmoy C , C ' 1
fC . f C'
f . f Di, i
i i'
'
iC
i ' C '
2
La distance métrique doit verifier les axioms suivantes:
1/ La symétrie :
D i,i ' = Di ' ,i '
2/ La positivité stricte : Di, i 0 , si i i
' '
59
où f C et f C ' sont les masses totales respectivement des classes C et C ' tel que
f C f i et f C ' f i ' ,
iC i 'C '
Dmoy prend en considération les distances minimales et les distances maximales entre les
points de C et de C ' . Elle tient compte alors de Dsaut et Ddiam .
d/ Critère de l’inertie
On associe C et C ' à leurs centres de gravités qui sont notes, simplement, C et C '
Dinert C , C ' f C . fC'
fC fC'
C C'
2
p
C C ' 2
Cj C '
j
j
C fC
C' fC '
60
droite ( B est l’initiale de benjamin). ACard I 1 et BCard I 1 sont les
deux descendants immédiats du nœud Card I 1 .
Etape2 : On calcule les écarts D n,i pour tout i i et i i .
'' '' '' '
On a Card I 2 distances à calculer car les autres distances entre les classes
d’un seul individu sont déjà calculées.
On agrège la paire réalisant le min D , qui donne naissance à un nouveau
nœud ; il reçoit le numéro Card I 2 .
La nouvelle partition de I est formée de Card I 2 classes.
3.3. Le dondrogramme
L’idée du dondrogramme est de construire des séquences de partitions à partir des
partitions les plus fines, où on a n classes contenant chacune un seul élément. La
procédure, qui est celle décrite par l’algorithme précédent, part, étape par étape, de n
classes vers n 1 , n 2 , … jusqu’à avoir un sommet d’une seule classe. Le
dondrogramme est, donc, la représentation graphique de ces séquences, il est dit
également ‘l’arbre de calssification’.
Par ailleurs, sur le dondrogramme, la hiérarchie peut figurer, sur un des axes, la valeur de
la distance minimale entre deux classes. Cette valeur (indice) indique le ‘niveau
d’agrégatiion’ de l’étape. Bien évidemment, un niveau bas de l’indice indique qu’à ce
niveau des goupes plus homogènes sont regroupés, un niveau élevé de l’indice indique
que des goupes hétérogènes sont regroupés.
L’arbre est coupé à un certain niveau et le nombre de groupes à former est défini à ce
niveau. Il est clair que, une fois que le niveau change, le nombre de groupes peut changer.
Globalement, la statistique descriptive des sous-groupes aide à valider le choix de ,
mais il n’y a pas de méthodes précises qui aident à décider où couper l’arbre.
Pour l’exemple des notes des étudiants cité précédemment, le dondrogramme se présente
comme suit :
61
62
Chapitre 5 Analyse canonique (AC)
Le principe de l'analyse canonique est de mettre en évidence des proximités entre deux
ensembles de données et de décrire ces proximités entre les variables de ces deux
ensembles. Cette description nécessite la détermination des composantes canoniques.
1. La base de données
Dans l’analyse canonique deux tableaux de données sont traités simultanément. Ces
données sont dressées de telle sorte que
- Le tableau 1, noté X 1 , comporte n lignes et m1 colonnes où chaque ligne i
représente l’individu i et chaque colonne j représente une variable quantitative
centrée ou une modalité d’une variable qualitative.
- Le tableau 2, noté X 2 , comporte n lignes et m 2 colonnes où chaque ligne i
représente l’individu i et chaque colonne j représente une variable quantitative
centrée ou une modalité d’une variable qualitative.
Pour chaque tableau, les colonnes sont supposées linéairement indépendantes.
Etape1 : Déterminer un couple de variables canoniques z11 , z 12 tel que
Arg max R 2 z11 , z 12
Var z11 1
sc
Var z 12 1
où R est le coefficient de détermination défini par
Cov 2 z11 , z 12
R 2 z11 , z 12
Var z11 .Var z 12
Si on définit P1 (respectivement P2 ) comme étant la projection orthogonale de des
points sur l’espace engendré par la colonnes de X 1 (respectivement X 2 ), on peut dire
donc que
z11 ( z 12 ) est le premier vecteur propre de P1 P2 ( P2 P1 )
Par conséquent
- z11 est une combinaison linéaire des variables du tableau X 1 ,
- z 12 est une combinaison linéaire des variables du tableau X 2 .
63
Les vecteurs propres z11 et z 12 sont associés à la même valeur propre qui est égale au
coefficient de détermination R 2 z11 , z12
- z11 est la première composante canonique du tableau X 1 ,
- z 12 est la première composante canonique du tableau X 2 ,
3. Les facteurs
A la k ème étape : z ik est une combinaison linéaire des variables du tableau i (i = 1; 2),
doù
z ik X i aik , i=1,2
où a1k et a2k sont les facteurs d'ordre k.
1 1
V11 V12V22 V21.a1k R 2 z1k , z 2k .a1k
1
où Vij X i X j
n
'
- Dans le cas où les deux variables sont quantitatives, Vij est la matrice des
covariances entre les variables du tableau i et celles du tableau j.
- Dans le cas où les deux variables sont qualitatives, Vij est la matrice des
fréquences relatives des variables du tableau i et celles du tableau j.
1 1
Les a1k sont, donc, les vecteurs propres de V11 V12V22 V21 et R 2 z1k , z 2k les valeurs
propres de la même matrice
1 1
V22 V21V11 V12 .a2k R 2 z1k , z 2k .a2k
64
1 1
Les a2k sont, donc, les vecteurs propres de V22 V21V11 V12 et R 2 z1k , z 2k les valeurs
propres de la même matrice
1
V11 V12 .a2k R z1k , z 2k .a1k
Rz , z .a
1 k k k k
V22 V21.a 1 1 2 2
1 n k
n i 1
z1i z 2ki
2
soit la plus petite possible, sous les mêmes contraintes que dans l'espace des
variables.
65
L'axe correspondant à la j ème étape est un compromis (une moyenne) entre z1j et
z 2j
Tel que
z j z 2j
zj 1
2
Par ailleurs, l'analyse factorielle des correspondances, est le cas particulier de l'AC
pour lequel les tableaux X 1 et X 2 décrivent chacun les modalités d'une variable
qualitative. L'analyse factorielle discriminante, qui ne sera pas présentée dans ce
cours, est le cas particulier de l'AC pour lequel X 1 décrit un ensemble de
variables quantitatives et X 2 une variable qualitative.
66