Académique Documents
Professionnel Documents
Culture Documents
2
2.4.2 Les composantes principales . . . . . . . . . . . . . . . 14
2.4.3 La valeur du critere IW . . . . . . . . . . . . . . . . . . 14
2.4.4 Interpretation des resultats : les individus . . . . . . . 14
2.4.4.1 Coordonnees . . . . . . . . . . . . . . . . . . 14
2.4.4.2 Qualite globale de la representation . . . . . . 15
2.4.4.3 Qualite ponctuelle de representation . . . . . 15
2.4.4.4 Contribution absolue dun individu a laxe . . 15
2.4.5 Interpretation des resultats : les variables . . . . . . . . 15
2.5 Methodologie . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4 CLASSIFICATION AUTOMATIQUE 23
4.1 But . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.2 Classification par hierarchie et par arbre . . . . . . . . . . . . 23
4.2.1 Principe de la methode . . . . . . . . . . . . . . . . . . 23
4.2.2 Definition dune hierarchie . . . . . . . . . . . . . . . . 24
4.2.3 Construction de hierarchies indicees . . . . . . . . . . . 26
4.2.4 Classification hierarchique ascendante de saut minimal
et arbre des poids minimaux . . . . . . . . . . . . . . . 27
3
Chapitre 1
INTRODUCTION A
LANALYSE DE DONNEES
ANALYSE FACTORIELLE
Pour la classification, on mesure toutes les distances, puis on trace un
arbre. Plus les individus sont eloignes, plus les pallies sont importants.
4
1.1.2 Notion dindividu et de variable
Notion dindividu Un individu est un element de la population etudiee
(cette population est supposee finie). Il correspond a une ligne du tableau.
Attributs descriptifs
1, si x verifie v
x : v(x) =
0, sinon
Ceci permet parfois dhomogeneiser un tableau, en eclatantles indivi-
dus.
Variables numeriques
x v(x) R
Variables relationnelles
5
Ensemble de modalites totalement ordonne
x v(x) = Ck
Variable rang
Note, sur une echelle suffisamment fine pour que 2 individus naient pas
la meme note.
6
1.1.3.3 Tableau dincidence
V1 V2 V3 V4 V5 V6 V7 V8 V9
n1 1 3 2 7 9 4 6 5 8
Ils peuvent servir pour les enquetes sur la frequence de lecture de revues
ou de journaux par exemple. Il peut, dans ces tableaux, y avoir plusieurs fois
la meme reponse sur une ligne.
Ils servent a traiter les mesures sur . Par exemple, pour les echnges
internationnaux :
M1 M2 M3 M4
M1 20 3 5 10
M2 20
M3 20
7
x1i
..
.
On note xji lindividu correspondant a la ligne i. Cest le vecteur : xji
.
..
xpi
Rp
De meme, on note xj la variable correspondant a la ligne j. Cest le
j
x1
..
.
vecteur : xji Rn
.
..
xjn
- lecart-type :
p
xj = V ar(xj )
8
1.2.2.2 Au niveau des individus
On peut considerer chaque individu comme une serie statistiques de p
observations. On peut donc en calculer la moyenne, lecart-type, etc. Il y a
cependant ici un probleme de signification.
En revanche, on represente souvent le nuage des individus (NI ) comme un
solide auquel il est assimile. On peut donc en calculer le centre de gravite :
n
X
x= pi .xi
i=1
, s(, ) = 0
9
1.3.0.4 Calcul de distance
Le choix de la distance depend du type de variables etudiees.
n
X n
X
avec : xj = xji et xi = xji
i=1 j=1
Tableaux de contingence
1 0
1 a b
0 c d
10
Distance des centres de gravite
11
Chapitre 2
ANALYSE EN
COMPOSANTES
PRINCIPALES
12
Deformation
La deformation est linertie autour de laxe z, soit :
Xn
IW = pi d2 (xi , x
bi )
i=1
13
2.4 Resultats
2.4.1 Axes principaux dinertie
On a : uk = n1/2 v k
Les vecteurs ui sont donc les vecteurs propres de VM, associes aux valeurs
propres i qui sont egalement valeur propre de S = M 1/2 .V.M 1/2 .
Linertie expliquee est maximale pour le plan [u1 , u2 ] (ensuite, elle dimi-
nue).
14
2.4.4.2 Qualite globale de la representation
1 + 2
IE[u1 ,u2 ] =
tr(V M)
Plus lindividu est proche du plan, plus langle sera faible et donc le
cosinus carre proche de 1.
(y k )2
La contribution relative de laxe [uk ] a lindividu xi est : ki = ||xi ||2
i
15
Les variables initiales sont projetees dans lespace des composantes prin-
cipales. Si on retient comme plan de projection des individus le plan [uk ,
uk ], on projettera les p variables initiales dans lespace [y k , y k ].
La coordonnee de xj sur laxe [y k ] est le coefficient de correlation entre xj
et y k . On interpretera la nouvelle variable y k a laide des variables initiales
qui lui sont le plus correlees.
Lensemble des p variables initiales se projettent dans une cercle de rayon
1 appele cercle des correlations. On a la relation suivante :
k .ujk
rxj ,yk =
j
2.5 Methodologie
1. Calcul de la matrice S.
2. Calcul des valeurs propres de S.
3. On projette.
4. On regarde le graphique de projection des individus.
5. On regarde le 1er axe de projection.
6. Pour chaque individu, on regarde le cos2 .
16
Chapitre 3
ANALYSE FACTORIELLE
DES CORRESPONDANCES
3.2 La methode
3.2.1 Transformation des donnees initiales : passage
aux matrices de profil
On part de la matrice Z = (ni,j Mn,p (R).
On a pose :
p n
X X
ni. = nij et n.j = nij
j=1 i=1
17
p
n X
X
n.. = nij
i=1 j=1
nij
Le tableau des profils ligne est note : XI = ni.
= xIi
(i,j)[1,n]x[1,p]
nij
Le tableau des profils colonne est note : XJ = n.j
= xJj
(i,j)[1,n]x[1,p]
Xn
2 n.. nij ni j
d = . (distance dte du 2 )
j=1
n.j ni. n i.
n..
De la meme facon on calcule MJ = ni.
Dn (R)
3.2.4 bI et de X
Calcul de X bJ
On calcule les deux centres de gravite g I et g J , pour NI puis pour NJ :
n.1
n1.
n.. n..
g I = ... g J = ...
n.p nn.
n.. n..
3.2.5 Calcul de VI et de VJ
t e e
En ACP, on avait : V = n1 X X
ni.
Pour NI , on pose : DI = n.. Dn (R)
On a donc :
18
e I DI X
V I =t X eI Mp (R) = (vij )
Xn
ni. nij n.j nij n.j
ou : vjj =
i=1
n.. ni. n.. ni. n..
19
Consequence On ne retient pas la valeur propre 0, car linertie expliquee
(IE) par laxe correspond est nulle.
20
Alors :
1. Tout vecteur propre de CI associe a la valeur propre > 0 est vecteur
propre de AI pour la valeur propre .
2. Le vecteur propre ( ni. )i[1,p] de CI (relativement a = 0) est vecteur
propre de AI relativement a 1.
ni.
k 2 1
Ik = . yIk .
n.. k
On peut donc determiner laxe soit en cherchant les points individus
ayant une forte contribution absolue, soit en cherchant les points va-
riables (de forte contribution absolue).
21
Contribution relative de laxe au point : cos2
k 2
yIi
ik = (pour xIi , a laxe [uIk ])
||xI ||22
22
Chapitre 4
CLASSIFICATION
AUTOMATIQUE
4.1 But
Il sagit ici de repartir une population en categories :
soit on obtient les categories attendues
soit les categories attendues napparaissent pas
Dans le second cas, les variables choisies sot dites a faible pouvoir separateur.
Si les categories attendues apparaissent, il faut verifier les hypotheses par
dautre(s) methode(s).
w3
h10
w4 h9 h8
w2
w5
w1 w2 w3 w4 w5 w6 w7
23
la hauteur des paliers est une mesure du degre dagregation de la classe
sous-tendue
Une hierarchie est dte bianire si chaque palier est la reunion des deux
autres paliers de niveau(x) inferieur(s).
Une hierarchie indicee est notee (H, f ) ou f est une application telle
que :
1. f : H R+
2. f (H) = 0 Card(H) = 1
3. (h, h ) H 2 , h h f (h) f (h )
24
Pour construire une hierarchie, on calcule la dissimilarite entre les points.
On calcule ensuite les distances entre groupes de points, par lintermediare
de lindice dagregation.
25
Definition 13 On appelle indice dagregation une application qui verifie :
1. : P2 R+
2 (h, h ) = (h , h)
2. (h, h ) P ,
(h, h ) 0
26
3. On reitere le procede jusqua obtention dune unique classe, conte-
nant toute la population
27