I4
I3
I5
I2
I1
Les techniques d’analyse des données ont connu un essor important surtout avec le
développement de l’informatique et big data. Le volume important des données nécessite comme un
prétraitement : la réduction des données, ce qui est l’objectif principal de l’analyse des données en
premier lieu. Pour résoudre le problème de la dimensionalité, les méthodes multidimensionnelles
telles que l’Analyse en Composantes Principales (ACP) et l’Analyse Factorielle des Correspondances
(AFC) seront exploitées et expliquées en détail dans cet ouvrage. En second lieu, l’interprétation et la
classification des données dans le domaine de la reconnaissance des formes, la fouille des données et
l’intelligence artificielle font appel aux méthodes de classification plus particulièrement l’algorithme
de la classification hiérarchique qui permet une représentation arborescente appelée dendrogramme
et les méthodes de partitionnement « clustering » comme l’algorithme des centres mobiles qui est très
utilisé dans l’apprentissage non-supervisé. En plus, les méthodes morphologiques à base des
opérateurs de traitement d’image comme l’érosion, dilatation, ouverture et fermeture peuvent être
utilisées dans le domaine de la classification.
La prévision dans le domaine d’économie et le domaine d’épidémiologie nécessitent des modèles
statistiques puissants. Pour cela, nous avons introduit la méthode des moindres carrés et les séries
chronologiques. Généralement, deux modèles sont exploités comme la prévision linéaire et la
prévision exponentielle. Pour juger l’efficacité des modèles proposés, un coéfficient de corrélation doit
être mesuré.
Cet ouvrage est organisé autour de cinq chapitres de la façon suivante :
Chapitre 1 décrit d’une façon détaillée la nature des variables, les mesures de similarité ainsi
les différents types de tableaux de données. De plus, quelques ingrédients dédiés à l’analyse
factorielle des correspondances (AFC) ont été proposés.
Chapitre 2 représente le noyau de cet ouvrage car il explique profondément l’algorithme
d’ACP avec des exercices d’applications en variant la métrique selon des données
homogènes/hétérogènes.
Chapitre 3 a un grand impact dans le clustering c.à.d. la classification non-supervisée. Ce
chapitre explique 4 méthodes de classification : Classification Hiérarchique ascendante (CHA),
Algorithme des Centres Mobiles (ACM), Maximum de Vraisemblance et les méthodes
morphologiques
Chapitre 4 joue un rôle important dans la prévision en se basant sur des méthodes statistiques
comme la méthode des moindres carrés.
Chapitre 5 : introduit les séries chronologiques qui entre dans le cadre de la prédiction en
tenant compte de la composante temporelle.
Enfin, dans l’espoir que cet ouvrage constitue la première marche d’un long escalier et permet aux
lecteurs d’acquérir des nouvelles connaissances en analyse des données.
Avant-propos 1
• Mesures de similarité 2
• Construction des tableaux de données 4
• Statistique à deux variables 7
• Classification hiérarchique 41
• Classification par partitionnement 54
• Méthodes morphologiques 62
• Techniques descriptives 69
• Modélisation 78
• Analyse de la tendance 78
• Les moyennes mobiles 80
1.1 Introduction
Ce chapitre est dédié à l’introduction de quelques notions de bases de statistique multi-
dimensionnelle comme la nature des variables et leurs codages adéquats, les tableaux de données, les
mesures de similarités/dissimilarités, les tableaux de fréquences, les profils lignes et profiles colonnes.
Il est important de connaitre les différentes métriques utilisées pour le calcul de la distance.
Généralement, deux métriques sont exploitées comme la métrique d’identité et la métrique 2
utilisée pour l’analyse factorielle des correspondances (AFC). La réduction des tableaux de données
reste un vrai challenge qui sera introduit dans ce chapitre en définissant le tableau de BURT et la
réduction par regroupement.
d ( i, j ) = d ( j , i )
d ( i, j ) 0
d ( i, i ) = 0 i = j
d ( i, j ) d ( i, k ) + d ( k , j )
Généralement, on trouve la distance euclidienne qui est utilisée pour des variables
mesurables (quantitative). La distance euclidienne est calculée par :
d ( X ,Y ) = ( x1 − y1 ) + ( x2 − y2 )
2 2
D’une façon générale, la distance est munie d’une métrique M et elle est définie par :
d 2 ( X ,Y ) = ( X − Y ) M ( X − Y )
t
d 2 ( X ,Y ) = X − Y = ( X − Y ) .M . ( X − Y )
2 t
M
n
d = ( xi − yi ) si M = I d E
2 2
M
i =1
Mesures de similarité
s ( i, j ) = s ( j , i )
On parle de dissimilarité si s est une application telle que : s ( i, j ) 0
s ( i, i ) s ( i , j )
Les mesures de similarités sont utilisées dans le cas où les individus sont décrits par la
présence ou l’absence de p caractéristiques. Plusieurs indices de similarité ont été
proposées qui combinent de diverse manières les quatre nombres suivant associés à un
couple d’individus :
a représente le nombre de fois où xij = 1 et xi ' j ' = 1 . ↶ 1 0
1 a b
b représente le nombre de fois où xij = 0 et xi ' j ' = 1 .
0 c d
c représente le nombre de fois où xij = 1 et xi ' j ' = 0 .
Les indices suivants compris entre 0 et 1 et qui sont facilement transformables en dissimilarité par
complémentation à 1 [1]:
a
1) L’indice de Jaccard : S ( I , J ) =
a+b+c
2a
2) L’indice de Dice : S ( I , J ) =
2a + b + c
a
3) L’indice de Russsel et Rao : S ( I , J ) =
a+d +b+c
a+d
4) L’indice de Rogers et Tanimoto : S ( I , J ) =
a + d + 2(b + c)
2a
5) L’indice de Jaccard : S ( I , J ) =
2a + b + c
a
6) L’indice de Sokal et Sneath : S ( I , J ) =
a + 2(c + d )
a
7) L’indice de Kulzinsky : S ( I , J ) =
c+d
La notion fondamentale en statistique est celle de groupe ou d’ensemble d’objets équivalents à
une population. Ces objets sont appelés des individus. Alors un individu est décrit par un ensemble
de caractéristiques appelées variables.
On distingue principalement deux types de variables [2]:
- Variables quantitatives par exemple Age, poids et taille, s’expriment par des nombres réels
sur lesquels on peut appliquer des opérations arithmétiques (moyenne) ont un sens. Certaines
sont discrètes (ensemble dénombrable des modalités) comme le nombre d’articles lus par un
chercheur quotidiennement, le nombre d’enfants, etc , par ailleurs d’autres sont continues si
toutes les valeurs d’un intervalle de sont acceptables.
- Variables qualitatives par exemple couleur des yeux, La mention obtenue en bac, etc
s’exprimant à l’appartenance à une modalité d’un ensemble fini. Deux types se trouvent dans
la littérature : les variables qualitatives nominale par exemple la catégorie socio-
professionnelle d’un travailleur (Cadre, employé, ouvrier…), tandis que les variables
qualitatives ordinales requièrent une relation d’ordre entre les modalités ; par exemple : les
modalités obtenues en bac sont : passable, assez bien, bien et très bien.
1.2.1 Codage des variables qualitatives nominales (VQN)
Soit la fonction N : VQN → 0,1 ; M est le nombre maximum que peut prendre la variable
M
1
( x ) = ( 0, 0, 0
pour la coordonnée de rang xij
nominale N ij ,1, 0, 0 0) :
0 ailleur
1
O ( xij ) = (1,1,1,1, 0, 0 0 ) :
pour toute les coordonnées jusqu ' au rang xij
0 ailleur
Exemple :
Tableau de codage et tableau de codage disjonctif complet : lorsque les variables sont
à laquelle appartient l’individu i est le tableau de codage. Les numéros de des modalités
étant arbitraire, on lui associera le tableau disjonctif à m1 + m2 + + mp colonnes
constitué de la façon suivante :
A toute variable à m j modalités on substitue un ensemble de m j variables valant 0 ou 1.
Tableau de distance : ce tableau est symétrique tels que les lignes et les colonnes
représentent les individus.
Exemple : Pour déterminer le tableau de distance, on a besoin de définir une mesure de
dissemblance/ressemblance.
Par exemple on a les deux individus suivants :
I1 : 1010
b+c
I 2 : 1001 ; La mesure de dissemblance : d ( I , J ) =
a+b+c+d
Est le suivant :
D I1 I2 I3 I4 I5 I6 I7
I1 0 1/2 1/2 1 0 1/2 1/2
I2 0 1 ½ 1/2 0 1
I3 0 ½ 1/2 1 0
I4 0 1 1/2 1/2
I5 0 1/2 1/2
I6 0 1/2
I7 0
Y y1 y2 yj yp
X
x1
x2
xi K ij
xn
1.4.1 Les ingrédients nécessaires pour une analyse factorielle des correspondances (AFC)
Tableau de fréquences : ce tableau est obtenu après normalisation du tableau de
K ij
contingence en divisant par K (le nombre total des individus) c.à.d. f ij = avec
K
K = Kij . Les f i• et les f • j s’appellent respectivement les fréquences marginales
i j
f. j 5/10 5/10 1
fij
Tableau des profils lignes FJi : est un tableau des fréquences conditionnelles FJi = ,
fi•
cordonnées des individus FJi associés à leurs poids fi• , noté par :
N (I ) = ( F , f ) , i = 1.......n .
J
i
i•
Exemple :
f ij
▪ Tableau des profils lignes : FJi : FJi =
f i.
FJi F1i F2i f i.
FJ1 2/4 2/4 4/10
( )
N (I ) = FJi , f i. , i = 1....... n = (2 4 ; 2 4 ), 4 10 ; (1 3; 2 3), 3 10 ; (2 3;1 3), 3 10
Un raisonnement similaire peut être réalisé pour les colonnes, alors on parle de s profiles colonnes.
Tableau des profils colonnes : FI j : est un tableau des fréquences conditionnelles
fij
FI j = , cette valeur représente la probabilité d’avoir la modalité i de la variable X
f• j
sachant que la modalité de la variable Y est j . Le nuage de point est un couple composé
de cordonnées des individus FI j associés à leurs poids f• j , noté par :
N (J ) = ( F I
j
, f • j ) , j = 1....... p .
Exemple :
f ij
- Tableau des profils colonnes : FI j : FI j =
f. j
FI j FI1 FI2
F1 j 2/5 2/5
F2 j 1/5 2/5
F3 j 2/5 1/5
f. j 5/10 5/10
( )
N ( J ) = FI j , f . j , j = 1....... p = (2 5 ;1 5 ; 2 5), 5 10 ; (2 5 ; 2 5 ;1 5), 5 10 ;
colonnes, on calcule la distance munie d’une métrique qui est définie par :
2
de la façon suivante :
diagonale D 1 définie la métrique pour le nuage N ( J ) . Alors la distance entre deux individus
f i•
( )= F ( )
p
= FJi − F ji
2 2
i'
−F i' '
2 i i
profils lignes est donnée par : d F , F J j J j f . j , tandis que
D 1 j =1
f.j
( ) ( )
n
= FI j − FI j
2 2
d 2 FI j , Fi j = FI j − Fi j
' ' '
f i.
D1
i =1
fi .
Exemple :
D 1
f ij
Soit le Tableau des profils lignes : FJi : FJi =
f i.
( )
N (I ) = FJi , f i. , i = 1....... n = (2 4 ; 2 4 ), 4 10 ; (1 3; 2 3), 3 10 ; (2 3;1 3), 3 10
5 10
f . j = alors :
5 10
2
(
d F ,F 1 2
)= F −F
1 2 2
= F −F
p
( 1
)
2 2
f. j =
(2 4 − 1 3) (2 4 − 2 3)
2
+
2
=
1
J J J J D J J
1
j =1 5 10 5 10 9
f.j
2
(
d F ,F 1 3
)= F −F
1 3 2
p
= F −F ( 1
)
3 2
f. j =
(2 4 − 2 3) (2 4 − 1 3)
2
+
2
=
1
J J J J D J J
1
j =1 5 10 5 10 9
f.j
( )
d 2 FJ2 , FJ3 = FJ2 − FJ3
2
p
= FJ2 − FJ3( )2
f. j =
(1 3 − 2 3)2 + (2 3 − 1 3)2 =
4
D 1
j =1 5 10 5 10 9
f.j
(
d 2 FJi , FJi
'
) FJ1 FJ2 FJ3
FJ1 0 1/9 1/9
Centre de gravité pour chaque nuage : généralement, le centre de gravité est donné par
n
P *x i i
la formule suivante : g = i =1
n
alors le Centre de gravité pour le nuage N ( I ) est
P
i =1
i
f i. * FJi
g N (I ) = i =1
n
=
f i =1
i.
n f ij
f
n
i =1
.j *
f. j f ij
défini par : n
= i =1
n
f
i =1
i. f
i =1
i.
f. j f. j f. j f. j
= p
= p
= p
=
n n K ij 1 n 1
f
i =1 j =1
ij K K ij
K i =1 j =1 K
*K
i =1 j =1
= f. j
f
j =1
.j * FI j
g N (J ) = p
f
j =1
.j
p f ij p
f. j *
j =1 f. j f ij
j =1
= p
= p
fj =1
.j f
j =1
.j
f i. f i. f i.
= p
= p
=
n
1 n 1
f
j =1 i =1
ij K ij
K j =1 i =1 K
*K
= f i.
Remarque :
Le centre de gravité pour le nuage N ( I ) corresponds aux fréquences marginales colonnes, tandis que
Exemple :
- Le centre de gravité du nuage N (I )
n n
p i . xi f i. * FJi
4 2 4 3 1 3 3 2 3 5 10
g N (I ) = i =1
= i =1
= + + = = f. j
n n
10 2 4 10 2 3 10 1 3 5 10
p
i =1
i f
i =1
i.
f j =1
.j * FI j
5
2 5
5
2 5 4 10
g N (J ) = p
= 1 5 + 2 5 = 3 10 = f i.
10 10 1 5 3 10
f j =1
.j 2 5
( )
n
- L’inertie pour le nuage N ( I ) est calculée par : I N ( I ) = f i. d 2 FJi , f . j avec
i =1
( ) ( )
p
= FJi − f . j
2 2
d 2 FJi , f . j = FJi − f . j f. j
D 1
j =1
f.j
( )
n p
f i. FJi − f . j
2
Donc : I N ( I ) = f. j
i =1 j =1
( )
p
- L’inertie pour le nuage N ( J ) est déterminée par : I N ( J ) = f . j d 2 FI j , f i. avec
j =1
( ) ( )
n
= FI j − f i.
2 2
d 2 FI j , f i. = FI j − f i. f i.
D1
i =1
fi .
( )
p n
f . j FI j − f i.
2
Donc : I N ( J ) = f i.
j =1 i =1
Exemple :
L’inertie du nuage N (I )
( )
N (I ) = FJi , f i. , i = 1....... n = (2 4 ; 2 4 ), 4 10 ; (1 3; 2 3), 3 10 ; (2 3;1 3), 3 10
5 10
f . j =
( )
p
5 10 I N ( J ) = f . j d 2 FI j , f i.
( ) ( )
n
= FI j − f i.
2 2
j =1
d 2 FI j , f i. = FI j − f i. f i.
D1
i =1
fi .
( ) ( ) ( )
n p
I N ( I ) = f i. d 2 FJi , f . j = FJi − f . j
2 2
et d 2 FJi , f . j = FJi − f . j f. j
D
i =1 1
j =1
f.j
(2 / 4 − 5 / 10)2 (2 / 4 − 5 / 10)2
( 1
J ) 2
( J
2
)
I N ( I ) = f1. .d F , f . j + f 2. .d F , f . j + f 3. .d F , f . j = 4 / 10.
2 2
( J
3
) +
5 / 10 5 / 10
(1 / 3 − 5 / 10) (2 3 − 5 / 10)
2 2
(2 / 3 − 5 / 10) (1 / 3 − 5 / 10)
2 2
+ 3 / 10. + + 3 / 10. + =
5 / 10 5 / 10 5 / 10 5 / 10
4 10
( )
N ( J ) = FI , f . j , j = 1....... p = (2 5 ;1 5 ; 2 5), 5 10 ; (2 5 ; 2 5 ;1 5), 5 10 ; f i. = 3 10
j
3 10
( )
I N ( J ) = f . j d 2 FI j , f i. et d 2 (FI j , f i. ) = FI j − f i. ( )
p n
= FI j − f i.
2 2
f i.
D1
j =1 i =1
fi .
Réponse1 Réponse2
V1 V2 V3 V4 V5 V6
P1 1 0 1 1 1 0
P2 0 1 1 0 0 0
P3 1 0 1 1 0 0
P4 1 0 1 1 1 1
P5 0 1 1 0 0 0
P6 1 0 1 1 1 0
P7 1 0 1 1 1 0
P8 1 0 1 1 1 1
P9 0 1 1 0 0 0
P10 1 0 1 1 1 0
P11 1 0 1 1 0 0
P12 1 0 1 1 1 0
2. Pour réduire le tableau de codage, il faut tout d’abord ignorer la relation d’ordre de la deuxième
variable (Fréquence de lecture) ensuite, on calcule le tableau de Burt.
Réponse1 Réponse2
V1 V2 V3 V4 V5 V6
P1 1 0 0 0 1 0
P2 0 1 1 0 0 0
P3 1 0 0 1 0 0
P4 1 0 0 0 0 1
P5 0 1 1 0 0 0
P6 1 0 0 0 1 0
P7 1 0 0 0 1 0
P8 1 0 0 0 0 1
P9 0 1 1 0 0 0
P10 1 0 0 0 1 0
P11 1 0 0 1 0 0
P12 1 0 0 0 1 0
Tableau de Burt
9 0 0 2 5 2
0 3 3 0 0 0
0 3 3 0 0 0
B=Xt.X= 2 0 0 2 0 0
5 0 0 0 5 0
2 0 0 0 0 2
K ij
Tableau de fréquence : f ij =
K
f ij f i1 fi2 fi3 fi4 f i.
f1 j 0 2/12 5 /12 2/12 9/12
f2 j 3/12 0 0 0 3/12
f. j 3/12 2/12 5/12 2/12
f ij
Tableau des profils lignes : FJi : FJi =
f i.
FJi F1i F2i F3i F4i f i.
FJ1 0 2/9 5/9 2/9 9/12
FJ2 1 0 0 0 3/12
( )
N (I ) = FJi , f i. , i = 1.......n = (0;2 / 9;5 / 9;2 / 9), 9 12;(1;0;0;0), 3 12
f ij
Tableau des profils colonnes : FI j : FI j =
f. j
FI j FI1 FI2 FI3 FI4
F1 j 0 1 1 1
F2 j 1 0 0 0
f. j 3/12 2/12 5/12 2/12
( )
N (J ) = FI j , f . j , j = 1....... p = (0;1), 3 12; (1;0), 2 12; (1;0), 5 12; (1;0), 2 12
( )
N (I ) = FJi , f i. , i = 1.......n = (0;2 / 9;5 / 9;2 / 9), 9 12;(1;0;0;0), 3 12
3 / 12
2 / 12
f. j =
5 / 12
2 / 12
( ) ( ) ( )
n p
I N ( I ) = f i. d 2 FJi , f . j = FJi − f . j
2 2
et d 2 FJi , f . j = FJi − f . j f. j
D
i =1 1
j =1
f.j
9 / 12
( )
N (J ) = FI j , f . j , j = 1....... p = (0;1), 3 12; (1;0), 2 12; (1;0), 5 12; (1;0), 2 12 f i. =
3 / 12
( )
p
I N ( J ) = f . j d 2 FI j , f i.
j =1
et
( ) ( )
n
= FI j − f i.
2 2
d 2 FI j , f i. = FI j − f i. f i.
D1
i =1
fi .
( ) ( ) ( )
I N ( J ) = f .1 .d 2 FI1 , f i. + f .2 .d 2 FI2 , f i. + f .3 .d 2 FI3 , f i. + f .4 .d 2 FI4 , f i. = ( )
(0 − 9 / 12)2 (1 − 3 / 12)2 (1 − 9 / 12)2 (0 − 3 / 12)2
3 / 12. + + 2 / 12. + +
9 / 12 3 / 12 9 / 12 3 / 12
(1 − 9 / 12)2 (0 − 3 / 12)2 (1 − 9 / 12)2 (0 − 3 / 12)2
5 / 12. + + 2 / 12. + =
9 / 12 3 / 12 9 / 12 3 / 12
-
La relation entre les deux nuage réside dans l’égalité d’inertie
Exercice 2 :
Soit un ensemble de sept individus ayant répondu à deux questions comme suivant :
I1=(Oui, Oui) ; I2=(Oui, Non) ; I3=(Non, OUI) ; I4=(Non, Non) ; I5=(Oui, Oui) ; I6=(Oui, Non) ; I7=(Non,
Oui)
1. Déterminer le tableau de codage disjonctif complet.
b+c
2. En utilisant la mesure d ( I , J ) = , donner le tableau de distance correspondant.
a+b+c+d
3. En déduire une classification en 4 classes, 3 classes.
4. Réduire le tableau de codage.
- Solution :
1. Tableau de codage disjonctif :
Réponse 1 Réponse 2
V1 V2 V3 V4
I1 1 0 1 0
I2 1 0 0 1
I3 0 1 1 0
I4 0 1 0 1
I5 1 0 1 0
I6 1 0 0 1
I7 0 1 1 0
I1 : 1010
b+c
I 2 : 1001 ; La mesure de dissemblance : d (I, J ) =
a+b+c+d
a = 1; b = 1; c = 1; d = 1. d (I1, I 2) = 2 / 4 = 1/ 2
2. Tableau de distance
D I1 I2 I3 I4 I5 I6 I7
I1 0 1/2 1/2 1 0 1/2 1/2
I2 0 1 1/2 1/2 0 1
I3 0 1/2 1/2 1 0
I4 0 1 1/2 1/2
I5 0 1/2 1/2
I6 0 1/2
I7 0
3. Classification en 4 classes :
C1 = I1 , I 5 ; C2 = I 2 , I 6 ; C3 = I 3 , I 7 et C4 = I 4
Classification en 3 classes :
C1 = I1 , I 5 ; C2 = I 2 , I 6 ; C3 = I 3 , I 4 , I 7 ou bien C1 = I1 , I 5 ; C2 = I 2 , I 6 ;
C3 = I 3 , I 7
4. Réduction du tableau de codage :
▪ Tableau de Burt :
V1 V2 V3 V4
V1 4 0 2 2
t
B=X .X= V2 0 3 1 2
V3 2 1 3 0
V4 2 2 0 4
V1 V2 V3 V4
C1 2 0 2 0
C2 2 0 0 2
C3 2 1 3 0
C4 0 2 2 0
1.5 Conclusion
Dans ce chapitre, nous avons introduit les notions de base en statistique et en analyse des
données en décrivant les différents tableaux de données ainsi les mesures de similarité. Après,
nous avons défini les ingrédients nécessaires d’une analyse factorielle des correspondances en
introduisant les tableaux des profils lignes et colonnes, le centre de gravité de chaque nuage et
les métriques utilisées. L’analyse factorielle sera détaillée dans le chapitre suivant.
2.1 Introduction
L’analyse en composantes principales (ACP) est une des premières analyses factorielles et qui
attire l’attention des scientifiques jusqu’à présent sachant que l’ACP a été conçue par Karl Pearson en
1901 [4].
Plusieurs applications font appel à l’intégration de l’ACP comme une méthode de sélection des
attributs. Souvent, l’ACP est appliqué comme une méthode de prétraitement dans le domaine
d’intelligence artificielle [5]. Plusieurs variantes de l’ACP figurent dans la littérature comme l’ACP non-
normée (données homogènes) qui utilise un nuage de point centré, ou bien l’ACP centrée réduite
(données hétérogènes) qui utilise un nuage de point centré et réduit. L’algorithme d’ACP permet de
traiter un tableau de type individu/variable <n, p>.
Nous trouvons aussi d’autres variantes telles que l’analyse en composantes curviligne pour
remédier la linéarité des projections [6], ou encore l’analyse en composantes indépendantes pour la
séparation de source [7]. L’analyse factorielle des correspondances (AFC) permet une représentation
simultanée des individus et des variables et qui peut être traitée comme double ACP sur un tableau
croisé. [8].
I xi = Pi .d 2 (xi , g )
nuage de points autour de son centre de gravité.
n
I = Pi .d 2 ( xi , g )
i ==1
I X i / = Pi d i2/
*
Xi
+
+ + u
g
+ +
Fig 2.1 :
^ ^ 2
= Xi + di / di / = Xi − Xi
2 2 2 2
D’après le théorème de Pythagore : X i M M
M M
n ^ 2 n ^ 2
I / = Pi d i2/ et d i / I / = Pi . X i
2
= Xi
2
− Xi
2
− Xi
M M
i =1 M i =1 M
n n ^ 2
I / = Pi . X i − Pi . X i
2
M
→ M : Métrique
i =1 i =1 M
n n
I / = Pi . X i − Pi . X i ,U M
2 2
M
i =1 i =1
n n
I / = Pi . X i − Pi . X i ,U tM . X i ,U M
2
M
i =1 i =1
n n
I / = Pi . X i − Pi .( X i .M .U ) .( X i .M .U )
2 t
M
i =1 i =1
n n
I / = Pi . X i − Pi .U t .M t . X it . X i .M .U → M t = M
2
M
i =1 i =1
n n
I / = Pi . X i − Pi .U t .M . X it . X i .M .U
2
M
i =1 i =1
n n n
I / = Pi . X i − U t .M Pi . X it . X i .M .U → V = Pi . X it . X i
2
M
i =1 i =1 i =1
n
I / = Pi . X i − U t .M .V .M .U
2
M
i =1
Min I / Max U t .M .V .M .U
V .M .U k = k .U k Tels que U k : Vecteurs propres de la matrice V.M ; k : Valeurs propres de la
matrice V.M
: Variables homogènes
I
La métrique M = D 1
2j : Variables hétérogènes
: Variables homogènes
U i , U j M = U it MU j = 0 i j = U i , U i M = U it MU i = 1
2
Ui
&
P .C i
i
k
1 N i N
1) Moy(C k ) = 0 i =1
n
=0 Ck = 0 C ki = 0
P
N i =1 i =1
i
i =1
P .(C )
N
2) Var (C k ) = k Var (C k ) = i 2 1 t
i k = C k * C k 3) 3
i =1 N
Cov(C i , C j )
( )
3) Cor C i , C j = = 0 Cov(C i , C j ) = 0
1 t
Ci * C j = 0
C . C i j
N
p .x i ij
1
1. Centrer le tableau ( X n , p ) : X = X − g et g = i =1
; j = 1... p; i = 1... N & pi =
' j
N
p
N
i
i =1
1 t
2. Calculer la matrice variance –covariance : V = X .X
N
I
3. Déterminer la métrique M = D 1 Données homogènes/ hétérogènes.
2j
4. Recherche des axes principaux U k de la matrice (VM )
Calculer les valeurs propres : dét(VM − I ) = 0
Trier les valeurs propres par ordre décroissant : 1 2 ..... p .
𝐽
∑ 𝜆𝑖
5. Calculer la qualité de représentation : 𝑄𝑗 = ∑𝑖=1
𝑝 ≥ 80%.
𝑖=1 𝜆𝑖
6. Calculer les vecteurs propres U k de la matrice (VM ) en utilisant la formule : VMU k = kU k .
7. Calculer les composantes principales : C ki = X i ,U k M = X it MU k et Ck = XMU k .
8. Représenter graphiquement les individus dans l’espace réduit en utilisant les composantes principales.
9. Les contributions aux inerties :
ik =
( )
Pi . Cki
2
P. Ci
= i k = i k
( ) 2
P. Ci ( ) 2
Var (Ck ) k
P .(C )
n
i 2
i k
i =1
( )
N
( Pi . X i j .Cki
)
1 t
X j .Ck
(
Cor X j , C K ) =
Cov X j , Ck
X j . Ck
= i =1 = N
X j . k X j . k
N1 N2 N3
I1 8 1 0
I2 4 6 5
I3 6 8 7
I4 10 4 7
I5 8 2 5
I6 0 3 6
1. Le tableau centré X n , p :
n
p .x i i
Calcul du centre de gravité : g = i =1
n
p
i =1
i
1 1
Pi = où N représente le nombre d’individus. Cela implique que Pi = ; i = 1,......... ., n;1...6 ;
N 6
j = 1,....... p;1...3
1
(8 + 4 + 6 + 10 + 8 + 0)
6 6
g=
1
6
(1 + 6 + 8 + 4 + 2 + 3) = 4
1 5
(0 + 5 + 7 + 7 + 5 + 6 )
6
N1 N2 N3 8−6 1− 4 0 − 5 + 2 − 3 − 5
I1 8 1 0 4−6 6−4 5−5 −2 + 2 0
6−6 8−4 7−5 0 + 4 + 2
I2 4 6 5 Tableau centré X = =
I3 6 8 7 10 − 6 4 − 4 7 − 5 + 4 0 + 2
8−6 2−4 5−5 + 2 −2 0
I4 10 4 7
0−6 3 − 4 6 − 5 − 6 −1 + 1
I5 8 2 5
I6 0 3 6
2. Calcul de la matrice variance –covariance :
g 6 4 5
64 − 8 − 8
1 t 1
V = X . X V = − 8 34 22 .
N 6
− 8 22 34
3. Détermination de la métrique :
1 0 0
Les données sont homogènes car elles possèdent le même type de mesure M = Id = 0 1 0
0 0 1
dét(VM − I ) = 0
64 − 6 −8 −8
dét(VM − I ) =
1
−8 34 − 6 22 = 0 3 − 222 + 136 − 192 = 0
6
−8 22 34 − 6
i
1 12
Qj = i =1
80% Q1 = = = 0.54 = 54% 80%
p
1 + 2 + 3 12 + 8 + 2
i =1
i
1 + 2 12 + 8
Q2 = = = 0.9 = 90% 80% Il y’a deux axes principaux U1 ,U 2 relatifs
1 + 2 + 3 12 + 8 + 2
aux valeurs propres 1 , 2
Eq (4)dansEq(3) : −8 x + 22 y − 38 y = 0 x = −2 y 1
− 2 − 2
U 1* 1
U 1 = U 1 .M .U 1 = (− 2 1 1).Id . 1 = 6 U 1 = 6 U 1 = * =
* 2 *t * *
1
1 6
M M
U1
M
1
64 − 8 − 8 x x 64x − 8 y − 8 z = 48x
'
'
' ' ' '
16x ' − 8 y ' − 8 z ' = 0 → (a )
1
VMU 2 = 2U 2 − 8 34 22 y ' = 8 y ' − 8 x ' + 34 y ' + 22z ' = 48 y ' − 8 x ' − 14 y ' − 8 z ' = 0 → (b)
6 ' ' ' (c )
− 8 22 34 z z − 8 x + 22 y + 34z = 48z − 8 x + 22 y − 14z = 0 →
' ' ' ' ' '
1
Eq (b ) − Eq (c ) : −36 y ' + 36z ' = 0 y = z → (d )
U *
= 1
Eq (d )dansEq(a ) : 16x ' − 8 y ' − 8 y ' = 0 x = y
2
1
1 1
U 2* 1
U 2 = U 2 .M .U 2 = (1 1 1).Id .1 = 3 U 2 = 3 U 2 = * =
* 2 *t * *
1
1 3
M M
U2
M
1
+ 2 − 3 − 5 − 12 − 2
−2 +2 0 −2 +6 +1
0 + 4 + 2 1 1 + 6 +1
C1 = X .M .U 1 = X .Id .U 1 = X .U 1 = .
1 = = 6
+4 0 +2 6 6 −6 −1
+2 −2 0 1 −6 −1
− 6 −1 +1 + 12 + 2
+ 2 − 3 − 5 − 6 − 2
−2 +2 0 0 0
0 + 4 + 2 1 1 + 6
1
+ 2
C 2 = X .M .U 2 = X .Id .U 2 = X .U 2 = . 1 = = 3
+4 0 +2 3 3 + 6 + 2
+2 −2 0
1 0 0
− 6 −1 +1 − 6 − 2
8. Représentation graphique des individus :
(
I1 = − 2 6 ,−2 3 ; I 2 = ) ( )
6 ,0 ; I 3 = ( ) ( ) ( ) (
6 ,2 3 ; I 4 = − 6 ,2 3 ; I 5 = − 6 ,0 ; I 6 = 2 6 ,−2 3 )
ik =
( )
Pi . Cki
2
P. Ci ( )
= i k = i k
2
P. Ci ( ) 2
Var (Ck ) k
P .(C )
n
i 2
i k
i =1
( )
P1 . C11
2
1
.−2 6 ( )
2
1
11 = =6 = = 0.33
1 12 3
( )
P1 . C 1 2
1
6
.−2 3( )2
1
12 = 2
= = = 0.25;
2 8 4
refaire l’ACP.
cos ( ) =
2 (C ) 1 2
1
=
(− 2 6 ) 2
=
24
=
24
= 0.63
2 4 + 9 + 25 38
11 2
X 1 M
(2 − 3 − 5).Id . − 3
− 5
cos ( ) =
2 (C ) 1
2 2
=
( 6) 2
=
6
= 0.75; cos 2 ( 31 ) = 0.3; cos2 ( 41 ) = 0.3; cos 2 ( 51 ) = 0.75;
4+4+0
21 2
X 2 M
8
cos 2 ( 61 ) = 0.63;
cos ( ) =
2 (C ) 1 2
2
=
(− 2 3 ) 2
=
12
=
12
= 0.32
2 4 + 9 + 25 38
12 2
X 1 M
(2 − 3 − 5).Id . − 3
− 5
cos ( ) =
2 (C ) 2 2
2
=
(0)2 = 0; cos2 (32 ) = 0.6; cos2 ( 42 ) = 0.6; cos 2 ( 52 ) = 0;
4+4+0
22 2
X 2 M
cos 2 ( 62 ) = 0.32;
( )
n
( )
Pi . X i j .Cki 1 t
X j .Ck
(
Cor X j , C K ) =
Cov X j , Ck
X j . Ck
= i =1 = N
X j . k X j . k
− 2
+1
1
(2 − 2 0 4 2 − 6)* 6 +− 11
6
−1
( )
n
Cov X 1 , C1
1 1t
( )
1 i
P . X .C X .C
( ) + 2 = − 3
i i 1 1
Cor X : N1 , C1 =
1
= i =1
= N =
X 1 . C1 X 1 . 1 X 1 . 1 64 6 * 12 2
− 2
0
1
(2 − 2 0 4 2 − 6)* 3 ++ 22
6
0
( )
n
( Pi . X i1.C2i 1 X 1 t .C2
)
− 2 = 1
( )
1
Cov X , C2 i =1 N
Cor X : N1 , C2 =
1
= = =
X 1 . C2 X 1 . 2 X 1 . 2 64 6 * 8 2
− 2
+1
1
(− 3 2 4 0 − 2 − 1)* 6 +− 11
6
−1
( )
n
Cov X 2 , C1
1 2t
( )
2 i
P . X .C X .C1
( ) + 2 = 6 17 = 0.59
i i 1
Cor X : N 2 , C1 =
2
= i =1
= N =
X 2 . C1 X 2 . 1 X 2 . 1 34 6 * 12
− 2
0
1
(− 3 2 4 0 − 2 − 1)* 3 ++ 22
6
0
( )
n
Cov X 2 , C2
1 2t
( )
2 i
P . X .C X .C2
( ) − 2 = 4 = 0.68
i i 2
Cor X : N 2 , C2 =
2
= i =1
= N =
X 2 . C2 X 2 . 2 X 2 . 2 34 6 * 8 34
− 2
+1
1
(− 5 0 2 2 0 1)* 6 +− 11
6
−1
( )
n
Cov X 3 , C1
1 3t
( )
3 i
P . X .C X .C
( ) + 2 = 1
i i 1 1
Cor X : N 3 , C1 =
3
= i =1
= N =
X 3 . C1 X 3 . 1 X 3 . 1 34 6 * 12 2
− 2
0
1
(− 5 0 2 2 0 1)* 3 ++ 22
6
0
( )
n
( P
) . X 3 i
.C 1 3t
X .C
− 2 = 4 = 0.68
( ) Cov X 3 , C2 i =1 i i 2 N 2
Cor X : N 3 , C2 =
3
= = =
X 3 . C2 X 3 . 2 X 3 . 2 34 6 * 8 34
-1
La deuxième composante C2 est positivement corrélée avec les trois variables (N1, N2 et N3). C 2
nous informe sur le résultat général de l’étudiant (C2≈moyenne).
C1 est positivement corrélée avec N2, N3 et négativement corrélée avec N1. C1 nous informe sur la
différence entre les résultats des deux derniers examens et le 1 ier examen.
Poids Taille
I1 20 15
I2 5 2
I3 12 21
I4 21 13
I5 2 7
I6 12 20
Le tableau centré X n , p :
n
p .x i i
Calcul du centre de gravité : g = i =1
n
p
i =1
i
1 1
Pi = où N représente le nombre d’individus. Cela implique que Pi = ; i = 1,......, n;1...6 ;
N 6
j = 1,.... p;1...2
1
(20 + 5 + 12 + 21 + 2 + 12) 12
g =6 =
1 (15 + 2 + 21 + 13 + 7 + 20) 13
6
Poids Taille 20 − 12 15 − 13 8 2
I1 20 15 5 − 12 2 − 13 − 7 − 11
12 − 12 21 − 13 0 8
I2 5 2 Tableau centré X = =
I3 12 21 21 − 12 13 − 13 9 0
2 − 12 7 − 13 − 10 − 6
I4 21 13
12 − 12 20 − 13 0 7
I5 2 7
I6 12 20
Calcul de la matrice variance –covariance :
g 12 13
1 t 1 294 153
V= X . X V = .
N 6 153 274
Détermination de la métrique :
dét(VM − I ) = 0
1 1 − 0.56
dét(VM − I ) = = 0 2 − 2 + 0.71 = 0
6 0.52 1 −
− b + 2 − 1.08
2 = = = 0.46
= b − 4ac = (− 2) − 4.(1)(0.71) = 1.16 → = 6 2 a 2
2 2
= − b − = 2 + 1.08 = 1.54
3 2a 2
1 = 1.54 2 = 0.46
i
1 1.54
Qj = i =1
80% Q1 = = = 0.77 = 77% 80%
p
1 + 2 1.54 + 0.46
i =1
i
1 + 2 1.54 + 0.46
Q2 = = = 1 = 100% 80% → Il y’a deux axes principaux U1 ,U 2 relatifs aux
1 + 2 1.54 + 0.46
valeurs propres 1 , 2
8 2 1.03
− 7 − 11 − 1.83
0 8 0.02 0 5.2 0.8
C1 = X .M .U 1 = X .D 1 .U 1 = . =
9 0 0 0.02 5 0.9
j2
− 10 − 6 − 1.64
0 7 0.7
8 2 − 0.63
− 7 − 11 − 0.37
0 8 0.02 0 − 5.2 0.8
C 2 = X .M .U 2 = X .D 1 .U 2 = . =
2j 9 0 0 0.02 5 − 0.9
− 10 − 6 0.44
0 7 0.7
Représentation graphique des individus :
I1 = (1.03,−0.63); I 2 = (− 1.83,−0.37); I 3 = (0.8,0.8); I 4 = (0.9,−0.9); I 5 = (− 1.64,0.44); I 6 = (0.7,0.7 )
1.03 − 0.63
− 1.83 − 0.37
0 .8 0 .8
C1 = C2 =
0 .9 − 0 .9
− 1.64 0.44
0 .7 0 .7
ik =
( )
Pi . Cki
2
P. Ci ( )
= i k = i k
2
P. Ci ( ) 2
Var (Ck ) k
P .(C )
n
i 2
i k
i =1
.(1.03)
1
( )
2
1 2
P1 . C
11 = 1
=6 = 0.11
1 1.54
.(− 0.63)
1
( )
2
2
P1 . C21
12 = =6 = 0.14;
2 8
cos2 (11 ) =
(C ) 1 2
1
=
(1.03)2 = 0.78
(8 2).
X
2
0.02 0 8
1 M .
0 0.02 2
cos ( ) =
2 (C ) 1
2 2
=
(− 1.83)2 = 0.98
0 −7
(− 7 − 11).
21 2
X 0.02
2 M .
0 0.02 − 11
cos2 (31 ) = 0.5; cos2 ( 41 ) = 0.54; cos 2 ( 51 ) = 0.99; cos2 (61 ) = 0.5;
Par rapport à l’axe U 2 : i=1…6
cos ( ) =
2 (C ) 1 2
2
=
(− 0.63)2 = 0.29
(8 2).
12
X
2
0.02 0 8
1 M .
0 0.02 2
cos ( ) =
2 (C ) 2 2
2
=
(− 0.37)2 = 0.04;
0 −7
(− 7 − 11).
22 2
X 0.02
2 M .
0 0.02 − 11
cos2 (32 ) = 0.5; cos2 ( 42 ) = 0.54; cos2 (52 ) = 0.07; cos2 ( 62 ) = 0.5;
Représentation des variables à l’aide du coefficient de corrélation
( ) .C
n
) = P .X
1
(
j
.Cki j t
X
( )
j i i
Cov X , Ck N
k
Cor X j , C K = i =1
=
X j . Ck X . k j X . k
j
1.03
− 1.83
1
(8 − 7 0 9 − 10 0)* 00..98
6
− 1.64
( )
n
( Pi . X i1 .C1i 1 X 1 t .C1
)
( )
1
Cor X : Poids, C1 =
1 Cov X , C1 i =1
= = N = 0.7
= 0.88
X 1 . C1 X 1 . 1 X 1 . 1 294 6 * 1.54
− 0.63
− 0.37
1
(8 − 7 0 9 − 10 0)* −00.8.9
6
0.44
( )
n
( ) Pi . X i1 .C 2i 1 X 1 t .C 2
( )
1
Cor X : Poids, C 2 =
1 Cov X , C 2
= i =1
= N = 0.7
= −0.54
X 1 . C2 X 1 . 2 X 1 . 2 294 6 * 0.46
1.03
− 1.83
1
(2 − 11 8 0 − 6 7) * 00..98
6
− 1.64
( )
n
( ) Pi . X i2 .C1i 1 X 2 t .C1
( )
2
Cor X : Taille, C1 =
2 Cov X , C1
= i =1
= N = 0.7
= 0.86
X 2 . C1 X 2 . 1 X 2 . 1 274 6 * 1.54
− 0.63
− 0.37
1
(2 − 11 8 0 − 6 7 )* −00.8.9
6
0.44
( )
n
(
) Pi . X i2 .C 2i 1 X 2 t .C2
( )
2
Cor X : Taille, C 2 =
2 Cov X , C2 i =1
= = N = 0.7
= 0.42
X 2 . C2 X 2 . 2 X 2 . 2 274 6 * 0.46
Cercle de corrélation : +1
0.4 *T
-1 0.88 +1
*P
C1 C2 C3 C4
C1 : Poids et taille importants / Poids >taille.
C2 : Poids et taille importants / Poids <taille.
C3 : Poids et taille petits / Poids >taille.
C4 : Poids et taille petits / Poids <taille.
P2 = I1 , I 2 , I 4 , I 3 , I 5 , I 6
C1 C2
C1 : Poids >taille.
C2 : Poids <taille.
P3 = I1 , I 3 , I 4 , I 6 , I 2 , I 5
C1 C2
C1 : Poids et taille importants.
C2 : Poids et taille importants.
P4 = I1 , I 4 , I 3 , I 6 , I 2 , I 5
C1 C2 C3
C1 : Poids et taille importants / Poids >taille.
C2 : Poids et taille importants / Poids <taille.
C3 : Poids et taille petits.
P5 = I1 , I 3 , I 4 , I 6 , I 2 , I 5
C1 C2 C3
C1 : Poids et taille importants.
C2 : Poids et taille petits / Poids >taille.
C3 : Poids et taille petits/ Poids< taille.
Exercice :
On a relevé dans trois magasins (M1, M2 et M3) d’un même quartier appartenant à des chaines
différentes. Les prix affichés pour quatre produits vendus sous quatre marques différentes (A, B, C et
D).
M1 M2 M3
A 16 20 12
B 20 12 22
C 16 24 26
D 28 24 20
cette ACP
2. Représenter le nuage des points produits dans le plan principal.
Solution :
1. U1 ,U 2 sont des vecteurs propres de VM 1 tq VMU1 = 1 U1 ; 2 tq VMU 2 = 2 U 2
Le tableau centré X n , p :
n
p .x i i
Calcul du centre de gravité : g = i =1
n
p
i =1
i
1 1
Pi = où N représente le nombre d’individus. Cela implique que Pi = ; i = 1,........, n; i = 1...' ;
N 4
j = 1,....... p;1...3
1
(16 + 20 + 16 + 28)
4 20
g=
4
1
(20 + 12 + 24 + 24) = 20
1 20
(12 + 22 + 26 + 20)
4
M1 M2 M3
16 − 20 20 − 20 12 − 20 − 4 0 − 8
A 16 20 12
Tableau centré X = 20 − 20 12 − 20 22 − 20 = 0 − 8 2
B 20 12 22 16 − 20 24 − 20 26 − 20 − 4 4 6
28 − 20 24 − 20 20 − 20 8 0
C 16 24 26 4
D 28 24 20
g 20 20 20 Calcul de la matrice variance –covariance :
24 4 2
1 t
V = X . X V = 4 24 2 .
N 2 2 26
Détermination de la métrique :
1 0 0
Les données sont homogènes car elles possèdent le même type de mesure M = Id = 0 1 0
0 0 1
U1 ,U 2 sont des vecteurs propres de VM 1 tq VMU1 = 1 U1 ; 2 tq VMU 2 = 2 U 2
24 4 2 1 1
1 1 30
1 tq VMU 1 = 1 U 1 4 24 2 . 1 = 1 1 = 1 1 = 30
2 2 26 3 1 3 3 3
1
24 4 2 1 1
1 1 24
2 tq VMU 2 = 2 U 2 4 24 2 . 1 = 2 1 = 1 2 = 24
2 2 26 6 − 2 6 6 6
− 2
Le plan principal : On cherche à projeter les données dans un espace à deux dimensions
U1 ,U 2
P
Tr (VM ) = j 74 = 30 + 24 + 3 3 = 20 (1 = 30 2 = 24 3 = 20)
j =1
− 12 − 4
− 4 0 − 8 1
1 1 −6 −2
C1 = X .M .U 1 = X .Id .U 1 = X .U 1 = 0 − 8 2 . 1 = = 3
+ 2
− 4 4 6 3 3 +6
8
1
4 0 + 12 + 4
+ 12 + 2
− 4 0 − 8 1
1 1 − 12 −2
C 2 = X .M .U 2 = X .Id .U 2 = X .U 2 = 0 − 8 2 . 1 = = 6
− 2
− 4 4 6 6
−
6 − 12
8 2
4 0 + 12 + 2
( ) ( ) ( )
A = − 4 3,+2 6 ; B = − 2 3,−2 6 ; C = 2 3,−2 6 ; D = 4 3,2 6 ; ( )
1 1
1 1
C1 = X .M .U 1 = X .Id .U 1 = X .U 1 = (16 − 20 8 − 20 12 − 20). 1 = (− 4 − 12 − 8) 1 = −8 3
3 3
1 1
1
1
C 2 = X .M .U 2 = X .Id .U 2 = X .U 2 = (− 4 − 12 − 8). 1 =0
6
− 2
(
E = − 8 3 ,0 ; )
4. Représentation des variables à l’aide du coefficient de corrélation
( )
n
( )
Pi . X i j .Cki 1 t
X j .Ck
( j
Cor X , C K ) =
Cov X j , Ck
X j . Ck
= i =1 = N
X j . k X j . k
− 4
1
(− 4 0 − 4 − 8)* 3 − 2
+2
( )
n
4
( Pi . X i1.C1i 1 X 1 t .C1
)
+ 4 = − 3 = 0.39
( )
1
Cov X , C1 i =1
Cor X 1 : M 1 , C1 = = =N =
X 1 . C1 X 1 . 1 X 1 . 1 24 * 30 2 5
+ 2
1
(− 4 0 − 4 − 8)* 6 − 2
−2
( )
n
4
( Pi . X i1.C2i 1 X 1 t .C2
)
+
2 = − 1 = −0.41
( )
1
Cov X , C2 i =1
Cor X 1 : M 1 , C2 = = =N =
X 1 . C2 X 1 . 2 X 1 . 2 24 * 24 6
− 4
1
(0 − 8 4 4)* 3 − 2
+2
( )
n
4
( Pi . X i2 .C1i 1 X 2 t .C1
)
+ 4 = 5 = 0.64
( )
2
Cov X , C
Cor X 2 : M 2 , C1 = 1
= i =1 =N =
X 2 . C1 X 2 . 1 X 2 . 1 24 * 30 2 3
+ 2
1
(0 − 8 4 4)* 6 − 2
−2
( )
n
4
(Pi . X i2 .C 2i 1 X 2 t .C 2
)
+ 2 = 1 = 0.41
( )
2
Cov X , C 2
Cor X 2 : N 2 , C2 = = i =1 = N =
X 2 . C2 X 2 . 2 X 2 . 2 24 * 24 6
− 4
1
(− 8 2 6 0)* 3 − 2
+2
( )
n
4
( ) Pi . X i3 .C1i 1 X 3 t .C1
+ 4 = 5 = 0.62
( )
3
Cov X , C1
Cor X 3 : N 3 , C1 = = i =1 = N =
X 3 . C1 X 3 . 1 X 3 . 1 26 * 30 13
+ 2
1
(− 8 2 6 0)* 6 − 2
−2
( )
n
4
(
) Pi . X i3 .C 2i 1 t
X 3 .C 2
+ 2 = − 4
( )
3
Cov X , C 2
Cor X 3 : N 3 , C2 = = i =1 = N =
X 3 . C2 X 3 . 2 X 3 . 2 26 * 24 26
La première composante C1 est positivement corrélée avec les trois variables (M1, M2 et M3). C1 nous
informe sur la quantité moyenne stockée dans les trois magasins (C1≈moyenne).
C2 est positivement corrélée avec M2 et négativement corrélée avec M1, M3. C1 nous informe sur la
différence entre la quantité stockée dans le magasin M2 et les deux autres magasins M1, M3.
On peut aussi déduire que la Qte-moy(D)>Qte-moy(C)>Qte-moy(B)>Qte-moy(A).
5. Cordonnée de E :
1 1
1 1
C1 = X .M .U 1 = X .Id .U 1 = X .U 1 = (16 − 20 8 − 20 12 − 20). 1 = (− 4 − 12 − 8) 1 = −8 3
3 3
1 1
1
C 2 = X .M .U 2 = X .Id .U 2 = X .U 2 = (− 4 − 12 − 8).
1
1 = 0 E = − 8 3,0 ;
6
( )
− 2
2.8 Conclusion
L’ACP est une méthode statistique puissantes qui permet de synthétiser de vastes populations
décrites par plusieurs variables quantitatives. Elle permet aussi de classifier les individus et de réaliser
un bilan des liaisons entre les variables. L’ACP permet une double visualisation graphique i.e. une
représentation graphique pour les individus, tandis que l’autre visualisation pour les variables à l’aide
de cercle de corrélation.
{a,b,c,d}
{a,b} {c,d}
a b c d
H
I i I i H
h, h H h h = ou h h ou h h
Exemple : H = , a , b , c , d , a, b , c, d , a, b, c, d
Pour déterminer les partitions possibles, nous traçons une ligne horizontale entre chaque niveau
d’agrégation et en recueillant les morceaux.
{a,b,c,d}
{a,b} {c,d}
a b c d
(Ii ) = 0; Ii
h, h H , si h h ( h ) ( h )
I4
I1 I2 I3
I5
I4
I1 I2 I3
I5
0 (
i , i ' ) =
mi * mi ' 2
i − i'
mi + mi '
mt + msh + ms'
h
h
Critère de Ward
PA PB 2
h ( A, B ) = d ( g A , gB )
PA + PB
A chaque itération, on agrège de manière à avoir un gain minimum d’inertie intra-classes
( PA + PB ) h ( A, B ) + ( PA + PC ) h ( A, C ) − PC h ( B, C )
h
( A, B C ) =
PA + PB + PC
3.2.5 Exemple
Soit l’ensemble des six individus suivants (poids d’un individu= 1) :
I1 I2 I3 I4 I5 I6
X 1 2 6 2 3 6
Y 1 2 2 6 6 4
0 (
i , i ' ) =
mi * mi ' 2
i − i'
mi + mi '
mt + msh + ms'
h
h
Etape 1 :
0 I1 I 2 I 3 I 4 I 5 I 6 0 (I1 , I 2 ) =
1*1
1+1
(1 − 2)2 + (1 − 2)2
2
I1 0
0 (I1 , I 2 ) = 1et (I 7 ) = 1/ 2
I 2 1 0
I 3 13 8 0
I 7 = I 4 , I 5
I 4 13 8 16 0
I 6 17 10 2 10 13/2 0
Etape 2 :
1 I 7 = I 4 , I 5 I1 I 2 I 3 I 6
(I 8 ) = 1
I 7 0
I 8 = I1 , I 2
I1 56/3 0
I 2 34/3 1 0
I 3 58/3 13 8 0
I 6 34/3 17 10 2 0
(m + m ) (I , I ) + (m + m ) (I , I ) + (m + m ) (I , I ) − m (I ) − m (I ) − m (I )
0 0 0
1
(I1 , I 4 I 5 ) = I1 I4 1 4 I1 I5 1 5 I4 I5 4 5 I1 1 I4 4 I5 5
Etape 3 :
2 I 8 = I1 , I 2 I 7 I 3 I 6
(I 9 ) = 2
I 8 0
I 9 = I 3 , I 6
I 7 91/3 0
I 3 44/3 58/3 0
I 6 56/3 34/3 2 0
(I
2
, I I ) =
(m + m ) (I , I ) + (m + m ) (I , I ) + (m + m ) (I , I ) − m (I ) − m (I ) − m (I )
I7 I1
1
7 1 I7 I2
1
7 2 I1 I2
1
1 2 I7 7 I1 1 I2 2
3 I 9 = I 3 , I 6 I 8 = I1 , I 2 I 7 (I10 ) =
91
4
I 9 0
I10 = I 7 , I 8
I 8 102/4 0
I 7 95/4 91/4 0
(m + m ) (I , I ) + (m + m ) (I , I ) + (m + m ) (I , I ) − m (I ) − m (I ) − m (I )
2 2 2
3 (I 8
, I 3 I 6 ) =
I8 I3 8 3 I8 I6 8 6 I3 I6 3 6 I8 8 I3 3 I6 6
Etape 5:
4 I10 = I 7 , I 8 I 9 (I10 ) =
281
6
I10 0
I11 = I 9 , I10
I 9 281/6 0
(m + m ) (I , I ) + (m + m ) (I , I ) + (m + m ) (I , I ) − m (I ) − m (I ) − m (I )
3 3 3
(I 9
, I 7 I 8 ) =
4 I9 I7 9 7 I9 I8 9 8 I7 I8 7 8 I9 9 I7 7 I8 8
L’arbre de la classification
P1 = I1 , I 2 , I 3 , I 6 , I 4 , I 5
P2 = I1 , I 2 , I 3 , I 4 , I 5 , I 6
P3 = I1 , I 2 , I 4 , I 5 , I 3 , I 6
P4 = I1 , I 2 , I 4 , I 5 , I 3 , I 6
P5 = I1 , I 2 , I 3 , I 4 , I 5 , I 6
I totale (P0 ) = I int ra (P0 ) + I int er (P0 ) I int er (P0 ) = I totale (P0 ) − I int ra (P0 )
281 1 281− 3
I int er (P1 ) = I int er (P1 ) =
279
− = = 46.33
6 2 6 6
P2 = I1 , I 2 , I 3 , I 4 , I 5 , I 6
281 3 281− 9
I int er (P2 ) = I int er (P2 ) =
272
− = = 45.33
6 2 6 6
P3 = I1 , I 2 , I 4 , I 5 , I 3 , I 6 → I int ra (P3 ) = (I1 , I 2 ) + (I 4 , I 5 ) + (I 3 , I 6 )
281 7 281− 21
I int er (P3 ) = I int er (P3 ) =
260
− = = 43.33
6 2 6 6
P4 = I1 , I 2 , I 4 , I 5 , I 3 , I 6
281 99 2 * 281− 3 * 99
I int er (P4 ) = I int er (P4 ) =
265
− = = 22.08
6 4 12 12
1+ 2 + 6 + 2 + 3 + 6 10
P3 = I1 , I 2 , I 4 , I 5 , I 3 , I 6 ; g = 6 g = 3
1 + 2 + 2 + 6 + 6 + 6 + 4 7
6 2
1+ 2 3
C1 = I1 , I 2 g C1 = 2 g C1 = 2
1 + 2 3
2 2
L’excentricité de la classe C1
2 2
2 2
( )
3 10 3 7
(C1 ) = d g C1 , g = − + − 2 (C1 ) =
121
+4=
265
= 7.36
2 3 2 2 36 36
1+ 2 3
C1 = I1 , I 2 g C1 = 2 g C1 = 2
1 + 2 3
2 2
L’excentricité de la classe C2
2+3
5
C2 = I 4 , I 5 g C2 = 2 g C2 = 2
6 + 6
6
2
2 2
(
5 10
)7
(C2 ) = d g C2 , g = − + 6 − 2 (C2 ) = + =
2 2 25 25 250
= 6.94
2 3 2 36 4 36
L’excentricité de la classe C3
6+6
6
C3 = I 3 , I 6 g C2 = 2 g C2 =
2 + 4 3
2
( )
2 2
10 7
(C3 ) = d g C3 , g = 6 − + 3 − 2 (C3 ) = + =
64 1 265
2 2
= 7.36
3 2 9 4 36
( (C ) = (C )) (C ) C ou C
2
1
2
3
2
2 3 1 est la classe la plus excentrique.
( )
2 2 2
10 10 7
Cont( X ) = x gC − x g / (C3 ) = 6 − Cont( X ) 0.97
256
6 − + 3 − =
2 2
3
3 3 2 265
( )
2 2 2
7 10 7
Cont(Y ) = y gC − y g / (C3 ) = 3 − Cont(Y ) 0.03
9
6 − + 3 − =
2 2
3
2 3 2 265
- Remarque : Dans le cas où nous utilisons le critère de la minimisation d’inertie de la réunion
de deux classes, la valeur du dernier sommet indique l’inertie totale tandis que les indices
d’agrégation de chaque nœuds représentent l’inertie intra-classes.
Ck = E
i j , Ck Ck =
et I tot représente l’inertie totale qui est égale à la somme des carrés des distances des individus aux
I tot = P .d
xi ck
i
2
(xi , g )
- L’inertie inter-classes : cette mesure représente la somme des carrés des distances des
- L’inertie intra-classes : cette mesure représente la somme des carrés des distances des
L’inertie totale I tot des N points autour du centre de gravité global g est alors égal à la somme des
deux termes suivants : inertie intra-classes et inertie inter-classes. I tot est déterminée à l’aide de
théorème de König-Huyghens et qui peut être formulée par : I tot = I int ra + I int er
Un critère usuel de la classification consiste à chercher la partition telle que l’inertie intra-classes
Iint ra soit minimale pour avoir des classes bien homogènes, ce qui revient à chercher L’inertie inter-
classes maximale.
Remarque :
K K
I tot = I int ra + I int er I tot =
xi ck
Pi .d 2 (xi , g ) = Pi .d 2 (xi , g ck )
k =1 xi ck
+ Pck .d 2 ( g ck , g )
k =1
C1 C2 C3
Exemple : On suppose qu’on a obtenu les trois partitions suivantes : P1 = I1 , I 2 , I 3 , I 4 , I 5 ,
C1 C2 C3
C1 C2 C3
P2 = I1 , I 5 , I 2 , I 4 , I 3 et P3 = I1 , I 3 , I 2 , I 4 , I 5 à partir du tableau de données
suivant :
X Y
I1 0 0
I2 1 0
I3 5 5
I4 4 5
I5 10 10 Calcul d’inertie intra-classes de chaque partition :
Partition 1 :
0 +1 5+4
2 1 2 9 10
gC1 =
= 2 , g C2 = = 2 , g C3 =
0 + 0 0 5 + 5 5 10
2 2
2
d 2 ( I , gck ) = ( xI − xgc )2 + ( yI − ygc ) 2 = ( xI − xgc ) 2 + ( yI − ygc ) 2
k k k k
I int ra ( P1 ) = Pi .d 2 (I , g ck )
I ck
(
= P1.d 2 ( I1 , g c1 ) + P2 .d 2 ( I 2 , g c1 ) + P3 .d 2 ( I 3 , g c2 ) + P4 .d 2 ( I 4 , g c2 ) + P4 .d 2 ( I 4 , g c2 ) + P5 .d 2 I 5 , g c3 )
=1
Iint ra ( P1 ) = 1 (1ère partition P1 )
5
C1 C2 C3
5 2 5
Partition 2 : P2 = I1 , I 5 , I 2 , I 4 , I 3 alors gC1 = , gC2 = , gC3 =
5 5 5
2
I int ra ( P2 ) = Pi .d 2 (I , g ck )
I ck
(
= P1 * d ( I1 , g c1 ) + P5 * d 2 ( I 5 , g c1 ) + P2 * d 2 ( I 2 , g c2 ) + P4 * d 2 ( I 4 , g c2 ) + P3 * d 2 I 3 , g c3
2
)
= 117
Iint ra ( P2 ) = 117 ( P1 est mieulleure que P2 , car I int ra ( P1 ) I int ra ( P2 ))
5 5
C1 C2 C3
2 10
Partition 3 : P3 = I1 , I 3 , I 2 , I 4 , I 5 P3 gC1 = , gC2 = , gC3 =
2
5 5 10
2 2
I int ra ( P3 ) = Pi .d 2 (I , g ck )
I ck
(
= P1 * d 2 ( I1 , g c1 ) + P5 * d 2 ( I 3 , g c1 ) + P2 * d 2 ( I 2 , g c2 ) + P4 * d 2 ( I 4 , g c2 ) + P5 * d 2 I 5 , g c3 )
= 42
Iint ra ( P1 ) I int ra ( P3 ) I int ra ( P2 ) alors la meilleur partition est P1
1 9
10 4
gC1 = 2 , gC2 = 2 , gC3 = , g centre de g ravité du nuage
10 4
0 5
K =3
I int er ( P1 ) = PCk d 2 ( gCk , g )
k =1
49 1
= 2 + 16 + 2 + 1 + 136 + 36
4 4
= 131
Partition 2 :
5
5 2 5 4
gC1 = , gC2 = , gC3 = , g centre de g ravité du nuage
5 5 5 4
2
K =3
I int er ( P2 ) = PCk d 2 ( gCk , g )
k =1
9 9
= 2 1 + 1 + 2 + + 11 + 1
4 4
= 15
Partition 3 :
5 5
2 2 10 4
gC1 = , gC2 = , gC3 = , g centre de g ravité du nuage
5 5 10 4
2 2
K =3
I int er ( P3 ) = PCk d 2 ( gCk , g )
k =1
9 9 9 9
= 2 + + 2 + + 136 + 36
4 4 4 4
= 90
Iint er ( P1 ) Iint er ( P3 ) Iint er ( P2 ) alors la meilleur partition est P1
K étant fixé a priori. Cette tache nécessite de calculer la distance euclidienne entre les
individus et les centroides (noyaux) de chaque classe, puis, on affecte l’individu à la classe la
plus proche. Dans ACM, deux fonctions sont appliquées [13]:
individus ( L1 , L2 , , Lk )
I1 I2 I3 I4 I5 I6
X 1 2 3 4 6 8
Y 2 5 2 7 7 2
I1 1 32 81 𝐶2 = {𝐼4, 𝐼5}
I2 9 10 73 𝐶3 = {𝐼6}
I3 1 20 49
I4 29 2 61
𝑊 = ∑𝐾 𝐾 2
𝑘=1 𝐷(𝐶𝑘 , 𝐿𝑘 ) = ∑𝑘=1 ∑𝑥∈𝐶𝑘 𝑚𝑥 𝑑 (𝑥, 𝐿𝑘 ) = 1 + 9 + 1 +
I5 41 2 41
2 + 2 + 1 = 19
I6 64 25 4
2 5 8
𝐿1 = ( ) ; 𝐿2 = ( ) ; 𝐿3 = ( )
3 7 2
➢ Fonction d’affectation : 𝐹(𝐿𝑘 ) = 𝐶𝑘 = {𝑥 ∈ Ω/𝑑(𝑥, 𝐿𝑘 ) ≤ 𝑑(𝑥, 𝐿𝑗 ), ∀𝑘 ≠ 𝑗}
I1 2 41 49 𝐶2 = { 𝐼4, 𝐼5}
I2 4 13 45 𝐶3 = {𝐼6}
I3 2 29 25 𝑊 = ∑𝐾 𝐾 2
𝑘=1 𝐷(𝐶𝑘 , 𝐿𝑘 ) = ∑𝑖=1 ∑𝑥∈𝐶𝑘 𝑚𝑥 𝑑 (𝑥, 𝐿𝑘 ) = 2 + 4 + 2 + 1 +
I4 20 1 41 1 + 0 = 10
Stabilité des résultats implique arrêt
I5 32 1 29
I6 37 34 0 La partition obtenue est : P1 = I , I , I ,I , I ,I
1 2 3 4 5 6
Partition P2 :
1 4 7
𝐿1 = ( ) ; 𝐿2 = ( ) ; 𝐿3 = ( )
2 4 2
➢ Fonction d’affectation : 𝐹(𝐿𝑘 ) = 𝐶𝑘 = {𝑥 ∈ Ω/𝑑(𝑥, 𝐿𝑘 ) ≤ 𝑑(𝑥, 𝐿𝑗 ), ∀𝑘 ≠ 𝑗}
d2 𝑳𝟏 𝑳𝟐 𝑳𝟑 𝐶1 = {𝐼1, 𝐼3}
I2 10 5 34 𝐶3 = {𝐼6}
I3 4 5 16 𝑊 = ∑𝐾 𝐾 2
𝑘=1 𝐷(𝐶𝑘 , 𝐿𝑘 ) = ∑𝑘=1 ∑𝑥∈𝐶𝑘 𝑚𝑥 𝑑 (𝑥, 𝐿𝑘 ) = 0 + 4 + 5 +
I4 34 9 34 9 + 13 + 1 = 32.
I5 50 13 26
I6 49 20 1
2 5 8
𝐿1 = ( ) ; 𝐿2 = (19) ; 𝐿3 = ( )
2 3 2
𝐶1 = {𝐼1, 𝐼3}
d2 𝑳𝟏 𝑳𝟐 𝑳𝟑
𝐶2 = {𝐼2, 𝐼4, 𝐼5}
I1 1 27,77 49
𝐶3 = {𝐼6}
I2 9 5,77 45
I3 1 19,77 25
I4 29 0,44 41
I5 41 4,44 29
I6 36 34,77 0
𝑊 = ∑𝐾 𝐾 2
𝑘=1 𝐷(𝐶𝑘 , 𝐿𝑘 ) = ∑𝑘=1 ∑𝑥∈𝐶𝑘 𝑚𝑥 𝑑 (𝑥, 𝐿𝑘 ) = 1 + 1 + 5,77 + 0,44 + 4,44 + 0 = 12,65
I1 I2 I3 I4 I5 I6
X 0 1 6 1 2 6
Y 0 1 5 5 5 6
Trouver une classification en trois classes, en utilisant l’algorithme des centres mobiles dans le
0 1
cadre des nuées dynamiques avec les noyaux de départ suivant : 𝐿1 = ( ), 𝐿2 = ( ) , 𝐿3 =
0 5
20
( )
20
Solution :
Classification en trois classes en utilisant l’algorithme des centres mobiles
0 1 20
𝐿1 = ( ), 𝐿2 = ( ) , 𝐿3 = ( )
0 5 20
d2 𝑳𝟏 𝑳𝟐 𝑳𝟑 𝐶1 = {𝐼1, 𝐼2}
I2 2 16 722 𝐶3 = {𝐼6}
I3 61 25 421 𝑊 = ∑𝐾 𝐾 2
𝑘=1 𝐷(𝐶𝑘 , 𝐿𝑘 ) = ∑𝑘=1 ∑𝑥∈𝐶𝑘 𝑚𝑥 𝑑 (𝑥, 𝐿𝑘 ) = 0 + 2 + 25 +
I5 29 1 549
➢ Fonction de représentation : 𝐿𝑘 = 𝑔(𝐶𝑘 ) ;
I6 72 26 392
𝐿𝑖 : 𝑐𝑒𝑛𝑡𝑟𝑒 𝑑𝑒 𝑔𝑟𝑎𝑣𝑖𝑡é 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝐶𝑘 .
0+1 6+1+2
2 3 6
➢ 𝐿1 = (0+1) ; 𝐿2 = (5+5+5 ); 𝐿3 = ( )
6
2 3
0.5 3 6
𝐿1 = ( ) ; 𝐿2 = ( ) ; 𝐿3 = ( )
0.5 5 6
➢ Fonction d’affectation : 𝐹(𝐿𝑘 ) = 𝐶𝑘 = {𝑥 ∈ Ω/𝑑(𝑥, 𝐿𝑘 ) ≤ 𝑑(𝑥, 𝐿𝑗 ), ∀𝑘 ≠ 𝑗}
d2 𝑳𝟏 𝑳𝟐 𝑳𝟑
𝐶1 = {𝐼1, 𝐼2}
I1 0.5 34 72
𝐶2 = { 𝐼4, 𝐼5}
I2 0.5 20 50
𝐶3 = {𝐼3, 𝐼6}
I3 101/2 9 1
I4 82/2 4 26
I5 90/4 1 17
I6 121/2 10 0
𝐾 𝐾
d2 𝑳𝟏 𝑳𝟐 𝑳𝟑 𝐶1 = {𝐼1, 𝐼2}
I1 0.5 9/4+25 36+121/2 𝐶2 = { 𝐼4, 𝐼5} 𝐶3 = {𝐼3, 𝐼6}
𝐾 𝐾
I2 0.5 ¼+16 25+81/4
𝑊 = ∑ 𝐷(𝐶𝑘 , 𝐿𝑘 ) = ∑ ∑ 𝑚𝑥 𝑑 2 (𝑥, 𝐿𝑘 ) = 0.5 + 0.5 + 1
I3 101/2 81/6 ¼ 𝑘=1 𝑘=1 𝑥∈𝐶𝑘
I6 121/2 81/4 ¼
P( X Ck ) : Probabilité conditionnelle ; X C k
P(Ck X )
P(Ck X ) = P(Ck X ) = P(Ck X )* P( X ) → (2)
P( X )
De (1) & (2) P( X Ck )* P(Ck ) = P(Ck X )* P( X )
P( X Ck )* P(Ck )
P(Ck X ) =
P( X )
On peut définir une fonction d’affectation f : X C k si j P(Ck X ) P C j X ( )
P( X Ck )* P(Ck ) P(X C j )* P(C j )
P( X Ck )* P(Ck ) P(X C j )* P(C j )
P( X ) P( X )
Remarque : Il est difficile d’estimer des probabilités à priori d’occurrence des classes en pratique on
( )
adopte l’hypothèse de classes équiprobables c.-à-d. : i j P (C i ) = P C j X Ck si j
P( X Ck ) P(X C j )
1
P( X C k ) = exp− ( X − k ) .Vk−1 .( X − k )
1 t
(2 )
12
.(det(Vk ))
12
2
k : Moyenne de la classe C k
- Simplification
2 2 2
X Ck si j P( X Ck ) P(X C j ) ln(P( X Ck )) ln(P(X C j ))
2 2 2 2 2 2
- Fonction de représentation
g (P ) = L = (1 , V1 ; 2 , V2 ; 3 , V3 ;.....; i , Vi ;......... ; k , Vk )
yi1
yi 2
Soit y1 , y 2 ,......... ..., y n un échantillon de n n observation multidimensionnelle. yi =
yij
yip
min yi1
min yi 2
1) L’origine est translatée au point : O =
min yid
min yip
yij − min yij
2) La transformation diagonale : y 'ij = .R, avec R : resolution
Max yij − min yij
Cette transformation permet de situer les observations dans un hyper cube de coté R .
3) chaque Axe du nouvel espace est découpé en R intervalles adjacents égaux de longueur unité.
Cette discrétisation définit un ensemble d’hyper cube H de R de côté unité dont chacun est repérer par les
p parties entiers des coordonnées de son centre.
int( y 'i1 )
int( y 'i 2 )
Hi , int : partie entiere
int( y 'id )
int( y 'ip )
12
10
0
0 2 4 6 8 10 12
Min x = 0 Min y = 0
,
Max x = 10 Max y = 10
R=10
0
I1 =
1
0−0 X i − min X
X 'I1 = 10 − 0 .10 = 0 X 'i = MaxX − MinX .R
,
Y ' = 1 − 0 .10 = 1 Y ' = Yi − min Y .R
I1 10 − 0 i MaxY − MinY
Donc pour toute les autres transformations on aura Y’=Y X’=X
X i − min X X −0 X
X 'i = .R = .5 =
Min x = 0 Min y = 0 MaxX − MinX 10 − 0 2
R=5 , ,
Max x = 10 Max y = 0 Y ' = Yi − min Y .R = Y − 0 .5 = Y
i MaxY − MinY 10 − 0 2
Donc le tableau change :
X 0 0 .5 0.5 1 2 2 5 4 4.5 0.5
Y 0.5 2.5 0.5 2.5 2 5 2.5 2.5 2 0
0 int(0) 0
I1 = H =
0.5 int(0.5 0
1 int(1) 1
I4 = H =
2.5 int(2.5 2
X 0 0 0 1 2 2 5 4 4 0
Y 0 2 0 2 2 5 2 2 2 0
5
4
3
2 1 1 1 1 1
1
0 1
0 1 2 3 4 5
6
5
4
3
2
1
0
0 1 2 3 4 5 6
Remarque :
La valeur du paramètre R est décisif pour les résultats de la discrétisations en effet si R est trop grand
Le nuage va être trop dispersé et la détection des classes devient difficile par contre si R est trop petit
une confusion entre les différentes classes va
* le choix de la valeur la plus approprié de R est fait comme suivant :
1- choix d’un intervalle de variation de R
2- Application de la discrétisation et la détection des classes pour toutes les valeurs de R
3- traçage graphique nombre de classe détecté en fonction de R.
Finalement la valeur de R est choisie au centre de plus grand intervalle de stabilité du graphe.
3.7.1.2 Elément structurant :
Les transformations morphologiques consistent à comparer l’ensemble à analyser à un élément
structurant à fin d’extraire ces caractéristiques structurale et morphologique l’élément structurant est
un ensemble discret (image binaire) généralement plus petit que l’ensemble à analyser, il est défini
par sa structure et un point de référence appelé l’origine.
Exemple :
0 1 0 L’origine S1 S2 S3 S4 S4
1 1 1 S = (0, 0) , (1, 0) , (0,1) , (−1, 0) , (0, −1)
0 1 0
3.8 Dilatation : X S = ( X )s
sS
X = (1, 0), (1,1), (0,1), (4, 4), (9, 4), (1, 5), (2, 5), (8, 5), (10, 5), (4,10) → E
( X ) S1 = X : ça change pas car S1 = (0, 0)
( X ) S2 = (2, 0), (2,1), (1,1), (5, 4), (10, 4), (2, 5), (3, 5), (9, 5), (11, 5), (5,10)
( X ) S3 = (1,1), (1, 2), (0, 2), (4, 5), (9, 5), (1, 6), (2, 6), (8, 6), (10, 6), (4,11)
( X ) S4 = (0, 0), (0,1), ( −1,1), (3, 4), (8, 4), (0, 5), (1, 5), (7, 5), (9, 5), (3,10)
( X ) S5 = (1, −1), (1, 0), (0, 0), (4, 3), (9, 3), (1, 4), (2, 4), (8, 4), (10, 4), (4, 9)
X S = X (2, 0), (2,1), (5, 4), (10, 4), (3, 5), (9, 5), (11, 5) , (5,10),
(0, 2), (1, 2), (4, 5), (1, 6), (2, 6), (8, 6), (10, 6), (4,11) , (0, 0), ( −1,1) ,
(3, 4), (8, 4), (0, 5), (7, 5), (3,10), (1, −1), (4, 3), (9, 3), (1, 4), (2, 4), (4, 9)
Sur l’expression E on ajoute X S on marque les autres points pas encore marque
(2,0),(2,1),(5, 4)....(4,0)
(11,5), (4,11), ( −1,1), (1, −1) : On ne les met pas car ça dépasse le graphe.
- Propriétés :
1- Opération locale.
2- Opération croissante : X Y X S Y S
3- Opération extensive : X X S
4- Distributive : ( X Y ) S = ( X S ) (Y S )
3.9 Erosion : X S = ( X )− S , ou = ( X )S
sS sS
Élément structurant
S1 S2 S3 S4 S4
X = (0,0),(0, 2),(1, 2),(2, 2),(4, 2),(5, 2),(2,5) S = (0, 0) , (1, 0) , (0,1) , (−1, 0) , (0, −1)
-opération anti-extensive : X S X
-relation de distributivité : ( X Y )S = ( X S ) (Y S )
Remarque :
1- la solution consiste à copié la structure de l’élément structurant dans l’ensemble discret X
2- l’érosion consiste à rechercher la structure de l’élément structurant dans X Ceci signifie plus
l’élément structurant est grand plus l’effet de filtrage est important
3.11 Ouverture : X S = ( X S ) S
3.12 Fermeture : X • S = ( X S )S
Idempotente (change pas après plusieurs application)
X S = ( X S ) S et X • S = ( X • S ) • S
Remarque : une 1ère méthode de classification (détection de région modale) par la morphologie
mathématique fut l’opération ouverture
-
le nombre de région connexe du résultat est le nombre de classe recherché
10
9
8 On garde que les 1 qui vérifient la
6
5 0 1 1 0 0 1 0 0 0 0 0 0 1 0
4 0 0 0 0 0 0 0 0 1 0 0 1 1 1
3 0 0 0 0 0 0 0 0 0 1 0 0 1 0
2 0 0 0 0 0 0 0 0 0 0 0
1 0 1 0 0 0 0 0 0 0 0 0 D’après le tableau initial on a
0 0 0 0 0 0 0 0 0 0 0 0
0 1 2 3 4 5 6 7 8 9 10
y(t)
25
20
15
10
5
0
0 1 2 3 4 5 6 7
4.1.1 Le but de la méthode : la méthode des moindres carrés sert à ajuster les points c.à.d. trouver
la courbe qui représente mieux les données [15]. D’une façon mathématique, on cherche à minimiser
N N
d = ( y − yi ) → Min
2 2
le critère suivant : i cal
i =1 i =1
y = a0 + a1 x + a2 x 2 + .... + am x m .
On considère que X , Y sont mesurés donc les inconnus sont les paramètres a0 , a1 , a2 ,...., am
4.1.2 Principe :
:
a0 + a1 xn + a2 xn + .... + am xnM − y n = d n
2
d = ( y2 2 2
i cal
i =1 i =1 i =1
F
( )
N N N N N
a1
0 i 1 i 2 i m i
M +1
a x + a x 2
+ a x 3
+ ...... + a x = xi . y i
0 1 i 2 i m i i i
F
i =1
i =1 i =1 i =1 i =1 i =1
( )
N N N N N N
= 2 a0 + a1 xi + a2 xi2 + .... + am xiM − yi .xi2 = 0 a0 xi2 + a1 xi3 + a2 xi4 + ...... + am xiM + 2 = xi2 . yi
a2 i =1 i =1 i =1 i =1 i =1 i =1
F
( )
N N N N N N
= 2 a0 + a1 xi + a2 xi2 + .... + am xiM − yi .xiM = 0 a0 xi + a1 xi + a2 xi + ...... + am xi = xi . yi
+ +
M M 1 M 2 2 M M
am i =1 i =1 i =1 i =1 i =1 i =1
N N
n . a 0 + a1 xi = yi a0 = y − a1 x
Le système devient : N i =1 i =1
Cov(x, y )
a1 = Var (x )
N N
a0 xi + a1 xi2 = xi . yi
i =1 i =1 i =1
4.1.3 Démonstration :
N N N N
n . a 0 + a1 i x = y i y i xi
N
i =1
N
i =1
N Eq (1) : a0 = i =1
− a1 i =1
a0 = y − a1 x
a0 xi + a1 xi2 = xi . yi n n
i =1 i =1 i =1
(y − a x) x + a x x . y
N N N
2
(y − a x) x + a x = x . y ( )
N N N 1 i 1 i i i
1 i 1
2
i i i
i =1 i =1
= i =1
y − a1 x .x + a1 x 2 = xy
i =1 i =1 i =1 n n
(y − a x).x + a x
1 1
2
( )
= xy y.x − a1 . x − x 2 = xy a1 =
2
xy − x. y
x2 − x () 2
=
Cov(x, y )
Var (x )
Cov(x, y ) =
1 N
N i =1
( 1 N
)( ) 1 N 1 N 1 N 1 N
xi − x . yi − y = xi . yi − xi . y − x. yi + x. y = xi . yi − xi . y − x. yi + x. y
N i =1 N i =1 N i =1 N i =1 N i =1
Var ( x ) =
1 N
i
N i =1
x − x .(x i − x =
1 N 2
i i
N i =1
x)(
− x . x − x)
. x i + x
2
=
1 N 2 1 N
i N
N i =1
x − x i . x −
1 N
i N
N i =1
x. x +()
1 N
x () 2
i =1 i =1
() () ()
Var (x ) = x 2 − x − x + x = x 2 − x
2 2 2
() 2
Cov(x, y )
1 N
(
x−x. y− y
N i =1
)( ) xy − x. y
r= = = → droite: y = ax + b
( x )* ( y ) () ()
( ) ( )
2 2
1 2 1 2
x − x * y − y
2 2
x−x . y− y
N N
cal −y
Si : m 2 r = 2 i =1
(y − y )
N
i =1
- Exemple :
On considère un échantillon dont le nombre de points n = 4 et le coefficient de corrélation r = 0,98 .
n = 4 et r = 0,98 C =
(0,98) .(4 − 2)
2
= 48,5
1 − (0,98)
2
n n
( yi − ycal ) d
2 2
−b i
On utilise la statistique : t= n − 2 et S yx = i =1
= i =1
;
S yx x n n
x =
1
N
(
x−x )
2
= x2 − x () 2
r n−2
t= : Student à n − 2 degré de liberté.
1− r2
- Exemple :
On considère un échantillon dont le nombre de points n = 5 et le coefficient de régression de
x = 0,7699
−b 0,6 + 0,9586
t= n−2 t = 5−2
S yx x 1,4656 0,7699
t = 1,2875
= n − 2 = 5 − 2 = 3 → t0,95 = 2,35 & t0,99 = 4,54
t t 0 ,95 On ne rejette pas l’hypothèse que = 0,6
Exercice :
Calculer les limites de confiance à 95% pour le coefficient de régression de l’échantillon b = 0,96
Sachant que S yx = 1,4656 , n = 5 & x = 0,7699
Solution :
−b t S yx
t= n−2 =b+ .
S yx x n−2 x
t S yx
=b . Pour avoir un intervalle symétrique (distribution symétrique)
n−2 x
0,05
Pour = 5% , intervalle symétrique = = 0,025; pour : = 5 − 2 = 3 t 0,975 = 3,18.
2
3,18 1,4656
= 0,96 . = 0,96 1,9036
3 0,7699
Exercice :
r = 0,32 pour un échantillon de n = 18 . Peut-on en conclure que le coefficient de régression de la
population est significativement à zéro ?
Solution :
H0 : Hypothèse « = 0 Pas de dépendance »
r n−2
t= : Student à n − 2 degré de liberté
1− r2
0,32 18 − 2
t= = 1,35
1 − (0,32)
2
Exercice :
r = 0,32 , = 0,05 . Quelle est la taille minimale de l’échantillon pour que le coefficient de régression
de la population soit supérieur à zéro ?
r n−2
t= : Student à n − 2 degré de liberté
1− r2
r n−2
t= : 0 , il suffit de rejeter l’hypothèse H0
1− r2
t=
r n−2
t =2r 2 .(n − 2)
( )
t . 1 − r = r .(n − 2) n = 2 +
2 2 2 t 2. 1 − r 2 ( )
1− r 2 1− r2 r2
n = 2+
(
t 2. 1− r 2 )
n = 2+
t 2 . 1 − (0,32)(→ (*)
2
)
r2 (0,32)2
D’après la table de distribution de Student, = , t 0 ,95 = 1,64 ; on remplace dans la formule (*)
0,32 27 − 2
n = 27 t cal = = 1,69 tcal = 1,65 → t t0,95 : On ne rejette pas l’hypothèse H0
1 − (0,32)
2
0,32 28 − 2
n = 28 t cal = = 1,72 tcal = 1,72 → t t0,95 : On rejette l’hypothèse H0 :« = 0 »
1 − (0,32)
2
Exercice :
Pour n = 12 ,On a obtenu la droite de régression y = 35,82 + 0,476x . Evaluer les limites de
n n
(y − yp ) n − 2 ( yi − ycal ) d
2 2
i
(
t= S yx = i =1
= i =1
0
; ;
S yx . n + 1 + n x0 − x ) 2
S 2
x
n n
x =
1
N
(
x−x )2
= x2 − x () 2
y p = y0
(
t.S yx . n + 1 + n x0 − x )
2
S x2
n−2
Pour avoir un intervalle symétrique
(distribution symétrique)
0,05
Pour = 5%, = 12 − 2 = 10 , intervalle symétrique = = 0,025 t 0,975 = 2,23.
2
y0 = 35,82 + 0,476* 65 = 66,67
y p 62,96 − 70,56
Exercice :
r = 0,75 pour un échantillon de n = 24 . Peut-on rejeter l’hypothèse que a) = 0,6 , b) = 0,5 ?
= 0,05
Solution :
1 + r
Z = 1,1513* log
1− r
1 +
Z = 1,1513* log
1−
1
Z =
n−3
1 + 0,75
Z = 1,1513* log = 0,9730
1 − 0,75
1 + 0,6
Z = 1,1513* log = 0,6932
1 − 0,6
1
Z = = 0,2182
24 − 3
Z − Z 0,9730 − 0,6932
z= = = 1,28
Z 0,2182
(z ) = 0,95 z = 1,64 z 1,64 : on ne peut pas rejeter l’hypothèse que a) = 0,6
Courbe de régression
Cov(x, y ) = xy − x. y N
()
xi
Var (x ) = x − x
2
2 10
x = i =1
= =2
N N 5
a0 = y − a1 x
xi . yi N
y = a0 + a1 x → Cov(x, y ) → xy = i =1
yi
a1 = Var (x )
25
N y = N = 5 = 5
i =1
N
xi2
x 2 = i =1
N
xi 0 1 2 3 4 5
x
i =1
i = 10
yi 1 1 3 7 13 5
y
i =1
i = 25
xi . y i 0 1 6 21 52 5
x .y
i =1
i i = 80
x i2 0 1 4 9 16 5
x
i =1
2
i = 30
x i3 0 1 8 27 64 5
x
i =1
3
i = 100
x i4 0 1 16 81 256 5
x
i =1
4
i = 354
x i2 . y i 0 1 12 63 208 5
x
i =1
2
i . yi = 284
N
xi . y i
80
xy = i =1 = = 16
N 5
N
2 i =1
xi2 30
x = N = 5 = 6
Cov(x, y ) = xy − x. y = 16 − 2.5 = 6
→ 2 2
()
Var (x, y ) = x − x = 6 − 2 = 2
2
a0 = y − a1 x = 5 − 3.2 = −1
a = Cov(x, y ) = 6 = 3 y = −1 + 3x
Var(x )
1
2
Remarque :
N N
n . a 0 + a1 i x = yi
i =1 i =1
On peut résoudre le système N N N
a0 xi + a1 xi2 = xi . yi
i =1 i =1 i =1
N N
+ 1 i = 5a + 10a1 = 25 → (1) Eq1 → a0 = 5 − 2a1
n . a a x yi
0
a = 5 − 2a1
N
i =1 i =1
0 0 (a0 , a1 ) = (− 1,3)
a0 xi + a1 xi2 = xi . yi 10a0 + 30a1 = 80 → (2) a0 + 3a1 = 8 → Eq 2 / 10 5 − 2a1 + 3a1 = 8
N N
i =1 i =1 i =1
Le critère à minimiser
N N
i =1 i =1
N N N
N N N
n. a 0 + a1 x i + a 2 xi
2
= y i n . a 0 + a1 xi + a 2 xi
2
= yi
N i =1 i =1 i =1
N i =1 i =1 i =1 5a0 + 10a1 + 30a2 = 25
N N N
N N N
a0 xi + a1 xi + a2 xi = xi . yi → a0 xi + a1 xi + a2 xi = xi . yi → 10a0 + 30a1 + 100a2 = 80
2 3 2 3
1 2
i =1
0 i 1 i 2 i i i i =1
0 i 1 i 2 i i i
i =1 i =1 i =1 i =1 i =1 i =1
N N
y = 1 − x + x 2 d i2 = ( ycal − yi ) =(1 − 1) + (1 − 1) + (3 − 3) + (7 − 7 ) + (13 − 13) = 0
2 2 2 2 2 2
i =1 i =1
Exercice n°2 :
Une société a mis au point un produit. Une étude préalable a montré une relation entre le prix X
proposé pour ce produit et le nombre de clients Y disposé à l’acheter à ce prix. Le chiffre d’affaire
potentiel Z, correspondant au choix du prix X est donné par Z=X.Y. L’enquête menée auxprès de 500
personnes a donné le tableau suivant :
X :Prix 40 35 32 28 24 20 16 12 10 8
DA
Y: 60 80 130 200 240 350 390 420 440 500
Client
y = a0 + a1 x →
Cov ( x, y ) = xy − x. y
()
Var ( x ) = x 2 − x
2
N
xi
40 + 35 + 32 + 24 + 20 + 16 + 12 + 10 + 8
a0 = y − a1 x N
x= i =1
= = 22,5
Cov ( x, y ) →
xi . yi
N 10
xy = N
i =1
a1 = Var x
N
( ) y
i =1 i 60 + 80 + 130 + 200 + 240 + 350 + 390 + 420 + 440 + 500
y = = = 281
N
xi2 N 10
x 2 = i =1
N
10 10
10
xi . y i
xy = i =1
= 4740 Cov(x, y ) = xy − x. y = 4740 − 22,5 * 281 = −1582,5
10 →
N
i x 2 ()
Var (x, y ) = x 2 − x = 617,3 − 22,5 2 = 111,05
2
2 i =1
x = = 617,3
10
a0 = y − a1 x = 281+ 14,25 * 22,5 = 601,63
Cov(x, y ) y = 601,63 − 14,25x
a = = −14, 25
Var (x )
1
A = ln a a = e A
y = a t .b ln ( y ) = ( ln a ) .t + ln b → Y = At + B
B = ln b b = e
B
Cov ( t , ln y ) = t ln ( y ) − t.ln ( y )
Var ( t ) = t 2 − t ()
2
B = ln y − At N
y = At + B →
Cov ( t , ln y ) → ti .ln ( yi )
A = Var t t ln ( y ) = i =1
( )
N
N N
t i ln ( yi )
t=
i =1
et ln ( y ) = i =1
N N
5.1 Introduction
Les séries chronologiques ont connu un essor important dans plusieurs domaines comme
l’économie, finance, la biologie, la météorologie et pollution. Le but principal réside dans :
- La compréhension du passé c.à.d. analyser et expliquer les valeurs observées ;
- La prédiction du future c.à.d. bâtir des prévisions pour les valeurs non encore observées ;
- L’étude du lien avec d’autres séries chronologiques.
La série chronologique yt tT avec T = t1 , t2 , tn n’est rien d’autre que la série statistique double
(t , y )
j tj
1 j n
, où :
Une série chronologique est composée de partie essentielle qui sont la tendance X (t ) et la
Composantes saisonnières
1- (
En dessinant le nuage formé par les points t j , yt j )1 j n
;
2- En reliant les points entre eux par des segments de droite, pour indiquer la chronologie.
X (t ) * S (t )
+ Modéleadditif
Telle que f =
* ModèleMultiplicatif
Il y a deux types de la tendance ( linéaire, exponentielle).
X ( t ) − X ( t − 1) = a X ( t ) = a + X ( t − 1) =
a + a + X ( t − 2 ) = 2a + X ( t − 2 ) =
3a + X ( t − 3) = at + X (t − t )
X ( t ) = at + X ( 0 )
X ( t ) = a.t + b
Cov(t , y ) = ty − t. y
n2 −1
Var (t ) =
12
b = y − at N
y = at + b →
Cov(t , y ) → t i . yi
a= ty = i =1
Var (t ) N
N N
ti yi
i =1
t = N et y = N
i =1
X (t ) / X (t − 1) = a X (t ) = a * X (t − 1) = a * (a * X (t − 2)) = a 2 * X (t − 2) = a 3 * X (t − 3) = a t * X (0)
X (t ) = a t * b
Pour étudier la tendance exponentielle, il faut transformer ce modèle à une tendance linéaire.
A = ln a a = e A
B = ln b b = e
B
Remarque :
La tendance de la série chronologique est déterminée après élimination des effets de la composante
saisonnière en effectuant un lissage de la série. Pour cela, il faut calculer la moyenne mobile pour
mieux apparaître l’allure de la tendance.
y(t)
30
25
20
15
y(t)
10
0
1 2 3 4 5 6
Z (t ) =
1
y(t − 2) + y(t − 1) + y(t ) + y(t + 1) + y(t + 2) .
5
1 1
Exemple : si l’ordre de la moyenne mobile =2. Alors Z (t ) = y (t − 1) + y (t ) + y (t + 1)
1
2 2 2
si l’ordre de la moyenne mobile =4. Alors
1 1
Z (t ) = y (t − 2 ) + y (t − 1) + y (t ) + y (t + 1) + y (t + 2 )
1
4 2 2
Remarque :
La tendance de la série chronologique est déterminée donc par la moyenne mobile Z (t ) . On évalue donc les
S (t ) = 0
t =1
nbde saison
S (t ) = nombre de saison
t =1
- Solution :
1. Le modèle de la série chronologique avec composante saisonnière (Modèle additif).
t y(t) Z(t) Z(t)-Z(t-1) Z(t)/Z(t-1) Le nombre de saison =2
1 6 - - -
2 18 13 - -
3 10 15 2 1.15
4 22 17 2 1.13
5 14 - - -
La moyenne mobile :
1 1
Z (t ) = y (t − 1) + y (t ) + y (t + 1)
1
2 2 2
Z (t ) − Z (t − 1) = C ste tendance linéaire X (t ) = a.t + b
Cov(t , y ) = ty − t. y
n 2 − 1 52 − 1
Var (t ) =
n2 −1 Var (t ) = = =2
12 12
12
b = y − at N
ty = 1.6 + 2.18 + 3.10 + 4.22 + 5.14 = 46
y = at + b →
Cov(t , y ) → t .
i iy
→ 5
a= = i =1 1 + 2 + 3+ 4+5
Var (t )
ty
N t= =3
N N 5
ti yi 6 + 18 + 10 + 22 + 14
i =1 y= = 14
t = et y = i =1 5
N N
b = y − at = 14 − 2.3 = 8
a = Cov(t , y ) = 46 − 3.14 = 2 y = 2t + 8 X (t ) = 2t + 8
Var(t ) 2
t Y (t ) X (t ) (t )
1 6 10 -4
2 18 12 +6
3 10 14 -4
4 22 16 +6
5 14 18 -4
−4−4−4 6+6
Moy(S1 ) = = −4; Moy(S 2 ) = =6
3 2
Moy(S1 ) + Moy(S 2 ) − 4 + 6
S
i
i = −4 + 6 = 2 0 C =
2
=
2
=1
Y (t ) = X (t ) + S (t )
Moy(S1 ) Moy(S1 ) − C −5; Moy(S 2 ) Moy(S 2 ) − C 5 X (t ) = 2t + 8
Le mod èle :
S i = −5 + 5 = 0 S (1) = −5; S (2) = 5
i
S (t + 2) = S (t )
1 1
La moyenne mobile : Z (t ) = y (t − 1) + y (t ) + y (t + 1)
1
2 2 2
A = ln a a = e A
X (t ) = a t .b ln( X (t )) = (ln a ).t + ln b → X ' (t ) = At + B
B = ln b b = e
B
Cov ( t , ln y ) = t ln ( y ) − t.ln ( y )
n2 − 1
Var ( t ) =
12
B = ln y − At N
X ' ( t ) = At + B → Cov ( t , ln y ) → ti .ln ( yi )
A = t ln ( y ) = i =1
Var ( t ) N
N N
t i ln ( yi )
t= i =1
et ln ( y ) = i =1
N N
n 2 − 1 52 − 1
Var ( t ) = = =2
12 12
t ln y = 2.398 + 3.892 + 10.101 + 15.044 + 23.075 = 10.902
( ) 5
→
1+ 2 + 3 + 4 + 5
t= =3
5
ln ( y ) = 2.398 + 1.946 + 3.367 + 3.761 + 4.615 = 3.217
5
B = ln y − At = 3.217 − 0.626* 3 = 1.339
A = Cov(t , y ) = 10.902 − (3 * 3.217) = 0.626 X (t ) = 0.626.t + 1.339
'
Var (t ) 2
a = e 0.626 = 1.870
→ X (t ) = (1.870) * 3.815
t
b = e = 3.815
1.339
t Y (t ) X (t ) Q(t )
1 11 7.134 1.542
2 7 13.341 0.525
3 29 24.947 1.162
4 43 46.651 0.922
5 101 87.237 1.158
Y (t ) = X (t ) * S (t )
Moy(S1 ) Moy(S1 ) − C 1.281; X (t ) = (1.87)t * 3.815
Moy(S 2 ) Moy(S 2 ) − C 0.718 S i = 1.999 S (1) = 1.281; S (2) = 0.718
i
S (t + 2) = S (t )
5.9 Conclusion
Dans ce chapitre, nous avons montré plusieurs concepts en commençant par la définition
d’une série chronologique, la modélisation mathématique à base d’un lissage linaire et exponentiel.
Après, nous avons traité deux exemples réels pour mieux comprendre la prédiction par les séries
chronologiques. Les séries chronologiques jouent un rôle important dans notre vie quotidienne où
nous pouvons dans plusieurs domaines comme la prédiction des ventes ou la propagation de corona
virus qui est devenu le sujet d’actualité.