Vous êtes sur la page 1sur 94

‫الجمهوريــــــــــــــــــــــة الجزائريـــــــــــة الديمقراطيـــــــــة الشعبيـــــــة‬

‫وزارة التعليـــــــــــم العـــــــــــالي و البحـــــــــث العلـــــــمي‬


‫جامعة وهران للعلوم والتكنولوجيا محمد بوضياف‬
‫كلية الرياضيات و االعالم االلي‬
République Algérienne Démocratique et Populaire
Ministère de l’Enseignement Supérieur Et de la Recherche
Scientifique
Université des Sciences et de la Technologie d’Oran Mohamed
BOUDIAF
Faculté des Mathématiques et Informatique
Département d’Informatique

Cours d’Analyse des


Données
Destiné aux étudiants Master1-Informatique

I4
I3
I5

I2

I1

AND Dr Nabil NEGGAZ


Avant-propos 1

Les techniques d’analyse des données ont connu un essor important surtout avec le
développement de l’informatique et big data. Le volume important des données nécessite comme un
prétraitement : la réduction des données, ce qui est l’objectif principal de l’analyse des données en
premier lieu. Pour résoudre le problème de la dimensionalité, les méthodes multidimensionnelles
telles que l’Analyse en Composantes Principales (ACP) et l’Analyse Factorielle des Correspondances
(AFC) seront exploitées et expliquées en détail dans cet ouvrage. En second lieu, l’interprétation et la
classification des données dans le domaine de la reconnaissance des formes, la fouille des données et
l’intelligence artificielle font appel aux méthodes de classification plus particulièrement l’algorithme
de la classification hiérarchique qui permet une représentation arborescente appelée dendrogramme
et les méthodes de partitionnement « clustering » comme l’algorithme des centres mobiles qui est très
utilisé dans l’apprentissage non-supervisé. En plus, les méthodes morphologiques à base des
opérateurs de traitement d’image comme l’érosion, dilatation, ouverture et fermeture peuvent être
utilisées dans le domaine de la classification.
La prévision dans le domaine d’économie et le domaine d’épidémiologie nécessitent des modèles
statistiques puissants. Pour cela, nous avons introduit la méthode des moindres carrés et les séries
chronologiques. Généralement, deux modèles sont exploités comme la prévision linéaire et la
prévision exponentielle. Pour juger l’efficacité des modèles proposés, un coéfficient de corrélation doit
être mesuré.
Cet ouvrage est organisé autour de cinq chapitres de la façon suivante :
Chapitre 1 décrit d’une façon détaillée la nature des variables, les mesures de similarité ainsi
les différents types de tableaux de données. De plus, quelques ingrédients dédiés à l’analyse
factorielle des correspondances (AFC) ont été proposés.
Chapitre 2 représente le noyau de cet ouvrage car il explique profondément l’algorithme
d’ACP avec des exercices d’applications en variant la métrique selon des données
homogènes/hétérogènes.
Chapitre 3 a un grand impact dans le clustering c.à.d. la classification non-supervisée. Ce
chapitre explique 4 méthodes de classification : Classification Hiérarchique ascendante (CHA),
Algorithme des Centres Mobiles (ACM), Maximum de Vraisemblance et les méthodes
morphologiques
Chapitre 4 joue un rôle important dans la prévision en se basant sur des méthodes statistiques
comme la méthode des moindres carrés.
Chapitre 5 : introduit les séries chronologiques qui entre dans le cadre de la prédiction en
tenant compte de la composante temporelle.
Enfin, dans l’espoir que cet ouvrage constitue la première marche d’un long escalier et permet aux
lecteurs d’acquérir des nouvelles connaissances en analyse des données.
Avant-propos 1

Chapitre 1: Description des tableaux de données

• Mesures de similarité 2
• Construction des tableaux de données 4
• Statistique à deux variables 7

Chapitre 2: Analyse Factorielle

• Analyse en composantes principales 20


• Analyse factorielle des correspondances 23

Chapitre 3: Méthodes de classification

• Classification hiérarchique 41
• Classification par partitionnement 54
• Méthodes morphologiques 62

Chapitre 4: Régression & Corrélation

• Techniques descriptives 69

• Corrélation et tests probabilistes 71

• Méthodes de lissage exponentiel 77

Chapitre 5: Série chronologiques

• Modélisation 78
• Analyse de la tendance 78
• Les moyennes mobiles 80

• Décomposition d’une série chronologique 81

• Prévision par lissage linéaire 81

• Prévision par lissage exponentiel 83


Description des tableaux
de données
Chapitre 1 : Description des tableaux de données 2

1.1 Introduction
Ce chapitre est dédié à l’introduction de quelques notions de bases de statistique multi-
dimensionnelle comme la nature des variables et leurs codages adéquats, les tableaux de données, les
mesures de similarités/dissimilarités, les tableaux de fréquences, les profils lignes et profiles colonnes.
Il est important de connaitre les différentes métriques utilisées pour le calcul de la distance.
Généralement, deux métriques sont exploitées comme la métrique d’identité et la métrique 2
utilisée pour l’analyse factorielle des correspondances (AFC). La réduction des tableaux de données
reste un vrai challenge qui sera introduit dans ce chapitre en définissant le tableau de BURT et la
réduction par regroupement.

1.2 Mesures de similarité


Distance
Notons E l’ensemble des N objets à classer, une distance est une application de E  E
+
dans telle que :

 d ( i, j ) = d ( j , i )

 d ( i, j )  0

 d ( i, i ) = 0  i = j
 d ( i, j )  d ( i, k ) + d ( k , j )

Généralement, on trouve la distance euclidienne qui est utilisée pour des variables
mesurables (quantitative). La distance euclidienne est calculée par :

d ( X ,Y ) = ( x1 − y1 ) + ( x2 − y2 )
2 2

D’une façon générale, la distance est munie d’une métrique M et elle est définie par :

d 2 ( X ,Y ) = ( X − Y ) M ( X − Y )
t

d 2 ( X ,Y ) = X − Y = ( X − Y ) .M . ( X − Y )
2 t
M
n
d =  ( xi − yi ) si M = I  d E
2 2
M
i =1

Mesures de similarité

 s ( i, j ) = s ( j , i )

On parle de dissimilarité si s est une application telle que :  s ( i, j )  0
 s ( i, i )  s ( i , j )

Les mesures de similarités sont utilisées dans le cas où les individus sont décrits par la
présence ou l’absence de p caractéristiques. Plusieurs indices de similarité ont été

Dr N. NEGGAZ- Cours Analyse de données


Chapitre 1 : Description des tableaux de données 3

proposées qui combinent de diverse manières les quatre nombres suivant associés à un
couple d’individus :
a représente le nombre de fois où xij = 1 et xi ' j ' = 1 . ↶ 1 0
1 a b
b représente le nombre de fois où xij = 0 et xi ' j ' = 1 .
0 c d
c représente le nombre de fois où xij = 1 et xi ' j ' = 0 .

d représente le nombre de fois où xij = 0 et xi ' j ' = 0

Les indices suivants compris entre 0 et 1 et qui sont facilement transformables en dissimilarité par
complémentation à 1 [1]:

a
1) L’indice de Jaccard : S ( I , J ) =
a+b+c
2a
2) L’indice de Dice : S ( I , J ) =
2a + b + c
a
3) L’indice de Russsel et Rao : S ( I , J ) =
a+d +b+c
a+d
4) L’indice de Rogers et Tanimoto : S ( I , J ) =
a + d + 2(b + c)
2a
5) L’indice de Jaccard : S ( I , J ) =
2a + b + c
a
6) L’indice de Sokal et Sneath : S ( I , J ) =
a + 2(c + d )
a
7) L’indice de Kulzinsky : S ( I , J ) =
c+d
La notion fondamentale en statistique est celle de groupe ou d’ensemble d’objets équivalents à
une population. Ces objets sont appelés des individus. Alors un individu est décrit par un ensemble
de caractéristiques appelées variables.
On distingue principalement deux types de variables [2]:
- Variables quantitatives par exemple Age, poids et taille, s’expriment par des nombres réels
sur lesquels on peut appliquer des opérations arithmétiques (moyenne) ont un sens. Certaines
sont discrètes (ensemble dénombrable des modalités) comme le nombre d’articles lus par un
chercheur quotidiennement, le nombre d’enfants, etc , par ailleurs d’autres sont continues si
toutes les valeurs d’un intervalle de sont acceptables.
- Variables qualitatives par exemple couleur des yeux, La mention obtenue en bac, etc
s’exprimant à l’appartenance à une modalité d’un ensemble fini. Deux types se trouvent dans
la littérature : les variables qualitatives nominale par exemple la catégorie socio-
professionnelle d’un travailleur (Cadre, employé, ouvrier…), tandis que les variables

Dr N. NEGGAZ- Cours Analyse de données


Chapitre 1 : Description des tableaux de données 4

qualitatives ordinales requièrent une relation d’ordre entre les modalités ; par exemple : les
modalités obtenues en bac sont : passable, assez bien, bien et très bien.
1.2.1 Codage des variables qualitatives nominales (VQN)

Soit la fonction N : VQN → 0,1 ; M est le nombre maximum que peut prendre la variable
M

1
( x ) = ( 0, 0, 0
pour la coordonnée de rang xij
nominale N ij ,1, 0, 0 0) : 
0 ailleur

1.2.2 Codage des variables qualitatives ordinales (O )

1
O ( xij ) = (1,1,1,1, 0, 0 0 ) : 
pour toute les coordonnées jusqu ' au rang xij
0 ailleur

1.3 Construction de tableau de données


Tableau individus/variables : ce type de tableau contient n lignes et n p colonnes de telle
sorte les lignes représentent les individus, tandis que les colonnes représentent les
variables.
Exemple : le tableau suivant contient 10 individus caractérisés par 3 variables : couleur,
poids et forme.

Produit Couleur Poids Forme


P1 Bleu Lourd Rond
P2 Blanc Léger Carré
P3 Vert Léger Rond
P4 Bleu Très lourd Carré
P5 Blanc Léger Rond
P6 Vert Très lourd Carré
P7 Bleu Léger Rond
P8 Blanc Très lourd Carré
P9 Vert Très lourd Rond
P10 Bleu Lourd Carré
Tableau de contingence : est un tableau d’effectifs obtenus en croisant les modalités de
deux variables qualitatives définies sur une même population de n individus. On peut dire

aussi que c’est un tableau de type variable/variable avec K =  Kij .


i j

Exemple :

- Tableaux de contingences : (Couleur/ Poids) ; K =  Kij = 10


i j

Couleur Poids Léger Lourd Très Lourd


Bleu 1 2 1
Blanc 2 0 1
Vert 1 0 2

Dr N. NEGGAZ- Cours Analyse de données


Chapitre 1 : Description des tableaux de données 5

- Tableaux de contingences : (Couleur/ Formes) ; K =  Kij = 10


i j

Couleur Forme Rond Carré


Bleu 2 2
Blanc 1 2
Vert 2 1

- Tableaux de contingences : ( Poids/Formes) ; K =  Kij = 10


i j

Poids Forme Rond Carré


Léger 3 1
Lourd 1 1
Très Lourd 1 3

Tableau de codage et tableau de codage disjonctif complet : lorsque les variables sont

toutes qualitatives, le tableau où xi j indique le numéro de la modalité de la variable X J

à laquelle appartient l’individu i est le tableau de codage. Les numéros de des modalités
étant arbitraire, on lui associera le tableau disjonctif à m1 + m2 + + mp colonnes
constitué de la façon suivante :
A toute variable à m j modalités on substitue un ensemble de m j variables valant 0 ou 1.

Pour meix comprendre le principe de codage, nous traitons l’exemple suivant :


Exemple :

Produit Couleur Poids Forme


P1 Bleu Lourd Rond
P2 Blanc Léger Carré
P3 Vert Léger Rond
P4 Bleu Très lourd Carré
P5 Blanc Léger Rond
P6 Vert Très lourd Carré
P7 Bleu Léger Rond
P8 Blanc Très lourd Carré
P9 Vert Très lourd Rond
P10 Bleu Lourd Carré
- Couleur (bleu, blanc, vert) : variable qualitative nominale qui a 3 modalités alors :
N (bleu)=(1,0,0) ,
N (blanc)=(0,1,0) et N (vert)=(0,0,1) ;
- Poids (Léger, Lourd, Très lourd) possède 3 modalités avec Léger <Lourd <Très lourd alors Poids
représente une variable qualitative ordinale.
O (Léger)= (1, 0, 0) ; O ( Lourd)= (1, 1, 0) ; O (Très lourd)= (1, 1, 1)
Forme (Rond, carré) : possdè deux modalités et elle est qualitative nominale
N (Rond) =(1, 0) ; N (Carré) =(0, 1)

Dr N. NEGGAZ- Cours Analyse de données


Chapitre 1 : Description des tableaux de données 6

Donc le tableau de codage disjonctif contient 10 lignes et 8 colonnes .

Couleur Poids Forme


V1 V2 V3 V4 V5 V6 V7 V8
P1 1 0 0 1 1 0 1 0
P2 0 1 0 1 0 0 0 1
P3 0 0 1 1 0 0 1 0
P4 1 0 0 1 1 1 0 1
P5 0 1 0 1 0 0 1 0
P6 0 0 1 1 1 1 0 1
P7 1 0 0 1 0 0 1 0
P8 0 1 0 1 1 1 0 1
P9 0 0 1 1 1 1 1 0
P10 1 0 0 1 1 0 0 1

Tableau de distance : ce tableau est symétrique tels que les lignes et les colonnes
représentent les individus.
Exemple : Pour déterminer le tableau de distance, on a besoin de définir une mesure de
dissemblance/ressemblance.
Par exemple on a les deux individus suivants :

I1 : 1010

b+c
I 2 : 1001 ; La mesure de dissemblance : d ( I , J ) =
a+b+c+d

a représente le nombre de fois où xij = 1 et xi ' j ' = 1 . ↶ 1 0


1 a b
b représente le nombre de fois où xij = 0 et xi ' j ' = 1 .
0 c d
c représente le nombre de fois où xij = 1 et xi ' j ' = 0 .

d représente le nombre de fois où xij = 0 et xi ' j ' = 0

La distance entre I1 et I2 :  a = 1; b = 1; c = 1; d = 1.  d (I1, I 2) = 2 / 4 = 1/ 2

On suppose qu’on a le tableau de codage suivant : Réponse 1 Réponse 2


V1 V2 V3 V4
I1 1 0 1 0
I2 1 0 0 1
I3 0 1 1 0
I4 0 1 0 1
I5 1 0 1 0
I6 1 0 0 1
I7 0 1 1 0

Dr N. NEGGAZ- Cours Analyse de données


Chapitre 1 : Description des tableaux de données 7

Alors le tableau de distance correspondant en utilisant La mesure de dissemblance :


b+c
d (I, J ) =
a+b+c+d

Est le suivant :

D I1 I2 I3 I4 I5 I6 I7
I1 0 1/2 1/2 1 0 1/2 1/2
I2 0 1 ½ 1/2 0 1
I3 0 ½ 1/2 1 0
I4 0 1 1/2 1/2
I5 0 1/2 1/2
I6 0 1/2
I7 0

Tableau de BURT : sert à réduire le tableau de codage disjonctif complet en calculant le


produit matriciel X X .
Remarque :
Dans le cas où les variables possèdent un codage qualitatif ordinal, on doit ignorer la notion
d’ordre au niveau des variables qualitatives ordinales c.à.d. on doit construire un tableau de codage
disjonctif complet et puis on calcule le tableau de Burt par X X .

1.4 Statistique à deux variables


Dans la partie statistique à deux variable, on trouve l’algorithme d’AFC qui a été introduit par
Bezécri sous le nom d’analyse des correspondance [3]. Cette dernière traite le tableau de
contingence (variable/variable), appelé aussi tableau croisé qui contient n lignes et p colonnes
relatifs aux modalités des deux variables x et Y, respectivement.

Y y1 y2 yj yp
X
x1

x2

xi K ij

xn

Dr N. NEGGAZ- Cours Analyse de données


Chapitre 1 : Description des tableaux de données 8

1.4.1 Les ingrédients nécessaires pour une analyse factorielle des correspondances (AFC)
Tableau de fréquences : ce tableau est obtenu après normalisation du tableau de

K ij
contingence en divisant par K (le nombre total des individus) c.à.d. f ij = avec
K
K =  Kij . Les f i• et les f • j s’appellent respectivement les fréquences marginales
i j

lignes et les fréquences marginales colonnes telles que :


p n
f i. =  f ij et f . j =  f ij
j =1 i =1

Exemple : soit le tableaux de contingences : (Couleur/ Formes) ; K =  Kij = 10


i j

Couleur Forme Rond Carré


Bleu 2 2
Blanc 1 2
Vert 2 1
K ij
Alors le tableau de fréquence : f ij = est :
K
f ij f i1 fi2 f i.
f1 j 2/10 2/10 4/10

f2 j 1/10 2/10 3/10

f3 j 2/10 1/10 3/10

f. j 5/10 5/10 1

fij
Tableau des profils lignes FJi : est un tableau des fréquences conditionnelles FJi = ,
fi•

cette valeur représente la probabilité d’avoir la modalité j de la variable Y sachant que

la modalité de la variable X est i . Le nuage de point est un couple composé de

cordonnées des individus FJi associés à leurs poids fi• , noté par :

N (I ) = ( F , f ) , i = 1.......n .
J
i
i•

Exemple :
f ij
▪ Tableau des profils lignes : FJi : FJi =
f i.
FJi F1i F2i f i.
FJ1 2/4 2/4 4/10

FJ2 1/3 2/3 3/10

FJ3 2/3 1/3 3/10

Dr N. NEGGAZ- Cours Analyse de données


Chapitre 1 : Description des tableaux de données 9

( ) 
 
N (I ) = FJi , f i. , i = 1....... n = (2 4 ; 2 4 ), 4 10 ; (1 3; 2 3), 3 10 ; (2 3;1 3), 3 10
 
Un raisonnement similaire peut être réalisé pour les colonnes, alors on parle de s profiles colonnes.
Tableau des profils colonnes : FI j : est un tableau des fréquences conditionnelles
fij
FI j = , cette valeur représente la probabilité d’avoir la modalité i de la variable X
f• j
sachant que la modalité de la variable Y est j . Le nuage de point est un couple composé
de cordonnées des individus FI j associés à leurs poids f• j , noté par :

N (J ) = ( F I
j
, f • j ) , j = 1....... p . 
Exemple :

f ij
- Tableau des profils colonnes : FI j : FI j =
f. j
FI j FI1 FI2
F1 j 2/5 2/5

F2 j 1/5 2/5

F3 j 2/5 1/5

f. j 5/10 5/10

( ) 
 
N ( J ) = FI j , f . j , j = 1....... p = (2 5 ;1 5 ; 2 5), 5 10 ; (2 5 ; 2 5 ;1 5), 5 10 ;
 

1.4.2 La ressemblance entre profils :


Pour déterminer la ressemblance entre deux individus de profils lignes ou profiles

colonnes, on calcule la distance munie d’une métrique  qui est définie par :
2

de la façon suivante :

- La matrice diagonale D 1 définie la métrique pour le nuage N ( I ) , tandis que la matrice


f• j

diagonale D 1 définie la métrique pour le nuage N ( J ) . Alors la distance entre deux individus
f i•

( )= F ( )
p
=  FJi − F ji
2 2
i'
−F i' '
2 i i
profils lignes est donnée par : d F , F J j J j f . j , tandis que
D 1 j =1
f.j

la distance entre deux individus profils colonnes est donnée par :

( ) ( )
n
=  FI j − FI j
2 2
d 2 FI j , Fi j = FI j − Fi j
' ' '
f i.
D1
i =1
fi .

Dr N. NEGGAZ- Cours Analyse de données


Chapitre 1 : Description des tableaux de données 10

Exemple :

d 2 ( FJ1 , FJ2 ) = FJ1 − FJ2


2

D 1

Le tableau de distance pour le nuage N (I ) :


f.j
-
=  ( FJ1 − FJ2 )
p
2
f. j
j =1

f ij
Soit le Tableau des profils lignes : FJi : FJi =
f i.

FJi F1i F2i f i.


FJ1 2/4 2/4 4/10

FJ2 1/3 2/3 3/10

FJ3 2/3 1/3 3/10

( ) 
 
N (I ) = FJi , f i. , i = 1....... n = (2 4 ; 2 4 ), 4 10 ; (1 3; 2 3), 3 10 ; (2 3;1 3), 3 10
 

 5 10 
f . j =   alors :
 5 10 

2
(
d F ,F 1 2
)= F −F
1 2 2
= F −F
p
( 1
)
2 2
f. j =
(2 4 − 1 3) (2 4 − 2 3)
2
+
2
=
1
J J J J D J J
1
j =1 5 10 5 10 9
f.j

2
(
d F ,F 1 3
)= F −F
1 3 2
p
= F −F ( 1
)
3 2
f. j =
(2 4 − 2 3) (2 4 − 1 3)
2
+
2
=
1
J J J J D J J
1
j =1 5 10 5 10 9
f.j

( )
d 2 FJ2 , FJ3 = FJ2 − FJ3
2
p
=  FJ2 − FJ3( )2
f. j =
(1 3 − 2 3)2 + (2 3 − 1 3)2 =
4
D 1
j =1 5 10 5 10 9
f.j

(
d 2 FJi , FJi
'
) FJ1 FJ2 FJ3
FJ1 0 1/9 1/9

FJ2 1/9 0 4/9

FJ3 1/9 4/9 0

Dr N. NEGGAZ- Cours Analyse de données


Chapitre 1 : Description des tableaux de données 11

Centre de gravité pour chaque nuage : généralement, le centre de gravité est donné par
n

P *x i i
la formule suivante : g = i =1
n
alors le Centre de gravité pour le nuage N ( I ) est
P
i =1
i

f i. * FJi
g N (I ) = i =1
n
=
f i =1
i.

n f ij
f
n

i =1
.j *
f. j f ij

défini par : n
= i =1
n

f
i =1
i. f
i =1
i.

f. j f. j f. j f. j
= p
= p
= p
=
n n K ij 1 n 1
 f
i =1 j =1
ij  K  K ij
K i =1 j =1 K
*K
i =1 j =1

= f. j

Concernant le centre de gravité pour le nuage N ( J ) est défini par :


p

f
j =1
.j * FI j
g N (J ) = p

f
j =1
.j

p f ij p

 f. j *
j =1 f. j f ij
j =1
= p
= p

fj =1
.j f
j =1
.j

f i. f i. f i.
= p
= p
=
n
1 n 1
 f
j =1 i =1
ij  K ij
K j =1 i =1 K
*K

= f i.
Remarque :

Le centre de gravité pour le nuage N ( I ) corresponds aux fréquences marginales colonnes, tandis que

e centre de gravité pour le nuage N ( J ) corresponds aux fréquences marginales lignes.

Dr N. NEGGAZ- Cours Analyse de données


Chapitre 1 : Description des tableaux de données 12

Exemple :
- Le centre de gravité du nuage N (I )
n n

 p i . xi f i. * FJi
4 2 4  3  1 3  3  2 3   5 10 
g N (I ) = i =1
= i =1
=  +  +  =  = f. j
n n
10  2 4  10  2 3  10  1 3   5 10 
p
i =1
i f
i =1
i.

- Le centre de gravité du nuage N (J )


p

f j =1
.j * FI j
5
 2 5
 5
 2 5   4 10 
  
g N (J ) = p
=  1 5  +  2 5  =  3 10  = f i.
10   10  1 5   3 10 
f j =1
.j  2 5    

1.4.3 Calcul d’inertie :


n
L’inertie représente la variance et qui est calculée par : I =  P d (x , g )
i =1
i
2
i

( )
n
- L’inertie pour le nuage N ( I ) est calculée par : I N ( I ) = f i. d 2 FJi , f . j avec
i =1

( ) ( )
p
=  FJi − f . j
2 2
d 2 FJi , f . j = FJi − f . j f. j
D 1
j =1
f.j

( )
n p

 f i.  FJi − f . j
2
Donc : I N ( I ) = f. j
i =1 j =1

( )
p
- L’inertie pour le nuage N ( J ) est déterminée par : I N ( J ) =  f . j d 2 FI j , f i. avec
j =1

( ) ( )
n
=  FI j − f i.
2 2
d 2 FI j , f i. = FI j − f i. f i.
D1
i =1
fi .

( )
p n

 f . j  FI j − f i.
2
Donc : I N ( J ) = f i.
j =1 i =1

Exemple :
L’inertie du nuage N (I )

( ) 
 
N (I ) = FJi , f i. , i = 1....... n = (2 4 ; 2 4 ), 4 10 ; (1 3; 2 3), 3 10 ; (2 3;1 3), 3 10
 

 5 10 
f . j =  
( )
p
 5 10  I N ( J ) =  f . j d 2 FI j , f i.
( ) ( )
n
=  FI j − f i.
2 2
j =1
d 2 FI j , f i. = FI j − f i. f i.
D1
i =1
fi .

Dr N. NEGGAZ- Cours Analyse de données


Chapitre 1 : Description des tableaux de données 13

( ) ( ) ( )
n p
I N ( I ) =  f i. d 2 FJi , f . j =  FJi − f . j
2 2
et d 2 FJi , f . j = FJi − f . j f. j
D
i =1 1
j =1
f.j

 (2 / 4 − 5 / 10)2 (2 / 4 − 5 / 10)2 
( 1
J ) 2
( J
2
)
I N ( I ) = f1. .d F , f . j + f 2. .d F , f . j + f 3. .d F , f . j = 4 / 10.
2 2
( J
3
) + 
 5 / 10 5 / 10 
 (1 / 3 − 5 / 10) (2 3 − 5 / 10) 
2 2
 (2 / 3 − 5 / 10) (1 / 3 − 5 / 10) 
2 2
+ 3 / 10. +  + 3 / 10. + =
 5 / 10 5 / 10   5 / 10 5 / 10 

Calcul d’inertie du nuage N (J ) :

 4 10 
 
( ) 
 
N ( J ) = FI , f . j , j = 1....... p = (2 5 ;1 5 ; 2 5), 5 10 ; (2 5 ; 2 5 ;1 5), 5 10 ; f i. =  3 10 
j

   3 10 
 

( )
I N ( J ) =  f . j d 2 FI j , f i. et d 2 (FI j , f i. ) = FI j − f i. ( )
p n
=  FI j − f i.
2 2
f i.
D1
j =1 i =1
fi .

 (2 / 5 − 4 / 10)2 (1 / 5 − 3 / 10)2 (2 / 5 − 3 / 10)2 


2
( I
1
) 2
(
I N ( J ) = f .1 .d F , f i. + f .2 .d FI , f i. = 5 / 10. 2
) + + 
 4 / 10 3 / 10 3 / 10 
 (2 / 5 − 4 / 10) (2 / 5 − 3 / 10) (1 / 5 − 3 / 10) 
2 2 2
+ 5 / 10. + + =
 4 / 10 3 / 10 3 / 10 
Exercice 1 :
Soit un ensemble de 12 personnes à qui nous avons posé ces deux questions :
Q1 : Lisez- vous le journal « le quotidien d’Oran» ?
Q2 : Quelle est votre fréquence de lecture ?
Leurs réponses étaient comme suivantes :
P1=(Oui, Souvent) ; P2=(Non, Jamais) ; P3=(Oui, Rarement) ; P4=(Oui, Toujours) ;
P5=(Non, Jamais) ; P6=(Oui, Souvent) ; P7=(Oui, Souvent) ; P8=(Oui, Toujours) ;
P9=(Non, Jamais) ; P10=(Oui, Souvent) ; P11=(Oui, Rarement) ; P12=(Oui, Souvent) ;
En supposant que les fréquences de lecture obéissent à la relation d’ordre suivante :
Jamais<rarement<Souvent<Toujours

1. Donner le tableau de codage correspondant.


2. Expliquer brièvement comment peut-on réduire ce tableau ?
3. Réduire le tableau de codage.
4. Une étude parallèle s’intéresse à une analyse factorielle des correspondances
Donner le tableau de contingence correspondant.
Etablir les nuages de points à étudier et montrer la relation entre ces deux nuages.

Dr N. NEGGAZ- Cours Analyse de données


Chapitre 1 : Description des tableaux de données 14

1. Le tableau de codage correspondant.

Réponse1 (Oui , Non) : Oui(1, 0) ; Non (0, 1) ;


Réponse 2(Jamais, Rarement, Souvent, Toujours) : Jamais<rarement<Souvent<Toujours
Jamais (1, 0, 0,0) ; Rarement (1, 1, 0,0) ; Souvent(1, 1, 1,0) ; Toujours (1,1,1,1)

Réponse1 Réponse2
V1 V2 V3 V4 V5 V6
P1 1 0 1 1 1 0
P2 0 1 1 0 0 0
P3 1 0 1 1 0 0
P4 1 0 1 1 1 1
P5 0 1 1 0 0 0
P6 1 0 1 1 1 0
P7 1 0 1 1 1 0
P8 1 0 1 1 1 1
P9 0 1 1 0 0 0
P10 1 0 1 1 1 0
P11 1 0 1 1 0 0
P12 1 0 1 1 1 0

2. Pour réduire le tableau de codage, il faut tout d’abord ignorer la relation d’ordre de la deuxième
variable (Fréquence de lecture) ensuite, on calcule le tableau de Burt.

Tableau de codage disjonctif complet

Réponse1 Réponse2
V1 V2 V3 V4 V5 V6
P1 1 0 0 0 1 0
P2 0 1 1 0 0 0
P3 1 0 0 1 0 0
P4 1 0 0 0 0 1
P5 0 1 1 0 0 0
P6 1 0 0 0 1 0
P7 1 0 0 0 1 0
P8 1 0 0 0 0 1
P9 0 1 1 0 0 0
P10 1 0 0 0 1 0
P11 1 0 0 1 0 0
P12 1 0 0 0 1 0

Tableau de Burt

9 0 0 2 5 2
0 3 3 0 0 0
0 3 3 0 0 0
B=Xt.X= 2 0 0 2 0 0
5 0 0 0 5 0
2 0 0 0 0 2

Dr N. NEGGAZ- Cours Analyse de données


Chapitre 1 : Description des tableaux de données 15

3. Analyse factorielle des correspondances


Le tableau de contingence correspondant. K =  K
i j
ij = 12

R1 R2 Jamais Rarement Souvent Toujours


Oui 0 2 5 2
Non 3 0 0 0

Les nuages de points :

K ij
Tableau de fréquence : f ij =
K
f ij f i1 fi2 fi3 fi4 f i.
f1 j 0 2/12 5 /12 2/12 9/12
f2 j 3/12 0 0 0 3/12
f. j 3/12 2/12 5/12 2/12
f ij
Tableau des profils lignes : FJi : FJi =
f i.
FJi F1i F2i F3i F4i f i.
FJ1 0 2/9 5/9 2/9 9/12

FJ2 1 0 0 0 3/12

( ) 
N (I ) = FJi , f i. , i = 1.......n = (0;2 / 9;5 / 9;2 / 9), 9 12;(1;0;0;0), 3 12

f ij
Tableau des profils colonnes : FI j : FI j =
f. j
FI j FI1 FI2 FI3 FI4
F1 j 0 1 1 1
F2 j 1 0 0 0
f. j 3/12 2/12 5/12 2/12

( ) 
N (J ) = FI j , f . j , j = 1....... p = (0;1), 3 12; (1;0), 2 12; (1;0), 5 12; (1;0), 2 12

La relation entre le nuage N (I ) et N (J )


Calcul d’inertie du nuage N (I ) :

( ) 
N (I ) = FJi , f i. , i = 1.......n = (0;2 / 9;5 / 9;2 / 9), 9 12;(1;0;0;0), 3 12

Dr N. NEGGAZ- Cours Analyse de données


Chapitre 1 : Description des tableaux de données 16

 3 / 12 
 
 2 / 12 
f. j = 
5 / 12 
 
 2 / 12 
 

( ) ( ) ( )
n p
I N ( I ) =  f i. d 2 FJi , f . j =  FJi − f . j
2 2
et d 2 FJi , f . j = FJi − f . j f. j
D
i =1 1
j =1
f.j

 (0 − 3 / 12)2 (2 / 9 − 2 / 12)2 (5 / 9 − 5 / 12)2 (2 / 9 − 2 / 12)2 


( ) (
I N ( I ) = f1. .d 2 FJ1 , f . j + f 2. .d 2 FJ2 , f . j = 9 / 12. ) + + + 
 3 / 12 2 / 12 5 / 12 2 / 12 
 (1 − 3 / 12)2 (0 − 2 / 12)2 (0 − 5 / 12)2 (0 − 2 / 12)2 
+ 3 / 12.. + + + =
 3 / 12 2 / 12 5 / 12 2 / 12 

Calcul d’inertie du nuage N (J ) :

 9 / 12 
( ) 
N (J ) = FI j , f . j , j = 1....... p = (0;1), 3 12; (1;0), 2 12; (1;0), 5 12; (1;0), 2 12 f i. =  
 3 / 12 

( )
p
I N ( J ) =  f . j d 2 FI j , f i.
j =1
et

( ) ( )
n
=  FI j − f i.
2 2
d 2 FI j , f i. = FI j − f i. f i.
D1
i =1
fi .

( ) ( ) ( )
I N ( J ) = f .1 .d 2 FI1 , f i. + f .2 .d 2 FI2 , f i. + f .3 .d 2 FI3 , f i. + f .4 .d 2 FI4 , f i. = ( )
 (0 − 9 / 12)2 (1 − 3 / 12)2   (1 − 9 / 12)2 (0 − 3 / 12)2 
3 / 12. +  + 2 / 12. + +
 9 / 12 3 / 12   9 / 12 3 / 12 
 (1 − 9 / 12)2 (0 − 3 / 12)2   (1 − 9 / 12)2 (0 − 3 / 12)2 
5 / 12. +  + 2 / 12. + =
 9 / 12 3 / 12   9 / 12 3 / 12 

-
La relation entre les deux nuage réside dans l’égalité d’inertie

Dr N. NEGGAZ- Cours Analyse de données


Chapitre 1 : Description des tableaux de données 17

Exercice 2 :
Soit un ensemble de sept individus ayant répondu à deux questions comme suivant :
I1=(Oui, Oui) ; I2=(Oui, Non) ; I3=(Non, OUI) ; I4=(Non, Non) ; I5=(Oui, Oui) ; I6=(Oui, Non) ; I7=(Non,
Oui)
1. Déterminer le tableau de codage disjonctif complet.
b+c
2. En utilisant la mesure d ( I , J ) = , donner le tableau de distance correspondant.
a+b+c+d
3. En déduire une classification en 4 classes, 3 classes.
4. Réduire le tableau de codage.
- Solution :
1. Tableau de codage disjonctif :

Réponse 1(Oui, Non) : N(Oui)=(1, 0) ; N(Non)=(0, 1)

Réponse 2(Oui, Non) : N(Oui)=(1, 0) ; N(Non)=(0, 1)

Réponse 1 Réponse 2
V1 V2 V3 V4
I1 1 0 1 0
I2 1 0 0 1
I3 0 1 1 0
I4 0 1 0 1
I5 1 0 1 0
I6 1 0 0 1
I7 0 1 1 0

a représente le nombre de fois où xij = 1 et xi ' j ' = 1 .

b représente le nombre de fois où xij = 0 et xi ' j ' = 1 .

c représente le nombre de fois où xij = 1 et xi ' j ' = 0 .

d représente le nombre de fois où xij = 0 et xi ' j ' = 0

Calcul de la distance entre I1 et I2 :

I1 : 1010

b+c
I 2 : 1001 ; La mesure de dissemblance : d (I, J ) =
a+b+c+d
 a = 1; b = 1; c = 1; d = 1.  d (I1, I 2) = 2 / 4 = 1/ 2

Dr N. NEGGAZ- Cours Analyse de données


Chapitre 1 : Description des tableaux de données 18

2. Tableau de distance

D I1 I2 I3 I4 I5 I6 I7
I1 0 1/2 1/2 1 0 1/2 1/2
I2 0 1 1/2 1/2 0 1
I3 0 1/2 1/2 1 0
I4 0 1 1/2 1/2
I5 0 1/2 1/2
I6 0 1/2
I7 0

3. Classification en 4 classes :

C1 = I1 , I 5  ; C2 = I 2 , I 6  ; C3 = I 3 , I 7  et C4 = I 4 

Classification en 3 classes :
C1 = I1 , I 5  ; C2 = I 2 , I 6  ; C3 = I 3 , I 4 , I 7  ou bien C1 = I1 , I 5  ; C2 = I 2 , I 6  ;
C3 = I 3 , I 7 
4. Réduction du tableau de codage :
▪ Tableau de Burt :
V1 V2 V3 V4
V1 4 0 2 2
t
B=X .X= V2 0 3 1 2
V3 2 1 3 0
V4 2 2 0 4

▪ Réduction par regroupement :

V1 V2 V3 V4
C1 2 0 2 0
C2 2 0 0 2
C3 2 1 3 0
C4 0 2 2 0

1.5 Conclusion
Dans ce chapitre, nous avons introduit les notions de base en statistique et en analyse des
données en décrivant les différents tableaux de données ainsi les mesures de similarité. Après,
nous avons défini les ingrédients nécessaires d’une analyse factorielle des correspondances en
introduisant les tableaux des profils lignes et colonnes, le centre de gravité de chaque nuage et
les métriques utilisées. L’analyse factorielle sera détaillée dans le chapitre suivant.

Dr N. NEGGAZ- Cours Analyse de données


Analyse Factorielle
Chapitre2 : Analyse Factorielle 19

2.1 Introduction
L’analyse en composantes principales (ACP) est une des premières analyses factorielles et qui
attire l’attention des scientifiques jusqu’à présent sachant que l’ACP a été conçue par Karl Pearson en
1901 [4].
Plusieurs applications font appel à l’intégration de l’ACP comme une méthode de sélection des
attributs. Souvent, l’ACP est appliqué comme une méthode de prétraitement dans le domaine
d’intelligence artificielle [5]. Plusieurs variantes de l’ACP figurent dans la littérature comme l’ACP non-
normée (données homogènes) qui utilise un nuage de point centré, ou bien l’ACP centrée réduite
(données hétérogènes) qui utilise un nuage de point centré et réduit. L’algorithme d’ACP permet de
traiter un tableau de type individu/variable <n, p>.
Nous trouvons aussi d’autres variantes telles que l’analyse en composantes curviligne pour
remédier la linéarité des projections [6], ou encore l’analyse en composantes indépendantes pour la
séparation de source [7]. L’analyse factorielle des correspondances (AFC) permet une représentation
simultanée des individus et des variables et qui peut être traitée comme double ACP sur un tableau
croisé. [8].

2.2 Les données


Les données pour l’ACP sont généralement présentées sous la forme d’un tableau où les lignes
indiquent les individus, tandis que les colonnes représentent les variables. Elle traite des données
quantitatives. Nous notons xij , la valeur de la variable j de l’individu i . N désigne le nombre total

des individus et P indique le nombre total des variables.

2.3 Les objectifs


Deux objectifs sont envisageables par l’ACP :
- Le premier cherche à représenter graphiquement les individus en calculant les composantes
principales, qui représentent la projection des individus dans l’espace réduit.
- Le deuxième cherche à représenter les variables en calculant les coefficients de corrélation
entre les variables et les composantes principales.
Elle peut être représentée selon deux points de vue :
La recherche d’un ensemble réduit de variables non corrélées (combinaison linéaire des
variables initiales).
La recherche de sous espace représentant au mieux le nuage initial.

Dr N. NEGGAZ- Cours Analyse de données


Chapitre2 : Analyse Factorielle 20

2.4 Les types d’inertie


➢ L’inertie d’un point autour de son centre de gravité g :
L’inertie est une notion fondamentale en ACP, puisqu’elle est une mesure de dispersion du

I xi = Pi .d 2 (xi , g )
nuage de points autour de son centre de gravité.

➢ L’inertie totale du nuage de points autour de son centre de gravité g :

n
I =  Pi .d 2 ( xi , g )
i ==1

➢ L’inertie d’un point par rapport à un axe

I X i /  = Pi d i2/ 

➢ L’inertie du nuage de points par rapport à un axe


- Principe de l’ACP
Pour visualiser le nuage des individus, il est nécessaire de réduire la dimension de l’espace qui
le porte. L’ACP réduit cette dimension par une projection orthogonale sur un sous espace.
Donc l’inertie I du nuage autour du sous espace linéaire  est donnée par :
n
I /  =  Pi d i2/ 
i =1

*
Xi 

+
+ + u
g
+ +

Fig 2.1 :

^ ^ 2

= Xi + di /   di /  = Xi − Xi
2 2 2 2
D’après le théorème de Pythagore : X i M M
M M

Dr N. NEGGAZ- Cours Analyse de données


Chapitre2 : Analyse Factorielle 21

n ^ 2 n  ^ 2

I /  =  Pi d i2/  et d i /   I /  =  Pi . X i 
2
= Xi
2
− Xi
2
− Xi
M  M 
i =1 M i =1  M 
n n ^ 2

 I /  =  Pi . X i −  Pi . X i
2
M
→ M : Métrique
i =1 i =1 M
n n
 I /  =  Pi . X i −  Pi . X i ,U  M 
2 2
M
i =1 i =1
n n
 I /  =  Pi . X i −  Pi .  X i ,U  tM .  X i ,U  M
2
M
i =1 i =1
n n
 I /  =  Pi . X i −  Pi .( X i .M .U ) .( X i .M .U )
2 t
M
i =1 i =1
n n
 I /  =  Pi . X i −  Pi .U t .M t . X it . X i .M .U → M t = M
2
M
i =1 i =1
n n
 I /  =  Pi . X i −  Pi .U t .M . X it . X i .M .U
2
M
i =1 i =1
n n n
 I /  =  Pi . X i − U t .M  Pi . X it . X i .M .U → V =  Pi . X it . X i
2
M
i =1 i =1 i =1
n
 I /  =  Pi . X i − U t .M .V .M .U
2
M
i =1


Min I /   Max U t .M .V .M .U 
V .M .U k = k .U k Tels que U k : Vecteurs propres de la matrice V.M ;  k : Valeurs propres de la
matrice V.M
: Variables homogènes
 I

La métrique M =  D 1
  2j : Variables hétérogènes
: Variables homogènes

Remarque : Les vecteurs propres constituent une base orthonormée c-à-d :

 U i , U j  M = U it MU j = 0 i  j = U i , U i  M = U it MU i = 1
2
Ui
&

- Les composantes principales : C ki = X i ,U k  M = X it MU k et Ck = XMU k .

Dr N. NEGGAZ- Cours Analyse de données


Chapitre2 : Analyse Factorielle 22

2.5 Les propriétés de la composante principale :


N

 P .C i
i
k
1 N i N
1) Moy(C k ) = 0  i =1
n
=0  Ck = 0   C ki = 0
P
N i =1 i =1
i
i =1

 P .(C )
N
2) Var (C k ) = k  Var (C k ) = i 2 1 t
i k = C k * C k 3) 3
i =1 N
Cov(C i , C j )
( )
3) Cor C i , C j = = 0  Cov(C i , C j ) = 0 
1 t
Ci * C j = 0
 C . C i j
N

2.6 Algorithme d’ACP:


N

 p .x i ij
1
1. Centrer le tableau ( X  n , p  ) : X = X − g et g = i =1
; j = 1... p; i = 1... N & pi =
' j
N

p
N
i
i =1

1 t
2. Calculer la matrice variance –covariance : V = X .X
N
 I

3. Déterminer la métrique M =  D 1 Données homogènes/ hétérogènes.
  2j
4. Recherche des axes principaux U k de la matrice (VM )
Calculer les valeurs propres : dét(VM − I ) = 0
Trier les valeurs propres par ordre décroissant : 1  2  .....   p .
𝐽
∑ 𝜆𝑖
5. Calculer la qualité de représentation : 𝑄𝑗 = ∑𝑖=1
𝑝 ≥ 80%.
𝑖=1 𝜆𝑖

6. Calculer les vecteurs propres U k de la matrice (VM ) en utilisant la formule : VMU k = kU k .
7. Calculer les composantes principales : C ki = X i ,U k  M = X it MU k et Ck = XMU k .
8. Représenter graphiquement les individus dans l’espace réduit en utilisant les composantes principales.
9. Les contributions aux inerties :

Part d’inertie de X i prise en compte par l’axe U k : cos ( ) =


2 (C ) k
i 2
.
ik 2
X i M

Contribution relative de l’individu X i à l’inertie expliquée de l’axe U k :

 ik =
( )
Pi . Cki
2
P. Ci
= i k = i k
( ) 2
P. Ci ( ) 2

Var (Ck ) k
 P .(C )
n
i 2
i k
i =1

10. Représentation des variables à l’aide du coefficient de corrélation :

( )
N

(  Pi . X i j .Cki
)
1 t
X j .Ck
(
Cor X j , C K ) =
Cov X j , Ck
 X j . Ck
= i =1 = N
 X j . k  X j . k

Dr N. NEGGAZ- Cours Analyse de données


Chapitre2 : Analyse en composantes principales 23

2.7 Algorithme d’AFC :


1. Tableau [Variable/Variable] → deux tableaux de profils [Individus/ Variables]
2. Application de deux ACP → N (I )
 N (J )
3. Les valeurs propres significatives du nuage
k  0,1
N ( I )   k ,U k
N (J )  k ,Vk
N (I )  Ck = FJI .D 1 U k & N (J )  d k = FIJ .D 1 Vk
f.j fi.
4. Calculer les composantes principales :
P n
1 1
Cki =
K
 FJI .d kj & d kj =
j =1 K
F
i =1
I
J
.Cki
5. Les formules de transitions :

Exemple sur l’analyse en composantes principales dans le cas des données


homogènes :
Soit un ensemble de six individus caractérisés par trois notes chacun.

N1 N2 N3
I1 8 1 0
I2 4 6 5
I3 6 8 7
I4 10 4 7
I5 8 2 5
I6 0 3 6

➢ Appliquer l’analyse en composante principale ( 1 = 12 ).

1. Le tableau centré X  n , p  :
n

 p .x i i
Calcul du centre de gravité : g = i =1
n

p
i =1
i

1 1
Pi = où N représente le nombre d’individus. Cela implique que Pi = ; i = 1,......... ., n;1...6 ;
N 6
j = 1,....... p;1...3

Dr N. NEGGAZ- Cours Analyse de données


Chapitre2 : Analyse en composantes principales 24

1 
 (8 + 4 + 6 + 10 + 8 + 0)
6   6
  
g=
1
 6
(1 + 6 + 8 + 4 + 2 + 3)  =  4 

1   5 
 (0 + 5 + 7 + 7 + 5 + 6 ) 
6 
N1 N2 N3  8−6 1− 4 0 − 5   + 2 − 3 − 5
   
I1 8 1 0  4−6 6−4 5−5   −2 + 2 0 
 6−6 8−4 7−5   0 + 4 + 2 
I2 4 6 5 Tableau centré X = = 
I3 6 8 7 10 − 6 4 − 4 7 − 5  + 4 0 + 2 
 8−6 2−4 5−5   + 2 −2 0 
I4 10 4 7    
 0−6 3 − 4 6 − 5   − 6 −1 + 1 
I5 8 2 5
I6 0 3 6
2. Calcul de la matrice variance –covariance :
g 6 4 5
 64 − 8 − 8 
1 t 1 
V = X . X  V =  − 8 34 22  .
N 6 
 − 8 22 34 
3. Détermination de la métrique :

1 0 0
 
Les données sont homogènes car elles possèdent le même type de mesure  M = Id =  0 1 0 
0 0 1
 

4. Recherche des axes principaux U k de la matrice (VM ) :

Calcul des valeurs propres  k de la matrice (VM ) en utilisant la formule suivante :

dét(VM − I ) = 0

64 − 6 −8 −8
dét(VM − I ) =
1
−8 34 − 6 22 = 0  3 − 222 + 136 − 192 = 0
6
−8 22 34 − 6

3 − 222 + 136 − 192  −12


− 3 + 122 2 − 10 + 16
− 102 + 136 − 192
+ 102 − 120
16 −192
−16 +192
0

Dr N. NEGGAZ- Cours Analyse de données


Chapitre2 : Analyse en composantes principales 25

dét(VM − I ) = 0  3 − 222 + 136 − 192 = 0  ( − 12). 2 − 10 + 16 = 0( )


 1 = 12
  − b +  10 + 6
  − 12 = 0   2 = = =8
 2   2a 2
 − 10 + 16 = 0   = b 2
− 4 ac = 100 − 4 .1 . 16 = 36 →  = 6  
  = − b −  = 10 − 6 = 2
  3 2a 2
1 = 12  2 = 8  3 = 2
5. Calcul de la qualité de représentation
j

 i
1 12
Qj = i =1
 80%  Q1 = = = 0.54 = 54%  80%
p
1 + 2 + 3 12 + 8 + 2

i =1
i

1 + 2 12 + 8
Q2 = = = 0.9 = 90%  80% Il y’a deux axes principaux U1 ,U 2 relatifs
1 + 2 + 3 12 + 8 + 2
aux valeurs propres 1 , 2

6. Calcul des vecteurs propres U1 ,U 2 de la matrice (VM) : VMU k = kU k

 64 − 8 − 8  x   x   64x − 8 y − 8 z = 72x  − 8x − 8 y − 8z = 0 → (1)


1      
VMU 1 = 1U 1   − 8 34 22  y  = 12 y   − 8 x + 34 y + 22z = 72 y  − 8 x − 38 y + 22z = 0 → (2)
6    z   − 8 x + 22 y + 34z = 72z − 8 x + 22 y − 38z = 0 →
 − 8 22 34  z      (3)
 − 2
Eq (1) − Eq (2 ) : 30 y − 30z = 0  y = z → (4)  
 U1 =  1 
*

Eq (4)dansEq(3) : −8 x + 22 y − 38 y = 0  x = −2 y  1 
 
 − 2  − 2
  U 1* 1  
U 1 = U 1 .M .U 1 = (− 2 1 1).Id . 1  = 6  U 1 = 6  U 1 = * =
* 2 *t * *
 1 
 1  6 
M M
U1
  M
 1 

 64 − 8 − 8  x   x   64x − 8 y − 8 z = 48x

'
 
'

' ' ' '
 16x ' − 8 y ' − 8 z ' = 0 → (a )
   
1
VMU 2 = 2U 2   − 8 34 22  y '  = 8 y '   − 8 x ' + 34 y ' + 22z ' = 48 y '   − 8 x ' − 14 y ' − 8 z ' = 0 → (b)
6  '   '    ' (c )
 − 8 22 34  z   z   − 8 x + 22 y + 34z = 48z − 8 x + 22 y − 14z = 0 →
' ' ' ' ' '

1
Eq (b ) − Eq (c ) : −36 y ' + 36z ' = 0  y = z → (d )  
 U *
= 1
Eq (d )dansEq(a ) : 16x ' − 8 y ' − 8 y ' = 0  x = y
2
1
 
1 1
  U 2* 1  
U 2 = U 2 .M .U 2 = (1 1 1).Id .1 = 3  U 2 = 3  U 2 = * =
* 2 *t * *
1
1 3 
M M
U2
  M
1

Dr N. NEGGAZ- Cours Analyse de données


Chapitre2 : Analyse en composantes principales 26

7. Calcul des composantes principales Ck = X .M .U k

 + 2 − 3 − 5  − 12   − 2
     
 −2 +2 0  −2  +6   +1
 0 + 4 + 2  1   1  + 6   +1
C1 = X .M .U 1 = X .Id .U 1 = X .U 1 =  .  
1 =   = 6  
 +4 0 +2  6  6  −6   −1 
 +2 −2 0   1   −6   −1 
     
 − 6 −1 +1   + 12   + 2
 + 2 − 3 − 5  − 6  − 2
     
 −2 +2 0   0   0 
 0 + 4 + 2  1   1  + 6 
1
 + 2
C 2 = X .M .U 2 = X .Id .U 2 = X .U 2 =  . 1 =   = 3 
 +4 0 +2  3  3  + 6  + 2
 +2 −2 0   
1  0   0 
     
 − 6 −1 +1   − 6  − 2
8. Représentation graphique des individus :

(
I1 = − 2 6 ,−2 3 ; I 2 = ) ( )
6 ,0 ; I 3 = ( ) ( ) ( ) (
6 ,2 3 ; I 4 = − 6 ,2 3 ; I 5 = − 6 ,0 ; I 6 = 2 6 ,−2 3 )

9. Calcul des contributions :


Contribution relative de l’individu Xi à l’inertie expliquée de l’axe Uk :

 ik =
( )
Pi . Cki
2
P. Ci ( )
= i k = i k
2
P. Ci ( ) 2

Var (Ck ) k
 P .(C )
n
i 2
i k
i =1

Dr N. NEGGAZ- Cours Analyse de données


Chapitre2 : Analyse en composantes principales 27

Par rapport à l’axe U 1 : i=1…6

( )
P1 . C11
2
1
.−2 6 ( )
2

1
11 = =6 = = 0.33
1 12 3

 21 = 0.08;  31 = 0.08;  41 = 0.08;  51 = 0.08;  61 = 0.33.


Par rapport à l’axe U 2 : i=1…6

( )
P1 . C 1 2
1
6
.−2 3( )2

1
12 = 2
= = = 0.25;
2 8 4

 22 = 0;  32 = 0.25;  42 = 0.25;  52 = 0;  62 = 0.25.


Remarque : Si  ik  1 alors le i ème
individu doit être retiré du tableau initial et dans ce cas, il faut

refaire l’ACP.

Part d’inertie de X i prise en compte par l’axe U k : cos ( ) =


2 (C ) k
i 2
.
ik 2
X i M

Par rapport à l’axe U 1 : i=1…6

cos ( ) =
2 (C ) 1 2
1
=
(− 2 6 ) 2

=
24
=
24
= 0.63
 2  4 + 9 + 25 38
11 2
X 1 M  
(2 − 3 − 5).Id . − 3 
 − 5
 

cos ( ) =
2 (C ) 1
2 2
=
( 6) 2

=
6
= 0.75; cos 2 ( 31 ) = 0.3; cos2 ( 41 ) = 0.3; cos 2 ( 51 ) = 0.75;
4+4+0
21 2
X 2 M
8

cos 2 ( 61 ) = 0.63;

Par rapport à l’axe U 2 : i=1…6

cos ( ) =
2 (C ) 1 2
2
=
(− 2 3 ) 2

=
12
=
12
= 0.32
 2  4 + 9 + 25 38
12 2
X 1 M  
(2 − 3 − 5).Id . − 3 
 − 5
 

cos ( ) =
2 (C ) 2 2
2
=
(0)2 = 0; cos2 (32 ) = 0.6; cos2 ( 42 ) = 0.6; cos 2 ( 52 ) = 0;
4+4+0
22 2
X 2 M

cos 2 ( 62 ) = 0.32;

Dr N. NEGGAZ- Cours Analyse de données


Chapitre2 : Analyse en composantes principales 28

10. Représentation des variables à l’aide du coefficient de corrélation

( )
n

(  )
Pi . X i j .Cki 1 t
X j .Ck
(
Cor X j , C K ) =
Cov X j , Ck
 X j . Ck
= i =1 = N
 X j . k  X j . k

 − 2
 
 +1
 
1
(2 − 2 0 4 2 − 6)* 6  +− 11 
6  
 −1 
( )
n

Cov X 1 , C1 
1 1t  
( )
1 i
P . X .C X .C
( )  + 2 = − 3
i i 1 1
Cor X : N1 , C1 =
1
= i =1
= N =
 X 1 . C1  X 1 . 1  X 1 . 1 64 6 * 12 2

 − 2
 
 0
 
1
(2 − 2 0 4 2 − 6)* 3 ++ 22 
6  
 0
( )
n

( Pi . X i1.C2i 1 X 1 t .C2
)  
 − 2 = 1
( )
1
Cov X , C2 i =1 N
Cor X : N1 , C2 =
1
= = =
 X 1 . C2  X 1 . 2  X 1 . 2 64 6 * 8 2

 − 2
 
 +1
 
1
(− 3 2 4 0 − 2 − 1)* 6  +− 11 
6  
 −1 
( )
n

Cov X 2 , C1 
1 2t  
( )
2 i
P . X .C X .C1
( )  + 2  = 6 17 = 0.59
i i 1
Cor X : N 2 , C1 =
2
= i =1
= N =
 X 2 . C1  X 2 . 1  X 2 . 1 34 6 * 12

 − 2
 
0
 
1
(− 3 2 4 0 − 2 − 1)* 3 ++ 22 
6  
0
( )
n

Cov X 2 , C2 
1 2t  
( )
2 i
P . X .C X .C2
( )  − 2  = 4 = 0.68
i i 2
Cor X : N 2 , C2 =
2
= i =1
= N =
 X 2 . C2  X 2 . 2  X 2 . 2 34 6 * 8 34

Dr N. NEGGAZ- Cours Analyse de données


Chapitre2 : Analyse en composantes principales 29

 − 2
 
 +1
 
1
(− 5 0 2 2 0 1)* 6  +− 11 
6  
 −1 
( )
n

Cov X 3 , C1 
1 3t  
( )
3 i
P . X .C X .C
( )  + 2 = 1
i i 1 1
Cor X : N 3 , C1 =
3
= i =1
= N =
 X 3 . C1  X 3 . 1  X 3 . 1 34 6 * 12 2

 − 2
 
0
 
1
(− 5 0 2 2 0 1)* 3 ++ 22 
6  
0
( )
n

(  P
) . X 3 i
.C 1 3t
X .C  
 − 2  = 4 = 0.68
( ) Cov X 3 , C2 i =1 i i 2 N 2
Cor X : N 3 , C2 =
3
= = =
 X 3 . C2  X 3 . 2  X 3 . 2 34 6 * 8 34

Fig. 2.2 : Cercle de corrélation. +1

*N1 0.5 N3*N2


-1 -0.86 0.69 +1

-1

La deuxième composante C2 est positivement corrélée avec les trois variables (N1, N2 et N3). C 2
nous informe sur le résultat général de l’étudiant (C2≈moyenne).
C1 est positivement corrélée avec N2, N3 et négativement corrélée avec N1. C1 nous informe sur la
différence entre les résultats des deux derniers examens et le 1 ier examen.

Exemple sur l’analyse en composantes principales dans le cas des données


hétérogènes :
Soit un ensemble de six individus dont on a mesuré le poids et la taille.

Poids Taille
I1 20 15
I2 5 2
I3 12 21
I4 21 13
I5 2 7
I6 12 20

Dr N. NEGGAZ- Cours Analyse de données


Chapitre2 : Analyse en composantes principales 30

1. Appliquer une Analyse en composante principale.


2. Déduire toutes les partitions possibles, en définissant le sens physique des classes.

Le tableau centré X  n , p  :
n

 p .x i i
Calcul du centre de gravité : g = i =1
n

p
i =1
i

1 1
Pi = où N représente le nombre d’individus. Cela implique que Pi = ; i = 1,......, n;1...6 ;
N 6
j = 1,.... p;1...2

1 
 (20 + 5 + 12 + 21 + 2 + 12) 12 
g =6  =  
 1 (15 + 2 + 21 + 13 + 7 + 20) 13
6 

Poids Taille  20 − 12 15 − 13   8 2 
   
I1 20 15  5 − 12 2 − 13   − 7 − 11
 12 − 12 21 − 13   0 8 
I2 5 2 Tableau centré X = = 
I3 12 21  21 − 12 13 − 13   9 0 
 2 − 12 7 − 13   − 10 − 6 
I4 21 13    
 12 − 12 20 − 13  0 7 
I5 2 7
I6 12 20
Calcul de la matrice variance –covariance :
g 12 13
1 t 1  294 153 
V= X . X  V =  .
N 6  153 274
Détermination de la métrique :

Les données sont hétérogènes  M = D 1 j = 1..... P


 2j

 6 / 294 0   1 153/ 274  1 0.56 


M =    VM =   =  
 0 6 / 274   153 / 294 1   0.52 1 

Dr N. NEGGAZ- Cours Analyse de données


Chapitre2 : Analyse en composantes principales 31

Recherche des axes principaux U k de la matrice (VM ) :

Calcul des valeurs propres  k de la matrice (VM ) en utilisant la formule suivante :

dét(VM − I ) = 0

1 1 −  0.56
dét(VM − I ) = = 0  2 − 2 + 0.71 = 0
6 0.52 1 − 

 − b +  2 − 1.08
 2 = = = 0.46

 = b − 4ac = (− 2) − 4.(1)(0.71) = 1.16 →  = 6   2 a 2
2 2

  = − b −  = 2 + 1.08 = 1.54
 3 2a 2
1 = 1.54  2 = 0.46

Calcul de la qualité de représentation


j

 i
1 1.54
Qj = i =1
 80%  Q1 = = = 0.77 = 77%  80%
p
1 + 2 1.54 + 0.46

i =1
i

1 + 2 1.54 + 0.46
Q2 = = = 1 = 100%  80% → Il y’a deux axes principaux U1 ,U 2 relatifs aux
1 + 2 1.54 + 0.46
valeurs propres 1 , 2

Calcul des vecteurs propres U1 ,U 2 de la matrice (VM) : VMU k = kU k

 1 0.56  x   x   x + 0.56 y = 1.54x


VMU 1 = 1U 1     = 1.54     − 0.54x + 0.5 y = 0 → x = 1.04 y
 0.52 1  y   y  0.52x + y = 1.54 y
1.04 
 U 1* =  
 1 
 0.02 0  1.04  U 1*  5.2 
= U 1* .M .U 1* = U 1* .D 1 .U 1* = (1.04 1).
2 t t
U 1* .  = 0.04  U 1* = 0.2  U 1 = =  
M
 2j  0 0.02   1  M
U 1*
M
 5

 1 0.56  x '   x '   x ' + 0.56 y ' = 0.46x '


VMU 2 = 2U 2    '  = 0.46 '    
 0.54x ' + 0.56 y ' = 0 → x ' = −1.04 y '
 y  0.52x + y = 0.46 y
' ' '
 0.52 1  y 
 − 1.04 
 U 2* =  
 1 
 0.02 0   − 1.04  U 2*  − 5.2 
= U 2* .M .U 2* = U 2* .D 1 .U 2* = (− 1.04 1).
2 t t
U 2* .  = 0.04  U 2* = 0.2  U1 = =  
M
 2j  0 0.02   1  M
U 2*  5 
M

Dr N. NEGGAZ- Cours Analyse de données


Chapitre2 : Analyse en composantes principales 32

Calcul des composantes principales Ck = X .M .U k

 8 2   1.03 
   
 − 7 − 11  − 1.83
 0 8   0.02 0  5.2   0.8 
C1 = X .M .U 1 = X .D 1 .U 1 =  .   =  
 9 0  0 0.02   5   0.9 
j2

 − 10 − 6   − 1.64 
   
 0 7   0.7 
 8 2   − 0.63 
   
 − 7 − 11  − 0.37 
 0 8   0.02 0  − 5.2   0.8 
C 2 = X .M .U 2 = X .D 1 .U 2 =  .  = 
 2j  9 0  0 0.02  5   − 0.9 
 − 10 − 6   0.44 
   
 0 7   0.7 
Représentation graphique des individus :
I1 = (1.03,−0.63); I 2 = (− 1.83,−0.37); I 3 = (0.8,0.8); I 4 = (0.9,−0.9); I 5 = (− 1.64,0.44); I 6 = (0.7,0.7 )

Fig.2.3 : Représentation graphique des individus


Calcul des contributions :

 1.03   − 0.63 
   
 − 1.83   − 0.37 
 0 .8   0 .8 
C1 =   C2 =  
 0 .9   − 0 .9 
 − 1.64   0.44 
   
 0 .7   0 .7 

Dr N. NEGGAZ- Cours Analyse de données


Chapitre2 : Analyse en composantes principales 33

Contribution relative de l’individu Xi à l’inertie expliquée de l’axe Uk :

 ik =
( )
Pi . Cki
2
P. Ci ( )
= i k = i k
2
P. Ci ( ) 2

Var (Ck ) k
 P .(C )
n
i 2
i k
i =1

Par rapport à l’axe U 1 : i=1…6

.(1.03)
1
( )
2
1 2
P1 . C
11 = 1
=6 = 0.11
1 1.54

 21 = 0.36;  31 = 0.07;  41 = 0.09;  51 = 0.29;  61 = 0.05.


Par rapport à l’axe U 2 : i=1…6

.(− 0.63)
1
( )
2
2
P1 . C21
12 = =6 = 0.14;
2 8

 22 = 0.05;  32 = 0.23;  42 = 0.29;  52 = 0.07;  62 = 0.18.

Part d’inertie de X i prise en compte par l’axe U k : cos ( ) =


2 (C ) k
i 2
.
ik 2
X i M

Par rapport à l’axe U 1 : i=1…6

cos2 (11 ) =
(C ) 1 2
1
=
(1.03)2 = 0.78
(8 2).
X
2
0.02 0  8
1 M . 
 0 0.02   2 

cos ( ) =
2 (C ) 1
2 2
=
(− 1.83)2 = 0.98
0  −7 
(− 7 − 11).
21 2
X 0.02
2 M . 
 0 0.02   − 11

cos2 (31 ) = 0.5; cos2 ( 41 ) = 0.54; cos 2 ( 51 ) = 0.99; cos2 (61 ) = 0.5;
Par rapport à l’axe U 2 : i=1…6

cos ( ) =
2 (C ) 1 2
2
=
(− 0.63)2 = 0.29
(8 2).
12
X
2
0.02 0  8
1 M . 
 0 0.02   2 

cos ( ) =
2 (C ) 2 2
2
=
(− 0.37)2 = 0.04;
0  −7 
(− 7 − 11).
22 2
X 0.02
2 M . 
 0 0.02   − 11

Dr N. NEGGAZ- Cours Analyse de données


Chapitre2 : Analyse en composantes principales 34

cos2 (32 ) = 0.5; cos2 ( 42 ) = 0.54; cos2 (52 ) = 0.07; cos2 ( 62 ) = 0.5;
Représentation des variables à l’aide du coefficient de corrélation

( ) .C
n

) =  P .X
1
(
j
.Cki j t
X
( )
j i i
Cov X , Ck N
k
Cor X j , C K = i =1
=
 X j . Ck  X . k j  X . k
j

 1.03 
 
 − 1.83
 
1
(8 − 7 0 9 − 10 0)*  00..98 
6  
 − 1.64 
( )
n

(  Pi . X i1 .C1i 1 X 1 t .C1
)  
( )
1
Cor X : Poids, C1 =
1 Cov X , C1 i =1
= = N =  0.7 
= 0.88
 X 1 . C1  X 1 . 1  X 1 . 1 294 6 * 1.54

 − 0.63
 
 − 0.37 
 
1
(8 − 7 0 9 − 10 0)*  −00.8.9 
6  
 0.44 
( )
n

( )  Pi . X i1 .C 2i 1 X 1 t .C 2  
( )
1
Cor X : Poids, C 2 =
1 Cov X , C 2
= i =1
= N =  0.7 
= −0.54
 X 1 . C2  X 1 . 2  X 1 . 2 294 6 * 0.46

 1.03 
 
 − 1.83
 
1
(2 − 11 8 0 − 6 7) *  00..98 
6  
 − 1.64 
( )
n

( ) Pi . X i2 .C1i 1 X 2 t .C1  
( )
2
Cor X : Taille, C1 =
2 Cov X , C1
= i =1
= N =  0.7 
= 0.86
 X 2 . C1  X 2 . 1  X 2 . 1 274 6 * 1.54

 − 0.63
 
 − 0.37 
 
1
(2 − 11 8 0 − 6 7 )*  −00.8.9 
6  
 0.44 
( )
n

( 
) Pi . X i2 .C 2i 1 X 2 t .C2  
( )
2
Cor X : Taille, C 2 =
2 Cov X , C2 i =1
= = N =  0.7 
= 0.42
 X 2 . C2  X 2 . 2  X 2 . 2 274 6 * 0.46

Cercle de corrélation : +1

0.4 *T
-1 0.88 +1
*P

Dr N. NEGGAZ- Cours Analyse de données


Chapitre2 : Analyse en composantes principales 35

Les partitions possibles


P1 = I1 , I 4 , I 3 , I 6 , I 2 , I 5 

C1 C2 C3 C4
C1 : Poids et taille importants / Poids >taille.
C2 : Poids et taille importants / Poids <taille.
C3 : Poids et taille petits / Poids >taille.
C4 : Poids et taille petits / Poids <taille.
P2 = I1 , I 2 , I 4 , I 3 , I 5 , I 6 

C1 C2
C1 : Poids >taille.
C2 : Poids <taille.
P3 = I1 , I 3 , I 4 , I 6 , I 2 , I 5 

C1 C2
C1 : Poids et taille importants.
C2 : Poids et taille importants.
P4 = I1 , I 4 , I 3 , I 6 , I 2 , I 5 

C1 C2 C3
C1 : Poids et taille importants / Poids >taille.
C2 : Poids et taille importants / Poids <taille.
C3 : Poids et taille petits.
P5 = I1 , I 3 , I 4 , I 6 , I 2 , I 5 

C1 C2 C3
C1 : Poids et taille importants.
C2 : Poids et taille petits / Poids >taille.
C3 : Poids et taille petits/ Poids< taille.
Exercice :
On a relevé dans trois magasins (M1, M2 et M3) d’un même quartier appartenant à des chaines
différentes. Les prix affichés pour quatre produits vendus sous quatre marques différentes (A, B, C et
D).
M1 M2 M3

A 16 20 12
B 20 12 22
C 16 24 26
D 28 24 20

Dr N. NEGGAZ- Cours Analyse de données


Chapitre2 : Analyse en composantes principales 36

1. On veut faire effectuer l’analyse en composantes principales de ce tableau (Données homogènes).

Vérifier que U1t = 1/ 3(1 1 1) et U 2t = 1 / 6 (1 1 − 2) sont des vecteurs propres de

cette ACP
2. Représenter le nuage des points produits dans le plan principal.

3. Représenter le produit supplémentaire E ayant les prix suivants : E t = (16 8 12)

4. Représenter graphiquement les trois variables (M1, M2 et M3).

Solution :
1. U1 ,U 2 sont des vecteurs propres de VM  1 tq VMU1 = 1 U1 ; 2 tq VMU 2 = 2 U 2

Le tableau centré X  n , p  :
n

 p .x i i
Calcul du centre de gravité : g = i =1
n

p
i =1
i

1 1
Pi = où N représente le nombre d’individus. Cela implique que Pi = ; i = 1,........, n; i = 1...' ;
N 4
j = 1,....... p;1...3

1 
 (16 + 20 + 16 + 28) 
4   20 
g= 
4
1
(20 + 12 + 24 + 24) =  20
1   20 
 (12 + 22 + 26 + 20) 
4 

M1 M2 M3    
 16 − 20 20 − 20 12 − 20   − 4 0 − 8 
A 16 20 12    
Tableau centré X =  20 − 20 12 − 20 22 − 20  =  0 − 8 2 
B 20 12 22  16 − 20 24 − 20 26 − 20   − 4 4 6 
 28 − 20 24 − 20 20 − 20   8 0 
C 16 24 26  4
D 28 24 20
g 20 20 20 Calcul de la matrice variance –covariance :

 24 4 2 
1 t  
V = X . X  V =  4 24 2  .
N  2 2 26 
 

Dr N. NEGGAZ- Cours Analyse de données


Chapitre2 : Analyse en composantes principales 37

Détermination de la métrique :

1 0 0
 
Les données sont homogènes car elles possèdent le même type de mesure  M = Id =  0 1 0 
0 0 1
 
U1 ,U 2 sont des vecteurs propres de VM  1 tq VMU1 = 1 U1 ; 2 tq VMU 2 = 2 U 2

 24 4 2  1 1
  1   1   30 
 1 tq VMU 1 = 1 U 1   4 24 2 . 1 = 1 1  = 1  1 = 30
 2 2 26  3 1 3  3 3
    1

 24 4 2   1   1 
  1   1   24 
 2 tq VMU 2 = 2 U 2   4 24 2 .  1  = 2  1  = 1  2 = 24
 2 2 26  6  − 2  6  6 6
     − 2

Le plan principal : On cherche à projeter les données dans un espace à deux dimensions
U1 ,U 2
P
Tr (VM ) =   j  74 = 30 + 24 + 3  3 = 20 (1 = 30  2 = 24  3 = 20)
j =1

2. Coordonnées des produits (Individus) : Ck = X .M .U k

   − 12   − 4
 − 4 0 − 8 1    
  1   1  −6  −2
C1 = X .M .U 1 = X .Id .U 1 = X .U 1 =  0 − 8 2 . 1 = = 3 
   + 2
− 4 4 6  3  3 +6
   
 8  
1
 4 0   + 12   + 4

   + 12   + 2
 − 4 0 − 8  1     
  1   1  − 12  −2
C 2 = X .M .U 2 = X .Id .U 2 = X .U 2 =  0 − 8 2 .  1 = = 6 
   − 2
− 4 4 6  6 

6 − 12
   
 8  2
 4 0   + 12   + 2

Représentation graphique des individus :

( ) ( ) ( )
A = − 4 3,+2 6 ; B = − 2 3,−2 6 ; C = 2 3,−2 6 ; D = 4 3,2 6 ; ( )

Fig. 2.4 : Représentation des individus dans l’espace réduit.

Dr N. NEGGAZ- Cours Analyse de données


Chapitre2 : Analyse en composantes principales 38

3. Coordonnées de E=(16 8 12)t

1 1
1   1  
C1 = X .M .U 1 = X .Id .U 1 = X .U 1 = (16 − 20 8 − 20 12 − 20). 1 = (− 4 − 12 − 8) 1 = −8 3
3  3 
1 1

 1 
1  
C 2 = X .M .U 2 = X .Id .U 2 = X .U 2 = (− 4 − 12 − 8).  1 =0
6 
 − 2

(
E = − 8 3 ,0 ; )
4. Représentation des variables à l’aide du coefficient de corrélation

( )
n

(  )
Pi . X i j .Cki 1 t
X j .Ck
( j
Cor X , C K ) =
Cov X j , Ck
 X j . Ck
= i =1 = N
 X j . k  X j . k

 − 4
 
1
(− 4 0 − 4 − 8)* 3 − 2 
+2
( )
n
4
(  Pi . X i1.C1i 1 X 1 t .C1
)  
 + 4  = − 3 = 0.39
( )
1
Cov X , C1 i =1
Cor X 1 : M 1 , C1 = = =N =
 X 1 . C1  X 1 . 1  X 1 . 1 24 * 30 2 5

 + 2
 
1
(− 4 0 − 4 − 8)* 6  − 2 
−2
( )
n
4
(  Pi . X i1.C2i 1 X 1 t .C2
)  
+
 2  = − 1 = −0.41
( )
1
Cov X , C2 i =1
Cor X 1 : M 1 , C2 = = =N =
 X 1 . C2  X 1 . 2  X 1 . 2 24 * 24 6

 − 4
 
1
(0 − 8 4 4)* 3 − 2 
+2
( )
n
4
(  Pi . X i2 .C1i 1 X 2 t .C1
)  
 + 4  = 5 = 0.64
( )
2
Cov X , C
Cor X 2 : M 2 , C1 = 1
= i =1 =N =
 X 2 . C1  X 2 . 1  X 2 . 1 24 * 30 2 3

 + 2
 
1
(0 − 8 4 4)* 6  − 2 
−2
( )
n
4
 (Pi . X i2 .C 2i 1 X 2 t .C 2
)  
 + 2  = 1 = 0.41
( )
2
Cov X , C 2
Cor X 2 : N 2 , C2 = = i =1 = N =
 X 2 . C2  X 2 . 2  X 2 . 2 24 * 24 6

Dr N. NEGGAZ- Cours Analyse de données


Chapitre2 : Analyse en composantes principales 39

 − 4
 
1
(− 8 2 6 0)* 3 − 2 
+2
( )
n
4
( )  Pi . X i3 .C1i 1 X 3 t .C1  
 + 4  = 5 = 0.62
( )
3
Cov X , C1
Cor X 3 : N 3 , C1 = = i =1 = N =
 X 3 . C1  X 3 . 1  X 3 . 1 26 * 30 13

 + 2
 
1
(− 8 2 6 0)* 6  − 2 
−2
( )
n
4
( 
) Pi . X i3 .C 2i 1 t
X 3 .C 2  
 + 2 = − 4
( )
3
Cov X , C 2
Cor X 3 : N 3 , C2 = = i =1 = N =
 X 3 . C2  X 3 . 2  X 3 . 2 26 * 24 26

Fig. 2.5 Cercle de corrélation.

La première composante C1 est positivement corrélée avec les trois variables (M1, M2 et M3). C1 nous
informe sur la quantité moyenne stockée dans les trois magasins (C1≈moyenne).
C2 est positivement corrélée avec M2 et négativement corrélée avec M1, M3. C1 nous informe sur la
différence entre la quantité stockée dans le magasin M2 et les deux autres magasins M1, M3.
On peut aussi déduire que la Qte-moy(D)>Qte-moy(C)>Qte-moy(B)>Qte-moy(A).

Dr N. NEGGAZ- Cours Analyse de données


Chapitre2 : Analyse en composantes principales 40

5. Cordonnée de E :

1 1
1   1  
C1 = X .M .U 1 = X .Id .U 1 = X .U 1 = (16 − 20 8 − 20 12 − 20). 1 = (− 4 − 12 − 8) 1 = −8 3
3  3 
1 1

 1 
C 2 = X .M .U 2 = X .Id .U 2 = X .U 2 = (− 4 − 12 − 8).
1  
 1  = 0  E = − 8 3,0 ;
6 
( )
 − 2

2.8 Conclusion
L’ACP est une méthode statistique puissantes qui permet de synthétiser de vastes populations
décrites par plusieurs variables quantitatives. Elle permet aussi de classifier les individus et de réaliser
un bilan des liaisons entre les variables. L’ACP permet une double visualisation graphique i.e. une
représentation graphique pour les individus, tandis que l’autre visualisation pour les variables à l’aide
de cercle de corrélation.

Dr N. NEGGAZ- Cours Analyse de données


Méthodes de
classification
Chapitre 3 : Les méthodes de classification 41

3.1 Les méthodes de classification


Le but des méthodes de classification est de construire une partition, ou une suite de partitions
emboitées, d’un ensemble d’objets dont on connait les distances deux à deux. Les classes formées
doivent être le plus homogène possible [9].

3.2 Classification hiérarchiques


3.2.1 Définition
Elles constituent en un ensemble de partitions de  en classes de moins en moins fines
obtenues par regroupement successifs de parties. Une classification hiérarchique se représente par un
dendrogramme ou arbre de classification (voir figure 3.1).

{a,b,c,d}

{a,b} {c,d}

a b c d

Figure 3.1 : Dendrogramme (Arbre hiérarchique).


Cet arbre est obtenu de manière ascendante en regroupant tout d’abord les deux individus les plus
proches qui forment un nœud, il ne reste plus que n-1 objets et on itère le processus jusqu’à
regroupement complet.
Aspect formel
Soit  un ensemble fini, H un ensemble de parties non vides de  est une hiérarchie si :

  H

 I i    I i   H
h, h  H  h  h =  ou h  h ou h  h

 
Exemple : H = , a , b , c , d  , a, b , c, d  , a, b, c, d 

Dr N.NEGGAZ- Cours Analyse de données


Chapitre 3 : Les méthodes de classification 42

Pour déterminer les partitions possibles, nous traçons une ligne horizontale entre chaque niveau
d’agrégation et en recueillant les morceaux.

{a,b,c,d}

{a,b} {c,d}

a b c d

Figure 3.2 : La ligne de découpage.


3.2.2 Algorithme
La table 3.1 montre les étapes de l’algorithme CHA.
Algorithme de la classification hiérarchique ascendante (CHA)
Input : le critère d’agrégation
1- Initialiser les n singletons et calculer la matrice de distance deux à deux.
2- Regrouper les deux éléments les plus proches au sens de la distance entre groupes choisis
3- Mettre à jour le tableau de distance en remplaçant les deux classes regroupées par la
nouvelle et en calculant sa distance avec chacune des autres classes.
4- Répéter les étapes 2 et 3 jusqu’à l’agrégation en une seule classe.
Output : Les partitions et le dendrogramme

3.2.3 Définition d’une hiérarchie indicée


Une hiérarchie indicée est un couple ( H , ) tels que : H : hiérarchie et  est une application dans
+
avec :


  (Ii ) = 0; Ii 

h, h  H , si h  h   ( h )  ( h )

Dr N.NEGGAZ- Cours Analyse de données


Chapitre 3 : Les méthodes de classification 43

3.2.4 Les critères d’agrégation


Plusieurs critères sont développés pour la classification hiérarchique ascendante. Nous citons [10]:
Critère du saut minimum
On prend ici comme distance entre parties la plus petite distance avec :

 h ( t , sh  sh ) = Min ( h−1 (t , sh ) ,  h−1 (t , sh ) ) .

I4
I1 I2 I3
I5

Figure 3.3 : Principe du saut minimum.

Critère du saut maximum


On prend ici comme distance entre parties la plus grande distance avec :

 h ( t , sh  sh ) = Max ( h−1 ( t , sh ) ,  h−1 (t , sh ) ) .

I4
I1 I2 I3
I5

Figure 3.4 : Principe du saut minimum.

Critère de la minimisation d’inertie de la réunion de deux classes

 0 (
i , i ' ) =
mi * mi ' 2
i − i'
mi + mi '

(m + m ) (t, s ) + (m + m ) (t, s ) +(m


h −1 h −1 '
) ( )( ( ))
+ ms'  h−1 sh , sh' − mt (t ) − msh (sh ) − ms'  sh'
 (t , sh  s ) =
h ' t sh h t sh' h sh h h

mt + msh + ms'
h
h

Dr N.NEGGAZ- Cours Analyse de données


Chapitre 3 : Les méthodes de classification 44

Critère de Ward
PA PB 2
 h ( A, B ) = d ( g A , gB )
PA + PB
A chaque itération, on agrège de manière à avoir un gain minimum d’inertie intra-classes

( PA + PB )  h ( A, B ) + ( PA + PC )  h ( A, C ) − PC h ( B, C )
 h
( A, B  C ) =
PA + PB + PC
3.2.5 Exemple
Soit l’ensemble des six individus suivants (poids d’un individu= 1) :

I1 I2 I3 I4 I5 I6
X 1 2 6 2 3 6
Y 1 2 2 6 6 4

1. Appliquer une classification hiérarchique avec le critère de la minimisation de l’inertie de la réunion


de deux classes.
2. Donner toutes les partitions trouvées.

3. Déduire l’inertie intra classe et inter classe pour chaque partition.

4. Quelle est la classe la plus excentrique de la partition en trois classes ?


5. Quelle est la contribution de chacun des deux axes à son excentricité ?
Solution :
1. Application de l’algorithme CHA :

 0 (
i , i ' ) =
mi * mi ' 2
i − i'
mi + mi '

(m + m ) (t, s ) + (m + m ) (t, s ) +(m


h −1 h −1 '
) ( )( ( ))
+ ms'  h−1 sh , sh' − mt (t ) − msh (sh ) − ms'  sh'
 (t , sh  s ) =
h ' t sh h t sh' h sh h h

mt + msh + ms'
h
h

Etape 1 :

0 I1 I 2  I 3  I 4  I 5  I 6   0 (I1 , I 2 ) =
1*1
1+1

(1 − 2)2 + (1 − 2)2 
2

I1 0
 0 (I1 , I 2 ) = 1et  (I 7 ) = 1/ 2
I 2  1 0

I 3  13 8 0
I 7  = I 4 , I 5 
I 4  13 8 16 0

I 5  29/2 17/2 25/2 1/2 0

I 6  17 10 2 10 13/2 0

Dr N.NEGGAZ- Cours Analyse de données


Chapitre 3 : Les méthodes de classification 45

Etape 2 :

1 I 7  = I 4 , I 5  I1 I 2  I 3  I 6 
 (I 8 ) = 1
I 7  0
I 8  = I1 , I 2 
I1 56/3 0

I 2  34/3 1 0

I 3  58/3 13 8 0

I 6  34/3 17 10 2 0

(m  + m  ) (I , I ) + (m  + m  ) (I , I ) + (m  + m  ) (I , I ) − m  (I ) − m  (I ) − m  (I )
0 0 0

 1
(I1 , I 4  I 5 ) = I1 I4 1 4 I1 I5 1 5 I4 I5 4 5 I1 1 I4 4 I5 5

mI1 + mI 4  + mI5 

(1 + 1)*13 + (1 + 1)* 29 + (1 + 1)* 1


 1 (I1 , I 7 ) =  1 (I1 , I 4  I 5 ) = 2 2 = 56
1+1+1 3

(1 + 1)* 8 + (1 + 1)* 17 + (1 + 1)* 1


 1 (I 2 , I 7 ) =  1 (I 2 , I 4  I 5 ) = 2 2 = 34
1+1+1 3

(1 + 1)*16 + (1 + 1)* 25 + (1 + 1)* 1


 1 (I 3 , I 7 ) =  1 (I 3 , I 4  I 5 ) = 2 2 = 58
1+1+1 3

(1 + 1)*10 + (1 + 1)* 13 + (1 + 1)* 1


 1 (I 6 , I 7 ) =  1 (I 6 , I 4  I 5 ) = 2 2 = 34
1+1+1 3

Etape 3 :

2 I 8  = I1 , I 2  I 7  I 3  I 6 
 (I 9 ) = 2
I 8  0
I 9  = I 3 , I 6 
I 7  91/3 0

I 3  44/3 58/3 0

I 6  56/3 34/3 2 0

Dr N.NEGGAZ- Cours Analyse de données


Chapitre 3 : Les méthodes de classification 46

 (I 
2
, I  I ) =
(m  + m ) (I , I ) + (m  + m ) (I , I ) + (m  + m ) (I , I ) − m  (I ) − m  (I ) − m  (I )
I7 I1
1
7 1 I7 I2
1
7 2 I1 I2
1
1 2 I7 7 I1 1 I2 2

mI 7  + mI1  + mI 2 


7 1 2

(2 + 1)* 56 + (2 + 1)* 34 + (1 + 1)*1 − 2 * 1


 1 (I 7 , I 8 ) =  1 (I 7 , I1  I 2 ) = 3 3 2 = 91
2 +1+1 4

 1 (I 3 , I 8 ) =  1 (I 3 , I1  I 2 ) =


(1 + 1)*13 + (1 + 1)* 8 + (1 + 1)*1 = 44
1+1+1 4

 1 (I 6 , I 8 ) =  1 (I 6 , I1  I 2 ) =


(1 + 1)*17 + (1 + 1)*10 + (1 + 1)*1 = 56
1+1+1 3
Etape 4 :

3 I 9  = I 3 , I 6  I 8  = I1 , I 2  I 7   (I10 ) =
91
4
I 9  0
I10  = I 7 , I 8 
I 8  102/4 0

I 7  95/4 91/4 0

(m  + m  ) (I , I ) + (m  + m  ) (I , I ) + (m  + m  ) (I , I ) − m  (I ) − m  (I ) − m  (I )
2 2 2

 3 (I 8 
, I 3   I 6 ) =
I8 I3 8 3 I8 I6 8 6 I3 I6 3 6 I8 8 I3 3 I6 6

mI8  + mI3  + mI 6 

(2 + 1)* 44 + (1 + 1)* 56 + (1 + 1)* 2 − 2 *1


 3 (I 8 , I 9 ) =  3 (I 8 , I 3  I 6 ) = 3 3 102
=
2 +1+1 4

(2 + 1)* 58 + (1 + 1)* 34 + (1 + 1)* 2 − 2 * 1


 3 (I 7 , I 9 ) =  3 (I 7 , I 3  I 6 ) = 3 3 2 = 95
2 +1+1+1 4

Etape 5:

4 I10  = I 7 , I 8  I 9   (I10 ) =
281
6
I10  0
I11 = I 9 , I10 
I 9  281/6 0

(m  + m  ) (I , I ) + (m  + m  ) (I , I ) + (m  + m  ) (I , I ) − m  (I ) − m  (I ) − m  (I )
3 3 3

 (I 9 
, I 7  I 8 ) =
4 I9 I7 9 7 I9 I8 9 8 I7 I8 7 8 I9 9 I7 7 I8 8

mI9  + mI7  + mI8 

(2 + 2)* 95 + (2 + 2)* 102 + (2 + 2)* 91 − 2 * 2 − 2 * 1 − 2 *1


 4 (I 9 , I10 ) =  3 (I 9 , I 7  I 8 ) = 4 4 4 2 281
=
2+2+2 6

Dr N.NEGGAZ- Cours Analyse de données


Chapitre 3 : Les méthodes de classification 47

L’arbre de la classification

2. Les partitions possibles


P0 = I1 , I 2 , I 3 , I 4 , I 5 I 6 

P1 = I1 , I 2 , I 3 , I 6 , I 4 , I 5 

P2 = I1 , I 2 , I 3 , I 4 , I 5 , I 6 

P3 = I1 , I 2 , I 4 , I 5 , I 3 , I 6 

P4 = I1 , I 2 , I 4 , I 5 , I 3 , I 6 

P5 = I1 , I 2 , I 3 , I 4 , I 5 , I 6 

3. Calcul des inerties inter-classes et intra-classes pour chaque partition


P0 = I1 , I 2 , I 3 , I 4 , I 5 I 6 

I int ra (P0 ) =  (I1 ) + (I 2 ) + (I 3 ) + (I 4 ) + (I 5 ) + (I 6 )

I int ra (P0 ) = 0 + 0 + 0 + 0 + 0 + 0  I int ra (P0 ) = 0

I totale (P0 ) = I int ra (P0 ) + I int er (P0 )  I int er (P0 ) = I totale (P0 ) − I int ra (P0 )

I int er (P0 ) = − 0  I int er (P0 ) =


281 281
= 46.83
6 6
P1 = I1 , I 2 , I 3 , I 6 , I 4 , I 5 

I int ra (P1 ) =  (I1 ) + (I 2 ) + (I 3 ) + (I 6 ) + (I 4 , I 5 )

Dr N.NEGGAZ- Cours Analyse de données


Chapitre 3 : Les méthodes de classification 48

I int ra (P1 ) = 0 + 0 + 0 + 0 +  I int ra (P1 ) =


1 1
2 2
I totale (P1 ) = I int ra (P1 ) + I int er (P1 )  I int er (P1 ) = I totale (P1 ) − I int ra (P1 )

281 1 281− 3
I int er (P1 ) =  I int er (P1 ) =
279
− = = 46.33
6 2 6 6
P2 = I1 , I 2 , I 3 , I 4 , I 5 , I 6 

I int ra (P2 ) =  (I1 , I 2 ) + (I 3 ) + (I 4 , I 5 ) + (I 6 )

I int ra (P2 ) = 1 + 0 + + 0  I int ra (P2 ) =


1 3
2 2
I totale (P2 ) = I int ra (P2 ) + I int er (P2 )  I int er (P2 ) = I totale (P2 ) − I int ra (P2 )

281 3 281− 9
I int er (P2 ) =  I int er (P2 ) =
272
− = = 45.33
6 2 6 6
P3 = I1 , I 2 , I 4 , I 5 , I 3 , I 6  → I int ra (P3 ) =  (I1 , I 2 ) + (I 4 , I 5 ) + (I 3 , I 6 )

I int ra (P3 ) = 1 + + 2  I int ra (P3 ) =


1 7
2 2
I totale (P3 ) = I int ra (P3 ) + I int er (P3 )  I int er (P3 ) = I totale (P3 ) − I int ra (P3 )

281 7 281− 21
I int er (P3 ) =  I int er (P3 ) =
260
− = = 43.33
6 2 6 6
P4 = I1 , I 2 , I 4 , I 5 , I 3 , I 6 

I int ra (P4 ) =  (I1 , I 2 , I 4 , I 5 ) + (I 3 , I 6 ) → I int ra (P4 ) =


91 99
+2=
4 4
I totale (P4 ) = I int ra (P4 ) + I int er (P4 )  I int er (P4 ) = I totale (P4 ) − I int ra (P4 )

281 99 2 * 281− 3 * 99
I int er (P4 ) =  I int er (P4 ) =
265
− = = 22.08
6 4 12 12

P5 = I1 , I 2 , I 3 , I 4 , I 5 , I 6  → I int ra (P5 ) =  I int er (P5 ) = 0


281
6

4. La classe la plus excentrique de la partition en trois classes

 1+ 2 + 6 + 2 + 3 + 6   10 
   
P3 = I1 , I 2 , I 4 , I 5 , I 3 , I 6  ; g =  6  g = 3 
 1 + 2 + 2 + 6 + 6 + 6 + 4   7 
 6  2

Dr N.NEGGAZ- Cours Analyse de données


Chapitre 3 : Les méthodes de classification 49

1+ 2  3
   
C1 = I1 , I 2   g C1 =  2   g C1 =  2 
 1 + 2   3 
 2  2
L’excentricité de la classe C1
2 2
2 2
( )
 3 10   3 7 
 (C1 ) = d g C1 , g =  −  +  −    2 (C1 ) =
121
+4=
265
= 7.36
2 3  2 2 36 36

1+ 2  3
   
C1 = I1 , I 2   g C1 =  2   g C1 =  2 
 1 + 2   3 
 2  2
L’excentricité de la classe C2

 2+3
  5
C2 = I 4 , I 5   g C2 = 2   g C2 =  2 
 6 + 6   
6
 2 
2 2

(
 5 10  
)7
 (C2 ) = d g C2 , g =  −  +  6 −    2 (C2 ) = + =
2 2 25 25 250
= 6.94
2 3   2 36 4 36
L’excentricité de la classe C3

6+6
   6
C3 = I 3 , I 6   g C2 =  2   g C2 =  
 2 + 4   3
 2 

( )
2 2
 10   7 
 (C3 ) = d g C3 , g =  6 −  +  3 −    2 (C3 ) = + =
64 1 265
2 2
= 7.36
 3   2 9 4 36
( (C ) =  (C ))   (C )  C ou C
2
1
2
3
2
2 3 1 est la classe la plus excentrique.

Contribution de chacun des deux axes à son excentricité

( )
2 2 2
 10   10   7 
Cont( X ) = x gC − x g /  (C3 ) =  6 −   Cont( X )  0.97
256
6 −  + 3 −  =
2 2
3
 3  3   2 265

( )
2 2 2
 7  10   7 
Cont(Y ) = y gC − y g /  (C3 ) =  3 −   Cont(Y )  0.03
9
6 −  + 3 −  =
2 2
3
 2  3   2 265
- Remarque : Dans le cas où nous utilisons le critère de la minimisation d’inertie de la réunion
de deux classes, la valeur du dernier sommet indique l’inertie totale tandis que les indices
d’agrégation de chaque nœuds représentent l’inertie intra-classes.

Dr N.NEGGAZ- Cours Analyse de données


Chapitre 3 : Les méthodes de classification 50

3.3 Définition d’une classification


Une classification est un partitionnement de N individus en K classes. Ce processus est déterminé
par la minimisation d’inertie intra-classes [11]. Les algorithmes de classification cherchent à répartir

les données en K clusters ( C1 , C2 , , CK ) avec :


 Ck = E

i  j , Ck  Ck = 

3.4 La notion d’inertie intra-classes et inter-classes


Etant donné une partition en n K classes d’un nuage de N points , on définira les quantités
suivantes : g ck centre de gravité de la classe Ck , g représente le centre de gravité du nuage de points

et I tot représente l’inertie totale qui est égale à la somme des carrés des distances des individus aux

centres de gravité g , décrite par l’équation suivante [12] :

I tot =  P .d
xi ck
i
2
(xi , g )

- L’inertie inter-classes : cette mesure représente la somme des carrés des distances des

centres g ck de classe Ck au centre de gravité global g , L’inertie inter-classes est égale à :


K
I int er =  Pck .d 2 ( g ck , g ) avec g représente le centre de gravité du nuage de points.
k =1

- L’inertie intra-classes : cette mesure représente la somme des carrés des distances des

individus au centre de gravité g ck de chaque classe Ck , L’inertie intra-classes est égale à :


K
I int ra =   Pi .d 2 (xi , g ck ) avec g ck représente le centre de gravité de la classe Ck .
k =1 xi ck

L’inertie totale I tot des N points autour du centre de gravité global g est alors égal à la somme des

deux termes suivants : inertie intra-classes et inertie inter-classes. I tot est déterminée à l’aide de

théorème de König-Huyghens et qui peut être formulée par : I tot = I int ra + I int er

Un critère usuel de la classification consiste à chercher la partition telle que l’inertie intra-classes
Iint ra soit minimale pour avoir des classes bien homogènes, ce qui revient à chercher L’inertie inter-
classes maximale.
Remarque :
K K
I tot = I int ra + I int er  I tot = 
xi ck
Pi .d 2 (xi , g ) =   Pi .d 2 (xi , g ck )
k =1 xi ck
+ Pck .d 2 ( g ck , g )
k =1

Dr N.NEGGAZ- Cours Analyse de données


Chapitre 3 : Les méthodes de classification 51

 C1 C2 C3

 
Exemple : On suppose qu’on a obtenu les trois partitions suivantes : P1 = I1 , I 2  , I 3 , I 4  , I 5  ,

 

 C1 C2 C3
  C1 C2 C3

   
P2 = I1 , I 5  , I 2 , I 4  , I 3  et P3 = I1 , I 3  , I 2 , I 4  , I 5  à partir du tableau de données
   

suivant :
X Y
I1 0 0
I2 1 0
I3 5 5
I4 4 5
I5 10 10 Calcul d’inertie intra-classes de chaque partition :
Partition 1 :

 0 +1   5+4
 2  1  2  9  10 
gC1 =  
 = 2 , g C2 =   =  2  , g C3 =  
 0 + 0   0   5 + 5   5  10 
       
 2   2 
2
d 2 ( I , gck ) =  ( xI − xgc )2 + ( yI − ygc ) 2  = ( xI − xgc ) 2 + ( yI − ygc ) 2
 k k  k k

I int ra ( P1 ) =  Pi .d 2 (I , g ck )
I ck

(
= P1.d 2 ( I1 , g c1 ) + P2 .d 2 ( I 2 , g c1 ) + P3 .d 2 ( I 3 , g c2 ) + P4 .d 2 ( I 4 , g c2 ) + P4 .d 2 ( I 4 , g c2 ) + P5 .d 2 I 5 , g c3 )
=1
Iint ra ( P1 ) = 1 (1ère partition P1 )

5
 C1 C2 C3
  
5 2  5
 
Partition 2 : P2 =  I1 , I 5  , I 2 , I 4  , I 3  alors gC1 =   , gC2 =   , gC3 =  
   5 5  5
 
2
I int ra ( P2 ) =  Pi .d 2 (I , g ck )
I ck

(
= P1 * d ( I1 , g c1 ) + P5 * d 2 ( I 5 , g c1 ) + P2 * d 2 ( I 2 , g c2 ) + P4 * d 2 ( I 4 , g c2 ) + P3 * d 2 I 3 , g c3
2
)
= 117
Iint ra ( P2 ) = 117 ( P1 est mieulleure que P2 , car I int ra ( P1 )  I int ra ( P2 ))

Dr N.NEGGAZ- Cours Analyse de données


Chapitre 3 : Les méthodes de classification 52

5 5
 C1 C2 C3
   2 10 
 
Partition 3 : P3 = I1 , I 3  , I 2 , I 4  , I 5  P3 gC1 =   , gC2 =   , gC3 =  
2
  5 5 10 
   
2 2

I int ra ( P3 ) =  Pi .d 2 (I , g ck )
I ck

(
= P1 * d 2 ( I1 , g c1 ) + P5 * d 2 ( I 3 , g c1 ) + P2 * d 2 ( I 2 , g c2 ) + P4 * d 2 ( I 4 , g c2 ) + P5 * d 2 I 5 , g c3 )
= 42
Iint ra ( P1 )  I int ra ( P3 )  I int ra ( P2 ) alors la meilleur partition est P1

Calcul d’inertie inter-classes de chaque partition :


Partition 1 :

1 9
10   4 
 
gC1 = 2 , gC2 =  2  , gC3 =   , g   centre de g ravité du nuage
    10   4 
0 5
K =3
I int er ( P1 ) =  PCk d 2 ( gCk , g )
k =1

= PC1 .d ( gC1 , g ) + PC2 .d 2 ( g C2 , g ) + PC3 .d 2 ( g C3 , g )


2

 49  1 
= 2  + 16  + 2  + 1 + 136 + 36
4  4 
= 131

Partition 2 :

5
 5 2  5  4
gC1 =   , gC2 =   , gC3 =   , g   centre de g ravité du nuage
 5 5  5  4
 
2
K =3
I int er ( P2 ) =  PCk d 2 ( gCk , g )
k =1

= PC1 .d ( gC1 , g ) + PC2 .d 2 ( g C2 , g ) + PC3 .d 2 ( g C3 , g )


2

9 9
= 2 1 + 1 + 2  +  + 11 + 1
4 4
= 15

Dr N.NEGGAZ- Cours Analyse de données


Chapitre 3 : Les méthodes de classification 53

Partition 3 :

5 5
2 2 10   4 
gC1 =   , gC2 =   , gC3 =   , g   centre de g ravité du nuage
5 5 10   4 
   
2 2
K =3
I int er ( P3 ) =  PCk d 2 ( gCk , g )
k =1

= PC1 .d ( gC1 , g ) + PC2 .d 2 ( g C2 , g ) + PC3 .d 2 ( g C3 , g )


2

9 9 9 9
= 2  +  + 2  +  + 136 + 36
4 4 4 4
= 90
Iint er ( P1 )  Iint er ( P3 )  Iint er ( P2 ) alors la meilleur partition est P1

Itot = Iint ra + Iint er  Itot = 1 + 131 = 117 + 15 = 42 + 90 = 132

Remarque : On peut calculer l’inertie totale en utilisant la formule suivante :


N
I tot =  Pi .d 2 ( I i , g ) = d 2 ( I1 , g ) + d 2 ( I 2 , g ) + d 2 ( I 3 , g ) + d 2 ( I 4 , g ) + d 2 ( I 5 , g )
i =1

= (16 + 16) + (9 + 16) + (1 + 1) + (0 + 1) + (72) = 132

Dr N.NEGGAZ- Cours Analyse de données


Chapitre 3 : Les méthodes de classification 54

3.5Classification par partitionnement


3.5.1 Algorithme des centres mobiles (ACM)
- Principe :

Il s’agit de déterminer une partition de l’ensemble I des individus en K classes C k .

K étant fixé a priori. Cette tache nécessite de calculer la distance euclidienne entre les
individus et les centroides (noyaux) de chaque classe, puis, on affecte l’individu à la classe la
plus proche. Dans ACM, deux fonctions sont appliquées [13]:

La fonction d’affectation : chaque individu i est affecté à la classe C k dont il est le

plus proche au sens de la distance. Cette fonction est formulée mathématiquement


par : 𝐹(𝐿𝑘 ) = 𝐶𝑘 = {𝑥 ∈ Ω/𝑑(𝑥, 𝐿𝑖 ) ≤ 𝑑(𝑥, 𝐿𝑗 ), ∀𝑖 ≠ 𝑗}
La fonction de représentation : elle s’agit de déterminer l’ensemble L des K noyaux
optimisant le critère W . Pour cela, pour toute classe C k , il suffit de chercher le noyau

Lk qui minimise la quantité d (x ,L )


ick
2
i k , donc Lk = g ( Ck ) avec

𝐿𝑘 𝑟𝑒𝑝𝑟é𝑠𝑒𝑛𝑡𝑒 𝑐𝑒𝑛𝑡𝑟𝑒 𝑑𝑒 𝑔𝑟𝑎𝑣𝑖𝑡é 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝐶𝑘


Algorithme ACM est un algorithme itératif de type non-supervisé qui cherche à trouver une partition

P = C1 , C2 , , CK  de l’ensemble I et un ensemble de K noyaux : L = L1 , L2 , , LK  en

minimisant le critère d’inertie intra-classes : 𝑊 = ∑𝐾 𝐾 2


𝑘=1 𝐷(𝐶𝑘 , 𝐿𝑘 ) = ∑𝑘=1 ∑𝑥∈𝐶𝑖 𝑚𝑥 𝑑 (𝑥, 𝐿𝑘 )

Les étapes de l’algorithme ACM sont décrites dans la table 3.2.


Algorithme des centres mobiles (ACM)
Input : les centres de départ
5- Définir aléatoirement les noyaux ou tirer au hasard certains centres de l’espace initial des

individus ( L1 , L2 , , Lk )

6- Appliquer la fonction d’affectation : 𝐹(𝐿𝑘 ) = 𝐶𝑘 = {𝑥 ∈ Ω/𝑑(𝑥, 𝐿𝑘 ) ≤ 𝑑(𝑥, 𝐿𝑗 ), ∀𝑘 ≠ 𝑗}


7- Appliquer la fonction de représentation 𝐿𝑘 = 𝑔(𝐶𝑘 ) ;
𝐿𝑘 : 𝑐𝑒𝑛𝑡𝑟𝑒 𝑑𝑒 𝑔𝑟𝑎𝑣𝑖𝑡é 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝐶𝑘
8- Répéter les étapes 2 et 3 tant que l’inertie intra-classes diminue
Output : La partition
Table 3.2 : Algorithmes des centres mobiles

Dr N.NEGGAZ- Cours Analyse de données


Chapitre 3 : Les méthodes de classification 55

3.5.2 Avantages et inconvénients de l’algorithme ACM


Comme avantage principal, cet algorithme est facile à implémenter et qui nécessite uniquement un
seul paramètre d’entrée (k : le nombre de classes). On note aussi, que l’ACM est très utilisé dans
l’apprentissage non-supervisé dans le cadre de traitement d’image satellitaire. Néanmoins, certains
inconvénients sont soulignés comme la convergence vers des minimas locaux et cela est due à
l’initialisation aléatoire des centres.
Un autre inconvénient majeur est sa limite vis-à-vis les classes sphériques. Pour résoudre ce problème,
il est nécessaire d’utiliser des métriques adaptatives au niveau de la fonction d’affectation.
- Exemple1 :
Nous voulons classer les six points suivants en trois classes : (poids d’un individu= 1) :

I1 I2 I3 I4 I5 I6
X 1 2 3 4 6 8
Y 2 5 2 7 7 2

Nous utiliserons l’algorithme des centres mobiles.


1. Donner la partition (𝑃1 ) obtenue pour les points de départ :
2 5 10
𝐿1 = ( ), 𝐿2 = ( ) , 𝐿3 = ( )
2 6 2
2. Donner la partition (𝑃2 ) obtenue pour les points de départ :
1 4 7
𝐿1 = ( ), 𝐿2 = ( ) , 𝐿3 = ( )
2 4 2
3. Laquelle des deux partitions est la meilleure ? Justifiez votre réponse.
Solution :
La partition 𝑷𝟏 :
2 5 10
𝐿1 = ( ), 𝐿2 = ( ) , 𝐿3 = ( )
2 6 2
➢ Fonction d’affectation : 𝐹(𝐿𝑘 ) = 𝐶𝑘 = {𝑥 ∈ Ω/𝑑(𝑥, 𝐿𝑘 ) ≤ 𝑑(𝑥, 𝐿𝑗 ), ∀𝑘 ≠ 𝑗}

d2 𝑳𝟏 𝑳𝟐 𝑳𝟑 𝐶1 = {𝐼1, 𝐼2, 𝐼3}

I1 1 32 81 𝐶2 = {𝐼4, 𝐼5}

I2 9 10 73 𝐶3 = {𝐼6}

I3 1 20 49
I4 29 2 61
𝑊 = ∑𝐾 𝐾 2
𝑘=1 𝐷(𝐶𝑘 , 𝐿𝑘 ) = ∑𝑘=1 ∑𝑥∈𝐶𝑘 𝑚𝑥 𝑑 (𝑥, 𝐿𝑘 ) = 1 + 9 + 1 +
I5 41 2 41
2 + 2 + 1 = 19
I6 64 25 4

Dr N.NEGGAZ- Cours Analyse de données


Chapitre 3 : Les méthodes de classification 56

➢ Fonction de représentation : 𝐿𝑘 = 𝑔(𝐶𝑘 ) ; 𝐿𝑘 : 𝑐𝑒𝑛𝑡𝑟𝑒 𝑑𝑒 𝑔𝑟𝑎𝑣𝑖𝑡é 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝐶𝑘 .


1+2+3 4+6
3 2 8
𝐿1 = (2+5+2 ) ; 𝐿2 = (7+7) ; 𝐿3 = ( )
2
3 2

2 5 8
𝐿1 = ( ) ; 𝐿2 = ( ) ; 𝐿3 = ( )
3 7 2
➢ Fonction d’affectation : 𝐹(𝐿𝑘 ) = 𝐶𝑘 = {𝑥 ∈ Ω/𝑑(𝑥, 𝐿𝑘 ) ≤ 𝑑(𝑥, 𝐿𝑗 ), ∀𝑘 ≠ 𝑗}

d2 𝑳𝟏 𝑳𝟐 𝑳𝟑 𝐶1 = {𝐼1, 𝐼2, 𝐼3}

I1 2 41 49 𝐶2 = { 𝐼4, 𝐼5}

I2 4 13 45 𝐶3 = {𝐼6}

I3 2 29 25 𝑊 = ∑𝐾 𝐾 2
𝑘=1 𝐷(𝐶𝑘 , 𝐿𝑘 ) = ∑𝑖=1 ∑𝑥∈𝐶𝑘 𝑚𝑥 𝑑 (𝑥, 𝐿𝑘 ) = 2 + 4 + 2 + 1 +

I4 20 1 41 1 + 0 = 10
Stabilité des résultats implique arrêt
I5 32 1 29
I6 37 34 0 La partition obtenue est : P1 = I , I , I ,I , I ,I 
1 2 3 4 5 6

Partition P2 :
1 4 7
𝐿1 = ( ) ; 𝐿2 = ( ) ; 𝐿3 = ( )
2 4 2
➢ Fonction d’affectation : 𝐹(𝐿𝑘 ) = 𝐶𝑘 = {𝑥 ∈ Ω/𝑑(𝑥, 𝐿𝑘 ) ≤ 𝑑(𝑥, 𝐿𝑗 ), ∀𝑘 ≠ 𝑗}
d2 𝑳𝟏 𝑳𝟐 𝑳𝟑 𝐶1 = {𝐼1, 𝐼3}

I1 0 13 36 𝐶2 = { 𝐼2, 𝐼4, 𝐼5}

I2 10 5 34 𝐶3 = {𝐼6}

I3 4 5 16 𝑊 = ∑𝐾 𝐾 2
𝑘=1 𝐷(𝐶𝑘 , 𝐿𝑘 ) = ∑𝑘=1 ∑𝑥∈𝐶𝑘 𝑚𝑥 𝑑 (𝑥, 𝐿𝑘 ) = 0 + 4 + 5 +

I4 34 9 34 9 + 13 + 1 = 32.

I5 50 13 26
I6 49 20 1

➢ Fonction de représentation : 𝐿𝑘 = 𝑔(𝐶𝑘 ) ; 𝐿𝑖 : 𝑐𝑒𝑛𝑡𝑟𝑒 𝑑𝑒 𝑔𝑟𝑎𝑣𝑖𝑡é 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝐶𝑘 .


1+3 2+4+6
2 3 8
𝐿1 = (2+2) ; 𝐿2 = (5+7+7 ); 𝐿3 = ( )
2
2 3

2 5 8
𝐿1 = ( ) ; 𝐿2 = (19) ; 𝐿3 = ( )
2 3 2

Dr N.NEGGAZ- Cours Analyse de données


Chapitre 3 : Les méthodes de classification 57

𝐶1 = {𝐼1, 𝐼3}
d2 𝑳𝟏 𝑳𝟐 𝑳𝟑
𝐶2 = {𝐼2, 𝐼4, 𝐼5}
I1 1 27,77 49
𝐶3 = {𝐼6}
I2 9 5,77 45
I3 1 19,77 25
I4 29 0,44 41
I5 41 4,44 29
I6 36 34,77 0

𝑊 = ∑𝐾 𝐾 2
𝑘=1 𝐷(𝐶𝑘 , 𝐿𝑘 ) = ∑𝑘=1 ∑𝑥∈𝐶𝑘 𝑚𝑥 𝑑 (𝑥, 𝐿𝑘 ) = 1 + 1 + 5,77 + 0,44 + 4,44 + 0 = 12,65

Stabilité des résultats implique arrêt

La partition obtenue est : P2 = I , I ,I , I , I ,I 


1 3 2 4 5 6

La meilleure partition est P1 car l’inertie intra-classe est minimale (W1<W2).


La forme la plus forte est la forme 𝐶3 = {𝐼6}.
- Exemple n°2 :
Soit l’ensemble des six individus suivants (poids d’un individu= 1) :

I1 I2 I3 I4 I5 I6
X 0 1 6 1 2 6
Y 0 1 5 5 5 6

Trouver une classification en trois classes, en utilisant l’algorithme des centres mobiles dans le
0 1
cadre des nuées dynamiques avec les noyaux de départ suivant : 𝐿1 = ( ), 𝐿2 = ( ) , 𝐿3 =
0 5
20
( )
20

Solution :
Classification en trois classes en utilisant l’algorithme des centres mobiles
0 1 20
𝐿1 = ( ), 𝐿2 = ( ) , 𝐿3 = ( )
0 5 20

Dr N.NEGGAZ- Cours Analyse de données


Chapitre 3 : Les méthodes de classification 58

➢ Fonction d’affectation : 𝐹(𝐿𝑘 ) = 𝐶𝑘 = {𝑥 ∈ Ω/𝑑(𝑥, 𝐿𝑘 ) ≤ 𝑑(𝑥, 𝐿𝑗 ), ∀𝑘 ≠ 𝑗}

d2 𝑳𝟏 𝑳𝟐 𝑳𝟑 𝐶1 = {𝐼1, 𝐼2}

I1 0 26 800 𝐶2 = {𝐼3, 𝐼4, 𝐼5}

I2 2 16 722 𝐶3 = {𝐼6}

I3 61 25 421 𝑊 = ∑𝐾 𝐾 2
𝑘=1 𝐷(𝐶𝑘 , 𝐿𝑘 ) = ∑𝑘=1 ∑𝑥∈𝐶𝑘 𝑚𝑥 𝑑 (𝑥, 𝐿𝑘 ) = 0 + 2 + 25 +

I4 26 0 586 0 + 1 + 392 = 420

I5 29 1 549
➢ Fonction de représentation : 𝐿𝑘 = 𝑔(𝐶𝑘 ) ;
I6 72 26 392
𝐿𝑖 : 𝑐𝑒𝑛𝑡𝑟𝑒 𝑑𝑒 𝑔𝑟𝑎𝑣𝑖𝑡é 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝐶𝑘 .
0+1 6+1+2
2 3 6
➢ 𝐿1 = (0+1) ; 𝐿2 = (5+5+5 ); 𝐿3 = ( )
6
2 3

0.5 3 6
𝐿1 = ( ) ; 𝐿2 = ( ) ; 𝐿3 = ( )
0.5 5 6
➢ Fonction d’affectation : 𝐹(𝐿𝑘 ) = 𝐶𝑘 = {𝑥 ∈ Ω/𝑑(𝑥, 𝐿𝑘 ) ≤ 𝑑(𝑥, 𝐿𝑗 ), ∀𝑘 ≠ 𝑗}

d2 𝑳𝟏 𝑳𝟐 𝑳𝟑
𝐶1 = {𝐼1, 𝐼2}
I1 0.5 34 72
𝐶2 = { 𝐼4, 𝐼5}
I2 0.5 20 50
𝐶3 = {𝐼3, 𝐼6}
I3 101/2 9 1
I4 82/2 4 26
I5 90/4 1 17
I6 121/2 10 0

𝐾 𝐾

𝑊 = ∑ 𝐷(𝐶𝑘 , 𝐿𝑘 ) = ∑ ∑ 𝑚𝑥 𝑑 2 (𝑥, 𝐿𝑘 ) = 0.5 + 0.5 + 1 + 4 + 1 + 0 = 7


𝑘=1 𝑘=1 𝑥∈𝐶𝑘

➢ Fonction de représentation : 𝐿𝑘 = 𝑔(𝐶𝑘 ) ; 𝐿𝑖 : 𝑐𝑒𝑛𝑡𝑟𝑒 𝑑𝑒 𝑔𝑟𝑎𝑣𝑖𝑡é 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝐶𝑘 .


0.5 3/2 6
➢ 𝐿1 = ( ) ; 𝐿2 = ( ) ; 𝐿3 = ( )
0.5 5 5.5

Dr N.NEGGAZ- Cours Analyse de données


Chapitre 3 : Les méthodes de classification 59

➢ Fonction d’affectation : 𝐹(𝐿𝑘 ) = 𝐶𝑘 = {𝑥 ∈ Ω/𝑑(𝑥, 𝐿𝑘 ) ≤ 𝑑(𝑥, 𝐿𝑗 ), ∀𝑘 ≠ 𝑗}

d2 𝑳𝟏 𝑳𝟐 𝑳𝟑 𝐶1 = {𝐼1, 𝐼2}
I1 0.5 9/4+25 36+121/2 𝐶2 = { 𝐼4, 𝐼5} 𝐶3 = {𝐼3, 𝐼6}
𝐾 𝐾
I2 0.5 ¼+16 25+81/4
𝑊 = ∑ 𝐷(𝐶𝑘 , 𝐿𝑘 ) = ∑ ∑ 𝑚𝑥 𝑑 2 (𝑥, 𝐿𝑘 ) = 0.5 + 0.5 + 1
I3 101/2 81/6 ¼ 𝑘=1 𝑘=1 𝑥∈𝐶𝑘

I4 82/2 1/4 25+1/4 /4 + 1/4 + 1/4 + 1/4 = 2

I5 90/4 ¼ 16+1/4 Stabilité des résultats →arret

I6 121/2 81/4 ¼

Dr N.NEGGAZ- Cours Analyse de données


Chapitre 3 : Les méthodes de classification 60

3.6 Méthode des nuées dynamiques


Algorithme des nuées dynamique est une généralisation de l’algorithme des centres mobiles où le
noyau peut être représenté par une droite ou par une fonction de densité de probabilité qui permet
de produire un nouveau algorithme appelé Maximum de vraisemblance [14].
3.6.1 Méthode du Maximum de Vraisemblance
3.6.1.1 Définition : soit P (C k ) la probabilité de l’évènement : une classe C k existe.

P(Ck X ) : Probabilité conditionnelle ; C k contient X

P( X Ck ) : Probabilité conditionnelle ; X  C k

X : probabilité de l’évènement : X existe


f : fonction d’affectation f (L ) = P .
g : fonction de représentation g (P) = L .
3.6.1.2 Règle de Bayes
P( X  Ck )
P( X C k ) =  P( X  C k ) = P( X C k )* P(C k ) → (1)
P(C k )

P(Ck  X )
P(Ck X ) =  P(Ck  X ) = P(Ck X )* P( X ) → (2)
P( X )
De (1) & (2)  P( X Ck )* P(Ck ) = P(Ck X )* P( X )

P( X Ck )* P(Ck )
 P(Ck X ) =
P( X )
On peut définir une fonction d’affectation f : X  C k si j P(Ck X )  P C j X ( )
P( X Ck )* P(Ck ) P(X C j )* P(C j )
   P( X Ck )* P(Ck )  P(X C j )* P(C j )
P( X ) P( X )
Remarque : Il est difficile d’estimer des probabilités à priori d’occurrence des classes en pratique on
( )
adopte l’hypothèse de classes équiprobables c.-à-d. : i  j P (C i ) = P C j  X  Ck si j

P( X Ck )  P(X C j )

- Cas d’une distribution Normale

 1 
P( X C k ) = exp− ( X −  k ) .Vk−1 .( X −  k )
1 t

(2 )
12
.(det(Vk ))
12
 2 

Vk : Matrice de variance- covariance

 k : Moyenne de la classe C k

Dr N.NEGGAZ- Cours Analyse de données


Chapitre 3 : Les méthodes de classification 61

- Simplification

ln(P( X C k )) = − ln(2 ) − ln(det(Vk )) − ( X −  k ) .Vk−1 .( X −  k )


1 1 1 t

2 2 2
 X  Ck si j P( X Ck )  P(X C j )  ln(P( X Ck ))  ln(P(X C j ))

− ln(2 ) − ln(det(Vk )) − ( X −  k ) .Vk−1 .( X −  k )  − ln(2 ) − ln(det (V j )) − (X −  j ) .V j−1 .(X −  j )


1 1 1 t 1 1 1 t

2 2 2 2 2 2
- Fonction de représentation
g (P ) = L = (1 , V1 ;  2 , V2 ; 3 , V3 ;.....; i , Vi ;......... ;  k , Vk )

Dr N.NEGGAZ- Cours Analyse de données


Chapitre 3 : Les méthodes de classification 62

3.6 Méthode non paramétrique


3.7.1 Classification par morphologie mathématique
3.7.1.1 Discrétisation

 yi1 
 
 yi 2 
 
Soit y1 , y 2 ,......... ..., y n  un échantillon de n n observation multidimensionnelle. yi =  
 yij 
 
 
 yip 
 
 min yi1 
 
 min yi 2 
 
1) L’origine est translatée au point : O =  
 min yid 
 
 
 min yip 
 
yij − min yij
2) La transformation diagonale : y 'ij = .R, avec R : resolution
Max yij − min yij
Cette transformation permet de situer les observations dans un hyper cube de coté R .
3) chaque Axe du nouvel espace est découpé en R intervalles adjacents égaux de longueur unité.

Cette discrétisation définit un ensemble d’hyper cube H de R de côté unité dont chacun est repérer par les
p parties entiers des coordonnées de son centre.

Individu yi est situer dans l’hyper cube de coordonnées.

 int( y 'i1 ) 
 
 int( y 'i 2 ) 
 
Hi  , int : partie entiere
 int( y 'id ) 
 
 
 int( y 'ip ) 
 

Dr N.NEGGAZ- Cours Analyse de données


Chapitre 3 : Les méthodes de classification 63

Exemple : méthode morphologiques


I1 I2 I3 I4 I5 I6 I7 I8 I9 I10
X 0 1 1 2 4 4 10 8 9 1
Y 1 5 1 5 4 10 5 5 4 0

12

10

0
0 2 4 6 8 10 12

 Min x = 0  Min y = 0
 , 
 Max x = 10  Max y = 10
R=10

0
I1 =  
1
 0−0  X i − min X
 X 'I1 = 10 − 0 .10 = 0  X 'i = MaxX − MinX .R
 ,
 Y ' = 1 − 0 .10 = 1  Y ' = Yi − min Y .R
 I1 10 − 0  i MaxY − MinY
Donc pour toute les autres transformations on aura Y’=Y X’=X

Dr N.NEGGAZ- Cours Analyse de données


Chapitre 3 : Les méthodes de classification 64

On trace l’ensemble d’hyper cube


Discrétisation : R=10
10 1
9
8
7
6
5 0 1 1 0 0 0 0 1 0 1 0
4 0 0 0 0 1 0 0 0 1 0 0
3 0 0 0 0 0 0 0 0 0 0 0
2 0 0 0 0 0 0 0 0 0 0 0
1 1 1 0 0 0 0 0 0 0 0 0
0 0 1 0 0 0 0 0 0 0 0 0
0 1 2 3 4 5 6 7 8 9 10

X = (1,0),(1,1),(0,1),(4, 4),(9, 4),(1,5),(2,5),(8,5),(10,5),(4,10)

 X i − min X X −0 X
 X 'i = .R = .5 =
 Min x = 0  Min y = 0  MaxX − MinX 10 − 0 2
R=5  , ,
 Max x = 10  Max y = 0  Y ' = Yi − min Y .R = Y − 0 .5 = Y
 i MaxY − MinY 10 − 0 2
Donc le tableau change :
X 0 0 .5 0.5 1 2 2 5 4 4.5 0.5
Y 0.5 2.5 0.5 2.5 2 5 2.5 2.5 2 0

 0   int(0)   0 
I1   = H  = 
 0.5   int(0.5   0 
 1   int(1)   1 
I4   = H  = 
 2.5   int(2.5   2 
X 0 0 0 1 2 2 5 4 4 0
Y 0 2 0 2 2 5 2 2 2 0

X = (0,0),(0, 2),(1, 2),(2, 2),(4, 2),(5, 2),(2,5)

Dr N.NEGGAZ- Cours Analyse de données


Chapitre 3 : Les méthodes de classification 65

5
4
3
2 1 1 1 1 1
1
0 1
0 1 2 3 4 5

6
5
4
3
2
1
0
0 1 2 3 4 5 6

Remarque :
La valeur du paramètre R est décisif pour les résultats de la discrétisations en effet si R est trop grand
Le nuage va être trop dispersé et la détection des classes devient difficile par contre si R est trop petit
une confusion entre les différentes classes va
* le choix de la valeur la plus approprié de R est fait comme suivant :
1- choix d’un intervalle de variation de R
2- Application de la discrétisation et la détection des classes pour toutes les valeurs de R
3- traçage graphique nombre de classe détecté en fonction de R.
Finalement la valeur de R est choisie au centre de plus grand intervalle de stabilité du graphe.
3.7.1.2 Elément structurant :
Les transformations morphologiques consistent à comparer l’ensemble à analyser à un élément
structurant à fin d’extraire ces caractéristiques structurale et morphologique l’élément structurant est
un ensemble discret (image binaire) généralement plus petit que l’ensemble à analyser, il est défini
par sa structure et un point de référence appelé l’origine.
Exemple :
0 1 0 L’origine  S1 S2 S3 S4 S4

 
1 1 1 S = (0, 0) , (1, 0) , (0,1) , (−1, 0) , (0, −1) 

 

0 1 0

Dr N.NEGGAZ- Cours Analyse de données


Chapitre 3 : Les méthodes de classification 66

3.8 Dilatation : X  S =  ( X )s
sS

X = (1, 0), (1,1), (0,1), (4, 4), (9, 4), (1, 5), (2, 5), (8, 5), (10, 5), (4,10) → E
( X ) S1 = X : ça change pas car S1 = (0, 0)
( X ) S2 = (2, 0), (2,1), (1,1), (5, 4), (10, 4), (2, 5), (3, 5), (9, 5), (11, 5), (5,10)
( X ) S3 = (1,1), (1, 2), (0, 2), (4, 5), (9, 5), (1, 6), (2, 6), (8, 6), (10, 6), (4,11)
( X ) S4 = (0, 0), (0,1), ( −1,1), (3, 4), (8, 4), (0, 5), (1, 5), (7, 5), (9, 5), (3,10)
( X ) S5 = (1, −1), (1, 0), (0, 0), (4, 3), (9, 3), (1, 4), (2, 4), (8, 4), (10, 4), (4, 9)


X  S = X  (2, 0), (2,1), (5, 4), (10, 4), (3, 5), (9, 5), (11, 5) , (5,10),
(0, 2), (1, 2), (4, 5), (1, 6), (2, 6), (8, 6), (10, 6), (4,11) , (0, 0), ( −1,1) ,
(3, 4), (8, 4), (0, 5), (7, 5), (3,10), (1, −1), (4, 3), (9, 3), (1, 4), (2, 4), (4, 9)

Sur l’expression E on ajoute X  S on marque les autres points pas encore marque
(2,0),(2,1),(5, 4)....(4,0) 
(11,5), (4,11), ( −1,1), (1, −1) : On ne les met pas car ça dépasse le graphe.
- Propriétés :
1- Opération locale.
2- Opération croissante : X  Y  X  S  Y  S
3- Opération extensive : X  X  S
4- Distributive : ( X  Y )  S = ( X  S )  (Y  S )

5- Itérative : ( X  S )  S ' = X  ( S  S ')

3.9 Erosion : X S =  ( X )− S , ou =  ( X )S
sS sS

Exemple précédent (déclaration)


10 1
9 0 1 0
8 1 1 1
7 0 1 0
6
5 0 1 1 0 0 0 0 1 0 1 0
4 0 0 0 0 1 0 0 0 1 0 0
3 0 0 0 0 0 0 0 0 0 0 0
2 0 0 0 0 0 0 0 0 0 0 0
1 1 1 0 0 0 0 0 0 0 0 0
0 0 1 0 0 0 0 0 0 0 0 0
0 1 2 3 4 5 6 7 8 9 10

Dr N.NEGGAZ- Cours Analyse de données


Chapitre 3 : Les méthodes de classification 67

Élément structurant

 S1 S2 S3 S4 S4

 
X = (0,0),(0, 2),(1, 2),(2, 2),(4, 2),(5, 2),(2,5) S = (0, 0) , (1, 0) , (0,1) , (−1, 0) , (0, −1) 

 

( X ) S1 = X : ça change pas car S1 = (0, 0)


( X ) S2 = (0, 0), (0,1), ( −1,1), (0,5), (1,5), (3, 4), (7,5), (8, 4), (9,5), (10,3)
( X ) S3 = (1, −1), (1, 0), (0, 0), (1, 4), (2, 4), (4,3), (8, 4), (9,3), (10, 4), (4,9)
( X ) S4 = (2, 6), (2,1), (1,1), (2,5), (3,5), (5, 4), (9,5), (10, 4), (11,5), (5,10)
( X ) S5 = (1,1), (1, 2), (0, 2), (1, 6), (2, 6), (4,5), (8, 6), (9,5), (10, 6), (9,11)
X S =  =
Dilatation permet de grandir l’ensemble par contre l’érosion réduit
- Dilatation : On met les valeurs de tableau à la structure donnée
- Erosion : on cherche la structure sur le tableau

3.10 Propriété d’érosion


-opération locale croissante : X  Y  ( X S )  (Y S )

-opération anti-extensive : X S  X
-relation de distributivité : ( X  Y )S = ( X S )  (Y S )

-itération : ( X S )S2 = X ( S S2 )

Remarque :
1- la solution consiste à copié la structure de l’élément structurant dans l’ensemble discret X
2- l’érosion consiste à rechercher la structure de l’élément structurant dans X Ceci signifie plus
l’élément structurant est grand plus l’effet de filtrage est important

3.11 Ouverture : X S = ( X S )  S
3.12 Fermeture : X • S = ( X  S )S
Idempotente (change pas après plusieurs application)
X S = ( X S ) S et X • S = ( X • S ) • S
Remarque : une 1ère méthode de classification (détection de région modale) par la morphologie
mathématique fut l’opération ouverture

Dr N.NEGGAZ- Cours Analyse de données


Chapitre 3 : Les méthodes de classification 68

-
le nombre de région connexe du résultat est le nombre de classe recherché
10
9
8 On garde que les 1 qui vérifient la

7 structure de l’élément structurant

6
5 0 1 1 0 0 1 0 0 0 0 0 0 1 0

4 0 0 0 0 0 0 0 0 1 0 0 1 1 1

3 0 0 0 0 0 0 0 0 0 1 0 0 1 0

2 0 0 0 0 0 0 0 0 0 0 0
1 0 1 0 0 0 0 0 0 0 0 0 D’après le tableau initial on a

0 0 0 0 0 0 0 0 0 0 0 0
0 1 2 3 4 5 6 7 8 9 10

C = I8 , I 9  , I 5  , I 2 , I 4  , I 3  , I1 , I 6 , I 7 , I10 


 représente des classes

Les 1 montrés en gras (8,5),(9,4) sont I8 , I 9  d’après le tableau.

Dr N.NEGGAZ- Cours Analyse de données


Régression &
corrélation
Chapitre4 : Régression & Corrélation 69

4.1 Méthode des moindres carrés

y(t)
25
20
15
10
5
0
0 1 2 3 4 5 6 7

4.1.1 Le but de la méthode : la méthode des moindres carrés sert à ajuster les points c.à.d. trouver
la courbe qui représente mieux les données [15]. D’une façon mathématique, on cherche à minimiser
N N

 d = ( y − yi ) → Min
2 2
le critère suivant : i cal
i =1 i =1

Dans notre cours, on se limitera à une représentation polynomiale tel que

y = a0 + a1 x + a2 x 2 + .... + am x m .

On considère que X , Y sont mesurés donc les inconnus sont les paramètres a0 , a1 , a2 ,...., am

4.1.2 Principe :

 a0 + a1 x1 + a2 x12 + .... + am x1M − y1 = d1



a0 + a1 x2 + a2 x2 + .... + am x2 − y 2 = d 2
2 M


 :
a0 + a1 xn + a2 xn + .... + am xnM − y n = d n
2

− yi ) =  (a0 + a1 xi + a2 xi2 + .... + am xiM − yi ) =F (a0 , a1 , a2 ,...., am ) → Min


N N N

 d = ( y2 2 2
i cal
i =1 i =1 i =1

 F
(  )
N N N N N

 a = 2  a0 + a1 xi + a2 xi2 + .... + am xiM − yi = 0  n .a 0 + a 1  x i + a 2  x 2


i + ...... + a m  x i
M
=  yi
 0 i =1
 i =1 i =1 i =1 i =1
 F = 2 a + a x + a x 2 + .... + a x M − y .x = 0
( )
N N N N N N

 a1 

0 i 1 i 2 i m i 
M +1
a x + a x 2
+ a x 3
+ ...... + a x = xi . y i
0 1 i 2 i m i i i

 F
i =1
 i =1 i =1 i =1 i =1 i =1

( )
N N N N N N
 = 2 a0 + a1 xi + a2 xi2 + .... + am xiM − yi .xi2 = 0  a0  xi2 + a1  xi3 + a2  xi4 + ...... + am  xiM + 2 =  xi2 . yi
 a2 i =1  i =1 i =1 i =1 i =1 i =1
 F 
( )
N N N N N N
= 2 a0 + a1 xi + a2 xi2 + .... + am xiM − yi .xiM = 0 a0  xi + a1  xi + a2  xi + ...... + am  xi =  xi . yi
+ +

M M 1 M 2 2 M M

 am i =1  i =1 i =1 i =1 i =1 i =1

Dans le cas d’une droite : y = a0 + a1 x

Dr N. NEGGAZ- Cours Analyse de données


Chapitre4 : Régression & Corrélation 70

 N N

 n . a 0 + a1  xi =  yi  a0 = y − a1 x

Le système devient :  N i =1 i =1
 Cov(x, y )
a1 = Var (x )
N N
a0  xi + a1  xi2 =  xi . yi
 i =1 i =1 i =1

4.1.3 Démonstration :

 N N N N

 n . a 0 + a1 i x =  y i  y i  xi
 N
i =1
N
i =1
N  Eq (1) : a0 = i =1
− a1 i =1
 a0 = y − a1 x
a0  xi + a1  xi2 =  xi . yi n n
 i =1 i =1 i =1

(y − a x) x + a  x  x . y
N N N
2

(y − a x) x + a  x =  x . y  ( )
N N N 1 i 1 i i i

1 i 1
2
i i i
i =1 i =1
= i =1
 y − a1 x .x + a1 x 2 = xy
i =1 i =1 i =1 n n

(y − a x).x + a x
1 1
2
( )
= xy  y.x − a1 . x − x 2 = xy  a1 =
2
 xy − x. y
x2 − x () 2
=
Cov(x, y )
Var (x )

Cov(x, y ) =
1 N

N i =1
( 1 N
)( ) 1 N 1 N 1 N 1 N
xi − x . yi − y =  xi . yi − xi . y − x. yi + x. y =  xi . yi −  xi . y −  x. yi +  x. y
N i =1 N i =1 N i =1 N i =1 N i =1

Cov(x, y ) = xy − y.x − x. y + x. y = xy − y.x

Var ( x ) =
1 N
 i
N i =1
x − x .(x i − x =
1 N 2
 i i
N i =1
x)(
− x . x − x)
. x i + x
2
=
1 N 2 1 N
 i N
N i =1
x − x i . x −
1 N
 i N
N i =1
x. x +()
1 N
x () 2

i =1 i =1

() () ()
Var (x ) = x 2 − x − x + x = x 2 − x
2 2 2
() 2

4.2 Le coefficient de corrélation : −1  r  1: nous informe s’il y a ou il n’y a pas de relation


fonctionnelle entre x et y .

Cov(x, y )
1 N
(
 x−x. y− y
N i =1
)( ) xy − x. y
r= = = → droite: y = ax + b
 ( x )* ( y ) () ()
( ) ( )
2 2
1 2 1 2
x − x * y − y
2 2
x−x . y− y
N N

Dr N. NEGGAZ- Cours Analyse de données


Chapitre4 : Régression & Corrélation 71

4.3 Le coefficient de corrélation généralisé:


 (y )
N

cal −y
Si : m  2  r = 2 i =1

 (y − y )
N

i =1

4.4 Test de corrélation linéaire : nous appliquons les statistiques.


r 2 .(n − 2)
Le critère suivant : C = qui suit la loi de Fisher : F avec 1 = 1 et  2 = n − 2 degré de
1− r 2
liberté.

4.5 Règle de décision :


Si C  F1 , 2 alors on ne rejette pas l’hypothèse d’indépendance entre Y et X .

- Exemple :
On considère un échantillon dont le nombre de points n = 4 et le coefficient de corrélation r = 0,98 .

n = 4 et r = 0,98  C =
(0,98) .(4 − 2)
2
= 48,5
1 − (0,98)
2

 1 = 1 et  2 = 2 : F1 , 2 = 98,49 avec  = 0,01

C  F1 , 2 alors on ne rejette pas l’hypothèse d’indépendance entre Y et X

4.6 Echantillonnage de la régression et la corrélation :


a) Régression : b représente le coefficient de régression de l’échantillon et  représente le

coefficient de régression de la population.


Test : Hypothèse : «  valeur approchée »

n n

 ( yi − ycal ) d
2 2

 −b i
On utilise la statistique : t= n − 2 et S yx = i =1
= i =1
;
S yx  x n n

x =
1
N
(
x−x )
2
= x2 − x () 2

t : suit la distribution de Student à n − 2 degré de liberté


b) Corrélation : Régression : r représente le coefficient de régression de l’échantillon et 

représente le coefficient de régression de la population.


H0 : Hypothèse «  = 0 Pas de dépendance »

r n−2
t= : Student à n − 2 degré de liberté.
1− r2

Dr N. NEGGAZ- Cours Analyse de données


Chapitre4 : Régression & Corrélation 72

- Exemple :
On considère un échantillon dont le nombre de points n = 5 et le coefficient de régression de

l’échantillon b = −0,9586 . Tester l’hypothèse que  = 0,6 sachant que S yx = 1,4656&

 x = 0,7699
 −b 0,6 + 0,9586
t= n−2 t = 5−2
S yx  x 1,4656 0,7699
 t = 1,2875
 = n − 2 = 5 − 2 = 3 → t0,95 = 2,35 & t0,99 = 4,54
t  t 0 ,95  On ne rejette pas l’hypothèse que  = 0,6

Exercice :
Calculer les limites de confiance à 95% pour le coefficient de régression de l’échantillon b = 0,96
Sachant que S yx = 1,4656 , n = 5 &  x = 0,7699

Solution :
 −b t S yx
t= n−2   =b+ .
S yx  x n−2 x
t S yx
 =b .  Pour avoir un intervalle symétrique (distribution symétrique)
n−2 x

0,05
Pour  = 5% , intervalle symétrique   = = 0,025; pour : = 5 − 2 = 3  t 0,975 = 3,18.
2
3,18 1,4656
  = 0,96  . = 0,96  1,9036
3 0,7699
Exercice :
r = 0,32 pour un échantillon de n = 18 . Peut-on en conclure que le coefficient de régression de la
population  est significativement à zéro ?

Solution :
H0 : Hypothèse «  = 0 Pas de dépendance »

r n−2
t= : Student à n − 2 degré de liberté
1− r2
0,32 18 − 2
t= = 1,35
1 − (0,32)
2

 = 16 : t 0,95 = 1,75 & t 0,99 = 2,58


t  1,75 
 → On ne rejette pas l’hypothèse H0
t  2,58

Dr N. NEGGAZ- Cours Analyse de données


Chapitre4 : Régression & Corrélation 73

Exercice :
r = 0,32 ,  = 0,05 . Quelle est la taille minimale de l’échantillon pour que le coefficient de régression
de la population  soit supérieur à zéro ?

H0 : Hypothèse «  = 0 Pas de dépendance »

r n−2
t= : Student à n − 2 degré de liberté
1− r2

r n−2
t= :   0 , il suffit de rejeter l’hypothèse H0
1− r2

t=
r n−2
t =2r 2 .(n − 2)
( )
 t . 1 − r = r .(n − 2)  n = 2 +
2 2 2 t 2. 1 − r 2 ( )
1− r 2 1− r2 r2

n = 2+
(
t 2. 1− r 2 )
 n = 2+
t 2 . 1 − (0,32)(→ (*)
2
)
r2 (0,32)2
D’après la table de distribution de Student,  = , t 0 ,95 = 1,64 ; on remplace dans la formule (*)

(1,64) .(1 − (0,32) )


2 2
(*)  n = 2 + = 25,6  26 ;
(0,32)2
0,32 26 − 2 1,57
n = 26  t cal = = = 1,65
1 − (0,32) 0,95
2

n = 26  = n − 2 = 24, t0,95 = 1,71 ;

 tcal = 1,65 → t  t0,95 : On ne rejette pas l’hypothèse H0

0,32 27 − 2
n = 27  t cal = = 1,69  tcal = 1,65 → t  t0,95 : On ne rejette pas l’hypothèse H0
1 − (0,32)
2

0,32 28 − 2
n = 28  t cal = = 1,72  tcal = 1,72 → t  t0,95 : On rejette l’hypothèse H0 :«  = 0 »
1 − (0,32)
2

Exercice :
Pour n = 12 ,On a obtenu la droite de régression y = 35,82 + 0,476x . Evaluer les limites de

confiances à 95%, pour les valeurs de y p pour x = 65 .

Remarque : x = 65 e valeur théorique (calculée) d’interpolation.


Solution :

Dr N. NEGGAZ- Cours Analyse de données


Chapitre4 : Régression & Corrélation 74

n n

(y − yp ) n − 2  ( yi − ycal ) d
2 2
i

( 
t= S yx = i =1
= i =1
0
; ;
S yx . n + 1 + n x0 − x ) 2
S 2
x
n n

x =
1
N
(
x−x )2
= x2 − x () 2

y p = y0 
(
t.S yx . n + 1 + n x0 − x )
2
S x2 
n−2
Pour avoir un intervalle symétrique

(distribution symétrique)
0,05
Pour  = 5%, = 12 − 2 = 10 , intervalle symétrique   = = 0,025  t 0,975 = 2,23.
2
y0 = 35,82 + 0,476* 65 = 66,67

2,23.128. 12 + 1 + (12 *12,78 7,08)


y p = 66,76 
3,16
 y p = 66,76  3,8

 y p  62,96 − 70,56 

Exercice :
r = 0,75 pour un échantillon de n = 24 . Peut-on rejeter l’hypothèse que a)  = 0,6 , b)  = 0,5 ?

 = 0,05
Solution :
1 + r 
Z = 1,1513* log 
1− r 
1 +  
 Z = 1,1513* log 
1−  
1
Z =
n−3
 1 + 0,75 
 Z = 1,1513* log  = 0,9730
 1 − 0,75 
 1 + 0,6 
  Z = 1,1513* log  = 0,6932
 1 − 0,6 
1
Z = = 0,2182
24 − 3
Z −  Z 0,9730 − 0,6932
z= = = 1,28
Z 0,2182
 (z ) = 0,95  z = 1,64  z  1,64 : on ne peut pas rejeter l’hypothèse que a)  = 0,6

Dr N. NEGGAZ- Cours Analyse de données


Chapitre4 : Régression & Corrélation 75

Même méthode pour  = 0,5 z  1,64 : on rejette l’hypothèse que b)  = 0,5

Exercice n°1 : Soit le tableau de mesures X 0 1 2 3 4


suivant : Y 1 1 3 7 13

Ajuster aux données une courbe de régression.

Courbe de régression

Cov(x, y ) = xy − x. y  N


()
  xi
 Var (x ) = x − x
2
2 10
x = i =1
= =2
 N  N 5
 a0 = y − a1 x
   xi . yi  N

y = a0 + a1 x →  Cov(x, y ) →  xy = i =1 

 yi
a1 = Var (x )
25
 N  y = N = 5 = 5
i =1

 N

  xi2
 x 2 = i =1
 N
xi 0 1 2 3 4 5

x
i =1
i = 10

yi 1 1 3 7 13 5

y
i =1
i = 25

xi . y i 0 1 6 21 52 5

 x .y
i =1
i i = 80

x i2 0 1 4 9 16 5

x
i =1
2
i = 30

x i3 0 1 8 27 64 5

x
i =1
3
i = 100

x i4 0 1 16 81 256 5

x
i =1
4
i = 354

x i2 . y i 0 1 12 63 208 5

x
i =1
2
i . yi = 284

 N

  xi . y i
80
 xy = i =1 = = 16
 N 5
 N

 2 i =1
 xi2 30
 x = N = 5 = 6
Cov(x, y ) = xy − x. y = 16 − 2.5 = 6
→ 2 2
()
 Var (x, y ) = x − x = 6 − 2 = 2
2

a0 = y − a1 x = 5 − 3.2 = −1

 a = Cov(x, y ) = 6 = 3  y = −1 + 3x
 Var(x )
1
 2

Dr N. NEGGAZ- Cours Analyse de données


Chapitre4 : Régression & Corrélation 76

Remarque :

 N N

 n . a 0 + a1 i x =  yi
i =1 i =1
On peut résoudre le système  N N N
a0  xi + a1  xi2 =  xi . yi
 i =1 i =1 i =1

pour trouver les deux coefficients de la droite y = a0 + a1 x

 N N
+ 1 i =   5a + 10a1 = 25 → (1)  Eq1 → a0 = 5 − 2a1
 n . a a x yi
0
 a = 5 − 2a1
 N
i =1 i =1
 0   0  (a0 , a1 ) = (− 1,3)
a0  xi + a1  xi2 =  xi . yi 10a0 + 30a1 = 80 → (2) a0 + 3a1 = 8 → Eq 2 / 10 5 − 2a1 + 3a1 = 8
N N

 i =1 i =1 i =1

Le critère à minimiser
N N

 d i2 = ( ycal − yi ) =(− 1 − 1) + (2 − 1) + (5 − 3) + (8 − 7) + (11− 13) = 14  0  y = a0 + a1 x + a2 x 2


2 2 2 2 2 2

i =1 i =1

 N N N
 N N N

 n. a 0 + a1  x i + a 2  xi
2
=  y i  n . a 0 + a1  xi + a 2  xi
2
=  yi
 N i =1 i =1 i =1
 N i =1 i =1 i =1  5a0 + 10a1 + 30a2 = 25
 N N N
 N N N

 a0  xi + a1  xi + a2  xi =  xi . yi →  a0  xi + a1  xi + a2  xi =  xi . yi →  10a0 + 30a1 + 100a2 = 80
2 3 2 3

 Ni =1 i =1 i =1 i =1  Ni =1 i =1 i =1 i =1 30a + 100a + 354a = 284


a x 2 + a x 3 + a x 4 = x 2 . y a x 2 + a x 3 + a x 4 = x 2 . y  0
N N N N N N

       
1 2

 i =1
0 i 1 i 2 i i i  i =1
0 i 1 i 2 i i i
 i =1 i =1 i =1  i =1 i =1 i =1

N N
 y = 1 − x + x 2   d i2 = ( ycal − yi ) =(1 − 1) + (1 − 1) + (3 − 3) + (7 − 7 ) + (13 − 13) = 0
2 2 2 2 2 2

i =1 i =1

Exercice n°2 :
Une société a mis au point un produit. Une étude préalable a montré une relation entre le prix X
proposé pour ce produit et le nombre de clients Y disposé à l’acheter à ce prix. Le chiffre d’affaire
potentiel Z, correspondant au choix du prix X est donné par Z=X.Y. L’enquête menée auxprès de 500
personnes a donné le tableau suivant :
X :Prix 40 35 32 28 24 20 16 12 10 8
DA
Y: 60 80 130 200 240 350 390 420 440 500
Client

- Etablir la droite de régression : y = a0 + a1 x .

- Déterminer le chiffre d’affaire maximal.

Dr N. NEGGAZ- Cours Analyse de données


Chapitre4 : Régression & Corrélation 77

y = a0 + a1 x →

Cov ( x, y ) = xy − x. y

()
 Var ( x ) = x 2 − x
2
 N

   xi
40 + 35 + 32 + 24 + 20 + 16 + 12 + 10 + 8
 a0 = y − a1 x  N
 x= i =1
= = 22,5

 Cov ( x, y ) →
  xi . yi



N 10
 xy = N
i =1
a1 = Var x
N

 ( )   y
 i =1 i 60 + 80 + 130 + 200 + 240 + 350 + 390 + 420 + 440 + 500
y = = = 281
N

  xi2  N 10
 x 2 = i =1
 N
10 10

 xi . yi = 47400 ;  xi2 = 6173


i =1 i =1

 10

  xi . y i
 xy = i =1
= 4740 Cov(x, y ) = xy − x. y = 4740 − 22,5 * 281 = −1582,5
 10 →


N

 i x 2  ()
Var (x, y ) = x 2 − x = 617,3 − 22,5 2 = 111,05
2

 2 i =1
 x = = 617,3
10
a0 = y − a1 x = 281+ 14,25 * 22,5 = 601,63

 Cov(x, y )  y = 601,63 − 14,25x
a = = −14, 25
 Var (x )
1

Le chiffre d’affaire maximal :

z = x * y  z = x * (601,63 − 14,25x )  z = 601,63x − 14,25x 2 .


 z Max = 601,63* 21,11− 14,25* (21,11) = 6350,15DA.
2

4.7 Lissage exponentiel

 A = ln a  a = e A
 y = a t .b  ln ( y ) = ( ln a ) .t + ln b → Y  = At + B  
 B = ln b  b = e
B

Cov ( t , ln y ) = t ln ( y ) − t.ln ( y )

 Var ( t ) = t 2 − t ()
2


 B = ln y − At  N

y = At + B → 

Cov ( t , ln y ) →   ti .ln ( yi )
 A = Var t  t ln ( y ) = i =1

 ( ) 
N

N N

  t i  ln ( yi )
t=
i =1
et ln ( y ) = i =1

 N N

Dr N. NEGGAZ- Cours Analyse de données


Séries
chronologiques
Chapitre 5 : Séries chronologiques 78

5.1 Introduction
Les séries chronologiques ont connu un essor important dans plusieurs domaines comme
l’économie, finance, la biologie, la météorologie et pollution. Le but principal réside dans :
- La compréhension du passé c.à.d. analyser et expliquer les valeurs observées ;
- La prédiction du future c.à.d. bâtir des prévisions pour les valeurs non encore observées ;
- L’étude du lien avec d’autres séries chronologiques.

5.2 Définition d’une série chronologique


On appelle série chronologique une suite finie de données quantitatives indexée par le temps [16].
L’indice de temps peut être selon le cas, la seconde, la minute, l’heure, le jour, le mois, le trimestre, le
semestre, le quadrimestre, l’année ,……

La série chronologique  yt tT avec T = t1 , t2 , tn  n’est rien d’autre que la série statistique double

(t , y )
j tj
1 j  n
, où :

La première composante est le temps


La deuxième composante est une variable numérique y prenant ses valeurs aux instants t .

Une série chronologique est composée de partie essentielle qui sont la tendance X (t ) et la

composante saisonnière telle que Y (t ) = f ( X (t ), S (t ))

Composantes saisonnières

Evolution d’une variable dans le temps Tendance

5.3 Représentation graphique


On représente graphiquement la série chronologique  yt tT

1- (
En dessinant le nuage formé par les points t j , yt j )1 j  n
;

2- En reliant les points entre eux par des segments de droite, pour indiquer la chronologie.

5.4 Analyse de la tendance


La tendance représente l’évolution générale de la série chronologique et la composante saisonnière
représente l’effet de différentes saisons sur la série chronologique.
Le modèle s’écrit comme suit : Y (t ) = f ( X (t ), S (t )) X (t ) + S (t )

X (t ) * S (t )

Dr N. NEGGAZ- Cours Analyse de données


Chapitre 5 : Séries chronologiques 79

+ Modéleadditif
Telle que f = 
* ModèleMultiplicatif
Il y a deux types de la tendance ( linéaire, exponentielle).

5.4.1 Tendance linéaire


La tendance X (t ) d’une série chronologique est linéaire si les coefficients X (t ) − X (t − 1) = Cst

X ( t ) − X ( t − 1) = a  X ( t ) = a + X ( t − 1) =
a + a + X ( t − 2 ) = 2a + X ( t − 2 ) =
3a + X ( t − 3) = at + X (t − t )
 X ( t ) = at + X ( 0 )
 X ( t ) = a.t + b

 Cov(t , y ) = ty − t. y
 n2 −1
 Var (t ) =
 12
 b = y − at  N

y = at + b → 

Cov(t , y ) →   t i . yi
a= ty = i =1
 Var (t )  N
 N N
  ti  yi
 i =1
t = N et y = N
i =1

5.4.2 Tendance exponentielle


La tendance X (t ) d’une série chronologique est exponentielle si les coefficients
X (t ) / X (t −1)  Cst

X (t ) / X (t − 1) = a  X (t ) = a * X (t − 1) = a * (a * X (t − 2)) = a 2 * X (t − 2) = a 3 * X (t − 3) = a t * X (0)
 X (t ) = a t * b
Pour étudier la tendance exponentielle, il faut transformer ce modèle à une tendance linéaire.

 X (t ) = a t .b  ln( X (t )) = (ln a ).t + ln b → X ' (t ) = At + B

 A = ln a  a = e A

 B = ln b  b = e
B

Dr N. NEGGAZ- Cours Analyse de données


Chapitre 5 : Séries chronologiques 80

Cov(t , ln y ) = t ln( y ) − t.ln( y )


 n2 −1
 Var (t ) =
 12
 B = ln y − At  N
   t i . ln( yi )
X ' (t ) = At + B →  Cov(t , ln y ) →  →
A= t ln( y ) = i =1
 Var (t )  N
 N N
  ti  ln( yi )

 t = N etln( y ) =
i =1 i =1

Remarque :

La tendance de la série chronologique est déterminée après élimination des effets de la composante
saisonnière en effectuant un lissage de la série. Pour cela, il faut calculer la moyenne mobile pour
mieux apparaître l’allure de la tendance.

y(t)
30

25

20

15
y(t)
10

0
1 2 3 4 5 6

5.5 La moyenne mobile


Si le nombre de saison est impair :

Exemple : si l’ordre de la moyenne mobile =3. Alors Z (t ) =


1
 y(t − 1) + y(t ) + y(t + 1)
3
si l’ordre de la moyenne mobile =5. Alors

Z (t ) =
1
 y(t − 2) + y(t − 1) + y(t ) + y(t + 1) + y(t + 2) .
5

Dr N. NEGGAZ- Cours Analyse de données


Chapitre 5 : Séries chronologiques 81

Si le nombre de saison est pair :

1 1 
Exemple : si l’ordre de la moyenne mobile =2. Alors Z (t ) = y (t − 1) + y (t ) + y (t + 1)
1

2 2 2 
si l’ordre de la moyenne mobile =4. Alors

1 1 
Z (t ) = y (t − 2 ) + y (t − 1) + y (t ) + y (t + 1) + y (t + 2 )
1

4 2 2 
Remarque :

La tendance de la série chronologique est déterminée donc par la moyenne mobile Z (t ) . On évalue donc les

quantités suivantes : Z (t ) − Z (t − 1) & Z (t ) / Z (t − 1)

5.6 Composantes saisonnières


La modélisation des composantes saisonnières se fait selon les deux cas suivants :

a) Modèle additif : il combine une tendance et une saisonnalité de période p (nombre de

saison) de la manière suivante : Y (t ) = X (t ) + S (t )  S (t ) = Y (t ) − X (t ) = (t ) &


nbde saison

 S (t ) = 0
t =1

b) Modèle Multiplicatif : ce modèle combine une tendance et une saisonnalité de période p(

nombre de saison) de la manière suivante : Y (t ) = X (t )* S (t )  S (t ) = Y (t )


X (t )
&

nbde saison

 S (t ) = nombre de saison
t =1

5.7 Exemple d’une prévision par lissage linéaire


Le tableau suivant représente la quantité (en tonnes) de papier consommé dans une administration
Année 2017 2018 2019
Semestre 1er semestre 2ème semestre 1er semestre 2ème semestre 1er semestre
Qté 6 18 10 22 14

1. Donner le modèle de la série chronologique avec composante saisonnière (Modèle additif).


2. Selon le modèle, quelle est la quantité de papier à consommer à la fin de l’année 2019 ?
L’administration devra faire une demande de budget supplémentaire si la quantité de papier
consommée est supérieure à 100 tonnes (Qté>100). Quand est-ce que ceci risque de se produire ?

Dr N. NEGGAZ- Cours Analyse de données


Chapitre 5 : Séries chronologiques 82

- Solution :
1. Le modèle de la série chronologique avec composante saisonnière (Modèle additif).
t y(t) Z(t) Z(t)-Z(t-1) Z(t)/Z(t-1) Le nombre de saison =2
1 6 - - -
2 18 13 - -
3 10 15 2 1.15
4 22 17 2 1.13
5 14 - - -
La moyenne mobile :

1 1 
Z (t ) = y (t − 1) + y (t ) + y (t + 1)
1

2 2 2 
Z (t ) − Z (t − 1) = C ste  tendance linéaire  X (t ) = a.t + b

 Cov(t , y ) = ty − t. y
  n 2 − 1 52 − 1
 Var (t ) =
n2 −1  Var (t ) = = =2
 12 12
 12
 b = y − at  N
ty = 1.6 + 2.18 + 3.10 + 4.22 + 5.14 = 46

y = at + b → 

Cov(t , y ) →   t .
i iy 
→ 5
a= = i =1 1 + 2 + 3+ 4+5
Var (t )
  ty 
N t= =3
 N N  5
  ti  yi  6 + 18 + 10 + 22 + 14
 i =1  y= = 14
t = et y = i =1 5
N N
 b = y − at = 14 − 2.3 = 8

a = Cov(t , y ) = 46 − 3.14 = 2  y = 2t + 8  X (t ) = 2t + 8

 Var(t ) 2

Composante saisonnière (modèle additif) : Y (t ) = X (t ) + S (t )  S (t ) = Y (t ) − X (t ) = (t )

t Y (t ) X (t ) (t )
1 6 10 -4
2 18 12 +6
3 10 14 -4
4 22 16 +6
5 14 18 -4

−4−4−4 6+6
Moy(S1 ) = = −4; Moy(S 2 ) = =6
3 2

Dr N. NEGGAZ- Cours Analyse de données


Chapitre 5 : Séries chronologiques 83

Moy(S1 ) + Moy(S 2 ) − 4 + 6
S
i
i = −4 + 6 = 2  0  C =
2
=
2
=1

 Y (t ) = X (t ) + S (t )
Moy(S1 )  Moy(S1 ) − C  −5; Moy(S 2 )  Moy(S 2 ) − C  5  X (t ) = 2t + 8

Le mod èle : 
  S i = −5 + 5 = 0 S (1) = −5; S (2) = 5
i
 S (t + 2) = S (t )

2. la quantité de papier à consommer à la fin de l’année 2019:

t = 6  Y (6) = X (6) + S (6) = 2.6 + 8 + 5 = 25

2t + 8 − 5  100 2t + 8 − 5  100 2t  97 t  48.5


3. 2t + 8 + S (t )  100       t  44
2t + 8 + 5  100 2t + 8 + 5  100 2t  87 t  43.5
44
Le risque peut se produire en : 2017 + − 1 = 2038
2
5.8 Exemple d’une prévision par lissage exponentiel
Le tableau suivant représente le nombre de personnes atteintes d’une maladie contagieuse dans une
ville donnée.
2017 2018 2019
1er semestre 2ème semestre 1er semestre 2ème semestre 1er semestre
11 7 29 43 101

1. Donner le modèle de la série chronologique avec composante saisonnière (Modèle multiplicatif).


Selon le modèle, quelle est l’estimation du nombre de personnes atteintes à la fin de l’année 2019?

1. Le modèle de la série chronologique avec composante saisonnière (Modèle Multiplicatif).


t y(t) Ln(y(t)) Z(t) Z(t)-Z(t-1) Z(t)/Z(t-1)
1 11 2.398 - - -
2 7 1.946 13.5 - - Le nombre de saison
3 29 3.367 27 13.5 2 =2
4 43 3.761 54 27 2
5 101 4.615 - -

1 1 
La moyenne mobile : Z (t ) = y (t − 1) + y (t ) + y (t + 1)
1

2 2 2 

Dr N. NEGGAZ- Cours Analyse de données


Chapitre 5 : Séries chronologiques 84

Z (t ) Z (t − 1) = C ste  tendance exponentielle

 A = ln a  a = e A
 X (t ) = a t .b  ln( X (t )) = (ln a ).t + ln b → X ' (t ) = At + B  
 B = ln b  b = e
B

Cov ( t , ln y ) = t ln ( y ) − t.ln ( y )

 n2 − 1
 Var ( t ) =
12
 B = ln y − At  N
 
X ' ( t ) = At + B →  Cov ( t , ln y ) →   ti .ln ( yi )
 A =  t ln ( y ) = i =1

 Var ( t )  N
 N N

  t i  ln ( yi )
t= i =1
et ln ( y ) = i =1

 N N
 n 2 − 1 52 − 1
 Var ( t ) = = =2
 12 12
t ln y = 2.398 + 3.892 + 10.101 + 15.044 + 23.075 = 10.902
 ( ) 5
→
 1+ 2 + 3 + 4 + 5
t= =3
 5

 ln ( y ) = 2.398 + 1.946 + 3.367 + 3.761 + 4.615 = 3.217
 5
 B = ln y − At = 3.217 − 0.626* 3 = 1.339

 A = Cov(t , y ) = 10.902 − (3 * 3.217) = 0.626  X (t ) = 0.626.t + 1.339
'


 Var (t ) 2

a = e 0.626 = 1.870
 → X (t ) = (1.870) * 3.815
t

b = e = 3.815
1.339

Composante saisonnière : Y (t ) = X (t ); S (t )  S (t ) = Y (t ) / X (t ) = Q(t )

t Y (t ) X (t ) Q(t )
1 11 7.134 1.542
2 7 13.341 0.525
3 29 24.947 1.162
4 43 46.651 0.922
5 101 87.237 1.158

1.542 + 1.162 + 1.158 0.525 + 0.922


Moy(S1 ) = = 1.287; Moy(S 2 ) = = 0.724
3 2
2.011− 2
Si
i = 1.287 + 0.724 = 2.011  2  C =
2
= 0.006

Dr N. NEGGAZ- Cours Analyse de données


Chapitre 5 : Séries chronologiques 85

 Y (t ) = X (t ) * S (t )
Moy(S1 )  Moy(S1 ) − C  1.281;  X (t ) = (1.87)t * 3.815

Moy(S 2 )  Moy(S 2 ) − C  0.718   S i = 1.999 S (1) = 1.281; S (2) = 0.718
i 

 S (t + 2) = S (t )

2. Le nombre de personnes atteintes à la fin de l’année 2019 :

t = 6  Y (6) = X (6)* S (6) = 117.130  117

5.9 Conclusion
Dans ce chapitre, nous avons montré plusieurs concepts en commençant par la définition
d’une série chronologique, la modélisation mathématique à base d’un lissage linaire et exponentiel.
Après, nous avons traité deux exemples réels pour mieux comprendre la prédiction par les séries
chronologiques. Les séries chronologiques jouent un rôle important dans notre vie quotidienne où
nous pouvons dans plusieurs domaines comme la prédiction des ventes ou la propagation de corona
virus qui est devenu le sujet d’actualité.

Dr N. NEGGAZ- Cours Analyse de données


Références Bibliographiques 86

[1] M. JAMBU. (1999). Méthode de base de l’analyse de données.


[2] T. Yves. Cours de statistique descriptive.
[3] G. SAPORTA (2006). Probabilités analyse des données et statistique. EditionTECHNIP, paris. France.
[4] J.P.BENZECRI (1980). L’analyse de données (Tome1) la taxonomie. Dunod
[5] J. DUDA (2002). Pattern recognition. MIT.
[6] P.DEMARTINES et J. HeRAULT (1997). Curvilinear component analysis : a self organizing neural
network for non linear of mappinf of data set. IEEE transactions on neural networks, 8(1) :148-54
[7] L. LEBART , A. MORINEAU et M. PIRON (1995). Statistique exploratoire multidimensionnele. Dunod
[8] J. ZHANG (2012). Kernel principal compenent analysis. Expert systems with application. Vol10 :11-
25.
[9] F. CHEVALIER et J. LE BALLAC (2013). Rapport sur la classification. Université de RENNES1.
[10] G. CELEUX, E. DIDAY, G. GOVAERT (1989). Classification automatique des données. Dunod.
[11] G. BROSSIER (2003). Les éléments fondamentaux de la classification. Hermes Sciences publication.
[12] N. WICKER (2001). Cours d’analyse de données. North-western European Journal of mathematics
[13] F.DAZY et J-F LE BARZIC (1996). L’analyse des données évolutives « méthodes et applications ».
Edition TECHNIP.
[14] C. E. Lawrence and A. A. Reilly (1990). An expectation maximization (EM) algorithm for the
identification and characterization of common sites in unaligned biopolymer sequences," Proteins:
Structure, Function, and Bioinformatics, vol. 7, pp. 41-51.
[15] J. De Lagarde (1995). Initiation à l’analyse des données. Dunod.
[16] A. LAGNOUX (2018). Série chronologique. Université de TOULOUS.
Les techniques d’analyse des données ont connu un essor important surtout avec le
développement de l’informatique et big data. Le volume important des données nécessite comme un
prétraitement : la réduction des données, ce qui est l’objectif principal de l’analyse des données en
premier lieu. Pour résoudre le problème de la dimensionalité, les méthodes multidimensionnelles
telles que l’Analyse en Composantes Principales (ACP) et l’Analyse Factorielle des Correspondances
(AFC) seront exploitées et expliquées en détail dans cet ouvrage.
En second lieu, l’interprétation et la classification des données dans le domaine de la
reconnaissance des formes, la fouille des données et l’intelligence artificielle font appel aux méthodes
de classification plus particulièrement l’algorithme de la classification hiérarchique qui permet une
représentation arborescente appelée dendrogramme et les méthodes de partitionnement
« clustering » comme l’algorithme des centres mobiles qui est très utilisé dans l’apprentissage non-
supervisé. En plus, les méthodes morphologiques à base des opérateurs de traitement d’image comme
l’érosion, dilatation, ouverture et fermeture peuvent être utilisées dans le domaine de la classification.
La prévision dans le domaine d’économie et le domaine d’épidémiologie nécessitent des
modèles statistiques puissants. Pour cela, nous avons introduit la méthode des moindres carrés et les
séries chronologiques. Généralement, deux modèles sont exploités comme la prévision linéaire et la
prévision exponentielle. Pour juger l’efficacité des modèles proposés, un coéfficient de corrélation doit
être mesuré.
Enfin, dans l’espoir que cet ouvrage constitue la première marche d’un long escalier et permet
aux lecteurs d’acquérir des nouvelles connaissances en analyse des données.

Dr N. NEGGAZ- Cours Analyse de données

Vous aimerez peut-être aussi