Vous êtes sur la page 1sur 160

Rapport du stage effectué au laboratoire

HEUDIASYC UMR CNRS 6599

présenté par
Moustapha DOUMIATI

pour obtenir le diplôme


Master de recherche en informatique

Fouille de données pour l’analyse des performances


d’unités opérationnelles d’un groupe industriel dans le
domaine de l’environnement

Encadré par :
Pr. Thierry DENOEUX
Astride AREGUI
2
Remerciements

Je remercie vivement en premier lieu mon responsable du stage, le pro-


fesseur Thierry Denoeux, pour toute l’aide et les nombreux conseils qu’il m’a
prodigués tout au long de ce travail.

Je tiens à remercier la doctorante Astride Aregui, pour m’avoir soutenu,


encouragé et conseillé tout au long de ce travail.

Je souhaite adresser mes sincères remerciement à Messieurs Billard, Bel-


pois, Jacq et Madame Blanc, les membres de l’entreprise qui n’ont jamais
hésité à me donner toute information technique nécessaire concernant les
jeux de données.

Je voudrais montrer toute ma reconnaissance et ma gratitude à tous les


membres de ma famille au Liban, qui ont toujours été là pour m’encourager
et me remotiver lorsque le coeur n’y était plus.

Je remercie mes amis du bureau Krystina, Xu, et Dao avec qui j’ai passé
des beaux moments pleins de travail. Je remercie plus spécifiquement mon
ami Dao Tien-tuan qui m’a aidé à apprendre Latex.

Bien sûr, je tiens à montrer toute ma gratitude envers les personnes qui
ont pu m’aider, m’encourager et me soutenir pendant cette année de travail,
d’autant plus que c’était ma première année en France. J’en oublie certaine-
ment mais je leur dit encore merci pour tout.
Liste des abréviations
ACP Analyse en Composantes principales
BU Business Unit
CAH Classification Ascendante Hiérarchique
CM Centres Mobiles
E Environnemental Reporting
ECD Extraction des Connaissances à partir des Données
KDD Knowledge Discovery in Data Base
NA Not a number
NS Not on Service
P Performance Ratio Report

4
Notations
Nous donnons ici la liste des notations utilisées dans notre rapport.

k Nombre des classes ou des partitions


xi Individu numéro i
µi Poids correspondant à l’individu i
gi Barycentre de la classe i
g Barycentre du nuage des points
d(i,j) Distance entre l’objet i et l’objet j
Ci Classe ou partition numéro i
xji Valeur prise par l’individu i pour la variable j
xt Transposé du vecteur x
Rp Espace des variables
I Inertie
D Critère d’agrégation (Distance entre classes)
|Ci | Cardinal des éléments de la classe i
Ω Ensemble des individus
wij Poids de connexion dirigée du neurone j vers le neurone i
f Fonction de transfert du neurone
λ Valeur propre associée à une matrice
Wi Vecteur poids du neurone i
Vi Voisinage du neurone
α(t) Taux d’apprentissage du neurone
ui,j Degré d’appartenance de l’objet i à la classe j
γ Coefficient de réglage flou

5
Résumé
Chaque année l’entreprise SUEZ environnement envoie à ses filiales des
questionnaires afin d’évaluer leurs performances. Aujourd’hui, SUEZ environ-
nement nous fournit deux bases de données correspondant aux années 2001,
2002, 2003 et 2004 et souhaite les exploiter pour en extraire de l’information.
La première base de données met en relation les filiales et leurs réponses aux
questions (indicateurs) et la deuxième met en relation les filiales et des ratios
calculés à partir des indicateurs.

Le cadre de notre projet fait partie d’un processus appelé Extraction


des Connaissances à partir des Données (ECD). Ce processus comporte trois
phases principales :
– Prétraitement de données ;
– Fouille des données ;
– Intérprétation des experts.

Au cours de notre projet, nous avons essayé de répondre aux questions de


l’entreprise et de mettre en évidence :
– Une typologie des indicateurs.
– Une typologie des filiales.

Notre rapport est structuré en trois parties :


1. Une partie bibliographique dans laquelle nous avons expliqué les mé-
thodes et les algorithmes utilisés dans notre analyse ;
2. Une partie pratique où nous ne nous sommes intéressés qu’à la base
de données filiales/indicateurs afin de ne pas compliquer notre rapport.
Dans une première partie, nous décrivons les données et leur prétraite-
ment, puis nous avons mis en évidence des typologies des indicateurs
et des filiales ;
3. Enfin, une partie annexe.
Notez que nous avons tenté d’interpréter les résultats obtenus en termes
de métier, grâce à l’aide des membres de l’entreprise.

6
Table des matières

1 Introduction 11

I Fondements théoriques 15
2 Analyse en Composantes principales (ACP) 16
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2 Représentations géométriques des données . . . . . . . . . . . 16
2.3 Analyse du nuage des individus . . . . . . . . . . . . . . . . . 17
2.4 Ajustement du nuage des individus . . . . . . . . . . . . . . . 18
2.5 Choix du nombre d’axes à conserver . . . . . . . . . . . . . . . 18
2.6 Composantes Principales . . . . . . . . . . . . . . . . . . . . 19
2.7 Contribution relative d’un axe à un individu . . . . . . . . . . 19
2.8 Analyse dans l’espace des individus . . . . . . . . . . . . . . . 19
2.9 Individus supplémentaires . . . . . . . . . . . . . . . . . . . . 20
2.10 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3 Classification automatique : Notions de bases 21


3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2 Introduction à la classification automatique . . . . . . . . . . 21
3.3 Classification par méthode de partitionnement . . . . . . . . . 23
3.3.1 Algorithme des centres mobiles net(k-moyennes) . . . . 23
3.3.2 La classification floue . . . . . . . . . . . . . . . . . . . 25
3.3.3 Algorithme des k-medoı̈des . . . . . . . . . . . . . . . . 26
3.4 Classification ascendante hiérarchique (CAH) . . . . . . . . . 27
3.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

7
4 Cartographie associative 30
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.2 Le neurone formel . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.2.1 Schéma fonctionnel du neurone formel . . . . . . . . . 30
4.2.2 Apprentissage du réseau neuronal formel . . . . . . . . 31
4.3 Apprentissage compétitif . . . . . . . . . . . . . . . . . . . . . 32
4.4 Cartographie associative . . . . . . . . . . . . . . . . . . . . . 33
4.4.1 Cartes organisatrices de Kohonen . . . . . . . . . . . . 34
4.4.2 Application de l’algorithme de Kohonen . . . . . . . . 34
4.4.3 Comparaison avec l’ACP . . . . . . . . . . . . . . . . . 35
4.4.4 Interprétation de la classification par les cartes de Ko-
honen . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

II Base de données filiales/indicateurs 37


5 Description, représentation et prétraitement des données de
la base filiales/indicateurs 38
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.2 Description des données . . . . . . . . . . . . . . . . . . . . . 38
5.3 Représentation mathématique des données . . . . . . . . . . . 39
5.3.1 Correction et codage des données . . . . . . . . . . . . 40
5.3.2 Choix du logiciel . . . . . . . . . . . . . . . . . . . . . 40
5.3.3 Caractéristiques des individus . . . . . . . . . . . . . . 40
5.4 Valeurs manquantes . . . . . . . . . . . . . . . . . . . . . . . . 43
5.4.1 Sélection des individus et des variables . . . . . . . . . 43
5.4.2 Nouvelle représentation des données . . . . . . . . . . . 45
5.4.3 Transformation et normalisation des données . . . . . . 46
5.4.4 Algorithme de centres mobiles pour l’imputation des
valeurs manquantes . . . . . . . . . . . . . . . . . . . . 46
5.5 Evolution des filiales par année . . . . . . . . . . . . . . . . . 47
5.6 Valeurs atypiques . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

6 Analyse des données par ACP 52


6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
6.2 Méthodologie de l’analyse effectuée . . . . . . . . . . . . . . . 52
6.3 Analyse des données du secteur A (Water Production) . . . . 53
6.4 Analyse des données du secteur B (Water Distribution) . . . . 58
6.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

8
7 Classification automatique des indicateurs 64
7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
7.2 Méthodologie de classification des indicateurs . . . . . . . . . 65
7.2.1 Création de table de proximité . . . . . . . . . . . . . . 65
7.2.2 Classification à partir des facteurs . . . . . . . . . . . . 65
7.2.3 Méthode de ré-étiquetage des classes pour la formation
des formes fortes . . . . . . . . . . . . . . . . . . . . . 65
7.2.4 Stratégie de classification des indicateurs par secteur . 66
7.2.5 Signe de relation entre les indicateurs . . . . . . . . . . 67
7.3 Classification des indicateurs du secteur A . . . . . . . . . . . 67
7.4 Classification des indicateurs du secteur C . . . . . . . . . . . 75
7.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

8 Segmentation des filiales par secteur 83


8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
8.2 Création du tableau des données . . . . . . . . . . . . . . . . . 83
8.3 Segmentation des filiales du secteur A . . . . . . . . . . . . . . 84
8.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

9 Interprétation des résultats en termes de métiers 87


9.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
9.2 Interprétation de la typologie des indicateurs du secteur A . . 87
9.3 Interprétation de la typologie des indicateurs du secteur C . . 88
9.4 Interprétation de la typologie des indicateurs du secteur D . . 88
9.5 Interprétation de la typologie des indicateurs du secteur E . . 88
9.6 Interprétation de la typologie des filiales . . . . . . . . . . . . 89
9.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

10 Conclusion générale et perspective 90

III Annexe 91
A Liste des Contract Reference 92

B Présentation des secteurs 94

C Analyse des données du secteur C 102

D Analyse des données du secteur D 109

E Analyse des données du secteur E 116

9
F Classification des indicateurs du secteur B 123

G Classification des indicateurs du secteur D 129

H Classification des indicateurs du secteur E 136

I 145
I.1 Segmentation des filiales du secteur B . . . . . . . . . . . . . . 145

J 147
J.1 Segmentation des filiales du secteur C . . . . . . . . . . . . . . 147

K 149
K.1 Segmentation des filiales du secteur D . . . . . . . . . . . . . . 149

L 151
L.1 Segmentation des filiales du secteur E . . . . . . . . . . . . . . 151

M Description, représentation et Prétraitement des données de


la base filiales/ratios 153
M.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
M.2 Description des données . . . . . . . . . . . . . . . . . . . . . 153
M.3 Caractéristiques des filiales . . . . . . . . . . . . . . . . . . . . 154
M.4 Valeurs manquantes . . . . . . . . . . . . . . . . . . . . . . . . 156
M.5 Valeurs atypiques . . . . . . . . . . . . . . . . . . . . . . . . . 158

10
Chapitre 1
Introduction

Le cadre de notre étude est le domaine de l’environnement de l’eau. Notre


objectif consiste à comprendre les relations existantes entre différents indi-
cateurs concernant plusieurs secteurs de ce domaine. Ainsi, la construction
d’une base de connaissances exploitable par les différents indicateurs demeure
une nécessité évidente pour comprendre cette liaison. L’entreprise SUEZ en-
vironnement dispose aujourd’hui de deux bases de données sur ces indicateurs
et souhaite les exploiter afin d’en extraire de la connaissance. Nous utiliserons
dans ce rapport des termes de métiers, couramment utilisés en anglais même
dans les filiales françaises, sans les traduire.

Les travaux de ce projet font partie d’un processus, issu de la conver-


gence de plusieurs disciplines (statistiques, intelligence artificielle, analyse de
données, reconnaissance de formes,. . .), connu surtout sous le nom de fouille
de données (ou Data Mining). La fouille de données constitue le coeur du
processus d’Extraction des Connaissances à partir des Données (ECD) ou en
anglais Knowledge Discovery in Data base (KDD).

Le processus d’ECD consiste en l’analyse de bases de données (souvent


très grandes) afin de découvrir des relations insoupçonnées et de résumer les
données d’une manière à la fois compréhensible et utile. C’est le « proces-
sus d’identification de modèles pertinents, nouveaux, potentielle-
ment utiles, et compréhensibles extraits d’un volume considérable
de données ».

Ainsi l’ ECD est un processus interactif (l’utilisateur est dans la boucle


du processus) et itératif. Ce processus intervient dans plusieurs applications :
– détection des fraudes, gestions des stocks ;

11
– la bioinformatique ;
– le benchmarketing (qui sera le domaine traité dans notre projet)[1, 2].

Le processus d’extraction de connaissances illustré dans la figure 1.1


consiste en une séquence itérative composée des étapes suivantes :
– Sélection : Permet de sélectionner les données pertinentes pour la
tâche de fouille de donnée à accomplir. En fait, l’entreprise SUEZ envoie
à ses filiales des enquêtes ou des questionnaires de type P « Performance
Ratio Report », ou de type E « Environmental Reporting », et parfois
les deux types questionnaires. Dans notre cas, nous n’avons conservé
que les individus (filiales) qui reçoivent des questionnaires de type P afin
d’éviter toute redondance dans notre base de données et de diminuer le
nombre de valeurs manquantes, les questionnaires de type P sont plus
généraux ;
– Prétraitement : Cette phase traite la présence de bruits, d’erreurs et
de données manquantes. Nous parlons alors de nettoyage de données ;
– Transformation : Les données sont transformées ou consolidées dans
un format approprié à la tâche de fouille de données choisie. Nous par-
lons surtout de normalisation et de standardisation des données ;
– Data Mining : Dans cette phase, des méthodes mathématiques sont
utilisées afin d’extraire des modèles et des règles ;
– Interprétation, évaluation : Enfin, cette étape identifie les modèles
intéressants représentant les connaissances, en se basant non seulement
sur des mesures d’intérêt mais aussi sur l’avis de l’expert.

La Fouille de Données est donc la plus importante composante de l’ECD.


Alors qu’habituellement les statisticiens travaillent sur des bases de données
de taille raisonnable, en échantillonnant parfois la population, les utilisateurs
de la fouille de données désirent quant à eux garder un maximum d’infor-
mation et travaillent donc sur l’ensemble des données disponibles. Cette vo-
lonté engendre un certain nombre de difficultés dans l’analyse de tableaux de
données[1, 2]. Les principales tâches de la fouille de données sont :
1. Classification : Elle permet de prédire si une instance de donnée (in-
dividu) est membre d’un groupe ou d’une classe prédéfinie (la classe est
l’ensemble de données qui sont similaires au sens d’un certain critère
donné) ;
2. Segmentation (en anglais Clustering) : C’est un partitionnement
logique de la base de données en clusters (groupes d’instances ayant les
mêmes caractéristiques) en se basant sur un apprentissage non super-
visé (classes inconnues). Nous parlons alors de ”classification automa-

12
Fig. 1.1 – Processus d’extraction de connaissance.

tique”;
3. Recherche d’association : Corrélation (ou relation) entre les attri-
buts (les variables) ;
4. Recherche de séquence : C’est la recherche de liaisons entre événe-
ments sur une période de temps ;
5. Détection des données atypiques (outliers) : Détection des ins-
tances ayant les caractéristiques les plus différentes des autres.
Dans notre projet, nous nous intéressons surtout aux tâches 2, 3 et 5 puisque
le cadre de notre travail est de trouver des liaisons entre les indicateurs, alors
les classer sans aucune connaissance a priori.

Afin d’éviter toute confusion, il est indispensable de différencier les trois


termes suivants :
– Donnée : valeur d’une variable pour un objet.
– Information : résultat d’analyse sur les données.
– Connaissance : information utile pour l’entreprise.

L’analyse de ces données est précieuse pour le progrès du fonctionnement


de l’entreprise. Parmi les outils statistiques utilisés pour l’analyse de don-

13
nées, nous pouvons citer les méthodes factorielles comme l’ACP (Analyse
en Composantes Principales, cf. chapitre 2), les méthodes de classification
automatique et de segmentation des données (cf. chapitre 3). Nous avons
souligné divers problèmes que l’on est amené à résoudre avant d’utiliser de
telles méthodes, il s’agit du prétraitement des données : détections des erreurs
de saisies et des données atypiques, traitement des données manquantes, nor-
malisation et standardisation des données (cf. chapitre 5).

Les travaux de ce rapport seront présentés en dix chapitres, dont le pre-


mier est une introduction générale et les autres sont structurés en deux par-
ties, et enfin une partie annexe :
– Partie Théorique :
– Dans le deuxième chapitre, nous présentons une petite introduction
à l’ACP montrant son fonctionnement et son but ;
– Dans le troisième chapitre, nous illustrons quelques méthodes utili-
sées dans la classification automatique des données ;
– Le quatrième chapitre présente l’utilisation de la cartographie asso-
ciative dans la classification automatique : l’algorithme compétitif,
et l’algorithme de Kohonen ;
– Partie Pratique :
– Le cinquième chapitre présente le prétraitement que nous avons ef-
fectué sur les données de la base filiales/indicateurs ;
– Le sixième chapitre présente les relations entre les indicateurs et les
individus en se basant sur l’ACP ;
– Le septième chapitre présente les relations entre les indicateurs en se
basant sur des méthodes de classification automatique ;
– Le huitième chapitre présente une typologie de segmentations des
filiales ;
– Le neuvième chapitre présente l’interprétation des groupes indica-
teurs et filiales trouvés en terme de métier ;
– Le dixième chapitre est une conclusion générale de rapport.

14
Première partie

Fondements théoriques

15
Chapitre 2
Analyse en Composantes principales
(ACP)

2.1 Introduction
Lorsqu’on étudie simultanément un nombre important de variables quan-
titatives, comment en faire un graphique global ? La difficulté vient de ce
que les individus étudiés ne sont plus représentés dans un plan, espace de
dimension 2, mais dans un espace de dimension plus importante. L’objectif
de l’Analyse en Composantes Principales (ACP) est de revenir à un espace
de dimension réduite (par exemple 2 ou 3) en perdant le moins d’information
possible. Il s’agit donc d’obtenir un résumé le plus pertinent possible des don-
nées initiales. L’ACP permet une étude globale des données et des variables
en utilisant des représentations. L’interprétation repose principalement sur
l’examen des projections des points-individus et des points-variables sur les
plans formés par des couples d’axes factoriels.

Dans ce chapitre, nous allons introduire quelques idées de base concer-


nant l’ACP. Pour plus d’information concernant l’ACP, nous utilisons comme
références [4, 5], d’où nous avons tiré les idées fondamentales.

2.2 Représentations géométriques des données


L’ACP s’applique à des données quantitatives représentées sous la forme
d’un tableau de données X à n lignes et p colonnes. Chaque ligne correspond
à un individu (ou observation) i = 1, ..., n, et chaque colonne à une variable
quantitative (ou descripteur) j = 1, ..., p qui prend des valeurs dans R. Le

16
tableau individus variables X est alors une matrice réelle de la forme :
x11 ... xj1 ... xp1
 
 1 j p 
 xi ... xi ... xi  .
x1n ... xjn ... xpn

Si Ω est un ensemble fini de n points x de Rp auxquels sont associés les


poids µx , ensemble de nombres réels positifs dont la somme est µ, l’ensemble
N (Ω) = {(x, µx ), /x ∈ Ω} sera appelé nuage de points dans Rp . Le centre de
gravité du nuage est g = µ1 x∈Ω µx x, et son inertie est I = x∈Ω µx d2 (g, x) .
P P

L’ACP trouve les directions de dispersion maximale du nuage des individus


et du nuage des variables. Cela permet de trouver, pour le nuage des indivi-
dus et pour le nuage des variables, des représentations dans des sous-espaces
de plus faible dimension que l’espace initial Rp et respectivement Rn , tout
en conservant un maximum de dispersion (ou d’inertie) du nuage.

Selon que le tableau X correspond aux valeurs directement recueillies et


non centrées pour les descripteurs, aux valeurs centrées (la moyenne sur la
population est nulle pour chaque variable) ou aux valeurs centrées et réduites
(l’écart-type sur la population est unitaire pour chaque variable), nous obte-
nons l’ACP générale, l’ACP centrée ou l’ACP normée. La méthode d’analyse
du tableau X reste la même, mais la signification des résultats est différente.
Dans la suite nous nous intéressons à l’ACP normée où la matrice X s’écrit :

X = (R − g t .I)Dr−1

avec :

 
σ 0 ... 0
√  1
Dr = n  0 σ2 ... 0 ,

0 0 ... σp

σj étant l’écart type de la variable xj .

2.3 Analyse du nuage des individus


L’analyse du nuage des individus consiste à trouver des sous-espaces li-
néaires tels que l’inertie (la dispersion) des projections des points individus
sur ces sous-espaces soit maximale, autrement dit que l’inertie expliquée soit
maximale. Nous recherchons successivement les sous-espaces de dimension 1,2

17
et q < p. Pour un nombre de dimensions données, le sous-espace qui maximise
la dispersion est également celui qui ajuste le mieux le nuage, c’est-à-dire qui
minimise l’erreur faite lors de l’approximation du nuage initial par le nuage
des projections.

En général, il n’est pas justifié d’accorder lors de l’analyse plus de poids


à certains individus qu’à d’autres. Par la suite, chaque individu sera consi-
déré avec un poids unitaire et nous utilisons comme métrique la distance
euclidienne.

2.4 Ajustement du nuage des individus


D’après le théorème de décomposition d’une matrice, la recherche des
sous-espaces est obtenue en diagonalisant la matrice X t • X, puis en ordon-
nant les vecteurs propres dans l’ordre décroissant des valeurs propres et enfin
en normalisant les vecteurs propres.

Les vecteurs propres uα sont les axes factoriels, et les inerties expliquées
ou portées par ces axes sont égales aux valeurs propres λα correspondantes.
Notons que ces vecteurs propres forment une base orthonormée.

2.5 Choix du nombre d’axes à conserver


Il est important de savoir à partir de quel ordre les différences entre les
pourcentages d’inertie expliquée par les axes factoriels successifs ne sont plus
significatifs. Sachant que la part d’inertie expliquée par un axe est donnée
par la valeur propre correspondante, une solution simple est d’examiner la
courbe de décroissance des valeurs propres (ou bien les pourcentages d’inertie
expliquée) pour déterminer les points où la pente de la courbe diminue (en
valeur absolue) de façon brutale ; seuls les axes qui précèdent ce changement
de pente seront retenus. Par exemple sur la figure 2.1, seulement les 4 premiers
axes sont conservés.
Le pourcentage d’inertie expliquée par un sous-espace vectoriel Eα =
λ1 +...λα
(u1 , ..., uα )est égale à Inertie totale
× 100 . Ce pourcentage exprime la qualité
de représentation si on tient compte de ce sous espace vectoriel.

18
Fig. 2.1 – Choix du nombre des axes à conserver.

2.6 Composantes Principales


Pour pouvoir obtenir les différentes représentations du nuage dans des
espaces de dimension réduite, il suffit de déterminer les coordonnées de la
projection de tous les points du nuage sur chaque axe factoriel. Soit z α =
(zα1 , ..., zαn )t = X • uα ces n coordonnés pour l’axe α . Les composantes
principales s’expriment matriciellement par la relation Z = X • U où U est
la matrice des vecteurs propres normés.

2.7 Contribution relative d’un axe à un indi-


vidu
C’est le rapport entre l’inertie restante après projection sur l’axe uα et
l’inertie initiale qu’apporte l’individu i :
i )2
(zα
Cor(i, α) = kxi k2
.

2.8 Analyse dans l’espace des individus


Dans le tableau X la variable xj est représentée par un vecteur de Rn .
L’analyse du nuage des variables consiste à trouver des sous-espaces linéaires
de Rn tels que la dispersion des projections des p points variables sur ces
espaces soit maximale.

19
La recherche des sous-espaces est obtenue en diagonalisant la matrice
X • X t , puis en ordonnant les vecteurs propres dans l’ordre décroissant des
valeurs propres et enfin en normalisant les vecteurs propres. Les vecteurs
propres vα sont alors les axes factoriels.

Comme nous parlons de l’ACP normée, la coordonnée de la projection du


point représentant la variable xj sur l’axe factoriel d’ordre α qui est cjα = xtj vα ,
est égale au coefficient de corrélation entre la variable initiale xj et la variable
principale définie par les projections des points-individus sur l’axe factoriel
d’ordre α.

2.9 Individus supplémentaires


Il faut leur appliquer la même transformation géométrique que celle qui a
été appliquée à tous les individus initiaux. Rappelons que nous avons centré
en colonne le tableau initial et divisé chaque colonne par son écart-type mul-
tiplié par le racine carré du nombre d’individus actifs non supplémentaires.
Si ys = (ys1 , . . . , ysp ) est le vecteur ou l’observation initiale supplémentaire, on
le transforme donc en :
1 p
−g1 −gp
xs = ( y√s nσ1
, . . . , y√s nσp
),

où g est le vecteur barycentre des éléments actifs et σj l’écart-type d’une


colonne calculé sur les éléments actifs. On appelle éléments actifs, les n indi-
vidus et les p variables de l’analyse avant l’introduction des élémnts supplé-
mentaires.

2.10 Conclusion
Ce chapitre a présenté les notions de base de l’ACP. Plus tard, nous
utilisons cette technique afin de pouvoir analyser et interpréter les données.

20
Chapitre 3
Classification automatique : Notions de
bases

3.1 Introduction
Comme nous l’avons indiqué dans l’introduction, le but initial est de notre
projet est de mettre en évidence les relations entre indicateurs ou variables.
Il est à noter que la classification de variables est un sujet important, peu
abordé dans les ouvrages classiques. En effet, dans le monde de la fouille
des données, les variables mesurées sont souvent très nombreuses, et il est
indispensable de les réduire ou de mieux les structurer en recherchant des ty-
pologies. Les méthodes de classification de variables permettent d’atteindre
ces objectifs.

Dans ce chapitre, nous définissons la classification automatique, et nous


présentons les algorithmes les plus utilisés en classification automatique.

Dans un premier temps, nous présentons des méthodes de classifications


exclusives ou nettes (un objet appartient à un groupe et à un seul) et puis
nous abordons la classification non exclusive ou floue (un objet peut appar-
tenir aux plusieurs groupes avec des degrés d’appartenance).

3.2 Introduction à la classification automa-


tique
La classification automatique est une des méthodes statistiques largement
utilisées dans la Fouille de Données. Elle s’effectue dans un cadre d’appren-

21
tissage non supervisé, qui a pour but d’obtenir des informations sans au-
cune connaissance préalable, contrairement à l’apprentissage supervisé. Elle
peut être combinée avec d’autres méthodes de différentes façons, en pre-
ou en post-traitement. En effet, elle permet de résumer l’information avant
transmission à une autre méthode et ainsi permettre de mieux analyser les
données. Elle peut aussi, suite à un prétraitement des données, être utilisée
pour mieux comprendre la quintessence de l’information contenue dans les
fichiers. La classification ou le regroupement en classes homogènes consistent
à regrouper des points d’un espace quelconque en classes. Chaque classe peut
ensuite être associée à un représentant (sa moyenne, son barycentre, un pro-
totype) ce qui conduit à une description simplifiée des données initiales. Il
s’agit d’une démarche très courante qui permet de mieux comprendre l’en-
semble analysé. Ces applications sont nombreuses, surtout en statistique. En
tant que branche de la statistique, la classification automatique a été énor-
mément étudiée depuis de nombreuses années, en se basant principalement
sur des distances. Parmi les algorithmes ainsi développés, on retrouve les
k-moyennes, k-medoı̈des,. . .On peut distinguer deux grandes familles de mé-
thodes de classification : les méthodes de partitionnement simple et
les méthodes hiérarchiques.

Les premières cherchent une partition des objets, ou bien des variables,
en un nombre de classes donné, comme l’algorithme de centres mobiles (k-
moyennes). Deux critères doivent être satisfaits :
– Chaque groupe doit contenir au moins un objet, les classes vides ne
sont pas tolérées.
– Chaque objet doit appartenir à un seul groupe.
Les autres méthodes de classification, dites de classification hiérarchique,
consistent à créer une décomposition hiérarchique d’un tableau de données.
On peut envisager deux stratégies : ascendante ou descendante. L’approche
ascendante démarre avec chaque objet formant une classe distincte. On fu-
sionne à chaque étape les deux classes les plus proches afin de ne plus obtenir
qu’une seule classe, à moins qu’une condition de terminaison ne soit vérifiée.
L’approche descendante démarre avec tous les objets dans une seule et même
classe. A chaque itération, une classe est décomposée en classes plus petites,
jusqu’à n’avoir plus qu’un seul objet dans chaque classe, ou éventuellement
qu’une condition d’arrêt soit vérifiée. Ici aussi, il est nécessaire d’introduire
une notion de similarité ou de dissimilarité entre les objets et les classes [1].

22
3.3 Classification par méthode de partition-
nement
Ce type de méthodes repose généralement sur des algorithmes simples,
et permet de traiter rapidement des ensembles d’effectif assez élevé en op-
timisant localement un critère, généralement l’inertie intra-classe. Parmi ces
célèbres algorithmes on retrouve l’algorithme des Centres Mobiles (CM) dans
ses deux versions nette et floue, et l’algorithme des k-medoides.

3.3.1 Algorithme des centres mobiles net(k-moyennes)


L’algorithme des CM est une méthode assez répandue, dont l’avantage
est d’être simple et efficace, mais qui conduit souvent à un optimum local.
L’algorithme des centres mobiles peut se définir comme suit :
– Indiquer le nombre de classes a priori.
– Choisir k individus qui forment les centres initiaux des k classes.
– Tant qu’il n’y a pas convergence vers la stabilisation des centres :
1. Construction de la partition suivante en affectant chaque individu
à la classe du centre de laquelle il est le plus proche, ceci au sens
de la distance euclidienne.
2. Les centres de gravité des nouvelles partitions deviennent les nou-
veaux centres.

L’algorithme peut être représenté par la figure 3.1. Après quelques itérations
(généralement moins de 20), les centres ne bougent plus et la poursuite de
cet algorithme ne changera plus les résultats : l’algorithme a convergé. No-
tons enfin que cet algorithme existe sous deux versions : celle de MacQueen
et celle de Forgy. L’algorithme de MacQueen recalcule les nouveaux centres
dès qu’un objet a été transféré d’une classe à une autre. A l’inverse, dans
l’algorithme de Forgy, le calcul des centres de gravité intervient une fois que
tous les objets ont été réaffectées à la classe la plus proche. Souvent nous
nous intéressons à l’algorithme de Forgy.

Critère à optimiser
On considère qu’une partition est bonne si elle produit des groupes de
variance interne faible. L’algorithme consiste à minimiser le critère suivant :
Iintra = km=1 i∈Cm d2 (xi , gm ), k est le nombre de classes et gm est le centre
P P

de gravité de la classe m.

23
Fig. 3.1 – Illustration de l’algorithme des centres mobiles.

Le critère Iintra , qui est simplement la somme des inerties particulières


des classes, est appelé inertie intra-classes. La méthode des centres mobiles
consiste à chercher la partition qui minimise Iinter pour avoir en moyenne
des classes bien homogènes, ce qui revient à chercher le maximum de l’inertie
interclasse : Iinter = km=1 pm d2 (gm , g), où g est le centre de gravité du nuage
P

de points initiaux et pm est le poids de la classe. Ce résultat est dû à la relation


liant l’inertie totale, qui ne dépend que de la partition avec les inerties inter-
classes et intra-classes : Itotal = Iintra + Iinter . Ceci peut être représenté par
les figures 3.2 et 3.3.

Notion de formes fortes


L’algorithme des CM conduit à un optimum local du critère retenu : le
choix initial des centres influe sur la solution finale. Pour pallier cet inconvé-
nient, on effectue plusieurs passages de l’algorithme avec des initialisations
différentes. On retient les points qui restent groupés quel que soit le tirage
de départ : on constitue ainsi des classes « stables » appelées formes fortes.
Cette notion est très utilisée pour juger de l’indépendance de la partition
retenue par rapport aux conditions initiales choisies [7].

24
Fig. 3.2 – Inertie totale = Inertie Fig. 3.3 – Illustration des inerties
inter + Inertie intra. inter/intra classes.

Avantages et inconvénients de l’algorithme


L’algorithme CM est caractérisé par les avantages suivants :
– Possibilité de traiter des ensembles de taille importante ;
– Simplicité et efficacité ;
– Rapidité en convergence.
Parmi ses inconvénients, nous citons :
– Besoin de spécifier le nombre de classes à priori ;
– Initialisation arbitraire des centres au départ ;
– Les points isolés sont mal gérés ;
– Peu robuste en présence des données atypiques.

3.3.2 La classification floue


Nous avons parlé jusqu’à maintenant de la classification nette ou exclusive
où un objet appartient à une classe et une seule. Dans le cas de la classifica-
tion non exclusive un objet peut appartenir à plusieurs classes ; c’est le cas
des méthodes de classification floue. La typologie floue est issue de la notion
de sous-ensemble flou introduite par Zadeh en 1965 [7].

D’après [7], Dunn (1974) a étendu l’algorithme des centres mobiles à


la méthode de typologie floue : on parle alors de l’algorithme des centres
mobiles flous. L’idée retenue est l’appartenance partielle d’un objet à une
classe en remplaçant l’appartenance et la non appartenance de l’objet à un
sous-ensemble par une appartenance graduelle indiquant la proximité de l’ob-
jet à chaque classe. On emploiera donc une méthode de classification floue

25
dès qu’on aura le sentiment qu’une partition formelle n’est pas adaptée, par
exemple lorsqu’il existe des « ponts » entre classes. Les k classes floues sont
caractérisées par leurs fonctions d’appartenance respectives et tout objet pos-
sède k degrés d’appartenance. On note ui,j le degré d’appartenance de l’objet
i à la classe j avec 1 ≤ j ≤ k et j ui,j = 1. A p objets, on associera une
P

matrice U de dimension p × k, dont le terme (i,j) représente le degré d’ap-


partenance de l’individu xi à la classe Cj [5, 7].

L’algorithme des centres mobiles flous


L’algorithme des CM flous est l’un des principaux algorithmes de la clas-
sification floue. Nous parlons alors de classification non exclusive.

Les principales étapes de l’algorithme des centres mobiles flous sont les
suivants :
– La fixation arbitraire d’une matrice d’appartenance ;
– Le calcul des centroı̈des ;
– le réajustement de la matrice d’appartenance suivant la position des
centroides.

En général, l’algorithme converge vers un optimum local. La technique de


base est, comme pour l’algorithme des centres mobiles nets, la minimisation
de l’inertie intra-classes

ui,j d2 (xi , gj )
P
min i,j

où γ est le coefficient de réglage flou (valeur conseillée entre 1 et 2).


L’algorithme consiste à itérer les étapes suivantes :
1. Calcul des centres :
P γ
u xi
gj = Pi ui,jγ ;
i i,j

2. Calcul de la partition floue :


1
2

Pk i j k
x −g γ−1
ui,j = 1 .
j 2
kxi −gj k γ−1

3.3.3 Algorithme des k-medoı̈des


Le calcul d’un centroı̈de (centre, ou barycentre d’une classe ou d’un
groupe) peut se révéler peu significatif dans certains cas. Il est alors plus

26
judicieux de choisir comme centre du groupe un objet présent dans le groupe
et non pas un objet fictif. L’algorithme des k-medoı̈des peut être vu comme
une adaptation de l’algorithme des CM. Le medoı̈de d’une classe peut être
P
calculé en trouvant l’objet i de cette classe qui minimise h∈Cj d(i, h) où
Cj est la classe qui contient l’objet i et d(i,h) la distance euclidienne entre
l’objet i et l’objet h de la même classe.
Cet algorithme peut être alors décrit comme suit :
1. Initialisation : choisir arbitrairement un objet comme medoı̈de pour
chaque cluster ;
2. Affecter chaque objet au medoı̈de le plus proche ;
3. Recalculer le medoı̈de de chaque cluster ;
4. Répéter les étapes 2 et 3 jusqu’à l’instant où les medoı̈des ne bougent
plus.
Cet algorithme souffre des mêmes inconvénients que l’algorithme CM mais il
a l’avantage d’être plus robuste vis-à-vis des points atypiques [6].

3.4 Classification ascendante hiérarchique (CAH)


Définition d’une hiérarchie

Un ensemble H de parties non vides de l’ensemble W est une hiérarchie


sur W si :
– W ∈ H;
– ∀i ∈ W, i ∈ H ;
0 0 0 0
– ∀h, h ∈ H, h ∩ h = ∅ ou h ⊂ h ou h ⊂ h ;

Une hiérarchie peut être vue comme un ensemble de partitions emboı̂tées.


Graphiquement, une hiérarchie est souvent représentée par une structure ar-
borescente appelée arbre hiérarchique ou dendrogramme.

Il existe deux types de familles de méthodes : les méthodes descendantes


ou diviseuses, et les méthodes ascendantes ou agglomératives. La première
approche, moins utilisée, consiste à partir d’une seule classe regroupant tous
les objets, à partager celle-ci en deux. Cette opération est répétée à chaque
itération jusqu’à ce que toutes les classes soient réduites à des singletons.
La seconde, qui est la plus couramment utilisée, consiste à partir des ob-
jets (chacun est dans sa propre classe), et à agglomérer itérativement les
classes les plus proches, afin de n’en obtenir plus qu’une seule contenant tous
les objets. S’il est assez aisé de calculer une distance entre deux points, il est

27
Fig. 3.4 – Méthode de Représentation de la classification hiérarchique.

moins évident de calculer une distance entre une classe et un point, ou encore
entre deux classes. Plusieurs distances classiques dites critères d’agrégation
existent. Les plus couramment utilisés sont : les critères du lien minimum,
du lien maximum, du lien moyen et le critère de Ward qui résulte de la perte
d’inertie en regroupant deux classes C1 et C2 , et conduit à minimiser l’inertie
intra classe. En fait, c’est le critère le plus souvent utilisé. Le critère d’agré-
gation de Ward se décrit comme suit :

|C1 |×|C2 | 2
Dward = |C1 |+|C2 |
d (g1 , g2 ),

avec :
– d : distance euclidienne ;
– |Ci | : cardinal de la classe Ci ;
– gi : barycentre de la classe Ci .

À une hiérarchie est associé un indice, fonction strictement croissante,


qui a la particularité de prendre une valeur nulle pour toute classe singleton.
Ainsi, pour les classes du bas de la hiérarchie l’indice vaut 0, et pour les autres
classes, cet indice est défini en associant à chacune des classes construites la
distance qui séparait les deux classes fusionnées pour former cette nouvelle
classe. Ci-dessous, nous décrivons les principales étapes de l’algorithme de
classification ascendante hiérarchique (CAH) :
1. Au départ, chaque objet est dans sa propre classe ;
2. On fusionne les deux classes les plus proches (selon le critère choisi) ;
3. On attribue à la nouvelle classe un indice égale à la distance qui séparait
ces deux classes ;

28
4. On répète l’étape 2 jusqu’à n’avoir plus qu’une seule classe.
En analysant l’évolution du critère, il est possible de déterminer un nombre
de classes approprié. A l’inverse des méthodes de classification par partition,
nous n’avons donc pas besoin ici de la connaissance a priori du nombre de
classes [1].

3.5 Conclusion
Dans ce chapitre, nous avons expliqué le principe de la classification au-
tomatique tout en montrant son importance dans le monde de la fouille de
donnée. Nous avons de plus expliqué la différence entre la classification par
partition et la classification hiérarchique tout en présentant les algorithmes
les plus utilisés. Enfin, nous avons développé la classification floue qui ap-
porte de bonnes solutions pour la classification dans le cas où les frontières
entre les classes ne sont pas bien définies.

29
Chapitre 4
Cartographie associative

4.1 Introduction
La classification automatique en analyse de données et l’apprentissage non
supervisé par réseaux de neurones résolvent des problèmes similaires. Ce cha-
pitre concerne une introduction générale aux réseaux de neurones artificiels et
l’application de l’algorithme de Kohonen dans le domaine de la classification
non supervisée. Un réseau neuronal artificiel a la capacité d’apprendre des
informations, de généraliser et d’identifier des fonctions non linéaires multi-
dimensionnelles. Nous présentons quelques concepts fondamentaux pour la
compréhension du fonctionnement des réseaux neuronaux et montrons leur
importance dans le domaine de la classification automatique.

4.2 Le neurone formel


Un réseau de neurones est un ensemble de neurones formels connectés
entre eux. Il est formé d’une couche d’entrée, une ou plusieurs couches cachées
et une couche de sortie. Son architecture peut être représenté comme dans la
figure 4.1. Pour bien comprendre son fonctionnement, examinons le neurone
formel.

4.2.1 Schéma fonctionnel du neurone formel


Le neurone formel est un modèle mathématique très simplifié du neu-
rone biologique. Il s’agit d’un automate relié à des automates voisins par
des connexions représentées par des coefficients de pondérations (nombres
réels). Il reçoit en entrée les signaux délivrés par les neurones auxquels il est

30
Fig. 4.1 – Architecture d’un réseau neuronal formal.

connecté, et fournit en sortie un signal qui dépend à la fois de ses signaux


d’entrée et des poids de ses différentes connexions. Cette sortie est le résultat
P
d’une fonction f dite de transfert appliquée à la somme Ai = j wij ej + wi0 .

Fig. 4.2 – Schéma fonctionnel du neurone formel.

La fonction de transfert peut prendre différentes formes : fonction non


linéaire, fonction à seuil binaire, fonction linéaire à seuil, . . .. Elle représente
l’état d’activation du neurone. La sortie du neurone Si est fonction de la
somme pondérée Ai , telle que Si =f (Ai ).

4.2.2 Apprentissage du réseau neuronal formel


On entend par phase d’apprentissage la phase où les paramètres du ré-
seaux subissent des modifications suivant des règles appelées règles d’appren-
tissage, jusqu’à stabilisation du réseau ; c’est-à-dire jusqu’à ce que la sortie

31
désirée soit à peu près obtenue. Mais afin de pouvoir effectuer l’apprentissage
du réseau, il est nécessaire de créer une base de données dans un domaine
bien défini appelée base d’apprentissage et qui contiendra toutes les infor-
mations à mémoriser dans le réseau. On distingue en général deux modes
d’apprentissage [8] :
– Apprentissage supervisé : On fournira au réseau des exemples à mémo-
riser, pour les comparer par la suite avec les vecteurs obtenus à la sortie
du réseau lors de la phase d’apprentissage. La base d’apprentissage est
alors constituée par un nombre suffisant de couples entrée/sortie ;
– Apprentissage non supervisé : Dans ce cas, on n’a pas besoin d’une base
des sorties désirées et le réseau évolue tout seul jusqu’à obtenir la sortie
souhaitée.

4.3 Apprentissage compétitif


La forme la plus simple d’apprentissage compétitif, dite « règle du gagnant
prend tout », modifie seulement le vecteur poids du meilleur neurone (au sens
d’un critère donné), à chaque étape de l’apprentissage. L’architecture de ce
réseau est représentée sur la figure 4.3.

Fig. 4.3 – Architecture du réseau compétitif.

A chaque présentation d’une entrée x (un vecteur de l’exemple d’appren-


tissage) et après normalisation des vecteurs de poids, deux étapes sont effec-
tuées :

32
– Localisation du vecteur de poids gagnant Wk∗ (correspondant au meilleur
neurone), qui vérifie la condition :
kx − Wk∗ k = mink kx − Wk k.
– Modification des vecteurs poids de l’unité gagnante :
Wk∗ (t + 1) = Wk (t) + α(t)[x(t) − Wk (t)], 0 ≤ α(t) ≤ 1 est le taux d’ap-
prentissage.

Remarquons qu’en remplaçant respectivement les mots « neurone » par


« prototype » et « vecteur d’entrée » par « individu », selon la terminologie de
l’analyse des données, il est évident que la règle d’apprentissage est la même
que celle utilisée par l’algorithme de centres mobiles (version de MacQueen).
Dans ce cas précis, les réseaux de neurones ne nous semblent pas apporter
de grandes nouveautés. En conséquence, nous nous intéressons à une version
plus développée de l’apprentissage compétitif.

4.4 Cartographie associative


L’apprentissage compétitif, dans sa version la plus simple, ne tient aucun
compte d’interactions latérales entre les neurones. La cartographie associative
utilise cette idée d’interactions et postule des relations de voisinage a priori
entre les unités. Ainsi chaque unité possède un ensemble d’unités voisines,
qui constituent son voisinage. Le but de la cartographie associative consiste
à associer chaque vecteur d’entrée à un neurone de la carte (couche compéti-
tive + définition de topologie sur cette couche). Autrement dit, des données
proches (dans l’espace d’entrée) vont avoir des représentations proches dans
l’espace de sortie et vont donc être classés dans une même classe ou dans des
classes voisines. Trois architectures sont couramment utilisées pour la carte :
– Cartes unidimensionnelles où chaque neurone possède deux voisins.
– Cartes bidimensionnelles à voisinage rectangulaire où chaque neurone
possède quatre voisins.
– Cartes bidimensionnelles à voisinage hexagonal où chaque neurone pos-
sède six voisins.

Notons que si l’on dispose d’un espace muni d’une métrique d, on peut
lui donner une structure d’espace topologique en définissant le voisinage Vk
de l’unité ou du neurone k comme l’ensemble des unités contenus dans une
boule de rayon η non nul centrée en k.

33
Fig. 4.4 – Topologie des voisinages.

4.4.1 Cartes organisatrices de Kohonen


Kohonen a proposé un algorithme d’apprentissage de carte associative.
Cet algorithme peut se présenter comme suit [9] :
– Initialisation : l’architecture de la carte est spécifiée, ce qui revient à
choisir le nombre de neurones et à définir les relations de voisinages.
Les vecteurs de poids sont initialisés.
– Localisation du vecteur de poids gagnant Wk∗ qui vérifie la condition :
kx − Wk∗ k = mink kx − Wk k.
– Modification des vecteurs poids de l’unité gagnante et de ses voisines,
∀k ∈ Vk∗ (voisinage de l’unité gagnante :
Wk∗ (t + 1) = Wk (t) + α(t)[x(t) − Wk (t)], où 0 ≤ α(t) ≤ 1 est le taux
d’apprentissage.

Kohonen conseille de démarrer avec un nombre de voisins important mais


de le faire décroı̂tre au cours des itérations, afin d’améliorer les performances
de l’algorithme et de bien organiser la carte. De plus, le nombre d’itérations
exécutées ne doit pas être inférieur à 500 fois le nombre de neurones dans la
carte.

Plusieurs modifications marginales ont été proposées pour cet algorithme,


mais dans notre travail nous utilisons la version originale de Kohonen.

4.4.2 Application de l’algorithme de Kohonen


Les méthodes non supervisées sont intéressants et en particulier l’algo-
rithme de Kohonen est de nos jours largement utilisé. Il accomplit la double
tâche de « projection » et de « classification ».

La principale caractéristique de la méthode de Kohonen est la conserva-

34
tion de la topologie : des observations « proches » dans l’espace d’origine
provoquent la réponse du même neurone ou de deux neurones voisins dans la
carte. Après apprentissage, un exemple d’entrée sera représenté par le neu-
rone dont il se rapproche le plus. De point de vue de la classification, chaque
neurone de la couche compétitive correspond à une classe. Chaque classe sera
alors caractérisé par le vecteur de poids du neurone correspondant de la carte.

4.4.3 Comparaison avec l’ACP


La carte de Kohonen construite à partir d’observations peut être compa-
rée aux projections linéaires réalisées par l’ACP. Cependant, il est souvent
nécessaire de prendre en compte plusieurs projections bidimensionnelles de
l’ACP pour avoir une bonne représentation des données, alors qu’une seule
carte de Kohonen suffit. Il est important de noter que si X est la matrice
des données centrées, l’ACP est réalisée via la diagonalisation de la matrice
X t • X, alors que la carte de Kohonen est construite avec les observations de
la matrice X [10].

4.4.4 Interprétation de la classification par les cartes


de Kohonen
Le choix du nombre de classes est arbitraire et il n’existe pas de méthode
sûre pour choisir la taille de la grille. Pour obtenir une bonne organisation
des cartes de Kohonen, il est préférable de travailler sur de grandes cartes.
Mais on peut penser que le nombre significatif de classes sera souvent plus
petit que la taille de la grille. D’un autre côté, il n’est ni facile ni utile d’in-
terpréter et de décrire un trop grand nombre de classes. Aussi d’après [10],
Cottrell et al. ont-ils proposé de réduire le nombre de classes en utilisant une
CAH sur les vecteurs codes avec la distance de Ward. De cette manière, deux
classifications emboı̂tées sont définies, ce qui permet de distinguer les classes
de Kohonen (ou « micro-classes ») et les « macro-classes » qui regroupent
certaines « micro-classes ».

L’avantage de cette double classification est qu’elle permet d’analyser les


données à un niveau global « macro » qui met en évidence les caractéristiques
générales et à un niveau plus fin « micro » qui permet de déterminer les
caractéristiques de phénomènes plus précis [10].

35
4.5 Conclusion
Dans ce chapitre, nous avons montré l’importance des réseaux de neurones
dans le domaine de la classification. L’algorithme compétitif dans sa version
simple et les cartes organisatrices de Kohonen sont aujourd’hui couramment
utilisés en classification automatique.

36
Deuxième partie

Base de données
filiales/indicateurs

37
Chapitre 5
Description, représentation et
prétraitement des données de la base
filiales/indicateurs

5.1 Introduction
Dans ce chapitre nous allons décrire les données de la base filiales/indicateurs
fournie par l’entreprise, puis nous effectuerons l’étape de prétraitement des
données : sélection et nettoyage des données, valeurs manquantes, valeurs
atypiques,. . .A noter que la phase de prétraitement est une phase assez im-
portante du processus ECD car elle influe fortement sur la suite de l’analyse
de données.

5.2 Description des données


Chaque année, l’entreprise SUEZ environnement envoie à ses filiales, si-
tuées dans différents pays, des enquêtes comprenant des questions concernant
huit secteurs différents du domaine de l’eau potable et de l’eau usée (cf. ta-
bleau 5.1).

L’entreprise recueille ses enquêtes afin d’établir une étude comparative


entre les filiales dans chaque secteur. Aujourd’hui, SUEZ met à notre dispo-
sition les résultats des enquêtes correspondant aux années 2004, 2003, 2002 et
2001. Notre objectif sera de les expoiter afin d’en extraire des relations entre
différents indicateurs. Ces indicateurs constituent les réponses aux questions
posées dans les questionnaires et sont décrits en annexe B.

38
Notons qu’il existe des questionnaires de type P (Performance Ratio Report)
et des questionnaires de type E (Environmental Reporting). Notre étude se
concentre sur les questionnaires de type P et sur les cinq premiers secteurs.
Les données sont constituées de fichiers Excel, mettant en relation les filiales,
qui sont représentées par leur Contract Reference (cf. annexe A) et les me-
sures des indicateurs des différents secteurs. Un autre fichier, dit Business
Unit et qui décrit en détail les caractéristiques des filiales est également mis
à notre disposition.

5.3 Représentation mathématique des don-


nées
Les données se présentent sous forme de quatre tableaux, chaque tableau
correspondant à une année : respectivement 2004, 2003, 2002 et 2001. Chaque
tableau met en relation n Contract Reference (lignes) ou individus, et p
descripteurs ou indicateurs. Chaque variable ou descripteur correspond à un
indicateur de performance pour une tâche donnée. Les indicateurs sont divisés
en huit secteurs différents des domaines de l’eau potable et de l’eau usée.
Chaque secteur est représenté par un symbole et décrit par m descripteurs ou
indicateurs. Le tableau 5.1 montre les différents secteurs ainsi que le nombre
d’indicateurs correspondants. Chaque tableau correspond à une année et met

Secteur Symbole Nombre d’indicateurs


WaterProduction A 31
Water Distribution B 29
Sewage Collection C 24
Sewage Treatment D 27
Customer Services E 49
Corporate Support F 8
Overall Business Issues G 21
Financial Indicators H 21

Tab. 5.1 – Présentation des différents secteurs.

en relation 71 individus et 213 indicateurs, formant une matrice de dimensions


71× 213.

39
5.3.1 Correction et codage des données
Dans les données brutes, la valeur de certains indicateurs est NA (Not
a number), autrement dit « valeur manquante », ou NS (Not on service),
autrement dit ”valeur inexistante”. Les interversions de ces notations sont
courantes lors de la saisie des données. Du point de vue du traitement des
données, cela constitue un problème car nous cherchons souvent à estimer
les valeurs manquantes mais il est inutile d’estimer une valeur qui n’est pas
définie. Pour faire face à ce problème, les informations sont croisées avec le
fichier qui décrit les caractéristiques des BU (Business Unit), pour savoir
si l’individu effectue vraiment ce travail ou non, afin d’obtenir l’indication
correcte.

5.3.2 Choix du logiciel


Afin de traiter cette énorme quantité de données, il faut utiliser un logiciel
assez efficace, robuste et qui comprend de bons outils statistiques. Deux logi-
ciels répondent à nos besoins : R et Matlab. Bien que R soit assez répandu
dans le monde de la statistique et qu’il soit un logiciel libre, nous choisissons
de travailler avec Matlab qui possède une bibliothèque assez riche.

Il est donc nécessaire d’assurer la transformation des données reçues sous


forme des fichiers excels (.xls) en données Matlab (.mat).

5.3.3 Caractéristiques des individus


Il arrive souvent que certaines filiales (individus) n’effectuent pas les
tâches qui correspondent à un secteur donné ; il est donc indispensable de
mesurer le pourcentage de ces individus dans chaque secteur. Ceci est repré-
senté sur la figure 5.1 pour le secteur A (Water Production).

40
Fig. 5.1 – Pourcentage des individus ne travaillant pas sur un secteur.

Il est bien évident que ces pourcentages varient d’un secteur à autre. Nous
remarquons toutefois que tous les individus traitent les secteurs F, G et H,
ce qui est tout à fait normal car ce sont des secteurs d’informations générales
et financiers.

Il est intéressant de représenter les caractéristiques de chaque individu


(valeurs existantes ou disponibles, valeurs manquantes, valeurs inexistantes)
pour chaque secteur et pour chaque année. Par exemple, la figure 5.2 re-
présente les caractéristiques des individus dans le domaine A pour l’année
2004.

41
Fig. 5.2 – Caractéristique des individus du domaine A pour l’année 2004.

42
Comment lit-on ces figures ? Pour une meilleure visualisation, nous pré-
sentons sur la première figure les caractéristiques d’une partie des individus et
sur la deuxième figure celles de l’autre partie. Les indicateurs sont représen-
tés sur l’axe des abscisses et les Contract Reference sur l’axe des ordonnées.
Pour simplifier la représentation nous éliminons les indices QA qui sont en
commun pour tous les indicateurs du domaine Water Production ; 01 cor-
respond donc à QA01. À l’intersection d’une ligne verticale avec une ligne
horizontale, on affiche un carré dont la couleur varie en fonction de la valeur :
valeur existante (couleur bleu), valeur manquante (couleur rouge foncée) ou
valeur inexistante (ou hors service, en couleur jaune). Par exemple, la valeur
de l’indicateur QA01 pour l’individu 1 existe alors que la valeur de l’indica-
teur QA26 manque. De plus, il est évident que l’individu portant le Contract
Reference 43 n’effectue pas le service A. À l’aide de cette représentation,
nous pouvons étudier les caractéristiques des individus pour n’importe quel
secteur et année.

5.4 Valeurs manquantes


Les données de notre projet comportent différentes proportions de valeurs
manquantes pour diverses raisons techniques. Quelle que soit la méthode
d’analyse employée, les données manquantes posent un problème sérieux car
toutes ces méthodes nécessitent des données complètes. Il existe diverses
solutions plus ou moins élaborées à ce problème telles que, par exemple :
remplacer les données manquantes par des zéros, par les moyennes (ou la
médiane) sur les individus ou sur les variables, ou par l’estimation des k
plus proches voisins,. . .Dans notre projet nous proposons de résoudre le pro-
blème des valeurs manquantes par l’utilisation d’une méthode d’estimation
(ou d’imputation) basée sur le principe de l’algorithme des Centres Mobiles
(CM) décrit dans le chapitre 3.

5.4.1 Sélection des individus et des variables


D’après les représentations des caractéristiques des individus, on peut voir
que le pourcentage de valeurs manquantes varie d’un individu à un autre et
d’un secteur à un autre.

43
Fig. 5.3 – Pourcentage des valeurs manquantes pour les individus du domaine
A, pour l’année 2004.

Fig. 5.4 – Pourcentage des valeurs manquantes pour les individus du domaine
A, pour l’année 2004.

44
Notons qu’une valeur négative dénote les individus qui ne traitent pas ce
secteur. Les figures 5.3 et 5.4 montrent bien la variation des pourcentages de
valeurs manquantes d’un individu à un autre, par exemple : alors que 20 %
des valeurs sont manquantes pour l’individu de Contract reference numéro
10, 60 % de valeurs sont manquantes pour l’individu 82 et 70 % des valeurs
sont manquantes pour l’individu 110.

En effectuant notre étude sur tous les secteurs et toutes les années, nous
pensons qu’il n’est pas pertinent de reconstituer les valeurs des indicateurs
pour les individus dont plus que 30 % des valeurs sont manquantes dans
un secteur donné. Il n’est pas non plus pertinent d’exploiter des variables
(indicateurs) dont plus de 50% des valeurs sont manquantes (approche heu-
ristique).

5.4.2 Nouvelle représentation des données


Après l’étude des caractéristiques des individus dans un domaine ainsi
que l’étude du nombre de valeurs manquantes par individus et par secteur,
nous avons choisi de reconstituer les valeurs manquantes en dressant huit
nouveaux tableaux de données. Chaque tableau concerne un secteur et non
pas une année et les données concernant chaque secteur (dans la période de
4 ans) seront stockées les unes au dessous des autres dans le tableau.

Après élimination des individus dont plus que 30 % des valeurs sont man-
quantes dans un secteur donné, des variables (indicateurs) dont plus de 50%
des valeurs sont manquantes (comme indiqué au § 5.4.1) et des individus qui
ne travaillent pas sur un secteur donné, nous obtenons huit tableaux, dont
les caractéristiques sont résumées dans le tableau 5.2 :

Tableau de données du secteur individus× indicateurs


A 185× 30
B 171× 27
C 125× 24
D 111×25
E 127× 47
F 218×8
G 232× 21
H 143× 19

Tab. 5.2 – Nouvelle représentation des données.

45
On peut remarquer qu’on ne perd que très peu d’indicateurs après l’éli-
mination des indicateurs, dont plus que 50 % des valeurs sont manquantes
pour un secteur donné, alors que nous avons perdu un assez grand nombre
d’individus par secteur après l’élimination des individus dont plus de 30% des
valeurs sont manquantes. Nous utilisons ces nouveaux tableaux dans la suite
de notre projet et nous essayons d’estimer les valeurs manquantes séparément
pour chaque secteur.

5.4.3 Transformation et normalisation des données


Centrage : les données sont présentées sous la forme d’une matrice
individus × variables. Il est habituel de centrer les colonnes. Chaque va-
riable est translatée de la valeur de sa moyenne empirique qui devient donc
nulle.

Normalisation (réduction) de la variance : la variance de chaque


variable est ramené à 1.

La combinaison de ces deux opérations est appelée normalisation z-scores.


L’importance de cette normalisation réside dans le fait qu’elle réduit l’impor-
tance de la dispersion des données pour de faibles intensités et qu’elle permet
de travailler avec des attributs sans unités, ce qui permet de les comparer
entre eux.

5.4.4 Algorithme de centres mobiles pour l’imputation


des valeurs manquantes
Le but est ici de résumer l’ensemble de n points dont nous disposons
par un autre ensemble de k prototypes (k < n) de même dimension. Cette
méthode de compression de donnée est connue sous le nom de « quantifi-
cation vectorielle ». Chaque point sera alors représenté par le prototype le
plus proche. Nous utiliserons l’algorithme des CM (cf. chapitre 3) légèrement
modifié afin de permettre la gestion des valeurs manquantes.
L’algorithme de CM sera utilisé comme suit :
– Indiquer le nombre de groupes a priori. Ce nombre est choisi de manière
heuristique de manière à obtenir un nombre de points raisonnable dans
chaque groupe.
– Choisir k individus qui forment les prototypes (centres) initiaux des k
classes. Les k centres initiaux seront générés arbitrairement de manière
uniforme afin qu’ils ne contiennent pas de valeurs manquantes.

46
– Tant qu’il n’y a pas convergence (c’est-à-dire stabilisation des centres) :
1. Construction de la partition suivante en affectant chaque individu
à la classe du centre de laquelle il est le plus proche au sens de
la distance euclidienne calculée à partir des composantes connues
du vecteur des attributs , et des composantes correspondantes du
vecteur centre.
2. Les centres de gravité des nouvelles partitions deviennent les nou-
veaux centres.
En fin de la procédure, chaque valeur manquante sera rempla-
cée par sa correspondante du vecteur centre le plus proche.

5.5 Evolution des filiales par année


Il pourrait être utile d’examiner l’évolution des données en fonction du
temps, ce qui peut donner une idée du comportement des filiales. Une mé-
thode de représentation des données au cours du temps est donc mise à dis-
position à titre indicatif. Nous prenons comme exemple l’indicateur QA01 du
secteur A (voir figure 5.5). En abcisse nous avons l’axe du temps, en ordonnée
les valeurs des indicateurs et à la droite de chaque figure, nous représentons
les Contract Reference des filiales correspondantes.

47
Fig. 5.5 – Evolution des filiales en fonction des années pour un indicateur
donné.

5.6 Valeurs atypiques


Les observations atypiques parfois non représentatives ou aberrantes peuvent
être considérées comme une source de contamination, déformant l’informa-
tion obtenue à partir des données brutes. Il est donc important de rechercher
des moyens d’interpréter ou de caractériser ces valeurs atypiques afin de les
traiter, soit en étudiant leur influence sur le jeu de données, soit en recher-
chant une interprétation particulière du caractère atypique de chacune.

48
D’après [3] , Grubbs (1969) définit une valeur aberrante comme étant une
observation qui semble dévier de façon marquée par rapport à l’ensemble des
autres membres de l’échantillon dans le quel il apparaı̂t, et Barnett et Le-
wis (1994) définissent une valeur aberrante comme étant une observation (ou
un ensemble d’observations) qui semble être inconsistante avec le reste des
données, autement dit, il y a une valeur aberrante lorsque l’une ou l’autre ob-
servation d’un ensemble de données, détonne ou n’est pas en harmonie avec
les autres observations [3]. Dans le cas univarié, de nombreuses méthodes
graphiques permettent de signaler la présence de valeurs aberrantes : dia-
gramme de dispersion, boı̂tes à moustaches,. . .

Du fait de la grande complexité du cas multivarié, de nombreuses mé-


thodes dites informelles pour la détection et le traitement des valeurs aber-
rantes sont apparues. La plupart d’entres elles reprennent principalement des
méthodes graphiques. La méthode que nous avons choisie se base sur la tech-
nique de l’ACP (voir chapitre IV). D’après [3] , la construction de diagrammes
de dispersion des premières ou des dernières composantes principales permet
de mettre en évidence les valeurs aberrantes de manière graphique. En effet,
on peut remarquer que la première composante principale est très sensible
aux valeurs aberrantes qui augmentent les variances et les covariances.
Par exemple, pour le secteur A, on peut considérer d’après la figure 5.6 les
individus portant les références 68, 49, 28 et 31 comme des données atypiques.

49
Fig. 5.6 – Représentation des données atypiques.

En procédant comme indiqué précédemment pour tous les secteurs nous


obtenons la liste des individus atypiques pour chaque secteur résumée dans
le tableau 5.3. D’après les experts de l’entreprise, la plupart des individus
(ou filiales) atypiques correspondent à des pays de grande population, ce qui
constitue une première explication de leur spécificité.

50
Secteur Individus atypiques
A 68, 31, 49,28
B 68, 31,49
C 31, 49, 78, 28,10
D 68, 49,48
E 49,31, 34,78
F 68, 63,10,44,78
G 68, 49, 31, 10, 78,85
H 28, 49,68

Tab. 5.3 – Valeurs atypiques des individus dans chaque secteur.

5.7 Conclusion
Dans ce chapitre nous avons effectué la phase de prétraitement de notre
base de donnée, qui est une phase importante pour la suite dans l’analyse.
Nous avons étudié les caractéristiques des individus puis nous avons abordé
les problèmes des valeurs manquantes et atypiques.

51
Chapitre 6
Analyse des données par ACP

6.1 Introduction
L’objectif de l’étude effectué dans ce chapitre est de résumer les variables
initiales (indicateurs) à l’aide d’un petit nombre de variables synthétiques
afin de simplifier la représentation des données.

L’ACP présentée au chapitre 2 permet d’étudier les corrélations entre


variables et entre individus. Elle permet d’établir des groupes des groupes
d’individus (ou des variables) ayant des caractéristiques similaires.
Dans ce chapitre, nous présentons l’étude des données des secteurs A et B,
et l’étude des autres secteurs sera présentée en annexe.

6.2 Méthodologie de l’analyse effectuée


La méthodologie de l’analyse que nous avons effectuée sur les données
concernant un secteur est la suivante :
– Retirer les observations atypiques. En effet, les valeurs atypiques dé-
tectés dans chaque secteur pourraient avoir une influence excessive sur
l’orientation d’un ou de plusieurs axes. Pour cette raison, nous les re-
tirons dans un premier temps et nous les positionnons ensuite sur les
axes factoriels en tant qu’individus supplémentaires.
– Nous effectuerons ensuite une ACP sur les données de chaque secteur
séparément. Nous effectuerons une synthèse numérique des variables à
l’aide de leurs représentation graphiques sur les axes principaux, puis
nous mettrons en valeur certaines filiales et formerons des groupements
caractéristiques des variables.

52
6.3 Analyse des données du secteur A (Wa-
ter Production)
L’étude des valeurs propres représentée sur la figure 6.1 montre que nous
pouvons restreindre notre étude aux 2 premiers axes. Nous étudions l’axe 3
en plus pour améliorer la représentation des données et parce qu’il est bien
expliqué par certains indicateurs. Le pourcentage d’inertie cumulée expliquée
par ces axes est de 45.5%.

Fig. 6.1 – Pourcentage expliqué par les valeurs propres.

Dans le cas de l’ACP normée, l’examen des projections des variables sur
les axes factoriels permet de connaı̂tre directement le rôle de ces dernières
dans l’orientation des axes factoriels et la qualité de leur représentation par
les différents axes.
Une première projection sur les 2 premiers axes factoriels représentés sur la
figure 6.2 montre que les variables QA01, QA06, QA13, QA14, QA09, QA03,

53
QA10, et QA04 contribuent à l’axe 1, puisqu’elles sont proches du cercle
unité. Nous pouvons confirmer ces contributions par l’étude des corrélations
des variables avec les axes (tableau 6.1).
Ce tableau montre aussi que peu de variables contribuent fortement à l’axe
2. En effet seuls les indicateurs QA05 et QA12 ont une corrélation (-0.612
et -0.67) importante avec cet axe (valeur absolue  0.5). Nous remarquons
suivant cet axe une anti-corrélation entre les indicateurs QA20, QA11 d’une
part et les indicateurs QA05, QA12, et QA03 d’autre part.

Axe 1 Axe 2 Axe 3


QA01 0,86 -0,1 0,065
QA02 0,58 0,3 -0,48
QA03 0,65 -0,53 -0,22
QA04 0,7 -0,09 -0,4
QA05 0,32 -0,61 -0,16
QA06 0,84 -0,02 0,35
QA07 0,53 -0,13 -0,22
QA08 0,41 -0,21 -0,07
QA09 0,78 0,41 0,37
QA10 0,68 0,21 0,65
QA11 0,38 0,52 -0,65
QA12 0,48 -0,64 -0,15
QA13 0,77 0,23 0,32
QA14 0,86 0,2 0,3
QA15 0,42 0,43 -0,17
QA16 0,21 0,42 -0,38
QA17 0,54 -0,002 -0,12
QA18 -0,12 0,07 -0,18
QA19 0,01 0,07 0,064
QA20 0,31 0,5 -0,67
QA26 0,32 -0,09 0,26
QA30 0,23 0,10 0,22
QA31 0,19 0,26 0,10
QA32 0,38 -0,44 -0,13
QA33 0,39 -0,44 -0,1
QA34 -0,03 0,005 0,02
QA35 0,07 -0,08 0,06
QA36 0,32 0,1 0,29
QA37 -0,01 0,01 0,093
QA38 0,40 -0,41 -0,3

Tab. 6.1 – Corrélation des variables avec les facteurs.

54
Fig. 6.2 – Projection des variables dans le premier plan factoriel.

55
Fig. 6.3 – Projection des individus dans le premier plan factoriel

Après cette caractérisation des axes par les variables, nous présentons la
projection des individus (figure 6.3) dans le premier plan factoriel en fonction
de leur contribution au plan (Les points-individus seront colorés en fonction
de l’année correspondante). Malheureusement, la densité des points ne per-
met pas de visualiser tous les noms. Pour chaque axe, on s’intéresse aux indi-
vidus dont les projections se situent aux extrémités des projections du nuage.

Cette figure montre que les filiales dont les Contract Reference portent
les numéros : 34, 68, 31, 21, et 64 sont caractérisés par les indicateurs QA01,
QA06, QA13, QA14, QA09, QA03, QA10, et QA04 correspondant au pre-
mier axe principal. De plus nous remarquons que les filiales 34, 10, et 85 sont
caractérisées par les indicateurs QA05, QA12 et non pas par les indicateurs
QA20 et QA11, et inversement pour les filiales 68,35, et 44.

L’étude du plan constitué des axes 1 et 3 n’apportant pas d’information


supplémentaire par rapport au plan constitué des axes 2 et 3, nous nous

56
limitons à l’étude de ce dernier.

Fig. 6.4 – Projection des variables dans le plan constitué des axes 2 et 3.

57
Fig. 6.5 – Projection des individus dans dans le plan constitué des axes 2 et
3.

La figure 6.4 ne fait pas apparaı̂tre des variables qui contribuent forte-
ment à l’axe 3. En effet seuls les indicateurs QA10, QA11, QA20 ont une
corrélation forte avec cet axe (0.654, -0.656 et -0.67). Nous remarquons une
anti-corrélation suivant cet axe entre ces indicateurs.
Sur la figure 6.5 nous remarquons que la filiale 35 est plutôt caractérisée par
les indicateurs QA20 et QA11 mais non pas par l’indicateur QA10, alors que
les filiales 68 et 21 sont caractérisées par l’indicateur QA10 et non pas par
les indicateurs QA20 et QA11.

6.4 Analyse des données du secteur B (Wa-


ter Distribution)
L’étude des valeurs propres représentée sur la figure 6.6 montre que nous
pouvons restreindre notre étude aux 3 premiers axes. Le pourcentage d’inertie

58
cumulée expliqué par ces axes est de 60.6%.

Fig. 6.6 – Pourcentage expliqué par les valeurs propres.

Une première projection sur les 2 premiers axes factoriels représentée sur
la figure 6.7 montre que les variables QB01, QB02, QB03, QB04, QB05,
QB08, QB09, QB10, QB11, QB13, QB17, QB19, QB21, QB21, QB25, et
QB26 contribuent fortement à l’axe 1, puisqu’elles sont proches du cercle
unité. Nous pouvons confirmer ces contributions par l’étude des corrélations
des variables avec les axes (tableau 6.2).

Ce tableau montre que peu de variables contribuent fortement à l’axe 2,


en effet seuls les indicateurs QB04 et QB23 ont une corrélation (0.579 et
0.548) forte avec cet axe.

59
Axe 1 Axe 2 Axe 3
QB01 0,91 -0,34 0,0009
QB02 0,87 -0,35 -0,009
QB03 0,82 0,14 0,02
QB04 0,72 0,58 -0,16
QB05 0,72 0,44 -0,16
QB06 0,51 0,49 -0,4
QB07 0,55 0,57 -0,14
QB08 0,89 -0,34 0,07
QB09 0,9 -0,3 0,07
QB10 0,88 -0,23 0,037
QB11 0,78 -0,145 -0,056
QB12 0,61 0,17 0,26
QB13 0,91 -0,21 0,18
QB14 0,53 -0,12 -0,09
QB15 0,023 0,13 0,1
QB16 0,53 -0,29 -0,05
QB17 0,8 -0,5 0,13
QB18 0,07 0,12 0,07
QB19 0,78 0,27 -0,26
QB20 0,054 -0,056 0,37
QB21 0,68 0,16 -0,106
QB22 0,302 0,33 0,81
QB23 0,212 0,54 0,7
QB24 -0,028 -0,047 -0,036
QB25 0,71 0,327 -0,16
QB26 0,73 0,01 -0,064
QB27 0,31 0,01 0,17

Tab. 6.2 – Corrélation des variables avec les facteurs.

60

Fig. 6.7 – Projection des variables dans le premier plan factoriel.


Fig. 6.8 – Projection des individus dans le premier plan factoriel.

Après cette carctérisation des axes par les variables, nous présentons la
projection des individus (figure 6.8) dans le premier plan factoriel en fonc-
tion de leur contribution au plan. Cette figure montre que les filiales dont
les ”Contract Reference” sont : 78, 28, 34, 35, et 68 sont caractérisés par les
indicateurs QB01, QB02, QB03, QB04, QB05, QB08, QB09, QB10, QB11,
QB13, QB17, QB19, QB21, QB21, QB25, QB26 correspondant à l’axe 1. De
plus, nous remarquons que les filiales 68, 31, 34 sont caractérisées par les
idicateurs QB04 et QB23, et non pas par l’indicateur QB17.

L’étude du plan constitué des axes 2 et 3 n’apportant pas d’information


supplémentaire par rapport au plan constitué des axes 1 et 3, nous nous
limiterons à l’étude de ce dernier.

61
Fig. 6.9 – Projection des variables dans le plan constitué des axes 1 et 3.

62
Fig. 6.10 – Projection des individus dans dans le plan constitué des axes 1
et 3.

La figure 6.9 montre que les variables QB22 et QB23 contribuent à l’axe
3. En effet elles ont une correlation (0.81 et 0.709 respectivement). Sur la
figure 6.10, nous remarquons que les filiales 65, 18, 31, 68 sont caractérisées
par les indicateurs QB22 et QB23.

6.5 Conclusion
Dans ce chapitre, nous avons appliqué la technique d’ACP sur les jeux des
données des secteurs A et B afin de montrer les caractéristiques de certaines
filiales. Nous avons utilisé des tableaux de corrélation ainsi que des graphes
pour avoir une meilleur interprétation.

63
Chapitre 7
Classification automatique des
indicateurs

7.1 Introduction
Le premier objectif de notre étude est de fournir une typologie (ou seg-
mentation) des indicateurs, c’est-à-dire de définir des classes d’indicateurs
vis-à-vis du domaine « eau potable et eau usée ». Les algorithmes de classi-
fication étudiés dans les chapitres 3 et 4 précédents sont bien adaptés à des
variables quantitatives (les indicateurs dans notre cas) ou à des matrices de
distances. Dans ce chapitre, nous effectuons une classification des indicateurs
de chaque secteur pris séparément, et nous interprétons les résultats obtenus.

Les différents algorithmes présentés ont des caractéristiques complémen-


taires. La méthode d’agrégation autour des centres mobiles offre des avan-
tages incontestables puisqu’elle permet d’obtenir des partitions à faible coût,
mais elle présente l’inconvénient de produire des partitions dépendant des
premiers centres choisis et celui de fixer le nombre de classes a priori. Au
contraire, la classification hiérarchique est une famille d’algorithmes que l’on
peut qualifier de « déterministes » (qui donnent toujours les mêmes résultats
à partir des mêmes données). De plus, ces algorithmes donnent des indica-
tions sur le nombre de classes à retenir, c’est-à-dire sur le nombre de groupes
existants intrinsèquement dans les données, ce qui est très important.

64
7.2 Méthodologie de classification des indica-
teurs
7.2.1 Création de table de proximité
On appelle « tableau de proximité » une matrice carrée de nombres me-
surant la similarité ou la dissimilarité entre les éléments d’un ensemble pris
deux à deux. Comme nous nous intéressons aux indicateurs qui sont des
variables, nous utilisons comme indice de dissimilarité la distance entre va-
riables d = 1 − r2 où r est le coefficient de corrélation linéaire de Pearson.
Une fois la table crée, nous l’utilisons en entrée dans les méthodes ACP et
centres mobiles, en lieu et place de la matrice de données.

7.2.2 Classification à partir des facteurs


L’ACP est utilisée comme une étape préalable à la classification pour
deux raisons : ses pouvoirs de description et de filtrage. Nous effectuons une
classification automatique des indicateurs sur les premiers axes principaux
seulement. Le fait d’abandonner les derniers axes principaux revient à effec-
tuer une sorte de lissage des données, ce qui en général améliore la partition
en produisant des classes plus homogènes. Les distances entre les points sont
calculées dans l’espace des premiers axes principaux avec la distance eucli-
dienne usuelle.

7.2.3 Méthode de ré-étiquetage des classes pour la for-


mation des formes fortes
En passant d’une exécution à autre de l’algorithme des CM, il arrive
souvent que l’algorithme numérote i la classe qui était numérotée j par l’exé-
cution précédente. Comment faire pour comparer les classes obtenues afin de
réaliser les formes fortes ? Nous allons établir un algorithme permettant de ré-
étiqueter les classes de façon à rendre comparables les groupements obtenus.
La méthodologie sera la suivante : nous associons chacun des centres Cj ob-
tenus par une exécution au centre Ci obtenu par l’exécution précédente dont
il est le plus proche au sens de la distance euclidienne. On ré-étiquette tous
les vecteurs de la classe associée au centre Cj avec des étiquettes identiques
à celles de la classe associée au centre Ci .

65
7.2.4 Stratégie de classification des indicateurs par sec-
teur
La méthodologie que nous avons appliquée pour la classification des indi-
cateurs par secteur est la suivante :
– Détermination de la table de proximité basée sur la distance de Pearson
entre les indicateurs étudiées concernant un secteur ;
– Application de l’ACP à la table de proximité ;
– Application de la classification hiérarchique en prenant en compte les
premiers axes principaux du tableau de proximité. Cette méthode donne
une indication visuelle du nombre de classes ;
– Application de l’algorithme des centres mobiles en prenant en compte
les premiers axes principaux du tableau de proximité. Nous détermi-
nons les formes fortes qui sont obtenues par superposition ou intersec-
tion des différentes classes. Dans ce but, nous proposons comme heuris-
tique d’exécuter l’algorithme des CM plusieurs fois. Les objets qui sont
groupés dans la même classe plus de 80 % du temps sont considérés
comme appartenant aux formes fortes. Pour classer les autres objets
nous utilisons deux méthodes, une nette et l’autre floue :
1. Méthodologie 1 : une fois que nous avons déterminé les formes
fortes, nous prenant leurs centres de gravités pour centres initiaux
et nous réappliquons l’algorithme CM .
2. Méthodologie 2 : nous apliquons l’algorithme des CM flous sur
les objets en tenant compte les premiers axes principaux du ta-
bleau de proximité. Nous nous intéressons à montrer les degrés
d’appartenance à chaque classe des objets qui n’ont pas participé
à la création des formes fortes déjà trouvées. En fait, nous avons
exécuté l’algorithme CM flou plusieurs fois et nous utilisons les
degrés d’appartenance moyennes des objets à chacune des formes
fortes. Les objets sont ensuite classés selon la règle de maximum
d’appartenance.
Nous rappelons qu’il est conseillé d’appliquer l’algorithme des CM
flous s’il existe des « ponts » entre les classes, c’est-à-dire des
points dont l’appartenance à une classe ou une autre est ambigüe.
– Enfin, nous appliquons l’algorithme de Kohonen comme étant une tech-
nique supplémentaire de classification. Le grand avantage de cette tech-
nique est qu’elle permet l’étude des relations non-linéaires entre les don-
nées.

66
Dans ce chapitre, nous illustrons la classification sur les secteurs A et C. Les
résultats obtenus pour les autres secteurs seront présentés dans les annexes
F, G et H.

7.2.5 Signe de relation entre les indicateurs


Le coefficient de corrélation de Pearson r que nous avons utilisé afin de
construire le tableau de distance entre les indicateurs, représente le degré de
relation entre deux variables et prend une valeur comprise entre -1 et +1. La
valeur absolue du coefficient de corrélation indique l’importance de la rela-
tion entre les variables, tandis que le signe de la relation (+ ou -) désigne le
sens de cette relation.

La distance de Pearson 1 − r2 calculée ne fait pas apparaı̂tre le sens de


relation entre les variables, et la typologie trouvée à partir de la classification
ne montre que les indicateurs qui sont en relation linéaires. Afin de caracté-
riser le sens de cette relation, il est utile de représenter en tableau les signes
des coefficients de corrélation.

7.3 Classification des indicateurs du secteur


A
L’application de la méthode hiérarchique avec le critère d’agrégation de
Ward donne le dendrogramme présenté sur la figure 7.1.

67
Fig. 7.1 – Classification hierarchique appliquée aux indicateurs du secteur
A.

Au vu de ce graphique nous choisissons un nombre de groupes égal à trois.


En effet, il semble qu’en coupant l’arbre à ce niveau, on crée trois groupes
à l’intérieur desquels le critère de Ward prend des valeurs homogènes. En
appliquant l’algorithme CM net, nous obtenons les 3 classes représentées sur
la figure 7.2.

68
Fig. 7.2 – Application de l’algorithme CM net sur les indicateurs du secteur
A.

Les objets représentés par des cercles représentent les centres des formes
fortes.
Nous remarquons que tous les objets (variables) participent à la création de
ces formes stables. Les éléments de ces trois classes sont présentés dans le
tableau 7.1.

Classe 1 QA01, QA06, QA09, QA10, QA13, QA14, QA15


Classe 2 QA02, QA03, QA04, QA05, QA07, QA08, QA12, QA16, QA17,
QA18, QA20
Classe 3 QA11, QA19, QA26, QA30, QA31, QA32, QA33, QA34, QA35, QA36
QA37, QA38

Tab. 7.1 – Formes stables des indicateurs du secteur A.

69
La figure 7.3 montre les micro-classes (ou classes de Kohonen, cf. chapitre
4) obtenues en appliquant l’algorithme de Kohonen sur une grille rectangu-
laire de taille 3×4 et pour 6000 itérations.

Fig. 7.3 – Les classes de Kohonen, regroupées en 3 macro-classes, après 60000


itérations.

La CAH appliquée sur les vecteurs codes est représentée sur la figure 7.5.

70
Fig. 7.4 – Classification hiérarchique appliquée sur les vecteurs codes de la
classification de Kohonen présentée en figure 7.3.

En coupant le graphe par une ligne horizontale comme indiqué sur la


figure 7.4, on définit trois macro-classes. Ces macro-classes sont à peu près
identiques à celles que l’on a obtenu en appliquant l’algorithme CM net. Une
séparation linéaire entre les trois classes est ainsi mise en évidence (cf. figure
7.5).

71
Fig. 7.5 – Séparation linéaire des indicateurs du secteur A.

Afin de mieux comprendre le sens de relations linéaires entre les indi-


cateurs et surtout les indicateurs d’une même classe, nous représentons les
tableaux 7.2, 7.3.

72
QA01 QA02 QA03 QA04 QA05 QA06 QA07 QA08 QA09 QA10 QA11 QA12 QA13 QA14 QA15

secteur A.
QA01 + + + + + + + + + + + + + + +
QA02 + + + + + + + + + + + + + + +
QA03 + + + + + + + + + + + + + + +
QA04 + + + + + + + + + + + + + + +
QA05 + + + + + + + + + + - + + + +
QA06 + + + + + + + + + + + + + + +
QA07 + + + + + + + + + + + + + + +
QA08 + + + + + + + + + + + + + + +
QA09 + + + + + + + + + + + + + + +
QA10 + + + + + + + + + + + + + + +
QA11 + + + + - + + + + + + - + + +
QA12 + + + + + + + + + + - + + + +
QA13 + + + + + + + + + + + + + + +
QA14 + + + + + + + + + + + + + + +

Tab. 7.2 – Signe de relation linéaire


QA15 + + + + + + + + + + + + + + +
QA16 + + + + + - + + + + + + + + +
QA17 + + + + + + + + + + + + + + +
QA18 + + + + + + + + + + + + + + +
QA19 + + + + - + + + + + + - + + +
QA20 + + + + + + + + + + + + + + +
QA26 + + + + + + + + + + + + + + -
QA30 + + - - - + + - + + - - + + +
QA31 + + - - - + + - + + + - + + +
QA32 + + + + + + + + - - - + + + -
QA33 + + + + + + + + - - - + + + -
QA34 - - - - - - - - - - - - - - -
QA35 + - + + - + + + + + - - + + +
QA36 + + + + - + + - + + + - + + +
QA37 - - - - - + - - + + - - - - +
QA38 + + + + + + + + - - + + - + -

73 de Pearson entre les indicateurs du


QA16 QA17 QA18 QA19 QA20 QA26 QA30 QA31 QA32 QA33 QA34 QA35 QA36 QA37 QA38

secteur A.
QA01 + + + + + + + + + + - + + - +
QA02 + + + + + + + + + + - - + - +
QA03 + + + + + + - - + + - + + - +
QA04 + + + + + + - - + + - + + - +
QA05 + + + - + + - - + + - - - - +
QA06 - + + + + + + + + + - + + + +
QA07 + + + + + + + + + + - + + - +
QA08 + + + + + + - - + + - + - - +
QA09 + + + + + + + + - - - + + + -
QA10 + + + + + + + + - - - + + + -
QA11 + + + + + + - + - - - - + - +
QA12 + + + - + + - - + + - - - - +
QA13 + + + + + + + + + + - + + - -
QA14 + + + + + + + + + + - + + - +

Tab. 7.3 – Signe de relation linéaire


QA15 + + + + + - + + - - - + + + -
QA16 + + + - + + + + - - - - - - -
QA17 + + + + + + + + + + - + + - +
QA18 + + + + + + - - - - - - - - -
QA19 - + + + + + + + - - - - + - -
QA20 + + + + + + - + - - - - + - -
QA26 + + + + + + - - + + - - - + +
QA30 + + - + - - + + + + - + + + +
QA31 + + - + + - + + - - - + + + -
QA32 - + - - - + + - + + - + + - +
QA33 - + - - - + + - + + - - + + +
QA34 - - - - - - - - - - + - - - -
QA35 - + - - - - + + + - - + + + -
QA36 - + - + + - + + + + - + + + +
QA37 - - - - - + + + - + - + + + -
QA38 - + - - - + + - + + - - + - +

74 de Pearson entre les indicateurs du


Par exemple, nous pouvons dire que pour la classe 1, tous les indicateurs
sont corrélés positivement alors que pour la classe 3 nous pouvons dire que
les filiales qui sont fortes en QA36 sont aussi fortes en QA38 mais faibles en
QA37.

7.4 Classification des indicateurs du secteur


C
L’application de la méthode hiérarchique avec le critère d’agrégation de
Ward donne le dendrogramme représenté sur la figure 7.6.

Fig. 7.6 – Classification hierarchique appliquée aux indicateurs du secteur


C.

Au vu de ce graphique nous choisissons de prendre un nombre de groupes


égal à trois. En appliquant l’algorithme CM net, nous obtenons les 3 classes
représentées sur la figure 7.7.

75
Fig. 7.7 – Application de l’algorithme CM net sur des indicateurs du secteur
C.

Les objets représentés par des carrés sont les objets qui n’ont pas participé
à la création des formes stables, mais qui ont été classés selon la méthodologie
1. Les éléments de ces trois formes stables obtenues sont présentés dans le
tableau 7.4.

Classe 1 QC07, QC12, QC15, QC17, QC19, QC21, QC22, QC23, QC24
Classe 2 QC01, QC02, QC03, QC08, QC11, QC14, QC16
Classe 3 QC04, QC06, QC18, QC20

Tab. 7.4 – Formes stables des indicateurs du secteur C.

.
Nous appliquons maintenant l’algorithme des CM floues pour trouver les
degrés d’appartenance de ces objets aux formes stables. La figure 7.8 montre
les 3 classes floues.

76
Fig. 7.8 – Application de l’algorithme CM flou sur les indicateurs du secteur
C.

Ces degrés d’appartenances sont présentés dans le tableau 7.5.

Indicateurs Classe 1 Classe 2 Classe3


QC05 0.062 0.15 0.7879
QC09 0.0686 0.2091 0.7224
QC10 0.096 0.2892 0.6203
QC13 0.1907 0.2081 0.6012

Tab. 7.5 – Degrés d’apppartenance moyens des indicateurs aux formes


stables.

On peut dire par exemple que la proposition « l’indicateur QC05 appartient


à la classe 1 » est vraie à 78.79 %, alors que la proposition « l’indicateur
QC05 appartient à la classe 3 » est vraie à 15%.

77
La figure 7.9 montre les micro-classes obtenues en appliquant l’algo-
ritthme de Kohonen sur une grille rectangulaire de taille 3×4 et pour 6000
itérations.

Fig. 7.9 – Les classes de Kohonen, regroupées en 3 macro-classes, après 60000


itérations.

La CAH appliquée sur les vecteurs codes est représentée sur la figure 7.10.

78
Fig. 7.10 – Classification hiérarchique appliquée sur les vecteurs codes.

Pour comprendre le sens de relations existantes entre les indicateurs du


secteur C, nous présentons les tableaux 7.6 et 7.7.

79
secteur C.
QC01 QC02 QC03 QC04 QC05 QC06 QC07 QC08 QC09 QC10 QC11 QC12
QC01 + + + + + + + + + + + +
QC02 + + + + + + + + + + + +
QC03 + + + + + + + + + + + +
QC04 + + + + + + + + + + + +
QC05 + + + + + + + + + + + +
QC06 + + + + + + + + + + + +
QC07 + + + + + + + + + + + +
QC08 + + + + + + + + + + + +
QC09 + + + + + + + + + + + +
QC10 + + + + + + + + + + + +
QC11 + + + + + + + + + + + +
QC12 + + + + + + + + + + + +

80
QC13 + + + + + + + + + + + +
QC14 + + + + + + + + + + + +
QC15 - - - - - + + - - + - -
QC16 + + + + + + + + + + + +
QC17 - - - - + + - - + - + +
QC18 + + + + + + + + + + + +
QC19 + + - - - + - - + + + -
QC20 + + + + + + + + + + + +
QC21 + + + + + + - + + + + +
QC22 + + + + + + - + + + + -
QC23 + + + + + + - + + + - -
QC24 - - - - - - + - - - - -

Tab. 7.6 – Signe de relation linéaire de Pearson entre les indicateurs du


secteur C.
QC13 QC14 QC15 QC16 QC17 QC18 QC19 QC20 QC21 QC22 QC23 QC24
QC01 + + - + - + + + + + + -
QC02 + + - + - + + + + + + -
QC03 + + - + - + - + + + + -
QC04 + + - + - + - + + + + -
QC05 + + - + + + - + + + + -
QC06 + + + + + + + + + + + -
QC07 + + + + - + - + - - - +
QC08 + + - + - + - + + + + -
QC09 + + - + + + + + + + + -
QC10 + + + + - + + + + + + -
QC11 + + - + + + + + + + - -
QC12 + + - + + + - + + - - -

81
QC13 + + - + - + + + + + + -
QC14 + + - + - + + + + + + -
QC15 - - + + - + - + + - - +
QC16 + + + + - + + + + + + -
QC17 - - - - + + - + + + - -
QC18 + + + + + + + + - + + -
QC19 + + - + - + + + - - + -
QC20 + + + + + + + + - + + -
QC21 + + + + + - - - + + - -
QC22 + + - + + + - + + + + -
QC23 + + - + - + + + - + + -
QC24 - - + - - - - - - - - +

Tab. 7.7 – Signe de relation linéaire de Pearson entre les indicateurs du


7.5 Conclusion
Dans ce chapitre, nous avons effectué la classification automatique sur les
indicateurs relatifs à un secteur, dans le but de voir quels sont les indicateurs
qui se ressemblent le plus. Nous nous sommes basés sur une table de proxi-
mité entre les indicateurs calculée à partir de la distance de Pearson entre les
variables (indicateurs). Enfin, nous avons appliqué la classification de Koho-
nen comme étant une technique supplémentaire de classification. Nous avons
présenté les résultats obtenus sur les secteurs A et C. Les résultats obtenus
sur les autres secteurs sont présentés dans les annexes F, G et H.

82
Chapitre 8
Segmentation des filiales par secteur

8.1 Introduction
Le but de ce chapitre est de regrouper les filiales qui ont des caractéris-
tiques similaires pour un secteur donné en se basant sur la base de données
filiales/indicateurs, et ce pour chaque secteur. Ce procédé est appelé segmen-
tation (ou classification automatique) en statistique.
Afin de réaliser cette segmentation, il est possible d’appliquer toutes les mé-
thodes décrites dans le chapitre trois et qui ont été développées en détail au
chapitre sept.

Nous nous contenterons ici de présenter quelques résultats significatifs


pour ce nouveau cas d’étude. Les résultats présentés sont basés sur les cartes
de Kohonen.

8.2 Création du tableau des données


Les tableaux A à E que nous avons générés au chapitre 5 comportent des
redondances parce qu’ils comprennent, pour chaque filiale, les données corres-
pondant aux années 2001, 2002, 2003 et 2004. Comment faire pour classifier
les filiales ?

Dans chaque secteur, nous ne considérerons que les filiales qui ont répondu
au questionnaire pour les 4 années (exception faite de celles pour lesquelles
il nous manque trop de valeurs), et nous créerons de nouveaux tableaux (un
tableau par secteur) qui mettent en relation chaque filiale avec la médiane
des valeurs de chaque indicateurs pour les quatres années.

83
Les dimensions de ces tableaux sont résumées dans le tableau 8.2.

Secteur Format du tableau (individus× variables)


A 38× 30
B 37 × 27
C 25 × 24
D 19× 25
E 21 × 47

8.3 Segmentation des filiales du secteur A


La figure 8.1 montre les micro-classes obtenues en appliquant l’algorithme
de Kohonen sur une grille de taille 3×4, pour 6000 itérations et une typologie
rectangulaire du voisinage.

Fig. 8.1 – Les classes de kohonen, regroupées en 4 macro-classes, après 60000


itérations.

84
La CAH appliquée sur les vecteurs codes est représentée sur la figure 8.2.

Fig. 8.2 – Classification hiérarchique appliquée sur les vecteurs codes.

Nous remarquons que les macro-classes créent toujours des surfaces d’un
seul tenant sur la grille. Cette observation est intéressante car elle confirme
les propriétés topologiques des cartes de Kohonen. Pour rendre claire cette
classification à deux niveaux, nous associons à chaque macro-classe une cou-
leur différente (cf. figure 8.2).

8.4 Conclusion
Dans ce chapitre, nous avons expliqué la génération des nouveaux ta-
bleaux à partir desquels nous allons effectuer la segmentation des filiales.
Pour la segmentation, nous avons appliqué les cartes de Kohonen qui réa-
lisent une double tâche : classification ,c’est-à-dire regroupement des filiales
ayant des caractéristiques similaires, et projection, c’est-à-dire représenta-

85
tion de ces groupes sur un graphique en deux dimensions à partir d’un grand
nombre de variables.

86
Chapitre 9
Interprétation des résultats en termes
de métiers

9.1 Introduction
En général, les classes obtenues par classification automatique assurent
une vue concise et structurée des données ; des groupes inattendus appa-
raissent, des regroupements attendus n’existent pas.

Les experts à l’entreprise, M. Hervé BILLARD et Philippe JACQ, ont


essayé d’interpréter, en première intuition, les groupes obtenus. Selon eux,
il existe des groupes normaux, des faux groupes (non significatifs) et des
groupes imprévus. Ces derniers groupes leur paraissent importants, car ils
soulèvent des questions. En fait, ils considèrent que notre étude soulève au-
tant de questions qu’elle apporte de réponses. Tout d’abord, nous présentons
l’interprétation faite sur la classification des indicateurs, puis celle réalisée
sur la classifcation des filiales.

9.2 Interprétation de la typologie des indica-


teurs du secteur A
D’après le chapitre 7, nous avons distingué trois classes :
1. Classe 1 : elle met en relation la population, la demande journalière
d’eau, la quantité d’eau extraite, les produits chimiques utilisés et le
nombre des analyses microbiologiques à faire ;
2. Classe 2 : elle met en relation le nombre d’employé, le coût de la main

87
d’oeuvre et la consommation de l’énergie. Les indicateurs QA05 et
QA12 n’ont pas de relation directe avec cette classe ;
3. Classe 3 : les relations obtenues entre les indicateurs de cette classe
ne paraissent pas claires. Il semble que cette classe soit proche à la
première classe.

9.3 Interprétation de la typologie des indica-


teurs du secteur C
Les trois classes obtenues dans ce secteur (cf. chapitre 7) peuvent être
interprétées comme suit :
1. Classe 1 : elle met en relation l’existance des relations entre les indica-
teurs de la gestion du réseau « Collecte des eaux usées ». Il ne semble
pas pertinent de classer QC23 dans la même classe ;
2. Classe 2 : elle met en relation la population et le service demandé ;
3. Classe 3 : elle met en relation l’énergie demandée et le nombre de sta-
tions de pompages.

9.4 Interprétation de la typologie des indica-


teurs du secteur D
Nous avons distingué trois classes (cf. annexe G) :
1. Classe 1 : elle met en relation le volume annuel d’eau traité et la popu-
lation ;
2. Classe 2 : elle ne permet pas de dégager des relations claires malgré,
bien qu’elle semble cohérente dans la représentation graphique ;
3. Classe 3 : elle n’a pas d’interprétation claire pour les experts, de plus
elle est dispersée sur le graphique.

9.5 Interprétation de la typologie des indica-


teurs du secteur E
Les quatre classes obtenues dans ce secteur (cf. annexe H) peuvent être
interprétées comme suit :
1. Classe 1 : elle met en relation les indicateurs concernant le call center,
ou le service des clients ;

88
2. Classe 2 : elle met en relation la main d’oeuvre avec la réponse aux
besoins des clients ;
3. Classe 3 : elle met en relation les indicateurs concernant « le fonction
du département » ;
4. Classe 4 : elle met en relation les indicateurs concernant le comporte-
ment des clients.

9.6 Interprétation de la typologie des filiales


Selon les experts, il n’est ni facile ni évident d’interpréter les groupes
obtenus. En fait, il faut trouver les caractéristiques de chaque contrat afin
de pouvoir les comparer, ce qui demande beaucoup de temps. En gros, en
première intuition, les experts trouvent que :
– Les classes obtenues au niveau micro montrent quelques liens géogra-
phiques entre les filiales.
– Les classes singletons mettent en évidence des gros contrats, ou des
contrats de Système de production unique, par exemple le contrat 35.
– Au niveau des macro-classes, on peut dire que les filiales sont groupées
selon la taille de leurs contrats.

9.7 Conclusion
Dans ce chapitre, nous avons essayé d’expliquer les classes indicateurs et
filiales en termes de métier à l’aide des experts de l’entreprise. Une interpré-
tation plus approfondie demandera un temps beaucoup plus important.

89
Chapitre 10
Conclusion générale et perspective

Le but de ce projet était de rechercher des relations entre les indicateurs


de qualité du domaine « eau potable et eau usée », utilisés dans une enquête
interne effectuée par l’entreprise SUEZ Environnement auprès de ses filiales.
Ce projet se situe dans le cadre de ce qu’on appelle la fouille de donnée
(Data Mining) et plus précisément d’un processus qu’on appelle Extraction
de Connaissance à partir des Données (ECD).

Nous avons étudié les données fournies en trois étapes :


– Prétraitement : Suppression des données inexploitables (trop de valeurs
manquantes), estimation des valeurs manquantes (lorsque cela était
possible), et identification des valeurs atypiques ;
– Réduction de dimension des données et analyse par ACP ;
– Analyse des données par les méthodes des CM, de Kohonen et de CAH.

Comme perspective de notre travail, nous proposons :


– D’estimer les valeurs manquantes par des intervalles de confiance au
lieu d’une valeur discrète et de reprendre l’ensemble des traitements
sur les données de type intervalle ;
– De développer l’étude de la base de données filiales/ratios ;
– D’approfondir l’interprétation des résultats avec l’aide des experts de
l’entreprise.

90
Troisième partie

Annexe

91
Annexe A

92
Liste des Contract Reference

Contract Reference Nom court Pays


1 MACAO Chine
2 LIMEIRA Brésil
3 NEW JERSEY USA
4 NEW YORK USA
5 IDAHO USA
6 PENNSYLVANIA USA
7 JOHOR Malaisie
8 PERAK Malaisie
10 LYDEC Maroc
11 QUEENSTOWN Afrique du sud
12 BRNO Tchéquie
13 OSTRAVA Tchéquie
14 KARLOVY VARY Tchéquie
17 TRENCIN Slovaquie
18 SOUTH MORAVIA Tchéquie
19 JAKARTA Indonésie
20 EURAWASSER Nord Allemagne
21 PWP Australie
22 FIESOLE Italie
23 MONTECATINI Italie
24 PONTE BUGGIANESE Italie
28 SANTIAGO Chili
29 CORDOBA Argentine
30 ILLIMANI Bolivie
31 AGUAS ARGENTINA Argentine
32 SANTA FE Argentine
33 PECS Hongrie
34 BARCELONA Espagne
35 BUDAPEST Hongrie
37 CARTAGENA Colombie
38 GRANADA Espagne
39 JERSEY CITY USA
41 AGUALID Espagne
42 MURCIA Espagne
43 ALICANTE Espagne
44 MANAUS Brésil
46 INDIANAPOLIS USA
47 CLABSA Espagne
48 MILWAUKEE USA
49 NORTHUMBRIAN UK
50 DELAWARE USA
54 GARY USA
55 NATAL Afrique du sud
56 KAPOSVAR Hongrie
58 TANZHOU Chine
63 TECSA Mexique
64 AMMAN Jordanie
65 AREZZO Italie
66 ZONGSHAN Chine
67 PALMIRA Colombie
68 FRANCE France
78 JOHANNESBURG Afrique du sud
80 SUMPERK Tchéquie
81 BENESOV Tchéquie
82 MEDAN Indonésie
85 BAODING Chine
86 SANYA Chine
90 CANCUN Mexique
93 WESTERN CAPE Afrique du sud
96 IACMEX Mexique
97 SPRINGFIELD Water LLC USA
99 Deg-NICE France
100 Deg-VALENTON France
101 Deg-MULHOUSE France
105 ZHENGZHOU Chine
106 SIPING Chine
107 QINGDAO Chine
108 PANJIN Chine
109 CHONGQING Chine
110 LIBAN SAL Liban
111 TORREON Mexique

93
Annexe B
Présentation des secteurs

94
Secteur A : Production d’eau potable

Question Reference LABEL FR UNIT FR


QA01 Population desservie Nombre
QA02 Nombre d’employés Nombre
QA03 Coût de l’exercice - total Devise Locale
QA04 Coût annuel de la main d’oeuvre Devise Locale
QA05 Coût annuel d’eau potable achetée en gros Devise Locale
QA06 Coût annuel des produits chimiques Devise Locale
QA07 Charges annuelles de dépenses d’énergie Devise Locale
QA08 Coût annuel de la sous-traitance Devise Locale
QA09 Volume annuel produit Mm3
QA10 Volume annuel d’eau de surface extraite Mm3
QA11 Volume annuel d’eau de forage et de source extraite Mm3
QA12 Distribution annuelle d’eau importée en gros Mm3
QA13 Capacité maximale de production m3/Jour
QA14 Demande journalière maximale m3/Jour
QA15 Nombre total d’analyses microbiologiques Nombre
QA16 Nombre d’analyses microbiologiques non conformes Nombre
QA17 Consommation annuelle d’électricité MKW
QA18 Nombre de stations de traitement Nombre
QA19 Nombre de stations de traitement d’eau de surface Nombre
QA20 Nombre de forages Nombre
QA21 Fourniture annuelle d’eau exportée en gros Mm3
QA22 Volume annuel de déchets non dangereux m3
QA23 Volume annuel de déchets non dangereux réutilisés m3
QA24 Volume annuel de déchets dangereux m3
QA25 Volume annuel de déchets dangereux réutilisés m3
QA26 Quantité annuelle de boues produites Tonnes MS/an
QA27 Volume annuel des boues réutilisées par les usines d’eau potable Tonnes sèches
QA28 Nombre total des analyses de contrôle de qualité Nombre
QA29 Nombre total des analyses de contrôle de qualité non satisfaisantes Nombre
QA30 Nombre d’analyses réglementaires Nombre
QA31 Nombre d’analyses réglementaires non conformes Nombre
QA32 Quantité de boues traitées Tonnes MS/an
QA33 Quantité de boues mises en décharge Tonnes MS/an
QA34 Volume annuel des pertes en eau Mm3
QA35 Volume annuel des eaux réutilisées Mm3
QA36 Quantité de chlore gazeux utilisé Tonnes/an
QA37 Capacité de stockage de chlore gazeux Tonnes
QA38 Quantité de bioxyde de chlore utilisé Tonnes/an
QA39 Consommation annuelle globale d’électricité, production+distribution MWh

95
Secteur B : Distribution d’eau potable

Question Reference LABEL FR UNIT FR


QB01 Population desservieSAME AS QG01 AND QH01 Nombre
QB02 Population totale Nombre
QB03 Nombre de salariés Nombre
QB04 Charges annuelles - total Devise Locale
QB05 Coût annuel - main d’oeuvre Devise Locale
QB06 Charges annuelles - énergie Devise Locale
QB07 Coût annuel - sous-traitance Devise Locale
QB08 Volume annuel d’eau entrantSAME AS QE37 Mm3
QB09 Volume annuel d’eau distribuée Mm3
QB10 Volume annuel mesuré Mm3
QB11 Nombre total d’analyses microbiologiques Nombre
QB12 Nombre d’analyses hors normes Nombre
QB13 Longueur du réseau Km
QB14 Longueur de réseau renouvelée par an Km
QB15 Longueur de réseau réhabilitée par an Km
QB16 Nombre annuel d’éclatements Nombre
QB17 Nombre de branchementsSAME AS QE02 Nombre
QB18 Branchements sous le seuil de pression Nombre
QB19 Consommation annuelle d’électricité MKW
QB20 Durée pendant laquelle l’eau potable est disponible chaque jour Heures
QB21 Délai de mise en service d’un raccordement Jours
QB22 Nombre de réservoirs d’eau potable Nombre
QB23 Nombre de stations de pompage Nombre
QB24 Capacité totale des réservoirs d’eau potable Mm3
QB25 Capacité totale de pompage m3/Jour
QB26 Nombre total des analyses de conformité Nombre
QB27 Nombre total des analyses de conformité non satisfaisantes Nombre
QB28 Nombre annuel d’éclatements et de fuites sur les accessoires du réseau. Nombre
QB29 Nombre annuel d’éclatements et de fuites sur les branchements Nombre

96
Secteur C : Collecte des eaux usées

Question Reference LABEL FR UNIT FR


QC01 Population domestique desservieSAME AS QG02 AND QH02 Nombre
QC02 Population totale Nombre
QC03 Nombre d’employés Nombre
QC04 Charges anuelles - total Devise Locale
QC05 Coût annuel - main d’oeuvre Devise Locale
QC06 Charges annuelles - énergie Devise Locale
QC07 Coût annuel - sous-traitance Devise Locale
QC08 Volume annuel collecté Mm3
QC09 Consommation annuelle d’électricité MKW
QC10 Longueur du réseau Km
QC11 Longueur de réseau remplacé et réhabilité par an Km
QC12 Longueur inspectée annuellement Km
QC13 Longueur de réseau nettoyée annuellement Km
QC14 Nombre annuel d’obstructions du réseau Nombre
QC15 Nombre annuel d’effondrements du réseau Nombre
QC16 Nombre de branchementsSAME AS QD19 AND QE03 Nombre
QC17 Longueur de conduites en charge Km
QC18 Nombre de stations de pompage Nombre
QC19 Nombre de débordements Nombre
QC20 Longueur du réseau unitaire Km
QC21 Longueur de réseau remplacé par an Km
QC22 Capacité totale des stations de pompage m3/Jour
QC23 Populations desservies autres que domestiques Nombre
QC24 Déchets éliminés du réseau Tonnes

97
Secteur D : Traitement des eaux usées

Question Reference LABEL FR UNIT FR


QD01 Population desservie Nombre
QD02 Nombre de salariés Nombre
QD03 Charges annuelles - total Devise Locale
QD04 Coût annuel - main d’oeuvre Devise Locale
QD05 Coût annuel - produits chimiques Devise Locale
QD06 Charges annuelles - énergie Devise Locale
QD07 Coût annuel - sous-traitance Devise Locale
QD08 Volume annuel traité - traitement secondaire Mm3
QD09 Capacité de traitement - débit m3/Jour
QD10 Pollution annuelle éliminée - DBO Tonnes
QD11 Pollution annuelle éliminée - DCO Tonnes
QD12 Quantité annuelle de boues produites Tonnes MS/an
QD13 Quantité annuelle de boues réutilisées Tonnes MS/an
QD14 Nombre total de mesures pour analyse de conformité Nombre
QD15 Nombre d’échantillons de conformité satisfaisants Nombre
QD16 Consommation annuelle d’électricité MWK
QD17 Nombre total de stations d’épuration Nombre
QD18 Nombre de stations avec traitements secondaires ou mieux Nombre
QD19 Nombre de branchementsSAME AS QC16 AND QE03 Nombre
QD20 Quantité annuelle de métaux lourds éliminés Tonnes
QD21 Consommation annuelle de gaz naturel m3
QD22 Consommation annuelle des autres carburants m3
QD23 Volume annuel de déchets non dangereux m3
QD24 Volume annuel de déchets non dangereux et réutilisés m3
QD25 Volume annuel de déchets dangereux m3
QD26 Volume annuel de déchets dangereux et réutilisés m3
QD27 Charge de pollution annuelle reçue - DBO Tonnes
QD28 Nombre des petites usines de traitement Nombre
QD29 Nombre de mesures non conformes Nombre
QD30 Charge de pollution annuelle by-passée - DBO Tonnes/an
QD31 Volume annuel total by-passé Million m3

98
Secteur E : Service clientèle

Question Reference LABEL FR UNIT FR


QE01 Taux de satisfaction de la clientèle %
QE02 Nombre de branchementsSAME AS QB17 Nombre
QE03 Nombre de branchementsSAME AS QC16 AND QD19 Nombre
QE04 Nombre de branchements domestiques avec compteur Nombre
QE05 Nombre de branchements commerciaux Nombre
QE06 Nombre annuel de compteurs renouvelés Nombre
QE07 Nombre annuel de coupures d’eau Nombre
QE08 Nombre de salariés Nombre
QE09 Coûts annuels - total Devise Locale
QE10 Coût annuel - main d’oeuvre Devise Locale
QE11 Coût annuel - sous-traitance Devise Locale
QE12 Nombre annuel total de factures émises Nombre
QE13 Nombre de factures estimées Nombre
QE14 Durée entre relevé du compteur et facturation Jours
QE15 Nombre de factures payées à réception Nombre
QE16 Nombre annuel total de contacts clients Nombre
QE17 Nombre de contacts relatifs à des sujets techniques Nombre
QE18 Nombre de contacts liés à la facturation Nombre
QE19 Nombre de demandes de renseignements par téléphone Nombre
QE20 Nombre d’appels acceptés Nombre
QE21 Nombre de demandes écrites Nombre
QE22 Nombre de contacts par courrier traités en moins de 10 jours Nombre
QE23 Facture domestique moyenne (hors taxes) Devise Locale
QE24 Nombre de branchements avec des compteurs > 20 mm Nombre
QE25 Coût annuel - Service Facturation Devise Locale
QE26 Coût annuel - Service Recouvrement Devise Locale
QE27 Coût annuel - Centre d’Appels Devise Locale
QE31 Nombre de clients résidentiels eau facturés au forfait Nombre
QE32 Nombre de clients résidentiels eau facturés au compteur Nombre
QE33 Nombre de clients non résidentiels eau facturés avec compteurs Nombre
QE34 Nombre de clients résidentiels assainissement facturés Nombre
QE35 Nombre de clients non résidentiels assainissement facturés Nombre
QE36 Volume annuel d’eau facturée Mm3
QE37 Volume annuel d’eau entrantSAME AS QB08 Mm3
QE38 Montant annuel facturé - Eau Devise Locale
QE39 Montant annuel facturé - Assainissement Devise Locale
QE40 Montant annuel facturé autres recettes Devise Locale
QE41 Taux de non - recouvrement à échéance %
QE42 Taux de non-recouvrement après 6 mois %
QE43 Taux de non-recouvrement après 12 mois %
QE44 Taux de non-recouvrement après 24 mois %
QE45 Montant annuel facturé - Eau, clients particuliers avec compteurs Devise Locale
QE46 Montant annuel facturé - Eau, clients commerciaux avec compteurs Devise Locale
QE47 Montant annuel facturé - Assainissement clients particuliers avec compteurs Devise Locale
QE48 Montant annuel facturé - Assainissement clients commerciaux avec compteurs Devise Locale
QE49 Montant total annuel des taxes et redevances Devise Locale
QE50 Volume annuel d’eau non facturée, consommée légalement Mm3
QE51 Nombre de réclamations ou plaintes commerciales Nombre
QE52 Nombre de réclamations ou plaintes d’ordre technique Nombre

99
Secteur F : Services Généraux

Question Reference LABEL FR UNIT FR


QF01 Nombre de salariés auxiliaires Nombre
QF02 Nombre total de salariésSAME AS QG03 AND QH03 Nombre
QF03 Coût annuel du travail auxiliaire - total Devise Locale
QF04 Coûts auxiliaires annuels - main d’oeuvre Devise Locale
QF05 Coûts auxiliaires annuels - sous-traitance Devise Locale
QF06 Charges d’exploitation annuelles totalesSAME AS QH06 Devise Locale
QF07 Valeur des stocks Devise Locale
QF08 Valeur des sorties de stocks Devise Locale

Secteur G : Informations générales

Question Reference LABEL FR UNIT FR


QG01 Population reliée au réseau d’eauSAME AS QB01 AND QH01 Nombre
QG02 Population reliée au réseau d’égoutSAME AS QC01 AND QH02 Nombre
QG03 Nombre total de salariésSAME AS QF02 AND QH03 Nombre
QG04 Nombre de salariés travaillant d’après des systèmes d’AQ Nombre
QG05 Nombre de salariés sur le terrain Nombre
QG06 Nombre d’agents de maı̂trise Nombre
QG07 Nombre d’échelons de la base au directeur général Nombre
QG08 Charges salariales annuelles totales Devise Locale
QG09 Coût annuel total de la main d’oeuvre Devise Locale
QG10 Durée annuelle normale de travail Heures
QG11 Durée annuelle totale de formation Heures
QG12 Total des heures supplémentaires travaillées sur l’année Heures
QG13 Total de temps perdu sur l’année Heures
QG14 Nombre annuel de démissions Nombre
QG15 Nombre total d’accidents Nombre
QG16 Nombre total de poursuites en justice Nombre
QG17 Nombre total d’ordinateurs de bureau Nombre
QG18 Nombre total de véhicules légers Nombre
QG19 Consommation de carburant par les véhicules légers m3
QG20 Nombre total de véhicules poids lourds Nombre
QG21 Consommation de carburant par les véhicules poids lourds m3

100
Secteur H : Indicateurs financiers

Question Reference LABEL FR UNIT FR


QH01 Population reliée au réseau d’eauSAME AS QB01 AND QG01 Nombre
QH02 Population reliée au réseau d’égoutsSAME AS QC01 AND QG02 Nombre
QH03 Nombre total de salariésSAME AS QF02 AND QG03 Nombre
QH04 Revenu annuel total (activité principale) Devise Locale
QH05 Autres revenus Devise Locale
QH06 Charges d’exploitation annuelles totales Devise Locale
QH07 Coût annuel total des dépenses d’énergie Devise Locale
QH08 Valeur annuelle des comptes radiés Devise Locale
QH09 Total des ammortissements annuel Devise Locale
QH10 Investissement en capital réalisé sur l’année Devise Locale
QH11 Valeur totale du patrimoine Devise Locale
QH12 Amortissement cumulé Devise Locale
QH13 Investissement annuel de maintenance Devise Locale
QH14 Investissement total annuel pour l’environnement (eau) Devise Locale
QH15 Investissement total annuel pour l’environnement (eaux résiduaires) Devise Locale
QH16 Revenu annuel total - fourniture d’eau Devise Locale
QH17 Revenu annuel total - services assainissement Devise Locale
QH18 Investissement annuel pour l’environnement, CAPEX (eau) Devise locale
QH19 Investissement annuel pour l’environnement, OPEX (eau) Devise locale
QH20 Investissement annuel pour l’environnement, CAPEX (eaux résiduaires) Devise locale
QH21 Investissement annuel pour l’environnement, OPEX (eaux résiduaires) Devise locale

101
Annexe C
Analyse des données du secteur C

L’étude des valeurs propres représentée sur la figure C.1 montre que nous
pouvons restreindre notre étude sur les 3 premiers axes. Le pourcentage
d’inertie cumulée expliquée par ces axes est de 56%.

Une première projection sur les 2 premiers axes factoriels représentée sur
la figure C.2 montre que les variables QC01, QC02, QC03, QC05, QC06,
QC08, QC10, QC16, QC20 contribuent fortement à l’axe 1, puisqu’elles sont
proches du cercle unité. Nous pouvons confirmer ces contributions par l’étude
des corrélations des variables avec les axes (tableau C.1). De plus, nous pou-
vons remarquer qu’il n’y a pas des variables anti-correlés suivant cet axe.
Les variables qui contribuent au plus à l’axe 2 sont QC14 et QC19 avec des
corrélations 0.798 et 0.62 respectivement.

Après cette caractérisation des axes par les variables, nous présentons la
projection des individus (figure C.3) dans le premier plan factoriel en fonc-
tion de leur contribution au plan. Cette figure montre que les filiales dont les
Contract Reference sont 31, 28, 46, 48, 10 sont caractérisées par les indica-
teurs QC01, QC02, QC03, QC05, QC06, QC08, QC10, QC16, QC20. De plus,
nous remarquons que les filiales 30, 32, 78, 10, 49, 31, 28 sont caractérisées
par les idicateurs QC14 et QC19.

L’étude du plan constitué des axes 1 et 3 n’apportant pas d’information


supplémentaire par rapport au plan constitué des axes 2 et 3, nous nous li-
mitons à l’étude de ce dernier.

La figure C.4 fait apparaı̂tre qu’il n’y a pas des variables qui contribuent
fortement à l’axe 3, en effet seuls les indicateurs QC07 et QC23 ont des cor-

102
Fig. C.1 – Pourcentage expliqué par les valeurs propres.

103
Axe 1 Axe 2 Axe 3
QC01 0,76 0,4434 -0,3
QC02 0,68 0,5 -0,24
QC03 0,68 0,43 0,17
QC04 0,56 -0,35 0,46
QC05 0,8 -0,364 -0,02
QC06 0,754 -0,52 0,004
QC07 0,27 -0,252 0,61
QC08 0,78 -0,41 -0,227
QC09 0,74 -0,38 0,063
QC10 0,85 0,19 0,22
QC11 0,32 0,17 0,297
QC12 0,29 0,22 0,14
QC13 0,63 0,45 0,084
QC14 0,32 0,798 -0,2
QC15 -0,013 -0,062 0,443
QC16 0,8 0,32 -0,032
QC17 0,072 -0,12 -0,03
QC18 0,51 -0,28 0,462
QC19 0,227 0,623 0,046
QC20 0,68 -0,35 -0,25
QC21 -0,016 -0,0014 0,26
QC22 0,57 -0,39 -0,46
QC23 0,18 -0,38 -0,55
QC24 0,004 -0,34 -0,23

Tab. C.1 – Corrélation des variables avec les facteurs.

104
Fig. C.2 – Projection des variables dans le premier plan factoriel.

105
Fig. C.3 – Projection des individus dans le premier plan factoriel.

rélations avec cet axe de 0.612 et -0.554 respectivement.

Sur la figure C.5, nous remarquons que les filiales 31, 46, 28, 78, 20, et 12
caractérisées par les indicateurs QC07, et que les filiales 48 et 18 sont souvent
caractérisées par les indicateurs QC23.

106
Fig. C.4 – Projection des variables dans le plan constitué de l’axe 2 et 3.

107
Fig. C.5 – Projection des individus dans dans le plan constitué de l’axe 2 et
3.

108
Annexe D
Analyse des données du secteur D

L’étude des valeurs propres représentée sur la figure D.1 montre que nous
pouvons restreindre notre étude sur les 2 premiers axes. Pour une meilleure
représentation nous étudierons en plus l’axe 3. Le pourcentage d’inertie cu-
mulée expliquée par ces axes est de 68.13%.

Une première projection sur les 2 premiers axes factoriels représentée sur
la figure D.2, montre que les variables QD01, QD02, QD03, QD04, QD05,
QD06, QD07, QD08, QD09, QD10, QD11, QD12, QD13, QD16, QD27 contri-
buent fortement à l’axe 1. Nous pouvons confirmer ces contributions par
l’étude des corrélations des variables avec les axes (tableau D.1). De plus,
nous pouvons remarquer qu’il n’y a pas des variables anti-correlés suivant
cet axes. Les variables QD17, QD18, QD28 contribuent fortement à l’axe 2.

Après la carctérisation des axes par les variables, nous présentons la pro-
jection des individus (figure D.3) dans le premier plan factoriel en fonction
de leur contribution au plan.

Cette figure montre que les filiales, dont les Contract Reference sont 28,
78, 46, 68, sont souvent caractérisées par les indicateurs QD01, QD02, QD03,
QD04, QD05, QD06, QD07, QD08, QD09, QD10, QD11, QD12, QD13, QD16,
QD27. De plus nous remarquons que les filiales 48, 18 sont fortement carac-
térisées par les idicateurs QD28, QD17, QD18, contraitrement aux les filiales
68 et 49 .

L’étude du plan constitué de l’axe 2 et 3 n’apportant pas d’information


supplémentaire par rapport au plan constitué de l’axe 1 et 3, nous nous
limiterons à l’étude de ce dernier.

109
Axe 1 Axe 2 Axe 3
QD01 0,78 0,22 0,093
QD02 0,718 -0,32 0,36
QD03 0,93 -0,1 -0,11
QD04 0,8 -0,23 -0,177
QD05 0,87 0,08 0,21
QD06 0,95 -0,07 -0,1
QD07 0,75 -0,04 -0,2
QD08 0,96 0,12 0,03
QD09 0,94 0,1 -0,057
QD10 0,85 0,06 -0,38
QD11 0,87 0,14 0,3
QD12 0,92 0,1 0,06
QD13 0,63 0,08 0,55
QD14 0,1 -0,19 0,1
QD16 0,95 0,042 0,11
QD17 0,03 -0,78 0,27
QD18 0,04 -0,76 0,27
QD19 0,44 0,32 0,03
QD21 0,173 -0,36 -0,6
QD22 0,37 -0,15 -0,68
QD23 0,22 -0,47 -0,079
QD24 0,312 -0,29 0,14
QD27 0,87 0,02 -0,38
QD28 -0,02 -0,89 -0,07
QD29 0,2 -0,008 0,48

Tab. D.1 – Corrélation des variables avec les facteurs.

110
Fig. D.1 – Pourcentage expliqué par les valeurs propres.

La figure D.4 montre qu’il n’y a pas des variables qui contribuent forte-
ment à l’axe 3. En effet, seuls les indicateurs QD21 et QD22 ont des corré-
lations de -0.612 et -0.689 respectivement avec l’axe. Sur la figure D.5, nous
remarquons que les filiales 46 et 20 sont caractérisées par les indicateurs
QD21 et QD22, et ce n’est pas le cas pour la filiale 68.

111
Fig. D.2 – Projection des variables dans le premier plan factoriel.

112
Fig. D.3 – Projection des individus dans le premier plan factoriel.

113
Fig. D.4 – Projection des variables sur le plan constitué de l’axe 1 et 3.

114
Fig. D.5 – Projection des individus sur le plan constitué de l’axe 1 et 3.

115
Annexe E
Analyse des données du secteur E

L’étude des valeurs propres représentée sur la figure E.1 montre que nous
pouvons restreindre notre étude sur les 3 premiers axes. Le pourcentage
d’inertie cumulée expliquée par ces axes est de 51.7%.

Une première projection sur les 2 premiers axes factoriels représentée sur
la figure E.2, montre que les variables QE01, QE04, QE06, QE08, QE09,
QE10, QE11, QE12, QE15, QE16, QE19, QE20, QE25, QE26, QE32, QE33
contribuent fortement à l’axe 1. Nous pouvons confirmer ces contributions
par l’étude des corrélations des variables avec les axes (tableau E.1). De plus,
nous pouvons remarquer qu’il n’y a pas des variables anti-correlés suivant cet
axe.

Nous remarquons suivant l’axe 2 une anti-corrélation remarquable entre


les indicateurs QE31, QE18, QE34 et QE03 d’une part et les indicateurs
QE45, QE24, QE21, et QE25 d’autre part.

Après la caractérisation des axes par les variables, nous présentons la pro-
jection des individus (figure E.3) dans le premier plan factoriel en fonction
de leur contribution au plan. Cette figure montre que les filiales dont les
Contract Reference sont 35, 32 et 19 sont caractérisées par les indicateurs
QE01, QE04, QE06, QE08, QE09, QE10, QE11, QE12, QE15, QE16, QE19,
QE20, QE25, QE26, QE32, QE33. De plus, nous remarquons que les filiales
35, 3 et 19 sont caractérisées par QE21, QE24 et QE45 et non pas par QE07,
QE17 et QE34, et inversement pour les filiales 31, 49, 32 et 37.

L’étude du plan constitué des axes 1 et 3 n’apportant pas d’information


supplémentaire par rapport au plan constitué des axes 2 et 3, nous nous li-

116
Fig. E.1 – Pourcentage expliqué par les valeurs propres.

117
Axe 1 Axe 2 Axe 3
QE01 0,08 0,06 0,2
QE02 0,82 0,35 -0,2
QE03 0,45 0,58 0,25
QE04 0,69 -0,08 -0,5
QE05 0,715 -0,098 -0,53
QE06 0,64 -0,53 0,05
QE07 0,35 0,56 0,13
QE08 0,72 0,08 -0,51
QE09 0,83 -0,32 -0,069
QE10 0,82 -0,25 -0,21
QE11 0,71 -0,42 0,12
QE12 0,76 0,38 -0,22
QE13 0,25 0,14 -0,15
QE14 0,434 0,12 0,16
QE15 0,64 0,39 -0,26
QE16 0,65 0,49 0,04
QE17 0,58 0,19 -0,31
QE18 0,53 0,57 0,35
QE19 0,69 0,37 0,18
QE20 0,69 0,3 0,15
QE21 0,506 -0,63 0,32
QE22 0,47 -0,49 0,44
QE23 -0,074 0,003 0,005
QE24 0,45 -0,62 0,24
QE25 0,7 -0,58 0,1
QE26 0,73 -0,39 0,22
QE27 0,34 -0,36 0,39
QE31 0,49 0,6 0,15
QE32 0,7 -0,05 -0,37
QE33 0,75 0,16 -0,29
QE34 0,47 0,52 0,21
QE35 0,44 0,54 0,248
QE36 0,12 -0,08 0,29
QE37 0,12 -0,08 0,29
QE38 0,14 -0,03 -0,34
QE39 0,15 -0,15 0,38
QE40 0,51 -0,15 0,42
QE41 0,18 0,39 0,22
QE42 0,22 0,42 0,38
QE43 0,17 0,42 0,34
QE44 0,16 0,402 0,34
QE45 0,59 -0,67 0,065
QE46 0,62 -0,54 -0,3
QE47 -0,04 -0,11 0,27
QE48 -0,094 -0,12 0,2
QE49 0,37 -0,25 0,5
QE50 0,32 -0,06 0,25

Tab. E.1 – Corrélation des variables avec les facteurs.

118
Fig. E.2 – Projection des variables dans le premier plan factoriel.

119
Fig. E.3 – Projection des individus dans le premier plan factoriel.

120
Fig. E.4 – Projection des variables dans le plan constitué de l’axe 2 et 3.

miterons à l’étude de ce dernier.

La figure E.4 montre qu’il n’y a pas des variables qui contribuent forte-
ment à l’axe 3. En effet seuls les indicateurs QE04, QE05, QE08, et QE49
ont des corrélations -0.5, -0.53,-0.51 et 0.5 respectivement, supérieur à 0.5.

Sur la figure E.5, nous remarquons que les filiales 9, 19 et 63 sont souvent
caractérisées par les indicateurs QE04, QE05, QE08 et ce n’est pas le cas
surtout pour les filiales 31 et 49.

121
Fig. E.5 – Projection des individus dans dans le plan constitué de l’axe 2 et
3

122
Annexe F
Classification des indicateurs du
secteur B

L’application de la méthode hiérarchique avec le critère d’agrégation de


Ward sur le tableau de proximité calculé à partir des indicateurs du secteur
B, en tenant compte des 2 premiers axes principaux, donne le dendrogramme
représentée sur la figure F.1.

Fig. F.1 – Classification hierarchique appliquée aux indicateurs du secteur


B.

123
Fig. F.2 – Application de l’algorithme CM net sur les indicateurs du secteur
B.

Au vu de ce graphique nous choisissons de prendre le nombre de groupes


égal à trois. En appliquant l’algorithme CM net, nous obtenons les 3 classes
représentées sur la figure F.2. Nous remarquons que tous les objets (variables)
participent à la création des formes stables. Les éléments de ces trois classes
sont alors :

Classe 1 QB01, QB02, QB03, QB08, QB09, QB16, QB19, QB25


Classe 2 QB04, QB05, QB07, QB10, QB11, QB13, QB17, QB22, QB26
Classe 3 QB06, QB12, QB14, QB15, QB18, QB20, QB21, QB23, QB24, QB27

Tab. F.1 – Formes stables des indicateurs du secteur B.

.
La figure F.3 montre les micro-classes obtenues en appliquant l’algorithme
de Kohonen sur une grille rectangulaire de taille 3×3 et pour 5000 itérations.

124
Fig. F.3 – Les classes de Kohonen, regroupées en 3 macro-classes, après
50000 itérations

La CAH appliquée sur les vecteurs codes est représentée sur la figure F.4.

125
Fig. F.4 – Classification hiérarchique appliquée sur les vecteurs codes.

Pour comprendre le sens de relations existantes entre les indicateurs du


secteur B, nous présentons les tableaux F.2 et F.3.

126
secteur B.
QB01 QB02 QB03 QB04 QB05 QB06 QB07 QB08 QB09 QB10 QB11 QB12 QB13
QB01 + + + + + + + + + + + + +
QB02 + + + + + + + + + + + + +
QB03 + + + + + + + + + + + + +
QB04 + + + + + + + + + + + + +
QB05 + + + + + + + + + + + + +
QB06 + + + + + + + + + + + + +
QB07 + + + + + + + + + + + + +
QB08 + + + + + + + + + + + + +
QB09 + + + + + + + + + + + + +
QB10 + + + + + + + + + + + + +
QB11 + + + + + + + + + + + + +
QB12 + + + + + + + + + + + + +
QB13 + + + + + + + + + + + + +
QB14 + + + + + + + + + + + + +

127
QB15 + + + + + + + + + + + + +
QB16 + + + + + + + + + + + + +
QB17 + + + + + + + + + + + + +
QB18 + + + + - + - + - - - + -
QB19 + + + + + + + + + + + + +
QB20 + + + + + - + + + + + + +
QB21 + + + + + + + + + + + + +
QB22 + + + + + + + + + + + + +
QB23 + + + + + + + + + + + + +
QB24 - - - + + - + - - - + - +
QB25 + + + + + + + + + + + + +
QB26 + + + + + + + + + + + + +
QB27 + + + + + + + + + + + + +

Tab. F.2 – Signe de relation linéaire de Pearson entre les indicateurs du


secteur B.
QB14 QB15 QB16 QB17 QB18 QB19 QB20 QB21 QB22 QB23 QB24 QB25 QB26 QB27
QB01 + + + + + + + + + + - + + +
QB02 + + + + + + + + + + - + + +
QB03 + + + + + + + + + + - + + +
QB04 + + + + + + + + + + + + + +
QB05 + + + + - + + + + + + + + +
QB06 + + + + + + - + + + - + + +
QB07 + + + + - + + + + + + + + +
QB08 + + + + + + + + + + - + + +
QB09 + + + + - + + + + + - + + +
QB10 + + + + - + + + + + - + + +
QB11 + + + + - + + + + + + + + +
QB12 + + + + + + + + + + - + + +
QB13 + + + + - + + + + + + + + +
QB14 + + + + + + + + + + + + + +

128
QB15 + + + + + + + + + + + + + +
QB16 + + + + + + - + + - - + + +
QB17 + + + + + + + + + + + + + +
QB18 + + + + + + - + + + - + + +
QB19 + + + + + + - + + + - + + +
QB20 + + - + - - + + + + + + + +
QB21 + + + + + + + + + + - + + +
QB22 + + + + + + + + + + + + + +
QB23 + + - + + + + + + + + + + +
QB24 + + - + - - + - + + + - + -
QB25 + + + + + + + + + + - + + +
QB26 + + + + + + + + + + + + + +
QB27 + + + + + + + + + + - + + +

Tab. F.3 – Signe de relation linéaire de Pearson entre les indicateurs du


Annexe G
Classification des indicateurs du
secteur D

L’application de la méthode hiérarchique avec le critère d’agrégation de


Ward sur le tableau de proximité calculé à partir des indicateurs du secteur
D, en tenant compte des 2 premiers axes principaux, donne le dendrogramme
représentée sur la figure G.1.

Fig. G.1 – Classification hierarchique appliquée aux indicateurs du secteur


D.

129
Classe 1 QD06, QD08, QD09, QD10, QD12, QD16, QD27
Classe 2 QD07, QD14, QD17, QD18, QD23, QD28
Classe 3 QD21, QD22, QD24, QD29

Tab. G.1 – Formes stables des indicateurs du secteur D.

Au vu de ce graphique nous choisissons de prendre le nombre de groupes


égal à trois. En appliquant l’algorithme CM net, nous obtenons les 3 classes
représentées sur la figure G.2.

Fig. G.2 – Application de l’algorithme CM net sur des indicateurs du secteur


D.

Les objets représentés par des carrés sont les objets qui n’ont pas participé
à la création des formes stables, mais qui ont été classés selon la méthodologie
1. Les éléments qui forment les formes stables sont présentés sur la table G.1.

130
Nous appliquons maintenant l’algorithme des CM floues pour trouver les
degrés d’appartenance de ces objets aux formes stables. Le résultat est re-
présenté sur la figure G.3.

Fig. G.3 – Application de l’algorithme CM flou sur les indicateurs du secteur


D

Ces degrés d’appartenances sont présentés dans le tableau G.2.

La figure G.4 montre les micro-classes obtenues en appliquant l’algorithme


de Kohonen sur une grille rectangulaire de taille 3×3 et pour 5000 itérations.

131
Indicateurs Classe 1 Classe 2 Classe 3
QD01 0.7797 0.2066 0.0137
QD02 0.3445 0.6360 0.0195
QD03 0.3416 0.6323 0.0262
QD04 0.2928 0.6867 0.0205
QD05 0.5269 0.4456 0.0275
QD11 0.8412 0.1476 0.0112
QD13 0.8088 0.1786 0.0125
QD19 0.4548 0.4231 0.1222

Tab. G.2 – Degrés d’apppartenance moyens des indicateurs aux formes


stables.

Fig. G.4 – Les classes de Kohonen, regroupées en 3 macro-classes, après


50000 itérations

La CAH appliquée sur les vecteurs codes est représentée sur la figure G.5.

132
Fig. G.5 – Classification hiérarchique appliquée sur les vecteurs codes.

Pour comprendre le sens de relations existantes entre les indicateurs du


secteur B, nous présentons les tableaux G.3 et G.4.

133
secteur D.
QD01 QD02 QD03 QD04 QD05 QD06 QD07 QD08 QD09 QD10 QD11 QD12 QD13 QD14
QD01 + + + + + + + + + + + + + +
QD02 + + + + + + + + + + + + + +
QD03 + + + + + + + + + + + + + +
QD04 + + + + + + + + + + + + + +
QD05 + + + + + + + + + + + + + +
QD06 + + + + + + + + + + + + + +
QD07 + + + + + + + + + + + + + +
QD08 + + + + + + + + + + + + + +
QD09 + + + + + + + + + + + + + +
QD10 + + + + + + + + + + + + + +
QD11 + + + + + + + + + + + + + +
QD12 + + + + + + + + + + + + + +
QD13 + + + + + + + + + + + + + +

134
QD14 + + + + + + + + + + + + + +
QD16 + + + + + + + + + + + + + +
QD17 + + + + + + + + + + + + + +
QD18 + + + + + + + + + + + + + +
QD19 + + + + + + + + + + + + + +
QD21 + + + + + + + + + + + + + -
QD22 + + + + + + + + + + + + + +
QD23 + + + + + + + + + + + + + +
QD24 + + + + + + + + + + + + + +
QD27 + + + + + + + + + + + + + +
QD28 + + + + + + + + + + + + + +
QD29 + + + + + + + + + + + + + +

Tab. G.3 – Signe de relation linéaire de Pearson entre les indicateurs du


secteur D.
QD16 QD17 QD18 QD19 QD21 QD22 QD23 QD24 QD27 QD28 QD29
QD01 + + + + + + + + + + +
QD02 + + + + + + + + + + +
QD03 + + + + + + + + + + +
QD04 + + + + + + + + + + +
QD05 + + + + + + + + + + +
QD06 + + + + + + + + + + +
QD07 + + + + + + + + + + +
QD08 + + + + + + + + + + +
QD09 + + + + + + + + + + +
QD10 + + + + + + + + + + +
QD11 + + + + + + + + + + +
QD12 + + + + + + + + + + +
QD13 + + + + + + + + + + +

135
QD14 + + + + - + + + + + +
QD16 + + + + + + + + + + +
QD17 + + + + + + + + + + +
QD18 + + + + + + + + + + +
QD19 + + + + + + + + + + +
QD21 + + + + + + + + + - -
QD22 + + + + + + + + + + -
QD23 + + + + + + + + + + +
QD24 + + + + + + + + + + -
QD27 + + + + + + + + + + +
QD28 + + + + - + + + + + +
QD29 + + + + - - + - + + +

Tab. G.4 – Signe de relation linéaire de Pearson entre les indicateurs du


Annexe H
Classification des indicateurs du
secteur E

L’application de la méthode hiérarchique avec le critère d’agrégation de


Ward sur le tableau de proximité calculé à partir des indicateurs du secteur
E, en tenant compte des 2 premiers axes principaux, donne le dendrogramme
représentée sur la figure H.1.

Fig. H.1 – Classification hierarchique appliquée aux indicateurs du secteur


E.

136
Au vu de ce graphique nous choisissons de prendre le nombre de groupes
égal à quatre. En appliquant l’algorithme CM net, nous obtenons les 4classes
représentées sur la figure H.2.

Fig. H.2 – Application de l’algorithme CM net sur des indicateurs du secteur


E.

Les objets représentés par des carrés sont les objets qui n’ont pas participé
à la création des formes stables, mais qui ont été classés selon la méthodo-
logie 1. Les éléments qui forment les formes stables sont présentés dans la
tableau H.1.

Nous appliquons maintenant l’algorithme des CM floues pour trouver les


degrés d’appartenance de ces objets aux formes stables.

137
Classe 1 QE08, QE12, QE15, QE16, QE17, QE18, QE19, QE20
QE31, QE34, QE35, QE49
Classe 2 QE02, QE03, QE10
Classe 3 QE11, QE21, QE22, QE40, QE46
Classe 4 QE01, QE06, QE07, QE13, QE14, QE23, QE24, QE32
QE36, QE37, QE38, QE41,
QE42, QE43,QE44,QE45,QE47,QE50

Tab. H.1 – Formes stables des indicateurs du secteur E.

Fig. H.3 – Application de l’algorithme CM flou sur les indicateurs du secteur


E.

Ces degrés d’appartenances sont présentés dans le tableau H.2.

138
Indicateurs Classe 1 Classe 2 Classe 3 Classe 4
QE04 0.2163 0.3644 0.2899 0.1295
QE05 0.0236 0.9602 0.0117 0.0045
QE09 0.0399 0.1241 0.7984 0.0377
QE25 0.0219 0.0545 0.8967 0.0269
QE26 0.0215 0.0678 0.8901 0.0206
QE27 0.0150 0.0408 0.9273 0.0169
QE33 0.2220 0.4389 0.2389 0.1002
QE39 0.0261 0.0901 0.8603 0.0235
QE48 0.0014 0.0036 0.9934 0.0017

Tab. H.2 – Degrés d’apppartenance moyens des indicateurs aux formes


stables.

La figure H.4 montre les micro-classes obtenues en appliquant l’algo-


ritthme de Kohonen sur une grille rectangulaire de taille 3×4 et pour 5000
itérations.

139
Fig. H.4 – Les classes de Kohonen, regroupées en 3 macro-classes, après
50000 itérations.

La CAH appliquée sur les vecteurs codes est représentée sur la figure H.5.

140
Fig. H.5 – Classification hiérarchique appliquée sur les vecteurs codes.

Pour comprendre le sens de relations existantes entre les indicateurs du


secteur B, nous présentons les tableaux H.3, H.5 et H.4 .

141
QE01 QE02 QE03 QE04 QE05 QE06 QE07 QE08 QE09 QE10 QE11 QE12 QE13 QE14 QE15
QE01 + + + - + + - - + + + - - + -
QE02 + + + + + + + + + + + + + + +
QE03 + + + + + + + + + + + + + + +

secteur E.
QE04 - + + + + + + + + + + + + + +
QE05 + + + + + + + + + + + + + + +
QE06 + + + + + + + + + + + + + + +
QE07 - + + + + + + + + + - + + + +
QE08 - + + + + + + + + + + + + + +
QE09 + + + + + + + + + + + + + + +
QE10 + + + + + + + + + + + + + + +
QE11 + + + + + + - + + + + + + + +
QE12 - + + + + + + + + + + + + + +
QE13 - + + + + + + + + + + + + + +
QE14 + + + + + + + + + + + + + + +
QE15 - + + + + + + + + + + + + + +
QE16 - + + + + + + + + + + + + + +
QE17 - + + + + + + + + + + + + + +
QE18 + + + + + + + + + + + + + + +
QE19 - + + + + + + + + + + + + + +
QE20 - + + + + + + + + + + + + + +
QE21 + + + + + + - + + + + + - + +
QE22 + + + + + + - + + + + + - - +
QE23 - - - - - - - + - - - - - - -
QE24 + + + + + + - + + + + + + + +

142
QE25 + + + + + + - + + + + + - + +
QE26 + + + + + + + + + + + + + + +
QE27 + + + + + + - + + + + + - - +
QE31 + + + + + + + + + + + + + + +
QE32 - + + + + + + + + + + + + + +
QE33 + + + + + + + + + + + + + + +
QE34 + + + + + + + + + + + + + + +
QE35 - + + + + + + + + + + + + + +
QE36 + - + + + + - - + + + + - - +
QE37 + - + + + + - - + + + + - - +
QE38 - + - + + + - + + + + + + - +
QE39 + + + + + + - + + + + + + + +
QE40 + + + + + + + + + + + + - + -
QE41 + + + + + + + + + + + + + + +
QE42 + + + + + + + + + + + + + - +
QE43 + + + + + + + + + + - + + - +
QE44 + + + + + + + + + + - + + - +
QE45 + + + + + + + + + + + + + + +
QE46 + + + + + + + + + + + + + - +
QE47 + + + + + + - + + + + + - - +
QE48 + + + + + + - + + + + + - + +
QE49 - + + + + + + + + + + + - + +
QE50 + + + + + + + + + + + + - - +

Tab. H.3 – Signe de relation linéaire de Pearson entre les indicateurs du


QE16 QE17 QE18 QE19 QE20 QE21 QE22 QE23 QE24 QE25 QE26 QE27 QE31 QE32 QE33 QE34 QE35 QE36
QE01 - - - + - - + + - + + + + + - + + -
QE02 + + + + + + + - + + + + + + + + + -
QE03 + + + + + + + - + + + + + + + + + +

secteur E.
QE04 + + + + + + + - + + + + + + + + + +
QE05 + + + + + + + - + + + + + + + + + +
QE06 + + + + + + + - + + + + + + + + + +
QE07 + + + + + - - - - - + - + + + + + -
QE08 + + + + + + + + + + + + + + + + + -
QE09 + + + + + + + - + + + + + + + + + +
QE10 + + + + + + + - + + + + + + + + + +
QE11 + + + + + + + - + + + + + + + + + +
QE12 + + + + + + + - + + + + + + + + + +
QE13 + + + + + - - - + - + - + + + + + -
QE14 + + + + + + - - + + + - + + + + + -
QE15 + + + + + + + - + + + + + + + + + +
QE16 + + + + + + + - + + + + + + + + + +
QE17 + + + + + + + - + + + + + + + + + -
QE18 + + + + + + + - + + + + + + + + + +
QE19 + + + + + + + - + + + + + + + + + +
QE20 + + + + + + + - + + + + + + + + + +
QE21 + + + + + + + - + + + + + + + + + -
QE22 + + + + + + + - + + + + + + + + + +
QE23 - - - - - - - + - - - - - - - - - -
QE24 + + + + + + + - + + + + + + + + + -

143
QE25 + + + + + + + - + + + + + + + + + +
QE26 + + + + + + + - + + + + + + + + + +
QE27 + + + + + + + - + + + + + + + + + +
QE31 + + + + + + + - + + + + + + + + + +
QE32 + + + + + + + - + + + + + + + + + +
QE33 + + + + + + + - + + + + + + + + + +
QE34 + + + + + + + - + + + + + + + + + +
QE35 + + + + + + + - + + + + + + + + + +
QE36 + - + + + - + - - + + + + + + + + +
QE37 + + + + + - + - - - + + + + + + + +
QE38 - + - - + - - - - + - - - + + - - +
QE39 + + + + + + + - + + + + + + + + + -
QE40 + + + + + + + - + + + + + + + + + -
QE41 + + + + + - - - + + + + + + + + + +
QE42 + + + + + + + + - + + + + + + + + +
QE43 + + + + + - - + - + + + + + + + + -
QE44 + + + + + - - - - + + + + + + + + -
QE45 + + + + + + + - + + + + + + + + + +
QE46 + + + + + + + - + + + + + + + + + +
QE47 + + + + + + + - - + + + + + + + + -
QE48 + + + + + + + - + + + + + + + + + -
QE49 + + + + + + + - + + + + + + + + + +
QE50 + + - + + + + + + + + + + + + + + -

Tab. H.4 – Signe de relation linéaire de Pearson entre les indicateurs du


QE37 QE38 QE39 QE40 QE41 QE42 QE43 QE44 QE45 QE46 QE47 QE48 QE49 QE50
QE01 + - + + + + + + + + + + - +
QE02 - + + + + + + + + + + + + +
QE03 + - + + + + + + + + + + + +

secteur E.
QE04 + + + + + + + + + + + + + +
QE05 + + + + + + + + + + + + + +
QE06 + + + + + + + + + + + + + +
QE07 - - - + + + + + + + - - + +
QE08 - + + + + + + + + + + + + +
QE09 + + + + + + + + + + + + + +
QE10 + + + + + + + + + + + + + +
QE11 + + + + + + - - + + + + + +
QE12 + + + + + + + + + + + + + +
QE13 - + + - + + + + + + - - - -
QE14 - - + + + - - - + - - + + -
QE15 + + + - + + + + + + + + + +
QE16 + - + + + + + + + + + + + +
QE17 + + + + + + + + + + + + + +
QE18 + - + + + + + + + + + + + -
QE19 + - + + + + + + + + + + + +
QE20 + + + + + + + + + + + + + +
QE21 - - + + - + - - + + + + + +
QE22 + - + + - + - - + + + + + +
QE23 - - - - - + + - - - - - - +
QE24 - - + + + - - - + + - + + +

144
QE25 - + + + + + + + + + + + + +
QE26 + - + + + + + + + + + + + +
QE27 + - + + + + + + + + + + + +
QE31 + - + + + + + + + + + + + +
QE32 + + + + + + + + + + + + + +
QE33 + + + + + + + + + + + + + +
QE34 + - + + + + + + + + + + + +
QE35 + - + + + + + + + + + + + +
QE36 + - - - + + - - + + - - + -
QE37 + - - - + + - - + + - - + -
QE38 - + - + + + + + + + + - - -
QE39 - - + + + + + + + + + + + -
QE40 - + + + + + + + + + + + + +
QE41 + + + + + + + + + + - - + +
QE42 + + + + + + + + + + - + + +
QE43 - + + + + + + + + + - + + +
QE44 - + + + + + + + + + - + + +
QE45 + + + + + + + + + + + + + +
QE46 + + + + + + + + + + + + + +
QE47 - + + + - - - - + + + + + -
QE48 - - + + - + + + + + + + + -
QE49 + - + + + + + + + + + + + +
QE50 - - - + + + + + + + - - + +

Tab. H.5 – Signe de relation linéaire de Pearson entre les indicateurs du


Annexe I
I.1 Segmentation des filiales du secteur B
La figure I.1 montre les micro-classes obtenues en appliquant l’algoritthme
de Kohonen sur une grille de taille 3×4 et pour 5000 itérations.

Fig. I.1 – Les classes de kohonen, regroupées en 4 macro-classes, après 50000


itérations.

145
La CAH appliquée sur les vecteurs codes est représentée sur la figure I.2.

Fig. I.2 – Classification hiérarchique appliquée sur les vecteurs codes.

146
Annexe J
J.1 Segmentation des filiales du secteur C
La figure J.1 montre les micro-classes obtenues en appliquant l’algoritthme
de Kohonen sur une grille de taille 3×3 et pour 4000 itérations.

Fig. J.1 – Les classes de kohonen, regroupées en 6 macro-classes, après 40000


itérations.

147
La CAH appliquée sur les vecteurs codes est représentée sur la figure J.2.

Fig. J.2 – Classification hiérarchique appliquée sur les vecteurs codes.

148
Annexe K
K.1 Segmentation des filiales du secteur D
La figure K.1 montre les micro-classes obtenues en appliquant l’algo-
ritthme de Kohonen sur une grille de taille 3×3 et pour 4000 itérations.

Fig. K.1 – Les classes de kohonen, regroupées en 4 macro-classes, après 40000


itérations.

149
La CAH appliquée sur les vecteurs codes est représentée sur la figure K.2.

Fig. K.2 – Classification hiérarchique appliquée sur les vecteurs codes.

150
Annexe L
L.1 Segmentation des filiales du secteur E
La figure L.1 montre les micro-classes obtenues en appliquant l’algo-
ritthme de Kohonen sur une grille de taille 3×3 et pour 4000 itérations.

Fig. L.1 – Les classes de kohonen, regroupées en 4 macro-classes, après 40000


itérations.

151
La CAH appliquée sur les vecteurs codes est représentée sur la figure L.2.

Fig. L.2 – Classification hiérarchique appliquée sur les vecteurs codes.

152
Annexe M
Description, représentation et
Prétraitement des données de la base
filiales/ratios

M.1 Introduction
Nous nous intéressons à la deuxième base de données fournie par l’en-
treprise, qui met en relation les filiales et les ratios. En fait, nous effec-
tuons la même démarche que celle que nous avons suivie pour la base fi-
liales/indicateurs (cf. chapitre 5). De plus, nous présentons quelques résultats
obtenus sur cette nouvelle base.

M.2 Description des données


L’entreprise SUEZ Environnement, en se basant sur les questionnaires re-
cueillis, établit une nouvelle base de données mettant en relation les filiales
(individus) et les ratios (variables). En fait, les ratios de chaque secteur sont
calculés à partir des indicateurs de ce secteur, par des expressions ou rela-
tions mathématiques décrites par les experts de l’entreprise.
Comme nous avons déjà traité la base de données filiales/indicateurs pour les
années 2001, 2002, 2003 et 2004, nous traitons maintenant la base de données
filiales/ratios correspondante.

Les données brutes sont présentées dans des fichiers Excel, les filiales sont
décrites par leur Contract Reference, et les secteurs sont toujours représentés
par les symboles A à F. Les nombres de ratios calculés dans chaque secteur

153
sont présentés dans le tableau M.1.

Secteur Nombre de ratios


A 26
B 42
C 30
D 27
E 36

Tab. M.1 – Nombre de ratios par secteur.

M.3 Caractéristiques des filiales


Afin d’évaluer caractéristiques des filiales, et comme nous l’avons fait au
chapitre 5, nous établissons un graphe qui permet de visualiser les caracté-
ristiques des individus pour un secteur et une année donnés. Par exemple,
nous représentons les caractéristiques des filiales du secteur A pour l’année
2004 ( figure M.1).

154
Fig. M.1 – Caractéristique des filiales du domaine A pour l’année 2004.

À l’intersection d’une ligne verticale avec une ligne horizontale, on affiche

155
un carré dont la couleur varie en fonction du status de la valeur du ratio :
valeur existante (couleur bleu), valeur manquante (couleur rouge foncé) ou
valeur inexistante (ou hors service, en couleur jaune). Nous remarquons que
les filiales qui ont des valeurs inexistantes (une ligne horizontale jaune) pour
un secteur donné sont les mêmes filiales que celles déjà identifiées lors du
traitement de la première base, ce qui est tout à fait normal.
Comment interpréter une ligne verticale jaune ? En fait en se référant à la
description détaillée des ratios, nous remarquons qu’il existe des ratios inuti-
lisables Not in use comme le ratio PIA06, ce qui implique le fait d’avoir un
ratio inexistant.

M.4 Valeurs manquantes


Il est utile de représenter le nombre de valeurs manquantes pour chaque
filiale dans un secteur et pour une année donnés, ce qui donne une idée pour
le traitement des valeurs manquantes. Comme exemple, nous représentons les
pourcentages des valeurs manquantes des filiales du secteur A pour l’année
2004 (voir figures M.2 et M.3).

Fig. M.2 – Pourcentage des valeurs manquantes pour les individus du do-
maine A, pour l’année 2004.

156
Fig. M.3 – Pourcentage des valeurs manquantes pour les individus du do-
maine A, pour l’année 2004.

Notons qu’une valeur négative dénote les individus qui ne traitent pas ce
secteur. Comme nous l’avons fait au chapitre 5, nous avons déterminé d’une
manière heuristique qu’il n’est pas pertinent de reconstituer des individus
dont plus que 30 % des valeurs sont manquantes dans un secteur donné. Il
n’est pas non plus pertinent de laisser des variables (ratios) dont plus de
50% des valeurs sont manquantes. Nous dressons cinq nouveaux tableaux,
où chaque tableau concerne un secteur et non pas une année. Les données
concernant chaque secteur (dans la période de 4 ans) seront stockés les unes
au dessous des autres dans les tableaux. Nous éliminons les filiales dont plus
de 30 % des valeurs sont manquantes dans un secteur et pour une année don-
née, et des variables (ratios) dont plus de 50% des valeurs sont manquantes et
des individus qui ne travaillent pas sur un secteur donné, nous obtenons cinq
nouveaux tableaux, dont les dimensions sont résumés dans le tableau M.2.

Une fois ces nouveaux tableaux générés, nous effectuons la transforma-


tion z-scores et nous appliquons la même technique d’estimation que celle
appliquée au chapitre 5. Dans la suite de notre étude de la base de données
filiales/ratios, nous utiliserons ces nouveaux tableaux.

157
Secteur Dimensions des ratios
A 162 ×23
B 155 ×39
C 116 ×28
D 109 ×26
E 125 ×32

Tab. M.2 – Nouvelle représentation des données.

M.5 Valeurs atypiques


Pour détecter les valeurs atypiques, nous appliquons une technique, dite
informelle, basé sur la représentation du nuage de points dans les deux pre-
miers axes principaux obtenus par ACP (cf. chapitre 5). Nous représentons
en exemple les valeurs atypiques du secteur A.
les valeurs atypiques détectées dans les différents secteurs sont résumées dans
le tableau M.3.

Secteur filiales atypiques


A 21, 31, 55, 28
B 37, 42, 43
C 28, 48, 43
D 28, 44, 55, 90, 42
E 63, 96

Tab. M.3 – Valeurs atypiques détectés dans les différents secteurs.

158
Fig. M.4 – Représentation des données atypiques

159
Bibliographie

[1] François-Xavier Jollois. Contribution de la classification automatique à


la fouille de données. Thèse de Doctorat, Université de Metz, 12 dé-
cembre 2003.
[2] E-G.Talbi. Fouille de données(Data Mining)-Un tour d’horizon-. Labo-
ratoire d’informatique de Lille.
[3] Viviane Planchon. Traitement des valeurs aberrantes : concepts actuels
et tendances générales. Biotechnol.Argon.Soc.Environ.2005 9(1), 19-34.
[4] M.Cruciano,Jean-pierre Asselin de Beauville et R.Boné. Méthodes fac-
torielles pour l’analyse des données. Lavoisier,Paris,2004.
[5] Gérard Govaert et Christophe Ambroise. DEA Majeur TIS, TI01-
Analyse des données. Université de Technologie de Compiègne.
[6] A.P.Reynolds, G.Richards et V.J.Rayward-Smith. The application of k-
medoids and PAM to clustering of rules. Université de East Anglia, Nor-
wich.
[7] Bernard Dubuisson. Diagnostic et reconnaissance des formes. Hermès,
Paris, 1994.
[8] Youssef Harkouss. Application de réseaux de neurones à la modélisation
de composants et de dispositifs de micro-ondes non linéaires. Thèse de
Doctorat. Université de Limoges, 8 décembre 1998.
[9] Gérard Govaert et Christophe Ambroise. Module SY09. Université de
Technologie de Compiègne.
[10] Patrick Letrémy. Traitement de données qualitatives par des algorithmes
fondés sur l’algorithme de Kohonen. Université de Paris 1.

160