Marie-Anne Dujarier
i
DEDICACE
A mon Dieu qui est fidèle à ses promesses et qui ne laisse pas celui qui se confie en
lui.
A mes parents Auguste et Berth PANZU pour l’ensemble de sacrifices consentis pour
ma vie.
A mon oncle Alexis MVUMBI qui s’est donné corps et âme pour ma formation, les
mots ne suffiront pas pour t’exprimer ma reconnaissance.
A ma tante Chouna MVUMBI et ma grand-mère Lucie MALONDA, je vous remercie
du plus profond de mon cœur.
ii
REMERCIEMENTS
Au terme de notre second cycle universitaire, l’opportunité nous est
permise d’adresser nos sentiments de reconnaissance à tous ceux qui, de diverses
manières, ont contribué à notre formation intellectuelle.
Nous tenons à remercier très particulièrement le Professeur Docteur
KAFUNDA KATALAY Pierre qui, malgré ses multiples et lourdes occupations a bien
voulu assurer la direction de ce travail. Ses conseils et remarques pertinents nous ont
permis d’atteindre l’objectif de notre travail. Qu’il trouve ici l’expression de notre
profonde reconnaissance.
Je remercie l’ensemble de ma famille et en particulier : Tonton Tezo
SILUVANGI, Tonton Gauthier KINI, Tantine Alphonsine BINDA, Tantine Prisca Lendo,
Tonton Servais LENDO, Tantine Arlette LENDO, Tantine Ruth PANZU, Maman
Pélagie, Edmond PANZU, Léonce MATONDO, Béni MUMBA, Merveille KINI, Vato
DUMBI, Glody ILUNGA, Stephie PHEMBA, Laeticia TSASA, Jeancy MOUSTAPHA,
Arlette PHOLA, Fr Paul BASENDE, Rosycoeur MAVUNGU.
La famille n’est pas simplement constituée des personnes ayant le lien
du sang avec nous, sur ce je remercie : le Père Hugues DANAKPALI, Mr Sagesse
KAYEMBE, Jean KALOMBO, Roland LUABEYA, Richard TSHIMANGA, Audry NDULU,
Merveille FUKIAU, Romeo MIZANGI, Serge MOMPANGO, Brunnel MAKEBA, Freddy
MUGBANGA, Sylver BEKUNYA, Aminata MATALATALA, Ben Cibangu, Sarah
KAMWANYA, Joel KALOMBO, Celia IYAMULENIA, L’OR, Stacy LIYANZA, Andy
MUAKA, Baku MPO.
Mes remerciements particuliers aux couples : Gauthier et Geneviève
KINI, Tezo et Gladis SILUVANGI, Alexis et Mamie MVUMBI, Vital et Therese MBUMBA,
Vital Evan et Noella MBUMBA, Servais et Lina MASELA, Alain et Arlette MBUYU,
Michel et Josée KISUBI.
Mes remerciements s’adressent aussi à Papa Barthélémy MASUAKA, à
l’ensemble de frères et sœurs du Centre Evangélique la Trinité et plus
particulièrement à : Papa Matthieu, Papa José, Sr Emily, Papa Bobo, Fr Didier, Fr
Hobed, Fr Rémy, Sr Elisabeth, Fr Patrick.
Pour clore, nous remercions très particulièrement tous les lecteurs de notre travail et
nous leurs souhaitons une très bonne lecture.
Je vous remercie.
Berto NTANGU
iii
AVANT-PROPOS
Actuellement l’informatique est parmi les sciences qui sont en constance
évolution et qui interviennent dans plusieurs autres domaines importants de la vie
de l’homme. Ces dernières années nous assistons à plusieurs innovations et
inventions dans les domaines tels que la reconnaissance de forme, la fouille de
données etc.
iv
TABLE DES MATIERES
EPIGRAPHE .................................................................................................................................................... i
DEDICACE .................................................................................................................................................... ii
AVANT-PROPOS ....................................................................................................................................... iv
v
I.4.2 Apprentissage non supervisé ............................................................................................ 11
Conclusion.............................................................................................................................................. 14
II.1.2 Divergence entre les Systèmes OLTP et les Data Warehouse ................................. 18
Conclusion............................................................................................................................................. 35
vi
III.6.1 Algorithme ID3 ( I t e r a c t i v e D i c h o t o m i s e r 3 ) ............................................... 42
Conclusion............................................................................................................................................. 43
CONCLUSION GENERALE..................................................................................................................... 55
Bibliographie ............................................................................................................................................. 56
Ouvrage ................................................................................................................................................. 56
Mémoires ............................................................................................................................................... 56
Webographie........................................................................................................................................ 56
vii
LISTE DES ABREVIATIONS
API : Application Programming Interface
CAH : Classification Ascendante Hiérarchique
CART: Classification And Regression Trees
ETL : Extract Transform Loading
ID3 : Iteractive Dichotomiser 3
KNN : K Nearest Neighboars
KPPV : K Plus Proche Voisin
MOLAP: Multidimensional On Line Analytic Processing
OLAP: On Line Analytic Processing
OLTP: On Line Transaction Processing
RN : Réseau de Neurone
ROLAP: Relational On Line Analytic Processing
SQL : Structured Query Language
SSAS : SQL Server Analysis Service
SSIS : SQL Server Integration Service
SVM : Support Vector Machine
Weka: Waikato Environment for Knowledge Analysis
vii
i
LISTE DES FIGURES
Figure I.1 Diversité de l'Apprentissage Artificiel .................................................................... 5
Figure I.2 K plus proche voisins ................................................................................................ 9
Figure I.3 Dendrogramme ........................................................................................................12
Figure II.1 Schéma d’un modèle en Etoile .............................................................................21
Figure II.2 Schéma d’un modèle en Flocon ......................................................................... 22
Figure II.3 Schéma d’un modèle en Constellation ............................................................. 23
Figure II.4 Architecture d'un Data Warehouse ................................................................... 25
Figure III.1 Arbre de décision ................................................................................................... 37
Figure IV.1 Schéma Data Warehouse .................................................................................... 47
Figure IV.2 Cube ......................................................................................................................... 48
Figure IV.3 Classification ........................................................................................................... 49
Figure IV.4 Résultats .................................................................................................................. 49
Figure IV.5 Paramètres pour l’éxecution de l’algorithme de C4.5, implémenter dans
Weka ..............................................................................................................................................51
Figure IV.6 Arbre de décision ................................................................................................. 52
Figure IV.7 Resumé du déroulement de l’algorithme ....................................................... 53
ix
LISTE DES TABLEAUX
Tableau II.1 Comparaison entre un Data Warehouse et un Data Mart ........................ 28
Tableau IV.1 Résultats de la segmentation avec K-Means............................................... 50
Tableau IV.2 Matrice de Confusion ....................................................................................... 53
x
INTRODUCTION GENERALE
1
Avec l’avènement de Datamining, il existe plusieurs méthodes
permettant d’apprendre à partir de données.
L’objectif à atteindre est de construire des classes des abonnés à partir de leur
comportement. En clair, nous voulons avoir un tableau de bord pouvant permettre
aux décideurs de bien orienter leur décision.
2
pour le traitement de grand volume de données et la segmentation qui
permet de diviser les données en classes.
Arbre de décision : Ce troisième chapitre a été à la base de nos interprétations.
Conception et implémentation du système : Au quatrième chapitre nous
avons conçu notre système.
3
CHAPITRE
4
Figure I.1 Diversité de l'Apprentissage Artificiel [14]
I.3.1 Individu
Par définition un individu est un élément d’un ensemble, généralement
appelé population (ou ensemble d’individus), dont on mesure la valeur qu’il a pour
la ou les variable(s) étudiée(s).
Un individu sera noté par : xi ∈ X avec X ensemble d’individus
I.3.2 Variable
Nous pouvons définir une variable comme étant une fonction qui
permet d’affecter à chaque individu une valeur donnée sur le domaine d’observation.
yh : X → Oh
xi : → yh (xi ) (I.1)
Avec :
X : Ensemble d’individus
5
Oh : Domaine d’observation. Dans notre cas, ce domaine n’est constitué que
des valeurs uniques classiques.
Nous distinguons plusieurs types de variables :
- Les variables quantitatives ;
- Les variables qualitatives ;
- Les variables floues ;
- Les variables symboliques.
Pour notre travail, nous avons utilisé les variables quantitatives et qualitatives.
a. Modalité
Une modalité est un ensemble des valeurs que la variable peut prendre.
Chaque variable qualitative comporte plusieurs modalités.
Exemple : Le sexe a comme modalité Masculin ou Féminin
6
b. Variable ordinale
Une variable qualitative ordinale prend des valeurs qui sont ordonnées
ou hiérarchisées. Nous pouvons classer les modalités les unes par rapport aux autres
mais on ne peut pas dire à partir de cet ordre de combien et la différence entre deux
modalités.
Exemple : Lors d’un audit, les réponses du genre : pas du tout, un peu, assez,
beaucoup.
I.3.3 Classe
Une classe est un sous-ensemble des éléments équivalents entre eux,
selon une relation d’équivalence précise.
I.3.5 Classifieur
Un classifieur est un algorithme qui après avoir été construit, est en
mesure de réaliser les tâches d’affectation. C’est-à-dire prédire la classe d’affectation
pour un nouvel individu qui se présente.
7
I.4.1.1 Définition
L'apprentissage supervisé est une technique d'apprentissage artificiel où
l'on cherche à produire automatiquement des règles à partir d'une base
d'apprentissage contenant des exemples (en général des cas déjà traités et validés).
a. Principe
Les techniques d’arbre de décision fonctionnent de la manière suivante,
nous organisons l’ensemble des tests possibles comme un arbre ayant des feuilles
qui désignent des classes tout en sachant que chaque classe peut correspondre à
plusieurs feuilles et chaque nœud est associé à un test portant sur un ou plusieurs
attributs, éléments de l’espace de représentation. La réponse à ce test désignera le
fils du nœud vers lequel on doit aller. La classification s’effectue donc en partant de
la racine pour poursuivre récursivement le processus jusqu’à ce qu’on atteigne des
feuilles. Dans le déroulement de l’algorithme, nous devons calculer l’entropie et le
gain d’information pour la détermination de la racine ainsi que de nœuds qui en
suivront.
Nous le verrons plus en détail dans la suite de ce travail.
8
I.4.1.2.2 K plus proche voisin (K nearest neighboars)
Le K plus proche voisin est un algorithme de l’apprentissage supervisé
qui se concentre plus sur la classification de données. L’algorithme ne possède qu’un
seul paramètre qui est évidement le nombre 𝑘 de voisins à prendre en compte.
a. Similarité ou la dissimilarité
Nous nommons similarité ou dissimilarité toute application à valeur
numériques qui permet de mesurer le lien entre les individus d’un même ensemble.
En ce qui concerne la similarité entre les individus, pour deux individus plus la valeur
est grande plus leur lien est fort.
Pour la dissimilarité, plus le lien est fort, plus la valeur est faible ou petite. Pour arriver
à calculer ces mesures il faudra utiliser la notion de distance.
9
1. Distance
Une distance est une application qui associe un réel positif à un couple
de point. C’est-à-dire une application définie comme suit :
d: X × X → ℝ+
Elle doit vérifier les conditions suivantes :
∀ X i , X j ∈ X; d(X i , X j ) = 0 ⇒ X i = X j (propriété d′ identité) (1);
∀ X i , X j ∈ X; d(X i , X j ) = d(X j , X i ) (propriété de symétrie) (2); (I.2)
∀ X i , X j , X k ∈ X; d(X i , X j ) ≤ d(X i , X k ) + d(X k , X j ) (inégalité triangulaire) (3).
En ce qui concerne la dissimilarité, il faut nécessairement vérifier les conditions (1) et
(2).
2
(I.5)
p
d(xi , xj ) = √∑k=1 Pk (xi,k − xj,k )
b. Principe
L’algorithme de K plus proche voisin consiste à calculer les distances du
point à classer aux points d’apprentissage, et à trouver au fur et à mesure les k plus
faibles distances parmi tant d’autre, pour choisir la classe majoritaire dans les 𝑘 points
d’apprentissage ainsi sélectionnés. Ce n’est qu’au démarrage de l’algorithme que
l’on choisit les centres de classes aléatoirement, après la première itération, il faut
calculer les nouveaux centres et comparer la distance de chaque individu par rapport
aux nouveaux centres. L’algorithme s’arrête lorsqu’il y a stabilité dans les classes.
10
c. Algorithme
Entrée : β, x, k
Début
Pour tout (xi , yi ) ∈ β faire
Calculer δ(xi , x)
Fin pour
Y=EnsClass(β)
Pour j=1 à |Y| faire
CmptrCl[ j ]=0
Fin pour
Pour l=1 à k faire
Vppv[ l ] ← arg min δ(xi , x)
i∈{1,…,|β|}
δ(xVppv[ l ] , x) ← M
CmptrCl[indice(Y, yVppv[ l ] )] ←CmptrCl[ indice(Y, yVppv[ l ])]+1
Fin pour
Classex ← Y[arg max CmptrCl[i] ]
i∈{1,…,|Y|}
Fin
11
Nous avons pour ces méthodes, les méthodes de classification ascendante
hiérarchique et la classification descendante hiérarchique.
a. Principe
Au départ chaque individu forme une classe, soit n classes. On cherche
à réduire le nombre des classes de telle sorte que les nouvelles classes soient
inférieures à n. Et puis à chaque étape, on fusionne deux classes, réduisant ainsi le
nombre des classes. Les classes choisies pour être fusionnées sont celles qui sont les
plus proches, en d’autre termes celles dont la dissimilarité entre elles est minimale,
cette valeur de dissimilarité est appelée indice d’agrégation. Comme on rassemble
d’abord les individus les plus proches, la première itération a un indice d’agrégation
faible, mais celui-ci va croitre d’itération en itération.
12
b. Algorithme
Paramètres requis : le tableau de données 𝑋
initialiser les 𝑛 groupes en raison d’une donnée par groupe :𝐺𝑖 ← 𝑥𝑖
marquer tous les 𝐺𝑖 comme « prenable »
pour 𝑑 de 𝑛 + 1 à 2𝑛 − 1 faire
chercher les deux groupes prenables à fusionner : 𝐺𝑖 et 𝐺𝑗
les fusionner : 𝐺𝑑 ← 𝐺𝑖 ∪ 𝐺𝑗
marquer 𝐺𝑖 et 𝐺𝑗 comme « non prenable »
marquer 𝐺𝑑 comme « prenable »
fin pour
13
Conclusion
Tout au long du présent chapitre, nous avons parlé de l’apprentissage
artificiel qui permet aux machines dans le sens large d’évoluer et d’accomplir
certaines tâches sans l’aide de l’homme. Nous avons présenté deux types
d’apprentissage artificiel qui sont : l’apprentissage supervisé et non supervisé.
Dans l’apprentissage supervisé, nous avons vu que cela consister à extrapoler des
nouvelles connaissances à partir d’un échantillon. Et il est composé de plusieurs
algorithmes comme nous l’avons évoqué plus-haut.
Dans l’apprentissage non supervisé, nous avons vu qu’il consiste à ressortir
l’information enfouie par de grande quantité de données en vue de détecter dans
ces données des tendances cachées.
14
CHAPITRE
II
DATA WAREHOUSE ET
SEGMENTATION DE DONNEES
[3] [4] [6] [7] [8] [10] [1 1] [1 2] [1 5]
Nous utiliserons l’une de méthodes de Data Mining, qui dans notre cas
sera l’apprentissage non supervisé pour pouvoir mettre en évidence les informations
cachées par le grand volume de données.
Pour cela nous avons subdivisé notre chapitre en deux partie :
En premier lieu, nous verrons ce quoi un Data Warehouse et les concepts apparents
de ce-dernier ;
En second lieu, nous parlerons de l’apprentissage non supervisé, plus précisément
de la Segmentation de données.
15
II.1 Data Warehouse [6]
II.1.1 Introduction
16
L’application de modélisation ;
Les métadonnées.
II.1.1.3 Définition
Un Data warehouse est un ensemble de données intégrées, orientées sujet,
non volatiles, gérées dans un environnement de stockage particulier, historisées,
résumées, disponibles pour l’interrogation et l’analyse et organisées pour le support
d’un processus d’aide à la décision.
a. Historisées
Le stockage en un lieu unique et centralisé de toutes les informations
d’une entreprise offre un avantage majeur. Avec le Data Warehouse nous avons la
possibilité d’analyse le passé et le présent afin de prédire l’avenir de l’entreprise.
b. Orientées sujet
Le Data Warehouse est centré au tour des sujets majeurs de l’entreprise.
Le bien-fondé de cette manière de faire est d’avoir en sa possession l’ensemble
d’information utile sur un sujet, le plus souvent transversal aux structures
fonctionnelles et organisationnelles de l’entreprise.
c. Intégrées
Le Data Warehouse est alimenté par les données provenant des
différentes sources de l’entreprise (Comptabilité, Finance, Ressources Humaines,
Audit…). L’intégration de l’ensemble de ces informations consiste à résoudre les
problème d’hétérogénéité des systèmes de stockage, des modèles de données, de
la sémantique de données.
d. Non volatiles
Le Data warehouse se différencie des bases de données par la
conservation de l’information. En effet avec le Data Warehouse, tout ce qui entre ne
ressort plus c’est-à-dire l’accès est en écriture et lecture seule.
17
e. Résumées
Les informations provenant de différentes sources, après leurs arrivées
dans le Data Warehouse doivent être mise ensemble pour constituer un tout
cohérent pour permettre une bonne prise de décision.
18
présenter les données non plus sous forme de tables comme dans le modèle
Entité/Association mais sous forme de cube centré sur une activité.
19
Ensuite nous dévons dénormaliser toutes les autres tables en table non séquentielle
dotées de clés uniques qui les relient directement aux tables des faits. Elles
deviennent ainsi des tables dimensionnelles. S’il arrive qu’une table dimensionnelle
soit reliée à plusieurs tables des faits, nous représentons cette table dimensionnelle
dans deux schémas et nous dirons que ces tables dimensionnelles sont conformes
d’un modèle à l’autre.
20
i. Tables de faits
La table de faits est un élément capital du modèle dimensionnel car ce là
que sont stockés les indicateurs de performances. Le concepteur s’efforce de
considérer comme indicateurs les informations d’un processus d’entreprise dans un
système d’information. Les indicateurs étant les données les plus volumineuses d’un
système d’information, on ne peut se permettre de les dupliquer dans d’autres tables
mais de les rationaliser au sein de la table de faits.
T_FAIT
Id_Fait
T_Dim4 T_Dim2
Id_1
Id_4 Id_2 Id_2
Id_3
Id_4
21
II.1.3.5.3 Schéma en Flocon
Le schéma en flocon normalise les dimensions pour éliminer les
redondances. Autrement dit, les données de dimensions sont stockées dans plusieurs
tables et non dans une seule table de grande taille. Cette structure de schéma
consomme moins d’espace disque, mais comme elle utilise davantage de tables de
dimension, elle nécessite un plus grand nombre de jointures de clé secondaire. Les
interrogations sont par conséquent plus complexes et moins performantes.
T_Dim2
T_Dim Id_2
T_Dim 1
Id_1
Id_33 Id_2
T_Fait
Id_8
Id_F
Id_1
T_Dim
Id_3 T_Dim
Id_99
T_Dim4 Id_4 Id_88
Id_7
Id_4
T_Dim T_Dim
7 6
Id_7 Id_6
Id_4 Id_7
22
T_Dim
T_Dim Id_22
T_Dim
Id_11 T_Fait
Id_33 2
Id_f2
T_Fait1
Id_2
Id_f1 Id_8
Id_1 Id_9 T_Dim
Id_3 T_Dim Id_1 Id_88
Id_4 9
T_Dim4 Id_9
Id_9
Id_4
Les données ayant été identifiées, elles doivent être extraites de leurs
système sources, transformées puis acheminées jusqu’aux serveurs de présentation.
Elles sont ensuite mises à la disposition des utilisateurs dans le but d’être utilisées
efficacement par les clients du Data Warehouse.
Nous avons ainsi deux parties qui se dégage clairement :
- La Zone de construction (Back room) : qui est un milieu où les données sont
collectées et préparées pour les utilisateurs ;
23
- Les outils frontaux (Front room) : représentent l’ensemble des outils qui sont
utilisés pour livrer les données traitées au niveau de la zone de construction
aux utilisateur.
24
Zone de Construction (Back Room) Outils Frontaux (Front Room)
Catalogue des
Systèmes Métadonnées
Outils de
génération
Service des d’état
-Extraction requêtes et
SQL DATA
- WAREHOUSE Outils bureautique
Transformati Zone de d’accès aux données
on
Préparatio DATA
MS n MART
Access Modèle d’application et
Des Data Mining
données Serveur
OLAP
Fichier
Système opérationnel/en
Contenant que des Données aval
agrégées
Serveurs de présentation Les Clients du Data
Fichier
25
II.1.5 Construction du Data Warehouse
Imaginons qu’une entreprise décide de se construire un Data Warehouse,
étant donné qu’il dispose de ses informaticiens. Les informaticiens dégagent un état de
besoin ainsi que les préalables nécessaires pour la mise en œuvre prochaine du
système. A cela il faut ajouter la conception logique et physique du Data Warehouse.
26
II.1.6 Alimentation du Data Warehouse par les outils ETL
Un Data Warehouse est alimenté principalement par les différentes bases de
données de l’entreprise. En effet, dans la vie quotidienne d’une entreprise, elle produise
ou génère via ses applications une grande quantité d’information qui servira d’aliment
pour notre Data Warehouse.
Nous montrerons quelques outils et méthodes qui permettent d’alimenter un Data
Warehouse tout en minimisant l’impact sur les systèmes de productions.
Une très grande partie des entreprises, leurs système d’informations sont de nature
hétérogène, du fait que les entreprises font souvent évoluer leurs systèmes au fur et en
mesure qu’elles évoluent. Donc dans les entreprises, nous nous retrouvons confronter
au problème de formats de données, qui est évident vu que plusieurs type
d’information circule dans une entreprise.
Avant d’être utilisables, les données de l’entreprise doivent être mises en forme,
nettoyées et consolidées. Les outils de ETL permettent d’automatiser ces traitements et
de gérer les flux de données qui alimentent le Data warehouse.
Les outils de ETL font référence à plusieurs opérations qui s’articulent autour de trois
axes majeurs :
Extract ;
Transform ;
Load.
27
prendre un temps assez long, avec le temps cela peut devenir mécanique et moins
complexe. Il est nécessaire de définir et de mettre en place :
- Des stratégies pour assurer de bonnes conditions à sa réalisation ;
- Une politique de rafraîchissement.
Un Data Mart ressemble en fait à un Data Warehouse sauf qu’il est moins
générique. Une approche courante consiste à maintenir des informations détaillées au
niveau du Data warehouse et à les synthétiser dans un Data mart pour chaque groupe
ou département fonctionnel.
Les caractéristiques propres aux Data Mart sont :
Les données sont spécialisées pour un groupe ou département particulier ;
Ils sont conçus pour un accès facile ;
Le temps de réponse est optimal pour un volume de requêtes moindre ;
Les différents Data Marts indépendants peuvent être dynamiquement couplé
pour se métamorphoser en Data Warehouse ;
Les Data Marts sont plus flexibles que les Data Warehouse.
Développé sur la base de données Développé sur les bases des besoins
actuelle utilisateurs
28
Le Data Mart constitue une solution rapide, simple et spécialisée pour les différents
départements d’une entreprise. Mais une utilisation abusive de Data mart risquerait de
créer des ennuis dans le fonctionnement interne de l’entreprise. Et durant leurs
conception, l’accent sur une vue d’ensemble est nécessaire pour éviter les
désagréments.
II.1.8 OLAP
29
déconseillé d’accéder en direct à des bases de données de production pour faire des
analyses tout simplement pour des raisons des performances.
a) Drill-Down et Drill-Up
Le Drill-Down et Drill-up désigne la faculté d’aller du niveau global vers le
niveau détaillé, et inversement. Ce mécanisme est totalement basé sur la notion de
hiérarchie.
Chaque axes d’analyse se décompose en attributs reliés entre eux par des
relations père/fils. Une dimension doit normalement pouvoir comporter plusieurs
hiérarchies.
Exemple La dimension Produit peut contenir une hiérarchie marque-article et une
hiérarchie secteur-segment-article.
Le mécanisme de Drill-Down se fera ainsi de la marque vers l’article et du secteur vers
le segment puis vers l’article. La mise en œuvre de cette fonctionnalité n’est cependant
pas toujours aussi simple.
b) Data Surfing
Le Data Surfing est la possibilité de laissée à l’utilisateur de circuler librement,
de manière intuitive et ergonomique dans un modèle dimensionnel, au-delà d’un
simple Drill-Down ou Slice and dice. L’utilisateur peut alors modifier dynamiquement
ses axes d’analyse ou appliquer un nouveau filtre à ses données. Ces mécanismes
s’appliquent sur le modèle défini soit par l’administrateur, soit par l’utilisateur.
30
II.2 Segmentation de données [6] [7] [10] [14]
Avec l’automatisation de la gestion des systèmes d’information, ceux-
derniers ont tellement évolués et avec le temps ils ont accumulés de très grande
quantité d’information. Alors compte tenu de la masse d’information qu’il contient cela
a tendance à cacher certaines informations vitales pour l’entreprise.
La segmentation de données ou clustering en anglais ou encore la
classification automatique est l’une de méthode de l’apprentissage non supervisé qui
vise à extraire les informations enfuies par le grand volume de données pour découvrir
de tendances cachées.
II.2.1 Définition
La segmentation de données est une méthode d’apprentissage non supervisé
qui consiste à partitionner une population hétérogène en des sous-groupes homogènes
appelés classe ou cluster de tel sorte que les individus d’une même classe se ressemble
(homogénéité intraclasse) et les individus appartenant dans des classes différentes se
diffèrent (hétérogénéité interclasse).
Par rapport à ce que nous avons évoqué ci-haut, il y a certaines notions qui
se dégagent clairement :
- Centre de gravité ;
- Inertie ;
- Inertie intraclasse ;
- Inertie interclasse.
31
précédente où g est remplacé par g i , g i étant le centre de gravité des points propres
à Gi .
32
II.2.4.2.1 Méthodes de centre mobiles (K-means)
Le partitionnement en K-means est une méthode de partitionnement de
données. Nous avons un ensemble des points et un entier 𝑘, le but est de diviser les
points en 𝑘 groupes, souvent appelés clusters, de façon à minimiser une certaine
fonction.
a) Principe
La méthode de K-means procède de la manière suivante :
- Dans la première étape, elle consiste à tirer aléatoirement k individus de la
population. Ces individus représentent les centres provisoires des k classes qui
formeront la partition initiale. Ensuite, les autres individus sont regroupés autour
de ces centres en affectant chacun d’eux au centre le plus proche.
- La seconde étape consiste à recalculer les k nouveaux centres (dites aussi centres
de gravité) des k classes, sachant qu’un centre n’est pas nécessairement un
individu de la population. Le processus est répété plusieurs fois jusqu’à la stabilité
des centres des classes.
b) Algorithme
Choisir k centres g ∈ X aléatoirement
Tant que les centres changent Alors
Pour j = 1 à k Alors
Pour i = 1 à n Alors
Calcul de la distance d(X i , X j )
Fin Pour
Fin Pour
Affecter chaque observation Pi au centre qui lui est proche Cq
Recalculer les k centres
Nota : L’algorithme s’arrête lorsqu’il n’y a plus changement dans les classes donc
stabilité dans les classes.
33
II.2.4.2.2 Méthodes de nuées dynamiques
L’algorithme des nuées dynamiques est une généralisation du principe de la
division des observations en k partitions, pour laquelle chaque partition est représentée
par un noyau pouvant être plus complexe qu’une moyenne.
a) Principe
Soit, un ensemble de n individus. Chaque individu vi (vi ∈ I), muni de sa
masse vi est caractérisé par p variables.
Soient nous avons ce qui suit :
I : l’ensemble des individus à partitionner en k classes au maximum,
P(I) = {P0 , P1 , … , Pm , … , Pk } : ensemble des parties de I,
A un ensemble de k noyaux Ai ,
Nous supposons que l’espace Rd supportant les n points individus est muni
d’une distance appropriée, notée d.
Chaque classe est représentée par son centre Ai , également appelé noyau, constitué
du petit sous-ensemble de la classe qui minimise le critère de dissemblance. Les
éléments constitutifs d’un noyau sont appelés étalons.
Chaque individu vi (vi ∈ I), est par conséquent, caractérisé par sa masse μi et par la
distance d(vi , Ai ) qui le sépare du noyau de la classe.
La méthode des nuées dynamiques s’efforce de trouver deux applications π et v sur
lesquelles se basent l’algorithme. Toutes ces deux fonctions de base sont telles que :
P = π(A).
π est appelé la fonction de réallocation et elle a comme rôle de former une partition,
c’est-à-dire d’affecter chaque individu vi du nuage N(I) aux centres d’attractions que
forment les noyaux. A = v(P).
v est appelé la fonction de recentrage et elle a pour rôle de recalculer les nouveaux
noyaux à partir de classes déjà formées.
L’algorithme des nuées dynamiques est une succession d’appel à ces deux fonctions
ci-dessus.
34
b) Algorithme
Initialisation
- Le choix (au hasard ou non) des k premiers noyaux, 𝐴10 , … , 𝐴0𝑚 , … , 𝐴0𝑘 , induisant la
première partition 𝑃0 de l’ensemble I et k classes 𝐶10 , … , 𝐶𝑚
0
, … , 𝐶𝑘0 .
Conclusion
Dans ce chapitre que nous avons subdivisé en deux grande partie dont
en premier lieu nous avons parlé de Data Warehouse et en second lieu de Clustering
ou la segmentation de données.
35
CHAPITRE
36
III.2 Structure d’un arbre de décision
La structure d’un arbre de décision est constituée des éléments suivant :
- La racine ;
- Les nœuds internes (les nœuds qui ont des descendants, qui sont aussi à leur
tour des nœuds) ;
- Les feuilles (les nœuds qui n’ont pas de descendants).
La racine est le point d’entrée dans l’arbre, elle est déterminée par un
critère bien précise que nous verrons plus bas.
Les branches issus d’un nœud interne représentent les réponses possibles
au test du nœud.
A1 Racine
Branche
B1 B2 Nœud
Intermédiaire
C1 C2 C3 C4 Feuille
37
terminal de l’arbre) représentent soit une valeur de la variable-cible, ou une distribution
de probabilité des diverses valeurs possibles de cette dernière.
38
différentes variables d’entrée possibles et sélectionnent celle qui maximise un critère
donné. Dans le cas des arbres de classification, il s’agit d’un problème de classification
automatique. Le critère d’évaluation des partitions caractérise l’homogénéité (ou le
gain en homogénéité) des sous-ensembles obtenus par la division de l’ensemble. Ces
métriques sont appliquées à chaque sous-ensemble candidat et les résultats sont
combinés pour produire de la qualité de la séparation.
Il existe un grand nombre de critères de ce type, les plus utilisés sont l’entropie de
Shannon, l’indice de diversité de Gini et leurs variantes.
Définition
Soit X une variable aléatoire discrète, prenant n valeurs x1 , … , xn de
probabilités d’obtention respectives p1 , … , pn . On appelle coefficient de Gini, la
quantité :
G(X) = 1 − ∑ pi 2 , avec i = 1, … , n (III.1)
n n
G(X1 , X 2 ) = ( 1⁄n) ∗ G(X1 ) + ( 2⁄n) ∗ G(X 2 ) (III.2)
G(X1 , X 2 ) c’est l’indice de Gini pour une partition de X en deux sous-ensembles X1
et X 2 selon un test donné.
39
X v : les sous-ensemble de X qui contient les exemples qui ont la valeur v pour l’attribut
T.
III.4.1.3 Entropie
L’Entropie introduit par Shannon est une fonction mathématique qui,
intuitivement correspond à la quantité d’information contenue ou délivrée par une
source. Dans le présent cas, elle est utilisée pour mesurer la quantité d’information
apportée par un nœud.
Elle se calcule avec la formule suivante :
H(X) = − ∑ni=1 p𝑖 log 2 𝑝𝑖 (III.4)
Avec p𝑖 : la proportion des exemples dans 𝑋 qui ont 𝑖 comme valeur pour la fonction
visée.
|Xa=v | |Xa=v |
Avec : SplitInfo(X, a) = ∑v∈valeurs(a) |X|
ln2 |X|
(III.6)
40
plus l’on court le risque de voir ce modèle incapable d’être extrapolé à de nouvelles
données, c’est-à-dire de rendre compte de la réalité que l’on cherche à appréhender.
On cherche donc à construire un arbre qui soit le plus petit possible en assurant la
meilleure performance possible. Plus un arbre sera petit, plus il sera stable dans ses
prévisions futures.
III.5.1 Pré-élagage
Le pré-élagage est une stratégie utilisable pour éviter un sur-
apprentissage des arbres de décision, il consiste à proposer des critères d’arrêt lors de
la phase d’expansion. Dans le cas où le groupe est constitué d’un effectif trop faible,
ou lorsque l’homogénéité d’un sous-ensemble a atteint un niveau suffisant, on
considère qu’il n’est plus nécessaire de séparer l’échantillon. Un critère souvent
rencontré dans ce cadre est l’utilisation d’un test statistique pour évaluer si la
segmentation introduit un apport d’information significatif pour la prédiction de la
variable-cible.
III.5.2 Post-élagage
Le post-élagage est une stratégie qui consiste à construire l’arbre en deux
temps :
- Dans un premier temps, on produit d’abord l’arbre dont les feuilles sont le plus
homogènes possibles dans une phase d’expansion, en utilisant une première
fraction de l’échantillon de données.
- En second lieu, on réduit l’arbre en s’appuyant sur une autre fraction des
données de manière à optimiser les performances de l’arbre. C’est à ce niveau
que nous parlons de la phase de post-élagage.
41
III.6 Algorithmes de construction d’arbre de décision
En ce qui concerne la construction d’arbre de décisions, il existe plusieurs
algorithmes dont les plus répandus sont : ID3, C4.5, CART, CHAID.
Le modèle que produit ID3 est un arbre de décision. Cet arbre servira à
classer de nouveaux échantillons. Il permet aussi de générer des arbres de décisions
à partir de données. Supposons que nous ayons à notre disposition un
ensemble d’enregistrements ayant la même structure, à savoir un certain nombre de
paires d’attribut ou valeur. L’un de ses attributs représente la catégorie de
l’enregistrement. Le problème consiste à construire un arbre de décision qui sur
base de réponses à des questions posées sur des attributs non cible peut prédire
correctement la valeur de l’attribut cible.
a. Principe
Le principe de l’algorithme ID3 pour déterminer l’attribut à placer à la
racine de l’arbre de décision peut maintenant être exprimé :
Nous recherchons l’attribut qui possède le gain d’information maximum, le placer
en racine, et itérer pour chaque fils, c’est-à-dire pour chaque valeur de l’attribut.
b. Algorithme
Début
Initialiser à l'arbre vide ;
Si tous les exemples de E ont la même classe c
Alors étiqueter la racine par c ;
Sinon si l'ensemble des attributs A est vide
Alors étiqueter la racine par la classe majoritaire dans E ;
Si non soit a le meilleur attribut choisi dans A ;
Étiqueter la racine par a ;
Pour toute valeur v de a
Construire une branche étiquetée par v ;
Soit Eav l'ensemble des exemples tels que e(a) = v ; Ajouter
l'arbre construit par ID 3(A-{a}, Eav, c) ;
42
Fin pour
Fin sinon
Fin sinon
Retourner racine ;
Fin
Conclusion
Les arbres de décisions constituent des outils simples et faciles à interpréter
pour l’analyse et la prise de décision. Etant donné qu’ils fournissent des méthodes
efficaces qui permettent d’obtenir de bons résultats dans la pratique, avec des
algorithmes simples à utiliser. Concernant ce chapitre, nous avons parlé de quelques
algorithmes qui y sont implémenté. Les arbres de décision permettent d’affecter un
nouvel individu dans une classe déjà pré établie sur base de données existantes.
43
CHAPITRE
IV CONCEPTION ET
IMPLEMENTATION DU SYSTEME
[18]
IV.1.1.1. Définition
La télécommunication est toute transmission, émission et réception à
distance de signes, d’écrits, d’images, de sons ou de renseignements de toutes natures,
par fil électrique, par radioélectricité, liaison optique ou autres systèmes
électromagnétiques.
44
Pour ce travail, nous nous sommes référés à l’entreprise de télécommunication
Vodacom Congo.
IV.1.1.2. Services
IV.1.1.3. Caractéristiques
En ce qui concerne la télécommunication, pour bénéficier des services
offerts par ce dernier il faut du crédit ou unités et des forfaits.
a. Unités (Crédit)
Les unités sont une transformation d’une valeur monétaire en terme de
monnaie électronique pouvant nous permettre d’utiliser les services et offres offerts
par l’opérateur téléphonique.
Exemple : 100 Unités correspond à 1$ Américain.
b. Forfait
Un forfait désigne le prix qu’un consommateur est tenu de payer pour un
ensemble de prestation. La particularité d’un tarif forfaitaire est qu’il n’est pas du tout
dépendant de la manière dont l’acheteur utilise l’offre.
45
IV.1.2 Préparation de données
Pour le présent travail, nous avons utilisé une seule mesure qui est Unités,
cela nous a permis de comprendre le comportement sur la consommation de client
durant une période donnée.
c. Microsoft Office
Microsoft Office est une suite bureautique propriétaire de la société
Microsoft. Pour notre travail, nous avons utilisé l’un de ses composants Microsoft
Excel pour la préparation de données.
d. Statistica
Statistica est un logiciel d’analyse de données implémenté par Dell
Software. Pour notre travail cela nous a permis de faire la segmentation.
e. Weka
Weka est une suite de logiciels d’apprentissage automatique écrite en
Java et développée par l’université de Waikato en Nouvelle-Zélande.
Pour ce travail nous l’avons utilisé pour pouvoir générer l’arbre de décision en vue
de bien faire la prédiction.
46
IV.2.2 Modèle Multidimensionnelle
Le Data warehouse nous a servi de source de données pour cette étude.
Le choix porté sur ce dernier est justifié par certaines opérations importantes offertes
qui nous ont servis avant la segmentation.
Pour l’implémentation du Data Warehouse, nous avons eu besoin des éléments
suivants :
- Dimensions Client, Temps, Zone_Géographique ;
- Fait Recharger.
Voici le schéma du Data warehouse :
Après cela, nous sommes passés dans l’outil SSAS de Business Intelligence pour
l’implémentation du cube et son déploiement, après certaines étapes voici le cube
obtenu :
47
Figure IV.2 Cube
Après le déploiement du cube nous avons chargé les données dans notre base de
données décisionnelle en utilisant le SSIS.
a. Segmentation de données
Compte tenu de la forme brute de données en notre possession, nous ne
pourrions passer à l’arbre de décision sans pour autant segmenter nos données en
fin d’obtenir la variable dépendante qui nous servira dans les analyses qui suivront.
Pour cela nous nous sommes servis de l’algorithme de K-Means pour la
segmentation de données avec le logiciel Statistica.
48
Nous commençons par aller dans l’onglet Data Mining et puis l’option Classification :
49
Id MSISDN First_Name Last_Name Profession Credit Commune Classification finale Distance
1 829845299 NDULU AUDRY Etudiant 27,00 Kimbaseke Standard 0,019
2 819358792 LUABEYA SHAMBUYI Etudiant 18,00 Lemba Standard 1,000
3 810777278 BEKUNYA SYLVER Etudiant 16,00 Lemba Standard 0,032
4 816609591 MOMPANGO SERGE Avocat 555,00 Limeté Bon 1,005
5 818360107 MAVUBULA ADUEKA Etudiant 18,00 Kimbaseke Standard 0,005
6 821730559 DANAKPALI HUGUES Professeur 800,00 Mont Ngafula VIP 1,004
7 825073252 KALOMBO MUKENA Etudiant 16,00 Lemba Standard 0,032
8 817045944 LOR MAB’S Etudiant 95,00 Kinshasa Standard 1,004
9 827516570 BEN CIBANGU Banquier 252,00 Kintambo Bon 1,009
10 815948317 KAMUANYA SARAH Pensionné 45,00 Mont Ngafula Standard 1,000
11 821084838 SHAMAMBA DANIEL Etudiant 16,000 Lemba Standard 0,032
12 822077399 MVUMBI FUKIAU Etudiant 25,00 Bandal Standard 0,045
13 811297080 NKUNKU MALU Enseignant 48,00 Ngiri-Ngiri Standard 1,000
14 824389251 MUAKA WILU Chômeur 2,00 Selembao Standard 1,005
15 820095551 MBAMBA KASONGA Elève 5,00 Ngaliema Standard 1,004
16 823941913 MATALATALA GAVUNJI Pensionné 15,00 Kinshasa Standard 1,000
17 813701248 KOTONGO JULES Elève 6,50 Lemba Standard 1,004
18 825149136 NTUMBA NKONGOLO Pensionné 52,00 Limeté Standard 1,001
19 826280286 LIYANZA STACY Etudiant 35,00 Kasa Vubu Standard 0,005
20 823539852 NZEY NEHEMIE Etudiant 22,00 Matété Standard 0,048
21 825736580 ONYEMBO DOMINIQUE Professeur 630,00 Limeté VIP 1,001
22 811605028 MUGBANGAKA WANGA Fonctionnaire 60,00 Lemba Standard 1,008
50
b. Prédiction avec l’Arbre de décision
Après avoir segmenter les données, nous sommes passés à la génération
de l’arbre de décision pour pouvoir prédire selon certaines règles la classe
d’appartenance d’un nouvel individu, et pour cela nous avons utilisé l’algorithme de
C4.5 qui est implémenté dans le logiciel Weka.
Voici les paramètres définis :
51
Après le choix des paramètres appropriés, voici les résultats obtenus :
Règles d’affectation
Après avoir généré l’arbre de décision, voici les règles d’affectation qui en
découle :
Comme racine de l’arbre nous avons le Crédit, nous testons d’abord pour
commencer la consommation de l’abonné, si elle est inférieure ou égale 195
USD le mois donc l’abonné sera affecté à la classe Standard ;
Dans le cas où sa consommation se situe entre 195 et 625 USD le mois, alors
cela nous conduit à un autre test pour arriver à déterminer la classe
d’appartenance de l’abonné :
Si l’abonné exerce comme profession Fonctionnaire de
l’état, Ménagère, Etudiant ou Journaliste dans ce cas, il
est affecté dans la classe Standard.
Sinon, il s’agit d’une profession différente alors l’abonné
est affecté à la classe Bon ;
52
Dans le cas où la consommation de l’abonné est strictement supérieure à 625
USD le mois, alors nous dévons vérifier sa profession pour déterminer sa
classe :
Si l’abonné exerce comme profession Professeur ou
Businessman alors l’abonné sera classé parmi les VIP ;
Sinon l’abonné sera affecté dans la classe Standard.
53
observation. Et aussi deux abonnés prévus Bon se sont retrouvés dans la classe
Standard.
Pour les comptes Standard, elle représente 75.6 % de l’échantillon testé et leur
consommation mensuelle est inférieure ou égale à 195.00 USD.
Pour les comptes Bon ou moyen, ils représentent 15.79 % de l’échantillon analysé
et leur consommation mensuelle est supérieure à 195.00 et inférieure ou égale à
625.00 USD.
Pour les comptes VIP, ils représentent 8.61 % de l’échantillon, la consommation
mensuelle pour cette classe d’individus est supérieure à 625.00 USD.
D’après les résultats ci-haut, l’entreprise devrait concentrer plus sa force sur la
fidélisation des comptes VIP et Bon car ils constituent car ils rapportent beaucoup
d’argent à l’entreprise.
54
CONCLUSION GENERALE
55
Bibliographie
Ouvrage
[1] Cornuéjols ANTOINE et Miclet LAURENT, Apprentissage artificiel. Eyrolles,
Paris, 2009 ;
[2] Dafar MALOUCHE, Méthodes de classification, ESSAI-U2S-ENIT, (Juin 2013)
[3] Lefébure RENE et Venturi GILLES, Gestion de la relation client. Eyrolles,
Paris, 2005 ;
Notes de cours
[4] Jamal ATIF, Apprentissage Artificiel et fouille de données Arbres de décision,
Université Paris Dauphine, 2015-2016.
[5] Léonard N. MANYA, Recherche Opérationnelle, Troisième graduat
Informatique, Université de Kinshasa, 2014-2015.
[6] Nathanaël M. KASORO, Analyse de données, Deuxième licence
Informatique de Gestion, Université de Kinshasa, 2016-2017.
[7] Ph. PREUX, Fouille de données (Notes de cours), Université de Lille 3, 2009.
[8] Pierre K. KAFUNDA, Gestion Infocentre. Cours inédit, Deuxième licence
Informatique de Gestion, Université de Kinshasa, 2016-2017.
Mémoires
[9] Fabrice MIKIMI, Mise en place d’un outil d’aide à la prise de décision basé
sur le Data Warehouse et l’Arbre de décision pour l’analyse des produits,
Université de Kinshasa, 2016.
[10] Jonathan MUBENGA, Construction d’un modèle basé sur les séparateurs à
vaste marge pour la prédiction du cancer du sein à partir des données
mammographiques, Université de Kinshasa, 2017.
[11] Nadia MARREF, Apprentissage incrémental et Machines à Vecteurs
Supports. Université HADJ LAKHDAR – BATNA (18/12/2013).
Webographie
[12] https://www.see-d.fr/la-classification-au-sens-statistique/ (03 février 2018)
[13] https://www.mywebmarketing.fr/arbres-de-decision-data-mining/ (10 décembre
2017)
56
[14] http://www.cynapsys.de/content/l’apprentissage-automatique/ (06 mars 2018)
[15] http://blocnotes.iergo.fr/breve/categorielle-quantitative-discrete-ou-continue/
(27 mars 2018)
[16] https://www.groupe-hli.com/nos-metiers/hli-lab/ (12 janvier 2018)
[17] http://www.wikilean.com/Articles/Measure/5-Introduction-a-la-statistique-4-
articles/2-Les-differents-types-de-données, (06 mars 2018)
[18] https://www.boursedescrédits.com/lexique-definition-forfait-2086.php, (27 mars
2018)
57