Vous êtes sur la page 1sur 67

EPIGRAPHE

« Cible. En Marketing, ce qu’il faut toucher pour ne pas couler. »

Marie-Anne Dujarier

i
DEDICACE
A mon Dieu qui est fidèle à ses promesses et qui ne laisse pas celui qui se confie en
lui.
A mes parents Auguste et Berth PANZU pour l’ensemble de sacrifices consentis pour
ma vie.
A mon oncle Alexis MVUMBI qui s’est donné corps et âme pour ma formation, les
mots ne suffiront pas pour t’exprimer ma reconnaissance.
A ma tante Chouna MVUMBI et ma grand-mère Lucie MALONDA, je vous remercie
du plus profond de mon cœur.

Je vous dédie ce travail

ii
REMERCIEMENTS
Au terme de notre second cycle universitaire, l’opportunité nous est
permise d’adresser nos sentiments de reconnaissance à tous ceux qui, de diverses
manières, ont contribué à notre formation intellectuelle.
Nous tenons à remercier très particulièrement le Professeur Docteur
KAFUNDA KATALAY Pierre qui, malgré ses multiples et lourdes occupations a bien
voulu assurer la direction de ce travail. Ses conseils et remarques pertinents nous ont
permis d’atteindre l’objectif de notre travail. Qu’il trouve ici l’expression de notre
profonde reconnaissance.
Je remercie l’ensemble de ma famille et en particulier : Tonton Tezo
SILUVANGI, Tonton Gauthier KINI, Tantine Alphonsine BINDA, Tantine Prisca Lendo,
Tonton Servais LENDO, Tantine Arlette LENDO, Tantine Ruth PANZU, Maman
Pélagie, Edmond PANZU, Léonce MATONDO, Béni MUMBA, Merveille KINI, Vato
DUMBI, Glody ILUNGA, Stephie PHEMBA, Laeticia TSASA, Jeancy MOUSTAPHA,
Arlette PHOLA, Fr Paul BASENDE, Rosycoeur MAVUNGU.
La famille n’est pas simplement constituée des personnes ayant le lien
du sang avec nous, sur ce je remercie : le Père Hugues DANAKPALI, Mr Sagesse
KAYEMBE, Jean KALOMBO, Roland LUABEYA, Richard TSHIMANGA, Audry NDULU,
Merveille FUKIAU, Romeo MIZANGI, Serge MOMPANGO, Brunnel MAKEBA, Freddy
MUGBANGA, Sylver BEKUNYA, Aminata MATALATALA, Ben Cibangu, Sarah
KAMWANYA, Joel KALOMBO, Celia IYAMULENIA, L’OR, Stacy LIYANZA, Andy
MUAKA, Baku MPO.
Mes remerciements particuliers aux couples : Gauthier et Geneviève
KINI, Tezo et Gladis SILUVANGI, Alexis et Mamie MVUMBI, Vital et Therese MBUMBA,
Vital Evan et Noella MBUMBA, Servais et Lina MASELA, Alain et Arlette MBUYU,
Michel et Josée KISUBI.
Mes remerciements s’adressent aussi à Papa Barthélémy MASUAKA, à
l’ensemble de frères et sœurs du Centre Evangélique la Trinité et plus
particulièrement à : Papa Matthieu, Papa José, Sr Emily, Papa Bobo, Fr Didier, Fr
Hobed, Fr Rémy, Sr Elisabeth, Fr Patrick.
Pour clore, nous remercions très particulièrement tous les lecteurs de notre travail et
nous leurs souhaitons une très bonne lecture.
Je vous remercie.
Berto NTANGU

iii
AVANT-PROPOS
Actuellement l’informatique est parmi les sciences qui sont en constance
évolution et qui interviennent dans plusieurs autres domaines importants de la vie
de l’homme. Ces dernières années nous assistons à plusieurs innovations et
inventions dans les domaines tels que la reconnaissance de forme, la fouille de
données etc.

Pour les entreprises, la connaissance et la maitrise de sa clientèle


constitue une information capitale. Pour cela nous nous sommes assignés comme
objectif dans ce travail de comprendre le comportement d’une population donnée,
de la divisée en segment selon leur ressemblance et de prédire la classe
d’appartenance d’un nouvel individu.

Nous avons utilisé l’apprentissage artificiel pour cette étude d’une


manière générale et plus particulièrement les méthodes de K-Means et d’Arbre de
décision.
La méthode de K-Means fait partie des méthodes de la segmentation de données et
cela permet d’obtenir des classes d’individus ayant à peu près les mêmes
caractéristiques.
En second lieu nous nous sommes servis des arbres de décision qui dans la présente
étude nous a donné la possibilité d’affecter un nouvel individu dans une classe.

iv
TABLE DES MATIERES
EPIGRAPHE .................................................................................................................................................... i

DEDICACE .................................................................................................................................................... ii

REMERCIEMENTS ...................................................................................................................................... iii

AVANT-PROPOS ....................................................................................................................................... iv

TABLE DES MATIERES ............................................................................................................................... v

LISTE DES ABREVIATIONS..................................................................................................................... viii

LISTE DES FIGURES ................................................................................................................................... ix

LISTE DES TABLEAUX ................................................................................................................................ x

INTRODUCTION GENERALE ................................................................................................................... 1

1. Problématique ..................................................................................Erreur ! Signet non défini.

2. Hypothèse ..........................................................................................Erreur ! Signet non défini.

3. Choix et intérêt du sujet .................................................................Erreur ! Signet non défini.

4. Délimitation du sujet .......................................................................Erreur ! Signet non défini.

5. Méthodes et techniques utilisées .................................................Erreur ! Signet non défini.

6. Difficultés rencontrées ....................................................................Erreur ! Signet non défini.

7. Subdivision du travail ......................................................................Erreur ! Signet non défini.

Chapitre I : APPRENTISAGE ARTIFICIEL ................................................................................................4

I.1 Quelques applications ..................................................................................................................4

I.2 Définition [1].....................................................................................................................................4

I.3 Quelques concepts clés [11] [15] .................................................................................................5

I.3.1 Individu .....................................................................................................................................5

I.3.2 Variable ....................................................................................................................................5

I.3.3 Classe ........................................................................................................................................ 7

I.3.4 Base d’apprentissage ............................................................................................................ 7

I.3.5 Classifieur ................................................................................................................................. 7

I.4 Type d’apprentissage artificiel [6] [11] ....................................................................................... 7

I.4.1 Apprentissage supervisé ...................................................................................................... 7

v
I.4.2 Apprentissage non supervisé ............................................................................................ 11

Conclusion.............................................................................................................................................. 14

Chapitre II : ATA WAREHOUSE ET SEGMENTATION DE DONNEES .......................................... 15

II.1 Data Warehouse [6] .................................................................................................................... 16

II.1.1 Introduction ........................................................................................................................... 16

II.1.2 Divergence entre les Systèmes OLTP et les Data Warehouse ................................. 18

II.1.3 Modélisation de données .................................................................................................. 18

II.1.4 Architecture d’un Data Warehouse ............................................................................... 23

II.1.5 Construction du Data Warehouse.................................................................................. 26

II.1.6 Alimentation du Data Warehouse par les outils ETL ................................................. 27

II.1.7 Data Mart .............................................................................................................................. 28

II.1.8 OLAP ...................................................................................................................................... 29

II.1.9 Navigation dans les données .......................................................................................... 30

II.2 Segmentation de données [6] [7] [10] [14] ........................................................................ 31

II.2.1 Définition ................................................................................................................................ 31

II.2.2 Quelques algorithmes ....................................................................................................... 32

Conclusion............................................................................................................................................. 35

Chapitre III : ARBRE DE DECISION ...................................................................................................... 36

III.1 Définition [5] [8] [9] ................................................................................................................ 36

III.2 Structure d’un arbre de décision ........................................................................................ 37

III.3 Principe de fonctionnement ................................................................................................ 37

III.4 Types d’arbre de décision .................................................................................................... 38

III.4.1 Arbres de classification (Classification Tree) ................................................................ 38

III.4.2 Arbres de régression (Regression Tree) ....................................................................... 40

III.5 Taille de l’arbre de décision ................................................................................................. 40

III.5.1 Pré-élagage ........................................................................................................................... 41

III.5.2 Post-élagage ......................................................................................................................... 41

III.6 Algorithmes de construction d’arbre de décision .......................................................... 42

vi
III.6.1 Algorithme ID3 ( I t e r a c t i v e D i c h o t o m i s e r 3 ) ............................................... 42

III.6.2 Algorithme de C4.5 ............................................................................................................ 43

Conclusion............................................................................................................................................. 43

Chapitre IV : CONCEPTION ET IMPLEMENTATION DU SYSTEME............................................. 44

IV.1 PRESENTATION DU PROBLEME ......................................................................................... 44

IV.1.1 Aperçu sur la télécommunication [17] ........................................................................... 44

IV.1.2 Préparation de données ................................................................................................... 46

IV.2 IMPLEMENTATION DU SYSTEME ....................................................................................... 46

IV.2.1 Outils utilisés ........................................................................................................................ 46

IV.2.2 Modèle multidimensionnelle ........................................................................................... 47

IV.2.3 Analyse de données ........................................................................................................... 48

IV.2.4 Résultats et interprétation ................................................................................................ 54

CONCLUSION GENERALE..................................................................................................................... 55

Bibliographie ............................................................................................................................................. 56

Ouvrage ................................................................................................................................................. 56

Notes de cours ..................................................................................................................................... 56

Mémoires ............................................................................................................................................... 56

Webographie........................................................................................................................................ 56

vii
LISTE DES ABREVIATIONS
 API : Application Programming Interface
 CAH : Classification Ascendante Hiérarchique
 CART: Classification And Regression Trees
 ETL : Extract Transform Loading
 ID3 : Iteractive Dichotomiser 3
 KNN : K Nearest Neighboars
 KPPV : K Plus Proche Voisin
 MOLAP: Multidimensional On Line Analytic Processing
 OLAP: On Line Analytic Processing
 OLTP: On Line Transaction Processing
 RN : Réseau de Neurone
 ROLAP: Relational On Line Analytic Processing
 SQL : Structured Query Language
 SSAS : SQL Server Analysis Service
 SSIS : SQL Server Integration Service
 SVM : Support Vector Machine
 Weka: Waikato Environment for Knowledge Analysis

vii
i
LISTE DES FIGURES
Figure I.1 Diversité de l'Apprentissage Artificiel .................................................................... 5
Figure I.2 K plus proche voisins ................................................................................................ 9
Figure I.3 Dendrogramme ........................................................................................................12
Figure II.1 Schéma d’un modèle en Etoile .............................................................................21
Figure II.2 Schéma d’un modèle en Flocon ......................................................................... 22
Figure II.3 Schéma d’un modèle en Constellation ............................................................. 23
Figure II.4 Architecture d'un Data Warehouse ................................................................... 25
Figure III.1 Arbre de décision ................................................................................................... 37
Figure IV.1 Schéma Data Warehouse .................................................................................... 47
Figure IV.2 Cube ......................................................................................................................... 48
Figure IV.3 Classification ........................................................................................................... 49
Figure IV.4 Résultats .................................................................................................................. 49
Figure IV.5 Paramètres pour l’éxecution de l’algorithme de C4.5, implémenter dans
Weka ..............................................................................................................................................51
Figure IV.6 Arbre de décision ................................................................................................. 52
Figure IV.7 Resumé du déroulement de l’algorithme ....................................................... 53

ix
LISTE DES TABLEAUX
Tableau II.1 Comparaison entre un Data Warehouse et un Data Mart ........................ 28
Tableau IV.1 Résultats de la segmentation avec K-Means............................................... 50
Tableau IV.2 Matrice de Confusion ....................................................................................... 53

x
INTRODUCTION GENERALE

Dans un monde en constance évolution, la connaissance et la maitrise


de son environnement constitue une information capitale pour toute entreprise qui
veut se démarquer de la concurrence. Alors pour cela chaque entreprise dans son
domaine précis adopte des stratégies pour la fidélisation de sa clientèle.

La télécommunication, qui a évolué au fur des années presqu’au même


rythme que l’informatique, de nos jours, elle bat son plein, plus particulièrement dans
la téléphonie mobile.
La téléphonie mobile permet une communication entre individu et toute une variété
des services supplémentaires pour les clients y sont offerts. Et tout cela est géré par
un opérateur de télécommunication qui régule tous les services dont les clients
bénéficient.

Le souci des entreprises étant la satisfaction de sa clientèle, pour cela il


faut connaitre le comportement de chaque client. Les entreprises concentrent leur
force dans le marketing auprès de leur clientèle pour lui faire part des offres et
avantages que le client peut jouir. Pour cela plusieurs canaux de communication sont
employés. Mais cela n’est pas toujours suffisant compte tenu de million de clients
dont dispose l’entreprise et aussi certaines analyses mal effectuées peuvent biaiser la
prédiction. Plus explicitement, nous disons qu’un abonné peut être ignorant d’une
offre qui est à sa portée compte tenu qu’il n’est pas informé.

Nous nous sommes posés comme questions ce qui suit :


Comment arriver à connaitre le comportement de chaque client, étant donné
que l’entreprise comporte en son sein de million d’abonnés ?
En second lieu, comment les décideurs pourriez prédire la classe
d’appartenance d’un nouvel abonné ?

1
Avec l’avènement de Datamining, il existe plusieurs méthodes
permettant d’apprendre à partir de données.
L’objectif à atteindre est de construire des classes des abonnés à partir de leur
comportement. En clair, nous voulons avoir un tableau de bord pouvant permettre
aux décideurs de bien orienter leur décision.

Pour cela nous avons commencé par mettre en place un Data


Warehouse pour le stockage de données. Ensuite nous avons segmenté les données
en classes homogènes de telle sorte que les individus ayant les mêmes
comportements puissent se retrouver ensemble. Et enfin, nous avons établi les règles
d’affectation pour prédire d’une manière lucide la classe d’un nouvel abonné à l’aide
d’un arbre de décision.

Le choix de ce sujet se justifie par le souci, de comprendre une


population donnée tout en utilisant les méthodes et techniques qui nous sont
offertes par l’apprentissage artificiel dans le but de bien servir sa clientèle.
Les entreprises de télécommunication utilisent ces méthodes, mais nous
avons voulus faire une étude scientifique et mettre l’accent sur certains détails
pouvant leurs être importants.

Compte tenu du caractère scientifique de ce travail, il a été réalisé à la


période allant du 08 Novembre 2016 au 08 Décembre 2017.
Pour notre travail, nous nous sommes servis des techniques d’interview,
documentaire et des méthodes analytique et structure-fonctionnelle pour mieux
nous situer.

L’information de nos jours constitue une richesse très précieuse pour


toute entreprise soucieuse de son évolution, alors dans ce sens toute entreprise
cherche à bien conserver ses informations pour que cela ne tombe pas sur des
mauvaises mains ou les concurrents. De ce qui précède l’obtention des données n’a
pas été possible.

Mise à part l’introduction et la conclusion, notre travail est reparti de la


manière suivante :
 Apprentissage artificiel : Dans ce premier chapitre, nous avons parlé de
quelques concepts et notions liées à l’apprentissage artificiel.
 Data warehouse et Segmentation de données : Au deuxième chapitre, nous
avons mis l’accent sur le Data warehouse qui nous offre plusieurs avantages

2
pour le traitement de grand volume de données et la segmentation qui
permet de diviser les données en classes.
 Arbre de décision : Ce troisième chapitre a été à la base de nos interprétations.
 Conception et implémentation du système : Au quatrième chapitre nous
avons conçu notre système.

3
CHAPITRE

I APPRENTISAGE ARTIFIC IEL


[1] [3] [4] [8] [10] [1 1] [1 4] [1 5] [17]

L’homme dans la réalisation de ses tâches a toujours voulu les rendre


le plus facile possible. Dans cet optique, il développe et implémente des méthodes
pouvant lui permettre de réaliser certaines tâches répétitives d’une manière
automatique.

L’apprentissage artificiel ou machine Learning est une technique qui


donne la possibilité à une machine de pouvoir acquérir des connaissances sur base
de son expérience antérieure. Avec l’apprentissage artificiel nous passons à un autre
niveau ou manière de concevoir des systèmes, ils ont maintenant la possibilité de se
développer en fonction de certaines connaissances préalables ou non.

I.1 Quelques applications


De nos jours l’apprentissage artificiel touche beaucoup de domaine, car
les avantages offerts par ce dernier sont nombreux. Voici quelques domaines
d’application :
- Dans la reconnaissance de forme ;
- Dans le diagnostic médical ;
- Dans la reconnaissance de la parole ;
- Dans les jeux vidéo ;
- Dans l’analyse de données des clients des entreprises.

I.2 Définition [1]


L’apprentissage artificiel est une notion qui englobe toute méthode
permettant de construire un modèle de la réalité à partir de données, soit en
améliorant un modèle partiel ou moins général, soit en créant complétement le
modèle.
La popularité de l’apprentissage artificiel provient de la diversité de discipline qu’il
intègre en son sein, comme nous pouvons le voir sur la figure suivante :

4
Figure I.1 Diversité de l'Apprentissage Artificiel [14]

I.3 Quelques concepts clés [11] [15]


Dans l’apprentissage artificiel nous exploitons principalement les
données ou informations sous divers aspects et elles se rapportent souvent à un
individu. Nous verrons dans la suite quelques concepts que nous utiliserons.

I.3.1 Individu
Par définition un individu est un élément d’un ensemble, généralement
appelé population (ou ensemble d’individus), dont on mesure la valeur qu’il a pour
la ou les variable(s) étudiée(s).
Un individu sera noté par : xi ∈ X avec X ensemble d’individus

I.3.2 Variable
Nous pouvons définir une variable comme étant une fonction qui
permet d’affecter à chaque individu une valeur donnée sur le domaine d’observation.
yh : X → Oh
xi : → yh (xi ) (I.1)
Avec :
X : Ensemble d’individus

5
Oh : Domaine d’observation. Dans notre cas, ce domaine n’est constitué que
des valeurs uniques classiques.
Nous distinguons plusieurs types de variables :
- Les variables quantitatives ;
- Les variables qualitatives ;
- Les variables floues ;
- Les variables symboliques.
Pour notre travail, nous avons utilisé les variables quantitatives et qualitatives.

I.3.2.1 Variable quantitative


Une variable est dite quantitative si elle peut être exprimer selon une
unité de mesure, comparée entre elle, additionnée, faire l’objet de certaines
opérations. Nous avons deux type de variables quantitatives qui sont : Discrètes et
Continues.

a. Variable quantitative discrète


Une variable quantitative discrète peut prendre sur un intervalle donné
des valeurs qui sont dénombrables.
Exemple : Le nombre d’enfant d’un ménage

b. Variable quantitative continue


Une variable quantitative continue peut prendre toutes les valeurs à
l’intérieur d’un intervalle.

I.3.2.2 Variable qualitative


Une variable qualitative est une variable qui ne prend pas de valeur
numérique. On distingue dans ce type de variable les modalités et les variables
ordinales.

a. Modalité
Une modalité est un ensemble des valeurs que la variable peut prendre.
Chaque variable qualitative comporte plusieurs modalités.
Exemple : Le sexe a comme modalité Masculin ou Féminin

6
b. Variable ordinale
Une variable qualitative ordinale prend des valeurs qui sont ordonnées
ou hiérarchisées. Nous pouvons classer les modalités les unes par rapport aux autres
mais on ne peut pas dire à partir de cet ordre de combien et la différence entre deux
modalités.
Exemple : Lors d’un audit, les réponses du genre : pas du tout, un peu, assez,
beaucoup.

I.3.3 Classe
Une classe est un sous-ensemble des éléments équivalents entre eux,
selon une relation d’équivalence précise.

I.3.4 Base d’apprentissage


Une base d’apprentissage est un ensemble d’exemples déjà traité tel
que pour chaque entrée, sa sortie est connue. C’est-à-dire un ensemble
α = {(xi , yi )i∈{1,…,N} | xi ∈ X, yi ∈ Y}
Où Y est l’ensemble de valeurs de sortie.

I.3.5 Classifieur
Un classifieur est un algorithme qui après avoir été construit, est en
mesure de réaliser les tâches d’affectation. C’est-à-dire prédire la classe d’affectation
pour un nouvel individu qui se présente.

I.4 Type d’apprentissage artificiel [6] [11]


L’apprentissage artificiel permet aux machines d’apprendre sur base de
l’expérience ou non. Dans le cas où on met à la disposition de la machine des
hypothèses on parle de l’apprentissage supervisé et dans le cas où il n’y a pas
d’hypothèse au préalable, on parle de l’apprentissage non supervisé.

I.4.1 Apprentissage supervisé


Dans l’apprentissage supervisé nous cherchons à produire
automatiquement des règles à partir d’une base d’apprentissage contenant des
exemples antérieurs. L’apprentissage visera donc la généralisation pour toutes les
entrées inconnues, ce qu’il a pu apprendre grâce aux données déjà traitées par des
experts, ceci de façon raisonnable.

7
I.4.1.1 Définition
L'apprentissage supervisé est une technique d'apprentissage artificiel où
l'on cherche à produire automatiquement des règles à partir d'une base
d'apprentissage contenant des exemples (en général des cas déjà traités et validés).

I.4.1.2 Quelques Algorithmes


Voici quelques algorithmes de l’apprentissage supervisé :
- Méthode de K plus proche voisins ;
- Arbre de décision ;
- Réseau de neurones ;
- Machine à vecteur de support (SVM).

I.4.1.2.1 Arbre de décision


Dans l’analyse et exploitation de données, il arrive de fois la nécessité
d’ajouter un individu dans un groupe déjà segmenté, comment y arriver ?
Les techniques d’arbre de décision nous permettent de faire cette opération. Elles
sont basées sur le principe de réaliser la classification d’un individu après une série
de test sur les caractéristiques décrivant l’individu en question.

a. Principe
Les techniques d’arbre de décision fonctionnent de la manière suivante,
nous organisons l’ensemble des tests possibles comme un arbre ayant des feuilles
qui désignent des classes tout en sachant que chaque classe peut correspondre à
plusieurs feuilles et chaque nœud est associé à un test portant sur un ou plusieurs
attributs, éléments de l’espace de représentation. La réponse à ce test désignera le
fils du nœud vers lequel on doit aller. La classification s’effectue donc en partant de
la racine pour poursuivre récursivement le processus jusqu’à ce qu’on atteigne des
feuilles. Dans le déroulement de l’algorithme, nous devons calculer l’entropie et le
gain d’information pour la détermination de la racine ainsi que de nœuds qui en
suivront.
Nous le verrons plus en détail dans la suite de ce travail.

8
I.4.1.2.2 K plus proche voisin (K nearest neighboars)
Le K plus proche voisin est un algorithme de l’apprentissage supervisé
qui se concentre plus sur la classification de données. L’algorithme ne possède qu’un
seul paramètre qui est évidement le nombre 𝑘 de voisins à prendre en compte.

Figure I.2 K Plus Proche Voisins [15]


Dans le déroulement de cet algorithme, nous cherchons à déterminer les voisins le
plus proche d’un centre de classe préalablement choisi avant le déroulement de
l’algorithme. Il y a donc certaines notions qui entre en jeu :
- La classe ;
- La similarité ;
- La dissimilarité.

a. Similarité ou la dissimilarité
Nous nommons similarité ou dissimilarité toute application à valeur
numériques qui permet de mesurer le lien entre les individus d’un même ensemble.
En ce qui concerne la similarité entre les individus, pour deux individus plus la valeur
est grande plus leur lien est fort.
Pour la dissimilarité, plus le lien est fort, plus la valeur est faible ou petite. Pour arriver
à calculer ces mesures il faudra utiliser la notion de distance.

9
1. Distance
Une distance est une application qui associe un réel positif à un couple
de point. C’est-à-dire une application définie comme suit :
d: X × X → ℝ+
Elle doit vérifier les conditions suivantes :
∀ X i , X j ∈ X; d(X i , X j ) = 0 ⇒ X i = X j (propriété d′ identité) (1);
∀ X i , X j ∈ X; d(X i , X j ) = d(X j , X i ) (propriété de symétrie) (2); (I.2)
∀ X i , X j , X k ∈ X; d(X i , X j ) ≤ d(X i , X k ) + d(X k , X j ) (inégalité triangulaire) (3).
En ce qui concerne la dissimilarité, il faut nécessairement vérifier les conditions (1) et
(2).

2. Quelques distances usuelles


Soit (xi , xj ) ∈ X × X un couple d’individus caractérisés par 𝑝 attributs et 𝑃𝑘 le poids
de l’attribut Vk avec k ϵ {1, … , p}, nous avons :
Distance de Minkowski
q
(I.3)
p
d(xi , xj ) = √∑k=1 Pk |xi,k − xj,k |q

Si q = 1, nous obtenons la Distance de Manhattan :


(I.4)
p
d(xi , xj ) = ∑k=1 Pk |xi,k − xj,k |

Si q = 2, nous obtenons la Distance euclidienne :

2
(I.5)
p
d(xi , xj ) = √∑k=1 Pk (xi,k − xj,k )

Si q → ∞, nous obtenons la Distance Maximum :

d(xi , xj ) = max {PK |xi,k − xj,k |} (I.6)


k∈[i,p]

b. Principe
L’algorithme de K plus proche voisin consiste à calculer les distances du
point à classer aux points d’apprentissage, et à trouver au fur et à mesure les k plus
faibles distances parmi tant d’autre, pour choisir la classe majoritaire dans les 𝑘 points
d’apprentissage ainsi sélectionnés. Ce n’est qu’au démarrage de l’algorithme que
l’on choisit les centres de classes aléatoirement, après la première itération, il faut
calculer les nouveaux centres et comparer la distance de chaque individu par rapport
aux nouveaux centres. L’algorithme s’arrête lorsqu’il y a stabilité dans les classes.

10
c. Algorithme
Entrée : β, x, k
Début
Pour tout (xi , yi ) ∈ β faire
Calculer δ(xi , x)
Fin pour
Y=EnsClass(β)
Pour j=1 à |Y| faire
CmptrCl[ j ]=0
Fin pour
Pour l=1 à k faire
Vppv[ l ] ← arg min δ(xi , x)
i∈{1,…,|β|}
δ(xVppv[ l ] , x) ← M
CmptrCl[indice(Y, yVppv[ l ] )] ←CmptrCl[ indice(Y, yVppv[ l ])]+1
Fin pour
Classex ← Y[arg max CmptrCl[i] ]
i∈{1,…,|Y|}

Fin

I.4.2 Apprentissage non supervisé


L’apprentissage non supervisé fait partie de l’apprentissage artificiel ; on
parle de l’apprentissage non supervisé lorsqu’un système ne dispose que d’exemple
pour l’apprentissage, mais non d’étiquettes et que le nombre de classes et leur
nature n’ont pas été prédéterminés. L’algorithme doit découvrir par lui-même la
structure plus ou moins cachée de données.
Les algorithmes de l’apprentissage non supervisé se divisent en deux familles de
méthodes ou algorithmes, qui sont :
- Les méthodes de partitionnement ;
- Les méthodes hiérarchiques.

I.4.2.1 Méthodes hiérarchiques


Les méthodes hiérarchiques donnent un arbre hiérarchique, c’est-à-dire
qu’il y a emboitement des classes. Pour obtenir une partition, il faut couper l’arbre à
un niveau donné pour obtenir le nombre souhaité de classes.

11
Nous avons pour ces méthodes, les méthodes de classification ascendante
hiérarchique et la classification descendante hiérarchique.

I.4.2.1.1 Classification ascendante hiérarchique


La classification ascendante hiérarchique (CAH) est une méthode de
l’apprentissage non supervisé utilisée en analyse de données. On part d’un ensemble
donné d’individus, le but est de répartir ces individus dans un certain nombre des
classes.
La classification ascendante hiérarchique est dite ascendante car elle part d’une
situation où tous les individus sont seuls dans leurs classes.

a. Principe
Au départ chaque individu forme une classe, soit n classes. On cherche
à réduire le nombre des classes de telle sorte que les nouvelles classes soient
inférieures à n. Et puis à chaque étape, on fusionne deux classes, réduisant ainsi le
nombre des classes. Les classes choisies pour être fusionnées sont celles qui sont les
plus proches, en d’autre termes celles dont la dissimilarité entre elles est minimale,
cette valeur de dissimilarité est appelée indice d’agrégation. Comme on rassemble
d’abord les individus les plus proches, la première itération a un indice d’agrégation
faible, mais celui-ci va croitre d’itération en itération.

Figure I.3 Dendrogramme

12
b. Algorithme
Paramètres requis : le tableau de données 𝑋
initialiser les 𝑛 groupes en raison d’une donnée par groupe :𝐺𝑖 ← 𝑥𝑖
marquer tous les 𝐺𝑖 comme « prenable »
pour 𝑑 de 𝑛 + 1 à 2𝑛 − 1 faire
chercher les deux groupes prenables à fusionner : 𝐺𝑖 et 𝐺𝑗
les fusionner : 𝐺𝑑 ← 𝐺𝑖 ∪ 𝐺𝑗
marquer 𝐺𝑖 et 𝐺𝑗 comme « non prenable »
marquer 𝐺𝑑 comme « prenable »
fin pour

I.4.2.1.2 Classification descendante hiérarchique


La classification descendante hiérarchique est composée des méthodes
itératives et elle effectue à chaque tour le choix du segment de l’arbre hiérarchique
qu’il faudrait découper.
Nous en avons parlé juste à titre d’information compte tenu que nous n’avons pas
utilisé ces méthodes pour ce travail.

I.4.2.2 Méthodes de partitionnement de données


Le partitionnement de données consiste à diviser un ensemble de
données en différentes classes homogènes, en ce sens que les données de chaque
sous-ensemble partagent des caractéristiques communes, qui correspondent le plus
souvent à des critères de proximité que nous définissons lorsque nous introduisons
des mesures et classes de distances entre les individus.
Parmi les algorithmes de partitionnement, nous pouvons citer :
- Le K-means ;
- Les nuées dynamiques.
Pour ce qui concerne ces deux méthodes, nous allons en parler dans la suite du
présent travail.

13
Conclusion
Tout au long du présent chapitre, nous avons parlé de l’apprentissage
artificiel qui permet aux machines dans le sens large d’évoluer et d’accomplir
certaines tâches sans l’aide de l’homme. Nous avons présenté deux types
d’apprentissage artificiel qui sont : l’apprentissage supervisé et non supervisé.
Dans l’apprentissage supervisé, nous avons vu que cela consister à extrapoler des
nouvelles connaissances à partir d’un échantillon. Et il est composé de plusieurs
algorithmes comme nous l’avons évoqué plus-haut.
Dans l’apprentissage non supervisé, nous avons vu qu’il consiste à ressortir
l’information enfouie par de grande quantité de données en vue de détecter dans
ces données des tendances cachées.

Nous nous sommes rendu compte de l’importance de l’apprentissage


artificiel dans la vie et le futur de l’humanité, car plusieurs domaines importants de
l’homme en dépendent aujourd’hui et y recourent, et cela ne cesse d’augmenter.

14
CHAPITRE

II
DATA WAREHOUSE ET
SEGMENTATION DE DONNEES
[3] [4] [6] [7] [8] [10] [1 1] [1 2] [1 5]

Dans la gestion quotidienne des entreprises, elles produisent de grande


quantité d’information dans les différents départements ou directions qu’elles
comportent. Dans la majorité de ces entreprises toutes leurs informations sont
stockées dans les bases de données spécifiques à chaque direction. Les informations
ainsi produites qui sont stockées de manière isolée sont difficilement exploitables.

L’évolution de la technologie nous permet aujourd’hui de stocker dans un


lieu unique toutes les informations produites par une entreprise, ce lieu unique est
appelé Data Warehouse. Vue qu’il stocke en son sein une très grande quantité
d’information, ce-dernier avec le temps aura tendance à cacher certains détails
cruciaux pour l’entreprise. Pour une exploitation efficace de cet Data Warehouse, il y
a des méthodes qui ont été développées pour torturer les données jusqu’à ce
qu’elles nous dévoilent ce qu’elles cachent. Ces méthodes se trouvent dans les
techniques de Data Mining.

Nous utiliserons l’une de méthodes de Data Mining, qui dans notre cas
sera l’apprentissage non supervisé pour pouvoir mettre en évidence les informations
cachées par le grand volume de données.
Pour cela nous avons subdivisé notre chapitre en deux partie :
En premier lieu, nous verrons ce quoi un Data Warehouse et les concepts apparents
de ce-dernier ;
En second lieu, nous parlerons de l’apprentissage non supervisé, plus précisément
de la Segmentation de données.

15
II.1 Data Warehouse [6]
II.1.1 Introduction

Le data Warehouse qui signifie en français « Entrepôt des Données » est


un concept qui a été formalisé pour la première fois par Bill Inmon en 1991 avec sa
publication « Building the Data Warehouse ».
Actuellement, l’ensemble d’information d’une entreprise est centralisée
vers un lieu unique appelé Data Warehouse. Ceci permet à long terme d’en tirer
bénéfice et d’extrapoler de connaissances nouvelles en utilisant certaines techniques
d’exploration de données.

II.1.1.1 Objectifs d’un Data Warehouse


De nos jours la force d’une entreprise réside dans l’information qu’elle
possède. Au sein d’une entreprise l’information est enregistrée dans les systèmes
opérationnels et le Data Warehouse est le lieu de restitution. Sur ce, nous pouvons
dégager les objectifs suivant pour un Data Warehouse :
 Il constitue une source d’information souple et adaptable ;
 Il rend cohérent les informations d’une l’entreprise ;
 Il rend accessibles les informations de l’entreprise ;
 Il représente un bastion sécurisé qui protège la capitale information ;
 Il constitue la base décisionnelle de l’entreprise.

II.1.1.2 Composants de base du Data Warehouse


Pour son bon fonctionnement et une meilleure restitution de données, le
Data Warehouse intègre en son sein les composants suivants :
 Le système source ;
 La zone de préparation des données ;
 Le serveur de présentation ;
 Le Data Mart ;
 OLAP (On Line Analytic Processing);
 ROLAP (Relational OLAP) ;
 MOLAP (Multidimensional OLAP) ;
 Les applications utilisateur ;
 Les outils d’accès aux données ;
 Les outils de requête ;

16
 L’application de modélisation ;
 Les métadonnées.

II.1.1.3 Définition
Un Data warehouse est un ensemble de données intégrées, orientées sujet,
non volatiles, gérées dans un environnement de stockage particulier, historisées,
résumées, disponibles pour l’interrogation et l’analyse et organisées pour le support
d’un processus d’aide à la décision.

Au regard de la définition ci-dessus, il se dégage de manière claire, certaines


caractéristiques en ce qui concerne un entrepôt de données, les voici :

a. Historisées
Le stockage en un lieu unique et centralisé de toutes les informations
d’une entreprise offre un avantage majeur. Avec le Data Warehouse nous avons la
possibilité d’analyse le passé et le présent afin de prédire l’avenir de l’entreprise.

b. Orientées sujet
Le Data Warehouse est centré au tour des sujets majeurs de l’entreprise.
Le bien-fondé de cette manière de faire est d’avoir en sa possession l’ensemble
d’information utile sur un sujet, le plus souvent transversal aux structures
fonctionnelles et organisationnelles de l’entreprise.

c. Intégrées
Le Data Warehouse est alimenté par les données provenant des
différentes sources de l’entreprise (Comptabilité, Finance, Ressources Humaines,
Audit…). L’intégration de l’ensemble de ces informations consiste à résoudre les
problème d’hétérogénéité des systèmes de stockage, des modèles de données, de
la sémantique de données.

d. Non volatiles
Le Data warehouse se différencie des bases de données par la
conservation de l’information. En effet avec le Data Warehouse, tout ce qui entre ne
ressort plus c’est-à-dire l’accès est en écriture et lecture seule.

17
e. Résumées
Les informations provenant de différentes sources, après leurs arrivées
dans le Data Warehouse doivent être mise ensemble pour constituer un tout
cohérent pour permettre une bonne prise de décision.

f. Disponibles pour l’interrogation et l’analyse


Les différents utilisateurs de Data Warehouse doivent pouvoir consulter
les données en fonction de leurs droits d’accès. Le Data Warehouse doit comporter
un module de traitement des requêtes, exprimées dans un langage, doté
d’opérateurs puissants, pour l’exploitation de la richesse du modèle.

II.1.2 Divergence entre les Systèmes OLTP et les Data Warehouse


Il y a certaines différences qui se dégagent entre un Data Warehouse et
un système OLTP :
- Du point de vu de stockage de données, la taille d’un Data Warehouse n’est
pas connue à priori mais elle doit permettre une meilleure interrogation de
celui-ci par contre un système OLTP (On Line Transaction Processing) sa taille
est connue d’avance ;
- En ce qui concerne les mises à jour, le système OLTP est mis à jour en
permanence par les utilisateurs et ils ont un état temps de leurs bases de
données par contre pour le Data Warehouse, les opérations (Modification et
insertion) s’effectuent d’une manière automatique et programmée ;
- Du point de vu consultation de données, un Data Warehouse permet
d’interroger de million d’enregistrement par contre un système OLTP interroge
quelque centaine voire milliers d’enregistrement ;
- Par rapport au temps, le Data Warehouse conserve les données qui date de
plusieurs années cela permet de garder un œil sur l’évolution dans le temps
d’un produit pendant que le système OLTP conserve les données de quelques
mois ou semaines.

II.1.3 Modélisation de données


La modélisation dimensionnelle souvent appelée modélisation OLAP se
présente comme une alternative au modèle relationnel. Elle correspond au mieux
aux besoins du décideur tout en intégrant la modélisation par sujet. Elle aboutit à

18
présenter les données non plus sous forme de tables comme dans le modèle
Entité/Association mais sous forme de cube centré sur une activité.

II.1.3.1 Modélisation Entité/Relation


La modélisation Entité/Association est une discipline qui permet d’éclairer
les relations microscopiques entre les données. Elle donne la possibilité de supprimer
les redondances de données. Ceci apporte de nombreux avantages au niveau du
traitement des transactions, qui deviennent alors très simples et déterministes.

II.1.3.2 Modélisation dimensionnelle


La modélisation multidimensionnelle est une méthode de conception
logique qui vise à présenter les données sous une forme standardisée intuitive et qui
permet des accès hautement performants. Elle adhère totalement à la
dimensionnalité ainsi qu’à une discipline qui exploite le modèle relationnel en le
limitant sérieusement. Ce modèle est composé d’une table de faits contenant une
clé multiple, et d’un ensemble de tables plus petite nommées, tables
dimensionnelles. Chaque table de dimension possède une clé primaire unique, qui
correspond exactement à l’un des composants de la clé multiple de la table des faits.
Dans la mesure où elle possède une clé primaire multiple reliée à au moins deux clés
externes, la table des faits exprime toujours une relation n, n (plusieurs-à-plusieurs).

II.1.3.3 Relation entre la Modélisation Dimensionnelle et la Modélisation


Entité/Relation
Pour mieux appréhender la relation qui existe entre la modélisation
dimensionnelle et la modélisation entité/relation, il faut comprendre qu’un seul
schéma entité/relation se décompose en plusieurs schémas de table des faits.

La modélisation dimensionnelle ne met pas à son avantage la


représentation sur un même schéma plusieurs processus qui ne coexistent jamais au
sein d’une série de données, ce qui le rend indûment complexe. Ainsi, la conversion
d’un schéma entité/relation en une série de schémas décisionnels consiste à scinder
le premier en autant de sous-schémas qu’il y a de processus métier puis de les
modéliser l’un après l’autre. La deuxième étape consiste à sélectionner les relations
n,n (plusieurs-à-plusieurs) contenant des faits numériques et additifs (autres que les
clés) et d’en faire autant de table des faits.

19
Ensuite nous dévons dénormaliser toutes les autres tables en table non séquentielle
dotées de clés uniques qui les relient directement aux tables des faits. Elles
deviennent ainsi des tables dimensionnelles. S’il arrive qu’une table dimensionnelle
soit reliée à plusieurs tables des faits, nous représentons cette table dimensionnelle
dans deux schémas et nous dirons que ces tables dimensionnelles sont conformes
d’un modèle à l’autre.

II.1.3.4 Avantages de la modélisation dimensionnelle


Le modèle dimensionnel possède un grand nombre d’avantages dont le
modèle entité/relation est dépourvu.
Premièrement, le modèle dimensionnel est une structure prévisible et standardisée.
Les générateurs d’états, outils de requête et interfaces utilisateurs peuvent reposer
fortement sur le modèle dimensionnel pour faire en sorte que les interfaces
utilisateurs soient plus compréhensibles et que le traitement soit optimisé.
La deuxième force du modèle dimensionnel est que la structure prévisible du schéma
en étoile réside aux changements de comportement inattendus de l’utilisateur.
Toutes les dimensions sont équivalentes.
Le troisième avantage du modèle dimensionnel réside dans le fait qu’il est extensible
pour accueillir des données et des besoins d’analyse non prévus au départ. Ainsi, il
est possible :
 De décomposer les enregistrements d’une dimension existante en un niveau
de détail plus fin à partir d’une date déterminée ;
 D’ajouter des dimensions totalement nouvelles ;
 D’ajouter des faits nouveaux non prévus initialement ;
 D’ajouter des nouveaux attributs dimensionnels non prévus initialement.

II.1.3.5 Schémas d’un Data Warehouse


Un schéma est un ensemble d’objets de la base de données tels que les
tables, des vues, des index et des synonymes. La conception du schéma d’un Data
Warehouse est guidée par le modèle des données source et par les besoins
utilisateurs.

II.1.3.5.1 Objets d’un schéma de Data Warehouse


Un Data Warehouse est composé généralement des deux objets suivant :

20
i. Tables de faits
La table de faits est un élément capital du modèle dimensionnel car ce là
que sont stockés les indicateurs de performances. Le concepteur s’efforce de
considérer comme indicateurs les informations d’un processus d’entreprise dans un
système d’information. Les indicateurs étant les données les plus volumineuses d’un
système d’information, on ne peut se permettre de les dupliquer dans d’autres tables
mais de les rationaliser au sein de la table de faits.

ii. Tables de dimensions


Une dimension est une structure comprenant une ou plusieurs hiérarchies
qui classe les données en catégories. Les dimensions sont des étiquettes descriptives
fournissant des informations complémentaires sur les faits, qui sont stockées dans les
tables de dimension. Il s’agit normalement de valeurs textuelles descriptives.

II.1.3.5.2 Schéma en Etoile


Le schéma en étoile peut être le type le plus simple de schéma de Data
Warehouse, il est dit en étoile parce que son diagramme entité/relation ressemble à
une étoile, avec des branches partant d’une table centrale. Un schéma en étoile est
caractérisé par une ou plusieurs tables de faits, très volumineuses, qui contiennent
les informations essentielles du Data Warehouse et par un certain nombre de tables
de dimensions, beaucoup plus petites, qui contiennent chacune des informations sur
les entrées associées à un attribut particulier de la table de faits.
T_Dim3
T_Dim1
Id_3
Id_1

T_FAIT

Id_Fait
T_Dim4 T_Dim2
Id_1
Id_4 Id_2 Id_2
Id_3
Id_4

Figure II.1 Schéma d’un modèle en Etoile

21
II.1.3.5.3 Schéma en Flocon
Le schéma en flocon normalise les dimensions pour éliminer les
redondances. Autrement dit, les données de dimensions sont stockées dans plusieurs
tables et non dans une seule table de grande taille. Cette structure de schéma
consomme moins d’espace disque, mais comme elle utilise davantage de tables de
dimension, elle nécessite un plus grand nombre de jointures de clé secondaire. Les
interrogations sont par conséquent plus complexes et moins performantes.
T_Dim2
T_Dim Id_2
T_Dim 1
Id_1
Id_33 Id_2
T_Fait
Id_8
Id_F
Id_1
T_Dim
Id_3 T_Dim
Id_99
T_Dim4 Id_4 Id_88
Id_7
Id_4

T_Dim T_Dim
7 6
Id_7 Id_6
Id_4 Id_7

Figure II.2 Schéma d’un modèle en Flocon

II.1.3.5.4 Schéma en constellation de faits


Un schéma en constellation comprend plusieurs modèles dimensionnels
qui se partagent les mêmes dimensions, c’est-à-dire les tables de faits ont des tables
de dimension en commun. Autrement Un modèle en constellation fusionne plusieurs
modèles en étoile qui utilisent des dimensions communes et comprend en
conséquence plusieurs faits et des dimensions communes ou non.

22
T_Dim
T_Dim Id_22
T_Dim
Id_11 T_Fait
Id_33 2
Id_f2
T_Fait1
Id_2
Id_f1 Id_8
Id_1 Id_9 T_Dim
Id_3 T_Dim Id_1 Id_88
Id_4 9
T_Dim4 Id_9
Id_9
Id_4

Figure II.3 Schéma d’un modèle en Constellation

II.1.4 Architecture d’un Data Warehouse


En ce qui concerne l’architecture d’un Data Warehouse, tout commence
par l’ETL (Extract Transform Loading). En effet l’entreprise comporte plusieurs sources
hétérogènes de données, pour que ces données puissent être introduites dans le
Data Warehouse, elles doivent être extrait, transformer et puis être charger.

Les systèmes opérationnels, bases de données indispensable à la vie d’une


entreprise, permet d’avoir une activité journalière (gestion de stocks, base de
fournisseurs, clients, etc.). Ceci n’est pas le rôle d’un Data Warehouse, couplé à des
outils de Data Mining il n’a pour unique but de faciliter la prise de décision en
apportant une vue synthétisée de l’ensemble des données de l’entreprise éparpillées
dans toutes ces bases opérationnelles.

Les données ayant été identifiées, elles doivent être extraites de leurs
système sources, transformées puis acheminées jusqu’aux serveurs de présentation.
Elles sont ensuite mises à la disposition des utilisateurs dans le but d’être utilisées
efficacement par les clients du Data Warehouse.
Nous avons ainsi deux parties qui se dégage clairement :
- La Zone de construction (Back room) : qui est un milieu où les données sont
collectées et préparées pour les utilisateurs ;

23
- Les outils frontaux (Front room) : représentent l’ensemble des outils qui sont
utilisés pour livrer les données traitées au niveau de la zone de construction
aux utilisateur.

24
Zone de Construction (Back Room) Outils Frontaux (Front Room)

Catalogue des
Systèmes Métadonnées

Outils de
génération
Service des d’état
-Extraction requêtes et
SQL DATA
- WAREHOUSE Outils bureautique
Transformati Zone de d’accès aux données
on
Préparatio DATA
MS n MART
Access Modèle d’application et
Des Data Mining
données Serveur
OLAP
Fichier
Système opérationnel/en
Contenant que des Données aval
agrégées
Serveurs de présentation Les Clients du Data
Fichier

Figure II.4 Architecture d'un Data Warehouse [6]

25
II.1.5 Construction du Data Warehouse
Imaginons qu’une entreprise décide de se construire un Data Warehouse,
étant donné qu’il dispose de ses informaticiens. Les informaticiens dégagent un état de
besoin ainsi que les préalables nécessaires pour la mise en œuvre prochaine du
système. A cela il faut ajouter la conception logique et physique du Data Warehouse.

II.1.5.1 Conception logique


A ce niveau, nous réfléchissons sur le modèle du Data Warehouse. Nous
pouvons utiliser une technique de modélisation, pour cela la modélisation
entité/relation est bien adapté pour ces situations.

Avec la modélisation entité/relation, nous commençons par répertorier les


informations pertinentes qui représentent les entités, ensuite nous relevons les attributs
qui les composent et enfin chaque lien qui relie les entités entre eux on parle de
relations. En ce qui concerne la modélisation, une entité représente une tranche
d’informations. Au sein des bases de données relationnelles, une entité correspond à
une table, un attribut est un composant d’une entité qui permet de définir l’unicité de
cette entité. Dans les bases de données relationnelles, un attribut correspond à une
colonne. Pour garantir la cohérence des données, vous devez utiliser des identifiant
uniques. Un identifiant unique est ajouté aux tables pour permettre de distinguer les
éléments qui apparaissent à différents endroits.

II.1.5.2 Conception Physique


Au cours du processus de conception physique, vous convertissez les
données collectées pendant la phase de la conception logique en une description de
la structure physique de la base de données. Les principaux aspects qui orientent les
décisions relatives à la conception physique sont les performances des interrogations
et la maintenance de la base de données. Le processus de conception physique
consiste à convertir les schémas prévus en structures de base données réelles. A ce
stade, vous devez associer :
 Les entités à des tables ;
 Les relatons à des contraintes de clé étrangère ;
 Les attributs à des colonnes ;
 Les identifiants uniques à des contraintes de clé primaire ;
 Les identifiants uniques à des contraintes de clé unique.

26
II.1.6 Alimentation du Data Warehouse par les outils ETL
Un Data Warehouse est alimenté principalement par les différentes bases de
données de l’entreprise. En effet, dans la vie quotidienne d’une entreprise, elle produise
ou génère via ses applications une grande quantité d’information qui servira d’aliment
pour notre Data Warehouse.
Nous montrerons quelques outils et méthodes qui permettent d’alimenter un Data
Warehouse tout en minimisant l’impact sur les systèmes de productions.
Une très grande partie des entreprises, leurs système d’informations sont de nature
hétérogène, du fait que les entreprises font souvent évoluer leurs systèmes au fur et en
mesure qu’elles évoluent. Donc dans les entreprises, nous nous retrouvons confronter
au problème de formats de données, qui est évident vu que plusieurs type
d’information circule dans une entreprise.
Avant d’être utilisables, les données de l’entreprise doivent être mises en forme,
nettoyées et consolidées. Les outils de ETL permettent d’automatiser ces traitements et
de gérer les flux de données qui alimentent le Data warehouse.
Les outils de ETL font référence à plusieurs opérations qui s’articulent autour de trois
axes majeurs :
 Extract ;
 Transform ;
 Load.

II.1.6.1 Extract (Extraction)


L’extraction est la première étape d’alimentation du Data Warehouse, elle
consiste à lire et extraire les données du système source vers le Data Warehouse.
Le processus d’extraction est l’une des tâches les plus consommatrices de temps car,
outre la complexité des différents systèmes source, la détermination exacte des
données à extraire est difficile. De plus, ce processus est répétitif, parfois dans des
intervalles de temps très rapprochés.

II.1.6.2 Transform (Transformation)


La transformation consiste à supprimer certaines incohérences sémantiques
entre les sources de données pouvant survenir lors de l’intégration soit dans les
schémas ou dans les données.

II.1.6.3 Load (Chargement)


Après avoir préparé les données (Extraction et Transformation), nous
pouvons alors les charger dans le Data Warehouse. L’opération en question peut

27
prendre un temps assez long, avec le temps cela peut devenir mécanique et moins
complexe. Il est nécessaire de définir et de mettre en place :
- Des stratégies pour assurer de bonnes conditions à sa réalisation ;
- Une politique de rafraîchissement.

II.1.7 Data Mart


Un Data Mart est une base de données moins coûteuse que le Data
Warehouse, et plus légère puisque destinée à quelques utilisateurs d’un département.
Il séduit plus que le Data Warehouse les candidats au décisionnel. C’est une petite
structure très ciblée et pilotée par les besoins utilisateurs. Il a la même vocation que le
Data Warehouse (fournir une architecture décisionnelle), mais vise une problématique
précise avec un nombre d’utilisateurs plus restreint. En général, c’est une petite base
de données (SQL ou multidimensionnelle) avec quelques outils, et alimentée par un
nombre assez restreint de sources de données.

Un Data Mart ressemble en fait à un Data Warehouse sauf qu’il est moins
générique. Une approche courante consiste à maintenir des informations détaillées au
niveau du Data warehouse et à les synthétiser dans un Data mart pour chaque groupe
ou département fonctionnel.
Les caractéristiques propres aux Data Mart sont :
 Les données sont spécialisées pour un groupe ou département particulier ;
 Ils sont conçus pour un accès facile ;
 Le temps de réponse est optimal pour un volume de requêtes moindre ;
 Les différents Data Marts indépendants peuvent être dynamiquement couplé
pour se métamorphoser en Data Warehouse ;
 Les Data Marts sont plus flexibles que les Data Warehouse.

Data Warehouse versus Data Mart


Data Warehouse Data Mart
Utilisation globale de l’entreprise Utilisé par un département ou une unité
fonctionnelle
Difficile et plus long à implémenter Plus facile et rapide à implémenter
Volume de données plus important Volume de données plus petit et spécialisé

Développé sur la base de données Développé sur les bases des besoins
actuelle utilisateurs

Tableau II.1 Comparaison entre un Data Warehouse et un Data Mart

28
Le Data Mart constitue une solution rapide, simple et spécialisée pour les différents
départements d’une entreprise. Mais une utilisation abusive de Data mart risquerait de
créer des ennuis dans le fonctionnement interne de l’entreprise. Et durant leurs
conception, l’accent sur une vue d’ensemble est nécessaire pour éviter les
désagréments.

II.1.8 OLAP

OLAP repose sur une base de données multidimensionnelle, destinée à


exploiter rapidement les dimensions d’un ensemble de données. Le modèle OLAP sera
celui du Data Warehouse, il sera construit pour sélectionner et croiser plusieurs
données provenant des sources diverses afin d’en tirer une information implicite. Ceci
a évolué pour aboutir à une méthode d’analyse permettant aux décideurs d’avoir un
accès rapide et de manière pertinente présentée sous divers angles, dimensions sous
forme de cube. L’outil OLAP repose sur la restructuration et le stockage des données
dans un format multidimensionnel issues de fichiers plats ou de bases relationnelles.
Ce format multidimensionnel est connu sous le nom d’hypercube, ce dernier organise
les données le long de dimensions. Ainsi, les utilisateurs analysent les données suivant
les axes propres à leur métier.

II.1.8.1 Différents outils OLAP


a) Multidimensionnel OLAP (MOLAP)
Il est plus facile et plus cher à mettre en place, il est conçu exclusivement
pour l’analyse multidimensionnelle avec un mode de stockage optimisé par rapport
aux chemins d’accès prédéfinis. MOLAP repose sur un moteur spécialisé, qui stocke le
data dans un format tabulaire propriétaire (Cube). Pour accéder aux données de ce
cube, on ne peut pas utiliser le langage de requête SQL, il faut utiliser une API
spécifique.

b) Relationnal OLAP (ROLAP)


Il est plus facile et moins cher à mettre en place, il est moins performant lors
des phases de calculs. En effet, il fait appel à beaucoup de jointure et donc les
traitements sont plus conséquents.
Il superpose au-dessus des SGBD/R bidimensionnels un modèle qui représente les
données dans un format multidimensionnel. ROLAP propose souvent un composant
serveur, pour optimiser les performances lors de la navigation dans les données. Il est

29
déconseillé d’accéder en direct à des bases de données de production pour faire des
analyses tout simplement pour des raisons des performances.

c) Hybride OLAP (HOLAP)


HOLAP désigne les outils d’analyse multidimensionnelle qui récupèrent les
données dans de bases relationnelles ou multidimensionnelles, de manière
transparente pour l’utilisateur.
Ces trois notions se retrouvent surtout lors du développement des solutions. Elles
dépendent de matériels et logiciels. Lors de la modélisation, on ne s’intéresse qu’à
concevoir une modélisation orientée décisionnelle, indépendamment des outils seront
utilisés ultérieurement.

II.1.9 Navigation dans les données


Les différentes possibilités de navigation dans les bases de données sont :

a) Drill-Down et Drill-Up
Le Drill-Down et Drill-up désigne la faculté d’aller du niveau global vers le
niveau détaillé, et inversement. Ce mécanisme est totalement basé sur la notion de
hiérarchie.
Chaque axes d’analyse se décompose en attributs reliés entre eux par des
relations père/fils. Une dimension doit normalement pouvoir comporter plusieurs
hiérarchies.
Exemple La dimension Produit peut contenir une hiérarchie marque-article et une
hiérarchie secteur-segment-article.
Le mécanisme de Drill-Down se fera ainsi de la marque vers l’article et du secteur vers
le segment puis vers l’article. La mise en œuvre de cette fonctionnalité n’est cependant
pas toujours aussi simple.

b) Data Surfing
Le Data Surfing est la possibilité de laissée à l’utilisateur de circuler librement,
de manière intuitive et ergonomique dans un modèle dimensionnel, au-delà d’un
simple Drill-Down ou Slice and dice. L’utilisateur peut alors modifier dynamiquement
ses axes d’analyse ou appliquer un nouveau filtre à ses données. Ces mécanismes
s’appliquent sur le modèle défini soit par l’administrateur, soit par l’utilisateur.

30
II.2 Segmentation de données [6] [7] [10] [14]
Avec l’automatisation de la gestion des systèmes d’information, ceux-
derniers ont tellement évolués et avec le temps ils ont accumulés de très grande
quantité d’information. Alors compte tenu de la masse d’information qu’il contient cela
a tendance à cacher certaines informations vitales pour l’entreprise.
La segmentation de données ou clustering en anglais ou encore la
classification automatique est l’une de méthode de l’apprentissage non supervisé qui
vise à extraire les informations enfuies par le grand volume de données pour découvrir
de tendances cachées.

II.2.1 Définition
La segmentation de données est une méthode d’apprentissage non supervisé
qui consiste à partitionner une population hétérogène en des sous-groupes homogènes
appelés classe ou cluster de tel sorte que les individus d’une même classe se ressemble
(homogénéité intraclasse) et les individus appartenant dans des classes différentes se
diffèrent (hétérogénéité interclasse).
Par rapport à ce que nous avons évoqué ci-haut, il y a certaines notions qui
se dégagent clairement :
- Centre de gravité ;
- Inertie ;
- Inertie intraclasse ;
- Inertie interclasse.

II.2.1.1 Centre de gravité


Soit X un ensemble de données décrites chacune par p attributs. On définit par centre
de gravité g de X , une donnée synthétique dont les valeurs des p attributs
correspondent aux moyennes de p attributs dans X.
g = (a̅1 , ̅̅̅̅ an )
a2 , … , ̅̅̅ (II.1)
Où a̅i est la moyenne du i ième
attribut. Cet agrégat représente tous les éléments de sa
classe de données.

II.2.1.2 Inertie de données


On appelle inertie I d’un ensemble X de n données
I = ∑ni=1 d2 (xi , g) (II.2)
Avec g representant le centre de gravité de X.
Cette donnée est également calculable pour des individus appartenant à un groupe de
la partition. On note Iiϵ{1,..,k} l’inertie du groupe Gi ; elle se calcule comme sur l’équation

31
précédente où g est remplacé par g i , g i étant le centre de gravité des points propres
à Gi .

II.2.1.3 Inertie intraclasse


On définit l’inertie intraclasse comme suit :
IW = ∑ki=1 wi Ii (II.3)
Où wi est le poids du groupe Gi si toutes les données ont le même poids, le poids d’un
|Gi |
groupe est wi = où |Gi | est le cardinal (nombre d’éléments) du groupe Gi .
n

II.2.1.4 Inertie interclasse


On définit l’inertie interclasse comme suit :
IB = ∑ki=1 wi d2 (g i , g) (II.4)
Elle mesure la dispersion entre classes par rapport au centre de gravité de l’espace de
données.
Nous avons le théorème de Huygens qui permet de trouver l’inertie totale par la
formule :
I = Iw + IB (II.5)
Remarque : Une meilleure partition de ce cas sera celle dont l’inertie intraclasse est
minimale et l’inertie interclasse est maximale. Signalons I = Iw + IB est constante quelle
que soit la segmentation en groupes de données ; ce qui lie les deux inerties de telle
sorte que maximiser l’une revient à minimiser l’autre automatiquement.

II.2.2 Quelques algorithmes


La segmentation de données est composée de deux familles d’algorithmes
ou méthodes :
- Les méthodes de partitionnement ;
- Les méthodes hiérarchiques.

II.2.4.1 Méthodes de partitionnement


Les méthodes de partitionnement sont particulièrement intéressantes dans
la construction de clusters ou groupes d’observations d’une matrice de données à P ≥
1 variables continues, X = (X1 , … , X p ) à partir de la structure même des données sans
apport informatif d’une variable auxiliaire.

Nous allons décrire quelques méthodes de partitionnement qui sont les


nuées dynamiques et le K-means.

32
II.2.4.2.1 Méthodes de centre mobiles (K-means)
Le partitionnement en K-means est une méthode de partitionnement de
données. Nous avons un ensemble des points et un entier 𝑘, le but est de diviser les
points en 𝑘 groupes, souvent appelés clusters, de façon à minimiser une certaine
fonction.

Nous considérons la distance d’un point à la moyenne des points de son


cluster ; la fonction à minimiser est la somme des carrés de ces distances.
Le K-means repose généralement sur des algorithmes simples, et permet de traiter
rapidement des ensembles d’effectif assez élevé.
La méthode de centre mobile à comme finalité de chercher une partition telle que
l’inertie intra classe soit minimal pour obtenir une moyenne des classes bien
homogènes, par conséquent nous devons trouver le maximum de l’inertie interclasse.

a) Principe
La méthode de K-means procède de la manière suivante :
- Dans la première étape, elle consiste à tirer aléatoirement k individus de la
population. Ces individus représentent les centres provisoires des k classes qui
formeront la partition initiale. Ensuite, les autres individus sont regroupés autour
de ces centres en affectant chacun d’eux au centre le plus proche.
- La seconde étape consiste à recalculer les k nouveaux centres (dites aussi centres
de gravité) des k classes, sachant qu’un centre n’est pas nécessairement un
individu de la population. Le processus est répété plusieurs fois jusqu’à la stabilité
des centres des classes.

b) Algorithme
Choisir k centres g ∈ X aléatoirement
Tant que les centres changent Alors
Pour j = 1 à k Alors
Pour i = 1 à n Alors
Calcul de la distance d(X i , X j )
Fin Pour
Fin Pour
Affecter chaque observation Pi au centre qui lui est proche Cq
Recalculer les k centres
Nota : L’algorithme s’arrête lorsqu’il n’y a plus changement dans les classes donc
stabilité dans les classes.

33
II.2.4.2.2 Méthodes de nuées dynamiques
L’algorithme des nuées dynamiques est une généralisation du principe de la
division des observations en k partitions, pour laquelle chaque partition est représentée
par un noyau pouvant être plus complexe qu’une moyenne.

a) Principe
Soit, un ensemble de n individus. Chaque individu vi (vi ∈ I), muni de sa
masse vi est caractérisé par p variables.
Soient nous avons ce qui suit :
 I : l’ensemble des individus à partitionner en k classes au maximum,
 P(I) = {P0 , P1 , … , Pm , … , Pk } : ensemble des parties de I,
 A un ensemble de k noyaux Ai ,
 Nous supposons que l’espace Rd supportant les n points individus est muni
d’une distance appropriée, notée d.
Chaque classe est représentée par son centre Ai , également appelé noyau, constitué
du petit sous-ensemble de la classe qui minimise le critère de dissemblance. Les
éléments constitutifs d’un noyau sont appelés étalons.
Chaque individu vi (vi ∈ I), est par conséquent, caractérisé par sa masse μi et par la
distance d(vi , Ai ) qui le sépare du noyau de la classe.
La méthode des nuées dynamiques s’efforce de trouver deux applications π et v sur
lesquelles se basent l’algorithme. Toutes ces deux fonctions de base sont telles que :
P = π(A).
π est appelé la fonction de réallocation et elle a comme rôle de former une partition,
c’est-à-dire d’affecter chaque individu vi du nuage N(I) aux centres d’attractions que
forment les noyaux. A = v(P).
v est appelé la fonction de recentrage et elle a pour rôle de recalculer les nouveaux
noyaux à partir de classes déjà formées.
L’algorithme des nuées dynamiques est une succession d’appel à ces deux fonctions
ci-dessus.

34
b) Algorithme
Initialisation
- Le choix (au hasard ou non) des k premiers noyaux, 𝐴10 , … , 𝐴0𝑚 , … , 𝐴0𝑘 , induisant la
première partition 𝑃0 de l’ensemble I et k classes 𝐶10 , … , 𝐶𝑚
0
, … , 𝐶𝑘0 .

Recherche de la meilleure partition


- Par l’exécution de  sur ces noyaux et on poursuit les autres étapes jusqu’à l’arrêt
de l’algorithme.
L’algorithme prend fin lorsque soit deux itération successives amènent à une même
partition, soit lorsqu’un nombre maximal d’itération fixé en avance est atteint ou
lorsqu’un critère judicieusement choisi cesse de décroître de façon sensible.

Conclusion
Dans ce chapitre que nous avons subdivisé en deux grande partie dont
en premier lieu nous avons parlé de Data Warehouse et en second lieu de Clustering
ou la segmentation de données.

En effet, en ce qui concerne le Data Warehouse, nous avons vu


l’importance et la nécessité d’un Data Warehouse dans une entreprise. Actuellement
les entreprises produisent une grande quantité d’information qui constitue une richesse
pour l’entreprise à condition que cette dernière utilise les techniques nécessaires pour
en tirer profit. Ce qui nous conduit directement à notre seconde partie qui était la
segmentation de données. Il ne suffit pas à une entreprise de centraliser ses données
dans un lieu de stockage unique, mais elle doit aussi utiliser les techniques nécessaires
pour l’exploration de ce tas d’informations qu’elle détient. Le Clustering ou la
segmentation de données qui est une technique de Datamining qui nous permet de
faire cela. En son sein elle comporte deux familles des méthodes ou algorithmes dont
nous avons cité les méthodes de partitionnement et les méthodes hiérarchiques.

Tout au long de ce chapitre, nous avons constaté la dépendance


réciproque entre le Data Warehouse et les techniques de Datamining. Pour une raison
simple le fait de posséder une grande masse d’information ne suffit pas, il faut faire
appel aux techniques de Datamining pour son exploration et sans les données, les
techniques de Datamining ne servent à rien.

35
CHAPITRE

III ARBRE DE DECISION


[5] [8] [9] [13 ]

Un arbre de décision est un outil d’aide à la décision représentant un


ensemble de choix sous la forme graphique d’un arbre. Les différentes décisions
possibles sont situées aux extrémités des branches et sont atteints en fonction de
décisions prises à chaque étape. L’arbre de décision est un outil utilisé dans des
domaines variés tels que la sécurité, la fouille de données, la médecine, etc. Il a
l’avantage d’être lisible et rapide à exécuter. Il s’agit de plus d’une représentation
calculable automatiquement par des algorithmes d’apprentissage supervisé.

L’apprentissage par arbre de décision est une technique de


l’apprentissage supervisé, où on utilise un ensemble de données pour lesquelles on
connaît la valeur de la variable-cible afin de construire l’arbre, puis on extrapole les
résultats à l’ensemble des données de test.

III.1 Définition [5] [8] [9]


Soit 𝐺 = (𝑋, 𝑢) un graphe d’ordre n, 𝐺 est appelé un arbre si et seulement
si 𝐺 est un graphe connexe sans cycle et ayant exactement n – 1 arêtes.
Un arbre de décision est une structure qui permet de déduire un résultat à partir de
décisions successives ou encore un schéma représentant les résultats possibles d’une
série de choix interconnectés.

Nous disons que les arbres de décisions constituent une catégorie


d’arbres utilisée dans l’exploration de données et en informatique décisionnelle. Ils
utilisent une représentation hiérarchique de la structure des données sous forme des
séquences de décision en vue de la prédiction d’un résultat ou d’une classe. Chaque
individu à qui on doit attribuer une classe est décrit par un ensemble de variables qui
sont testées dans les nœuds de l’arbre. Les tests s’effectuent dans les nœuds internes,
et les décisions sont prises dans les feuilles ou nœuds terminaux.

36
III.2 Structure d’un arbre de décision
La structure d’un arbre de décision est constituée des éléments suivant :
- La racine ;
- Les nœuds internes (les nœuds qui ont des descendants, qui sont aussi à leur
tour des nœuds) ;
- Les feuilles (les nœuds qui n’ont pas de descendants).
La racine est le point d’entrée dans l’arbre, elle est déterminée par un
critère bien précise que nous verrons plus bas.

Les nœuds internes appelés aussi nœuds de décision permettent de tester


les attributs, étiquetés par des tests applicables à toute description d’une instance. On
parle d’un nœud pur dans le cas où tous les individus associés appartiennent à la même
classe.

Les branches issus d’un nœud interne représentent les réponses possibles
au test du nœud.

Les feuilles représentent l’ensemble de nœuds terminaux de l’arbre et


elles sont étiquetées par des classes résultantes possibles qu’elles font références.

A1 Racine

Branche

B1 B2 Nœud
Intermédiaire

C1 C2 C3 C4 Feuille

Figure III.1 Arbre de décision

III.3 Principe de fonctionnement


Pour explorer un arbre de décision et déceler une solution, il faut
commencer par la racine de l’arbre. Le nœud dans la présente situation représente une
décision. Chaque arête vers un nœud-fils représente un ensemble de valeurs d’une
variable d’entrée, de manière à ce que l’ensemble des arêtes vers les nœuds-fils
couvrent toutes les valeurs possibles de la variable d’entrée. Toutes feuilles (ou nœud

37
terminal de l’arbre) représentent soit une valeur de la variable-cible, ou une distribution
de probabilité des diverses valeurs possibles de cette dernière.

La construction de l’arbre intervient souvent après avoir séparé en


fonction de la valeur d’une caractéristique d’entrée l’ensemble des données en sous-
ensembles. Ce processus est répété sur chaque sous-ensemble obtenu de manière
récursive. L’arrêt de ce processus intervient pour un nœud quelconque dans le cas où
tous les sous-ensembles ont la même valeur de la caractéristique cible ou bien lorsque
la séparation n’améliore plus la prédiction.

III.4 Types d’arbre de décision


Dans la fouille de données, nous distinguons deux principaux types
d’arbre de décision :
- Les arbres de classification ;
- Les arbres de régression.

III.4.1 Arbres de classification (Classification Tree)


Les arbres de classification permettent de prévoir l’affectation
d’observations ou d’objets à des classes d’une variable dépendante catégorielle à partir
de leurs mesures sur une ou plusieurs variables prédictives.

Le but des arbres de classification consiste à prévoir ou expliquer les


réponses d’une variable dépendante catégorielle.
L’étude et l’utilisation des arbres de classification n’est pas très répandue dans le
domaine des probabilités et des statistiques, mais les arbres de classification sont
largement utilisés en médecine (diagnostics), pour les calculs scientifiques (structures
des données), en botanique (classification) et en psychologie (théorie de la décision).
Les arbres de classification se prêtent volontiers à une représentation graphique, plus
simple à interpréter que des résultats purement numériques.

Le fait que les arbres de classification se prêtent bien à une représentation


graphique et qu’ils soient d’une relative facilité d’interprétation est sans doute à l’origine
de la popularité de cette technique, mais leur nature hiérarchique et leur souplesse
sont deux caractéristiques plus générales des arbres de classification.

De manière courante, les algorithmes pour construire les arbres de


décision sont construits en divisant l’arbre du sommet vers les feuilles en choisissant à
chaque étape une variable d’entrée qui réalise le meilleur partage de l’ensemble
d’objets. Pour choisir la variable de séparation sur un nœud, les algorithmes testent les

38
différentes variables d’entrée possibles et sélectionnent celle qui maximise un critère
donné. Dans le cas des arbres de classification, il s’agit d’un problème de classification
automatique. Le critère d’évaluation des partitions caractérise l’homogénéité (ou le
gain en homogénéité) des sous-ensembles obtenus par la division de l’ensemble. Ces
métriques sont appliquées à chaque sous-ensemble candidat et les résultats sont
combinés pour produire de la qualité de la séparation.
Il existe un grand nombre de critères de ce type, les plus utilisés sont l’entropie de
Shannon, l’indice de diversité de Gini et leurs variantes.

III.4.1.1 Indice de diversité de Gini


L’indice de diversité de Gini est utilisé par l’algorithme de CART, il sert à
mesurer avec quelle fréquence un élément aléatoire de l’ensemble serait mal classé si
son étiquette était sélectionnée aléatoirement depuis la distribution des étiquettes dans
le sous-ensemble. L’indice de Gini peut être calculer en sommant la probabilité pour
chaque élément choisi, multipliée par la probabilité qu’il soit mal classé. Il atteint sa
valeur minimum (Zéro) lorsque tous les éléments de l’ensemble sont dans une même
classe de la variable-cible.

Définition
Soit X une variable aléatoire discrète, prenant n valeurs x1 , … , xn de
probabilités d’obtention respectives p1 , … , pn . On appelle coefficient de Gini, la
quantité :
G(X) = 1 − ∑ pi 2 , avec i = 1, … , n (III.1)
n n
G(X1 , X 2 ) = ( 1⁄n) ∗ G(X1 ) + ( 2⁄n) ∗ G(X 2 ) (III.2)
G(X1 , X 2 ) c’est l’indice de Gini pour une partition de X en deux sous-ensembles X1
et X 2 selon un test donné.

III.4.1.2 Gain d’information


Le gain d’information d’un attribut T est la réduction des mesures
d’hétérogénéité (entropie ou gini) à laquelle on peut s’attendre si on fait une partition
sur la base de cet attribut.
Le gain d’information que le test T produit est :
|𝑋𝑣 |
Gain(X, T) = H(X) − ∑vϵ V(T) |𝑋|
𝐻(𝑋𝑣 ) (III.3)
Avec :
X : les exemples d’entraînement ;
T : l’attribut à tester ;
V(T) :les valeurs possibles de l’attribut T ;

39
X v : les sous-ensemble de X qui contient les exemples qui ont la valeur v pour l’attribut
T.

III.4.1.3 Entropie
L’Entropie introduit par Shannon est une fonction mathématique qui,
intuitivement correspond à la quantité d’information contenue ou délivrée par une
source. Dans le présent cas, elle est utilisée pour mesurer la quantité d’information
apportée par un nœud.
Elle se calcule avec la formule suivante :
H(X) = − ∑ni=1 p𝑖 log 2 𝑝𝑖 (III.4)
Avec p𝑖 : la proportion des exemples dans 𝑋 qui ont 𝑖 comme valeur pour la fonction
visée.

III.4.1.4 Rapport de gain d’information


Lorsque nous sommes face aux attributs numériques, ils ont la facilité d’être
choisit comme test dans un nœud alors pour éviter cela on utilise le rapport de gain
pour le choix de l’attribut que nous utiliserons dans un nœud.
Gain(X,a)
Rapport de gain(X, a) = (III.5)
SplitInfo(X,a)

|Xa=v | |Xa=v |
Avec : SplitInfo(X, a) = ∑v∈valeurs(a) |X|
ln2 |X|
(III.6)

III.4.2 Arbres de régression (Regression Tree)


Les arbres de régression permettent d’expliquer ou de prédire
l’appartenance d’objets à une classe sur base de variables explicatives qualitatives.

Dans le cas des arbres de régression, le même schéma de séparation peut


être appliqué, mais au lieu de minimiser le taux d’erreur de classification, on cherche à
maximiser la variance interclasses (avoir des sous-ensembles dont les valeurs de la
variable cible soient les plus dispersées possibles).

III.5 Taille de l’arbre de décision


Il n’est pas toujours souhaitable en pratique de construire un arbre dont les
feuilles correspondent à des sous-ensembles parfaitement homogènes du point de vue
de la variable-cible. L’apprentissage est réalisé sur un échantillon que l’on espère
représentatif d’une population. L’enjeu de toute technique d’apprentissage est d’arriver
à saisir l’information utile sur la structure statique de la population, en excluant les
caractéristiques spécifiques au jeu de données étudié. Plus le modèle est complexe,

40
plus l’on court le risque de voir ce modèle incapable d’être extrapolé à de nouvelles
données, c’est-à-dire de rendre compte de la réalité que l’on cherche à appréhender.
On cherche donc à construire un arbre qui soit le plus petit possible en assurant la
meilleure performance possible. Plus un arbre sera petit, plus il sera stable dans ses
prévisions futures.

L’enjeu de la recherche de la taille optimale consiste à stopper le pré-


élagage ou à réduire le post-élagage de l’arbre de sorte à obtenir un classifieur qui
correspondra au coude de la courbe sur l’échantillon test, lorsque le taux d’erreur
commence à se maintenir.

III.5.1 Pré-élagage
Le pré-élagage est une stratégie utilisable pour éviter un sur-
apprentissage des arbres de décision, il consiste à proposer des critères d’arrêt lors de
la phase d’expansion. Dans le cas où le groupe est constitué d’un effectif trop faible,
ou lorsque l’homogénéité d’un sous-ensemble a atteint un niveau suffisant, on
considère qu’il n’est plus nécessaire de séparer l’échantillon. Un critère souvent
rencontré dans ce cadre est l’utilisation d’un test statistique pour évaluer si la
segmentation introduit un apport d’information significatif pour la prédiction de la
variable-cible.

III.5.2 Post-élagage
Le post-élagage est une stratégie qui consiste à construire l’arbre en deux
temps :
- Dans un premier temps, on produit d’abord l’arbre dont les feuilles sont le plus
homogènes possibles dans une phase d’expansion, en utilisant une première
fraction de l’échantillon de données.
- En second lieu, on réduit l’arbre en s’appuyant sur une autre fraction des
données de manière à optimiser les performances de l’arbre. C’est à ce niveau
que nous parlons de la phase de post-élagage.

41
III.6 Algorithmes de construction d’arbre de décision
En ce qui concerne la construction d’arbre de décisions, il existe plusieurs
algorithmes dont les plus répandus sont : ID3, C4.5, CART, CHAID.

III.6.1 Algorithme ID3 ( I t e r a c t i v e D i c h o t o m i s e r 3 )


L’algorithme ID3 a été développé à l’origine par ROSS QUINLAN. C’est un
algorithme de classification supervisée. C’est-à-dire i l se b a s e s u r d e s
e x e m p l e s déjà classés dans un ensemble de classes pour déterminer un modèle
de classification.

Le modèle que produit ID3 est un arbre de décision. Cet arbre servira à
classer de nouveaux échantillons. Il permet aussi de générer des arbres de décisions
à partir de données. Supposons que nous ayons à notre disposition un
ensemble d’enregistrements ayant la même structure, à savoir un certain nombre de
paires d’attribut ou valeur. L’un de ses attributs représente la catégorie de
l’enregistrement. Le problème consiste à construire un arbre de décision qui sur
base de réponses à des questions posées sur des attributs non cible peut prédire
correctement la valeur de l’attribut cible.

a. Principe
Le principe de l’algorithme ID3 pour déterminer l’attribut à placer à la
racine de l’arbre de décision peut maintenant être exprimé :
Nous recherchons l’attribut qui possède le gain d’information maximum, le placer
en racine, et itérer pour chaque fils, c’est-à-dire pour chaque valeur de l’attribut.

b. Algorithme
Début
Initialiser à l'arbre vide ;
Si tous les exemples de E ont la même classe c
Alors étiqueter la racine par c ;
Sinon si l'ensemble des attributs A est vide
Alors étiqueter la racine par la classe majoritaire dans E ;
Si non soit a le meilleur attribut choisi dans A ;
Étiqueter la racine par a ;
Pour toute valeur v de a
Construire une branche étiquetée par v ;
Soit Eav l'ensemble des exemples tels que e(a) = v ; Ajouter
l'arbre construit par ID 3(A-{a}, Eav, c) ;

42
Fin pour
Fin sinon
Fin sinon
Retourner racine ;
Fin

III.6.2 Algorithme de C4.5


L’algorithme de C4.5 fait partie des algorithmes d’apprentissage supervisé, il
est basé sur l’algorithme de ID3 auquel il apporte plusieurs améliorations notamment
sur l’utilisation des attributs numériques.

A partir d’un échantillon d’apprentissage composé d’une variable objectif ou


variable prédite Y et d’au moins une variable d’apprentissage ou variables prédictives
{x1 , x2 , … , xn } = X , l’algorithme de C4.5 produit un modèle de type arbre de décision.
L’algorithme C4.5 se base sur le rapport de gain d’information dans l’échantillon
d’apprentissage pour produire le modèle.

Conclusion
Les arbres de décisions constituent des outils simples et faciles à interpréter
pour l’analyse et la prise de décision. Etant donné qu’ils fournissent des méthodes
efficaces qui permettent d’obtenir de bons résultats dans la pratique, avec des
algorithmes simples à utiliser. Concernant ce chapitre, nous avons parlé de quelques
algorithmes qui y sont implémenté. Les arbres de décision permettent d’affecter un
nouvel individu dans une classe déjà pré établie sur base de données existantes.

43
CHAPITRE

IV CONCEPTION ET
IMPLEMENTATION DU SYSTEME
[18]

IV.1 PRESENTATION DU PROBLEME


Aujourd’hui la connaissance du client constitue un atout important pour
toute entreprise qui espère persister dans le marché. Ainsi l’entreprise doit
concentrer sa force de sorte qu’elle puisse satisfaire au mieux sa clientèle et la
fidélisée.

Nous avons choisi le domaine de la télécommunication pour notre étude,


le but poursuivi est en se basant sur le comportement de la consommation d’un
client, nous allons déterminer sa classe d’appartenance.

Ce travail permet d’avoir une base scientifique sur la segmentation de la


clientèle d’une entreprise tout en se basant sur leurs comportements, ainsi les
décideurs sauront comment orienter leurs décisions.

IV.1.1 Aperçu sur la télécommunication [17]

IV.1.1.1. Définition
La télécommunication est toute transmission, émission et réception à
distance de signes, d’écrits, d’images, de sons ou de renseignements de toutes natures,
par fil électrique, par radioélectricité, liaison optique ou autres systèmes
électromagnétiques.

Le transport de la voix par téléphonie, fut la première avancée des


télécommunications, juste après les premiers télégraphes. Le téléphone est l’appareil
qui sert à tenir une conversation bidirectionnelle avec une personne lointaine.

La téléphonie mobile offre la possibilité de téléphoner sans connexion


filaire soit par une solution terrestre basée sur des zones de couverture hertzienne
d’antennes-relais, soit par satellite.

44
Pour ce travail, nous nous sommes référés à l’entreprise de télécommunication
Vodacom Congo.

IV.1.1.2. Services

Les entreprises de télécommunications offrent comme principal service les


appels et les services messageries (SMS). A cela elles ajoutent les services suivants :
 Internet : permet de réaliser une connexion à l'Internet via un téléphone
portable Gsm contenant une SIM Vodacom ;
 Fax et Data : permet de nombreuses applications telles que l'envoi et la
réception des Fax et l'utilisation du web avec toutes ses applications ;
 Le service Mpesa : permet aux abonnés Vodacom d’effectuer les transactions
d’argent via le téléphone etc.

IV.1.1.3. Caractéristiques
En ce qui concerne la télécommunication, pour bénéficier des services
offerts par ce dernier il faut du crédit ou unités et des forfaits.

a. Unités (Crédit)
Les unités sont une transformation d’une valeur monétaire en terme de
monnaie électronique pouvant nous permettre d’utiliser les services et offres offerts
par l’opérateur téléphonique.
Exemple : 100 Unités correspond à 1$ Américain.

b. Forfait
Un forfait désigne le prix qu’un consommateur est tenu de payer pour un
ensemble de prestation. La particularité d’un tarif forfaitaire est qu’il n’est pas du tout
dépendant de la manière dont l’acheteur utilise l’offre.

Dans la télécommunication, il existe plusieurs types de forfait dont on peut


citer :

- Forfait data ou internet ;


- Forfait appel ;
- Forfait SMS.

45
IV.1.2 Préparation de données
Pour le présent travail, nous avons utilisé une seule mesure qui est Unités,
cela nous a permis de comprendre le comportement sur la consommation de client
durant une période donnée.

IV.2 IMPLEMENTATION DU SYSTEME

IV.2.1 Outils utilisés

a. Microsoft SQL Server


Microsoft SQL Server est un système de gestion de base de données
(SGBD) en langage SQL incorporant entre autres un SGBDR (SGBD relationnel)
développé et commercialisé par la société Microsoft. La version utilisée pour ce
travail est SQL Server 2014 Microsoft Management Studio.

b. Microsoft Visual Studio


Visual est un ensemble complet d’outils de développement permettant
de générer des applications web ASP.NET, des services web XML, des applications
bureautiques et des applications mobiles. Nous l’avons utilisé pour le déploiement
de cube.

c. Microsoft Office
Microsoft Office est une suite bureautique propriétaire de la société
Microsoft. Pour notre travail, nous avons utilisé l’un de ses composants Microsoft
Excel pour la préparation de données.

d. Statistica
Statistica est un logiciel d’analyse de données implémenté par Dell
Software. Pour notre travail cela nous a permis de faire la segmentation.

e. Weka
Weka est une suite de logiciels d’apprentissage automatique écrite en
Java et développée par l’université de Waikato en Nouvelle-Zélande.
Pour ce travail nous l’avons utilisé pour pouvoir générer l’arbre de décision en vue
de bien faire la prédiction.

46
IV.2.2 Modèle Multidimensionnelle
Le Data warehouse nous a servi de source de données pour cette étude.
Le choix porté sur ce dernier est justifié par certaines opérations importantes offertes
qui nous ont servis avant la segmentation.
Pour l’implémentation du Data Warehouse, nous avons eu besoin des éléments
suivants :
- Dimensions Client, Temps, Zone_Géographique ;
- Fait Recharger.
Voici le schéma du Data warehouse :

Figure IV.1 Schéma du Data Warehouse

Après cela, nous sommes passés dans l’outil SSAS de Business Intelligence pour
l’implémentation du cube et son déploiement, après certaines étapes voici le cube
obtenu :

47
Figure IV.2 Cube

Après le déploiement du cube nous avons chargé les données dans notre base de
données décisionnelle en utilisant le SSIS.

IV.2.3 Analyse de données

a. Segmentation de données
Compte tenu de la forme brute de données en notre possession, nous ne
pourrions passer à l’arbre de décision sans pour autant segmenter nos données en
fin d’obtenir la variable dépendante qui nous servira dans les analyses qui suivront.
Pour cela nous nous sommes servis de l’algorithme de K-Means pour la
segmentation de données avec le logiciel Statistica.

48
Nous commençons par aller dans l’onglet Data Mining et puis l’option Classification :

Figure IV.3 Classification


Dans l’interface précédente, nous avons choisi les paramètres suivants : la variable
Catégorielle Profession et la variable Continue Crédit. Comme Algorithme, nous
avons utilisé le K-Moyennes avec comme nombre de classes 3.
Figure IV.4 Résultats
La distance utilisée est la distance Euclidienne, la taille des observations ou de
l’échantillon était de 209 individus et une erreur d’apprentissage de 0,033891
Voici l’extrait de classes et distances obtenues sur le tableau suivant :

49
Id MSISDN First_Name Last_Name Profession Credit Commune Classification finale Distance
1 829845299 NDULU AUDRY Etudiant 27,00 Kimbaseke Standard 0,019
2 819358792 LUABEYA SHAMBUYI Etudiant 18,00 Lemba Standard 1,000
3 810777278 BEKUNYA SYLVER Etudiant 16,00 Lemba Standard 0,032
4 816609591 MOMPANGO SERGE Avocat 555,00 Limeté Bon 1,005
5 818360107 MAVUBULA ADUEKA Etudiant 18,00 Kimbaseke Standard 0,005
6 821730559 DANAKPALI HUGUES Professeur 800,00 Mont Ngafula VIP 1,004
7 825073252 KALOMBO MUKENA Etudiant 16,00 Lemba Standard 0,032
8 817045944 LOR MAB’S Etudiant 95,00 Kinshasa Standard 1,004
9 827516570 BEN CIBANGU Banquier 252,00 Kintambo Bon 1,009
10 815948317 KAMUANYA SARAH Pensionné 45,00 Mont Ngafula Standard 1,000
11 821084838 SHAMAMBA DANIEL Etudiant 16,000 Lemba Standard 0,032
12 822077399 MVUMBI FUKIAU Etudiant 25,00 Bandal Standard 0,045
13 811297080 NKUNKU MALU Enseignant 48,00 Ngiri-Ngiri Standard 1,000
14 824389251 MUAKA WILU Chômeur 2,00 Selembao Standard 1,005
15 820095551 MBAMBA KASONGA Elève 5,00 Ngaliema Standard 1,004
16 823941913 MATALATALA GAVUNJI Pensionné 15,00 Kinshasa Standard 1,000
17 813701248 KOTONGO JULES Elève 6,50 Lemba Standard 1,004
18 825149136 NTUMBA NKONGOLO Pensionné 52,00 Limeté Standard 1,001
19 826280286 LIYANZA STACY Etudiant 35,00 Kasa Vubu Standard 0,005
20 823539852 NZEY NEHEMIE Etudiant 22,00 Matété Standard 0,048
21 825736580 ONYEMBO DOMINIQUE Professeur 630,00 Limeté VIP 1,001
22 811605028 MUGBANGAKA WANGA Fonctionnaire 60,00 Lemba Standard 1,008

Tableau IV.1 Classes et distances obtenues avec K-Means

50
b. Prédiction avec l’Arbre de décision
Après avoir segmenter les données, nous sommes passés à la génération
de l’arbre de décision pour pouvoir prédire selon certaines règles la classe
d’appartenance d’un nouvel individu, et pour cela nous avons utilisé l’algorithme de
C4.5 qui est implémenté dans le logiciel Weka.
Voici les paramètres définis :

Figure IV.5 Paramètres pour l’exécution de l’algorithme de C4.5, implémenter dans


Weka

51
Après le choix des paramètres appropriés, voici les résultats obtenus :

Figure IV.6 Arbre de décision

Règles d’affectation

Après avoir généré l’arbre de décision, voici les règles d’affectation qui en
découle :
Comme racine de l’arbre nous avons le Crédit, nous testons d’abord pour
commencer la consommation de l’abonné, si elle est inférieure ou égale 195
USD le mois donc l’abonné sera affecté à la classe Standard ;
Dans le cas où sa consommation se situe entre 195 et 625 USD le mois, alors
cela nous conduit à un autre test pour arriver à déterminer la classe
d’appartenance de l’abonné :
 Si l’abonné exerce comme profession Fonctionnaire de
l’état, Ménagère, Etudiant ou Journaliste dans ce cas, il
est affecté dans la classe Standard.
 Sinon, il s’agit d’une profession différente alors l’abonné
est affecté à la classe Bon ;

52
Dans le cas où la consommation de l’abonné est strictement supérieure à 625
USD le mois, alors nous dévons vérifier sa profession pour déterminer sa
classe :
 Si l’abonné exerce comme profession Professeur ou
Businessman alors l’abonné sera classé parmi les VIP ;
 Sinon l’abonné sera affecté dans la classe Standard.

Figure IV.7 Résumé du déroulement de l’algorithme.


Sur un échantillon de 209 individus, il y a eu 3 cas d’erreurs dans les classes Bon et
Standard, avec comme une moyenne d’erreur absolue de 0,0179 et une moyenne
d’erreur quadratique de 0,0945.
Voici la matrice de Confusion :
Standard (Observé) VIP (Observé) Bon (Observé)
Standard (prévu) 157 0 1
VIP (prévu) 0 18 0
Bon (prévu) 2 0 31
Tableau IV.2 Matrice de Confusion
Dans la segmentation de données les individus ont été affecté dans des classes et
cela sont dites Classes prévues. Alors en utilisant la technique d’arbre de décision,
nous avons constaté qu’un abonné prévu Standard s’est retrouvé dans le Bon après

53
observation. Et aussi deux abonnés prévus Bon se sont retrouvés dans la classe
Standard.

IV.2.4 Résultats et interprétation


Nous avons segmenté les données en trois classes comme cela est
présenté dans le Tableau IV.1 ci-haut. Et après avoir généré l’arbre de décision nous
avons obtenu ce qui suit :

 Pour les comptes Standard, elle représente 75.6 % de l’échantillon testé et leur
consommation mensuelle est inférieure ou égale à 195.00 USD.
 Pour les comptes Bon ou moyen, ils représentent 15.79 % de l’échantillon analysé
et leur consommation mensuelle est supérieure à 195.00 et inférieure ou égale à
625.00 USD.
 Pour les comptes VIP, ils représentent 8.61 % de l’échantillon, la consommation
mensuelle pour cette classe d’individus est supérieure à 625.00 USD.

D’après les résultats ci-haut, l’entreprise devrait concentrer plus sa force sur la
fidélisation des comptes VIP et Bon car ils constituent car ils rapportent beaucoup
d’argent à l’entreprise.

54
CONCLUSION GENERALE

Nous voici au terme de notre travail, dont les objectifs étaient de


pouvoir regrouper une population donnée en segment ensuite de dégager les règles
de décision nécessaires pour prédire avec confiance la classe d’appartenance d’un
nouvel individu.

En effet, d’emblée ce n’est pas toujours évident de pouvoir affecter avec


certitude un nouvel individu dans une classe et c’est une tâche, qui, de nos jours se
fait automatiquement par de machine dotées d’une certaine intelligence.
Avec l’apprentissage artificiel, le travail humain est devenu de plus en plus facilite, car
certaines tâches répétitives peuvent être effectuer d’une manière automatique avec
ou sans aide de l’homme. Ce domaine regorge en son sein plusieurs méthodes dont
nous avons étudiés quelques-unes plus haut dans ce travail, nous pouvons citer le
K-Mean, les Nuées dynamiques, l’Arbre de décision, etc.
En ce qui nous concerne, nous nous sommes servis de l’algorithme de K-Mean pour
pouvoir diviser les individus en classes homogènes c’est-à-dire les classes dont
l’inertie intraclasse est faible et l’inertie interclasse est forte. Cette étape ne suffisait
pas pour atteindre nos objectifs, il nous a fallu établir les règles d’affectation à l’aide
de l’Arbre de décision pour que dans le cas où, nous avons un nouvel individu qu’il
faut ajouter, que nous nous en servions facilement pour effectuer l’opération.
Les arbres de décision permettent non seulement la prédiction mais aussi
l’exploration de données et l’interprétation de la pertinence d’une variable par
rapport à un jeu de donnée. Pour y parvenir, nous avons utilisé deux logiciels
d’apprentissage artificiel qui sont :
Statistica, qui est un bon logiciel d’analyse et de fouille de données, dont nous
avons utilisé pour pouvoir segmenter les données.
Weka, est une suite de logiciels open source, dans lequel on a implémenté
plusieurs méthodes d’apprentissage artificiel. Nous avons eu recours à ça pour
l’utilisation de l’algorithme de C4.5 qui s’y trouve.
L’objectif qui nous a été assigné étant atteint, nous sommes ouverts à
toutes remarques et suggestions, car l’œuvre humaines ne peut être parfaite.

55
Bibliographie
Ouvrage
[1] Cornuéjols ANTOINE et Miclet LAURENT, Apprentissage artificiel. Eyrolles,
Paris, 2009 ;
[2] Dafar MALOUCHE, Méthodes de classification, ESSAI-U2S-ENIT, (Juin 2013)
[3] Lefébure RENE et Venturi GILLES, Gestion de la relation client. Eyrolles,
Paris, 2005 ;

Notes de cours
[4] Jamal ATIF, Apprentissage Artificiel et fouille de données Arbres de décision,
Université Paris Dauphine, 2015-2016.
[5] Léonard N. MANYA, Recherche Opérationnelle, Troisième graduat
Informatique, Université de Kinshasa, 2014-2015.
[6] Nathanaël M. KASORO, Analyse de données, Deuxième licence
Informatique de Gestion, Université de Kinshasa, 2016-2017.
[7] Ph. PREUX, Fouille de données (Notes de cours), Université de Lille 3, 2009.
[8] Pierre K. KAFUNDA, Gestion Infocentre. Cours inédit, Deuxième licence
Informatique de Gestion, Université de Kinshasa, 2016-2017.

Mémoires
[9] Fabrice MIKIMI, Mise en place d’un outil d’aide à la prise de décision basé
sur le Data Warehouse et l’Arbre de décision pour l’analyse des produits,
Université de Kinshasa, 2016.
[10] Jonathan MUBENGA, Construction d’un modèle basé sur les séparateurs à
vaste marge pour la prédiction du cancer du sein à partir des données
mammographiques, Université de Kinshasa, 2017.
[11] Nadia MARREF, Apprentissage incrémental et Machines à Vecteurs
Supports. Université HADJ LAKHDAR – BATNA (18/12/2013).

Webographie
[12] https://www.see-d.fr/la-classification-au-sens-statistique/ (03 février 2018)
[13] https://www.mywebmarketing.fr/arbres-de-decision-data-mining/ (10 décembre
2017)

56
[14] http://www.cynapsys.de/content/l’apprentissage-automatique/ (06 mars 2018)
[15] http://blocnotes.iergo.fr/breve/categorielle-quantitative-discrete-ou-continue/
(27 mars 2018)
[16] https://www.groupe-hli.com/nos-metiers/hli-lab/ (12 janvier 2018)
[17] http://www.wikilean.com/Articles/Measure/5-Introduction-a-la-statistique-4-
articles/2-Les-differents-types-de-données, (06 mars 2018)
[18] https://www.boursedescrédits.com/lexique-definition-forfait-2086.php, (27 mars
2018)

57

Vous aimerez peut-être aussi